Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för varje påstående nedan om det är rätt eller om det är fel. a) Bias kan bara uppstå genom felaktig urvalsmetodik. b) Signifikansnivån för ett test är sannolikheten att förkasta nollhypotesen givet att nollhypotesen är sann. c) Styrkan för ett test är sannolikheten att förkasta nollhypotesen givet att nollhypotesen är falsk. d) Det blir lättare att förkasta en nollhypotes om man ändrar signifikansnivån från 5% till 1%. e) Korrelation mellan två variabler kan bara användas om relationen mellan dem är linjär. f) Standardavvikelsen (s) är 22.8 för datamängden: 23.5 26.7 14.6 17.5 20.2 C2. (3 poäng) Ange för varje variabel nedan om den är nominal, ordinal, diskret eller kontinuerlig. a) syrekoncentration b) hur många bland de 20 djur som behandlast som påvisar en negativ reaktion c) typ av kust d) klassning av ekologisk status av kustvatten enligt en femgradig skala från hög till dålig e) antal arter funna i en nätfångst f) våghöjd (forts)
C3. (8 poäng) För att studera hur arktiska fiskar påverkas av förhöjd temperatur har man utfört experiment i Grönland på arten falsk simpa. Temperaturen har varierats med värdena 9 o C och 14 o C och blodflödet i tarmen resgistrerades. Följande design användes och avrundade mätvärden anges i tabellen nedan: Fisk nr 9 gr 14 gr 1 106.5 115.8 2 97.1 143.9 3 81.5 103.4 4 107.5 135.5 5 96.4 133.9 6 76.4 125.4 7 148.3 172.2 8 115.1 107.3 9 103.6 107.4 10 103.6 107.4 I en utskrift från Excel finns resultatet från tre olika statistiska analyser. Se separat blad. a) Vilken av de tre utskrifterna är rätt val, dvs vilken statistisk metod är den rätta att använda i detta experiment? Motivera ditt val. b) Hur ser modellen ut, dvs vad använder man för variabel från data ovan för att utföra testet? Ange också hypotesterna. c) Vad blir slutsatsen? Förklara hur du kom fram till den genom att hänvisa till lämplig information i Excelutskriften. (forts)
C4. (3 poäng) Vi har en variabel X som är normalfördelad med båda parametrarna okända. Funktionen X µ är då t-fördelad. Antag att n = 25. a) Vad är P( X µ S/ n 1.318)? b) Vad är P( X µ S/ n > 2.064)? S/ n c) Vad är värdet som avgränsar sannolikheten 99% till vänster om denna punkt (dvs 99%-percentilen). Med andra ord: för vilket värde på t är t) = 0.99? P( X µ S/ n C5. (4 poäng) Variabeln Y = strömhastighet (cm/s) för en viss position under vissa omständigheter. Den antas vara normalfördelad med µ = 10 och σ 2 = 2. a) Vad är sannolikheten att man får ett mätvärde som överstiger 13.2? b) Om man istället jobbar med ett medelvärde Ȳ från n = 7 observationer, vad är sannolikheten att medelvärdet är mindre än 9.1? Visa noga i varje led hur beräkningarna görs. Använd även gärna illustrationer.
MAR103 Tentamen (statistikdelen) 2014-12-05. Kortfattade lösningar och kommentarer: C1. a) Fel. Bias kan även uppstå t ex då ett mätinstument har ett systematiskt fel. b) Rätt. c) Rätt. d) Fel. Ju mindre risk man vill ha att felaktigt förkasta en nollhypotes, desto svårare får man att göra det. e) Rätt. Det är bara ett mått på det linjära sambandet. f) Fel. Det är variansen s 2 som presenterades. Standardavvikelsen är s 2 = 22.8 = 4.8 (avrundat). C2. a) Kontinuerlig b) Diskret c) Nominal d) Ordinal e) Diskret f) Kontinuerlig C3. a) Den första utskriften är rätt. Korrekt metod är parat t-test eftersom man gör två mätningar på varje fisk (man har beroende data). b) Låt µ D vara väntevärdet för differenserna (D) med modellen att D är N(µ D,σ 2 ). Hypoteserna formuleras som H 0 : µ D = 0 och H 1 : µ D 0. c) Slutsatsen blir att H 0 kan förkastas på signifikansnivån 5% (även på signifikansnivån 1%) eftersom det tvåsidiga p-värdet α. Man kan påvisa att förväntat blodflöde i tarmen påverkas och ökar signifikant vid den högre temperaturen. C4. Ur tabellen för en t-fördelning med 24 frihetsgrader: a) 0.9 b) 1-0.975=0.025 c) 2.492 C5. a) P(Y > 13.2) = P(Z > 13.2 10 2 ) = P(Z > 2.26) = 1 0.9881 = 0.0119 9.1 10 b) P(Ȳ 9.1) = P(Z ) = P(Z 1.68) = 1 0.9535 = 0.0465 2/7
Tentamen 2015-01-16 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (4 poäng) Man har i ett test med signifikansnivå 5% en nollhypotes att två väntevärden är lika. Mothypotesen är formulerad som att väntevärdena skiljer sig åt. Vad blir slutsatsen om a) p-värdet blev 0.049? b) p-värdet blev 0.051? c) Det kan vara viktigt med en extra kommentar till slutsatsen i ett av de två fallen ovan. Ange vilket av fallen och hur kommentaren skulle kunna formuleras. C2. (4 poäng) a) I en tabell har deskriptiv statistik för en variabel X presenterats där x = 12.5 och s = 4. Vad kan man göra för uttalande om detta? Vilket av alternativen nedan är rätt? Ge en motivering till ditt svar. 1) Alla värden för X ligger inom 4.5 och 20.5 2) Ca 95% av värdena för X ligger inom 10.5 och 14.5 3) Ca 95% av värdena för X ligger inom 8.5 och 16.5 4) Ca 95% av värdena för X ligger inom 4.5 och 20.5 5) Det är 95% säkert att väntevärdet µ för X är 12.5 6) Det är 95% säkert att väntevärdet µ för X ligger inom 4.5 och 20.5 b) Om man får reda på att det istället var s/ n som hade värdet fyra, vilket av alternativen ovan är i så fall rätt?
C3. (9 poäng) För att jämföra två olika vikar har man tagit prover och sedan mätt askfri torrvikt för sandräka. Man har antagit att normalfördelningar med samma teoretiska varians har varit lämpligt att använda som modell för variablerna. Sammanfattande mått från de två variablerna blev: Medelvärde Standardavvikelse (s) Stickprovsstorlek Från vik 1: 2.11 0.78 10 Från vik 2: 1.12 0.65 9 a) Beräkna ett 99%-igt konfidensintervall för µ 1 µ 2. b) Använd det uträknade konfidensintervallet i a) som grund till att testa hypotesen: H 0 : µ 1 = µ 2 mot H 1 : µ 1 µ 2 Vad blir resultatet och vad är signifikansnivån i testet? Förklara vad som ligger till grund för din slutsats. C4. (4 poäng) Det finns planer att starta en musselodling. För att se vad konsekvenserna blir tänker man göra mätningar på vattenkvaliteten på olika platser inom området för odlingen. Plats Före Efter 1 x 1 y 1 2 x 2 y 2 3 x 3 y 3 4 x 4 y 4 5 x 5 y 5 6 x 6 y 6 7 x 7 y 7 Hur skall dessa tänkta värden användas i ett parat t-test (dvs vid matchning )? Visa principen och ange förutsättningarna för att testet skall kunna användas. Formulera också nollhypotesen och ett eget val av en mothypotes. Skriv även syftet i klartext till din mothypotes. C5. (3 poäng) Sannolikheten för att vädret skall bli bra en viss dag i november är 35%. Sannolikheten för att man har kommit ihåg att tanka en båt är 90%. För att komma ut och ta prover denna speciella dag i november krävs att vädret är bra och att båten har bränsle. a) Vad är sannolikheten att detta inträffar? b) Vad är förutsättningen för dessa två händelser för att kunna beräkna sannolikheten i a-uppgiften?
MAR103 Tentamen (statistikdelen) 2015-01-16. Lösningar och kommentarer: C1. a) Man kan förkasta H 0 eftersom p-värdet är mindre än signifikansnivån α. Slutsatsen blir alltså i klartext att man på signifikansnivå 5% kan påvisa en skillnad mellan väntevärdena. b) Man kan inte förkasta H 0 eftersom p-värdet är större än α. Slutsatsen blir då i klartext att man i denna undersökning på signifikansnivå 5% inte kan påvisa en skillnad mellan väntevärdena. c) Gör det till fallet b), speciellt med tanke på hur nära man är ett signifikant resultat. Kommentaren skulle kunna vara: Det kan vara en stor risk för typiifel, dvs risken att felaktigt inte kunna förkasta nollhypotesen. Eventuellt skulle en liten ökning av stickprovsstorleken kunna leda till en slutsats om en signifikant skillnad. C2. a) Alternativ 4). Med normalfördelning som modell ligger ca 95% av alla värden på X inom ±2σ från µ. Med s och x som skattningar av dessa parametrar kan man göra samma uttalande (approximativt). b) Alternativ 6). Nu utnyttjas beräkning av konfidensintervall, dvs ett uttalande om µ. C3. a) (0.029,1.951) b) H 0 : µ 1 = µ 2 dvs H 0 : µ 1 µ 2 = 0 kan förkastas eftersom 0:an inte ingår i intervallet. Eftersom konfidensgraden är 99% innebär det att signifikansnivån är 1%. C4. Ta differenser (D) mellan varje par av data. Använd sedan dessa med modellen att D är normalfördelad N(µ D,σ 2 ). Nollhypotes: H 0 : µ D = 0. Med D = Y X kan tre mothypoteser formuleras: H 1 0 : µ D 0 om man vill påvisa en förändring, H 2 0 : µ D > 0 om man vill påvisa en förbättring (om höga värden är bra) samt H 3 0 : µ D < 0 om man vill påvisa en försämring. C5. a) 0.35 0.9 = 0.315. b) Händelserna måste vara oberoende för att använda sättet att räkna i a-uppgiften (jämför med avsnitt 1 i formelsamlingen).
Tentamen 2015-02-28 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (5 poäng) a) Förklara vad det är för skillnad mellan en variabel och en parameter. (2p) b) Är följande uttalande korrekt? : Att få ett statistiskt signifikant resultat innebär att resultatet också är biologiskt relevant. Motivera ditt svar. (1p) c) Beskriv kort utifrån ett exempel varför det är så viktigt att göra en randomisering. (1p) d) Antag att man beräknat ett 99%-igt konfidensintervall för differensen mellan två väntevärden. Om man sedan vill använda konfidensintervallet för att utföra ett test där nollhypotesen är att väntevärdena är lika medan mothypotesen är formulerad som att de skiljer sig åt, vilken signifikansnivå har man då i testet? (1p) C2. (9 poäng) Man har undersökt om ph i saltvattnet inom ett område är neutralt. Syftet var att testa om väntevärdet var 8.1 (anpassat till temperaturen i området) eller om det avvek från det värdet. Man ansåg att normalfördelningen var lämplig som modell. Signifikansnivån valdes till 1%. Resultatet från testet anges nedan. Medelvärde: 8.068 Stickprovsvarians: 0.00017 Stickprovsstorlek: 5 Teststatistikans värde: 5.49 p-värde (ensidigt): 0.0027 p-värde (tvåsidigt): 0.0054 a) Ange hypoteserna från den frågeställning som beskrivits ovan. Glöm inte att förklara dina beteckningar. Tolka utskriften och dra en slutsats och motivera hur du drog den. b) Beräkna med hjälp av information i tabellen ett 99%-igt konfdensintervall för väntevärdet.
C3. (4 poäng) Man har studerat ph i hemolymfan (kroppsvätskan) hos kammussla. Hälften av djuren hölls i kar med ph 7.7 i vattnet (grupp 1) medan den andra hälften hade ph 8.1 (grupp 2). Hypoteserna var H 0 : µ 1 = µ 2 och H 1 : µ 1 µ 2 och signifikansnivån var vald till 5%. Kommentera varje påstående nedan. Påstående 1: Eftersom p-värdet för testet blev 0.18 kan man säga att ph i hemolymfan är lika i de två grupperna. Påstående 2: Det enda kravet för att få göra ett tvåstickprovs t-test är att de två variablerna är normalfördelade och har samma teoretiska varians. Påstående 3: Om jag skall göra en egen studie med samma upplägg och frågeställning kan jag utnyttja medelvärdena och standardavvikelserna från data i denna när jag gör min egen försöksplanering, t ex för att bestämma stickprovsstorlekarna. C4. (3 poäng) En person utan speciellt bra artkunskap skall ändå artbestämma fiskar. Åtta individer läggs fram en och en och personen skall ange vilken art det är. Vid varje tillfälle ges tre förslag på arter (där ett är rätt). Antag att personen bara gissar varje gång. Med vilken modell skall man beskriva försöket då man summerar antalet rätt. Ange även parametrarna i denna modell. C5. (3 poäng) Fyll i tre av de fyra rutorna nedan med signifikansnivån α (fel av första slaget), med β (fel av andra slaget) samt med styrkan 1 β. Beslut: Förkasta inte H 0 Beslut: Förkasta H 0 Verklighet: Verklighet: H 0 är sann H 0 är falsk
MAR103 Tentamen (statistikdelen) 2015-02-28. Lösningar och kommentarer: C1. a) Parameter; en karakteristika i en population(teoretiskt mått i en fördelning). Variabel; värde som varierar för olika objekt/individer (men kan beskrivas med hjälp av en fördelning). b) Nej. Man kan statistiskt visa mycket små skillnader/effekter men de behöver inte alls vara av biologisk eller praktisk betydelse. c) Ta något exempel på ett urval eller ett från utförandet av mätningarna. Påpeka risker med systematiskt fel eller att andra faktorer som inte kan kontrolleras kan påverka slutsatserna. Genom randomisering (slumpmässig allokering eller utförande) kan inverkan från dessa störande faktorer förhoppningsvis elimineras eller åtminstone minska. d) Signifikansnivån är 1%. C2. a) H 0 : µ = 8.1 och H 1 : µ 8.1 med µ som en beteckning för väntevärdet i den normalfördelning som antas för responsvariabeln (ph i saltvatten). Eftersom den tvåsidiga p-värdet är mindre än signifikansnivån 0.01 kan H 0 förkastas. Man kan alltså påvisa en signifikant ändring (sänkning) av (förväntat) ph. b) Det 99%-iga konfidensintervallet för µ blev (8.04, 8.09). C3. Påstående 1: Fel. Om man inte kan förkasta en nollhypotes (som i det här fallet eftersom p-värdet blev så stort) betyder det inte att nollhypotesen behöver vara sann. Påstående 2: Fel. Variablerna skall dessutom vara oberoende. Påstående 3: Rätt. Man skall utnyttja relevant information till sin planering. En beräkning av stickprovsstorlekar kräver(förutom signifikansnivå och styrka som är enkla att bestämma själv) information om förväntad skillnad och variation. Skattningar av dessa parametrar kan göras med andras data. C4. Låt X=antal rätt. Variabeln är binomialfördelad bin(n,p) med n = 8 och p = 1/3. C5. Verklighet: Verklighet: H 0 är sann H 0 är falsk Beslut: Förkasta inte H 0 β Beslut: Förkasta H 0 α 1 β