Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 3 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Inferens om två populationer (kap 8.1 8.) o Parvisa observationer (kap 9.1 9.) o p-värde (kap 6.3) o Feltyper, styrka, stickprovsstorlek (kap 7.6 7.7, 8.3 8.4)

Inferens om två populationer Hypotesprövning och konfidensintervall går även att använda när man vill undersöka skillnader mellan två populationer. Det som måste kunna antas är att: de två stickproven är slumpmässigt dragna och oberoende av varandra samplingfördelningen för stickprovsstatistikan kan betraktas som normalfördelad 3

Inferens om två populationer Hypotesprövning Hypoteserna formuleras som vanligt beroende på frågeställning, och kan skrivas på t.ex. detta vis: (GB s. 139-141, BB s. 131-133) H 0 : μ 1 μ = μ 0 H a : μ 1 μ μ 0 Om de två populationerna kan antas ha samma varians beräknas testvariabeln enligt denna formel: t = X 1 X μ 0 s p n 1 + s p n där s p är en poolad varians som beräknas enligt: s p = SS 1 + SS ν 1 + ν = X 1i X 1i + X n i 1 n 1 1 + n 1 X i n

Inferens om två populationer Hypotesprövning Om de två populationerna inte kan antas ha samma varians beräknas testvariabeln enligt denna formel: (GB s. 145-146, BB s. 137-138) t = X 1 X μ 0 s 1 n 1 + s Detta brukar kallas (enligt kursboken) för Behrens-Fisher test. n 5

Inferens om två populationer Hypotesprövning Lika varians: (GB s. 141, BB s. 133) Om nollhypotesen är sann följer testvariabeln t en t- fördelning med ν 1 + ν = n 1 1 + n 1 frihetsgrader. Olika varians: (använd definitionen nedan eller bokens i GB s. 147, BB s. 139) Om nollhypotesen är sann följer testvariabeln t en t- fördelning med det minsta av n 1 1 och n 1 frihetsgrader. Det sista steget är att jämföra den beräknade testvariabeln med ett kritiskt värde, vilket varierar beroende på hypotesformulering, signifikansnivå och antalet frihetsgrader. 6

Inferens om två populationer Exempel hypotesprövning Cesiumhalten har uppmätts på 4 slumpmässigt utvalda öringar i Jämtlands län och slumpmässigt utvalda öringar i Gävleborgs län. Följande siffror har sammanställts: X = 81.375 s = 136. ΣX i = 6753 ΣX i = 36 905 X = 51.455 s = 10.63 ΣX i = 553 ΣX i = 1 61 38 Man vill nu undersöka om det är signifikanta skillnader i cesiumhalt mellan öringar i Jämtlands län och Gävleborgs län. Frågeställningarna är följande: a) Är medelcesiumhalterna i öringar i de båda länen skilda från varandra? b) Är medelcesiumhalten i öringar i Gävleborgs län lägre än den i Jämtlands län? 7

Inferens om två populationer Konfidensintervall (GB s. 151 (14),BB s.143(8.14)) För att beräkna dubbelsidigt konfidensintervall för skillnaden mellan två populationer används nedanstående formel: X 1 X ± t α,ν s p n 1 + s p n Där ν = n 1 1 + (n 1) och s p är samma poolade varians som beräknades vid hypotesprövning. Enkelsidiga konfidensintervall kan också beräknas: (GB s. 15 (a), BB s. 144 (a)) X 1 X + t α 1,ν s p n 1 + s p n Uppåt begränsat konfidensintervall X 1 X t α 1,ν s p n 1 + s p n 8 Nedåt begränsat konfidensintervall

Inferens om två populationer Exempel konfidensintervall Vi återgår till exemplet om den uppmätta cesiumhalten i öringar i Jämtlands och Gävleborgs län. X 1 = 81.375 n 1 = 4 X = 51.455 n = s p = 1476.6 Beräkna: a) Ett 95 % dubbelsidigt konfidensintervall för skillnaden i cesiumhalt i öringar mellan de två länen b) Ett 90 % nedåt begränsat konfidensintervall för skillnaden i cesiumhalt i öringar i Jämtlands län jämfört med Gävleborgs län 9

Inferens om två populationer Relationen mellan hypotesprövning och konfidensintervall Hypotesprövning och konfidensintervall hänger ihop på samma sätt vid jämförelse av två populationer: Om mothypotesen innehåller kan H 0 förkastas om μ 0 ej ingår i ett dubbelsidigt konfidensintervall Om mothypotesen innehåller > kan H 0 förkastas om μ 0 ej ingår i ett nedåt begränsat konfidensintervall Om mothypotesen innehåller < kan H 0 förkastas om μ 0 ej ingår i ett uppåt begränsat konfidensintervall Under förutsättning att samma signifikansnivå använts. 10

Parvisa observationer Ibland finns det ett beroende mellan de två stickproven som ska undersökas och det kan även vara så att man observerar samma enhet två gånger för att upptäcka skillnader vid någon speciell brytpunkt. T.ex. kalkning av sjö, byte av foder osv. På grund av beroendet som uppstår mellan de två stickproven kan ej det t-test för två populationer som vi nyss diskuterade användas. Man ska istället använda metoden för parvisa observationer. 11

Parvisa observationer Första steget är att beräkna differensen för varje enhet. Därefter beräknas medelvärde och standardavvikelse på denna differens. På den beräknade differensen så utförs en hypotesprövning enligt den vanliga metodiken för en population. (GB s. 189-191, BB s. 179-181) H 0 : μ d = μ 0 H a : μ d μ 0 Testvariabeln beräknas enligt: t = d μ 0 s d 1

Parvisa observationer Exempel Det finns en teori att sprintlöpare presterar bättre på en bana de känner till. Därför fick tio stycken 00-meterslöpare åka till en för dem okänd bana och springa ett lopp första dagen och ett andra dagen. Deras tider anges nedan. Sprinter Dag 1 Dag 1 0,3 0,19 0,10 0,11 3 0,33 0,5 4 0,18 0,16 5 0,41 0,43 6 0,0 19,99 7 0,17 0,17 8 0,36 0,3 9 0,07 0,08 10 0,1 0,15 Utred utifrån dessa siffror om teorin stämmer. 13

p-värdet När man genomför hypotesprövning kan man utreda om H 0 kan förkastas eller ej genom att observera p-värdet. p-värdet är sannolikheten att testvariabeln ska anta ett värde som det observerade eller ännu längre från μ 0 i den riktning mothypotesen (H a ) pekar. Ju lägre p-värde, desto mindre tror vi på vår nollhypotes. Beslutsregeln är att om p-värdet är lägre än signifikansnivån (α) så förkastas nollhypotesen (H 0 ). När populationsstandardavvikelsen är känd och normalfördelningstabell används kan man bestämma p-värdet själv. Men när t-fördelningen används blir det svårare, och då tar man datorn till hjälp. 14

Inferens Feltyper och styrka vid hypotesprövning Det finns två sorters fel som kan uppstå vid hypotesprövning. Dessa illustreras i tabellen nedan. H 0 sann H 0 falsk Förkasta H 0 Typ I-fel (α) Korrekt beslut Förkasta ej H 0 Korrekt beslut Typ II-fel (β) Signifikansnivån (α) är sannolikheten för typ I-fel. Testets styrka, dvs testets förmåga att förkasta en falsk nollhypotes, beräknas enligt 1 β. Detta är i praktiken väldigt svårt att räkna ut, men boken ger några exempel på hur man kan gå tillväga. 15

Inferens Stickprovsstorlekar Att välja storlek på de stickprov som ska dras är inte helt lätt. Dels vill man: upptäcka en statistiskt säkerställd skillnad, men samtidigt inte upptäcka en statistisk skillnad som inte är av biologisk betydelse Boken tar upp och diskuterar metoder för att bestämma urvalsstorlekar med hjälp av vilken differens man vill kunna upptäcka och tidigare erfarenheter. Dessa metoder bygger på flera antaganden som kan vara svåra att göra, så i denna kurs kommer vi ej att fokusera på att välja rätt stickprovsstorlekar. 16

Tack för idag! Nästa tillfälle: Föreläsning 4, onsdag 15/, kl. 10-1, sal P44 17