Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Andelar (kap 24) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test och konfidensintervall för två andelar (kap 24.10, 24.11) o Analys av korstabeller (kap 23.0 23.1) 2

Andel för en population Hypotesprövning De två första stegen i hypotesprövning för populationsandel är på liknande sätt som för populationsmedelvärde. 1. Formulera hypoteser 2. Bestämma signifikansnivå Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s. 534-537) H 0 : p = p o H a : p p o H a : p > p o H a : p < p o Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01. 3

Andel för en population Hypotesprövning När man ska utreda om H 0 kan förkastas eller ej kan tre olika tekniker användas: Jämföra antalet lyckade utfall X med ett kritiskt värde ur tabell Beräkna en testvariabel Z (normalapproximation) Undersöka om p 0 ingår i ett konfidensintervall eller ej När n är litet kan man även beräkna p-värdet exakt med hjälp av binomialfördelningen. 4

Ƹ Andel för en population Hypotesprövning, normalapproximation När normalfördelningsapproximation används beräknas en testvariabel Z: (GB s. 570(c), BB s. 534(c)) Z = X np 0 = p p 0 np 0 q 0 p 0 q 0 Τn Utifrån denna testvariabel bestäms p-värdet, eller så jämförs testvariabeln med ett kritiskt värde ur normalfördelningstabell. Kom ihåg: H 0 förkastas när p-värdet är mindre än signifikansnivån (α) 5

Andel för en population Exempel hypotesprövning Man vill undersöka om schimpanser föredrar att använda någon hand framför den andra. 40 schimpanser har studerats, och man har observerat vilken hand de använder i störst utsträckning. 31 av schimpanserna använde högerhanden mest, medan 9 av schimpanserna använde vänsterhanden mest. Utred utifrån ovanstående information om: a) En majoritet av schimpanserna föredrar någon hand framför den andra b) En majoritet av schimpanserna föredrar högerhanden framför vänsterhanden I båda fallen ska 5 % signifikansnivå användas. 6

Andel för en population Konfidensintervall Vad var nu ett konfidensintervall? Jo, med hjälp av ett konfidensintervall kan man med en viss säkerhet (90, 95, 99 %) säga att den sanna populationsparametern (i detta fall populationsandelen p) finns inom konfidensintervallet. Boken listar tre olika varianter på konfidensintervall: Clopper-Pearson-intervall Wald-intervall (normalapproximation) Justerat Wald-intervall Det mest frekvent använda är Wald-intervallet, som bygger på en normalapproximation av binomialfördelningen. 7

Andel för en population Konfidensintervall, Wald Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α beräknas enligt: (GB s. 579(b), BB s. 543(b)) p Ƹ ± z α(2) p q Ƹ n Det går som vanligt att beräkna nedåt eller uppåt begränsade intervall. Som sagt bör denna metod ej användas när n är litet och pƹ är nära 0 eller 1. Exempel Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av schimpanserna som föredrar att använda vänsterhanden. 8

Ƹ Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550) Vid jämförelse av två andelar tar boken enbart upp hypotesprövning som bygger på normalapproximation. Hypoteserna formuleras enligt: H 0 : p 1 p 2 = p 0 p 1 = p 2 ( p 0 = 0) H a : p 1 p 2 p 0 p 1 p 2 Testvariabeln beräknas enligt: Z = p 1 pƹ 2 pതq ҧ + pതq ҧ n 1 n 2 där p ҧ = X 1 + X 2 = n 1pƸ 1 + n 2 pƹ 2 n 1 + n 2 n 1 + n 2 9

Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger, likt hypotesprövningen, på normalapproximationen av binomialfördelningen. Intervallet beräknas enligt: pƹ 1 pƹ 2 ± z α 2 pƹ 1 q 1 n 1 + pƹ 2 q 2 n 2 Med hjälp av ett exempel på nästkommande sida ska hypotesprövning och konfidensintervall för att jämföra två andelar beskrivas. 10

Jämföra två andelar Konfidensintervall och hypotesprövning, exempel Mugg är en vanlig hudinflammation på hästar. En teori är att islandshästar drabbas oftare av mugg än svenska halvblod. 30 islandshästar och 28 svenska halvblod observerades under en och samma tidsperiod, där 12 islandshästar samt 5 svenska halvblod drabbades av mugg. Utifrån ovanstående siffror, utred om islandshästar drabbas av mugg i större uträckning än svenska halvblod. Använd 5 % signifikansnivå. 11

Analys av korstabeller (GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst antal kolumner (c) och därmed r*c celler. f ij anger frekvensen (antalet) i en viss cell. Radsummorna betecknas R i och är summan av frekvenserna på rad i. Kolumnsummorna betecknas C j. Faktor B Faktor A 1 2 c Summa 1 f 11 f 12 f 1c R 1 2 f 21 f 22 f 2c R 2 r f r1 f r2 f rc R r Summa C 1 C 2 C c 12

Analys av korstabeller Korstabeller används för att presentera data på nominalskala, vilket var olika attribut den observerade enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön respektive hårfärg. Vid analys av korstabeller kan man undersöka två olika saker: Är faktor A och B oberoende av varandra? (oberoendetest) Fördelar sig faktor A homogent över de olika nivåerna på faktor B? (homogenitetstest) Vid homogenitetstest bestäms en viss urvalsstorlek för de olika nivåerna på faktor B, men vid oberoendetest bestäms ingen urvalsstorlek för varken faktor A eller B. 13

Analys av korstabeller Chi-två-test För att utreda de två olika frågeställningarna som formulerades innan används chi-två-test (χ 2 -test). Det liknar hypotesprövning, men består av fem steg: 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna förväntade frekvenser enligt nollhypotesen 4. Beräkna testvariabel 5. Jämför med kritiskt värde ur tabell B.1 Chi-två-test förutsätter att samma urvalsenhet bara får förekomma i en cell i tabellen. 14

Analys av korstabeller Chi-två-test, formulera hypoteser Vid chi-två-test formuleras hypoteserna i ord och enbart dubbelsidiga test kan genomföras. Oberoendetest: H 0 : Faktor A och faktor B är oberoende H a : Faktor A och faktor B är beroende Homogenitetstest: H 0 : Faktor A fördelar sig homogent över de olika nivåerna på faktor B H a : Faktor fördelar sig inte homogent över de olika nivåerna på faktor B 15

Analys av korstabeller Chi-två-test, beräkna förväntade värden Tredje steget i ett chi-två-test är att beräkna förväntade frekvenser ( መf ij ) i de olika cellerna baserat på antagandet att nollhypotesen (H 0 ) är sann. Dessa förväntade värden beräknas enligt: መf ij = R i n C j n n = R i C j n De förväntade frekvenserna är alltså antalet urvalsenheter som borde tillhöra cellen ij om nollhypotesen är sann. 16

Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde Testvariabeln, χ 2, beräknas enligt: χ 2 = f ij መf ij 2 Om nollhypotesen är sann så följer denna testvariabel en chi-två-fördelning med (r 1)*(c 1) frihetsgrader. Det kritiska värdet som testvariabeln ska jämföras med är: 2 χ α,(r 1)(c 1) Om testvariabeln är större än detta värde kan nollhypotesen förkastas. መf ij 17

Analys av korstabeller Chi-två-test, fördelning och begränsningar 0,16 0,14 Chi-två-fördelning df 5 15 0,12 Sannolikhet 0,10 0,08 0,06 0,04 0,02 0,00 0 10 20 X 30 40 Chi-två-test bör ej användas om mer än 20 % av de förväntade frekvenserna är mindre än 5, eller om någon av de förväntade frekvenserna är mindre än 1. 18

Analys av korstabeller Chi-två-test, exempel Man vill undersöka om en viss sorts padda hemmahörande i delstaten Queensland, Australien drabbas av inälvsparasiter i samma utsträckning i tre olika regioner i den nämnda delstaten. I varje region fångades 20 paddor in och dessa dissekerades för att undersöka om de drabbats av inälvsparasiter. Rockhampton Bowen Mackay Drabbad 12 7 14 Ej drabbad 8 13 6 19

Tack för idag! Nästa tillfälle: Föreläsning 6, måndag 19 mars, kl. 10-12, sal R43 20