Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5 Statistik; teori och tillämpning i biologi 1

Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test och konfidensintervall för två andelar (kap 24.10, 24.11) o Analys av korstabeller (kap 23.0 23.1) 2

Andelar (proportioner) En andel (proportion) betecknas med p och är en del av en population med en viss egenskap. Andelen som ej har denna egenskap betecknas med q = 1 - p. Angående andelar kommer vi diskutera hur man kan: Beräkna sannolikheter utifrån andelar Använda olika approximationer vid beräkningar av andelar Använda hypotesprövning och konfidensintervall för en andel Använda hypotesprövning och konfidensintervall för att jämföra två andelar 3

Binomialfördelningen Binomialfördelningen är enklast att beskriva med ett exempel. Antag att 30 % av invånarna i Sverige är blåögda. Ett obundet slumpmässigt urval om 10 personer dras. Vi definierar variabeln X = antal blåögda personer i stickprovet. Denna variabel X blir binomialfördelad enligt bin(n=10, p=0.3). 30 25 Sannolikhet (%) 20 15 10 5 0 0 1 2 3 4 5 6 7 8 Antalet blåögda personer i stickprovet 9 10 4

Binomialfördelningen För att beräkna sannolikheter för ett visst antal i stickprovet används formeln: (GB s. 556, BB s. 520) P X = n X px q n X n! = X! n X! px q (n X) Beräkna för stickprovet bestående av 10 stycken slumpmässigt valda svenska invånare: a) Sannolikheten att exakt två personer i stickprovet är blåögda b) Sannolikheten att två personer eller färre i stickprovet är blåögda 5

Binomialfördelningen Poissonfördelning och normalapproximation När p är väldigt litet och n är väldigt stort bör Poissonfördelningen användas. Denna fördelning diskuteras ej i kursen, men den finns förklarad i kapitel 25. När vi senare kommer att genomföra hypotesprövning och konfidensintervall för andelar kommer normal-approximation att användas. Detta är dock inte helt perfekt: Inte bra när p är nära 0 eller 1. Inte bra när n är litet. Författaren föreslår som regel att p 0 n och q 0 n ska vara minst 5 för att normalapproximation ska kunna användas. 6

Andel för en population Hypotesprövning De två första stegen i hypotesprövning för populationsandel är samma som för populationsmedelvärde. 1. Formulera hypoteser 2. Bestämma signifikansnivå Hypoteserna formuleras enligt: (GB s. 570-573(c), BB s. 534-537) H 0 : p = p o H a : p p o H a : p > p o H a : p < p o Signifikansnivån (α) sätts vanligtvis till 0.10, 0.05 eller 0.01. 7

Andel för en population Hypotesprövning När man ska utreda om H 0 kan förkastas eller ej kan tre olika tekniker användas: Jämföra X med ett kritiskt värde ur tabell Beräkna en testvariabel Z (normalapproximation) Undersöka om p 0 ingår i ett konfidensintervall När n är litet är det även relativt lätt att beräkna p-värdet exakt med hjälp av binomialfördelningen. 8

Andel för en population Hypotesprövning, normalapproximation När normalfördelningsapproximation används beräknas en testvariabel Z: (GB s. 570(c), BB s. 534(c)) Z = X np 0 = p p 0 np 0 q 0 p 0 q 0 Τn Utifrån denna testvariabel bestäms p-värdet, eller så jämförs testvariabeln med ett kritiskt värde ur normalfördelningstabell. Kom ihåg: H 0 förkastas när p-värdet är mindre än signifikansnivån (α) 9

Andel för en population Exempel hypotesprövning Man vill undersöka om schimpanser föredrar att använda någon hand framför den andra. 40 schimpanser har studerats, och man har observerat vilken hand de använder i störst utsträckning. 31 av schimpanserna använde högerhanden mest, medan 9 av schimpanserna använde vänsterhanden mest. Utred utifrån ovanstående information om: a) En majoritet av schimpanserna föredrar någon hand framför den andra b) En majoritet av schimpanserna föredrar högerhanden framför vänsterhanden I båda fallen ska 5 % signifikansnivå användas. 10

Andel för en population Konfidensintervall Vad var nu ett konfidensintervall? Jo, med hjälp av ett konfidensintervall kan man med en viss säkerhet (90, 95, 99 %) säga att den sanna populationsparametern (i detta fall populationsandelen p) finns inom konfidensintervallet. Boken listar tre olika varianter på konfidensintervall: Clopper-Pearson-intervall Wald-intervall (normalapproximation) Justerat Wald-intervall Det mest frekvent använda är Wald-intervallet, som bygger på en normalapproximation av binomialfördelningen. 11

Andel för en population Konfidensintervall, Wald Ett dubbelsidigt konfidensintervall med konfidensnivån 1-α beräknas enligt: (GB s. 579(b), BB s. 543(b)) p Ƹ ± z α(2) p q Ƹ n Det går som vanligt att beräkna nedåt eller uppåt begränsade intervall. Som sagt bör denna metod ej användas när n är litet och pƹ är nära 0 eller 1. Exempel Beräkna ett 95 % dubbelsidigt konfidensintervall för andelen av schimpanserna som föredrar att använda vänsterhanden. 12

Ƹ Ƹ Jämföra två andelar Hypotesprövning (GB s. 585-586, BB s. 549-550) Vid jämförelse av två andelar tar boken enbart upp hypotesprövning som bygger på normalapproximation. Hypoteserna formuleras enligt: H 0 : p 1 p 2 = p 0 p 1 = p 2 ( p 0 = 0) H a : p 1 p 2 p 0 p 1 p 2 Testvariabeln beräknas enligt: Z = p 1 pƹ 2 p 0 p 1 pƹ 2 pതq ҧ + pതq ҧ = pതq ҧ + pതq ҧ n 1 n 2 n 1 n 2 där p ҧ = X 1 + X 2 = n 1pƸ 1 + n 2 pƹ 2 n 1 + n 2 n 1 + n 2 13

Jämföra två andelar Konfidensintervall (GB s. 587(a), BB s. 551(a)) Konfidensintervall för att jämföra två andelar bygger, likt hypotesprövningen, på normalapproximationen av binomialfördelningen. Intervallet beräknas enligt: pƹ 1 pƹ 2 ± z α 2 pƹ 1 q 1 n 1 + pƹ 2 q 2 n 2 Med hjälp av ett exempel på nästkommande sida ska hypotesprövning och konfidensintervall för att jämföra två andelar beskrivas. 14

Jämföra två andelar Konfidensintervall och hypotesprövning, exempel Mugg är en vanlig hudinflammation på hästar. En teori är att islandshästar drabbas oftare av mugg än svenska halvblod. 30 islandshästar och 28 svenska halvblod observerades under en och samma tidsperiod, där 12 islandshästar samt 5 svenska halvblod drabbades av mugg. Utifrån ovanstående siffror, utred om islandshästar drabbas av mugg i större uträckning än svenska halvblod. Använd 5 % signifikansnivå. 15

Analys av korstabeller (GB s. 524-528, BB s. 490-494) En korstabell består av ett visst antal rader (r) och ett visst antal kolumner (c) och därmed r*c celler. f ij anger frekvensen (antalet) i en viss cell. Radsummorna betecknas R i och är summan av frekvenserna på rad i. Kolumnsummorna betecknas C j. Faktor B Faktor A 1 2 c Summa 1 f 11 f 12 f 1c R 1 2 f 21 f 22 f 2c R 2 r f r1 f r2 f rc R r Summa C 1 C 2 C c 16

Analys av korstabeller Korstabeller används för att presentera data på nominalskala, vilket var olika attribut den observerade enheten kan ha. Faktor A och faktor B kan då t.ex. vara kön respektive hårfärg. Vid analys av korstabeller kan man undersöka två olika saker: Är faktor A och B oberoende av varandra? (oberoendetest) Fördelar sig faktor A homogent över de olika nivåerna på faktor B? (homogenitetstest) Vid homogenitetstest bestäms en viss urvalsstorlek för de olika nivåerna på faktor B, men vid oberoendetest bestäms ingen urvalsstorlek för varken faktor A eller B. 17

Analys av korstabeller Chi-två-test För att utreda de två olika frågeställningarna som formulerades innan används chi-två-test (χ 2 -test). Det liknar hypotesprövning, men består av fem steg: 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna förväntade frekvenser enligt nollhypotesen 4. Beräkna testvariabel 5. Jämför med kritiskt värde ur tabell B.1 Chi-två-test förutsätter att samma urvalsenhet bara får förekomma i en cell i tabellen. 18

Analys av korstabeller Chi-två-test, formulera hypoteser Vid chi-två-test formuleras hypoteserna i ord och enbart dubbelsidiga test kan genomföras. Oberoendetest: H 0 : Faktor A och faktor B är oberoende H a : Faktor A och faktor B är beroende Homogenitetstest: H 0 : Faktor A fördelar sig homogent över de olika nivåerna på faktor B H a : Faktor fördelar sig inte homogent över de olika nivåerna på faktor B 19

Analys av korstabeller Chi-två-test, beräkna förväntade värden Tredje steget i ett chi-två-test är att beräkna förväntade frekvenser ( መf ij ) i de olika cellerna baserat på antagandet att nollhypotesen (H 0 ) är sann. Dessa förväntade värden beräknas enligt: መf ij = R i n C j n n = R i C j n De förväntade frekvenserna är alltså antalet urvalsenheter som borde tillhöra cellen ij om nollhypotesen är sann. 20

Analys av korstabeller Chi-två-test, testvariabel och kritiskt värde Testvariabeln, χ 2, beräknas enligt: χ 2 = f ij መf ij 2 Om nollhypotesen är sann så följer denna testvariabel en chi-två-fördelning med (r 1)*(c 1) frihetsgrader. Det kritiska värdet som testvariabeln ska jämföras med är: 2 χ α,(r 1)(c 1) Om testvariabeln är större än detta värde kan nollhypotesen förkastas. መf ij 21

Analys av korstabeller Chi-två-test, fördelning och begränsningar 0,16 0,14 Chi-två-fördelning df 5 15 0,12 Sannolikhet 0,10 0,08 0,06 0,04 0,02 0,00 0 10 20 X 30 40 Chi-två-test bör ej användas om mer än 20 % av de förväntade frekvenserna är mindre än 5, eller om någon av de förväntade frekvenserna är mindre än 1. 22

Analys av korstabeller Chi-två-test, exempel Man vill undersöka om en viss sorts padda hemmahörande i delstaten Queensland, Australien drabbas av inälvsparasiter i samma utsträckning i tre olika regioner i den nämnda delstaten. I varje region fångades 20 paddor in och dessa dissekerades för att undersöka om de drabbats av inälvsparasiter. Rockhampton Bowen Mackay Drabbad 12 7 14 Ej drabbad 8 13 6 23

Tack för idag! Nästa tillfälle: Föreläsning 6, måndag 20 mars, kl. 10-12, sal U11 24