Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna härstammade från oskyddade områden. Hur pass osannolikt är detta från perspektivet att tätheten av gnuer inte skiljer sig åt mellan de två typerna av områden?, vt12 (1 : 33), vt12 (2 : 33) Svar Sannolikheten Pr(Y 2) då Y Bi(13, 0.5) ges av p 0 + p 1 + p 2 = 0.011. Binomialtest Föregående resonemang är ett exempel på ett så kallat binomialtest: Med andra ord, det är 1.1% chans att få 0, 1 eller 2 krona då man singlar slant 13 gånger. Utgående från modellen Y Bi(n, p) testar vi hypotesen H 0 : p = 1/2 mot en alternativ (enkelsidig) beskrivning H 1 : p < 1/2 Testvariabel: ˆp = Y /n (observerad frekvens). Motsvarande p-värde Pr(ˆp 2/13) = 1.1% utgår från nollhypotesen och anger sannolikheten att få minst lika signifikant utfall till fördel för mothypotesen., vt12 (3 : 33), vt12 (4 : 33)
Standardiserad jämförelse Dubbelsidig hypotesprövning I föreläsning 2 kallade vi följande slumpvariabel standardiserad relativt Y Bi(13, 0.5): Z = (Y 6.5)/ 13/4. Utifrån modellen Y Bi(n, p) är det vanligare att testa hypotesen Genom denna omskrivning kan man uttrycka föregående p-värde: Pr(ˆp 2/13) = Pr(Z (2 6.5)/ 13/4) = Pr(Z 2.50) = Pr(Z Z obs ) H 0 : p = p 0 mot en tvåsidig beskrivning H 1 : p p 0. Detta är mer neutralt och kräver inte att man specificerar alternativhypotesens riktning. Normalapproximation Med standardiserade variabler uttrycks motsvarande dubbelsidiga p-värde: Pr( Z Z obs ) = Pr(Z 2 Z 2 obs ), vt12 (5 : 33), vt12 (6 : 33) χ 2 -test χ 2 -test för anpassning I denna situation är χ 2 -testet inget annat än en omskrivning av den dubbelsidiga jämförelsen med normalapproximation. Med andra ord, vi utgår från följande testvariabel: Z 2 obs = (Y 6.5)2 13/4 Denna kan skrivas om genom att låta o 1 = Y beteckna antalet observationer i oskyddade områden och o 2 = 13 Y antalet observationer i skyddade områden: Z 2 obs = (o 1 6.5) 2 6.5 + (o 2 6.5) 2 6.5 Statistisk programvara beräknar därefter motsvarande sannolikhet relativt antagandet att Z är normalfördelad:, vt12 (7 : 33) Pr( Z Z obs ) = Pr(Z 2 Z 2 obs ) Som en generalisering av binära utfall, antag att n stycken observationer fördelar sig över k stycken grupper. Detta ger observerade frekvenser o 1,..., o k vars summa är n: k o i = n i=1 En nollhypotes ger därefter predikterade frekvenser e 1,..., e k vars summa är n: k e i = n i=1 Hur god är anpassningen mellan observerade och förväntade frekvenser?, vt12 (8 : 33)
Testvariabel Testvariabelns fördelning under nollhypotesen Fördelning vid korrekt anpassning: Med ett χ 2 -test för anpassning utvärderas avvikelsen mellan observerade och förväntade frekvenser genom följande testvariabel: k (o i e i ) 2 i=1 e i Testvariabeln är χ 2 -fördelad med k 1 frihetsgrader vid korrekt anpassning., vt12 (9 : 33) χ 2 -fördelningar med olika antal frihetsgrader., vt12 (10 : 33) Motsvarande p-värde Kritiska värden för testvariabeln Statistisk programvara beräknar p-värdet Pr(χ 2 χ 2 obs ) relativt antagandet att χ 2 är χ 2 -fördelad med k 1 frihetsgrader. Höga värden på χ 2 obs motsvarar dålig anpassning. Kvantilen χ 2 α(f ) anger det kritiska värde som χ 2 överstiger med sannolikhet α, relativt f frihetsgrader. Hittas i tabell. Höga värden på χ 2 obs ger låga p-värden. Höga värden på χ 2 obs ger anledning att ifrågasätta nollhypotesen. Exempel: χ 2 0.05 (4) = 9.49., vt12 (11 : 33), vt12 (12 : 33)
Roberts råttförsök Testvariabel Mendel Inom Mendelsk genetik predikteras förekomsten av olika genetiska särdrag i populationer baserat på antaganden om genetisk dominans. Vid ett försök (1939) med fem genetiska faktorer hos 551 råttor var det möjligt att observera och prediktera förekomsten av antalet dominanta gener enligt följande: 0 1 2 3 4 5 Σ o 17 81 152 180 104 17 551 e 17.2 86.1 172.2 172.2 86.1 17.2 551.0, vt12 (13 : 33) I exemplet finns k = 6 möjliga utfall. en mellan observerade och förväntade frekvenser testas genom, vt12 (14 : 33) 6 (o i e i ) 2 i=1 e i (17 17.2)2 (81 86.1)2 (152 172.2)2 = + + 17.2 86.1 172.2 (180 172.2)2 (104 86.1)2 (17 17.2)2 + + + 172.2 86.1 17.2 = 6.75 Utvärdering Faktoriella beskrivningar Observerat värde på testvariabeln 6.75 Motsvarande antal frihetsgrader: 5 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(5) = 11.1 Föregående exempel kan beskrivas som att vi undersöker hur en uppsättning individer fördelar sig över de olika nivåerna på en given faktor. I detta fall var individerna råttor, faktorn var antalet dominanta gener och de olika nivåerna var 0, 1,..., 5. Slutsats: χ 2 obs < χ2 0.05 (5) gör att vi inte kan ifrågasätta anpassningen. : p-värdet 24%. Chansen att få ett minst lika extremt utfall med testvariabeln vid perfekt teoretisk anpassning är alltså cirka 1/4. I nästa steg ska vi istället utgå från två faktorer A och B med tillhörande nivåer. Med andra ord, vi undersöker hur en uppsättning individer fördelar sig över motsvarande kategorier., vt12 (15 : 33), vt12 (16 : 33)
Paddor och inälvsparasiter Analys 20 paddor undersöktes på var och en av 3 olika platser i Queesland, Australien. Antalet som drabbats av inälvsparasiter fördelade sig enligt följande: I detta fall finns det två faktorer att ta hänsyn till, A = plats, B = sjukdomstillstånd., vt12 (17 : 33) Rockhampton Bowen Mackay Inf. 12 7 14 Ej Inf. 8 13 6 Faktor A förekommer på 3 nivåer, medan Faktor B förekommer på 2 nivåer. Totalt finns det därmed 6 kategorier. Fördelningen av individer redovisas i föregående korstabell., vt12 (18 : 33) s-antagande χ 2 -test för homogenitet En bra fråga som kan ställa är: Två faktorer A och B med vardera k respektive r nivåer. Är det samma andel smittade paddor på alla tre platser som undersökts? Ett anna sätt att uttrycka frågan är: Fördelar sig andelen smittade paddor homogent över de tre platser som undersökts? Detta ger observerade frekvenser o i,j vars summa är n: r i=1 j=1 k o i,j = n innebär att förväntade frekvenser ges av: Mer abstrakt kan man formulera detta som: Inverkar faktor B homogent över de olika nivåerna på faktor A? e i,j = Radsumma nr i Kolumnsumma nr j n Hur god är anpassningen mellan observerade och förväntade frekvenser?, vt12 (19 : 33), vt12 (20 : 33)
Testvariabel Tillämpning: homogenitetstest Analogt med χ 2 -test för anpassning utvärderas avvikelsen mellan observerade och förväntade frekvenser genom följande testvariabel: r i=1 j=1 k (o i,j e i,j ) 2 e i,j Observerade frekvenser ges av: Rockhampton Bowen Mackay Σ Inf. 12 7 14 33 Ej Inf. 8 13 6 27 Σ 20 20 20 60 Förväntade frekvenser ges av: Testvariabeln är χ 2 -fördelad med frihetsgrader: vid korrekt anpassning. f = (r 1)(k 1) Rockhampton Bowen Mackay Σ Inf. 11 11 11 33 Ej Inf. 9 9 9 27 Σ 20 20 20 60, vt12 (21 : 33), vt12 (22 : 33) Tillämpning: Testvariabel Utvärdering Observerat värde på testvariabeln 2 i=1 j=1 3 (o i,j e i,j ) 2 e i,j (12 11)2 (7 11)2 (14 11)2 = + + 11 11 11 (8 9)2 (13 9)2 (6 9)2 + + + 9 9 9 = 5.25 Motsvarande antal frihetsgrader: f = (2 1)(3 1) = 2. 5.25 Motsvarande antal frihetsgrader: 2 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(2) = 5.99 Slutsats: χ 2 obs < χ2 0.05 (2) gör att vi inte kan ifrågasätta anpassningen. : p-värdet 7%. Detta är i närheten av vad som brukar anses signifikant. Det finns alltså viss evidens för att ifrågasätta anpassningen., vt12 (23 : 33), vt12 (24 : 33)
Förekomst av bananflugor Analys Fritt levande bananflugor (Drosophila subobcura) fångades i agnade fällor på tre olika platser och könsbestämdes därefter. Återigen finns det två faktorer att ta hänsyn till, A = plats, B = kön., vt12 (25 : 33) Skog 1 Skog 2 Öppet område Hannar 89 34 74 Honor 31 20 136 Faktor A förekommer på 3 nivåer, medan Faktor B förekommer på 2 nivåer. Totalt finns det därmed 6 kategorier. Fördelningen av individer redovisas i föregående korstabell., vt12 (26 : 33) Hypotes om oberoende Skillnad mellan homogenitet och oberoende En bra fråga som kan ställa är: Är det samma könsfördelning på alla tre platser som undersökts? Ett annat sätt att uttrycka frågan är: För en slumpmässigt vald individ, är sannolikheten för manligt/kvinligt kön oberoende av platsen den fångats på? Mer abstrakt kan man formulera detta som: Inverkar faktorerna A och B oberoende av varandra? Begreppen homogenitetstest och test av oberoende är nära besläktade i detta sammanhang. Statistiskt behandlar man motsvarande korstabeller på exakt samma sätt. Skillnaden ligger i försöksupplägget. I det första exemplet var faktor A inte slumpmässig, i meningen att man på förhand bestämt sig för att undersöka 20 paddor på vardera ställe. I det andra exemplet visste man inte på förhand hur många individer som skulle ingå från vardera plats. Därför kan det vara mer lämpligt att tala om två slumpmässiga faktorer och att man undersöker huruvida de inverkar oberoende av varandra., vt12 (27 : 33), vt12 (28 : 33)
Tillämpning: test av oberoende Tillämpning: Testvariabel Observerade frekvenser ges av: Skog 1 Skog 2 Öppet område Σ Hannar 89 34 74 197 Honor 31 20 136 187 Σ 120 54 210 384 Förväntade frekvenser ges av: 2 3 i=1 j=1 Motsvarande antal frihetsgrader: (o i,j e i,j ) 2 e i,j = 49.7 Skog 1 Skog 2 Öppet område Σ Hannar 61.6 27.7 107.7 197 Honor 58.4 26.3 102.3 187 Σ 120 54 210 384 f = (2 1)(3 1) = 2., vt12 (29 : 33), vt12 (30 : 33) Utvärdering Observerat värde på testvariabeln 49.7 Motsvarande antal frihetsgrader: 2 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(2) = 5.99 Slutsats: χ 2 obs > χ2 0.05 (2) gör att vi kan ifrågasätta anpassningen. : p-värdet 0.000. Detta är med all önskvärd tydlighet signifikant. Det finns alltså klar evidens för att ifrågasätta anpassningen. Vi har sett tre olika metoder (χ 2 -test) som är relevanta för analyser av hur individer fördelar sig över olika kategorier. Testen utvärderar anpassningen mellan observerade frekvenser och förväntade frekvenser. Förväntade frekvenser kan uppstå exempelvis ur genetisk teori. De kan också uppstå när man undersöker samband mellan två faktorer. Med homogenitet avses att en faktor inverkar på samma sätt oavsett vilken nivå som valts på en annan faktor. Om båda faktorerna betraktas som slumpmässiga brukar man använda termen oberoende istället för homogenitet., vt12 (31 : 33), vt12 (32 : 33)
χ 2 -test återfinns genom att klicka: Stat Tables Vid oberoende/homogenitetstest matar man in motsvarande korstabell direkt i arbetsfältet. OBS: räknar själv ut radsummor och kolumnsummor. Ett anpassningstest kräver att man specificerar förväntade frekvenser, exempelvis i en separat kolumn i arbetsfältet., vt12 (33 : 33)