F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Relevanta dokument
Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

F3 Introduktion Stickprov

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsningsanteckningar till kapitel 9, del 2

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning G60 Statistiska metoder

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

Om statistisk hypotesprövning

2. Test av hypotes rörande medianen i en population.

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Kapitel 10 Hypotesprövning

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

TMS136. Föreläsning 11

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

FÖRELÄSNING 8:

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

TMS136. Föreläsning 13

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

F22, Icke-parametriska metoder.

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FACIT (korrekta svar i röd fetstil)

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Avd. Matematisk statistik

F19, (Multipel linjär regression forts) och F20, Chi-två test.

8 Inferens om väntevärdet (och variansen) av en fördelning

Uppgift 1. Produktmomentkorrelationskoefficienten

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Avd. Matematisk statistik

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Laboration 3 Inferens fo r andelar och korstabeller

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Stockholms Universitet Statistiska institutionen Termeh Shafie

Stockholms Universitet Statistiska institutionen Termeh Shafie

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 5: Hypotesprövningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Hur man tolkar statistiska resultat

Avd. Matematisk statistik

Föreläsning 12, FMSF45 Hypotesprövning

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Avd. Matematisk statistik

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Exempel på tentamensuppgifter

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Omtentamen i Metod C-kurs

Jörgen Säve-Söderbergh

Hur skriver man statistikavsnittet i en ansökan?

Avd. Matematisk statistik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Lösningar till tentamen i Matematisk Statistik, 5p

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik KTH. Formelsamling i matematisk statistik

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Transkript:

Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna härstammade från oskyddade områden. Hur pass osannolikt är detta från perspektivet att tätheten av gnuer inte skiljer sig åt mellan de två typerna av områden?, vt12 (1 : 33), vt12 (2 : 33) Svar Sannolikheten Pr(Y 2) då Y Bi(13, 0.5) ges av p 0 + p 1 + p 2 = 0.011. Binomialtest Föregående resonemang är ett exempel på ett så kallat binomialtest: Med andra ord, det är 1.1% chans att få 0, 1 eller 2 krona då man singlar slant 13 gånger. Utgående från modellen Y Bi(n, p) testar vi hypotesen H 0 : p = 1/2 mot en alternativ (enkelsidig) beskrivning H 1 : p < 1/2 Testvariabel: ˆp = Y /n (observerad frekvens). Motsvarande p-värde Pr(ˆp 2/13) = 1.1% utgår från nollhypotesen och anger sannolikheten att få minst lika signifikant utfall till fördel för mothypotesen., vt12 (3 : 33), vt12 (4 : 33)

Standardiserad jämförelse Dubbelsidig hypotesprövning I föreläsning 2 kallade vi följande slumpvariabel standardiserad relativt Y Bi(13, 0.5): Z = (Y 6.5)/ 13/4. Utifrån modellen Y Bi(n, p) är det vanligare att testa hypotesen Genom denna omskrivning kan man uttrycka föregående p-värde: Pr(ˆp 2/13) = Pr(Z (2 6.5)/ 13/4) = Pr(Z 2.50) = Pr(Z Z obs ) H 0 : p = p 0 mot en tvåsidig beskrivning H 1 : p p 0. Detta är mer neutralt och kräver inte att man specificerar alternativhypotesens riktning. Normalapproximation Med standardiserade variabler uttrycks motsvarande dubbelsidiga p-värde: Pr( Z Z obs ) = Pr(Z 2 Z 2 obs ), vt12 (5 : 33), vt12 (6 : 33) χ 2 -test χ 2 -test för anpassning I denna situation är χ 2 -testet inget annat än en omskrivning av den dubbelsidiga jämförelsen med normalapproximation. Med andra ord, vi utgår från följande testvariabel: Z 2 obs = (Y 6.5)2 13/4 Denna kan skrivas om genom att låta o 1 = Y beteckna antalet observationer i oskyddade områden och o 2 = 13 Y antalet observationer i skyddade områden: Z 2 obs = (o 1 6.5) 2 6.5 + (o 2 6.5) 2 6.5 Statistisk programvara beräknar därefter motsvarande sannolikhet relativt antagandet att Z är normalfördelad:, vt12 (7 : 33) Pr( Z Z obs ) = Pr(Z 2 Z 2 obs ) Som en generalisering av binära utfall, antag att n stycken observationer fördelar sig över k stycken grupper. Detta ger observerade frekvenser o 1,..., o k vars summa är n: k o i = n i=1 En nollhypotes ger därefter predikterade frekvenser e 1,..., e k vars summa är n: k e i = n i=1 Hur god är anpassningen mellan observerade och förväntade frekvenser?, vt12 (8 : 33)

Testvariabel Testvariabelns fördelning under nollhypotesen Fördelning vid korrekt anpassning: Med ett χ 2 -test för anpassning utvärderas avvikelsen mellan observerade och förväntade frekvenser genom följande testvariabel: k (o i e i ) 2 i=1 e i Testvariabeln är χ 2 -fördelad med k 1 frihetsgrader vid korrekt anpassning., vt12 (9 : 33) χ 2 -fördelningar med olika antal frihetsgrader., vt12 (10 : 33) Motsvarande p-värde Kritiska värden för testvariabeln Statistisk programvara beräknar p-värdet Pr(χ 2 χ 2 obs ) relativt antagandet att χ 2 är χ 2 -fördelad med k 1 frihetsgrader. Höga värden på χ 2 obs motsvarar dålig anpassning. Kvantilen χ 2 α(f ) anger det kritiska värde som χ 2 överstiger med sannolikhet α, relativt f frihetsgrader. Hittas i tabell. Höga värden på χ 2 obs ger låga p-värden. Höga värden på χ 2 obs ger anledning att ifrågasätta nollhypotesen. Exempel: χ 2 0.05 (4) = 9.49., vt12 (11 : 33), vt12 (12 : 33)

Roberts råttförsök Testvariabel Mendel Inom Mendelsk genetik predikteras förekomsten av olika genetiska särdrag i populationer baserat på antaganden om genetisk dominans. Vid ett försök (1939) med fem genetiska faktorer hos 551 råttor var det möjligt att observera och prediktera förekomsten av antalet dominanta gener enligt följande: 0 1 2 3 4 5 Σ o 17 81 152 180 104 17 551 e 17.2 86.1 172.2 172.2 86.1 17.2 551.0, vt12 (13 : 33) I exemplet finns k = 6 möjliga utfall. en mellan observerade och förväntade frekvenser testas genom, vt12 (14 : 33) 6 (o i e i ) 2 i=1 e i (17 17.2)2 (81 86.1)2 (152 172.2)2 = + + 17.2 86.1 172.2 (180 172.2)2 (104 86.1)2 (17 17.2)2 + + + 172.2 86.1 17.2 = 6.75 Utvärdering Faktoriella beskrivningar Observerat värde på testvariabeln 6.75 Motsvarande antal frihetsgrader: 5 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(5) = 11.1 Föregående exempel kan beskrivas som att vi undersöker hur en uppsättning individer fördelar sig över de olika nivåerna på en given faktor. I detta fall var individerna råttor, faktorn var antalet dominanta gener och de olika nivåerna var 0, 1,..., 5. Slutsats: χ 2 obs < χ2 0.05 (5) gör att vi inte kan ifrågasätta anpassningen. : p-värdet 24%. Chansen att få ett minst lika extremt utfall med testvariabeln vid perfekt teoretisk anpassning är alltså cirka 1/4. I nästa steg ska vi istället utgå från två faktorer A och B med tillhörande nivåer. Med andra ord, vi undersöker hur en uppsättning individer fördelar sig över motsvarande kategorier., vt12 (15 : 33), vt12 (16 : 33)

Paddor och inälvsparasiter Analys 20 paddor undersöktes på var och en av 3 olika platser i Queesland, Australien. Antalet som drabbats av inälvsparasiter fördelade sig enligt följande: I detta fall finns det två faktorer att ta hänsyn till, A = plats, B = sjukdomstillstånd., vt12 (17 : 33) Rockhampton Bowen Mackay Inf. 12 7 14 Ej Inf. 8 13 6 Faktor A förekommer på 3 nivåer, medan Faktor B förekommer på 2 nivåer. Totalt finns det därmed 6 kategorier. Fördelningen av individer redovisas i föregående korstabell., vt12 (18 : 33) s-antagande χ 2 -test för homogenitet En bra fråga som kan ställa är: Två faktorer A och B med vardera k respektive r nivåer. Är det samma andel smittade paddor på alla tre platser som undersökts? Ett anna sätt att uttrycka frågan är: Fördelar sig andelen smittade paddor homogent över de tre platser som undersökts? Detta ger observerade frekvenser o i,j vars summa är n: r i=1 j=1 k o i,j = n innebär att förväntade frekvenser ges av: Mer abstrakt kan man formulera detta som: Inverkar faktor B homogent över de olika nivåerna på faktor A? e i,j = Radsumma nr i Kolumnsumma nr j n Hur god är anpassningen mellan observerade och förväntade frekvenser?, vt12 (19 : 33), vt12 (20 : 33)

Testvariabel Tillämpning: homogenitetstest Analogt med χ 2 -test för anpassning utvärderas avvikelsen mellan observerade och förväntade frekvenser genom följande testvariabel: r i=1 j=1 k (o i,j e i,j ) 2 e i,j Observerade frekvenser ges av: Rockhampton Bowen Mackay Σ Inf. 12 7 14 33 Ej Inf. 8 13 6 27 Σ 20 20 20 60 Förväntade frekvenser ges av: Testvariabeln är χ 2 -fördelad med frihetsgrader: vid korrekt anpassning. f = (r 1)(k 1) Rockhampton Bowen Mackay Σ Inf. 11 11 11 33 Ej Inf. 9 9 9 27 Σ 20 20 20 60, vt12 (21 : 33), vt12 (22 : 33) Tillämpning: Testvariabel Utvärdering Observerat värde på testvariabeln 2 i=1 j=1 3 (o i,j e i,j ) 2 e i,j (12 11)2 (7 11)2 (14 11)2 = + + 11 11 11 (8 9)2 (13 9)2 (6 9)2 + + + 9 9 9 = 5.25 Motsvarande antal frihetsgrader: f = (2 1)(3 1) = 2. 5.25 Motsvarande antal frihetsgrader: 2 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(2) = 5.99 Slutsats: χ 2 obs < χ2 0.05 (2) gör att vi inte kan ifrågasätta anpassningen. : p-värdet 7%. Detta är i närheten av vad som brukar anses signifikant. Det finns alltså viss evidens för att ifrågasätta anpassningen., vt12 (23 : 33), vt12 (24 : 33)

Förekomst av bananflugor Analys Fritt levande bananflugor (Drosophila subobcura) fångades i agnade fällor på tre olika platser och könsbestämdes därefter. Återigen finns det två faktorer att ta hänsyn till, A = plats, B = kön., vt12 (25 : 33) Skog 1 Skog 2 Öppet område Hannar 89 34 74 Honor 31 20 136 Faktor A förekommer på 3 nivåer, medan Faktor B förekommer på 2 nivåer. Totalt finns det därmed 6 kategorier. Fördelningen av individer redovisas i föregående korstabell., vt12 (26 : 33) Hypotes om oberoende Skillnad mellan homogenitet och oberoende En bra fråga som kan ställa är: Är det samma könsfördelning på alla tre platser som undersökts? Ett annat sätt att uttrycka frågan är: För en slumpmässigt vald individ, är sannolikheten för manligt/kvinligt kön oberoende av platsen den fångats på? Mer abstrakt kan man formulera detta som: Inverkar faktorerna A och B oberoende av varandra? Begreppen homogenitetstest och test av oberoende är nära besläktade i detta sammanhang. Statistiskt behandlar man motsvarande korstabeller på exakt samma sätt. Skillnaden ligger i försöksupplägget. I det första exemplet var faktor A inte slumpmässig, i meningen att man på förhand bestämt sig för att undersöka 20 paddor på vardera ställe. I det andra exemplet visste man inte på förhand hur många individer som skulle ingå från vardera plats. Därför kan det vara mer lämpligt att tala om två slumpmässiga faktorer och att man undersöker huruvida de inverkar oberoende av varandra., vt12 (27 : 33), vt12 (28 : 33)

Tillämpning: test av oberoende Tillämpning: Testvariabel Observerade frekvenser ges av: Skog 1 Skog 2 Öppet område Σ Hannar 89 34 74 197 Honor 31 20 136 187 Σ 120 54 210 384 Förväntade frekvenser ges av: 2 3 i=1 j=1 Motsvarande antal frihetsgrader: (o i,j e i,j ) 2 e i,j = 49.7 Skog 1 Skog 2 Öppet område Σ Hannar 61.6 27.7 107.7 197 Honor 58.4 26.3 102.3 187 Σ 120 54 210 384 f = (2 1)(3 1) = 2., vt12 (29 : 33), vt12 (30 : 33) Utvärdering Observerat värde på testvariabeln 49.7 Motsvarande antal frihetsgrader: 2 Kritiskt värde på testvariabeln (signifikansnivå 5%): χ 2 0.05(2) = 5.99 Slutsats: χ 2 obs > χ2 0.05 (2) gör att vi kan ifrågasätta anpassningen. : p-värdet 0.000. Detta är med all önskvärd tydlighet signifikant. Det finns alltså klar evidens för att ifrågasätta anpassningen. Vi har sett tre olika metoder (χ 2 -test) som är relevanta för analyser av hur individer fördelar sig över olika kategorier. Testen utvärderar anpassningen mellan observerade frekvenser och förväntade frekvenser. Förväntade frekvenser kan uppstå exempelvis ur genetisk teori. De kan också uppstå när man undersöker samband mellan två faktorer. Med homogenitet avses att en faktor inverkar på samma sätt oavsett vilken nivå som valts på en annan faktor. Om båda faktorerna betraktas som slumpmässiga brukar man använda termen oberoende istället för homogenitet., vt12 (31 : 33), vt12 (32 : 33)

χ 2 -test återfinns genom att klicka: Stat Tables Vid oberoende/homogenitetstest matar man in motsvarande korstabell direkt i arbetsfältet. OBS: räknar själv ut radsummor och kolumnsummor. Ett anpassningstest kräver att man specificerar förväntade frekvenser, exempelvis i en separat kolumn i arbetsfältet., vt12 (33 : 33)