Ch-Square test 1. Anpassnngstest 1. Anpassnngstest (Goodness of Ft). Oberoendetest (Independence Test) uwe.menzel@genpat.uu.se Vad gör g r ett anpassnngstest? Hur bra passar en statsts modell tll observerade data? (är modellen bra?) Följer observatonerna en förmodad fördelnng? 1. Är mna data normalfördelade?: Kolmogorov Smrnov test (Mntab) Shapro Wl test Anderson Darlng test.... Multnomal experment: Får jag resultat som jag förväntar mg enlgt mn modell?: Pearson's ch-square test, Goodness of Ft test Multnomal experment Modell: rättvs tärnng, dvs. p =1/6 xperment: astar tärnngen 1 (=n) gånger 1 3 4 5 6 expected =p n observed 1 16 8 4 19 1 Med detta resultat handen: Kan jag fortfaranda tro att mn modell (rättvs tärnng) stämmer?... eller måste jag förasta denna (noll)hypotes? Summan över råden måste vara 1 en restrton Multnomal experment n testvarabel som mäter sllnaden Om resultatet hade vart som tabellen nedan hade jag väl förastad nollhypotesen (rättvs tärnng)... 1 3 4 5 6 expected =p n observed 3 1 1 113 o = 1 Var går gränsen? Vlet värde får sllnaden mellan observed och expected maxmalt ha för att bbehålla H? (Hur mäts sllnaden överhuvudtaget?) v behöver en fördelnng för sllnaden, dvs. sannolheten att en vss sllnad uppstår! Om denna sannolhet är lten, förastar v H. 1 observed values O expected values Fördelnngen av denna testvarabel an ränas ut, gvet att nollhypotesen gäller (och att n är stor) Ch-Square fördelnngen ( ) OBS: Testvarabeln är -fördelad och allas ofta ocså
mäter sllnaden tll nollhypotesen Pearson's ch-square test 1 3 4 5 6 1 3 4 5 6 Fördelnngen för testvarabeln är änd under H v an räna ut hur sannolt varje värde av testvarabeln är. V förastar nollhypotesen (dvs. modellen) om var observaton leder tll ett -värde som är mycet osannolt under H (t.ex < 5%) O 1 16 8 4 19 1 O 1 1 4 8 4 1 8 8.1 Sllnad mellan modell och observaton lten lten O 3 1 1 113 O 1 17 18 19 19 93 519. Sllnad mellan modell och observaton stor stor Densty,14,1,1,8,6,4,, Dstrbuton Plot Ch-Square; df=6 1,6,5 är alltd postv och nollhypotesen förastas för stora värden upper tal test O rt 1 testvarabel upper tal PDF beror påp antalet frhetsgrader Antalet frhetsgrader förf -testet Densty,5,4,3,,1 Dstrbuton Plot Ch-Square df 4 6 8 antalet celler (6 för tärnngen) df df 1 antalet lnjära restrtoner (1 för tärnngen: summa för en råd = n) r p antalet parametrar som sattas för att få en modell, 5 1 15 5 oftast är det bara så här, dvs. r=1 och p= Förutsättnngarttnngar bara om n är stor har summan en -fördelnng 5 varje cell slumpmässgt stcprov (som vanlgt) I don t t le mondays... Hjärtattac (n= patenter): Boomtown Rats 1 3 4 5 6 O 1 16 8 4 19 1 alla 5 söndag måndag tsdag onsdag torsdag fredag lördag 4 36 7 6 3 6 9 Rsen jämnfördelad eller är måndag farlgare?
H p p p p p p p 1 : 1 3 4 5 6 7 7 n n p 8.57 expected 7 n 5 oay 1 O 4 8.57 36 8.57 7 8.57 6 8.57 8.57 3 8.57 6 8.57 9 8.57 8.57 13.71 3.63 8.57 8.57 8.57 Om hjärtattac är jämnfördelade och man regstrerar fall, så sulle det bl omrng 8/9 per dag... 8.57 8.57 8.57 H förastas nte! Tabell ce symmetrs!.5 rt 6 1.59 tabell.5 Mntab Stat / Tables / Ch-Square Goodness-of-Ft Test chsquare.mpj O1 1 4 8.57 Mntab 1 8.57 Ch-Square Goodness-of-Ft Test for Observed Counts n Varable: O Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 4 8,57,14857 8,5714,73143 36 8,57,14857 8,5714 1,93143 3 7 8,57,14857 8,5714,8643 4 6 8,57,14857 8,5714,3143 5 3 8,57,14857 8,5714,41143 6 6 8,57,14857 8,5714,3143 7 9 8,57,14857 8,5714,643 N DF Ch-Sq P-Value 6 3,63,77 Nollhypotesen förastas nte, högt p-värde. -1 hade v förut P-värdet Kvantl,14,1 Dstrbuton Plot Ch-Square; df=6,14,1 Dstrbuton Plot Ch-Square; df=6 Graph / Probablty Dstrbuton Plot / Vew Probablty Shaded area / Probablty =,5 Densty,1,8,6 Slh. att testvarabeln blr så stor som det blev eller ännu mera extremt Densty,1,8,6,4,, 3,63,77,4,, 1,6,5 det var värdet för testvarabeln det var vad v ocså httade tabellen f.5 6
Vlet värde v avver hur mycet från vara förvf rväntnngar? Jämförelse observed och expected Chart of Contrbuton to the Ch-Square Value by Category, 4 Chart of Observed and xpected Values xpected Observed Contrbuted Value 1,5 1,,5 andel tll : en stolpe = en summand Value 3, 1 5 4 6 3 7 Category söndag måndag tsdag onsdag torsdag fredag lördag 4 36 7 6 3 6 9 1 Category 1 3 4 5 6 7 på måndag sljer sg det observerade värdet mest från förväntnngen Var fåglarna f söer s frö Antagandet (modell): Fåglarna föredrar nte någon sorts träd, de söer frö alla träd med jämn sannolhet ju mer träd av en vss sort föreommer, desto mer fåglar fnns där... xperment: n=156 fåglar observerades en sog Oregon ädelgran furu ust gran lär summa ronornas volym 54% 4% 5% 1% 1% expected 156,54=84,4 156,4=6,4 156,5=7,8 156,1=1,56 156 observed 7 79 3 4 156 n 5 oay O rt 1 7 84.4 79 6.4 7 9.36 84.4.47 4.416.595 7.418 sammanfattat 5 n=156 ädelgran furu ustgran/lär expected 84,4 6,4 9,36 observed 7 79 7 6.4 5.99.5 9.36 Densty,5,4,3,,1, Ch-Square; df= H förastas.,5 5,99 Mannan, R.W., and.c. Meslow. 1984. Brd populatons and vegetaton characterstcs n managed and oldgrowth forests, northeastern Oregon. J. Wldl. Manage. 48: 119-138. för lten!! Mntab Stat / Tables / Ch-Square Goodness of Ft Results for: brd_pooled Mntab Ch-Square Goodness-of-Ft Test for Observed Counts n Varable: Obs Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 7 84,4,54 84,4,4714 79 6,4,4 6,4 4,4163 3 7 9,36,6 9,36,5954 N DF Ch-Sq P-Value 156 7,4181,4 P<.5: Nollhypotesen förastas. Uppenbarlgen föredrar fåglarna vssa träd.
Jämförelse observed/expected Måste man sammanfatta cellerna om n<5? Chart of Observed and xpected Values 9 8 7 xpected Observed Man får alla fall en varnng. 6 Value 5 4 3 1 Category 1 3 Hstorcal Test Contrbuton Category Observed Counts Proporton xpected to Ch-Sq 1 7 84,4,54 84,4,4714 79 6,4,4 6,4 4,4163 3 3 7,8,5 7,8,95385 4 4 1,56,1 1,56 3,81641 Som det ser ut, föredrar fåglarna ategor, alltså furu. Här fnns fler fåglar än förväntad under H. N DF Ch-Sq P-Value 156 3 13,5934,4 1 cell(s) (5,%) wth expected value(s) less than 5. Mendel s s experment Mendel s s Law A a Allel A är domnant Om Mendel s lag gäller, så förväntar man sg en proporton 3:1 för runda:ynlga. Man observerade 43 runda och 133 ynlga ett sådant experment. Mendel orsade bara heterozygota bönor (allel-frevenserna är båda.5): A a A AA Aa a Aa aa Genotyper AA och Aa blr runda, bara genotyp aa blr ynlg. Om Mendel s lag gäller, så förväntar man sg en proporton 3:1 för runda:ynlga. rund ynlg O 43 133 556 556 ¾=417 556 ¼=139 556 Ingen sgnfant sllnad mellan observed/expected. Ingen motsats tll modellen, dvs. ngen förastnng av Mendels lag genom detta försö. rt 1 43 417 133 139 417.345 O 1 3.84.5 139 xempel från http://en.wpeda.org/w/hardy-wenberg_prncple, changed! Hardy-Wenberg Wenberg-qulbrum Ofta vet man doc nte allel-frevenserna (p,q) från början som Mendels experment (där man hade p=q=.5 eftersom bara heterozygota bönor används) HW säger doc att allel-frevenserna förblr onstant Sattnng av allel-frevenserna Callmorpha domnula Lnnaeus, 1758 HW female A(p) a(q) A(p) AA(p ) Aa(pq) male a(q) Aa(pq) aa(q ) f ( AA) p f ( Aa) pq f ( aa) q Genotype Whtespotted(AA) Intermedate (Aa) Lttle spottng (aa) (=n) Number 139 68 15 161 p ~ obs( AA).5obs( aa) och obs( AA).5obs( aa) 139 134 p.97 n 161 q 1 p.93 a A q ~ obs( aa).5obs( aa)
Genotype Hardy-Wenberg Wenberg-qulbrum Whtespotted(AA) Intermedate (Aa) Lttle spottng (aa) (=n) Number 139 68 15 161 xpected: p.97 ( AA) n p ( Aa) n pq 71.95 ( aa) n q q.93 161.97 136.11 13.94 Testvarabel: O 1 139 136.11 68 71.95.144 136.11 15 13.94 13.94.63.574.81 71.95 Antalet frhetsgrader och det rtsa värdet O 1.144 V har 3 celler, men v förlorar 1 df för en lnjär restrton och 1 df för en sattnng (allmänt för HW-test: df = antalet genotyper mnus antalet alleler) rt 1 3.84.5 V förastar nte nollhypotesen att populatonen är HW.