Varansanalys ANOVA ANOVA - ANalyss Of VArance Stcprov från flera populatoner ( ) analyserar varansen (sprdnngen) varje stcprov för att dra slutsatser om medelvärden Har alla populatoner samma medelvärden? om testvarabeln blr sgnfant stor: mnst en populaton har ett avvande medelvärde (även om man nte vet vlen populaton det var) Hur an man använda varanserna för att uttala sg om medelvärden?? se nästa sda uwe.menzel@math.uu.se Idé Populaton Populaton µ µ Experment med flera populatoner Undersönng om en oberoende varabel ( fator ) har nflytande på en beroende varabel Mängd gödsel mängd sördade potats Fator: gödsel Level:3 mg/m ; 5 mg/m ; 7 mg/m Fnns en effet av gödsel på sörden? En fator One-way ANOVA blandat Stor? Treatment Populaton (grupp ) Y Betecnngar Treatment Populaton (grupp ) Y Treatment 3 Populaton 3 (grupp 3) Y 3 grupp Yj replcate j Betecnngar Y Medelvärde nom grupp Y grand mean Y Y 3 Y 4 (n replcates) Y Y 3 Y 4 (n replcates) Y 3 Y 33 Y 34 (n 3 replcates) 3 treatments 3 populatoner, 3 grupper McKllup p. 7
Nollhypotes, alternatv hypotes S xx n Sum of Squares x x x 8 H : alla grupper har samma medelvärde 3 x x H a : mnst ett lhetstecen gäller nte x 3 x 5 x Sum of Squares används för att besrva sprdnngen (proportonell tll stcprovsvaransen) Det fnns flera sorter som används för ANOVA följande sdor n Total Sum of Squares Sum of Squares Total SS Yj Y j for Treatments n Y Y Sum of Squares for Errorrror SSE n Y j Y j Att dela upp varatonen Total SS n n Y j Y n Y Y Y j Y j j SSE Total SS = Total Sum of Squares = Sum of Squares for Treatments SSE = Sum of Squares for Error antalet grupper (populatoner) n antalet replcates grupp
Hur ränar r man? n MST df Testvarabel F n Y Y SSE Yj Y j SSE SSE MSE df n MST F F, n MSE mean square under H F-fördelnng med - frhetsgrader täljaren (numerator) n- frhetsgrader nämnaren (denomnator) F blr stor om någon grupps medelvärde avver tllräclgt mycet. Densty,7,6,4,3,, One-taled F-testF F; df=4; df= Förasta H om F hamnar här 3,6 5 Kvantl F -,n- Det är osannolt att sådana extrema F- värden ommer tll stånd, gvet H X Tabell F-fördelnngF Kvantl Mntab Graph / Prob. Dstrbuton Plot / Vew Probabltes Rght tal Dstrbuton Plot F; df=4; df=,7,6 Densty,4,3,, 3,6 5 F Krtsa områden för f r ola sgnfansnvåer (F test) One-way ANOVA mera benägen att hålla fast vd H =.5 =. =.. Hypotes H : µ = µ =... =. Sgnfansnvå: =.5 3. Stcprov 4. Testvarabel F F, n rt j n n Y Y SSE Yj Y SSE SSE MST MSE df df n MST MSE F F, n 5. Förasta H om F rt värdena för det rtsa området beror ocså på antalet frhetsgrader täljaren och nämnaren
och SSE an beränas med hjälp av s och medelvärden gvna : SSE n n Y Y Y n n n Y j Y n S j Y S n Y n Y n Y n Hur ommer man påp detta? (Illustraton) Dessa uttryc behövs när man nte har själva mätvärdena, utan bara antalen, medelvärdena och standardavvelserna (eller varanserna). Lten sllnad mellan grupper McKllup p. Hur ommer man påp detta? (Teor) Stor sllnad mellan grupper j SSE n n Y SSE j Y Y n Y F F, n Om det fnns en effet av någon treatment då blr stort jämfört med SSE F blr stor ( förasta H ) SSE n S Under H gäller: n S n S n dfn - dfn - dfn - Y Y n antalet Z -fördelade Wacerly p.64 Ex 3.6 S n Vsas med hjälp av fördelnngen för TotalSS, Wacerly Ex 3.6 ( ) MST F F, n MSE SSE SSE ( n ) n n n Defnton för F Wacerly p. 34 Teorem 7.3 Räneexempel (för r bara två grupper) T T 6. 9. 7. 8. 7.8 8.6 6.9 6.9 7.6 7.5 8. 7.9 Y 6. 7. 7.8 6.9 7.6 8. 7.833 6 Y 9. 8. 8.6 6.9 7.5 7.9 8.333 6 Y T T Y Y Y Y Y 3 Y 3 Y 4 Y 4 Y 5 Y 5 Y 6 Y 6 6. 7. 7.8 6.9 7.6 8. 9. 8. 8.6 6.9 7.5 7.9 7. 6583
6 SSE Räneexempel Y 7.833 Y 8.333 Y 7.6583 Y Y n Y Y n Y Y 7.833 7.6583 68.333 7.6583.6875 n 6 6 6 Yj Y Yj Y Y j Y Y j Y j Y Y Y Y Y 3 Y Y 4 Y Y 5 Y Y 6 Y Y Y Y Y Y Y Y Y Y Y Y Y n 5.867 j 3 j 4 j 5 6 Total SS Total SS = + SSE? n 6 Y j Y Y j Y j 6 6 Y 7.35 j Yj j j j SSE.69 5.86 7.55 9.9 7. 55 Räneexempel, forts. Krtsa värden v för f r F-fördelnngenF.6875 SSE 5.867 n n n.6875 MST.6875 SSE 5.867 MSE.586 n MST.6875 F.8787 MSE.586 -= n-= Sgnfans: =.5 Testvarabel olla om den lgger RR F = 4.96 Resultat Resultat: p-värdetp,6 F; df=; df= p-value = P(F >.88) testvarabelns värde Densty,4,3, H förastas nte. F=.88,6 F; df=; df=, 4,96 5 Densty,4,3, p-value = P(F >.88)=, Det fnns ngen sgnfant sllnad mellan båda grupper (på sgnfansnvå =.5).,,88,
One-way ANOVA Mntab Stat / ANOVA / One-Way eller One-Way unstaced Frhets grader Mntab: ANOVA table Sum of Squares Mean squares testvarabel P-värdet Source DF SS MS F P Treatm,687,687,88, Error 5,86 86 Total 7,549,687/86=,88 += 5,86/=86,687+5,86=7,549 ANOVA table T-test Om man bara har två grupper funar naturlgtvs ocså ett t-test (tvåsdgt), och ger samma resultat: Two-Sample T-Test and CI: T; T N Mean StDev SE Mean T 6 8,33,784,3 T 6 7,83,747,3 Dfference = mu (T) - mu (T) Estmate for dfference:,75 T-Test of dfference = (vs not =): T-Value =,7 P-Value =,4 DF = 9,7 =,89 allmänt FT för grupper, Wacerly p. 634 Source: Danel Heaton, MBA, ANOVA_Heaton.ppt Har flera grupper samma varans? One-way ANOVA: Antaganden Levene-test Oberoende observatoner de ola grupperna. Normalfördelade populatoner. ANOVA fungerar oftast bra utan att detta är väl uppfyllt. Homogena varanser. La sprdnng de ola grupperna. Vd samma antal observatoner varje grupp är ANOVA gansa oänslgt för brott mot detta. Levene test, Bartlett s test Beräna absoluta dfferenserna tll gruppmedelvärdet One-way ANOVA på dfferenserna H : = = 3 =... = Låg F-värde One-way ANOVA H förastas nte ngen sgnfant sllnad mellan absoluta dfferenserna samma varanser
Har flera grupper samma varans? Levene-test Beräna absoluta dfferenserna tll gruppmedelvärdet A B C D 65 75 59 94 87 69 78 89 73 83 67 8 79 8 6 88 8 7 83 69 79 76 9 Räneexempel 4 grupper n 6 n 7 n 6 n 4 Y 75.67 Y 78.43 n Y n Y n3 Y3 n4 Y4 79 Y 77.35 n n n n 3 MST 37.5 df 3 3 Y 7.83 4 4 3 Y 87.75 n n Y Y 7.6 SSE Yj Y 4 j 96.6 SSE SSE MSE 63. df n One-way ANOVA på dfferenserna: H : = = 3 =... = Hög F-värde One-way ANOVA H förastas sgnfant sllnad mellan absoluta dfferenserna INTE samma varanser (heterocedastc).5 MST 37.5 F 3.77 MSE 63. rt F F, n F F.53,9 F 3.3 Räneexempel 4 grupper, alternatv A B C D 65 75 59 94 87 69 78 89 73 83 67 8 79 8 6 88 8 7 83 69 79 76 9 A B C D n 6 7 6 4 x 75,67 78,43 7,83 87,75 s 66,67 5,6 9,77 33,58.5 n Y n Y n3 Y3 n4 Y4 79 Y 77.35 n n n3 n4 3 n Y Y 6 75.67 77.35 7 78.43 77.35 6 7.83 77.35 4 87.75 77.35 6.93 8.65 55. 43.64 7.8 7.8 MST 37.6 3 SSE n S 5 66.67 6 5.6 5 9,77 3 33,58 333.35 33.7 458.85.74 96.66 SSE 96.66 MSE 63 n 9 ( alternatv formel) MST 37.6 F 3.77 MSE 63. rt F F, n F F.53, 9 F 3.3 Räneexempel 4 grupper, forts.,8,7,6,4,3,, F; df=3; df=9 rt 3,3 F 3.77 F 3.3 Testvarabeln F översrder det rtsa värdet (3 numerator och 9 denomnator frhetsgrader). Nollhypotesen förastas därför. Mnst ett medelvärde avver från de andra (.5). 5 P-värdet Defne Shaded Area by X-value: 3,77,8 F; df=3; df=9 ANOVA_.MPJ Räneexempel 4 grupper, Mntab Stat / ANOVA / One-Way (Unstaced),7,6,4,3 p=8.5 Tueys test,, 3,77 8
ANOVA_.MPJ One-way ANOVA: A; B; C; D Source DF SS MS F P Factor 3 7,6 37,5 3,77 8 Error 9 96,6 63, Total 99, S = 7,936 R-Sq = 37,3% R-Sq(adj) = 7,43% Nollhypotesen förastas, fatorn har effet. Räneexempel 4 grupper, staced data Stat / ANOVA / One-Way staced data Indvdual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--- A 6 75,667 8,65 (------*-----) B 7 78,49 7,5 (-----*------) C 6 7,833 9,579 (------*------) D 4 87,75 5,795 (--------*-------) ------+---------+---------+---------+--- 7 8 9 Pooled StDev = 7,936 Der blr naturlgtvs samma ANOVA-tabell..5 Interval plot an förtydlga f... Interval plot Stat / ANOVA / Interval Plot Wth groups Interval Plot of C 95% CI for the Mean 9 C 8 7 6 A B C C D för staced data Räneexempel 4 grupper, Levene test Stat / ANOVA / Test for Equal Varances Levene test, Mntab Test for Equal Varances: C versus C 95% Bonferron confdence ntervals for standard devatons C N Lower StDev Upper A 6 4,53366 8,6497 7,35 B 7 4,849 7,47,3548 C 6 5,398 9,57949 3,833 D 4,8559 5,795 34,756 Bartlett's Test (Normal Dstrbuton) Test statstc =,94; p-value =,85 staced data Levene's Test (Any Contnuous Dstrbuton) Test statstc =,; p-value =,33
Levene test, Mntab Varför r nte t-testa t testa parvs? A Test for Equal Varances for C Bartlett's Test Test Statstc,94 P-Value,85 Grupp Grupp Levene's Test Test Statstc, B P-Value,33 C C D Grupp 3 Grupp 4 5 5 5 3 35 95% Bonferron Confdence Intervals for StDevs Korretur för multple testng n n Antal test multple testng problem Varför r nte t-testa t testa parvs? Vlet medelvärde avver?.4...8.6.4.. Fördelnng för medelvärdet Normal, Mean=, StDev=.3.5.4.6.5 McKllup s. 5 Fel typ : Att förasta H när den är sann Vll v veta det måste v öra ett a posteror test (naturlgtvs bara om H ANOVA förastades) t. ex Tuey s s test Tuey s test gör parvsa jämförelser, men på ett specellt sätt: orretur för multple comparsons umulatv sgnfansnvå (för alla test) Varje t-test nnebär en rs för fel typ ( ) Många test rsen blr stor: Bernoullförsö, Bnomalfördelnng: P(X ) John Tuey, 95- Tuey s s test http://statw.ww.hu-berln.de/ndex.php/tuey-test gruppmedelvärden Y.. 3. Ett par (x, y) jämförs på följande sätt: ( H : x = y ) testvarabel: rstsa värdet beror av, n och : q x y q MSE nx n y SSE MSE n rt n Y Y n från q q tabell n,, j j, n Tuey Kramer Test orgnal Tuey-test: n x =n y ANOVA H förastas om q översrder de rtsa värdet x och y har nte samma medelvärde, tllhör nte samma luster, se nästa sda: Tuey s s test: Parvsa jämförelser görs en vss ordnng McKllup s. luster luster
Tuey s s test Mntab Tueys test Values greater than or equal to. are nterpreted as percentages. The default error rate s.5 Tuey 95% Smultaneous Confdence Intervals All Parwse Comparsons Konfdensntervall för sllnaden Indvdual confdence level = 98,89% mellan medelvärden A subtracted from: Lower Center Upper +---------+---------+---------+--------- B -9,664,76 5,88 (-------*------) C -7,78-4,833 8,6 (-------*-------) D -,333,83 6,5 (--------*--------) +---------+---------+---------+--------- -3-6 6 Konfdensntervaller som nnehåller betyder: ngen sgnfant sllnad mellan respetve medelvärden. famly error rate är fatst det maxmala umulatva felet typ man tllåter för alla jämförelser som görs. B subtracted from: Lower Center Upper +---------+---------+---------+--------- C - -7,595 4,83 (-------*-------) D -4,677 9,3 3,3 (--------*--------) +---------+---------+---------+--------- -3-6 6 C subtracted from: Lower Center Upper +---------+---------+---------+--------- D,5 6,97 3,333 (--------*--------) +---------+---------+---------+--------- 87.75-7.83=6.9-3 -6 6 samma som ovan grupp C sljer sg från grupp D (OBS: nte samma sa som nterval plot ovan. Sammanfattnng Levene test: 3? Om man msstäner att den här förutsättnngen för One-Way ANOVA är nte (ungefär) uppfyllt. One-Way ANOVA: 3...? Har grupperna ( som uppstår genom ola treatments ) samma medelvärde? Eller: har dessa treatments en (sgnfant) effet? Nollhypotesen är att alla grupper har samma medelvärde, den alternatva hypotesen är att mnst ett medelvärde avver. One-Way ANOVA på absoluta dfferenserna tll gruppmedelvärdet Parvsa jämförelser, men på ett specellt sätt, för att undva anhopnng av fel typ. Tuey-Test: Vla medelvärden är det som avver, efter en sgnfant One-Way ANOVA