Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

Relevanta dokument
1. Anpassningstest. Chi-Square test. Multinomial experiment. Multinomial experiment. Vad gör g r ett anpassningstest?

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

Följande resultat erhålls (enhet: 1000psi):

Experiment med två faktorer. Treatment Population. Balanced och ortogonal design. Graph of means. Table of means

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

Statistik för teknologer, 5 poäng Skrivtid:

7.5 Experiment with a single factor having more than two levels

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

7.5 Experiment with a single factor having more than two levels

Metod och teori. Statistik för naturvetare Umeå universitet

Kontingenstabell (Korstabell) 2. Oberoende-test. Stickprov beror av slumpen. Vad vi förvf. är r oberoende: kriterier är r oberoende: kriterier

Tentamen i Dataanalys och statistik för I den 5 jan 2016

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

ENKEL LINJÄR REGRESSION

TENTAMEN I MATEMATISK STATISTIK

Räkneövning 3 Variansanalys

Tentamen i matematisk statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Thomas Macks beräkning av standardfelet för reservavsättningar

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

Test av anpassning, homogenitet och oberoende med χ 2 - metod

Examinationsuppgifter del 2

a) B är oberoende av A. (1p) b) P (A B) = 1 2. (1p) c) P (A B) = 1 och P (A B) = 1 6. (1p) Lösningar: = P (A) P (A B) = 1

Slumpvariabler (Stokastiska variabler)

8.1 General factorial experiments

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Veckoblad 2. Kapitel 2 i Matematisk statistik, Blomqvist U.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Centrala Gränsvärdessatsen:

Tentamen i matematisk statistik

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Tentamen i matematisk statistik

ANOVA Mellangruppsdesign

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Vinst (k) Sannolikhet ( )

Lösningar till SPSS-övning: Analytisk statistik

Skrivning i ekonometri torsdagen den 8 februari 2007

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F1

Beräkna standardavvikelser för efterfrågevariationer

Regressions- och Tidsserieanalys - F1

7.3.3 Nonparametric Mann-Whitney test

Regressions- och Tidsserieanalys - F3

Uppgift 1. Produktmomentkorrelationskoefficienten

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

DEL I. Matematiska Institutionen KTH

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

3.1 Beskrivande statistik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

När vi räknade ut regressionsekvationen sa vi att denna beskriver förhållandet mellan flera variabler. Man försöker hitta det bästa möjliga sättet

Experimentella metoder 2014, Räkneövning 5

Effekter av kön, ålder och region på sjukpenningen i Sverige

Trafikljus stresstest för försäkrings- och driftskostnadsrisker inom livförsäkring

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Mätfelsbehandling. Lars Engström

10.1 Enkel linjär regression

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Dödlighetsundersökningar på KPA:s

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

F15 ENKEL LINJÄR REGRESSION (NCT )

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F4

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Innehåll: har missbrukat jämfört med om man inte har. missbrukat. Risk 1 Odds Risk. Odds 1 Risk. Odds

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Trafikljus utvidgat med stresstest för försäkrings- och driftskostnadsrisker inom livförsäkring

Ringanalys VTI notat VTI notat Analys av bindemedel

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Övervakad inlärning Översikt. Exempel. Återblick. Testning av nätet. Styrning av aktivering i nätet

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Samhällsvetenskaplig metod, 7,5 hp

Arbetslivsinriktad rehabilitering för sjukskrivna arbetslösa funkar det?

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Exempel 1 på multipelregression

Gamla tentor (forts) ( x. x ) ) 2 x1

Del A Begrepp och grundläggande förståelse.

Minitab-lösningar till lämpliga uppgifter för NDAB01, vt2011, 17 januari 2011.

Regressions- och Tidsserieanalys - F7

Lösningar modul 3 - Lokala nätverk

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Multipel Regressionsmodellen

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

Laboration 2 multipel linjär regression

Transkript:

Varansanalys ANOVA ANOVA - ANalyss Of VArance Stcprov från flera populatoner ( ) analyserar varansen (sprdnngen) varje stcprov för att dra slutsatser om medelvärden Har alla populatoner samma medelvärden? om testvarabeln blr sgnfant stor: mnst en populaton har ett avvande medelvärde (även om man nte vet vlen populaton det var) Hur an man använda varanserna för att uttala sg om medelvärden?? se nästa sda uwe.menzel@math.uu.se Idé Populaton Populaton µ µ Experment med flera populatoner Undersönng om en oberoende varabel ( fator ) har nflytande på en beroende varabel Mängd gödsel mängd sördade potats Fator: gödsel Level:3 mg/m ; 5 mg/m ; 7 mg/m Fnns en effet av gödsel på sörden? En fator One-way ANOVA blandat Stor? Treatment Populaton (grupp ) Y Betecnngar Treatment Populaton (grupp ) Y Treatment 3 Populaton 3 (grupp 3) Y 3 grupp Yj replcate j Betecnngar Y Medelvärde nom grupp Y grand mean Y Y 3 Y 4 (n replcates) Y Y 3 Y 4 (n replcates) Y 3 Y 33 Y 34 (n 3 replcates) 3 treatments 3 populatoner, 3 grupper McKllup p. 7

Nollhypotes, alternatv hypotes S xx n Sum of Squares x x x 8 H : alla grupper har samma medelvärde 3 x x H a : mnst ett lhetstecen gäller nte x 3 x 5 x Sum of Squares används för att besrva sprdnngen (proportonell tll stcprovsvaransen) Det fnns flera sorter som används för ANOVA följande sdor n Total Sum of Squares Sum of Squares Total SS Yj Y j for Treatments n Y Y Sum of Squares for Errorrror SSE n Y j Y j Att dela upp varatonen Total SS n n Y j Y n Y Y Y j Y j j SSE Total SS = Total Sum of Squares = Sum of Squares for Treatments SSE = Sum of Squares for Error antalet grupper (populatoner) n antalet replcates grupp

Hur ränar r man? n MST df Testvarabel F n Y Y SSE Yj Y j SSE SSE MSE df n MST F F, n MSE mean square under H F-fördelnng med - frhetsgrader täljaren (numerator) n- frhetsgrader nämnaren (denomnator) F blr stor om någon grupps medelvärde avver tllräclgt mycet. Densty,7,6,4,3,, One-taled F-testF F; df=4; df= Förasta H om F hamnar här 3,6 5 Kvantl F -,n- Det är osannolt att sådana extrema F- värden ommer tll stånd, gvet H X Tabell F-fördelnngF Kvantl Mntab Graph / Prob. Dstrbuton Plot / Vew Probabltes Rght tal Dstrbuton Plot F; df=4; df=,7,6 Densty,4,3,, 3,6 5 F Krtsa områden för f r ola sgnfansnvåer (F test) One-way ANOVA mera benägen att hålla fast vd H =.5 =. =.. Hypotes H : µ = µ =... =. Sgnfansnvå: =.5 3. Stcprov 4. Testvarabel F F, n rt j n n Y Y SSE Yj Y SSE SSE MST MSE df df n MST MSE F F, n 5. Förasta H om F rt värdena för det rtsa området beror ocså på antalet frhetsgrader täljaren och nämnaren

och SSE an beränas med hjälp av s och medelvärden gvna : SSE n n Y Y Y n n n Y j Y n S j Y S n Y n Y n Y n Hur ommer man påp detta? (Illustraton) Dessa uttryc behövs när man nte har själva mätvärdena, utan bara antalen, medelvärdena och standardavvelserna (eller varanserna). Lten sllnad mellan grupper McKllup p. Hur ommer man påp detta? (Teor) Stor sllnad mellan grupper j SSE n n Y SSE j Y Y n Y F F, n Om det fnns en effet av någon treatment då blr stort jämfört med SSE F blr stor ( förasta H ) SSE n S Under H gäller: n S n S n dfn - dfn - dfn - Y Y n antalet Z -fördelade Wacerly p.64 Ex 3.6 S n Vsas med hjälp av fördelnngen för TotalSS, Wacerly Ex 3.6 ( ) MST F F, n MSE SSE SSE ( n ) n n n Defnton för F Wacerly p. 34 Teorem 7.3 Räneexempel (för r bara två grupper) T T 6. 9. 7. 8. 7.8 8.6 6.9 6.9 7.6 7.5 8. 7.9 Y 6. 7. 7.8 6.9 7.6 8. 7.833 6 Y 9. 8. 8.6 6.9 7.5 7.9 8.333 6 Y T T Y Y Y Y Y 3 Y 3 Y 4 Y 4 Y 5 Y 5 Y 6 Y 6 6. 7. 7.8 6.9 7.6 8. 9. 8. 8.6 6.9 7.5 7.9 7. 6583

6 SSE Räneexempel Y 7.833 Y 8.333 Y 7.6583 Y Y n Y Y n Y Y 7.833 7.6583 68.333 7.6583.6875 n 6 6 6 Yj Y Yj Y Y j Y Y j Y j Y Y Y Y Y 3 Y Y 4 Y Y 5 Y Y 6 Y Y Y Y Y Y Y Y Y Y Y Y Y n 5.867 j 3 j 4 j 5 6 Total SS Total SS = + SSE? n 6 Y j Y Y j Y j 6 6 Y 7.35 j Yj j j j SSE.69 5.86 7.55 9.9 7. 55 Räneexempel, forts. Krtsa värden v för f r F-fördelnngenF.6875 SSE 5.867 n n n.6875 MST.6875 SSE 5.867 MSE.586 n MST.6875 F.8787 MSE.586 -= n-= Sgnfans: =.5 Testvarabel olla om den lgger RR F = 4.96 Resultat Resultat: p-värdetp,6 F; df=; df= p-value = P(F >.88) testvarabelns värde Densty,4,3, H förastas nte. F=.88,6 F; df=; df=, 4,96 5 Densty,4,3, p-value = P(F >.88)=, Det fnns ngen sgnfant sllnad mellan båda grupper (på sgnfansnvå =.5).,,88,

One-way ANOVA Mntab Stat / ANOVA / One-Way eller One-Way unstaced Frhets grader Mntab: ANOVA table Sum of Squares Mean squares testvarabel P-värdet Source DF SS MS F P Treatm,687,687,88, Error 5,86 86 Total 7,549,687/86=,88 += 5,86/=86,687+5,86=7,549 ANOVA table T-test Om man bara har två grupper funar naturlgtvs ocså ett t-test (tvåsdgt), och ger samma resultat: Two-Sample T-Test and CI: T; T N Mean StDev SE Mean T 6 8,33,784,3 T 6 7,83,747,3 Dfference = mu (T) - mu (T) Estmate for dfference:,75 T-Test of dfference = (vs not =): T-Value =,7 P-Value =,4 DF = 9,7 =,89 allmänt FT för grupper, Wacerly p. 634 Source: Danel Heaton, MBA, ANOVA_Heaton.ppt Har flera grupper samma varans? One-way ANOVA: Antaganden Levene-test Oberoende observatoner de ola grupperna. Normalfördelade populatoner. ANOVA fungerar oftast bra utan att detta är väl uppfyllt. Homogena varanser. La sprdnng de ola grupperna. Vd samma antal observatoner varje grupp är ANOVA gansa oänslgt för brott mot detta. Levene test, Bartlett s test Beräna absoluta dfferenserna tll gruppmedelvärdet One-way ANOVA på dfferenserna H : = = 3 =... = Låg F-värde One-way ANOVA H förastas nte ngen sgnfant sllnad mellan absoluta dfferenserna samma varanser

Har flera grupper samma varans? Levene-test Beräna absoluta dfferenserna tll gruppmedelvärdet A B C D 65 75 59 94 87 69 78 89 73 83 67 8 79 8 6 88 8 7 83 69 79 76 9 Räneexempel 4 grupper n 6 n 7 n 6 n 4 Y 75.67 Y 78.43 n Y n Y n3 Y3 n4 Y4 79 Y 77.35 n n n n 3 MST 37.5 df 3 3 Y 7.83 4 4 3 Y 87.75 n n Y Y 7.6 SSE Yj Y 4 j 96.6 SSE SSE MSE 63. df n One-way ANOVA på dfferenserna: H : = = 3 =... = Hög F-värde One-way ANOVA H förastas sgnfant sllnad mellan absoluta dfferenserna INTE samma varanser (heterocedastc).5 MST 37.5 F 3.77 MSE 63. rt F F, n F F.53,9 F 3.3 Räneexempel 4 grupper, alternatv A B C D 65 75 59 94 87 69 78 89 73 83 67 8 79 8 6 88 8 7 83 69 79 76 9 A B C D n 6 7 6 4 x 75,67 78,43 7,83 87,75 s 66,67 5,6 9,77 33,58.5 n Y n Y n3 Y3 n4 Y4 79 Y 77.35 n n n3 n4 3 n Y Y 6 75.67 77.35 7 78.43 77.35 6 7.83 77.35 4 87.75 77.35 6.93 8.65 55. 43.64 7.8 7.8 MST 37.6 3 SSE n S 5 66.67 6 5.6 5 9,77 3 33,58 333.35 33.7 458.85.74 96.66 SSE 96.66 MSE 63 n 9 ( alternatv formel) MST 37.6 F 3.77 MSE 63. rt F F, n F F.53, 9 F 3.3 Räneexempel 4 grupper, forts.,8,7,6,4,3,, F; df=3; df=9 rt 3,3 F 3.77 F 3.3 Testvarabeln F översrder det rtsa värdet (3 numerator och 9 denomnator frhetsgrader). Nollhypotesen förastas därför. Mnst ett medelvärde avver från de andra (.5). 5 P-värdet Defne Shaded Area by X-value: 3,77,8 F; df=3; df=9 ANOVA_.MPJ Räneexempel 4 grupper, Mntab Stat / ANOVA / One-Way (Unstaced),7,6,4,3 p=8.5 Tueys test,, 3,77 8

ANOVA_.MPJ One-way ANOVA: A; B; C; D Source DF SS MS F P Factor 3 7,6 37,5 3,77 8 Error 9 96,6 63, Total 99, S = 7,936 R-Sq = 37,3% R-Sq(adj) = 7,43% Nollhypotesen förastas, fatorn har effet. Räneexempel 4 grupper, staced data Stat / ANOVA / One-Way staced data Indvdual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+--- A 6 75,667 8,65 (------*-----) B 7 78,49 7,5 (-----*------) C 6 7,833 9,579 (------*------) D 4 87,75 5,795 (--------*-------) ------+---------+---------+---------+--- 7 8 9 Pooled StDev = 7,936 Der blr naturlgtvs samma ANOVA-tabell..5 Interval plot an förtydlga f... Interval plot Stat / ANOVA / Interval Plot Wth groups Interval Plot of C 95% CI for the Mean 9 C 8 7 6 A B C C D för staced data Räneexempel 4 grupper, Levene test Stat / ANOVA / Test for Equal Varances Levene test, Mntab Test for Equal Varances: C versus C 95% Bonferron confdence ntervals for standard devatons C N Lower StDev Upper A 6 4,53366 8,6497 7,35 B 7 4,849 7,47,3548 C 6 5,398 9,57949 3,833 D 4,8559 5,795 34,756 Bartlett's Test (Normal Dstrbuton) Test statstc =,94; p-value =,85 staced data Levene's Test (Any Contnuous Dstrbuton) Test statstc =,; p-value =,33

Levene test, Mntab Varför r nte t-testa t testa parvs? A Test for Equal Varances for C Bartlett's Test Test Statstc,94 P-Value,85 Grupp Grupp Levene's Test Test Statstc, B P-Value,33 C C D Grupp 3 Grupp 4 5 5 5 3 35 95% Bonferron Confdence Intervals for StDevs Korretur för multple testng n n Antal test multple testng problem Varför r nte t-testa t testa parvs? Vlet medelvärde avver?.4...8.6.4.. Fördelnng för medelvärdet Normal, Mean=, StDev=.3.5.4.6.5 McKllup s. 5 Fel typ : Att förasta H när den är sann Vll v veta det måste v öra ett a posteror test (naturlgtvs bara om H ANOVA förastades) t. ex Tuey s s test Tuey s test gör parvsa jämförelser, men på ett specellt sätt: orretur för multple comparsons umulatv sgnfansnvå (för alla test) Varje t-test nnebär en rs för fel typ ( ) Många test rsen blr stor: Bernoullförsö, Bnomalfördelnng: P(X ) John Tuey, 95- Tuey s s test http://statw.ww.hu-berln.de/ndex.php/tuey-test gruppmedelvärden Y.. 3. Ett par (x, y) jämförs på följande sätt: ( H : x = y ) testvarabel: rstsa värdet beror av, n och : q x y q MSE nx n y SSE MSE n rt n Y Y n från q q tabell n,, j j, n Tuey Kramer Test orgnal Tuey-test: n x =n y ANOVA H förastas om q översrder de rtsa värdet x och y har nte samma medelvärde, tllhör nte samma luster, se nästa sda: Tuey s s test: Parvsa jämförelser görs en vss ordnng McKllup s. luster luster

Tuey s s test Mntab Tueys test Values greater than or equal to. are nterpreted as percentages. The default error rate s.5 Tuey 95% Smultaneous Confdence Intervals All Parwse Comparsons Konfdensntervall för sllnaden Indvdual confdence level = 98,89% mellan medelvärden A subtracted from: Lower Center Upper +---------+---------+---------+--------- B -9,664,76 5,88 (-------*------) C -7,78-4,833 8,6 (-------*-------) D -,333,83 6,5 (--------*--------) +---------+---------+---------+--------- -3-6 6 Konfdensntervaller som nnehåller betyder: ngen sgnfant sllnad mellan respetve medelvärden. famly error rate är fatst det maxmala umulatva felet typ man tllåter för alla jämförelser som görs. B subtracted from: Lower Center Upper +---------+---------+---------+--------- C - -7,595 4,83 (-------*-------) D -4,677 9,3 3,3 (--------*--------) +---------+---------+---------+--------- -3-6 6 C subtracted from: Lower Center Upper +---------+---------+---------+--------- D,5 6,97 3,333 (--------*--------) +---------+---------+---------+--------- 87.75-7.83=6.9-3 -6 6 samma som ovan grupp C sljer sg från grupp D (OBS: nte samma sa som nterval plot ovan. Sammanfattnng Levene test: 3? Om man msstäner att den här förutsättnngen för One-Way ANOVA är nte (ungefär) uppfyllt. One-Way ANOVA: 3...? Har grupperna ( som uppstår genom ola treatments ) samma medelvärde? Eller: har dessa treatments en (sgnfant) effet? Nollhypotesen är att alla grupper har samma medelvärde, den alternatva hypotesen är att mnst ett medelvärde avver. One-Way ANOVA på absoluta dfferenserna tll gruppmedelvärdet Parvsa jämförelser, men på ett specellt sätt, för att undva anhopnng av fel typ. Tuey-Test: Vla medelvärden är det som avver, efter en sgnfant One-Way ANOVA