Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Relevanta dokument
Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

ANOVA Mellangruppsdesign

Föreläsning 11: Mer om jämförelser och inferens

7.5 Experiment with a single factor having more than two levels

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

7.5 Experiment with a single factor having more than two levels

Multipel Regressionsmodellen

Statistisk försöksplanering

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Följande resultat erhålls (enhet: 1000psi):

Statistisk försöksplanering

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Formler och tabeller till kursen MSG830

FÖRELÄSNING 8:

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Elementa om Variansanalys

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistik för teknologer, 5 poäng Skrivtid:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistik 1 för biologer, logopeder och psykologer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Lycka till!

Metod och teori. Statistik för naturvetare Umeå universitet

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F22, Icke-parametriska metoder.

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Hypotestestning och repetition

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 15: Faktorförsök

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Uppgift 1. f(x) = 2x om 0 x 1

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

F3 Introduktion Stickprov

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

, s a. , s b. personer från Alingsås och n b

Tentamen MVE301 Sannolikhet, statistik och risk

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

TMS136. Föreläsning 13

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Samplingfördelningar 1

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 12: Regression

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Tentamen MVE301 Sannolikhet, statistik och risk

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Parade och oparade test

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

TENTAMEN. PC1307/1546 Statistik (5 hp) Måndag den 19 oktober, 2009

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Sannolikheter och kombinatorik

Grundläggande matematisk statistik

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TMS136. Föreläsning 5

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

OBS! Vi har nya rutiner.

TMS136. Föreläsning 5

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

TMS136. Föreläsning 10

Formel- och tabellsamling i matematisk statistik

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Avd. Matematisk statistik

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Lektionsanteckningar 11-12: Normalfördelningen

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik för D, I, Π och Fysiker

Regressions- och Tidsserieanalys - F1

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

AMatematiska institutionen avd matematisk statistik

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i matematisk statistik

Transkript:

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius <Tobias.Abenius@Chalmers.se> February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att täljaren i s 2 kan separeras k N n i (1) (N 1)s 2 i1 k n i (y ij ȳ ) 2 (2) i1 j1 {{ S Total k i1 n i (ȳ i ȳ ) 2 + S B mellan grupper k n i (y ij ȳ i ) 2. (3) i1 j1 S W inom grupper Från detta kan man sen testa hur förhållandet mellan spridningen i data mellan grupper och spridningen inom grupper ser ut. Storheterna S B och S W har olika namn i olika litteratur. Det kortare S skrivs också SS och står för sum of squares vilket är lätt att komma ihåg. Bokstäverna B och W står för between respektive within. Det som skiljer mellan olika grupper kallas också för behandlingar eller treatments SS T, medan inom grupper kallas för oförklarade fel eller error SS E. Om man sedan delar med antalet frihetsgrader så kallas det ett medelkvadratsumma, mean square, mean sum of squares MS eller motsvarande. Antaganden 1. Respons är normalfördelad (eller approximativt normalfördelad) 2. Observationerna är oberoende 3. Populationernas varians är lika 4. Respons för en given grupp är oberoende och likafördelade normalfördelade stokastiska variabler 1

Hypoteser För K st grupper. Test H 0 : µ 1 µ 2... µ K H A : alla ej lika, dvs : i, j : µ i µ j, i j Om man kan förkasta hypotes H 0 eller ej på nivå α kan testas med ett F-test. Ett F-test testar om sannolikheten att ett värde inte tillhör en F-fördelning är mindre än α eller ej. Om vi bildar kvoten mellan två χ 2 -fördelade storheter är den F-fördelad. Vi bildar kvoten F Spridning mellan grupper är då Spridning mellan grupper Spridning inom grupper MS B n i (ȳ i ȳ) 2, df i b df b K 1 där n i är antalet observationer i den i:te gruppen och punkten i ȳ i betyder att man tar genomsnittet över den i:te gruppen, och man summerar över alla de K st grupperna. Frihetsgraderna är här antalet grupper K 1 (för det skattade medelvärdet för alla observationer i alla grupper). Detta är alltså avståndet mellan varje gruppmedelvärde och medelvärdet för alla K gruppers alla observationer. Spridning inom grupper är MS W i,j (y ij ȳ i ) 2 df w, df w N K, dvs avståndet mellan varje enstaka observation och denna observations gruppmedelvärde summerat över alla observationer i alla grupper. Frihetsgraderna är här antalet observationer minus ett skattat medelvärde för varje grupp. N är här det totala antalet observationer och y ij är den j:te observationen i den i:te gruppen. 2

Om kvoten F når ut i svansen på F-fördelningen kan man förkasta H 0 med sannolikheten p 1 F dfb,df w (F ), dvs 1 fördelningsfunktionen för F-fördelningen med df b respektive df w frihetsgrader, alltså svansens yta. Se exempel nedan. Exempel Vi har observerat en storhet som tros vara normalfördelad med samma varians i tre olika grupper, A, B och C. Värdena på storheten i fråga för de olika grupperna mättes till A : 2.3, 2.2, 2.1, 2.3, 2.0, 2.5, 2.3, 2.4, 2.2, 2.4 B : 2.1, 2.3, 2.0, 2.2, 2.0, 2.1, 2, 2.2, 2.3, 2.2, 2.2, 2.1, 2.2, 2.2, 2.3 C : 2.2, 2.4, 2.2, 2.3, 2.2, 2.3, 2.2 Vi numrerar grupperna så att A är 1, B är 2 och C är grupp 3. Antalet observationer och medelvärden för grupperna är då n 1 10 ȳ 1 2.27 n 2 15 ȳ 2 2.16 n 3 7 ȳ 3 2.257143 Medelvärdet över alla observationer kan man då få genom att se att ȳ i,j y ij N Vi räknar också ut i,j y ij n 1 + n 2 + n 3 i n iȳ i n 1 + n 2 + n 3 10 2.27 + 15 2.16 + 7 2.257143 10 + 15 + 7 2.215625 s 2 0.01555444 SS Total N 1 3

F fördelningen för v12 och v229 frihetsgrader f(x) 0.0 0.2 0.4 0.6 0.8 1.0 F Kritiskt värde P(X < x) 0.05 0 1 2 3 4 5 x Figure 1: F-fördelningen för detta exempel Kvadratsumman S B får vi genom att S B i n i (ȳ i ȳ) 2 10 (2.27 2.215625) 2 + 15 (2.16 2.215625) 2 + + 7 (2.257143 2.215625) 2 0.08804473 Vi delar med antalet frihetsgrader df b K 1 och får medelkvadratsumman MS B S B /(K 1) 0.08804473/(3 1) 0.04402232 som mäter variationen mellan grupperna. Nu ska vi hitta variationen inom grupperna enligt, vilket är omständigt att göra för hand, S W i,j (y ij ȳ i ) 2 0.201 + 0.156 + 0.03714286 0.3941429. A B C 4

Istället utnyttjar vi att (N 1)s 2 S Total S W + S B S W S Total S B (10 + 15 + 7 1) 0.01555444 0.08804473 {{ N 1 s 2 0.3941429 SS B Vi delar med antalet frihetsgrader df w N K och får medelkvadratsumman MS W S W /(N K) 0.3941429/(32 3) 0.01359113 som mäter variationen inom grupperna. Vi bildar kvoten F som är vår teststatistika F MS B MS W 3.239047. Detta kan vi jämföra med det kritiska värdet, F < F crit 3.327654, dvs detta är ej ett signifikant resultat. Vi kan ej förkasta H 0 om lika väntevärde i alla grupper. Om det finns en skillnad mellan grupperna kan vi inte se den. Kanske måste vi ha fler mätningar för att se den eller så finns den inte alls. 5