Följande resultat erhålls (enhet: 1000psi):

Relevanta dokument
Metod och teori. Statistik för naturvetare Umeå universitet

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Statistik för teknologer, 5 poäng Skrivtid:

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

7.5 Experiment with a single factor having more than two levels

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

7.5 Experiment with a single factor having more than two levels

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Examinationsuppgifter del 2

TENTAMEN I MATEMATISK STATISTIK

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Tentamen i matematisk statistik

Tentamen i matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Skrivning i ekonometri torsdagen den 8 februari 2007

Tentamen i matematisk statistik

Räkneövning 3 Variansanalys

Experiment med två faktorer. Treatment Population. Balanced och ortogonal design. Graph of means. Table of means

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

8.1 General factorial experiments

Tentamen i matematisk statistik

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

ANOVA Mellangruppsdesign

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F4

10.1 Enkel linjär regression

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Regressions- och Tidsserieanalys - F7

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen i matematisk statistik

3.1 Beskrivande statistik

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Regressions- och Tidsserieanalys - F1

Exempel 1 på multipelregression

2.1 Minitab-introduktion

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Elementa om Variansanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

7.3.3 Nonparametric Mann-Whitney test

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F3

Minitab-lösningar till lämpliga uppgifter för NDAB01, vt2011, 17 januari 2011.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

, s a. , s b. personer från Alingsås och n b

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I STATISTIK B,

Tentamen Tillämpad statistik A5 (15hp)

Lösningar till SPSS-övning: Analytisk statistik

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

F3 Introduktion Stickprov

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Multipel Regressionsmodellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

Skrivning i ekonometri lördagen den 15 januari 2005

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Tentamen i Matematisk statistik, S0001M, del 1,

Medicinsk statistik II

Samhällsvetenskaplig metod, 7,5 hp

Introduktion och laboration : Minitab

TMS136. Föreläsning 13

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2 multipel linjär regression

Skrivning i ekonometri lördagen den 25 augusti 2007

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

tentaplugg.nu av studenter för studenter

Transkript:

Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling. Följande resultat erhålls (enhet: 1000psi): Behandling A B C D 35 41 42 31 31 40 49 32 40 43 45 30 36 39 47 32 32 45 48 34 Grupp 1 Grupp 2 Grupp 3 Grupp 4 Vi kan betrakta dessa fyra olika behandlingsmetoder som olika populationer och dessa fem observationer på varje behandling som stickprov på respektive population. Som tidigare kan vi bestämma medelvärde i varje stickprov och jämföra dessa när vi tar hänsyn till variationen som finns i populationerna. - 1 -

Idén är alltså densamma som tidigare när vi ville jämföra två populationer. Lite skillnader blir det dock. Vi gör jämförelsen i två steg. Först kollar vi om det finns någon skillnad mellan populationerna överhuvudtaget. Sedan, om det finns skillnad, vill vi veta var skillnaderna finns. Namnet variansanalys kommer av att man undersöker om det finns skillnad när man kvadrerar avvikelserna från observationsvärdena mot det gemensamma medelvärdet mot om man jämför stickprovernas medelvärden mot det gemensamma medelvärdet. - 2 -

k n i= 1 j= 1 ( y k n 2 2 ij y) = (yij yi + yi y) i= 1 j= 1 Lägg till och dra ifrån gruppmedelvärdet Sedan delar man upp kvadratsumman i två bitar k n i = 1 j = 1 (( y ij y i ) + ( y i y )) 2 = k n i = 1 j = 1 ( y ij y i ) 2 + k n i = 1 j = 1 ( y i y ) 2 kallas för treatment i Minitab kallas error i Minitab Error är helt enkelt felet som vi tror vi har i vårt observationsmaterial. Om kvadratsumman för treatment (behandling) är stor i förhållande till kvadratsumman för error, har vi en effekt av behandling. - 3 -

En analys i Minitab skulle se ut så här: Först skriver man in observationerna, Resultat Behandling 35 A 31 A 40 A 36 A 32 A 41 B 40 B 43 B 39 B 45 B 42 C 49 C 45 C 47 C 48 C 31 D 32 D 30 D 32 D 34 D i datafönstret. - 4 -

Sedan, använder man kommandot Stat Anova One-Way Med och Resultat som Response Behandling som Faktor One-way ANOVA: Resultat versus Behandling Source DF SS MS F P Behandling 3 637,20 212,40 29,92 0,000 Error 16 113,60 7,10 Total 19 750,80 S = 2,665 R-Sq = 84,87% R-Sq(adj) = 82,03% Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -+---------+---------+---------+-------- A 5 34,800 3,564 (----*----) B 5 41,600 2,408 (----*----) C 5 46,200 2,775 (----*----) D 5 31,800 1,483 (----*----) -+---------+---------+---------+-------- 30,0 35,0 40,0 45,0 Pooled StDev = 2,665 Här finns det mycket att fundera kring Vi börjar med det som bara är matematik. - 5 -

Matematik Här är ett urklipp. Source DF SS MS Behandling 3 637,20 212,40 Error 16 113,60 7,10 Total 19 750,80 SS står för Sums of Squares dvs kvadratsumma. Om man bestämmer medelvärdet för alla 20 observationer får man y = 38, 6 Medelvärdet inom varje behandling är för A,B,C resp D: 34,8 41,6 46,2 samt 31,8. SS Behandling blir då, med de beteckningar som jag skrev tidigare, SS Behandling = 4 5 4 2 (yi y) = i= 1 j= 1 i= 1 5 4 i= 1 (y i 38,6) 2 = 5 och kvadratsumman blir 637,20. 5 (y i y) 2 = 2 [(34,8 38.6) +...] Samma sak kan man bestämma för Error och då blir kvadratsumman 113,6. - 6 -

MS är SS delat med DF, där DF står för frihetsgrader, dvs MS Error = SS Error /DF Error Helt enkelt 637,20/3 = 212,40 Nästa urklipp R-Sq = 84,87% Står för förklaringsgrad och här betyder det att av den totala variationen som vi har förklarar avvikelserna som vi har i medelvärde mellan stickproven, 84,87%. 637,20/750,80 = 0.8487. En rätt stor del av variationen som finns förklaras av medelvärdesmodellen. Nästa steg består i att vi måste föra in ett statistiskt resonemang. - 7 -

Statistik Vi börjar med nollhypotes och alternativhypotes för den här analysen. Nollhypotesen, H 0, säger att det inte finns någon medelvärdeseffekt mellan de olika populationerna. Alternativhypotesen, H 1, säger då istället att det finns en medelvärdeseffekt. Efter det bestämmer vi ett p-värde under H 0. Source DF SS MS F P Behandling 3 637,20 212,40 29,92 0,000 Error 16 113,60 7,10 Total 19 750,80 Vi bildar en kvot av två värden som under H 0 båda antas vara en gissning av populationsvariansen. F = MS Behandlining /MS Error = 212,40/7,10 = 29,92 Och sedan bestämmer vi p-värdet för den kvoten Men vi kan också göra så att vi skippar teorin om fördelningen och bara studerar p-värdet. Är det större eller mindre än 0,05? I det här exemplet är den mindre än 0,05. - 8 -

Det betyder att vi tror att det finns en effekt av Behandling, medelvärdeseffekt. Den skillnad som finns i medelvärde på dessa populationer beror inte bara på slumpen. Nästa steg då är att kolla ordningen på dessa populationer. En hint får vi av nästa urklipp Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -+---------+---------+---------+-------- A 5 34,800 3,564 (----*----) B 5 41,600 2,408 (----*----) C 5 46,200 2,775 (----*----) D 5 31,800 1,483 (----*----) -+---------+---------+---------+-------- 30,0 35,0 40,0 45,0 Pooled StDev = 2,665 Dels ser vi storleken på medelvärdena men det ges även en bild med 95% konfidensintervall för dessa medelvärden. Nu ska vi alltså försöka ta reda var skillnaderna är och för detta ändamål har man utvecklat något som man kallar för post-hoc test. Vän av ordning frågar sig nu varför man inte helt enkelt använder sig av de Individuella 95%-iga konfidensintervall som finns i bilden ovan? - 9 -

Lite teori igen. När vi gör ett 95%-igt konfidensintervall då tar vi en risk att göra fel och den risken är 5%, 1-0,95. = 0,05 Om vi skulle göra två oberoende test med en signifikansnivå på 5% och bestämma hur stor risk vi tar att göra fel då blir den 9,75% 1 0,95x0,95 = 0,0975 I vårt exempel vill vi jämföra alla med alla och det betyder att vi måste göra 6 olika test. A mot B, A mot C, A mot D, B mot C, B mot D och slutligen C mot D. Signifikansnivån som vi skulle få med ovanstående resonemang, om vi i varje test har en signifikansnivå på 5%, blir då 1 0.956 6 = 0,265 Man skulle kunna vända på resonemanget och istället säga att vi vill ha en Overall Signifikansnivå som är 0,05, dvs lös ut vilken signifikansnivå man måste ha i varje test. - 10 -

Här blir det att lösa ut x ur ekvationen nedan 1 x 6 = 0,05 och det ger oss att x = 0,991 Dvs i varje test som vi gör ska vi ha en signifikansnivå som är mindre än 0,01. I princip är det detta som görs när vi instruerar Minitab att göra ett post-hoc test. Det är inte helt sant eftersom ett av antagandena som jag gjorde i mitt teori-resonerande var att jag påstod att alla test var oberoende, vilket dom inte är. De fyra metoder som Minitab använder sig av tar även hänsyn till att testen är beroende på ett eller annat sätt. Vi kommer åt dessa genom att välja knappen Comparisons - 11 -

Det finns som sagt fyra olika metoder i Minitab att göra alla parvisa jämförelser med. Tukey s, Fisher s, Dunnet s och Hsu s MCB. Här har jag valt Tukey Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Treatment Individual confidence level = 98,87% Treatment = A subtracted from: Treatment Lower Center Upper ---------+---------+---------+---------+ B 1,974 6,800 11,626 (----*----) C 6,574 11,400 16,226 (---*----) D -7,826-3,000 1,826 (----*----) ---------+---------+---------+---------+ -10 0 10 20 Treatment = B subtracted from: Treatment Lower Center Upper ---------+---------+---------+---------+ C -0,226 4,600 9,426 (----*---) D -14,626-9,800-4,974 (----*----) ---------+---------+---------+---------+ -10 0 10 20 Treatment = C subtracted from: Treatment Lower Center Upper ---------+---------+---------+---------+ D -19,226-14,400-9,574 (----*---) ---------+---------+---------+---------+ -10 0 10 20 Tolkningen är att om 0 finns i intervallet kan vi inte hitta någon skillnad mellan två behandlingar. - 12 -

Först jämför vi A mot B, C och D. Vi ser att B och C är skilda från A men A är inte skild ifrån D. Sedan B mot C och D. Då kan vi konstatera att C inte är skild ifrån B men D är skild ifrån B. Slutligen ser vi att C och D är skild ifrån varandra. Sammanfattningsvis, D A B C 31,8 34,8 41,6 46,2 Dvs D och A kan vi inte särskilja samt B och C som vi inte heller kan särskilja. Om vi skulle välja vilken som har högst dragstyrka i genomsnitt skulle vi kunna välja B eller C. Skillnaden som vi hittat mellan B och C beror enbart på slumpen. Ytterligare hjälp som vi kan få i vår analys är olika typer av bilder som man kan göra. Två som erbjuds i Anova är Boxplot och Plot av enskilt värde. Knappen Graphs Här får vi följande bilder när jag bockat för boxplot och individual value plot - 13 -

50 Boxplot of Response 45 Response 40 35 30 A B Treatment C D 50 Individual Value Plot of Response vs Treatment 45 Response 40 35 30 A B Treatment C D - 14 -

Anova Modellkontroll För att det ska vara just att använda sig av den här metoden måste man också kolla om förutsättningarna för metoden är uppfyllda. Vilka är då förutsättningarna för att använda sig av ANOVA? 1. Lika varians i populationerna. 2. Fördelningen för residualerna, avvikelserna, är normal. Den absolut viktigaste förutsättningen att kolla är om det är ungefär lika varians i populationerna. Hur gör vi det? I Minitab Stat_Anova_Test for Equal Variances Här är H 0 : varianserna lika i populationerna. Ett litet p-värde (p<0.05) säger att vi ska förkasta H 0. - 15 -

Test for Equal Variances for Response Treatment A B C Bartlett's Test Test Statistic 2,58 P-Value 0,462 Levene's Test Test Statistic 0,79 P-Value 0,515 D 0 2 4 6 8 10 12 14 95% Bonferroni Confidence Intervals for StDevs 16 Här är p-värdet 0,452 i Bartlett s test. Bartlett s test är bäst att använda när vi tror att vårt data kan vara normalfördelat. Eftersom p-värdet är 0,452 > 0,05 kan vi inte förkasta H0 och därför anser vi att det är rimligt att anta att våra olika behandlingar har ungefär lika stor varians. Nästa sak att kontrollera är om data är normalfördelat. På samma menysida som vi kunde hitta boxplot och individuell plot kan vi hitta ett val för olika residualplottar. - 16 -

Residual var ju avvikelsen från observationsvärdena mot gruppmedelvärdena. Dessa ska nu vara ungefär normalfördelade om allt är väl. Här har jag valt alla fyra grafer i en bild. Residual Plots for Response 99 Normal Probability Plot 5,0 Versus Fits Percent 90 50 10 Residual 2,5 0,0-2,5 1-5,0-2,5 0,0 Residual 2,5 5,0-5,0 30 35 40 Fitted Value 45 Histogram Versus Order 3 5,0 Frequency 2 1 Residual 2,5 0,0-2,5 0-4 -2 0 Residual 2 4-5,0 2 4 6 8 10 12 14 Observation Order 16 18 20 1. I första bilden ska residualvärdena ligga nära linjen. 2. I andra bilden vill man att residualerna ska vara ungefär lika utbredda för varje grupp. Ingen trend för större värden tex. 3. I tredje bilden hoppas vi på att histogrammet ser ut som normalfördelningen. 4. I fjärde bilden vill vi inte heller hitta något mönster. De skulle kunna vara att alla värden blir större och större, eller att alla värden först är stora för att sedan bli små. - 17 -

- 18 -

- 19 -

- 20 -

- 21 -

- 22 -

- 23 -

- 24 -

- 25 -

- 26 -