7.5 Experiment with a single factor having more than two levels

Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att hitta en optimal inblandning gjordes ett planerat försök på 5 nivåer hos faktorn inblandning, 15%, 20%, 25%, 30%, 35%. På varje nivå gjordes 5 upprepningar, vilket innebär att hela försöket bestod av 25 observationer. 1

Dessa genomfördes i slumpmässig ordning och följande resultat erhölls: Inblandning Observationer % 1 2 3 4 5 Medel Varians 15 7 7 15 11 9 9.8 11.20 20 12 17 12 18 18 15.4 9.80 25 14 18 18 19 19 17.6 4.30 30 19 25 22 19 23 21.6 6.80 35 7 10 11 15 11 10.8 8.20 ------------------ 15.04 8.06 2

25 Individual Value Plot of Dragstyrka vs Inblandning 20 Dragstyrka 15 10 5 15 20 25 Inblandning 30 35 (Minitab) 3

Låt oss införa begreppet modell: Y ij = µ + α i + ε ij, j = 1, 2,, n i, i = 1, 2,, a, α i = effekten av faktornivå i. a i= 1 n α = 0 ε ij antas vara oberoende och normalfördelade med väntevärde 0 och standardavvikelse σ. i i 4

N = a i= 1 n i är totala antalet observationer. Observera att vi antar att variansen är lika för alla faktornivåer. 5

Medelvärdet av alla observationer är 15,04. Det borde vara en bra skattning av µ. Vi kan dessutom bilda medelvärde av observationerna inom varje grupp. De skattar α i,i = 1, 2,..., 5. Residualerna ges av y ij - α i och kan ses som skattningar av mätfelen ε ij. De bör följaktligen bete sig som N(0, σ 2 )-observationer. 6

Obs Fits α i = Fits-15.04 Residualer = Y ij - Fits 7, 7, 15, 11, 9 9.8-5,24-2.8, -2.8, 5.2, 1.2, -0.8 12, 17, 12, 18, 18 15.4 0.36-3.4, 1.6, -3.4, 2.6, 2.6 14, 18, 18, 19, 19 17.6 2.56-3.6, 0.4, 0.4, 1.4, 1.4 19, 25, 22, 19, 23 21.6 6.56-2.6, 3.4, 0.4, -2.6, 1.4 7, 10, 11, 15, 11 10.8-4.24-3.8, -0.8, 0.2, 4.2, 0.2 7

22 Main Effects Plot (data means) for Dragstyrka 20 Mean of Dragstyrka 18 16 14 } α 3 2.56 µ 15.04 12 10 15 20 25 Inblandning 30 35 8 8

7.5.1 The fixed effects model Modell: Y ij = µ + α i + ε ij, j = 1, 2,, n i, i = 1, 2,, a, ε ij N(0, σ 2 ). Hypotes: H 0 : α 1 = α 2 = = α a = 0. H 1 : Åtminstone ett α i 0. Detta är en s.k. fixed effects model eftersom vi enbart vill uttala oss om de a observerade faktornivåerna. 9

Analys av residualer (modellverifiering), Stat ANOVA One-way... 10

One-way ANOVA: Dragstyrka versus Inblandning Source DF SS MS F P Inblandning 4 475.76 118.94 14.76 0.000 Error 20 161.20 8.06 Total 24 636.96 S = 2.839 R-Sq = 74.69% R-Sq(adj) = 69.63% Stat ANOVA One-way... 11

SS(Inblandning) = variationen mellan faktornivåerna (bör vara nära noll om det inte är någon skillnad mellan nivåerna). SS(Error) = variationen inom varje faktornivå (beskriver den sanna slumpvariationen). SS(Total) = total variation SS(Inblandning) + SS(Error) = SS(Total) Stat ANOVA One-way... 12

One-way ANOVA: Dragstyrka versus Inblandning Source DF SS MS F P Inblandning 4 475.76 118.94 14.76 0.000 Error 20 161.20 8.06 Total 24 636.96 = 475.76/4 = 161.20/20 S = 2.839 R-Sq = 74.69% R-Sq(adj) = 69.63% 13

Om H 0 är sann skattar MS(Inblandning) och MS(Error) samma sak, dvs den sanna variansen. Kvoten F bör då vara nära ett. H 0 förkastas för stora värden på F (denna är F-fördelad om H 0 är sann). S = MSE(Error), dvs en skattning av den sanna standardavvikelsen σ. R-sq = SS(Inblandning)/SS(Total) (andelen av den totala variationen som beskrivs av faktornivåernas effekter) 14

Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev ------+---------+---------+---------+-- 15 5 9.800 3.347 (-----*----) 20 5 15.400 3.130 (----*----) 25 5 17.600 2.074 (----*----) 30 5 21.600 2.608 (----*----) 35 5 10.800 2.864 (-----*----) ------+---------+---------+---------+-- 10.0 15.0 20.0 25.0 Pooled StDev = 2.839 15

Stat ANOVA Interval Plot... 16

Som vi såg i ANOVA-tabellen ovan förkastas H 0. Det betyder att någon eller några av α 1,,α 5 skiljer sig från noll. Genom s k Post-hoc test kan vi avgöra var skillnaderna ligger. Varför gör man inte parvisa test (här totalt 10 test)? 17

Varför jämför vi inte alla parvisa behandlingar med student s t-test? Ett skäl: Om nollhypotesen är sann, då kommer vi i varje t-test dra fel slutsats med sannolikhet α. Ju fler jämförelser desto större risk att dra åtminstone en felaktig slutsats. Om vi har fyra behandlingar behöver vi 6 jämförelser för att kunna skilja dom åt. Om α = 0.05 i varje jämförelse, då kommer den gemensamma signifikansnivån vara 1 0.95 6 = 0.265. (nästan ) 18

Tukey 95% Simultaneous Confidence Intervals All Pairwise Comparisons among Levels of Inblandning Individual confidence level = 99.28% Inblandning = 15 subtracted from: Inblandning Lower Center Upper ------+---------+---------+---------+--- 20 0.229 5.600 10.971 (-----*----) 25 2.429 7.800 13.171 (-----*----) 30 6.429 11.800 17.171 (-----*----) 35-4.371 1.000 6.371 (----*----) ------+---------+---------+---------+--- -10 0 10 20 Här finner vi att inblandning 15 skiljer sig från inblandningarna 20, 25 och 30. Av resterande utskrifter framgår att inblandning 20 skiljer sig från 30, inblandning 25 från inblandning 35, samt inblandning 30 från inblandning 35. 19