Fuktighet i jordmåner Variansanalys (Anova) Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 A 1 A 2 A 3 12.8 8.1 9.8 13.4 10.3 10.6 11.2 4.2 9.1 11.6 7.8 4.3 9.4 5.6 11.2 10.3 8.1 11.6 14.1 12.7 8.3 11.9 6.8 8.9 10.5 6.9 9.2 10.4 6.4 6.4 Tre olika typer av jordmåner undersöktes med avseende på fuktigheten (i procent). Vilka jämförande slutsatser är möjliga?, vt12 (1 : 33), vt12 (2 : 33) Grafisk sammanfattning: boxplots En statistisk fråga Ovanstående tre lådagram indikerar att fuktigheten är högre i jordmån A 1, mittemellan i A 3 och lägst i A 2. Kan man utesluta att den genomsnittliga fuktigheten är densamma över alla tre jordmåner? Annorlunda uttryckt, Kan man utesluta homogenitet vad gäller responsvariabeln y = fuktighet med avseende på de olika nivåerna av faktorn A = jordmån? Motsvarande medelvärden och standardavvikelser ges av: I så fall, A 1 A 2 A 3 x 11.6 7.7 8.9 s 1.5 2.4 2.2 Med vilken grad av säkerhet (p-värde)?, vt12 (3 : 33), vt12 (4 : 33)
Jämförelse: Variansanalys och χ 2 -test Analys Precis som vid χ 2 -test (föreläsning 5) studerar vi här faktoriella beskrivningar. En faktoriell beskrivning ger upphov till ett antal möjliga kategorier. Responsvariabeln vid χ 2 -test: y = antal individer, I detta fall har vi responsvariabeln y = fuktighet, för varje given kategori. Responsvariabeln vid ANOVA-test: y 1,..., y n dvs. ett stickprov av mätningar., vt12 (5 : 33) som studeras över faktorn A = jordmån. Faktorn A förekommer på tre nivåer. Detta ger tre stickprov om vardera 10 observationer., vt12 (6 : 33) ANOVA Variationen inom grupper ANOVA är en förkortning av Analysis of Variance, som på svenska blir Variansanalys. Den enklaste formen av variansanalys brukar kallas för envägs (oneway) ANOVA. UPPLÄGG: Faktor A förekommer på m stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över dessa (n m). De observationer som hör till samma faktoriella nivå brukar kallas för replikat. Om varje nivå innehåller samma antal replikat brukar upplägget kallas balanserat (brukar rekommenderas). I föregående exempel hade vi ett balanserat upplägg med m = 3 nivåer och n = 30 observationer. A 1 A 2 A 3 x 11.6 7.7 8.9 s 1.5 2.4 2.2 Det finns en viss variabilitet inom varje grupp som man sammanfattar i följande kvadratsumma: SS E = 3 10 (x i,j x i ) 2 i=1 j=1 = 9(s 2 1 + s 2 2 + s 2 2) = 116, vt12 (7 : 33), vt12 (8 : 33)
Variationen mellan grupper Frihetsgrader Det finns även en viss systmatisk skillnad mellan grupper, eler med andra ord, en viss variabilitet mellan gruppernas medelvärden: A 1 A 2 A 3 x 11.6 7.7 8.9 Denna sammanfattas i följande kvadratsumma: Idén bakom variansanalys är att jämföra de två typerna av variation SS E (variation due to error) och SS T (variation due to treatment). Om det finns en markant skillnad mellan grupper bör SS T dominera. Om å andra sida gruppgenomsnitten bara skiljer sig åt genom slumpmässig variation bör SS E dominera. SS T = 3 10 ( x i x) 2 i=1 j=1 = 10 ( (11.6 9.4) 2 + (7.7 9.4) 2 + (8.9 9.4) 2) = 78 För att kunna göra denna jämförelse bör man dock ta hänsyn till uppläggets struktur och jämföra medelkvadratfel istället för kvadratsummor: MS = SS/df, där df står för motsvarande antal frihetsgrader., vt12 (9 : 33), vt12 (10 : 33) MS E MS T I exemplet gäller: I exemplet gäller: MS E = 1 27 3 10 (x i,j x i ) 2 i=1 j=1 = 1 3 (s2 1 + s2 2 + s2) 2 = 4.3 = SS E /27 MS T = 1 2 3 ( x i x) 2 i=1 = SS T /2 = 39 Motsvarande antal frihetsgrader är alltså 2. Motsvarande antal frihetsgrader är alltså 27. Mer allmänt gäller formeln: Mer allmänt gäller formeln: df = m 1, df = n m. där m anger antalet nivåer av A., vt12 (11 : 33), vt12 (12 : 33)
Teststatistika ANOVA-tabell När vi nu jämför medelkvadratfel bildar vi följande kvot: Variansanalysen kan nu sammanfattas i följande tabell: F = MS T MS E EXEMPEL: MS T = 39 och MS E = 4.3 ger F = 9. Source DF SS MS F P Jordmån 2 78,01 39,01 9,05 0,001 Error 27 116,40 4,31 Total 29 194,41 Det som här har tillkommit är p-värdet P = 0, 001. Om gruppgenomsnitten bara skiljer sig åt genom slumpmässig variation förväntas MS T och MS E vara jämbördiga (F 1). Statistisk programvara har här räknat ut P = P(F > 9, 05) = 0.001, Om det finns en markant skillnad mellan grupper förväntas MS T dominera (F > 1). med utgångspunkt från att det inte finns någon systematisk skillnad mellan grupper., vt12 (13 : 33), vt12 (14 : 33) Slutsats Kackerlackor, temperatur och luftfuktighet En ANOVA-analys ger p-värdet 0,001 för att homogenitet skulle råda beträffande grad av fuktighet mellan de tre typerna av jordmån. På grund av detta låga värde är vi böjda att dra slutsatsen att det föreligger en systematisk skillnad. I ett småskaligt experiment jämfördes tillväxten (mm) av kackerlackor som fötts upp under olika omständigheter. 20 C 30 C 40 C 33% 2 6 10 1 5 9 3 7 11 66% 10 14 18 9 13 17 11 15 19 99% 18 22 26 19 23 27 17 21 25, vt12 (15 : 33), vt12 (16 : 33)
Grafisk sammanfattning 1 Grafisk sammanfattning 2 Det verkar finns en tydlig effekt av att luftfuktigheten ökar tillväxten, för varje given temperaturnivå. Det verkar finns en tydlig effekt av att temperaturen ökar tillväxten, för varje given fuktighetsnivå., vt12 (17 : 33), vt12 (18 : 33) Analys ANOVA med interaktion I detta fall har vi responsvariabeln Faktor A förekommer på m A stycken nivåer. Faktor B förekommer på m B stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över motsvarande m A m B kategorier. FYRA BIDRAG TILL VARIATION: y = tillväxt, Faktoriell effekt av given nivå på A som studeras över två faktorer A = temperatur B = luftfuktighet Faktoriell effekt av given nivå på B Faktoriell effekt av given samverkan mellan A och B Slumpmässig variation som vardera förekommer på tre nivåer., vt12 (19 : 33), vt12 (20 : 33)
ANOVA-tabell Slutsats Variansanalysen kan nu sammanfattas i följande tabell: Source DF SS MS F P Hum 2 1152 576 576,00 0,000 Temp 2 288 144 144,00 0,000 Interaction 4 0 0 0,00 1,000 Error 18 18 1 Total 26 1458 En ANOVA-analys ger p-värden 0,000 för att temperatur respektive luftfuktighet inte skulle inverka på kackerlackornas tillväxt. Notera att tre p-värden är angivna, motsvarande de tre faktoriella effekterna. Den ger dessutom p-värdet 1,000 för en samverkanseffekt mellan de två faktorerna. Temperatur och luftfuktighet inverkar tydligt, men oberoende av varandra, på kackerlackornas tillväxt., vt12 (21 : 33), vt12 (22 : 33) Behandling av prostatacancer Grafisk sammanfattning 1 I ett småskaligt experiment jämfördes medicinering med strålningsbehandling. Volymökning av prostatatumörer uppmättes hos 9 män. Proshib Testoblock Kontroll Låg 81 76 79 Medium 45 46 45 Hög 28 27 27 Det verkar finns en tydlig effekt av att högre grad av strålning minskar volymökningen, oavsett val av medicin., vt12 (23 : 33), vt12 (24 : 33)
Grafisk sammanfattning 2 Analys I detta fall har vi responsvariabeln y = volymökning, som studeras över två faktorer Medicineringen verkar inte ha någon systematisk effekt på volymökningen., vt12 (25 : 33) A = medicinering B = strålning som vardera förekommer på tre nivåer., vt12 (26 : 33) ANOVA utan interaktion ANOVA-tabell Variansanalysen kan nu sammanfattas i följande tabell: Faktor A förekommer på m A stycken nivåer. Faktor B förekommer på m B stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över motsvarande m A m B kategorier. TRE BIDRAG TILL VARIATION: Source DF SS MS F P Strålning 2 4070,22 2035,11 832,55 0,000 Medicin 2 4,22 2,11 0,86 0,488 Error 4 9,78 2,44 Total 8 4084,22 Faktoriell effekt av given nivå på A SLUTSATSER: Faktoriell effekt av given nivå på B Slumpmässig variation Strålningen har en tydlig inverkan (p = 0, 000). Medicineringen har ingen tydlig inverkan (p = 0, 488)., vt12 (27 : 33), vt12 (28 : 33)
Med eller utan interaktion? I exemplen med kackerlackor/prostatacancer studerades en responsvariabel med avseende på potentiell inverkan av två faktorer. I det första exemplet inkluderades en faktoriell inverkan interaktion, men inte i det andra. I det andra exemplet saknades replikat, i meningen att varje totalbehandling endast gavs till en individ. Detta försöksupplägg kallas även randomiserade block. Med denna begränsning är det inte möjligt att inkludera en interaktionell inverkan i analysen. I mer omfattande studier med replikat brukar man i allmänhet inkludera interaktionell inverkan som en potentiell effekt. Vi har sett tre exempel på variansanalyser av faktoriella försök. Med envägs-anova studeras variationen mellan och inom de grupper som uppstår genom de olika nivåerna på faktorn. Ett lågt p-värde indikerar att det föreligger en faktoriell inverkan. Med tvåvägs-anova ges en motsvarande analys för två faktorer. Vanligtvis inkluderas dessutom interaktionell inverkan som potentiell effekt, utom vid randomiserade block. Låga p-värden indikerar förekomst av faktoriell inverkan för respektive faktor., vt12 (29 : 33), vt12 (30 : 33) F -kvoter : envägs Anova-analyser bygger på att olika F -kvoter beräknas, F = MS T MS E = SS T /df T SS E /df E. Täljare och nämnare kallas för medkvadratfel (motsvarande variation som förklaras av faktorn, respektive oförklarad variation). Idén är att F 1 om motsvarande faktor inte inverkar, medan F >> 1 om det finns mycket variation som förklaras av faktorn. F används som testvariabel mot nollhypotesen att faktorn inte inverkar. Det finns två sätt att tillämpa envägs-anova i : Stat ANOVA One-Way (unstacked) / One-Way... Med One-Way (unstacked) matar man in vart och ett av stickproven i separata kolumner. Med One-Way... matar man istället in alla observationer i en och samma kolumn. Därefter anger man i en separat kolumn motsvarande nivå på den faktor som studeras (med lämpligt valda beteckningar). P-värde: P = P(F > F obs )., vt12 (31 : 33), vt12 (32 : 33)
: tvåvägs -ANOVA tillämpas via: Stat ANOVA Two-Way... Alla observationer matas i en och samma kolumn. Därefter anger man i två separata kolumner motsvarande nivåer på respektive faktor. OBS: Kräver att man namnger två kolumner med faktornivåer. Välj beteckningar som är lätta att koppla till problemet du studerar., vt12 (33 : 33)