Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Relevanta dokument
Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Följande resultat erhålls (enhet: 1000psi):

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Statistisk försöksplanering

Statistik 1 för biologer, logopeder och psykologer

F3 Introduktion Stickprov

7.5 Experiment with a single factor having more than two levels

8.1 General factorial experiments

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 15: Faktorförsök

Statistisk försöksplanering

7.5 Experiment with a single factor having more than two levels

Elementa om Variansanalys

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Lösningsförslag till Matematisk statistik LKT325 Tentamen

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 11 december, Ansvarig lärare: Bengt Jansson ( , mobil: )

ANOVA Mellangruppsdesign

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 7 maj, 2011

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

TENTAMEN. PC1307/1546 Statistik (5 hp) Måndag den 19 oktober, 2009

Räkneövning 3 Variansanalys

Tentamen i matematisk statistik

Metod och teori. Statistik för naturvetare Umeå universitet

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

OBS! Vi har nya rutiner.

Föreläsning G60 Statistiska metoder

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Multipel Regressionsmodellen

Föreläsning G60 Statistiska metoder

FACIT (korrekta svar i röd fetstil)

10.1 Enkel linjär regression

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Tentamen Tillämpad statistik A5 (15hp)

Del A: Schema för ifyllande av svar nns på sista sidan

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Examinationsuppgifter del 2

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Omtentamen i Metod C-kurs

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Uppgift 1. Produktmomentkorrelationskoefficienten

Statistik för teknologer, 5 poäng Skrivtid:

Föreläsning 11: Mer om jämförelser och inferens

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

TENTAMEN I MATEMATISK STATISTIK

Tentamen Tillämpad statistik A5 (15hp)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i matematisk statistik

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Introduktion till statistik för statsvetare

Hur skriver man statistikavsnittet i en ansökan?

OBS! Vi har nya rutiner.

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen Tillämpad statistik A5 (15hp)

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen i matematisk statistik

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TENTAMEN. SAMHÄLLSVETENSKAPLIG FORSKNINGSMETODIK Kurs 7 PC1307. Forskningsmetodik 10 poäng (ECTS) Måndag den 13 oktober, 2008

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Datorlaboration 7. Simuleringsbaserade tekniker

Tentamen i Matematisk statistik Kurskod S0001M

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

, s a. , s b. personer från Alingsås och n b

Matematisk statistik för B, K, N, BME och Kemister

AMatematiska institutionen avd matematisk statistik

Föreläsning 11 (ej på tentan): Tillämpningar och vidareutvecklingar

Exempel 1 på multipelregression

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Uppgift a b c d e f (vet ej) Poäng

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

TENTAMEN SAMHÄLLSVETENSKAPLIG FORSKNINGSMETODIK Kurs 7 PC1307 Forskningsmetodik och statistik 10 hp. Tisdag den 18 augusti, 2009

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Tentamen i Matematisk statistik Kurskod S0001M

Psykologiska institutionen tillämpar anonymitet i samband med tentor i skrivsal, som går till så här:

Laboration 2 multipel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Transkript:

Fuktighet i jordmåner Variansanalys (Anova) Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 A 1 A 2 A 3 12.8 8.1 9.8 13.4 10.3 10.6 11.2 4.2 9.1 11.6 7.8 4.3 9.4 5.6 11.2 10.3 8.1 11.6 14.1 12.7 8.3 11.9 6.8 8.9 10.5 6.9 9.2 10.4 6.4 6.4 Tre olika typer av jordmåner undersöktes med avseende på fuktigheten (i procent). Vilka jämförande slutsatser är möjliga?, vt12 (1 : 33), vt12 (2 : 33) Grafisk sammanfattning: boxplots En statistisk fråga Ovanstående tre lådagram indikerar att fuktigheten är högre i jordmån A 1, mittemellan i A 3 och lägst i A 2. Kan man utesluta att den genomsnittliga fuktigheten är densamma över alla tre jordmåner? Annorlunda uttryckt, Kan man utesluta homogenitet vad gäller responsvariabeln y = fuktighet med avseende på de olika nivåerna av faktorn A = jordmån? Motsvarande medelvärden och standardavvikelser ges av: I så fall, A 1 A 2 A 3 x 11.6 7.7 8.9 s 1.5 2.4 2.2 Med vilken grad av säkerhet (p-värde)?, vt12 (3 : 33), vt12 (4 : 33)

Jämförelse: Variansanalys och χ 2 -test Analys Precis som vid χ 2 -test (föreläsning 5) studerar vi här faktoriella beskrivningar. En faktoriell beskrivning ger upphov till ett antal möjliga kategorier. Responsvariabeln vid χ 2 -test: y = antal individer, I detta fall har vi responsvariabeln y = fuktighet, för varje given kategori. Responsvariabeln vid ANOVA-test: y 1,..., y n dvs. ett stickprov av mätningar., vt12 (5 : 33) som studeras över faktorn A = jordmån. Faktorn A förekommer på tre nivåer. Detta ger tre stickprov om vardera 10 observationer., vt12 (6 : 33) ANOVA Variationen inom grupper ANOVA är en förkortning av Analysis of Variance, som på svenska blir Variansanalys. Den enklaste formen av variansanalys brukar kallas för envägs (oneway) ANOVA. UPPLÄGG: Faktor A förekommer på m stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över dessa (n m). De observationer som hör till samma faktoriella nivå brukar kallas för replikat. Om varje nivå innehåller samma antal replikat brukar upplägget kallas balanserat (brukar rekommenderas). I föregående exempel hade vi ett balanserat upplägg med m = 3 nivåer och n = 30 observationer. A 1 A 2 A 3 x 11.6 7.7 8.9 s 1.5 2.4 2.2 Det finns en viss variabilitet inom varje grupp som man sammanfattar i följande kvadratsumma: SS E = 3 10 (x i,j x i ) 2 i=1 j=1 = 9(s 2 1 + s 2 2 + s 2 2) = 116, vt12 (7 : 33), vt12 (8 : 33)

Variationen mellan grupper Frihetsgrader Det finns även en viss systmatisk skillnad mellan grupper, eler med andra ord, en viss variabilitet mellan gruppernas medelvärden: A 1 A 2 A 3 x 11.6 7.7 8.9 Denna sammanfattas i följande kvadratsumma: Idén bakom variansanalys är att jämföra de två typerna av variation SS E (variation due to error) och SS T (variation due to treatment). Om det finns en markant skillnad mellan grupper bör SS T dominera. Om å andra sida gruppgenomsnitten bara skiljer sig åt genom slumpmässig variation bör SS E dominera. SS T = 3 10 ( x i x) 2 i=1 j=1 = 10 ( (11.6 9.4) 2 + (7.7 9.4) 2 + (8.9 9.4) 2) = 78 För att kunna göra denna jämförelse bör man dock ta hänsyn till uppläggets struktur och jämföra medelkvadratfel istället för kvadratsummor: MS = SS/df, där df står för motsvarande antal frihetsgrader., vt12 (9 : 33), vt12 (10 : 33) MS E MS T I exemplet gäller: I exemplet gäller: MS E = 1 27 3 10 (x i,j x i ) 2 i=1 j=1 = 1 3 (s2 1 + s2 2 + s2) 2 = 4.3 = SS E /27 MS T = 1 2 3 ( x i x) 2 i=1 = SS T /2 = 39 Motsvarande antal frihetsgrader är alltså 2. Motsvarande antal frihetsgrader är alltså 27. Mer allmänt gäller formeln: Mer allmänt gäller formeln: df = m 1, df = n m. där m anger antalet nivåer av A., vt12 (11 : 33), vt12 (12 : 33)

Teststatistika ANOVA-tabell När vi nu jämför medelkvadratfel bildar vi följande kvot: Variansanalysen kan nu sammanfattas i följande tabell: F = MS T MS E EXEMPEL: MS T = 39 och MS E = 4.3 ger F = 9. Source DF SS MS F P Jordmån 2 78,01 39,01 9,05 0,001 Error 27 116,40 4,31 Total 29 194,41 Det som här har tillkommit är p-värdet P = 0, 001. Om gruppgenomsnitten bara skiljer sig åt genom slumpmässig variation förväntas MS T och MS E vara jämbördiga (F 1). Statistisk programvara har här räknat ut P = P(F > 9, 05) = 0.001, Om det finns en markant skillnad mellan grupper förväntas MS T dominera (F > 1). med utgångspunkt från att det inte finns någon systematisk skillnad mellan grupper., vt12 (13 : 33), vt12 (14 : 33) Slutsats Kackerlackor, temperatur och luftfuktighet En ANOVA-analys ger p-värdet 0,001 för att homogenitet skulle råda beträffande grad av fuktighet mellan de tre typerna av jordmån. På grund av detta låga värde är vi böjda att dra slutsatsen att det föreligger en systematisk skillnad. I ett småskaligt experiment jämfördes tillväxten (mm) av kackerlackor som fötts upp under olika omständigheter. 20 C 30 C 40 C 33% 2 6 10 1 5 9 3 7 11 66% 10 14 18 9 13 17 11 15 19 99% 18 22 26 19 23 27 17 21 25, vt12 (15 : 33), vt12 (16 : 33)

Grafisk sammanfattning 1 Grafisk sammanfattning 2 Det verkar finns en tydlig effekt av att luftfuktigheten ökar tillväxten, för varje given temperaturnivå. Det verkar finns en tydlig effekt av att temperaturen ökar tillväxten, för varje given fuktighetsnivå., vt12 (17 : 33), vt12 (18 : 33) Analys ANOVA med interaktion I detta fall har vi responsvariabeln Faktor A förekommer på m A stycken nivåer. Faktor B förekommer på m B stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över motsvarande m A m B kategorier. FYRA BIDRAG TILL VARIATION: y = tillväxt, Faktoriell effekt av given nivå på A som studeras över två faktorer A = temperatur B = luftfuktighet Faktoriell effekt av given nivå på B Faktoriell effekt av given samverkan mellan A och B Slumpmässig variation som vardera förekommer på tre nivåer., vt12 (19 : 33), vt12 (20 : 33)

ANOVA-tabell Slutsats Variansanalysen kan nu sammanfattas i följande tabell: Source DF SS MS F P Hum 2 1152 576 576,00 0,000 Temp 2 288 144 144,00 0,000 Interaction 4 0 0 0,00 1,000 Error 18 18 1 Total 26 1458 En ANOVA-analys ger p-värden 0,000 för att temperatur respektive luftfuktighet inte skulle inverka på kackerlackornas tillväxt. Notera att tre p-värden är angivna, motsvarande de tre faktoriella effekterna. Den ger dessutom p-värdet 1,000 för en samverkanseffekt mellan de två faktorerna. Temperatur och luftfuktighet inverkar tydligt, men oberoende av varandra, på kackerlackornas tillväxt., vt12 (21 : 33), vt12 (22 : 33) Behandling av prostatacancer Grafisk sammanfattning 1 I ett småskaligt experiment jämfördes medicinering med strålningsbehandling. Volymökning av prostatatumörer uppmättes hos 9 män. Proshib Testoblock Kontroll Låg 81 76 79 Medium 45 46 45 Hög 28 27 27 Det verkar finns en tydlig effekt av att högre grad av strålning minskar volymökningen, oavsett val av medicin., vt12 (23 : 33), vt12 (24 : 33)

Grafisk sammanfattning 2 Analys I detta fall har vi responsvariabeln y = volymökning, som studeras över två faktorer Medicineringen verkar inte ha någon systematisk effekt på volymökningen., vt12 (25 : 33) A = medicinering B = strålning som vardera förekommer på tre nivåer., vt12 (26 : 33) ANOVA utan interaktion ANOVA-tabell Variansanalysen kan nu sammanfattas i följande tabell: Faktor A förekommer på m A stycken nivåer. Faktor B förekommer på m B stycken nivåer. Totalt sett n stycken oberoende mätningar fördelade över motsvarande m A m B kategorier. TRE BIDRAG TILL VARIATION: Source DF SS MS F P Strålning 2 4070,22 2035,11 832,55 0,000 Medicin 2 4,22 2,11 0,86 0,488 Error 4 9,78 2,44 Total 8 4084,22 Faktoriell effekt av given nivå på A SLUTSATSER: Faktoriell effekt av given nivå på B Slumpmässig variation Strålningen har en tydlig inverkan (p = 0, 000). Medicineringen har ingen tydlig inverkan (p = 0, 488)., vt12 (27 : 33), vt12 (28 : 33)

Med eller utan interaktion? I exemplen med kackerlackor/prostatacancer studerades en responsvariabel med avseende på potentiell inverkan av två faktorer. I det första exemplet inkluderades en faktoriell inverkan interaktion, men inte i det andra. I det andra exemplet saknades replikat, i meningen att varje totalbehandling endast gavs till en individ. Detta försöksupplägg kallas även randomiserade block. Med denna begränsning är det inte möjligt att inkludera en interaktionell inverkan i analysen. I mer omfattande studier med replikat brukar man i allmänhet inkludera interaktionell inverkan som en potentiell effekt. Vi har sett tre exempel på variansanalyser av faktoriella försök. Med envägs-anova studeras variationen mellan och inom de grupper som uppstår genom de olika nivåerna på faktorn. Ett lågt p-värde indikerar att det föreligger en faktoriell inverkan. Med tvåvägs-anova ges en motsvarande analys för två faktorer. Vanligtvis inkluderas dessutom interaktionell inverkan som potentiell effekt, utom vid randomiserade block. Låga p-värden indikerar förekomst av faktoriell inverkan för respektive faktor., vt12 (29 : 33), vt12 (30 : 33) F -kvoter : envägs Anova-analyser bygger på att olika F -kvoter beräknas, F = MS T MS E = SS T /df T SS E /df E. Täljare och nämnare kallas för medkvadratfel (motsvarande variation som förklaras av faktorn, respektive oförklarad variation). Idén är att F 1 om motsvarande faktor inte inverkar, medan F >> 1 om det finns mycket variation som förklaras av faktorn. F används som testvariabel mot nollhypotesen att faktorn inte inverkar. Det finns två sätt att tillämpa envägs-anova i : Stat ANOVA One-Way (unstacked) / One-Way... Med One-Way (unstacked) matar man in vart och ett av stickproven i separata kolumner. Med One-Way... matar man istället in alla observationer i en och samma kolumn. Därefter anger man i en separat kolumn motsvarande nivå på den faktor som studeras (med lämpligt valda beteckningar). P-värde: P = P(F > F obs )., vt12 (31 : 33), vt12 (32 : 33)

: tvåvägs -ANOVA tillämpas via: Stat ANOVA Two-Way... Alla observationer matas i en och samma kolumn. Därefter anger man i två separata kolumner motsvarande nivåer på respektive faktor. OBS: Kräver att man namnger två kolumner med faktornivåer. Välj beteckningar som är lätta att koppla till problemet du studerar., vt12 (33 : 33)