Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet Laboration 3 Variansanalys HT 2007
2 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller olika variansanalyser. Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast fredagen den 11 januari 2008. Introduktion - Variansanalys i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en variansanalys, med tillhörande analyser, på det material som användes på föreläsningen. Skördeutfall för olika vetesorter I ett försök har man i 16 slumpmässigt utvalda provrutor odlat 4 replikat av 4 stycken vetesorter. Den variabel som skall analyseras är skördeutfallet. Resultat: Vetesort Ankar 58 72 92 88 Jarl 90 89 111 99 Scout 94 117 130 102 Sol 102 115 132 121 Finns det någon skillnad i skördeutfall mellan de olika sorterna. Vilken/vilka sorter är bäst? 1. Inläsning av data. Börja med att mata in data till SPSS. Lägg samtliga 16 värden i en kolumn (Skörd) och sorten i en andra kolumn (Vetesort). Datamaterialet skall alltså innehålla 2 kolumner med 16 värden i varje kolumn. Tips: Mata in grupperna med numeriska koder (1, 2, 3 och 4) och komplettera med etiketterna (Values=Ankar, Jarl, Scout och Sol). a) Beskrivning av data. Börja nu med att beskriva data med hjälp av medelvärden och standardavvikelser (Analyze>Compare Means>Means). Lägg Skörd på Dependent List och Vetesort på Independent List. Tryck OK. Gör sedan en grafisk beskrivning av skillnaderna genom att använda Graphs>Error Bar>Simple>Define. Lägg in Skörd som Variable och Vetesort som Category Axis. Pröva gärna också att jämföra grupperna med hjälp av Graphs>Boxplot.
3 b) Ensidig variansanalys. Man kan göra den ensidiga variansanalysen på flera ställen i SPSS. Börja med Analyze>Compare Means>One-Way ANOVA. Lägg Skörd på Dependent List och specificera Vetesort som en Factor. Gör analysen. Finns det några skillnader mellan grupperna? c) Multipla jämförelser. Vi skall nu undersöka vilka av grupperna som skiljer sig åt. Den första metoden vi skall använda är t-test mellan varje par av medel. Detta gör vi genom att gå tillbaka till Analyze>Compare Means>One-Way ANOVA och gå in under Post-Hoc. Markera LSD (Least Significant Difference). Passa även på att markera Tukey. Vilka skillnader mellan sorterna finns det på 5%-nivån med de båda metoderna? Kommentar: Skillnaderna mellan metoderna är att LSD kontrollerar signifikansnivån i varje parvis jämförelse (comparisonwise error rate) medan Tukey kontrollerar signifikansnivån i de sex testen tillsammans (experimentwise error rate). Vilket innebär att Tukey är att föredra. d) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Vill man göra båda sakerna samtidigt så är det smidigast att göra analysen med hjälp av Analyze>General Linear Model>Univariate. Här ser man den ensidiga variansanalysen som ett specialfall av en mer generell linjär modell. Lägg nu in Skörd som Dependent Variable och Vetesort som Fixed Factor. Gå sedan in under Options och markera Homogeneity Tests och Spread vs. level plot. Testet ger Levene s test och plottarna ger en beskrivning av relationen mellan standardavvikelserna/varianserna och medelvärdena i de olika grupperna. Vill man undersöka normalfördelningsantagandet är det smidigast att göra detta med hjälp av residualerna i modellen. Går därför in under Save och markera att du vill spara Residuals - Unstandardized. Dessa kommer nu att dyka upp i en ny kolumn i materialet. Gör nu analysen och tolka resultatet. Kan vi påvisa att varianserna är olika? Undersök nu om residualerna är normalfördelade genom att göra dels ett histogram (Graphs>Histogram) och dels genom att göra ett test (Analyze>Nonparametric Tests>1-Sample K-S). Ange residualerna på Test Variable List. Testet är ett s.k. Kolmogorov-Smirnov test och kan användas för att jämföra data med olika kända fördelningar. Nollhypotesen är att data är från en normalfördelning. Tyder det på att data avviker från en normalfördelning?
4 e) Avsluta nu analysen med att göra Kruskal-Wallis test på datamaterialet. Analyze> Nonparametric Tests>K Independent Samples. Lägg Skörd på Test Variable List och Vetesort som Grouping Variable. Define range bör vara 1 till 4. Tryck även på knappen Exact och markera att du vill ha ett exakt test. Kan vi påvisa några skillnader? f) Vill vi nu undersöka vilka grupper som skiljer sig åt kan vi använda Mann-Whitney (Analyze>Nonparametric Tests>2 Independent Samples) Räkna fram exakta p- värdena i alla sex jämförelser av de olika grupperna? Vilka grupper är skilda från varandra? Svar: 1. b) p=0,007 Vi kan påvisa en skillnad c) LSD: Ankar-Scout p=0,005 / Ankar-Sol p=0,001 Tukey: Ankar-Scout p=0,023 / Ankar-Sol p=0,007 d) Nej! p=0,577 Det verkar inte heller finnas någon tendens att spridningen ökar/minskar med medelvärdet. NF: Nej! p=0,980 Vi kan ej förkasta NF-antagandet e) Ja! p=0,003 (Exakt) Vi kan påvisa skillnader. f) Signifikanta skillnader: Ankar-Scout p=0,029 / Ankar-Sol p=0,029 Sammanfattning SPSS Transform>Compute Data>Select Cases Graphs>Histogram Graphs>Error Bar Graphs>Q-Q plot Analyze>Compare Means>Means Analyze>Compare Means>One-Way ANOVA Analyze>General Linear Model>Univariate Bilda nya variabler Urval av individer Histogram Plot av konf. int Q-Q plot Beskrivande statistik Ensidig ANOVA ANOVA Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Nonparametric Tests>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>K Independent Samples Kruskal-Wallis test
5 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast fredagen den 11 januari 2008. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb01/ hittar du de datafiler som behövs för att lösa uppgifterna. Skriv din redovisning som den skulle publicerats i en vetenskaplig rapport, bara mer kortfattat. Det vill säga strukturerad enligt följande: a) Introduktion (inklusive hypoteser) b) Material och metoder (speciellt statistiska metoder) c) Resultat (tolkningar och slutsatser) 1. Medley & Clements (1998) sampled a number of stations (between four and seven) on six streams known to be polluted by heavy metals in the Rocky Mountain region of Colorado, USA. They recorded zinc concentration, and species richness and diversity of the diatom community and proportion of diatom cells that were the early-successional species Achanthes minutissima. Compare mean diatom diversity across the four zinclevel groups. The analysis should include both a parametric and a non-parametric test, including multiple comparisons. Make a graphical presentation of your results. Check the assumptions in your analysis. Use dataset Medley. Reference: Medley, C.N. & Clements, W.H. (1998) Reponses of diatom communities to heavy metals in streams: the influence of longitudinal variation. Ecological Applications 8: 631-644. 2. I datamaterialet SO2 finns mätningar av svaveldioxidhalten (μg/m 3 ) i luft uppmätta under 10 år från en mätstation vid Rörvik i norra Halland (Mätningarna är utförda av IVL Institutet för Vatten- och Luftvårdsforskning). Det finns mätvärden för ungefär var 10:e dag under perioden 1979-07-01 till 1990-06-30. I materialet finns även logaritmerade svaveldioxidhalter. a) Testa om svaveldioxidhalten är beroende av årstid. Undersök även med hjälp av Tukey s test vilka av årstiderna som i så fall skiljer sig åt. Testa förutsättningarna i analysen och presentera resultatet grafiskt. Gör även ett icke-parametriskt test och undersök vilka årstider som är skilda från varandra.
6 b) Förbättras analysen om vi istället analyserar de logaritmerade svaveldioxidhalterna? Gör denna analys och kontrollera förutsättningar. Jämför resultaten. c) Om man närmare tittar på materialet kan man konstatera att det är en av årstiderna där spridningen är mycket lägre än i de övriga (=Sommaren). Gör därför om analysen av de logaritmerade svaveldioxidhalterna för ett material endast bestående av data från vinter, vår och höst. Ledning: Detta kan man göra genom att ge Data>Select Cases. Markera IF condition is satisfied och tryck på knappen If. I rutan skriver man sedan in att man inte vill ha med årstid 3. Man använder då symbolerna ~=. Det kan då se ut så här: Tryck sedan Continue följt av OK. I datamaterialet bildas då automatiskt en ny variabel som heter FILTER_$ som visar vilka individer som skall vara med i beräkningarna. Gör nu om analysen av de logaritmerade svaveldioxidhalterna. Kontrollera förutsättningarna även i denna modell. General reference: Datasets in exercise 1 comes from Quinn, G.P. & Keough, M.J. (2002) Experimental Design and Data Analysis for Biologists, Cambridge University Press. Sammanfattning SPSS Transform>Compute Data>Select Cases Graphs>Histogram Graphs>Error Bar Graphs>Q-Q plot Analyze>Compare Means>Means Analyze>Compare Means>One-Way ANOVA Analyze>General Linear Model>Univariate Bilda nya variabler Urval av individer Histogram Plot av konf. int Q-Q plot Beskrivande statistik Ensidig ANOVA ANOVA Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Nonparametric Tests>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>K Independent Samples Kruskal-Wallis test