Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 3. Variansanalys

Relevanta dokument
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet. Laboration 2. Statistiska test

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

7.5 Experiment with a single factor having more than two levels

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Kort manual till SPSS 10.0 för Mac/PC

Tentamen i matematisk statistik

Mata in data i Excel och bearbeta i SPSS

Hypotestestning och repetition

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 4. Regressionsanalys

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

7.3.3 Nonparametric Mann-Whitney test

Tentamen i matematisk statistik

Tentamen i matematisk statistik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Följande resultat erhålls (enhet: 1000psi):

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Uppgift 1. Produktmomentkorrelationskoefficienten

Metod och teori. Statistik för naturvetare Umeå universitet

En kort instruktion för arbete i SPSS

Variansanalys med SPSS Kimmo Sorjonen ( )

8.1 General factorial experiments

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Examinationsuppgifter del 2

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Disraeli, England, 1860 talet: Det finns tre grader av osanning. Går ej att mäta hela populationen. Deskriptiv statistik

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

DATORLABORATION: JÄMFÖRELSE AV FLERA STICKPROV.

Vägledning till statistisk redovisning i NFTS försöksdokumentation

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Medicinsk statistik II

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

2. Test av hypotes rörande medianen i en population.

Statistik för teknologer, 5 poäng Skrivtid:

Richard Öhrvall, 1

Lösningar till SPSS-övning: Analytisk statistik

Skrivning i ekonometri lördagen den 29 mars 2008

Laboration 4 R-versionen

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

TENTAMEN I MATEMATISK STATISTIK

OBS! Vi har nya rutiner.

Medicinsk statistik II

Intro till SPSS Kimmo Sorjonen (0811)

DATORÖVNING 2: STATISTISK INFERENS.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Tentamen i matematisk statistik

SOPA62 - Kunskapsproduktion i socialt arbete

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Marknadsinformationsmetodik Inlämningsuppgift

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

LABORATION 1. Syfte: Syftet med laborationen är att

Samhällsvetenskaplig metod, 7,5 hp

OBS! Vi har nya rutiner.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

7.5 Experiment with a single factor having more than two levels

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Uppgift 1. Deskripitiv statistik. Lön

ANOVA Mellangruppsdesign

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Tentamen för kursen. Linjära statistiska modeller. 20 mars

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Parade och oparade test

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

OBS! Vi har nya rutiner.

Laboration 2 multipel linjär regression

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

F3 Introduktion Stickprov

LABORATIONER. Det finns en introduktionsfilm till Minitab på

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Maximalt antal poäng för hela skrivningen är 22 poäng. För Godkänt krävs minst 13 poäng. För Väl Godkänt krävs minst 18 poäng.

Transkript:

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet Laboration 3 Variansanalys HT 2007

2 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller olika variansanalyser. Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast fredagen den 11 januari 2008. Introduktion - Variansanalys i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en variansanalys, med tillhörande analyser, på det material som användes på föreläsningen. Skördeutfall för olika vetesorter I ett försök har man i 16 slumpmässigt utvalda provrutor odlat 4 replikat av 4 stycken vetesorter. Den variabel som skall analyseras är skördeutfallet. Resultat: Vetesort Ankar 58 72 92 88 Jarl 90 89 111 99 Scout 94 117 130 102 Sol 102 115 132 121 Finns det någon skillnad i skördeutfall mellan de olika sorterna. Vilken/vilka sorter är bäst? 1. Inläsning av data. Börja med att mata in data till SPSS. Lägg samtliga 16 värden i en kolumn (Skörd) och sorten i en andra kolumn (Vetesort). Datamaterialet skall alltså innehålla 2 kolumner med 16 värden i varje kolumn. Tips: Mata in grupperna med numeriska koder (1, 2, 3 och 4) och komplettera med etiketterna (Values=Ankar, Jarl, Scout och Sol). a) Beskrivning av data. Börja nu med att beskriva data med hjälp av medelvärden och standardavvikelser (Analyze>Compare Means>Means). Lägg Skörd på Dependent List och Vetesort på Independent List. Tryck OK. Gör sedan en grafisk beskrivning av skillnaderna genom att använda Graphs>Error Bar>Simple>Define. Lägg in Skörd som Variable och Vetesort som Category Axis. Pröva gärna också att jämföra grupperna med hjälp av Graphs>Boxplot.

3 b) Ensidig variansanalys. Man kan göra den ensidiga variansanalysen på flera ställen i SPSS. Börja med Analyze>Compare Means>One-Way ANOVA. Lägg Skörd på Dependent List och specificera Vetesort som en Factor. Gör analysen. Finns det några skillnader mellan grupperna? c) Multipla jämförelser. Vi skall nu undersöka vilka av grupperna som skiljer sig åt. Den första metoden vi skall använda är t-test mellan varje par av medel. Detta gör vi genom att gå tillbaka till Analyze>Compare Means>One-Way ANOVA och gå in under Post-Hoc. Markera LSD (Least Significant Difference). Passa även på att markera Tukey. Vilka skillnader mellan sorterna finns det på 5%-nivån med de båda metoderna? Kommentar: Skillnaderna mellan metoderna är att LSD kontrollerar signifikansnivån i varje parvis jämförelse (comparisonwise error rate) medan Tukey kontrollerar signifikansnivån i de sex testen tillsammans (experimentwise error rate). Vilket innebär att Tukey är att föredra. d) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Vill man göra båda sakerna samtidigt så är det smidigast att göra analysen med hjälp av Analyze>General Linear Model>Univariate. Här ser man den ensidiga variansanalysen som ett specialfall av en mer generell linjär modell. Lägg nu in Skörd som Dependent Variable och Vetesort som Fixed Factor. Gå sedan in under Options och markera Homogeneity Tests och Spread vs. level plot. Testet ger Levene s test och plottarna ger en beskrivning av relationen mellan standardavvikelserna/varianserna och medelvärdena i de olika grupperna. Vill man undersöka normalfördelningsantagandet är det smidigast att göra detta med hjälp av residualerna i modellen. Går därför in under Save och markera att du vill spara Residuals - Unstandardized. Dessa kommer nu att dyka upp i en ny kolumn i materialet. Gör nu analysen och tolka resultatet. Kan vi påvisa att varianserna är olika? Undersök nu om residualerna är normalfördelade genom att göra dels ett histogram (Graphs>Histogram) och dels genom att göra ett test (Analyze>Nonparametric Tests>1-Sample K-S). Ange residualerna på Test Variable List. Testet är ett s.k. Kolmogorov-Smirnov test och kan användas för att jämföra data med olika kända fördelningar. Nollhypotesen är att data är från en normalfördelning. Tyder det på att data avviker från en normalfördelning?

4 e) Avsluta nu analysen med att göra Kruskal-Wallis test på datamaterialet. Analyze> Nonparametric Tests>K Independent Samples. Lägg Skörd på Test Variable List och Vetesort som Grouping Variable. Define range bör vara 1 till 4. Tryck även på knappen Exact och markera att du vill ha ett exakt test. Kan vi påvisa några skillnader? f) Vill vi nu undersöka vilka grupper som skiljer sig åt kan vi använda Mann-Whitney (Analyze>Nonparametric Tests>2 Independent Samples) Räkna fram exakta p- värdena i alla sex jämförelser av de olika grupperna? Vilka grupper är skilda från varandra? Svar: 1. b) p=0,007 Vi kan påvisa en skillnad c) LSD: Ankar-Scout p=0,005 / Ankar-Sol p=0,001 Tukey: Ankar-Scout p=0,023 / Ankar-Sol p=0,007 d) Nej! p=0,577 Det verkar inte heller finnas någon tendens att spridningen ökar/minskar med medelvärdet. NF: Nej! p=0,980 Vi kan ej förkasta NF-antagandet e) Ja! p=0,003 (Exakt) Vi kan påvisa skillnader. f) Signifikanta skillnader: Ankar-Scout p=0,029 / Ankar-Sol p=0,029 Sammanfattning SPSS Transform>Compute Data>Select Cases Graphs>Histogram Graphs>Error Bar Graphs>Q-Q plot Analyze>Compare Means>Means Analyze>Compare Means>One-Way ANOVA Analyze>General Linear Model>Univariate Bilda nya variabler Urval av individer Histogram Plot av konf. int Q-Q plot Beskrivande statistik Ensidig ANOVA ANOVA Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Nonparametric Tests>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>K Independent Samples Kruskal-Wallis test

5 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast fredagen den 11 januari 2008. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb01/ hittar du de datafiler som behövs för att lösa uppgifterna. Skriv din redovisning som den skulle publicerats i en vetenskaplig rapport, bara mer kortfattat. Det vill säga strukturerad enligt följande: a) Introduktion (inklusive hypoteser) b) Material och metoder (speciellt statistiska metoder) c) Resultat (tolkningar och slutsatser) 1. Medley & Clements (1998) sampled a number of stations (between four and seven) on six streams known to be polluted by heavy metals in the Rocky Mountain region of Colorado, USA. They recorded zinc concentration, and species richness and diversity of the diatom community and proportion of diatom cells that were the early-successional species Achanthes minutissima. Compare mean diatom diversity across the four zinclevel groups. The analysis should include both a parametric and a non-parametric test, including multiple comparisons. Make a graphical presentation of your results. Check the assumptions in your analysis. Use dataset Medley. Reference: Medley, C.N. & Clements, W.H. (1998) Reponses of diatom communities to heavy metals in streams: the influence of longitudinal variation. Ecological Applications 8: 631-644. 2. I datamaterialet SO2 finns mätningar av svaveldioxidhalten (μg/m 3 ) i luft uppmätta under 10 år från en mätstation vid Rörvik i norra Halland (Mätningarna är utförda av IVL Institutet för Vatten- och Luftvårdsforskning). Det finns mätvärden för ungefär var 10:e dag under perioden 1979-07-01 till 1990-06-30. I materialet finns även logaritmerade svaveldioxidhalter. a) Testa om svaveldioxidhalten är beroende av årstid. Undersök även med hjälp av Tukey s test vilka av årstiderna som i så fall skiljer sig åt. Testa förutsättningarna i analysen och presentera resultatet grafiskt. Gör även ett icke-parametriskt test och undersök vilka årstider som är skilda från varandra.

6 b) Förbättras analysen om vi istället analyserar de logaritmerade svaveldioxidhalterna? Gör denna analys och kontrollera förutsättningar. Jämför resultaten. c) Om man närmare tittar på materialet kan man konstatera att det är en av årstiderna där spridningen är mycket lägre än i de övriga (=Sommaren). Gör därför om analysen av de logaritmerade svaveldioxidhalterna för ett material endast bestående av data från vinter, vår och höst. Ledning: Detta kan man göra genom att ge Data>Select Cases. Markera IF condition is satisfied och tryck på knappen If. I rutan skriver man sedan in att man inte vill ha med årstid 3. Man använder då symbolerna ~=. Det kan då se ut så här: Tryck sedan Continue följt av OK. I datamaterialet bildas då automatiskt en ny variabel som heter FILTER_$ som visar vilka individer som skall vara med i beräkningarna. Gör nu om analysen av de logaritmerade svaveldioxidhalterna. Kontrollera förutsättningarna även i denna modell. General reference: Datasets in exercise 1 comes from Quinn, G.P. & Keough, M.J. (2002) Experimental Design and Data Analysis for Biologists, Cambridge University Press. Sammanfattning SPSS Transform>Compute Data>Select Cases Graphs>Histogram Graphs>Error Bar Graphs>Q-Q plot Analyze>Compare Means>Means Analyze>Compare Means>One-Way ANOVA Analyze>General Linear Model>Univariate Bilda nya variabler Urval av individer Histogram Plot av konf. int Q-Q plot Beskrivande statistik Ensidig ANOVA ANOVA Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Nonparametric Tests>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>K Independent Samples Kruskal-Wallis test