Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11 Laboration Statistiska test 2011-11-15/16
2 Syftet med laborationen är att: Ni skall bekanta er med lite av de funktioner som finns i SPSS (PASW) vad det gäller olika grundläggande statistiska test, både parametriska och ickeparametriska test. Ni ska starta med projektet. Handledning till det finns på separat blad. Introduktion - Statistiska test i SPSS (PASW) Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. På kursens hemsida (www.maths.lth.se/matstat/kurser/masb11/vtm3/material) hittar ni de fem datamaterial som används i introduktionen. Datamaterialen som används är Albumin, Median, Klorofyll, Dammar och Gråsparvar. 1. Test av medelvärde/median från en population. a) T-test. Använd datamaterialet Albumin. En blandning av blodserum innehåller exakt 42 g albumin per liter. Två laboratorium (A och B) får göra sex bestämningar var av koncentrationen. Vi vill undersöka om det finns någon systematisk avvikelse från det sanna värdet (42 g/l) (tvåsidig mothypotes). Gå in under Analyze>Compare Means>One-Sample T test. Lägg in AlbuminA och AlbuminB som Test Variable och ange 42 som Test Value. Tolka utskriften. Hur stora är p-värdena och vad blir slutsatserna? Pröva att få fram fler decimaler på p-värdet genom att dubbelklicka på resultattabellen, högerklicka på p-värdet och gå in under Cell Properties. Ska man få fram ett konfidensintervall för medelkoncentrationen så får man göra om körningen och ändra Test Value till noll (0). Vilka blir intervallets gränser? Kommentar: Test för medelvärden vid stora stickprov (Centrala GränsvärdesSatsen) finns inte direkt i SPSS utan man får använda sig av t-test även i dessa fall. b) Test av median. Använd datamaterialet Median. I materialet finns total längd för ett stickprov om 16 gråsparvar. Antag att vi vill testa om populationens medianlängd är större än 160 mm. Detta kan göras genom att undersöka hur många gråsparvar i stickprovet som var längre/kortare än 160 mm. Under H 0 är dessa antal Bin(n,0.5). Detta innebär att vi kan använda Analyze>Nonparametric Tests > Legacy Dialogs>Binomial. Lägg in Längd på Test Variable List och ange 160 som Cutpoint. Lägg märke till att det p-värde vi får gäller ett tvåsidigt test. Vad blir resultatet om vi vill ha ett ensidigt test? Hur stort är p-värdet och vad blir slutsatsen?
3 2. Test vid jämförelse av två populationer. Använd datamaterialet Klorofyll. a) T-test (oberoende grupper). Alger fick växa under ljusa respektive mörka förhållanden. Undersök med ett t-test om det finns skillnader i förväntad klorofyllhalt mellan de två grupperna genom att använda Analyze>Compare Means>Independent-Samples T test. Ange Klorofyll som Test Variable och Grupp som Grouping Variable. Tryck sedan på knappen Define Groups och ange koderna på de två grupperna som skall jämföras (1/2). Gör testet. Försök tolka utskriften. Längst till vänster kommer ett test av om varianserna är lika (Levene s test). Sedan kommer två rader där den översta är resultatet från det vanliga t-test. Den undre raden är från det modifierade testet som inte bygger på något antagande om lika varianser. Är varianserna lika? Vilket test bör användas? Slutsatser? En grafisk beskrivning av skillnaderna kan man få genom att använda Graphs>Legacy Dialogs>Error Bar>Simple>Define. Lägg in Klorofyll som Variable och Grupp som Category Axis. Pröva också Graphs>Legacy Dialogs>Boxplot>Simple>Define. När du gjort diagrammet så kan du enkelt vända på det genom att dubbelklicka på diagrammet och sedan gå in under Chart>Transpose Chart under options. a) Rangsummetest. Gör nu om testet i 2(a) som ett rangsummetest genom att ge Analyze> Nonparametric Tests>Legacy Dialogs>2 Independent Samples. Markera Mann- Whitney U. I övrigt definieras variablerna analogt med t-testet. Hur stort är p-värdet och vad blir slutsatsen? Jämför resultatet med t-testet som ni gjorde i (a)-uppgiften. 3. Test vid matchade data. Använd datamaterialet Dammar. a) T-test. Jämför om det finns någon skillnad i kvävebelastning mellan vår och sommar. Gå in under Analyze>Compare Means>Paired-Samples T test. Klicka in i rutorna under Paired Variables. Finns det några skillnader? b) Teckentest. Gör nu motsvarande analys som ett icke-parametriskt test. Menysekvensen blir då Analyze>Nonparametric Tests>Legacy Dialogs>2 Related Samples. Markera sedan Sign. Finns det några skillnader? Jämför resultatet med t-testet som ni gjorde i (a)-uppgiften.
4 4. Test vid kategoridata. Använd datamaterialet Gråsparvar. a) χ 2 -test. Vi vill nu testa om vi har en jämn könsfördelning i materialet. Om man gör en enkel tabell på variabeln kön får man följande resultat: Kön Male Female Total Frequency Percent 87 64.0 49 36.0 136 100.0 Vi kan utföra testet på flera olika sätt. För det första kan vi göra en χ 2 -test där vi jämför den observerade fördelningen med den förväntade under hypotesen om jämn könsfördelning. Detta görs genom att man anger Analyze>Nonparametric Tests>Legacy Dialoga>Chi-Square. Lägg in KÖN på Test Variable List. Observera att man själv kan lägga in förväntade frekvenser under Expected Values. Men i vårt fall fungerar det bra med det markerade alternativet All categories equal. Gör testet. Hur stort är p-värdet och vad blir slutsatsen? b) Test av ett proportionstal. Vi kan också göra samma test med hjälp av binomialfördelningen. Gå då in under Analyze>Nonparametric Tests>Legacy Dialogs>Binomial. Lägg in KÖN på Test Variable List och ange Test Proportion som 0.50. Gör testet. Kommentar: Det finns inga direkta beräkningar av konfidensintervall för proportionstal i SPSS. (Man kan dock använda Compare means för att få ett approximativt konfidensintervall. c) Test av två proportionstal. Testa nu om andelen som överlever är lika stor bland honor som bland hanar. Detta görs som en biprodukt när man tar fram en korstabell. Ge därför Analyze> Descriptive Statistics>Crosstabs. Definiera nu tabellen genom att lägga den ena variabeln i raden och den andra i kolumnen. Gå sedan in under Statistics och markera Chi-square. Avsluta med att räkna fram lämpliga procenttal under Cells. Hur stort är p-värdet och vad blir slutsatsen?
5 Svar: 1. a) A: p=0,033 / B: p=0,081 Vi kan påvisa en skillnad för A men inte för B 95% KI A: 42,060-42,940 / B: 35,687-42,513 b) p=0,077/2=0,0385 Vi kan påvisa att Md>160 2. a) Varianserna är lika (p=0,307) p=0,009 Vi kan påvisa en skillnad b) p=0,015 Vi kan påvisa en skillnad 3. a) p=0,262 Vi kan inte påvisa någon skillnad b) p=0,070 Vi kan inte påvisa någon skillnad 4. a) p=0,001 Vi kan påvisa en avvikelse från jämn könsfördelning b) p=0,001 Vi kan påvisa en avvikelse från jämn könsfördelning c) p=0,077 Vi kan inte påvisa någon skillnad i andelen som dör Sammanfattning SPSS Transform>Compute Graphs>Legacy Dialogs>Error Bar Graphs>Legacy Dialogs>Boxplot Graphs> Legacy Dialogs>Histogram Analyze>Compare Means>One-Sample T test Analyze>Compare Means>Independent-Samples T test Analyze>Compare Means>Paired-Samples T test Bilda nya variabler Plot av konf. int Boxplot (lådagram) Histogram t-test (en population) t-test (två populationer) t-test (matchade data) Analyze>Nonparametric Tests>Legacy Dialogs>Chi-Square χ 2 -test (en pop.) Analyze>Nonparametric Tests>Legacy Dialogs>Binomial Median-test (en pop.) Analyze>Nonparametric Tests>Legacy Dialogs>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>Legacy Dialogs>2 Related Samples Teckentest (sign-test) Analyze>Descriptive Statistics>Legacy Dialogs>Crosstabs>Statistics χ 2 -test (två population)