Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell Laboration 2 Statistiska test HT 2008
2 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller olika grundläggande statistiska test. Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast måndagen den 12 januari 2009. Introduktion - Statistiska test i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. På kursens hemsida hittar du de fem datamaterial som används i introduktionen. Hämta hem dessa datamaterial till din dator. Datamaterialen som används är Albumin, Median, Klorofyll, Dammar och Gråsparvar. 1. Test av medelvärde/median från en population. a) T-test. Använd datamaterialet Albumin. En blandning av blodserum innehåller exakt 42g albumin per liter. 2 laboratorium (A och B) får göra sex bestämningar var av koncentrationen. Vi vill undersöka om det finns någon systematisk avvikelse från det sanna värdet (42 g/l) (tvåsidig mothypotes). Gå in under Analyze>Compare Means>One-Sample T test. Lägg in AlbuminA och AlbuminB som Test Variable och ange 42 som Test Value. Tolka utskriften. Hur stora är p-värdena och vad blir slutsatserna? Pröva att få fram fler decimaler på p-värdet genom att dubbelklicka på resultattabellen, högerklicka på p-värdet och gå in under Cell Properties. Vill man få fram ett konfidensintervall för medelkoncentrationen så bör man göra om körningen och ändra Test Value till noll (0). Vilka blir intervallets gränser? Kommentar: Test för medelvärden vid stora stickprov (Centrala GränsvärdesSatsen) finns inte direkt i SPSS utan man får använda sig av t-test även i dessa fall. b) Test av median. Använd datamaterialet Median. I materialet finns total längd för ett stickprov om 16 gråsparvar. Antag att vi vill testa om populationens medianlängd är större än 160mm. På föreläsningen gjorde vi detta genom att undersöka hur många gråsparvar i stickprovet som var längre/kortare än 160mm. Under H 0 är dessa antal Bin(n,0.5). Detta innebär att vi kan använda Analyze>Nonparametric Tests>Binomial. Lägg in Längd på Test Variable List och ange 160 som Cutpoint. Lägg märke till att det p-värde vi får gäller ett tvåsidigt test. Vad blir resultatet om vi vill ha ett ensidigt test? Hur stort är p-värdet och vad blir slutsatsen?
3 2. Test vid jämförelse av två populationer. Använd datamaterialet Klorofyll. a) T-test (oberoende grupper). Vi skall nu börja med att jämföra medelklorofyllhalten för de alger som fick växa under ljusa respektive mörka förhållanden. Analyze>Compare Means>Independent-Samples T test. Ange Klorofyll som Test Variable och Grupp som Grouping Variable. Tryck sedan på knappen Define Groups och ange koderna på de två grupperna som skall jämföras (1/2). Gör testet. Försök tolka utskriften. Längst till vänster kommer ett test av om varianserna är lika (Levene s test). Sedan kommer två rader där den översta är resultatet från det vanliga t-test. Den undre raden är från det modifierade testet som inte bygger på något antagande om lika varianser. Är varianserna lika? Vilket test bör användas? Slutsatser? En grafisk beskrivning av skillnaderna kan man få genom att använda Graphs>Error Bar>Simple>Define. Lägg in Klorofyll som Variable och Grupp som Category Axis. Pröva också Graphs>Boxplot>Simple>Define. När du gjort diagrammet så kan du enkelt vända på det genom att dubbelklicka på diagrammet och sedan gå in under Options>Transpose Chart. b) Rangsummetest. Gör nu om testet i 2a) som ett rangsummetest genom att ge Analyze> Nonparametric Tests>2 Independent Samples. Markera Mann-Whitney U. I övrigt definieras variablerna analogt med t-testet. Hur stort är p-värdet och vad blir slutsatsen? 3. Test vid matchade data. Använd datamaterialet Dammar. a) T-test. Jämför om det finns någon skillnad i kvävebelastning mellan vår och sommar. Gå in under Analyze>Compare Means>Paired-Samples T test. Markera de två variablerna så att de syns under Current Selections nederst till vänster innan de klickas in i rutan Paired Variables. Finns det några skillnader? b) Teckentest. Gör nu motsvarande analys som ett icke-parametriskt test. Menysekvensen blir då Analyze>Nonparametric Tests>2 Related Samples. Markera sedan Sign. Finns det några skillnader?
4 4. Test vid kategoridata. Använd datamaterialet Gråsparvar. a) χ 2 -test. Vi vill nu testa om vi har en jämn könsfördelning i materialet. Om man gör en enkel tabell på variabeln kön får man följande resultat: Kön Male Female Total Frequency Percent 87 64.0 49 36.0 136 100.0 Vi kan utföra testet på flera olika sätt. För det första kan vi göra en χ 2 -test där vi jämför den observerade fördelningen med den förväntade under hypotesen om jämn könsfördelning. Detta görs genom att man anger Analyze>Nonparametric Tests>Chi- Square. Lägg in KÖN på Test Variable List. Observera att man själv kan lägga in förväntade frekvenser under Expected Values. Men i vårt fall fungerar det bra med det markerade alternativet All categories equal. Gör testet. Hur stort är p-värdet och vad blir slutsatsen? b) Test av ett proportionstal. Vi kan också göra samma test med hjälp av binomialfördelningen. Gå då in under Analyze>Nonparametric Tests>Binomial. Lägg in KÖN på Test Variable List och ange Test Proportion som 0.50. Gör testet. Kommentar: Det finns inga direkta beräkningar av konfidensintervall för proportionstal i SPSS. c) Test av två proportionstal. Testa nu om andelen som överlever är lika stor bland honor som bland hanar. Detta görs som en biprodukt när man tar fram en korstabell. Ge därför Analyze> Descriptive Statistics>Crosstabs. Definiera nu tabellen genom att lägga den ena variabeln i raden och den andra i kolumnen. Gå sedan in under Statistics och markera Chi-square. Avsluta med att räkna fram lämpliga procenttal under Cells. Hur stort är p-värdet och vad blir slutsatsen?
5 Svar: 1. a) A: p=0,033 / B: p=0,081 Vi kan påvisa en skillnad för A men inte för B 95% KI A: 42,060-42,940 / B: 35,687-42,513 b) p=0,077/2=0,0385 Vi kan påvisa att Md>160 2. a) Varianserna är lika (p=0,307) p=0,009 Vi kan påvisa en skillnad b) p=0,015 Vi kan påvisa en skillnad 3. a) p=0,262 Vi kan inte påvisa någon skillnad b) p=0,070 Vi kan inte påvisa någon skillnad 4. a) p=0,001 Vi kan påvisa en avvikelse från jämn könsfördelning b) p=0,001 Vi kan påvisa en avvikelse från jämn könsfördelning c) p=0,077 Vi kan inte påvisa någon skillnad i andelen som dör Sammanfattning SPSS Transform>Compute Graphs>Error Bar Graphs>Boxplot Graphs> Histogram Bilda nya variabler Plot av konf. int Boxplot (lådagram) Histogram Analyze>Compare Means>One-Sample T test t-test (en population) Analyze>Compare Means>Independent-Samples T test t-test (två populationer) Analyze>Compare Means>Paired-Samples T test t-test (matchade data) Analyze>Nonparametric Tests>Chi-Square χ 2 -test (en pop.) Analyze>Nonparametric Tests>Binomial Median-test (en pop.) Analyze>Nonparametric Tests>2 Independent Samples Rangsumme-test Analyze>Nonparametric Tests>2 Related Samples Teckentest (sign-test) Analyze>Descriptive Statistics>Crosstabs>Statistics χ 2 -test (två population)
6 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast måndagen den 12 januari 2009. På kursens hemsida hittar du de datafiler som behövs för att lösa uppgifterna. Skriv din redovisning som den skulle publicerats i tre vetenskapliga rapporter, bara mycket mer kortfattat. Det vill säga strukturerad enligt följande: a) Introduktion (inklusive hypoteser) b) Material och metoder (speciellt statistiska metoder) c) Resultat (tolkningar och slutsatser) 1. En lokal Shaman bosatt i kulvertarna under Kemicentrum påstår att han genom att överföra speciella krafter till noga utvalda studenter kan få dem att med hjälp av ögonmått bestämma ett heligt träds höjd. Han valde efter nogsamt övervägande att ge sin gåva till studenterna på Biostatistikkursen. Den kända dendrologen Jeppa Grell har enväldigt bestämt det heliga trädets höjd till exakt 21,25 meter. Lyckades shamanen, dvs skiljer sig studenternas ögonmått från det sanna värdet? Genomför ett lämpligt statistiskt test. Tre andra vedertagna metoder testades också. Skiljer sig dessa systematiskt från det uppmätta värdet? Beskriv också precisionen genom att göra 95% konfidensintervall för medelvärdet för respektive metod. Använd datamaterialet Trädhöjdsmätning. 2. Lavtäckning. Lavar består av ett mutualistiskt förhållande mellan en alg och en svamp. Algen står för fotosyntes och svampen för upptag av näring och vatten. Lavar är ofta specifika beträffande vilken miljö de trivs i, tex på barken av olika träd. I södra Sverige har bok förhållandevis sur bark (sur även i förhållande till ek, som ju producerar mycket garvsyror etc). Eftersom mikroklimatet (temperatur, ljus och fuktighet) skiljer sig mellan nord- och sydsidan på ett träd kan man dessutom förvänta sig att lavarna trivs olika bra på olika sidor. Finns det någon skillnad mellan bok och ek beträffande lavtäckning? Använd datamaterialet Lavtäckning.
7 3. Nyponstorlek. Vissa växter producerar frukter som är anpassade för att spridas med djur (t ex fåglar). Exempel på detta kan vara rönnbär och nypon. En växt som investerar i sådana frukter bör optimera möjligheten att frukterna skall ätas och transporteras iväg, och borde därför skylta med frukterna på ett optimalt sätt. Man skulle därför kunna förvänta sig att de frukter växten har längst ut fungerar som skyltexemplar, och bör därför vara extra synliga (se extra stora och smaskiga ut), jämfört med frukter från tex. trädets/buskens mitt. a) Går det att se någon signifikant skillnad mellan storleken på nypon från ytterkanten av busken (Syd, Nord, Väst och Öst) och frukter från mitten av busken? Gör en analys för varje väderstreck där man testar skillnaden jämfört med mitten. Använd datamaterialet Nypon. Gör testerna både med och utan antagande om normalfördelning. b) Om vill jämföra storleken utan att ta hänsyn till att vissa nypon kommer från samma buske (=vi ser nyponen som oberoende grupper) så måste data vara organiserat på ett annorlunda sätt: Alla värden måste då ligga i en kolumn (Storlek) och i en annan kolumn anger man vilken grupp de tillhör (Väderstreck). Den omorganiserade versionen finns i datamaterialet NyponOberoende. Testa om det finns någon skillnad i storlek mellan Mitt (Väderstreck=1) och Syd (Väderstreck=2) i denna situation. Gör testerna både med och utan antagande om normalfördelning.