Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet Laboration 4 Regressionsanalys HT 2007
2 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller korrelations- och regressionsanalys. Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast fredagen den 18 januari 2008 Introduktion - Regressionsanalys i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en regressionsanalys på följande datamaterial: Datamaterial: För 6 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Längd (cm) Ålder (år) 15 1 30 2 35 3 50 4 55 5 60 6 Kan vi påvisa något samband (linjärt) mellan längd och ålder? 1. Inläsning av data. Börja med att mata in data till SPSS. Lägg in värdena i två kolumner: Längd och Ålder. Datamaterialet skall alltså innehålla 2 kolumner med 6 värden i varje kolumn. a) Beskrivning av data. Börja nu med en grafisk beskrivning av sambandet genom att använda Graphs>Scatter>Simple>Define. Lägg in Längd på Y Axis och Ålder på X Axis. b) Korrelationer. Vi börjar med att beskriva sambandet mellan variablerna med hjälp av korrelationskoefficienter. Beräkna nu både den vanliga korrelationen (Pearson) och rangkorrelationen (Spearman). Analyze>Correlate>Bivariate. Tyder resultaten på att det finns något samband mellan Längd och Ålder?
3 c) Enkel linjär regression. Vi skall nu undersöka hur sambandet mellan variablerna ser ut genom att anpassa en rät linje till data. Ge Analyze>Regression>Linear och lägg in Längd som Dependent och Ålder som Independent. Gör analysen. Identifiera följande mått i utskriften: r korrelationskoefficienten, r 2 förklaringsgraden, s residualspridningen, de skattade koefficienterna med standardfel och t-test. d) Prognoser och konfidensintervall. Om man vill använda sin regressionsmodell för att göra prognoser så kan detta enkelt göras som en del av analysen. Gå då in under Analyze>Regression>Linear följt av Save. Vill man ha prognoser markerar man här Predicted Values Unstandardized. Gör detta. Markera även Mean och Individual under Prediction Intervals. Passa även på att spara residualerna (Unstandardized) (de behövs i nästa deluppgift). Gör analysen. Titta sedan i datamaterialet. Det bör finnas sex nya kolumner. pre_1 - Prognoser res_1 - Residualer lmci_1 - Undre gräns för ett KI för medelvärdet på Y givet olika X umci_1 - Övre gräns för ett KI för medelvärdet på Y givet olika X lici_1 - Undre gräns för ett PI * för ett enskilt Y givet olika värden på X uici_1 - Övre gräns för ett PI * för ett enskilt Y givet olika värden på X * PrognosIntervall Alla värden och KI är räknade för de värden på X som finns i datamaterialet. Vill man ha prognoser/intervall för ett annat värde på X så lägger man till detta värde i X-kolumnen på en ensam rad sist i datamaterialet och gör om analysen. Detta värde kommer inte med i analysen (det finns ju inget Y-värde), men man får prognoser/intervall i alla fall. Ta nu bort de sex nya kolumnerna och lägg till värdet 7 på rad 7 i X-kolumnen (Ålder). Gör sedan om analysen. Vad blir prognosen för längden för en sju år gammal torsk? Vad blir prognosintervallet? e) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Undersök nu om residualerna är normalfördelade genom att göra ett test (Analyze>Nonparametric Tests>1-Sample K-S). Ange residualerna på Test Variable List. Tyder det på att data avviker från en normalfördelning? Antagandet om lika varianser (konstant spridning kring linjen) kan vi undersöka genom att plotta residualerna mot antingen Ålder eller de skattade värdena (pre_1). (Graphs>Scatter). Gör båda.
4 Svar: 1. b) Ja! r p = 0,982 => p=0,000 / r s = 1,000 => p<0,01 Det finns ett samband c) r = 0,982 / r 2 = 0,964 / s = 3,651 / a=9,333 (3,399) / b=9,000 (0,873) t=10,311 => p=0,000 d) Prognos vid åldern 7 år = 72,33 / PI 58,5-86,2 e) NF: Nej! p=0,990 / Konstant varians: Ej helt lätt att bedöma (få värden) Sammanfattning SPSS Graphs>Scatter Spridningdiagram Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Correlate>Bivariate Analyze>Regression>Linear Korrelationer Linjär regression
5 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast fredagen den 18 januari 2008. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb01/ hittar du de datafiler som behövs för att lösa uppgifterna. Skriv din redovisning som den skulle publicerats i en vetenskaplig rapport, bara mer kortfattat. Det vill säga strukturerad enligt följande: a) Introduktion (inklusive hypoteser) b) Material och metoder (speciellt statistiska metoder) c) Resultat (tolkningar och slutsatser) 1. Green (1997) studied the ecology of red land crabs on Christmas Island and examined the relationship between the total biomass of red land crabs and the density of their burrows within 25 m 2 quadrats (sampling units) at five forested sites on the island. We are analyzing two of these sites: 10 quadrats at Lower Site (LS) and 8 quadrats at Drumsite (DS). Use dataset Green. Calculate parametric and non-parametric correlations between total biomass and density of burrows for the total material and for each site separately. Make a graphical presentation of your results. Analyze the relationship by fitting a simple linear regression to each site separately. Are their any evidences of a linear relationship between total biomass and density? Reference: Green, P.T. (1997) Red crabs in rain forest on Christmas Island, Indian Ocean: activity patterns, density and biomass. Journal of Tropical Ecology 13: 17-38. 2. Peake & Quinn (1993) investigated the relationship between the number of species of macroinvertebrates, the total abundance of macroinvertebrates and area of clumps of mussels on a rocky shore in Southern Australia. The variables of interest are clump area (dm 2 ), number of species and number of individuals. Use dataset Peake. a) Number of species against clump area. Graph the relationship between the two variables. Calculate a linear regression. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use the 10- logarithm of clump area as the independent variable. Plot the residuals from this analysis against the predicted values. Which model do you prefer?
6 b) Number of individuals against clump area. Graph the relationship between the two variables. Calculate a linear regression. Make an interpretation of the estimated coefficients. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use the 10-logarithm of clump area as the independent variable. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use log-scales for both variables. Plot the residuals from the analysis against the predicted values. Which model do you prefer? Reference: Peake, A.J. & Quinn, G.P. (1993) Temporal variation in species-area curves for invertebrates in clumps of an intertidal mussel. Ecography 16: 269-277. General reference: Datasets in exercises 1-2 comes from Quinn, G.P. & Keough, M.J. (2002) Experimental Design and Data Analysis for Biologists, Cambridge University Press. Sammanfattning SPSS Data>Select Cases Data>Split File Graphs>Scatter Graphs>Q-Q plot Analyze>Nonparametric Tests>1-Sample K-S Analyze>Correlate>Bivariate Analyze>Regression>Linear Urval av individer Dela upp materialet i grupper Spridningdiagram Q-Q plot Test av Nf Korrelationer Linjär regression