Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25, 8.15 10.00

Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller korrelations- och regressionsanalys. När ni arbetat er igenom laborationshandledningen fortsätter ni med projektet. 2 Introduktion - Regressionsanalys i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en regressionsanalys på följande datamaterial: Datamaterial: För 6 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Längd (cm) Ålder (år) 15 1 30 2 35 3 50 4 55 5 60 6 Kan vi påvisa något samband (linjärt) mellan längd och ålder? 1. Inläsning av data. Börja med att mata in data till SPSS. Lägg in värdena i två kolumner: Längd och Ålder. Datamaterialet skall alltså innehålla 2 kolumner med 6 värden i varje kolumn. a) Beskrivning av data. Börja nu med en grafisk beskrivning av sambandet genom att använda Graphs>Legacy Dialogs>Scatter>Simple>Define. Lägg in Längd på Y Axis och Ålder på X Axis. b) Korrelationer. Vi börjar med att beskriva sambandet mellan variablerna med hjälp av korrelationskoefficienten. Beräkna korrelationskoefficienten (Pearson) som du hittar under Analyze>Correlate>Bivariate. Tyder resultaten på att det finns något samband mellan Längd och Ålder? c) Enkel linjär regression. Vi skall nu undersöka hur sambandet mellan variablerna ser ut genom att anpassa en rät linje till data. Ge Analyze>Regression>Linear och lägg in Längd som Dependent och Ålder som Independent. Kryssa också i att ni vill ha konfidensintervall för de skattade parametrarna under Statistics. Gör analysen. Identifiera följande mått i utskriften: r korrelationskoefficienten, r 2 förklaringsgraden, s residualspridningen, de skattade koefficienterna med standardfel, t-test och konfidensintervall. För att få den skattade regressionslinjen utritad dubbelklicka på figuren ni skapade i 1 a). Använd sedan Fit line under fliken Elements. d) Prognoser och konfidensintervall. Om man vill använda sin regressionsmodell för att göra prognoser så kan detta enkelt göras som en del av analysen. Gå då in under Analyze>Regression>Linear följt av Save. Vill man ha prognoser markerar man här Predicted Values Unstandardized. Gör detta. Markera även Mean och Individual under

3 Prediction Intervals. Passa även på att spara residualerna (Unstandardized) (de behövs i nästa deluppgift). Gör analysen. Titta sedan i datamaterialet. Det bör finnas sex nya kolumner. pre_1 res_1 lmci_1 umci_1 lici_1 uici_1 - Prognoser - Residualer - Undre gräns för ett KI för medelvärdet på Y givet olika X - Övre gräns för ett KI för medelvärdet på Y givet olika X - Undre gräns för ett PI * för ett enskilt Y givet olika värden på X - Övre gräns för ett PI * för ett enskilt Y givet olika värden på X * PrognosIntervall Alla värden och KI är räknade för de värden på X som finns i datamaterialet. Vill man ha prognoser/intervall för ett annat värde på X så lägger man till detta värde i X-kolumnen på en ensam rad sist i datamaterialet och gör om analysen. Detta värde kommer inte med i analysen (det finns ju inget Y-värde), men man får prognoser/intervall i alla fall. Ta nu bort de sex nya kolumnerna och lägg till värdet 7 på rad 7 i X-kolumnen (Ålder). Gör sedan om analysen. Vad blir prognosen för längden för en sju år gammal torsk? Vad blir prognosintervallet? (det går bara att göra en i taget). För att få intervallen utritade i figur dubbelklicka på figuren ni skapade i 1 a). Använd sedan Fit line at total under fliken Elements och kryssa i mean och individual (det går bara att göra en i taget). e) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Undersök nu om residualerna är normalfördelade genom att göra en Q-Q-plot. Antagandet om lika varianser (konstant spridning kring linjen) kan vi undersöka genom att plotta residualerna mot Ålder. Datamaterial: Bradfordmetoden. I laborationen ''Proteinbestämning enligt Bradfordmetoden'' i kursen cellbiologi undersöktes absorbansen hos prov med olika spädningar av Bovint Serum Albumin (BSA)-standard. Prov med 0-10 μg protein spädes till 100 μl med vatten och två prover förberedes per koncentration. Data för en laborationsgrupp finns i filen LABBDATA.SAV som du hittar på kursens hemsida www.maths.lth.se/matstat/kurser/masb11/vtm3/material. Modell: Enligt Lambert-Beers lag gäller att absorbansen (A) kan beskrivas som en linjär funktion av koncentrationen (c): A=k c där konstanten k beror på ämnets molära absorptionskoefficient vid en viss våglängd samt kyvettens längd. Vid mätningar får man naturligtvis räkna med en viss slumpmässig variation, en rimlig modell är att absorbansen vid mätning nr i, A i, beskrivs linjärt av koncentrationen c i plus ett slumpmässigt fel: A i = β 0 + β 1 c i + e i

4 där e i är oberoende och normalfördelad slumpfel med väntevärde 0 och standardavvikelse σ. Här motsvaras konstanten β 1 av den tidigare k medan β 0 är absorbansen i den lösning som BSA:n är löst. 2. a) Undersök på labbdata om den linjära regressionsmodellen ovan är rimlig att anpassa. b) Hur mycket ökar absorbansen då man ökar koncentrationen en enhet? Ange ett 95 % konfidensintervall för denna storhet. c) Vad är genomsnittlig absorbans för prov med koncentration 50 (mg/l). Ange ett 95 % konfidensintervall för denna storhet. d) Vi har ett prov med koncentration 50 (mg/l). Ange ett 95 % prediktionsintervall för absorbansen i just detta prov. e) Huvudsyftet med mätningarna var att erhålla en standardkurva för hur absorbansen påverkas av koncentrationen. Anta att vi på ett prov med okänd koncentration c 0 uppmätte absorbansen 0.43. Ange en skattning av c 0 - detta anges inte på något smidigt sätt i SPSS utan måste räknas fram. (Ta fram fler decimaler på skattningen av β 1 genom att dubbelklicka på resultattabellen, högerklicka på skattningen och gå in under Cell properties.) f) Man skulle också vilja ha ett intervall som uppskattar inom vilka gränser c 0 kan ligga ett sådant intervall kallas kalibreringsintervall. Tyvärr kan man inte få det direkt i SPSS. Däremot kan man få en uppfattning om hur brett intervallet är eftersom kalibreringsintervallet är omvändningen till prediktionsintervallet. Rita ut prediktionsintervallets gränser m.h.a. Graphs>Interactive>Scatterplot. Sätt absorbans på y-axeln och koncentration på x-axeln, markera under fliken Fit att ni vill ha prediction lines (både mean och individual). Gå in i figuren på absorbansen 0.43 (0.43 på y-axeln) och titta på prediktionsintervallets bredd på x- axeln för detta y-värde. Genom att avläsa (svårt i figuren) motsvarande koncentrationer har ni fått det sökta kalibreringsintervallet. Svar: 1. b) Ja! r p = 0,982 => p=0,000 Det finns ett samband c) r = 0,982 / r 2 = 0,964 / s = 3,651 / β 0 =9,333 (3,399) / β 1 =9,000 (0,873) t=10,311 => p=0,000 d) Prognos vid åldern 7 år = 72,33 / PI 58,5-86,2 e) NF: Nej! p=0,990 / Konstant varians: Ej helt lätt att bedöma (få värden) 2. b) 0.0008 intervall: 0,00063-0,0011 c) KI 0,425 0,441 d) PI 0,407 0,459 e) c 0 skattas till 47 mg/l f) Intervallet skattas till 15-78 Sammanfattning SPSS Graphs>Legacy Dialogs>Scatter Analyze>Correlate>Bivariate Spridningdiagram Korrelationer

Analyze>Regression>Linear Linjär regression 5