Laboration 5 Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Deluppgift 1: Enkel linjär regression Övning Under denna uppgift ska enkel linjär regressionsanalys användas. Använd materialet yield som ligger upplagt på kurshemsidan, vilket innehåller observationsnummer, reaktionstemperatur och yield (utfall) från 25 slumpmässigt utvalda kemiska processer. Det man vill undersöka är om reaktionstemperaturen påverkar yield från den kemiska processen. Börja med att göra ett spridningsdiagram (Graphs Chart Builder Scatter/Dot). Hur ser sambandet ut? Är det linjärt? Starkt? Positivt eller negativt? Regression görs via Analyze Regression Linear. Välj Yield som beroende och Temperatur som oberoende variabel. Klicka på OK och tolka utskriften. Denna utskrift kan ni klara av att tolka om ni bara sätter er ner en stund och kollar igenom den. Vilka är skattningarna på α och β? Är lutningen signifikant? Hur hög är förklaringsgraden? En prediktion ska göras för temperatur = 78 grader. Då måste ni först lägga till det värdet längst ner i kolumnen för temperatur i datamaterialet (lämna tomt på kolumnerna Observation och Yield). Gå därefter samma menyväg som tidigare, klicka på Save och bocka där i rutan Unstandardized under Predicted values samt rutorna Mean och Individual under Prediction intervals. Klicka på Continue och därefter OK, prediktionen dyker upp i datamaterialet. Finns det ett samband mellan frövikt och skottlängd? En student använde sitt exjobb till att undersöka om det finns något samband mellan groddplantors frövikt (i mg) och hur lång skottlängd (i mm) dessa groddplantor uppnår i mörker. Frön för 43 olika groddplantor planterades, och deras skottlängd mättes efter tre veckor. Dessa siffror finns sammanställda i filen groddplantor. Börja med att undersöka sambandet med hjälp av ett spridningsdiagram, frövikten förklarar plantornas skottlängd. Som synes är det två plantor som har mycket högre frövikt än de andra. Testa att göra en enkel linjär regression med dessa två plantor och en utan dessa två och undersök hur stor skillnaderna blir mellan dessa två regressionsanalyser. Deluppgift 2: Ökar skördar för tre olika grödor över tid? Denna deluppgift handlar om hur regression kan tillämpas på observationer över tid. I filen skörd finns siffror över hur stora skördar man har haft (i kg per hektar) i Östergötlands län under tidsperioden 1965 2011. Börja med att visuellt undersöka sambandet mellan de olika grödorna och år. När observationer över tid ska analyseras brukar en räknande kolumn skapas, som består av värden från 1 och upp till antalet tidpunkter som observeras. I SPSS finns det ingen smidig funktion för att skapa en sådan kolumn (vad jag vet), så för att göra detta kan Transform Compute Variable
användas. Under Target Variable skriver ni in vad den räknande kolumnen ska heta (ex. Tid), och som Numeric Expression skriver ni år-1964. Använd nu den skapade kolumnen som förklaringsvariabeln och skapa tre stycken regressioner (en för varje gröda). Ökar skördarna signifikant och är det några intressanta skillnader mellan dessa ökningar? Deluppgift 3: Åldersbestämmelse av ekar I denna uppgift kommer vi in på multipel regression med två förklaringsvariabler. Undersökningen handlar om att kunna åldersbestämma ekar med hjälp av deras diameter (i meter) i brösthöjd och djup på barksprickor (i mm). 116 ekar har observerats, och man har tagit reda på deras riktiga ålder för att kunna undersöka om de två variablerna kan förklara åldern bra eller inte. Siffrorna finns i ekar. Börja som vanligt med att göra spridningsdiagram och undersök sambanden mellan diameter och år samt barksprickdjup och år. Gör därefter en multipel regression där diameter och barkspricksdjup förklarar åldern på eken. Kan man använda ekarnas diameter och barksprickdjup för att åldersbestämma dem? Deluppgift 4: Vad kan förklara betakaroten i blodplasma? I denna uppgift kommer vi in på regression med ett stort antal förklarande variabler, och även hur man kan skapa så kallade indikationsvariabler. Datamaterialet Datamaterialet diet som ligger på kurshemsidan innehåller värden på 12 variabler, vilka är observerade på 315 personer. Hämta hem detta och öppna det i SPSS. Variablerna är: Betakaroten: Koncentration betakaroten i blodplasma (nanogram/ml) Ålder: Personens ålder i år Kön: 1 = man, 2 = kvinna Rökning: 1 = aldrig rökt, 2 = tidigare rökare, 3 = nuvarande rökare BMI: Vikt/(längd i m^2) Vitamin: Äter vitamintillskott (1 = ofta, 2 = sällan, 3 = aldrig) Kaloriintag: Antalet konsumerade kalorier per dag Fettintag: Gram fett konsumerat per dag Fiberintag: Gram fibrer konsumerat per dag Alkoholintag: Antal standardglas alkohol konsumerade per vecka Kolesterolintag: Milligram kolesterol konsumerat per dag Betakarotenintag: Mikrogram betakaroten konsumerat per dag Om en person har en låg koncentration av betakaroten i blodplasma löper denna större risk för att drabbas av cancer. Betakaroten finns naturligt i vissa grönsaker, som t.ex. morötter och grönkål. För att undersöka vilka variabler som leder till att koncentrationen blir låg har man observerat ovanstående variabler och vill undersöka om någon av dessa påverkar koncentrationen signifikant.
Uppgift 1: Transformering På grund av vissa problem som uppstår med residualerna (vilket vi inte går in på här), är det bra att logaritmera den beroende variabeln (Y), vilket är koncentrationen av betakaroten. Gå tillbaka till laboration 2 om ni inte kommer ihåg hur ni logaritmerade en kolumn. Uppgift 2: Visuell analys och outliers En god rutin är som sagt att börja med att visuellt undersöka vilka samband den beroende variabeln har med var och en av de oberoende variablerna. Detta innebär att 11 olika spridningsdiagram ska göras, vilket smidigast görs med hjälp av Graphs Chart Builder Scatter/Dot. Innan detta görs måste dock alla variabler ställas in på Scale under Measure i Variable View (längst ner till vänster vid datamaterialet). Pga att SPSS har lite begränsningar i diagramskapande kan man som mest ha 5 variabler samtidigt i denna så kallade spridningsdiagramsmatris, så de logaritmerade koncentrationerna får plottas mot 4 variabler i taget. I spridningsdiagramsmatriserna som skapas är det raden med den beroende variabeln som är av intresse, för där finns de spridningsdiagram vi söker. Hur ser de olika sambanden ut? Uppgift 3: Indikatorvariabler För att genomföra multipel linjär regression bör variablerna kön, rökning och vitamin göras om till indikatorvariabler. Mitt förslag är att nedanstående variabler skapas: 1 om man Man = { 0 om kvinna 1 om nuvarande rökare Rökare = { 1 om tidigare rökare Tidrökare = { 1 om personen äter vitaminer ofta Vitaminofta = { 1 om personen äter vitaminer sällan Vitaminsällan = { Som synes behövs det bara göras en indikatorvariabel när grundvariabeln har två nivåer och två indikatorvariabler när grundvariabeln har tre nivåer. För t.ex. vitamin så blir båda indikatorvariablerna 0 när personen aldrig äter vitaminer. Dessa indikatorvariabler skapas med hjälp av Transform Recode into different variables. T.ex. görs indikatorvariabeln Tidrökare enligt nedanstående rutor:
Rökning klickas in, och därefter döper man indikatorvariabeln under Name. För att ange omkodningen går man in på Old and New Values: Under Old Value skrivs värdet på den ursprungliga variabeln in, och under New Value skrivs det in vilket värde indikatorvariabeln ska ha för det ursprungliga värdet, klicka därefter på Add. Skapa de fem indikatorvariablerna och ge de lämpliga namn.
Uppgift 4: Analys Efter alla dessa förberedelser så är det då dags att analysera materialet med hjälp av multipel linjär regression. Använd Analyze Regression Linear, klicka in de logaritmerade koncentrationerna som Dependent och de nu 13 oberoende variablerna som Independents. Välj bara in indikatorvariablerna för kön, rökning och vitamin, inte grundvariablerna! Tolka utskriften, är regressionen signifikant? Hur hög är förklaringsgraden? Tolka de skattade regressionskoefficienterna, ignorera just nu faktumet att en del inte är signifikanta. Som ni säkerligen lagt märke till är några av regressionskoefficienterna inte signifikanta. Det man kan göra då är att ta bort den koefficient med högst p-värde och därefter anpassa en ny regression. Detta fortsätter man med tills att alla koefficienter är signifikanta. Observera att om en av indikatorvariablerna för samma grundvariabel inte är signifikant ska båda behållas eller båda tas bort ur analysen. Gör detta, vilka variabler påverkar signifikant koncentrationen av betakaroten i blodplasma? Uppgift 5: Prediktion En man som... är 52 år gammal röker har ett BMI på 26,3 aldrig äter vitaminer får i sig 2300 kalorier per dag äter 73 gram fett om dagen har ett fiberintag på 10 gram om dagen dricker 12 standardglas alkohol i veckan har ett kolesterolintag på 354 milligram per dag och ett betakarotenintag på 2500 mikrogram per dag ska undersökas. Hur hög koncentration av betakaroten i blodplasma förväntas denna man ha med 99% säkerhet? Vilket intervall ska användas? Använd den modell ni kom fram till i uppgift 4, vilket kan leda till att ni kanske inte har med alla variabler som rabblades upp om denna man. Prediktionen görs genom att man lägger till dessa värden på raden längst ner i datamaterialet. Gå därefter in till regressionsanalysen som vanligt, gå in under Save och bocka för rutan Unstandardized under Predicted Values och välj det korrekta intervallet under Predicition Intervals. Glöm inte att ändra konfidensnivån! Antilogga intervallet ni får i kolumnerna i datamaterialet och tolka därefter intervallet.