InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och 1000 kvinnor). På kurshemsidan under rubriken Uppgifter (Dataset till InStat) finns de datafiler du behöver för att genomföra analysen. Börja med att spara ner filerna från kurshemsidan till din dator: height_weight.csv gender_height_weight.csv 1. Korrelation mellan längd och vikt I InStat väljer vi Regression and Correlation eftersom vi ska undersöka sambandet mellan längd och vikt. Dataformatet är X and Y eftersom vår data består av observationer på variabeln X (längd) och Y (vikt).
I nästa steg ( Enter and edit data ) importerar vi datafilen height_weight.csv : Import Därefter kan vi gå till steget som kallas Select a statistical test och välja Correlation (Pearson r). Vi antar att längd och vikt är normalfördelade variabler (om du vill kan du även testa att använda det icke-parametriska korrelationstestet):
I nästa steg ( View the results ) tittar vi på resultaten. De visar att korrelationskoefficienten (r) är ca. 0.92. Med andra ord finns det en stark positiv korrelation mellan längd och vikt. Resultaten visar också att sambandet mellan längd och vikt är statistiskt signifikant. 2. Enkel linjär regression Nu har vi etablerat att det finns ett starkt samband mellan längd och vikt. I nästa steg vill vi veta mer om hur detta samband ser ut. Hur varierar egentligen vikt med olika kroppslängd? För att svara på detta gör vi en enkel linjär regression med vikt som utfallsvariabel (y) och längd som förklarande variabel (x). Vi går tillbaka till steget Select a statistical test och väljer Linear regression istället för Correlation :
Vi tittar sedan på resultatet ( View the results ): Vi noterar att regressionskoefficienten (Slope) för längd är beräknad till 1.384. Det innebär att för varje centimeter längre en person är, så ökar vikten med ca. 1.4 kg i genomsnitt. Vi ser också att P-värdet för koefficienten är mindre än 0.05, vilket innebär att sambandet är statistiskt signifikant. Till sist så kan vi notera att R 2 -värdet (R-squared) är ca. 0.85, vilket innebär att med hjälp av kunskap om personernas längd så kan vi förklara 85% av variationen i kroppsvikt. I nästa steg ( View a simple graph ) kan du kika på hur regressionslinjen har anpassats till datamaterialet. Notera att du har utfallsvariabeln (vikt) på y-axeln och den förklarande variabeln (längd) på x-axeln.
3. Multipel linjär regression Längd och vikt skiljer sig mellan män och kvinnor. En intressant fråga är därför om vi kan öka förklaringsvärdet i vår modell genom att utöver kroppslängd även ta hänsyn till personernas kön. För att undersöka detta gör vi en multipel linjär regression med vikt som utfallsvariabel och längd och kön som förklarande variabler. I det första steget väljer vi då Regression and correlation samt Y and 2 or more X variables (multiple reg). I nästa steg ( Enter and edit data ) importerar vi datafilen gender_height_weight.csv :
Notera att den förklarande variabeln kön (Gender) är kodad som en binär variabel med värdet 0 för kvinnor och 1 för män. Den här typen av kodning är vanlig för att hantera binära kategorivariabler. Nu kan vi gå till steget Select a statistical test och där välja Multiple Regression. I detta steg är det också viktigt att du väljer rätt utfallsvariabel (vikt) och att du ser till att både kön och längd är markerade som förklarande variabler:
Nu tittar vi på resultatet av den multipla regressionen ( View the results ): Det är mycket information som visas men vi ska inte gå igenom allt. Vi begränsar oss till att titta på tre saker: Regressionskoefficienterna för kön och längd, p-värdena för de samma, samt R 2 -värdet för hela modellen. Resultaten visar att regressionskoefficienten för kön är 9.053. Detta innebär att den grupp som kodades med värdet 1 väger i genomsnitt 9 kg mer än den grupp som kodades med värdet 0 när vi kontrollerar för längd (dvs. när effekten av längd redan
tagits hänsyn till). I vår data var det männen som kodades med värdet 1. Det är alltså män som är 9 kg tyngre än kvinnor i genomsnitt, inte tvärtom. Regressionskoefficienten för längd är 1.062. Det innebär att vikten ökar med ca. 1.1 kg i genomsnitt för varje centimeter längre en person är, när vi samtidigt tar hänsyn till personens kön. P-värdet för både kön och längd är signifikant, vilket indikerar att kön har en signifikant effekt på vikt även när vi kontrollerar för längd, och vice versa. R 2 -värdet (R-squared) för modellen är 89.74%, vilket innebär att med hjälp av kunskap om personernas längd och kön så kan vi nu förklara ca. 90% av variationen i kroppsvikt. Det är 5 procentenheter mer än den modell som bara tog hänsyn till kroppslängd (R 2 = 85%). Genom att ta hänsyn till både kön och längd har vi således lyckats anpassa en modell till våra data med högre förklaringsvärde. Om du vill kan du till sist undersöka hur pass bra den här regressionsmodellen stämmer på dig själv. Vi ser i resultatet att regressionsekvationen för modellen anges till: [C:Weight_kg] = -110.23 + 9.053*[A:Gender] + 1.062*[B:Height_cm] Ersätt nu [A:Gender] med 0 (om du är kvinna) eller 1 (om du är man) och [B:Height_cm] med din längd i cm och beräkna sedan din vikt enligt modellen. Stämmer modellens förutsägelse om din vikt bra eller dåligt överens med verkligheten?