InStat Exempel 4 Korrelation och Regression

Relevanta dokument
Sänkningen av parasitnivåerna i blodet

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning G60 Statistiska metoder

Statistiska samband: regression och korrelation

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

OBS! Vi har nya rutiner.

Linjär regressionsanalys. Wieland Wermke

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Statistik 1 för biologer, logopeder och psykologer

Multipel Regressionsmodellen

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Datorövning 1 Enkel linjär regressionsanalys

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Richard Öhrvall, 1

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

10.1 Enkel linjär regression

ÖVNINGSUPPGIFTER KAPITEL 6

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 4 R-versionen

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

ÖVNINGSUPPGIFTER KAPITEL 6

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Resursfördelningsmodellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Marknadsinformationsmetodik Inlämningsuppgift

Datorövning 2 Statistik med Excel (Office 2007, svenska)

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Mata in data i Excel och bearbeta i SPSS

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler

Repetitionsföreläsning

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

OBS! Vi har nya rutiner.

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

OBS! Vi har nya rutiner.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

TVM-Matematik Adam Jonsson

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Medicinsk statistik II

ÖVNINGSUPPGIFTER KAPITEL 4

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Laboration 2 multipel linjär regression

Bygga linjära modeller! Didrik Vanhoenacker 2007

Uppgift 1. Produktmomentkorrelationskoefficienten

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Laboration 4: Lineär regression

Att välja statistisk metod

1 Förberedelseuppgifter

Medicinsk statistik II

Finansiell statistik. Multipel regression. 4 maj 2011

Intro till SPSS Kimmo Sorjonen (0811)

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Laboration 4 Regressionsanalys

ANOVA Faktoriell (tvåvägs)

Föreläsning 10, del 1: Icke-linjära samband och outliers

Regressions- och Tidsserieanalys - F4

Tentamen Metod C vid Uppsala universitet, , kl

Obligatorisk uppgift, del 1

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

ÖVNINGSUPPGIFTER KAPITEL 12

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Transkript:

InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och 1000 kvinnor). På kurshemsidan under rubriken Uppgifter (Dataset till InStat) finns de datafiler du behöver för att genomföra analysen. Börja med att spara ner filerna från kurshemsidan till din dator: height_weight.csv gender_height_weight.csv 1. Korrelation mellan längd och vikt I InStat väljer vi Regression and Correlation eftersom vi ska undersöka sambandet mellan längd och vikt. Dataformatet är X and Y eftersom vår data består av observationer på variabeln X (längd) och Y (vikt).

I nästa steg ( Enter and edit data ) importerar vi datafilen height_weight.csv : Import Därefter kan vi gå till steget som kallas Select a statistical test och välja Correlation (Pearson r). Vi antar att längd och vikt är normalfördelade variabler (om du vill kan du även testa att använda det icke-parametriska korrelationstestet):

I nästa steg ( View the results ) tittar vi på resultaten. De visar att korrelationskoefficienten (r) är ca. 0.92. Med andra ord finns det en stark positiv korrelation mellan längd och vikt. Resultaten visar också att sambandet mellan längd och vikt är statistiskt signifikant. 2. Enkel linjär regression Nu har vi etablerat att det finns ett starkt samband mellan längd och vikt. I nästa steg vill vi veta mer om hur detta samband ser ut. Hur varierar egentligen vikt med olika kroppslängd? För att svara på detta gör vi en enkel linjär regression med vikt som utfallsvariabel (y) och längd som förklarande variabel (x). Vi går tillbaka till steget Select a statistical test och väljer Linear regression istället för Correlation :

Vi tittar sedan på resultatet ( View the results ): Vi noterar att regressionskoefficienten (Slope) för längd är beräknad till 1.384. Det innebär att för varje centimeter längre en person är, så ökar vikten med ca. 1.4 kg i genomsnitt. Vi ser också att P-värdet för koefficienten är mindre än 0.05, vilket innebär att sambandet är statistiskt signifikant. Till sist så kan vi notera att R 2 -värdet (R-squared) är ca. 0.85, vilket innebär att med hjälp av kunskap om personernas längd så kan vi förklara 85% av variationen i kroppsvikt. I nästa steg ( View a simple graph ) kan du kika på hur regressionslinjen har anpassats till datamaterialet. Notera att du har utfallsvariabeln (vikt) på y-axeln och den förklarande variabeln (längd) på x-axeln.

3. Multipel linjär regression Längd och vikt skiljer sig mellan män och kvinnor. En intressant fråga är därför om vi kan öka förklaringsvärdet i vår modell genom att utöver kroppslängd även ta hänsyn till personernas kön. För att undersöka detta gör vi en multipel linjär regression med vikt som utfallsvariabel och längd och kön som förklarande variabler. I det första steget väljer vi då Regression and correlation samt Y and 2 or more X variables (multiple reg). I nästa steg ( Enter and edit data ) importerar vi datafilen gender_height_weight.csv :

Notera att den förklarande variabeln kön (Gender) är kodad som en binär variabel med värdet 0 för kvinnor och 1 för män. Den här typen av kodning är vanlig för att hantera binära kategorivariabler. Nu kan vi gå till steget Select a statistical test och där välja Multiple Regression. I detta steg är det också viktigt att du väljer rätt utfallsvariabel (vikt) och att du ser till att både kön och längd är markerade som förklarande variabler:

Nu tittar vi på resultatet av den multipla regressionen ( View the results ): Det är mycket information som visas men vi ska inte gå igenom allt. Vi begränsar oss till att titta på tre saker: Regressionskoefficienterna för kön och längd, p-värdena för de samma, samt R 2 -värdet för hela modellen. Resultaten visar att regressionskoefficienten för kön är 9.053. Detta innebär att den grupp som kodades med värdet 1 väger i genomsnitt 9 kg mer än den grupp som kodades med värdet 0 när vi kontrollerar för längd (dvs. när effekten av längd redan

tagits hänsyn till). I vår data var det männen som kodades med värdet 1. Det är alltså män som är 9 kg tyngre än kvinnor i genomsnitt, inte tvärtom. Regressionskoefficienten för längd är 1.062. Det innebär att vikten ökar med ca. 1.1 kg i genomsnitt för varje centimeter längre en person är, när vi samtidigt tar hänsyn till personens kön. P-värdet för både kön och längd är signifikant, vilket indikerar att kön har en signifikant effekt på vikt även när vi kontrollerar för längd, och vice versa. R 2 -värdet (R-squared) för modellen är 89.74%, vilket innebär att med hjälp av kunskap om personernas längd och kön så kan vi nu förklara ca. 90% av variationen i kroppsvikt. Det är 5 procentenheter mer än den modell som bara tog hänsyn till kroppslängd (R 2 = 85%). Genom att ta hänsyn till både kön och längd har vi således lyckats anpassa en modell till våra data med högre förklaringsvärde. Om du vill kan du till sist undersöka hur pass bra den här regressionsmodellen stämmer på dig själv. Vi ser i resultatet att regressionsekvationen för modellen anges till: [C:Weight_kg] = -110.23 + 9.053*[A:Gender] + 1.062*[B:Height_cm] Ersätt nu [A:Gender] med 0 (om du är kvinna) eller 1 (om du är man) och [B:Height_cm] med din längd i cm och beräkna sedan din vikt enligt modellen. Stämmer modellens förutsägelse om din vikt bra eller dåligt överens med verkligheten?