Linjär regressionsanalys. Wieland Wermke

Relevanta dokument
Uppgift 1. Deskripitiv statistik. Lön

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Statistik och epidemiologi T5

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F4

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 7 och 8: Regressionsanalys

Föreläsning G60 Statistiska metoder

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Statistisk undersökningsmetodik (Pol. kand.)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Multipel regression och Partiella korrelationer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

InStat Exempel 4 Korrelation och Regression

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Regressions- och Tidsserieanalys - F1

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Resultatet läggs in i ladok senast 13 juni 2014.

Datorlaboration 2 Konfidensintervall & hypotesprövning

Sänkningen av parasitnivåerna i blodet

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Regressionsanalys av huspriser i Vaxholm

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Regressions- och Tidsserieanalys - F1

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

OBS! Vi har nya rutiner.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Medicinsk statistik II

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

ÖVNINGSUPPGIFTER KAPITEL 9

Lösningar till SPSS-övning: Analytisk statistik

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Statistiska samband: regression och korrelation

Föreläsning 4. Kap 5,1-5,3

Höftledsdysplasi hos dansk-svensk gårdshund

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

10.1 Enkel linjär regression

PM NÄTAVGIFTER Sammanfattning.

Medicinsk statistik II

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Tentamen i Matematisk statistik Kurskod S0001M

Analys av bostadsrättspriset i Stockholms innerstad

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Skrivning i ekonometri torsdagen den 8 februari 2007

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistik 1 för biologer, logopeder och psykologer

Korrelation och autokorrelation

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Regressions- och Tidsserieanalys - F3

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Dekomponering av löneskillnader

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Regressions- och Tidsserieanalys - F7

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Statistik och epidemiologi T5

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, Se följande uppslag.

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematisk statistik, Föreläsning 5

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

Metod och teori. Statistik för naturvetare Umeå universitet

Var är bensinen billigast?

Läs noggrant informationen nedan innan du börjar skriva tentamen

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Laboration 4 R-versionen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Blandade problem från väg- och vattenbyggnad

Grundläggande matematisk statistik

tentaplugg.nu av studenter för studenter

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Transkript:

+ Linjär regressionsanalys Wieland Wermke

+ Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån sina data försöker man hitta en förutsägelse ekvation, som kan ge oss bäst möjliga gissning n Detta gör datorn för oss! n Enkel linjär regression liknar korrelation n Obs! Ingen självklar kausalitet i sig, men ett riktat samband!

+ Enkel linjär regression n Hitta en linje (i ett koordinatsystem) som beskriver sambandet mellan x (ov) och y (bv) på bästmöjliga sätt Y Y X X

+ Linjär regression - Formel Gissade värd utifrån vårt linje x värde (ov) av person i Intercept, konstant, här möter linjen y- axeln, dvs. värdet, när x=0 Lutning, genomsnittlig förändring av y, när x förändras med 1 enhet

+ Standardiserat vs. inte standardiserat? n Lutningen (b) = förändring av beroende variabel, om den beroende variabel förändrar sig med 1 n Det betyder att b beror på vilken dimension man är ut efter (cm, kilo, betyg, poäng) n Även här kan man standardisera för att jämföra olika lutningar med olika dimensioner (medel= 0, sd=1) n Beta (β) liknar korrelationskoefficienten (t.ex. Pearson s r) och kan ha värde mellan -1 och 1

+ Minstkvadratmetoden n Så beräknar man formeln: n I våra data (punktmolnen) försöker vi hitta linjen som är närmast alla punkter samtidigt (så bra det går) n För att att hantera /+ (se variansen), kvadrera man varje värde n Stora värde tas större hänsyn till än små (modellen blir mer precis med små värde) Felet vi gör när vi gissar vårt bästpassande modell

+ Linjär regression: Formel Personens y värde (bv) värdet vi vill veta Lutning, regressionsfaktor Felet, i vårt förutsägelse modell Intercept, y värdet, när x=0 x värdet (ov)

+ Andra samband? n Linjära samband är inte de enda, det finns andra: Linjär regression fungerar bara om n våra data är hyfsat normalfördelade (kan vara ett problem i mycket små urval) n Om det finns en linjär samband Y Y X X

+ Hur väl fungerar vår modell? R 2 n säger hur mycket av variansen (i procent) av vår beroende variabel y (avvikelse från medelvärdet) kan förklaras genom våra oberoende variabler n à säger, hur väl vår modell (vår förutsägelse, gissning) fungerar

+ Variansförklaring Avvikelsen Ej förklarade delen av avvikelsen Förklarade delen av avvikelsen Medelvärdet Regressionsmodell

+ Att justera R 2 n Genom att ta in hur många variabler som helst in i modellen kan man n Ju mer variabler, ju större R 2 n Man justera matematiskt i relation till storleken av urvalet n Ju större N ju mindre faran att en ojusterat R 2 anger för stora värde n SPSS/PSPP kan stegvis ta in flera variabler och räknar ut hur R 2 förändrar sig

+ Signifikans av modellen n T test provar var en variabels oberoende statistiskt signifikans n Nollhypotesen = Den enstaka oberoende variabeln har inte någon påverkan på beroende variabeln utanför detta urvalet/ Påverkan är slumpmässig n Alternativhypotesen = Den enstaka oberoende variabeln har någon påverkan på beroende variabeln utanför detta urvalet n F test provar hela modellens signifikans n Nollhypotesen = alla i modellen ingående oberoende variabler tillsammans (dvs. hela modellen) har har inte något påverkan på beroende variabeln/påverkan är slumpmässig n Alternativhypotesen= alla i modellen ingående oberoende variabler tillsammans (dvs. hela modellen) har har inte något påverkan på beroende variabeln

+ Standardfel av modellen n Detta är standardavvikelsen av vår fel, dvs. detta som inte förklaras av modellen (typ motsatsen av R 2) n Beskriver spridningen av våra y värde (BV) kring vår regressionslinje n Anger hur mycket de sanna värde avviker från vårt modell n Ju mindre värdet, ju bättre vårt förutsägelse Ej förklarade delen av avvikelsen n Bra för att jämföra olika modeller med varandra

+ Exempel n Frågan: Minskar motivationen för statistik kursen ointresset för ämnet statistik? Variansförklaring av modellen (7%) Signifikansvärde av hela modellen Genomsnittligt fel vi gör med vårt modell (måttligt) Minskning av ointresse i ämnet (1-4), om motivationen ökas med 1 =-0,15 Värdet av ointresse när motivation är 0 Standardiserat regressionskoefficient (tolkas lika som Pearsons r)=svagt negativt samband) Signifikansvär de av OV (motivation)

+ Multivariata linjära samband

+ Problem med bivariata samband och andra variabler n Vad händer i ett observerat samband om man tar hänsyn till en tredje variabel? n t.ex. samband r (år yrkeserfarenheter à lön): 0.3 n Ursprungssambandet kan försvinna eller modereras, om man beaktar en tredje variabel, som t.ex. kön n exempel samband för kvinnor r=0.00!

+ Problemet med bivariata samband och en tredje variabel n Exempel samband för män r=0.52! n Strategi: konstanthållning n fundera över vilka variabler som också kan påverka n dela upp grupperna efter den variabeln och räkna för båda grupperna separat

+ Enkel och multipel linjär regression x y Enkel linjär regression x 1 y Multipel linjär regression x 2

+ Multivariata regressioner n MR beräknar olika koefficienter när de andra inflyttade koefficienterna har hållits konstanta (över alla observationsenheter) Förväntade värde enl. Minstkvadrat modell Intercept, värdet när alla ov i modellen är 0 Lutning: Ökning av y, när x ökar om en enhet och alla andra variabler hålls konstant för hela urvalet Lutning: Ökning av y, när x ökar om en enhet och alla andra variabler hålls konstant för hela urvalet

+ Multipel regression n Samma logik som enkla regressionen, dock mycket mer komplex att synliggöra

+ Hur väl fungerar vår modell? R 2 n säger hur mycket av variansen (i procent) av vår beroende variabel y (avvikelse från medelvärdet) kan förklaras genom våra oberoende variabler n à säger, hur väl vår modell (vår förutsägelse, gissning) fungerar

+ Variansförklaring Avvikelsen Ej förklarade delen av avvikelsen Förklarade delen av avvikelsen Medelvärdet Regressionsmodell

+ Att justera R 2 n Genom att ta in hur många variabler som helst in i modellen kan man n Ju mer variabler, ju större R 2 n Man justera matematiskt i relation till storleken av urvalet n Ju större N ju mindre faran att en ojusterat R 2 anger för stora värde n SPSS/PSPP kan stegvis ta in flera variabler och räknar ut hur R 2 förändrar sig

+ Signifikans av modellen n T test provar var en variabels oberoende statistiskt signifikans n Nollhypotesen = Den enstaka oberoende variabeln har inte någon påverkan på beroende variabeln utanför detta urvalet/ Påverkan är slumpmässig n Alternativhypotesen = Den enstaka oberoende variabeln har någon påverkan på beroende variabeln utanför detta urvalet n F test provar hela modellens signifikans n Nollhypotesen = alla i modellen ingående oberoende variabler tillsammans (dvs. hela modellen) har har inte något påverkan på beroende variabeln/påverkan är slumpmässig n Alternativhypotesen= alla i modellen ingående oberoende variabler tillsammans (dvs. hela modellen) har har inte något påverkan på beroende variabeln

+ Standardfel av modellen n Detta är standardavvikelsen av vår fel, dvs. detta som inte förklaras av modellen (typ motsatsen av R 2) n Beskriver spridningen av våra y värde (BV) kring vår regressionslinje n Anger hur mycket de sanna värde avviker från vårt modell n Ju mindre värdet, ju bättre vårt förutsägelse Ej förklarade delen av avvikelsen n Bra för att jämföra olika modeller med varandra

+ Förutsättningar för multipla regressioner n Normalfördelning av alla variabler n Prova man bäst med histogram n Gäller inte dikotoma variabler (dummys)

+ Förutsättningar n Inga extrema uteliggare n Testar man med boxplotdiagram

+ Förutsättningar n Sambandet är linjärt n Testa man bäst med scatterplot (för var en variabel)

+ Förutsättningar: felet (residual) n Felet, dvs. delen av data som inte kan förklarats genom modellen (residual) ska uppfylla flera olika krav för att vårt modell ska ge pålitliga resultat (SPSS/PSPP använder sig av olika tester) n Homoskedastitet n Alla residualer har samma avstånd från vår modellinje n Residualer ska vara normalfördelade n Ingen autokorrelation n Det finns ingen tydligt samband mellan feltermen n Ingen multikollinaritet n Alla oberoende variabler är (hyfsat) oberoende från varandra

+ Residualanalys för homoscedasticitet Y Y x x residuals x residuals x Inte konstant varians ü konstant varians n källa: Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall

Residualanalys för autokorrelation beroende ü oberoende residualer residualer X X residualer Kan även testas med Durban- Watson test: värde mellan 0 och 4 à Värde runt 2: OK à Värde runt 0 eller 4: ej OK X Källa : Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall

+ Multikollinjaritet Oberoende variabler korrelerar inte med varandra Oberoende variabler korrelerar starkt med varandra Ju större multikollinjaritet, ju större blir standardfelet, vårt resulat blir oprecist Två värde (som SPSS/PSPP räknar ut): à Tolerance: hur mycket relation mellan OV inte påverkar resultatet (borde inte gå under 0,25) à Variance inflation factor (VIF): vid samma relaterade variabler blir varians dubbelt (1= ingen relation, över 5: ej OK)

+ Multikollinjaritet Oberoende variabler korrelerar inte med varandra Oberoende variabler korrelerar starkt med varandra Alla dessa procedurer kan hjälpa oss även i kvalitativ forskning för att undersöka huruvida våra (kvalitativa) modeller stämmer Ju större multikollinjaritet, ju större blir standardfelet, värde blir oprecisa Två värde (som SPSS räknar ut): à Tolerance: hur mycket relation mellan OV inte påverkar resultatet (borde inte gå under 0,25) à Variance inflation factor (VIF): vid samma relaterade variabler blir varians dubbelt (1= ingen relation, över 5: ej OK)

+ Regressioner med kategoriala variabler: Dummy variabler n Kan bara ta två värde: 0, 1 n Kön, någon kriterium finns/finns inte (t.ex. universitetsexamen(ej universitetsexamen) osv. Dummyvariabel Dock samma lutning, kan undersökas med interaktionstermer

+ Flera än två kategorier? n Har vi mer än två kategorier i i vår kategorial variabel, så skaffa vi flera dummy variabler n Dock alltid en mindre än vi har kategorier! D 1 = 1 om bilen är vit 0 om bilen ej är vit D 2 = 1 om bilen är silverfärgad 0 om bilen ej är silverfärgad Kategorin Andra färger får värdena: D 1 = 0; D 2 = 0

+ Exempel (sälja en bil) Pris (bil) = 16701-.0555(mätare) + 90.48(D 1 ) + 295.48(D 2 ) För ytterligare en mil minskar priset med i genomsnitt 5.55 cents. En vit bil säljs, i genomsnitt, För 90.48 Euro mer än en bil i kategorin annan färg En silverfärgad bil säljs, i genomsnitt för 295.48 Euro mer än en bil i kategorin annan färg

+ Sammanfattning: Multipel regression OV korrelera mest med varandra Oberoende Variabel 1 b 1 Till en viss del förutsägas BV R 2 Oberoende Variabel 2 b 2 Beroende Variabel Oberoende Variabel 3 Oberoende Variabel 4 b 3 b 4 Varje variabel bidrar på olika sätt till förutsägelsen Delen som inte kan förutsägas med modellen 1- R 2

+ Exempel b SE b β t signifikans (Constant) 4.202.451-9.314.000 Summa talserier.231.010.447 23.481.000 Summa motsatser.152.014.202 11.237.000 Kön.016.129.002.124.901 Bakgrund.891.276.081 3.234.001 Bakgrund: 1=svensk/0=inte svensk Kön: 1=kvinnor/0=män Tabell 3. Regressionsekvationen för den beroende variabeln Total poäng på matematikprov i åk6 (Källa Carina Carlhed)