Multipel regression och Partiella korrelationer



Relevanta dokument
Uppgift 1. Deskripitiv statistik. Lön

Samhällsvetenskaplig metod, 7,5 hp

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Lösningar till SPSS-övning: Analytisk statistik

FACIT!!! (bara facit,

Linjär regressionsanalys. Wieland Wermke

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Multipel Regressionsmodellen

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 7 och 8: Regressionsanalys

Forsknings- och undersökningsmetodik Skrivtid: 4h

Lägre andel behöriga på skolor med stora utmaningar

Datorlaboration 2 Konfidensintervall & hypotesprövning

Föreläsning G60 Statistiska metoder

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Överlevnadsanalys. 732G34 Statistisk analys av komplexa data

Höftledsdysplasi hos dansk-svensk gårdshund

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Bilaga 1: Informationsbrev Informationsbrev gällande enkät undersökning

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Tentamen Tillämpad statistik A5 (15hp)

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Skrivning i ekonometri lördagen den 25 augusti 2007

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Skrivning i ekonometri torsdagen den 8 februari 2007

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Regressions- och Tidsserieanalys - F4

Statistiska samband: regression och korrelation

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Regressions- och Tidsserieanalys - F1

Statistik och epidemiologi T5

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i Matematisk statistik Kurskod S0001M

10.1 Enkel linjär regression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Uppgift 1. Produktmomentkorrelationskoefficienten

InStat Exempel 4 Korrelation och Regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Läs noggrant informationen nedan innan du börjar skriva tentamen

Statistisk undersökningsmetodik (Pol. kand.)

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

ÖVNINGSUPPGIFTER KAPITEL 9

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F1

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

NÄR SKA MAN SÄLJA SIN BOSTAD?

MÄLARDALENS HÖGSKOLA. Akademin för hållbar samhälls- och teknikutveckling. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

8-1 Formler och uttryck. Namn:.

Avveckling Ekeby skola. Förslag till beslut Ekeby skola avvecklas 31 december 2015.

Kan föräldrastöd förbättra föräldrars hälsa, kompetens och barns beteende?

Lösningar med kommentarer till övningsuppgifterna i min bok Grundläggande statistiska metoder för analys av kvantitativa data

Co-creation i resebranschen

Multivariata metoder

Regressionsanalys av huspriser i Vaxholm

Trygghet 9 Empati 6 Hänsyn 3 Bemötande 2 Tolerans 2 Förhållningssätt 2 Omsorg 2 Respekt 2 Kamrat 1 Ärlighet 1 Omtanke 1 Skyldighet 1 Rättighet 1

Finansiell statistik. Multipel regression. 4 maj 2011

Statistik B Regressions- och tidsserieanalys Föreläsning 1

OBS! Vi har nya rutiner.

Tentamen i Matematisk statistik Kurskod S0001M

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Regressions- och Tidsserieanalys - F3

9-1 Koordinatsystem och funktioner. Namn:

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Öppnar jämförelser för ökad kvalitet i vård och omsorg om äldre? Bilaga Regressionsanalyser

ANOVA Faktoriell (tvåvägs)

MOBBNINGSENKÄT. XXX-skolan

Del A: Schema för ifyllande av svar nns på sista sidan

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Vad tycker de närstående om omvårdnaden på särskilt boende?

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

PM NÄTAVGIFTER Sammanfattning.

Daftar Populasi dan Sampel Penelitian

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Analytisk statistik. Tony Pansell, optiker Universitetslektor

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

OBS! Vi har nya rutiner.

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Transkript:

Multipel regression och Partiella korrelationer Joakim Westerlund Kom ihåg bakomliggande variabelproblemet: Temperatur Jackförsäljning Oljeförbrukning Bakomliggande variabelproblemet kan, som tidigare nämnts, delvis angripas med hjälp av partiella korrelationer. På statistisk väg kan temperaturen hållas konstant. Om korrelationen mellan jackförsäljning och oljeförbrukning försvinner så vet vi att det var temperaturen som låg bakom det skenbara sambandet. Om korrelationen mellan jackförsäljning och oljeförbrukning kvarstår vet vi att temperaturen inte kan ligga bakom (däremot kan det finnas en oändlig mängd andra möjliga variabler som ligger bakom sambandet, mer om detta senare). Ponera att vi slumpmässigt väljer ut 5 familjer och låter dessa under en månad spara alla kvitton gällande godis och mjölkinköp. För varje familj beräknar vi antalet kronor de spenderat på godis resp mjölk: Mjölk Godis 00 54 90 97 32 64 405 20 486 267 Det verkar finnas ett samband mellan hur mycket mjölk och hur mycket godis man köper. Vi beräknar r xy : MJÖLK GODIS,995** **. Correlation is significant at the 0.0 level (2-tailed). 5 2 :

godis mjölk godis 250 200 50 Såledeles ett starkt samband. (Behöver man mjölk för att skölja ned godiset? Passar godis som tilltugg till mjölk?) Sedan noterar vi att familjerna har olika antal barn: Mjölk Godis Antal barn 00 54 90 97 2 32 64 3 405 20 4 486 267 5 00 50 00 200 300 400 500 mjölk Undrar just om antal barn har nånting med godis och mjölkkonsumtion att göra? ATBAR MJÖLK GODIS,996** 5,996** 5 **. Correlation is significant at the 0.0 level Det hade det Vi plottar dessa samband och sparar residualerna (Y Y ) som vi får vid prediktion från antbarn till mjölk resp. godis: 500 250 400 200 50 300 00 200 50 00 2 3 4 5 2 3 4 5 antbarn antbarn 2 : 2

Mjölk Godis Antal barn Mjölkresid Godisresid 00 54-3,00 3,40 90 97 2 -,70-6,60 32 64 3 20,60 7,40 405 20 4 5,90-8,60 486 267 5 -,80 4,40 Variationen i mjölkresid speglar variation i mjölkkonsumtion som inte har med antal barn att göra. Variationen i godisresid speglar variation i godiskonsumtion som inte har med antal barn att göra. Om vi korrelerar mjölkresid med godisresid får vi därför reda på hur starkt sambandet är mellan mjölk och godiskonsumtion sedan vi tagit bort allt som har med antal barn att göra: Godisresid Mjölkresid,300,623 5 0 Som synes finns inte mycket kvar av sambandet Slutsats: Antal barn var en bakomliggande variabel som gav upphov till ett skenbart samband mellan godis och mjölk konsumtion -0-20 (Kanske finns det fler bakomliggande variabler som vi skulle kunna konstanthålla, t.ex. inkomst, och som skulle dra ner korrelationen ytterligare) Godisresid 0-0 0 Mjölkresid 0 20 30 I stället för att hålla på och beräkna en massa residualer och korrelera dessa med varandra kan man använda en behändig formel för partiell korrelation. Korrelationen mellan variabel och 2, med variabel 3 konstanthållen: r = 2.3 r r r 2 3 23 ( r 2 )( r 2 3 23) 2 : 3

Multipel regression Vid multipel regression används flera prediktorer (X, X 2, X 3, ) för att predicera en beroende variabel (Y). Ekvationen för prediktion av y från flera prediktorer ser ut så här: ^y = b 0 + b x + b 2 x 2 + b 3 x 3 + + b n x n Denna ekvation löses så att Σ(Y Y ) 2 blir så liten som möjligt. För att kunna utföra de faktiska beräkningarna utan hjälp av dator krävs kunskaper i matrisalgebra. Då sådana kunskaper inte kan förutsättas lämnar vi i det följande dessa beräkningar därhän och koncentrerar oss på hur multipel regression kan användas och tolkas. Prediktion Ett typiskt användningsområde för multipel linjär regression är när man vill kunna göra så goda förutsägelser som möjligt vad gäller individers möjligheter att klara en utbildning, att bli bra piloter, att bli framgångsrika chefer osv. Resultat på ett antal test (X) används då som prediktorer av ett kriterium (Y) som vanligtvis föreligger först senare i tiden. Förståelse Ett annat användningsområde är när man vill förstå så mycket som möjligt av ett visst fenomen. Varför har t.ex. vissa människor en större benägenhet att begå självmord än andra? Detta skulle kunna undersökas genom att låta ett antal personer fylla i ett självmordsbenägenhetstest samt ett extroversionstest, ett test för mätning av grad av social support och ett test för mätning av alkoholvanor. Genom att se hur variationen i självmordsbenägenhet kan förklaras av variation i extroversion, social support och alkoholvanor kan man förhoppningsvis bättre förstå varför en del människor begår självmord och kanske t.o.m. använda denna kunskap för att minska antalet självmord. Precis som man med den vanliga korrelationskoefficienten, r, kan beräkna sambandet mellan X och Y, kan man beräkna den multipla korrelationskoefficienten, R, mellan (X, X 2, X 3, ) å den ena sidan och Y å den andra. R 2 står för den del av variationen i Y som förklaras av X, X 2, X 3, tillsammans. Exempelvis skulle R 2 kunna stå för den del av variationen i självmordsbenägenhet som kan förklaras av variation i extroversion, social support och alkoholkonsumtion: 2 : 4

Som synes är de oberoende variablerna sinsemellan högt korrelerade något som kallas multikolinearitet. otera att alkoholkonsumtionen inte nämnvärt ökar vår prediktionsförmåga om vi redan har med Extroversion och Social support som prediktorer, har vi bara med Extroversion ökar alkoholkonsumtionen däremot prediktionsförmågan avsevärt. 2 : 5

Exempel på multipel regression med SPSS: ågra elever på psykologlinjen T gjorde en undersökning där de var intresserade av vilka faktorer som bestämmer om någonting är roligt. Deras försökspersoner fick bedöma ett antal sketcher på skalor -0. Förutom bedömd rolighet (Y) fick de skatta följande egenskaper (prediktorer): (ofoer)oförutsägbarhet: Hur pass mycket tycker du att handlingsförloppet i sketchen skiljer sig från det du förväntade dig i början av sketchen? (identif) Identifikation: Hur mycket känner du igen dig i karaktärernas reaktioner? (assoc) Oväntade associationer: I vilken grad tyckte du att sketchen innehöll oväntade associationer? (tappakon) Tappa kontrollen: Till vilken grad tappade någon/några i sketchen kontrollen? (normbr) ormbrytare - upphållare: I vilken grad tyckte du att sketchen följde ett mönster av att en uppehöll normen och en bröt den? (utanf) Utanförskap: Till vilken grad skojar man med utanförskap i sketchen? (igenk) Vardagsigenkänning: Hur mycket känner du igen dig i situationen från din egen vardag? (story) Story: Hur mycket bygger humorn på att det berättas en historia? (fara) Fara: I vilken grad uppfattar du att någon/några utsätts för fara? (genans) Genans: Hur mycket bygger sketchen på att situationen är pinsam för någon/några? Enskilda korrelationer mellan prediktorerna och bedömd rolighet: OFOER IDETIF ASSOC TAPPAKO ORMBR UTAF IGEK STORY FARA GEAS ROLIG,447**,393** 279,538**,05,395,30*,030 -,00,98,27**,58**,008 -,069,247,029,627 **. Correlation is significant at the 0.0 level *. Correlation (2-tailed). is significant at the 0.05 level (2-tailed). 2 : 6

Om vi i stället låter datorn (SPSS) beräkna linjär regression får vi följande resultat: Variables Entered/Removed b Variables Entered GEAS, IGEK, OFOER, STORY, FARA, ORMBR, UTAF, TAPPAKO, ASSOC, IDETIF a Variables Removed a. All requested variables entered. Method, Enter Summary b Adjusted Std. Error of R R Square R Square the Estimate,673 a,452,432,8599 a. Predictors: (Constant), GEAS, IGEK, OFOER, STORY, FARA, ORMBR, UTAF, TAPPAKO, ASSOC IDETIF b. Dependent Variable: ROLIG R2 är mer intressant än R. Med hjälp av våra prediktorer (ofoer, identif, genans) kan vi alltså förklara 45.2% av variationen i bedömd rolighet. R2 är dock inget väntevärdesriktigt estimat av motsvarande populationsegenskap. Det är däremot Adjusted R Square. b. Dependent Variable: ROLIG Residual AOVA b Sum of Squares df Mean Square F Sig. 765,83 0 76,583 22,39 a 927,079 268 3,459 Total 692,90 278 a. Predictors: (Constant), GEAS, IGEK, OFOER, STORY, FARA, ORMBR, UTAF, TAPPAKO, ASSOC, IDETIF b. Dependent Variable: ROLIG (Constant) OFOER IDETIF ASSOC TAPPAKO ORMBR UTAF IGEK STORY FARA GEAS a. Dependent Variable: ROLIG Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig.,6,358 4,499,302,055,34 5,450,304,064,30 4,739,278,055,30 5,065-7,92E-02,056 -,078 -,423,56 9,09E-02,04,22 2,94,029-8,67E-02,046 -,0 -,887,060-2,89E-03,060 -,003 -,048,962 5,450E-02,047,055,57,248 -,322,099 -,56-3,258,00 5,884E-03,054,006,0,93 Till skillnad från vanliga r är icke det förväntade slumpvärdet på R = 0 utan p/( ) där p = antalet prediktorer och = antal individer. Vi signifikansprövar den multipla korrelationen med ett F-test. Som synes blev det klart signifikant. Kolumnen B under Unstandardized coefficients visar vikterna för vår regressionsekvation. Constant = interceptet, som vi kallat a tidigare. Vi får alltså: ^ Y =.6 + +.303 OFOER +.304 IDETIF +.278 ASSOC -.0792 TAPPAKO +.0909 ORMBR -.0867 UTAF -.00289 IGEK -.322 FARA +.005884 GEAS 2 : 7

Hur viktiga de olika prediktorerna är kan man dock förstå lättare genom att titta i kolumnen Standardized coefficients. Dessa anger regressionsvikterna för prediktion av Z Y när alla prediktorer är z-transformerade. De standardiserade regressionsvikterna brukar betecknas?. Låt oss titta på det första värdet 0.34. Detta säger oss att en ökning av bedömd oförutsägbarhet med en enhet (Z), om alla andra prediktorer hålls konstanta, kommer att leda till en ökning av predicerad rolighet med 0.34 enheter (Z). Av avgörande betydelse är naturligtvis om prediktorerna ger signifikanta bidrag till förklarandet av variationen i Y. Detta kan vi inspektera i sista kolumnen. OFOER, IDETIF, ASSOC, ORMBR och FARA var alla signifikanta, UTAF närmade sig signifikans. Jämför detta med de enkla korrelationerna. För dessa var OFOER, IDETIF, ASSOC, ORMBR, IGEK och STORY signifikanta. Om vi har med alla prediktorer samtidigt bidrar uppenbarligen inte IGEK och STORY till något nytt, antagligen på grund av att vad dessa variabler egentligen mäter till stor del redan ingår i de andra variablerna. (IGEK mäts nog av IDETIF). Exempel 2 på multipel regression med SPSS: För 25 personer har vi tillgång till deras gymnasiebetyg, deras resultat på högskoleprovet och deras framgångar på högskolan (på en 8-gradig skala). Ponera att om vi korrelerar alla variabler mot varandra så får vi: BETYG HÖGPROV FRAMGÅG **. Correlation is significant at the 0.0 level (2-tailed). BETYG HÖGPROV FRAMGÅG,755**,675**, 25 25 25,755**,635**,,00 25 25 25,675**,635**,00, 25 25 25 Och om vi beräknar multipel regression med betyg och resultat på högskoleprovet som prediktorer och framgångar på högskolan som kriterium med SPSS så får vi följande resultat: Variables Entered/Removed b Variables Variables Entered Removed Method BETYG, HÖGPROV a, Enter a. All requested variables entered. b. Dependent Variable: FRAMGÅG Summary Adjusted Std. Error of R R Square R Square the Estimate,702 a,492,446,387 a. Predictors: (Constant), BETYG, HÖGPROV 2 : 8

Residual Total AOVA b Sum of Squares df Mean Square F Sig. 4,050 2 20,525 0,673,00 a 42,30 22,923 83,360 24 a. Predictors: (Constant), BETYG, HÖGPROV b. Dependent Variable: FRAMGÅG (Constant) HÖGPROV BETYG a. Dependent Variable: FRAMGÅG Coefficients a Unstandardized Standardized Coefficients Coefficients B Std. Error Beta t Sig. Zero-order Partial Part,487,843,577,570,422,335,29,259,22,635,259,9,679,345,455,966,062,675,387,299 Här bad jag SPSS om de partiella (kolumnen Partial) och de semipartiella (kolumnen Part) korrelationerna mellan prediktorerna och kriteriet. Den partiella korrelationen mellan högskoleprovet och framgång (0.259) innebär korrelationen mellan högskoleprovet och framgång sedan effekten av betyg tagits bort (hållits konstant) från både högskoleprovet och framgång. Den semipartiella korrelationen mellan högskoleprovet och framgång (0.9) innebär däremot korrelationen mellan högskoleprovet och framgång sedan effekten av betyg tagits bort (hållits konstant) från bara högskoleprovet. Den partiella korrelationen mellan betyg och framgång (0.387) innebär korrelationen mellan betyg och framgång sedan effekten av högskoleprovet tagits bort (hållits konstant) från både betyg och framgång. Den semipartiella korrelationen mellan betyg och framgång (0.299) innebär däremot korrelationen mellan betyg och framgång sedan effekten av högskoleprovet tagits bort (hållits konstant) från bara betyg. Den kvadrerade multipla korrelationskoefficienten (.702 2 = 0.492) kan ses som summan av den kvadrerade korrelationen mellan betyg och framgång (0.675 2 = 0.456) och den kvadrerade semipartiella korrelationen mellan högskoleprovet och framgång (0.9 2 = 0.036). Se figuren. 2 : 9

Exempel 3 på multipel regression med SPSS: Variables Entered/Removed b Variables Variables Entered Removed Method ZPRIMIV, ZSEMV, ZEPV a, Enter a. All requested variables entered. Summary Adjusted Std. Error of R R Square R Square the Estimate,669 a,448,447 0,500 a. Predictors: (Constant), ZPRIMIV, ZSEMV, ZEPV b. Dependent Variable: ALDER AOVA b Residual Total Sum of Squares df Mean Square F Sig. 24038,8 3 8027,25 726,760 a 296359,3 2688 0,253 53674,0 269 a. Predictors: (Constant), ZPRIMIV, ZSEMV, ZEPV b. Dependent Variable: ALDER (Constant) ZEPV ZSEMV ZPRIMIV Coefficients a Unstandardized Coefficients a. Dependent Variable: ALDER Standardi zed Coefficien ts B Std. Error Beta t Sig. 5,807,270 9,625-7,32,20 -,77-36,389,968,227,083 4,259 -,504,223 -,033-2,264,024 2 : 0