Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två tydliga skillnader mellan diagrammen som korrelationskoefficienten inte lyckas beskriva: 1) Datamolnet i det vänstra diagrammet lutar brantare än datamolnet i det högra. 2) Datamolnet i det vänstra diagrammet ligger på en högre nivå än datamolnet i det högra. För att beskriva dessa två egenskaper hos ett samband nivå och lutning använder vi regressionslinjen.

y 4. 1 REGRESSIONSLINJEN: NIVÅ OCH LUTNING Regressionslinjen är en linje som är anpassad för att beskriva data så bra som möjligt: 35 30 25 20 15 10 5 0 0 2 4 6 8 10 x Vi kan beskriva den här linjen genom funktionen för en rät linje: y = a + bx. I figuren ovan ges regressionslinjen av: y = 8 + 2x Vi använder här en hatt (^) ovanför y:et. På det viset gör vi en distinktion mellan regressionslinjen (y ) och de faktiska värdena på y-variabeln (y). Om vi istället skrev y = 8 + 2x så skulle detta inte stämma för varje observation i data, utan enbart för de observationer som råkar ligga exakt på linjen. Värdet 8 i den här ekvationen kallas för interceptet och visar var linjen skär y-axeln. Genom att variera interceptet flyttar vi linjen upp och ner i diagrammet:

Värdet 2 i den här ekvationen (y = 8 + 2x) kallas för koefficienten för x. Den visar hur mycket y förändras då x ökar med en enhet. Här har koefficienten för x värdet 2: Då x ökar med en enhet så ökar y med 2 enheter. Genom att variera koefficienten för x så ändrar vi linjens lutning: Beroende och oberoende variabel Exempel: Vi vill analysera sambandet mellan antalet sovrum och hyrespriser i Brooklyn, New York. Totalt täcker data 44 lägenheter:

Hyra (dollar) Lägenhet Sovrum Hyra 1 1 1800 2 3 4600 3 2 2900 4 1 2100 5 4 3500......... 44 2 3600 Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Vi kallar y-variabeln (hyra) för beroende variabel eller utfallsvariabel; x-variabeln (sovrum) kallas för oberoende variabel. Terminologin kommer från att hyran beror av antalet sovrum. När vi gör en regression tänker vi oss att en variabel (x) kan påverka eller prediktera en annan (y). I det här exemplet är det antalet sovrum som predikterar hyrespriset. Därför är hyrespriset beroende variabeln och antalet sovrum oberoende. Här är ytterligare två exempel: Vi studerar sambandet mellan rökning under graviditeten och barnets födelsevikt. Rökning är då oberoende variabel (x) och barnets födelsevikt beroende (y). Vi studerar sambandet mellan arbetserfarenhet och lön. Arbetserfarenhet då oberoende variabel (x) och lön beroende (y). Att beräkna regressionslinjen minsta-kvadratmetoden Exempel fortsättning: Spridningsdiagrammet nedan visar sambandet mellan antalet sovrum och hyrespriser i Brooklyn:

Hyra (dollar) Hyra (dollar) Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Hur kan vi på bästa sätt anpassa en linje till detta datamaterial? Minsta-kvadratmetoden ger den linje som går möjligast nära snittet för y för olika värden på x. I figuren nere ges den linjen i svart: Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Såhär räknar vi fram värdena för a och b i regressionslinjen (hyra = a + b sovrum): b = s xy s x 2 kovariansen mellan x och y = variansen för x a = y bx I detta exempel är kovariansen mellan antalet sovrum och hyran är 767,87; variansen för antalet sovrum är 1,28: b = kovariansen variansen för x = 767,87 1,28 600

Genomsnittlig hyra (y ) är 3025,93 och genomsnittligt antal sovrum (x ) är 2,5: a = y bx = 3025,93 600,37 2,5 1525 Regressionslinjen ges då av: hyra = 1525 + 600sovrum Regressionslinjens tolkning Exempel fortsättning. Vi hade regressionslinjen: hyra = 1525 + 600sovrum. Så vad säger den? hyra är den predikterade hyran och ger oss en uppskattning av hur genomsnittlig hyra varierar med antalet sovrum. hyra är också vår bästa gissning: Om vi vet att en lägenhet har, säg, två sovrum uppskattas hyran vara 2725 dollar: hyra = 1525 + 600 sovrum = 2725 2725 dollar är alltså en uppskattning av hur mycket det i snitt kostar att hyra en lägenhet i Brooklyn med två sovrum. Vi kan också få en sådan uppskattning genom att direkt beräkna det genomsnittliga hyrespriset bland alla lägenheter med två sovrum. Men regressionslinjen är en förbättring på den uppskattningen eftersom vi nu tar hjälp av hela vårt datamaterial för att uppskatta hyrespriset för en lägenhet med två rum. Detta bygger dock på att förhållandet mellan hyrespriset och antal sovrum också är linjärt. På motsvarande sätt kan vi räkna ut att den predikterade hyran för en lägenhet med tre rum är 3325 dollar: =2 hyra = 1525 + 600 sovrum = 3325 Och att den predikterade hyran för en lägenhet med fyra sovrum är 3925 dollar: =3 hyra = 1525 + 600 sovrum = 3925 Vi kan till och med prediktera hyran för en lägenhet med fem sovrum trots att vi inte har en enda sådan lägenhet i data: =4

hyra = 1525 + 600 sovrum = 4525 =5 Exempel fortsättning: Visa att hyran predikteras öka med 600 dollar då antalet sovrum ökar med ett. Predikterad hyra för en lägenhet med k antal rum: hyra = 1525 + 600 k Predikterad hyra för en lägenhet med k+1 antal rum: hyra = 1525 + 600 (k + 1) Skillnaden: [1525 + 600 (k + 1)] [1525 + 600 k] = 600 600 är koefficienten för antalet sovrum; den visar att hyran i snitt ökar med 600 dollar för varje ytterligare sovrum. Det här gäller för alla regressionslinjer. Koefficienten b visar att då x ökar med en enhet så ökar y i snitt med b enheter. Exempel: Spridningsdiagrammet nedan visar sambandet mellan sysselsättningsgrad och självmordsfrekvens bland män i 169 länder. Variabeln sysselsättning mäter procenten sysselsatta män; variabeln självmord mäter antalet självmord per hundratusen män. Regressionslinjen ges av: självmord = 32,6 0,25 sysselsättning

Då sysselsättningsgraden ökar med en procentenhet så minskar antalet självmord i snitt med 0,25 per hundratusen män. Eller med andra ord: Då sysselsättningsgraden ökar med tio procentenheter så minskar antalet självmord i snitt med 2,5 per hundratusen män. Här är det bra att vara noggrann med enheten för sysselsättningsgraden. Sysselsättningsgraden mäts i procent och enheten för procent är procentenheter. Här är ett exempel på skillnaden: I Finland är sysselsättningsgraden 59 procent. Om sysselsättningsgraden ökar med 10 procentenheter så blir den 69 procent; om sysselsättningsgraden ökar med 10 procent så blir den 64,9 procent (dvs. 59*1,1 = 64,9). Residualer Exempel: Vi ska återgå till exemplet med hyrespriser i Brooklyn. Vi såg tidigare hur vi kan prediktera hyran för lägenheter med olika antal sovrum. I tabellen nedan har vi predikterat hyran för varje lägenhet i data: Lägenhet Sovrum Hyra Predikterad hyra 1 1 1800 2125 2 3 4600 3325 3 2 2900 2725 4 1 2100 3325 5 4 3500 3925............ 44 2 3600 2725 Exempelvis ser vi att lägenhet #2 har en hyra på 4600 dollar men en predikterad hyra på 3325 dollar. Den här lägenheten kostar alltså 1275 dollar mer än predikterat utifrån antalet sovrum. Vi kallar den här skillnaden för residualen. Residualen visar felet ; hur mycket lägenhetens faktiska hyra avviker från den predikterade. Residualen för lägenhet #1 är -325 dollar; lägenheten kostar 325 dollar mindre än predikterat. I tabellen nedan visas residualen för varje lägenhet i data:

Lägenhet Sovrum Hyra Predikterad hyra Residual 1 1 1800 2125-325 2 3 4600 3325 1275 3 2 2900 2725 175 4 1 2100 3325-1225 5 4 3500 3925-425............... 44 2 3600 2725 875 Medelvärde: 2,5 3026 3026 0 Om vi beräknar medelvärdet för alla residualer så kommer vi att se att det blir noll; regressionslinjen överskattar hyran för vissa lägenheter och underskattar den för andra, men i genomsnitt har regressionslinjen rätt. På motsvarande sätt så är snittet för de predikterade hyrorna lika med snittet för de faktiska. Det är ett annat sätt att säga samma sak; regressionslinjen har rätt i genomsnitt. Det här innebär inte att regressionslinjen inte kan göra brutalt felaktiga prediktioner ibland. Detta kan hända eftersom vi lever i en komplex värld som inte låter sig predikteras så lätt. Detta kan också hända om förhållandet mellan y och x inte är linjärt trots att vi beskriver det så. Vi ska återkomma till den punkten i avsnitt 4.4. Varför minsta-kvadrat? Vi sa tidigare att regressionslinjen beräknas med hjälp av en metod som kallas för minsta-kvadratmetoden, och att detta ger en linje som går möjligast nära snittet för y för olika värden på x. Men vad betyder det här mer konkret? Jo, rent tekniskt handlar det om att välja en linje som gör så att summan av de kvadrerade residualerna (dvs. kvadrerade felen) blir så liten som möjligt. Och därifrån kommer namnet minsta-kvadratmetoden. Ofta förkortar vi denna med OLS vilket kommer från engelskans ordinary least squares. Övningsuppgifter: Se här.

4. 2 REGRESSIONER MED DUMMYVARIABLER Exempel: Vi ska fortsätta med exemplet gällande hyrespriser i Brooklyn. Anta nu att vi enbart valt ut en- och tvårummare till vår analys. Det finns inget som hindrar oss från att göra en regressionslinje trots att x-variabeln enbart har två värden. Såhär ser data då ut: Lägenhet Sovrum Hyra 1 1 1800 2 2 1450 3 2 2900 4 1 2100 5 1 2300......... 22 2 3600 Variabeln sovrum kallas nu för en dummy-variabel; den antar enbart två olika värden. Dummy-variabler brukar dock kodas med värdena 0 och 1 (det underlättar tolkningen av resultaten). Så låt oss döpa om variabeln sovrum till tvåa; variabeln tvåa antar värdet 1 om lägenheten har två sovrum och värdet 0 om lägenheten har ett sovrum: Lägenhet Tvåa Hyra 1 0 1800 2 1 1450 3 1 2900 4 0 2100 5 0 2300......... 22 1 3600 Regressionslinjen ges av: hyra = 2115 + 713 tvåa. predikterade hyran för en tvåa är då 2828 dollar: Den hyra = 2115 + 713 tvåa = 2115 + 713 = 2828 =1 Och att den predikterade hyran för en etta är 2115 dollar: hyra = 2115 + 713 tvåa = 2115 =0 I det här fallet är prediktionen för en tvårummare (2828 dollar) den genomsnittliga hyran bland tvårummarna i data. Prediktionen för en etta (2115 dollar) är den genomsnittliga

Hyra (dollar) hyran bland enrummarna i data. Regressionslinjen går med andra ord exakt genom snittet för en- och tvårummare. Koefficienten för tvåa (713 dollar) är den genomsnittliga skillnaden i hyra mellan två- och enrummare. Hyrespriser, Brooklyn (NY) 6000 4000 2000 0 0 1 Tvåa Exempel: Vi har frågat 20 stycken sista årets läkarstuderande om deras lönekrav på första jobbet, dvs. vilken är den lägsta lön de kunde tänka sig att acceptera? Tabellen nedan visar lönekraven och personernas kön (variabeln kvinna som antar värdet 1 för kvinnor och 0 för män): Id Kvinna Lönekrav 1 0 3500 2 0 2900 3 0 3200 4 0 3000 5 0 3600 6 0 3400 7 0 3000 8 0 3500 9 0 4000 10 0 2900 11 1 3500 12 1 3000 13 1 3100 14 1 2500 15 1 3200 16 1 2850 17 1 3200 18 1 3700 19 1 2900 20 1 3050 Genomsnittligt lönekrav bland männen är 3300 euro och bland kvinnorna 3100 euro. Regressionslinjen ges då av: lönekrav = 3300 200kvinna

Koefficienten för kvinna visar att lönekravet i snitt är 200 euro lägre bland kvinnorna än bland männen. Övningsuppgifter: Se här.

4. 3 FÖRKLARINGSGRADEN Om vi kör en regression i ett program som kan hantera statistiska data så får vi fram ett resultat som ser ut ungefär såhär: Den här regressionen är gjord i Excel, men regressionsutskriften är uppbyggd på liknande sätt oavsett vilket dataprogram du använder. Data är Brooklyn hyresdata som vi är bekanta med från tidigare (här har vi inkluderat lägenheter med ett till fyra sovrum). Som vi ser innehåller utskriften många siffror. I det här skedet ska vi bara koncentrera oss på några av dem. För det första: Var syns regressionslinjen i den här utskriften? Eller med andra ord: Var syns värdena för a och b i uttrycket hyra = a + b sovrum? Jo, vi hittar dem i den tredje tabellen, i kolumnen Koefficienter : Det som kallas för Konstant i tabellen är interceptet (a) som har värdet 1525,09... ; koefficienten för antal sovrum (b) har värdet 600,33.... Vi ska också titta lite mer på en annan siffra ur regressionsutskriften, nämligen förklaringsgraden som betecknas R 2 :

Förklaringsgraden anger andelen av variation i y som kan förklaras av x. Vi har R 2 = 0,25: 25 procent av variationen i hyrespriser kan förklaras av antalet sovrum. Förklaringsgraden antar värden mellan 0 och 1. Då förklaringsgraden har värdet 0 så kan variationen i y inte alls förklaras av x. Då förklaringsgraden har värdet 1 så betyder det att all variation i y kan förklaras av x. Eller med andra ord: Då vi använder regressionslinjen, hyra = 1525 + 600 sovrum, för att prediktera hyran för en lägenhet så får vi alltid ut lägenhetens faktiska hyra. Det här skulle betyda att residualen är exakt lika med noll för varje lägenhet i data. (Kom ihåg att residualen är skillnaden mellan lägenhetens faktiska hyra och den predikterade.) Förklaringsgraden kan beräknas som kvadraten på Pearsons korrelationskoefficient. Men för att se vad som händer bakom beräkningarna så kan följande formel vara till större nytta: R 2 variansen i residualerna = 1 variansen i y Om variansen i residualerna är stor så innebär det att de faktiska hyrespriserna ofta är mycket större eller mycket mindre än predikterat. I extremfallet är variansen i residualerna lika stor som variansen i faktiska hyrespriser. Då blir kvoten i uttrycket ovan 1 och R 2 blir 0.

Om variansen i residualerna är liten så betyder det att de faktiska hyrespriserna ligger nära det som predikterats utifrån antalet rum. I extremfallet är variansen i residualerna 0 (alla residualer har värdet 0) och R 2 blir då 1. Övningsuppgifter: Se här.

4. 4 LOGARITMERAD SKALA Exempel: I avsnitt 4.1 tittad vi på sambandet mellan sysselsättningsgrad och självmord bland män i 169 länder: Variabeln sysselsättning mäter procenten sysselsatta män; variabeln självmord mäter antalet självmord per hundratusen män. Från spridningsdiagrammet kan man ana sig till att sambandet kunde beskrivas bättre av en linje om vi loggade y- variabeln. Här visas sambandet då självmorden beskrivs på en logaritmisk skala: Vi räknar ut regressionslinjen på samma sätt som tidigare, bara att den beroende variabeln nu är ln(självmord) istället för självmord. Ett utdrag av data ges nedan:

Land Sysselsättning Självmord ln(självmord) Afghanistan 83,4 4,8848 1,586129 Albanien 61,6 9,33057 2,233297 Algeriet 65,4 5,14503 1,63803 Angola 83,0 21,473 3,066795............ Finland 59,2 28,1194 3,336458............ Zimbabwe 75,3 18,836 2,935771 Regressionslinjen ges av: ln (självmord) = 3,5 0,015 sysselsättning Då sysselsättningsgraden ökar med en procentenhet så minskar den naturliga logaritmen av självmordsfrekvensen i snitt med 0,015 enheter. Eller med andra ord: Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Som du märker så får vi en procentuell effekt (istället för absolut) då utfallet är loggat. Hur kommer det sig? Jo, vi har tidigare sett (avsnitt 2.2) att skillnaden mellan två loggade värden representerar den procentuella skillnaden mellan värdena. Exempel: Om ln(självmord) ökar med 0,01 enheter så representerar detta en enprocentig ökning i självmordsfrekvensen. Och om ln(självmord) minskar med 0,015 enheter så är det en 1,5-procentig minskning i självmordsfrekvensen => Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Exempel: I avsnitt 3.2 tittade vi på förhållandet mellan inkomst och livslängd i världens länder:

Där inkomst mäter inkomst per person i landet; livslängd mäter genomsnittlig livslängd i landet. Vi såg också att vi här kan logga inkomsterna för att få ett linjärt samband: Här ges regressionslinjen av: livslängd = 19,0 + 5,8 ln(inkomst) Då den naturliga logaritmen av inkomst ökar med en enhet ökar livslängden i snitt med 5,8 år. Eller med andra ord: Då inkomsterna ökar med en procent så ökar livslängden i snitt med 0,058 år. Som du ser så beskriver vi nu inkomstökningar i procent (och inte i absoluta tal). Hur kommer det sig? Jo, vi vet att skillnaden mellan två loggade värden representerar den procentuella skillnaden mellan värdena. Exempel: Om ln(inkomst) ökar med 0,01 enheter så är det en enprocentig ökning i inkomster => Då inkomsterna ökar med en procent så ökar livslängden i snitt med 0,058 år (0,01*5,8 = 0,058).

I tabellen nedan visas hur koefficienterna tolkas i olika fall, dvs. beroende på om y är loggad, om x är loggad, eller om bägge är loggade: ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med 0,1 100 = 10 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1/100 = 0,001 enheter. De här tolkningarna gäller dock enbart ungefärligt, och då de procentuella effekterna blir allt större så blir dessa approximationer allt sämre. Om y ökar eller minskar med mer än ~10 procent så kan man istället använda exakta omvandlingsformler. I regressioner med loggat utfall och ologgad x-variabel så är detta inte ovanligt. Anta exempelvis att vi får följande resultat: ln (y) = 2 + 0,2 x Den exakta omvandlingen: Om x ökar med en enhet så ökar y med (e 0,2 1) 100 18 procent. I kapitlets Appendix (A.1: Log-procenter) visas de exakta omvandlingsformlerna för alla tre fall, dvs. beroende på om y loggats, x loggats eller bägge. Övningsuppgifter: Se här.

Appendix A.1: Log-procenter ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med (e 0,1 1) 100 10,5 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med (0,01 0,1 1) 100 0,11 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 ln(1,01) 0,001 enheter.