Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Relevanta dokument
Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

ÖVNINGSUPPGIFTER KAPITEL 4

ÖVNINGSUPPGIFTER KAPITEL 7

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Föreläsning G60 Statistiska metoder

Sänkningen av parasitnivåerna i blodet

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

ÖVNINGSUPPGIFTER KAPITEL 6

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 3

InStat Exempel 4 Korrelation och Regression

HYPOTESPRÖVNING sysselsättning

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

INNEHÅLL DEL II: STATISTISK INFERENS SLUMPMÄSSIGA SAMPEL

Linjär regressionsanalys. Wieland Wermke

ÖVNINGSUPPGIFTER KAPITEL 2

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik 1 för biologer, logopeder och psykologer

Statistiska samband: regression och korrelation

ÖVNINGSUPPGIFTER KAPITEL 8

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Grundläggande matematisk statistik

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

ÖVNINGSUPPGIFTER KAPITEL 2

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ÖVNINGSUPPGIFTER KAPITEL 12

3.8 Känslighetsanalys av modell. Introduktion. Hans Larsson och Olof Hellgren, SLU

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Regressions- och Tidsserieanalys - F1

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Repetitionsföreläsning

ÖVNINGSUPPGIFTER KAPITEL 9

Höftledsdysplasi hos dansk-svensk gårdshund

ÖVNINGSUPPGIFTER KAPITEL 9

Regressions- och Tidsserieanalys - F1

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Laboration 4 R-versionen

Fråga nr a b c d 2 D

Föreläsning 10, del 1: Icke-linjära samband och outliers

Säsongrensning i tidsserier.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Blandade problem från elektro- och datateknik

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Multipel Regressionsmodellen

Föreläsning G60 Statistiska metoder

Att beräkna t i l l v ä x t takter i Excel

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Dekomponering av löneskillnader

Finansiell statistik

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Medicinsk statistik II

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

10.1 Enkel linjär regression

import totalt, mkr index 85,23 100,00 107,36 103,76

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs A, kapitel 4. b) = 3 1 = 2

Lektionsanteckningar 11-12: Normalfördelningen

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

ÖVNINGSUPPGIFTER KAPITEL 9

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Statistik och epidemiologi T5

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

tentaplugg.nu av studenter för studenter

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Datorövning 1 Enkel linjär regressionsanalys

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

LABORATION 3 - Regressionsanalys

Faktorer som påverkar befolkningstillväxten av unga individer i olika kommuntyper

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Regressionsanalys av lägenhetspriser i Spånga

Stokastiska signaler. Mediesignaler

Richard Öhrvall, 1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Företagsklimatet viktigt för ungas val av kommun. Johan Kreicbergs April 2009

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Inlämningsuppgift-VT lösningar

Transkript:

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två tydliga skillnader mellan diagrammen som korrelationskoefficienten inte lyckas beskriva: 1) Datamolnet i det vänstra diagrammet lutar brantare än datamolnet i det högra. 2) Datamolnet i det vänstra diagrammet ligger på en högre nivå än datamolnet i det högra. För att beskriva dessa två egenskaper hos ett samband nivå och lutning använder vi regressionslinjen.

y 4. 1 REGRESSIONSLINJEN: NIVÅ OCH LUTNING Regressionslinjen är en linje som är anpassad för att beskriva data så bra som möjligt: 35 30 25 20 15 10 5 0 0 2 4 6 8 10 x Vi kan beskriva den här linjen genom funktionen för en rät linje: y = a + bx. I figuren ovan ges regressionslinjen av: y = 8 + 2x Vi använder här en hatt (^) ovanför y:et. På det viset gör vi en distinktion mellan regressionslinjen (y ) och de faktiska värdena på y-variabeln (y). Om vi istället skrev y = 8 + 2x så skulle detta inte stämma för varje observation i data, utan enbart för de observationer som råkar ligga exakt på linjen. Värdet 8 i den här ekvationen kallas för interceptet och visar var linjen skär y-axeln. Genom att variera interceptet flyttar vi linjen upp och ner i diagrammet:

Värdet 2 i den här ekvationen (y = 8 + 2x) kallas för koefficienten för x. Den visar hur mycket y förändras då x ökar med en enhet. Här har koefficienten för x värdet 2: Då x ökar med en enhet så ökar y med 2 enheter. Genom att variera koefficienten för x så ändrar vi linjens lutning: Beroende och oberoende variabel Exempel: Vi vill analysera sambandet mellan antalet sovrum och hyrespriser i Brooklyn, New York. Totalt täcker data 44 lägenheter:

Hyra (dollar) Lägenhet Sovrum Hyra 1 1 1800 2 3 4600 3 2 2900 4 1 2100 5 4 3500......... 44 2 3600 Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Vi kallar y-variabeln (hyra) för beroende variabel eller utfallsvariabel; x-variabeln (sovrum) kallas för oberoende variabel. Terminologin kommer från att hyran beror av antalet sovrum. När vi gör en regression tänker vi oss att en variabel (x) kan påverka eller prediktera en annan (y). I det här exemplet är det antalet sovrum som predikterar hyrespriset. Därför är hyrespriset beroende variabeln och antalet sovrum oberoende. Här är ytterligare två exempel: Vi studerar sambandet mellan rökning under graviditeten och barnets födelsevikt. Rökning är då oberoende variabel (x) och barnets födelsevikt beroende (y). Vi studerar sambandet mellan arbetserfarenhet och lön. Arbetserfarenhet då oberoende variabel (x) och lön beroende (y). Att beräkna regressionslinjen minsta-kvadratmetoden Exempel fortsättning: Spridningsdiagrammet nedan visar sambandet mellan antalet sovrum och hyrespriser i Brooklyn:

Hyra (dollar) Hyra (dollar) Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Hur kan vi på bästa sätt anpassa en linje till detta datamaterial? Minsta-kvadratmetoden ger den linje som går möjligast nära snittet för y för olika värden på x. I figuren nere ges den linjen i svart: Hyrespriser, Brooklyn (NY) 10000 8000 6000 4000 2000 0 0 1 2 3 4 5 Sovrum Såhär räknar vi fram värdena för a och b i regressionslinjen (hyra = a + b sovrum): b = s xy s x 2 kovariansen mellan x och y = variansen för x a = y bx I detta exempel är kovariansen mellan antalet sovrum och hyran är 767,87; variansen för antalet sovrum är 1,28: b = kovariansen variansen för x = 767,87 1,28 600

Genomsnittlig hyra (y ) är 3025,93 och genomsnittligt antal sovrum (x ) är 2,5: a = y bx = 3025,93 600,37 2,5 1525 Regressionslinjen ges då av: hyra = 1525 + 600sovrum Regressionslinjens tolkning Exempel fortsättning. Vi hade regressionslinjen: hyra = 1525 + 600sovrum. Så vad säger den? hyra är den predikterade hyran och ger oss en uppskattning av hur genomsnittlig hyra varierar med antalet sovrum. hyra är också vår bästa gissning: Om vi vet att en lägenhet har, säg, två sovrum uppskattas hyran vara 2725 dollar: hyra = 1525 + 600 sovrum = 2725 2725 dollar är alltså en uppskattning av hur mycket det i snitt kostar att hyra en lägenhet i Brooklyn med två sovrum. Vi kan också få en sådan uppskattning genom att direkt beräkna det genomsnittliga hyrespriset bland alla lägenheter med två sovrum. Men regressionslinjen är en förbättring på den uppskattningen eftersom vi nu tar hjälp av hela vårt datamaterial för att uppskatta hyrespriset för en lägenhet med två rum. Detta bygger dock på att förhållandet mellan hyrespriset och antal sovrum också är linjärt. På motsvarande sätt kan vi räkna ut att den predikterade hyran för en lägenhet med tre rum är 3325 dollar: =2 hyra = 1525 + 600 sovrum = 3325 Och att den predikterade hyran för en lägenhet med fyra sovrum är 3925 dollar: =3 hyra = 1525 + 600 sovrum = 3925 Vi kan till och med prediktera hyran för en lägenhet med fem sovrum trots att vi inte har en enda sådan lägenhet i data: =4

hyra = 1525 + 600 sovrum = 4525 =5 Exempel fortsättning: Visa att hyran predikteras öka med 600 dollar då antalet sovrum ökar med ett. Predikterad hyra för en lägenhet med k antal rum: hyra = 1525 + 600 k Predikterad hyra för en lägenhet med k+1 antal rum: hyra = 1525 + 600 (k + 1) Skillnaden: [1525 + 600 (k + 1)] [1525 + 600 k] = 600 600 är koefficienten för antalet sovrum; den visar att hyran i snitt ökar med 600 dollar för varje ytterligare sovrum. Det här gäller för alla regressionslinjer. Koefficienten b visar att då x ökar med en enhet så ökar y i snitt med b enheter. Exempel: Spridningsdiagrammet nedan visar sambandet mellan sysselsättningsgrad och självmordsfrekvens bland män i 169 länder. Variabeln sysselsättning mäter procenten sysselsatta män; variabeln självmord mäter antalet självmord per hundratusen män. Regressionslinjen ges av: självmord = 32,6 0,25 sysselsättning

Då sysselsättningsgraden ökar med en procentenhet så minskar antalet självmord i snitt med 0,25 per hundratusen män. Eller med andra ord: Då sysselsättningsgraden ökar med tio procentenheter så minskar antalet självmord i snitt med 2,5 per hundratusen män. Här är det bra att vara noggrann med enheten för sysselsättningsgraden. Sysselsättningsgraden mäts i procent och enheten för procent är procentenheter. Här är ett exempel på skillnaden: I Finland är sysselsättningsgraden 59 procent. Om sysselsättningsgraden ökar med 10 procentenheter så blir den 69 procent; om sysselsättningsgraden ökar med 10 procent så blir den 64,9 procent (dvs. 59*1,1 = 64,9). Residualer Exempel: Vi ska återgå till exemplet med hyrespriser i Brooklyn. Vi såg tidigare hur vi kan prediktera hyran för lägenheter med olika antal sovrum. I tabellen nedan har vi predikterat hyran för varje lägenhet i data: Lägenhet Sovrum Hyra Predikterad hyra 1 1 1800 2125 2 3 4600 3325 3 2 2900 2725 4 1 2100 3325 5 4 3500 3925............ 44 2 3600 2725 Exempelvis ser vi att lägenhet #2 har en hyra på 4600 dollar men en predikterad hyra på 3325 dollar. Den här lägenheten kostar alltså 1275 dollar mer än predikterat utifrån antalet sovrum. Vi kallar den här skillnaden för residualen. Residualen visar felet ; hur mycket lägenhetens faktiska hyra avviker från den predikterade. Residualen för lägenhet #1 är -325 dollar; lägenheten kostar 325 dollar mindre än predikterat. I tabellen nedan visas residualen för varje lägenhet i data:

Lägenhet Sovrum Hyra Predikterad hyra Residual 1 1 1800 2125-325 2 3 4600 3325 1275 3 2 2900 2725 175 4 1 2100 3325-1225 5 4 3500 3925-425............... 44 2 3600 2725 875 Medelvärde: 2,5 3026 3026 0 Om vi beräknar medelvärdet för alla residualer så kommer vi att se att det blir noll; regressionslinjen överskattar hyran för vissa lägenheter och underskattar den för andra, men i genomsnitt har regressionslinjen rätt. På motsvarande sätt så är snittet för de predikterade hyrorna lika med snittet för de faktiska. Det är ett annat sätt att säga samma sak; regressionslinjen har rätt i genomsnitt. Det här innebär inte att regressionslinjen inte kan göra brutalt felaktiga prediktioner ibland. Detta kan hända eftersom vi lever i en komplex värld som inte låter sig predikteras så lätt. Detta kan också hända om förhållandet mellan y och x inte är linjärt trots att vi beskriver det så. Vi ska återkomma till den punkten i avsnitt 4.4. Varför minsta-kvadrat? Vi sa tidigare att regressionslinjen beräknas med hjälp av en metod som kallas för minsta-kvadratmetoden, och att detta ger en linje som går möjligast nära snittet för y för olika värden på x. Men vad betyder det här mer konkret? Jo, rent tekniskt handlar det om att välja en linje som gör så att summan av de kvadrerade residualerna (dvs. kvadrerade felen) blir så liten som möjligt. Och därifrån kommer namnet minsta-kvadratmetoden. Ofta förkortar vi denna med OLS vilket kommer från engelskans ordinary least squares. Övningsuppgifter: Se här.

4. 2 REGRESSIONER MED DUMMYVARIABLER Exempel: Vi ska fortsätta med exemplet gällande hyrespriser i Brooklyn. Anta nu att vi enbart valt ut en- och tvårummare till vår analys. Det finns inget som hindrar oss från att göra en regressionslinje trots att x-variabeln enbart har två värden. Såhär ser data då ut: Lägenhet Sovrum Hyra 1 1 1800 2 2 1450 3 2 2900 4 1 2100 5 1 2300......... 22 2 3600 Variabeln sovrum kallas nu för en dummy-variabel; den antar enbart två olika värden. Dummy-variabler brukar dock kodas med värdena 0 och 1 (det underlättar tolkningen av resultaten). Så låt oss döpa om variabeln sovrum till tvåa; variabeln tvåa antar värdet 1 om lägenheten har två sovrum och värdet 0 om lägenheten har ett sovrum: Lägenhet Tvåa Hyra 1 0 1800 2 1 1450 3 1 2900 4 0 2100 5 0 2300......... 22 1 3600 Regressionslinjen ges av: hyra = 2115 + 713 tvåa. predikterade hyran för en tvåa är då 2828 dollar: Den hyra = 2115 + 713 tvåa = 2115 + 713 = 2828 =1 Och att den predikterade hyran för en etta är 2115 dollar: hyra = 2115 + 713 tvåa = 2115 =0 I det här fallet är prediktionen för en tvårummare (2828 dollar) den genomsnittliga hyran bland tvårummarna i data. Prediktionen för en etta (2115 dollar) är den genomsnittliga

Hyra (dollar) hyran bland enrummarna i data. Regressionslinjen går med andra ord exakt genom snittet för en- och tvårummare. Koefficienten för tvåa (713 dollar) är den genomsnittliga skillnaden i hyra mellan två- och enrummare. Hyrespriser, Brooklyn (NY) 6000 4000 2000 0 0 1 Tvåa Exempel: Vi har frågat 20 stycken sista årets läkarstuderande om deras lönekrav på första jobbet, dvs. vilken är den lägsta lön de kunde tänka sig att acceptera? Tabellen nedan visar lönekraven och personernas kön (variabeln kvinna som antar värdet 1 för kvinnor och 0 för män): Id Kvinna Lönekrav 1 0 3500 2 0 2900 3 0 3200 4 0 3000 5 0 3600 6 0 3400 7 0 3000 8 0 3500 9 0 4000 10 0 2900 11 1 3500 12 1 3000 13 1 3100 14 1 2500 15 1 3200 16 1 2850 17 1 3200 18 1 3700 19 1 2900 20 1 3050 Genomsnittligt lönekrav bland männen är 3300 euro och bland kvinnorna 3100 euro. Regressionslinjen ges då av: lönekrav = 3300 200kvinna

Koefficienten för kvinna visar att lönekravet i snitt är 200 euro lägre bland kvinnorna än bland männen. Övningsuppgifter: Se här.

4. 3 FÖRKLARINGSGRADEN Om vi kör en regression i ett program som kan hantera statistiska data så får vi fram ett resultat som ser ut ungefär såhär: Den här regressionen är gjord i Excel, men regressionsutskriften är uppbyggd på liknande sätt oavsett vilket dataprogram du använder. Data är Brooklyn hyresdata som vi är bekanta med från tidigare (här har vi inkluderat lägenheter med ett till fyra sovrum). Som vi ser innehåller utskriften många siffror. I det här skedet ska vi bara koncentrera oss på några av dem. För det första: Var syns regressionslinjen i den här utskriften? Eller med andra ord: Var syns värdena för a och b i uttrycket hyra = a + b sovrum? Jo, vi hittar dem i den tredje tabellen, i kolumnen Koefficienter : Det som kallas för Konstant i tabellen är interceptet (a) som har värdet 1525,09... ; koefficienten för antal sovrum (b) har värdet 600,33.... Vi ska också titta lite mer på en annan siffra ur regressionsutskriften, nämligen förklaringsgraden som betecknas R 2 :

Förklaringsgraden anger andelen av variation i y som kan förklaras av x. Vi har R 2 = 0,25: 25 procent av variationen i hyrespriser kan förklaras av antalet sovrum. Förklaringsgraden antar värden mellan 0 och 1. Då förklaringsgraden har värdet 0 så kan variationen i y inte alls förklaras av x. Då förklaringsgraden har värdet 1 så betyder det att all variation i y kan förklaras av x. Eller med andra ord: Då vi använder regressionslinjen, hyra = 1525 + 600 sovrum, för att prediktera hyran för en lägenhet så får vi alltid ut lägenhetens faktiska hyra. Det här skulle betyda att residualen är exakt lika med noll för varje lägenhet i data. (Kom ihåg att residualen är skillnaden mellan lägenhetens faktiska hyra och den predikterade.) Förklaringsgraden kan beräknas som kvadraten på Pearsons korrelationskoefficient. Men för att se vad som händer bakom beräkningarna så kan följande formel vara till större nytta: R 2 variansen i residualerna = 1 variansen i y Om variansen i residualerna är stor så innebär det att de faktiska hyrespriserna ofta är mycket större eller mycket mindre än predikterat. I extremfallet är variansen i residualerna lika stor som variansen i faktiska hyrespriser. Då blir kvoten i uttrycket ovan 1 och R 2 blir 0.

Om variansen i residualerna är liten så betyder det att de faktiska hyrespriserna ligger nära det som predikterats utifrån antalet rum. I extremfallet är variansen i residualerna 0 (alla residualer har värdet 0) och R 2 blir då 1. Övningsuppgifter: Se här.

4. 4 LOGARITMERAD SKALA Exempel: I avsnitt 4.1 tittad vi på sambandet mellan sysselsättningsgrad och självmord bland män i 169 länder: Variabeln sysselsättning mäter procenten sysselsatta män; variabeln självmord mäter antalet självmord per hundratusen män. Från spridningsdiagrammet kan man ana sig till att sambandet kunde beskrivas bättre av en linje om vi loggade y- variabeln. Här visas sambandet då självmorden beskrivs på en logaritmisk skala: Vi räknar ut regressionslinjen på samma sätt som tidigare, bara att den beroende variabeln nu är ln(självmord) istället för självmord. Ett utdrag av data ges nedan:

Land Sysselsättning Självmord ln(självmord) Afghanistan 83,4 4,8848 1,586129 Albanien 61,6 9,33057 2,233297 Algeriet 65,4 5,14503 1,63803 Angola 83,0 21,473 3,066795............ Finland 59,2 28,1194 3,336458............ Zimbabwe 75,3 18,836 2,935771 Regressionslinjen ges av: ln (självmord) = 3,5 0,015 sysselsättning Då sysselsättningsgraden ökar med en procentenhet så minskar den naturliga logaritmen av självmordsfrekvensen i snitt med 0,015 enheter. Eller med andra ord: Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Som du märker så får vi en procentuell effekt (istället för absolut) då utfallet är loggat. Hur kommer det sig? Jo, vi har tidigare sett (avsnitt 2.2) att skillnaden mellan två loggade värden representerar den procentuella skillnaden mellan värdena. Exempel: Om ln(självmord) ökar med 0,01 enheter så representerar detta en enprocentig ökning i självmordsfrekvensen. Och om ln(självmord) minskar med 0,015 enheter så är det en 1,5-procentig minskning i självmordsfrekvensen => Då sysselsättningsgraden ökar med en procentenhet så minskar självmordsfrekvensen i snitt med 1,5 procent. Exempel: I avsnitt 3.2 tittade vi på förhållandet mellan inkomst och livslängd i världens länder:

Där inkomst mäter inkomst per person i landet; livslängd mäter genomsnittlig livslängd i landet. Vi såg också att vi här kan logga inkomsterna för att få ett linjärt samband: Här ges regressionslinjen av: livslängd = 19,0 + 5,8 ln(inkomst) Då den naturliga logaritmen av inkomst ökar med en enhet ökar livslängden i snitt med 5,8 år. Eller med andra ord: Då inkomsterna ökar med en procent så ökar livslängden i snitt med 0,058 år. Som du ser så beskriver vi nu inkomstökningar i procent (och inte i absoluta tal). Hur kommer det sig? Jo, vi vet att skillnaden mellan två loggade värden representerar den procentuella skillnaden mellan värdena. Exempel: Om ln(inkomst) ökar med 0,01 enheter så är det en enprocentig ökning i inkomster => Då inkomsterna ökar med en procent så ökar livslängden i snitt med 0,058 år (0,01*5,8 = 0,058).

I tabellen nedan visas hur koefficienterna tolkas i olika fall, dvs. beroende på om y är loggad, om x är loggad, eller om bägge är loggade: ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med 0,1 100 = 10 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1/100 = 0,001 enheter. De här tolkningarna gäller dock enbart ungefärligt, och då de procentuella effekterna blir allt större så blir dessa approximationer allt sämre. Om y ökar eller minskar med mer än ~10 procent så kan man istället använda exakta omvandlingsformler. I regressioner med loggat utfall och ologgad x-variabel så är detta inte ovanligt. Anta exempelvis att vi får följande resultat: ln (y) = 2 + 0,2 x Den exakta omvandlingen: Om x ökar med en enhet så ökar y med (e 0,2 1) 100 18 procent. I kapitlets Appendix (A.1: Log-procenter) visas de exakta omvandlingsformlerna för alla tre fall, dvs. beroende på om y loggats, x loggats eller bägge. Övningsuppgifter: Se här.

Appendix A.1: Log-procenter ln (y) = 2 + 0,1 x Då x ökar med en enhet så ökar y med (e 0,1 1) 100 10,5 procent. ln (y) = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med (0,01 0,1 1) 100 0,11 procent. y = 2 + 0,1 ln (x) Då x ökar med en procent så ökar y med 0,1 ln(1,01) 0,001 enheter.