Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett nytt träningsprogram och finner att träningsprogrammet ökat insulinkänsligheten hos deltagarna. Men är effekten lika stor bland kvinnor som bland män? Bland normalviktiga som bland överviktiga? Eller säg att vi mäter effekten av en ny reklamkampanj och finner att den ökat försäljningen. Men har den ökat försäljningen i alla kundgrupper? Eller har kampanjen funkat särskilt bra bland unga? Bland gamla? Då vi mäter skillnaden i en effekt mellan två delgrupper så kallas detta för en interaktionseffekt. Exempel: Vi mäter avkastningen på utbildning och finner att varje extra skolår ökar lönen med 100 euro i genomsnitt. Men är avkastningen lika stor bland kvinnor som bland män? Anta att männen har en genomsnittlig avkastning på 120 euro och kvinnorna en avkastning på 80 euro. Skillnaden i avkastning mellan könen (40 euro = 120 80) kallas för en interaktionseffekt. I nästa avsnitt (15.1) ska vi se på hur vi kan formulera regressioner som mäter interaktionseffekter. I avsnitt 15.2 diskuterar vi standardiserade skalor och i avsnitt 15.3 diskuterar vi icke-linjära effekter och fixa effekter.
15.1 INTERAKTIONSEFFEKTER Exempel: Är traditionella kurser i klassrum bättre än nätkurser? 200 studerande anmäler intresse att gå en kurs. Dessa delas in i två grupper; 100 får gå den traditionella varianten och 100 får gå nätversionen. I slutet skriver alla samma prov. Regressionen nedan visar att de som gick nätkursen i snitt skrev lika bra på provet som de som gick den traditionella varianten: prov = 70 + 0 nätkurs Vi kör nu samma regression som ovan, men skilt för män och kvinnor: Männen: Kvinnorna: prov = 75 10 nätkurs prov = 65 + 10 nätkurs Om vi enbart tittar på männen ser vi att de som gick nätkursen i snitt skrev 10 poäng sämre än de som gick den traditionella varianten. Bland kvinnorna är effekten den omvända; de som gick nätkursen skrev i snitt 10 poäng bättre än de som gick den traditionella varianten. Effekten av att gå nätkursen är alltså 20 poäng högre bland kvinnorna än bland männen; detta är en interaktionseffekt. I det här exemplet beskrev vi männens och kvinnornas regressioner skilt. Men vi kan också kombinera dessa två regressioner i en: prov = 75 10 kvinna 10 nätkurs + 20(kvinna nätkurs) där (kvinna nätkurs) är produkten av variablerna kvinna och nätkurs. Den här variabeln antar värdet 1 för personer som både är kvinnor och som gick nätkursen, och värdet 0 för alla andra. Vi kallar en sådan produkt för en interaktionsterm. Regressionen ovan beskriver exakt samma sak som de två enskilda regressionerna (männens och kvinnornas). För att se detta kan vi skriva om regressionen ovan så att den bara gäller männen. Vi sätter då kvinna = 0 med resultatet: prov = 75 10 kvinna =0 10 nätkurs + 20(kvinna =0 = 75 10 nätkurs nätkurs)
Notera att det som blev kvar är just männens regression. Och på motsvarande sätt får vi kvinnornas regression genom att sätta kvinna = 1: prov = 75 10 kvinna =1 10 nätkurs + 20(kvinna =1 = 75 10 10 nätkurs + 20 nätkurs = 65 + 10 nätkurs nätkurs) Interaktionstermen tillåter oss alltså att mäta om en effekt skiljer mellan olika grupper. Men låt oss ännu fundera på vad de olika koefficienterna betyder: prov = 75 10 kvinna 10nätkurs + 20(kvinna nätkurs) I fet stil har vi det som är männens regression; vi får den genom att ignorera de termer som innehåller variabeln kvinna. Interceptet (75) visar alltså genomsnittligt provresultat bland män som gick den traditionella varianten. Koefficienten för nätkurs (-10) visar att männen som gick nätkursen snittade 10 poäng sämre än de män som gick den traditionella varianten. prov = 75 10 kvinna 10 nätv + 20(kvinna nätkurs) I fet stil visas hur kvinnornas regression skiljer sig från männens. Koefficienten för kvinna (-10) visar att kvinnornas intercept ligger 10 poäng lägre än männens. Koefficienten för interaktionstermen (+20) visar att effekten av att gå nätkursen är 20 poäng högre bland kvinnorna än bland männen. Figuren på nästa sida illustrerar männens och kvinnornas regressioner skilt:
Poäng på provet 76 75 74 73 72 71 70 69 68 67 66 65 64 Effekten av att ta nätkursen - skilt för män och kvinnor Traditionell Nätkurs Männens regression Kvinnornas regression När vi estimerar den här regressionen med hjälp av ett statistiskt programpaket så börjar vi med att skapa variabeln kvinna*nätkurs, nedan kallad kvinna_nätkurs: id kvinna nätkurs kvinna_nätkurs poäng 1 0 0 0 60 2 0 1 0 36 3 0 0 0 94 4 0 1 0 78............... 100 0 1 0 72 101 1 0 0 52 102 1 1 1 78 103 1 0 0 70 104 1 1 1 84............... 200 1 1 1 77 På nästa sida ser du resultatet från en körning med dessa tre oberoende variabler (kvinna, skolår, kvinna_skolår):
Effekten av att gå nätkursen är ~20 poäng högre bland kvinnorna än bland männen, och denna skillnad är signifikant på 1- procentsnivån (t-värdet = 4,47; p-värdet = 0,000 < 0,01). Det går också bra att inkludera andra kontrollvariabler i den här regressionen. Nedan visas resultatet då vi också kontrollerat för ålder: prov = 57 11 kvinna 11 nätkurs + 20(kvinna nätkurs) + 0,8 ålder Resultatet ändrade dock inte nämnvärt; effekten av att gå nätkursen är fortfarande 20 poäng högre bland kvinnorna än bland männen. [Exemplet ovan bygger på fejkade data.] Exempel: Regressionerna nedan visar hur lönen varierar med antalet skolår bland thailändska män och kvinnor. Data består av 213 män och 190 kvinnor. Lönen mäts i thailändska baht. Männen: Kvinnorna: lön = 27743 + 4695 skolår lön = 4195 + 1740 skolår Vi ser att avkastningen på varje ytterligare skolår är 2955 baht högre bland männen än bland kvinnorna (4695 1740 = 2955). Vi vill testa om den här skillnaden mellan könen är signifikant. Vi kombinerar därför dessa två regressioner i en: lön = 4195 + 1740skolår 31938man + 2955(skolår man) där man är en dummy som antar värdet 1 för männen och värdet 0 för kvinnorna; (skolår*man) är interaktionstermen. Den här regressionen visar exakt samma sak som de två enskilda. Vi får
kvinnornas regression genom att ignorera de termer som innehåller variabeln man: lön = 4195 + 1740skolår 31938man + 2955(skolår man) I fet stil visas hur männens regression skiljer sig från kvinnornas: lön = 4195 + 1740skolår 31938man + 2955(skolår man) Männens intercept ligger alltså 31938 baht lägre än kvinnornas; avkastningen på ett skolår är 2955 baht högre bland männen än bland kvinnorna. I det här exemplet är männens intercept -27743: En man som inte alls gått i skolan predikteras alltså ha en negativ lön. Hur kan det komma sig? Det här beror delvis på att alla män i data har minst 8 skolår. Prediktionerna för personer med långt färre skolår kan då bli rätt skakiga. Men en ännu viktigare förklaring är att en linjär modell passar data rätt dåligt i det här fallet, vilket figuren nedan visar. Lönen ökar inte linjärt med antalet skolår, utan snarare exponentiellt. I det här fallet passar det data bättre att använda ett logaritmerat utfall. Nedan har vi kört männens och kvinnornas regressioner då utfallet är logaritmerad lön: Männen: Kvinnorna: ln (lön) ln (lön) = 9,0 + 0,10 skolår = 9,4 + 0,06 skolår
För männen gäller att lönen i snitt ökar med 10 procent för varje ytterligare skolår. För kvinnorna är motsvarande siffra 6 procent. Det är en skillnad på 4 procentenheter: ln (lön) = 9,4 + 0,06skolår 0,4man + 0, 04(skolår man) Är skillnaden i avkastning mellan könen signifikant? Ja, standardfelet för interaktionseffekten är 0,011 vilket ger ett t- värde på ~3,6 och ett p-värde nära 0 (t-värdet = 0,04/0,011). Nedan visas spridningsdiagrammen, skilt för män och kvinnor: På följande sida har vi kombinerat dessa två spridningsdiagram i ett. Skillnaden i lutning mellan männens och kvinnornas regressionslinjer är 0,04, dvs. interaktionseffekten.
Det går också bra att kontrollera för andra variabler i den här regressionen. Nedan visas resultatet då vi också kontrollerat för arbetserfarenhet (erf = antalet år som personen jobbat hos nuvarande arbetsgivare): ln (lön) = 9,3 + 0,06skolår 0,4man + 0,04(skolår man) + 0,01erf Vi ser att lönen i snitt ökar med 1 procent för varje extra år hos nuvarande arbetsgivare, kontrollerat för skolår och kön. Men den här effekten är inte signifikant (t-värdet = 1,39; p-värdet = 0,165). I ett tredje steg tillåter vi dessutom att effekten av arbetserfarenhet skiljer sig mellan könen: ln (lön) = 9,2 + 0,06skolår 0,2man + 0,04(skolår man) + 0,02erf 0,01(erf man) Vi ser att kvinnornas lön i snitt ökar med 2 procent för varje extra år hos nuvarande arbetsgivare (kontrollerat för de andra oberoende variablerna). För männen är denna effekt 0,01 enheter lägre, det vill säga 1 procent. Den här skillnaden mellan könen är dock inte signifikant (t-värdet = -0,81, p-värdet = 0,418). Regressioner som innehåller interaktionstermer kan se rätt komplicerade ut och det tar lite tid att vänja sig. Om du känner dig osäker på tolkningen av en viss koefficient, kom då ihåg att du alltid kan skriva om regressionen skilt för de olika grupperna.
Nedan har jag gjort just detta; jag har använt regressionen ovan och skrivit om den skilt för män och kvinnor. Kvinnornas regression fås genom att ignorera alla termer som innehåller dummyn man (dessa försvinner ju då vi sätter man = 0): ln(lön) = 9,2 + 0,06skolår 0,2man + 0,04(skolår man) + 0,02erf 0,01(erf man) = 9, 2 + 0, 06skolår + 0, 02erf Männens regression fås genom att sätta man = 1: ln(lön) = 9,2 + 0,06skolår 0,2 man =1 + 0,02erf 0,01 (erf man) + 0,04 (skolår man) =1 =1 = 9,2 + 0,06skolår 0,2 + 0,04skolår + 0,02erf 0,01erf = 9, 0 + 0, 10skolår + 0, 01erf Notera här att skillnaden mellan männens och kvinnornas regressionskoefficienter är just interaktionseffekterna. Exempel: Koefficienten för skolår är 0,10 för männen och 0,06 för kvinnorna; skillnaden är 0,04, dvs. interaktionseffekten.
15.2 STANDARDISERAD SKALA Exempel: Regressionen nedan visar hur lönen varierar med antalet skolår och IQ. Regressionen bygger på data för 2061 amerikaner. ln(lön) = 5,58 + 0,026skolår + 0,004IQ Då intelligensen ökar med 1 poäng så ökar lönen i snitt med 0,4 procent, kontrollerat för antalet skolår. Men vad betyder det? Är det här en liten eller stor effekt? Ibland kan det vara svårt att bedöma om en viss effekt är stor eller liten enbart utifrån koefficientens storlek. Det är då vanligt att man använder en standardiserad skala: Istället för att mäta effekten av att intelligensen ökar med 1 poäng, så mäter vi effekten av att intelligensen ökar med 1 standardavvikelse. Intelligensen har här en standardavvikelse på 15,4 poäng: När intelligensen ökar med 1 standardavvikelse (=15,4 poäng) så ökar lönen i snitt med ~6 procent (15,4*0,004 = 0,0616) kontrollerat för utbildning. Vad har då större betydelse för lönen? Antalet skolår eller intelligensen? Vi ser förstås att koefficienten för antalet skolår är större än den för IQ. Men det här betyder inte att utbildning är mer betydelsefullt än intelligens. De här två variablerna mäts ju på olika skalor (år kontra poäng) och vi kan inte jämföra deras koefficienter rakt av. Vi får en bättre jämförelse om vi mäter båda variablerna i samma enhet, nämligen i antal standardavvikelser. Skolår har en standardavvikelse på 2,27 år: Då antalet skolår ökar med 1 standardavvikelse (=2,27 år) så ökar lönen i snitt med ~6 procent (2,27*0,026 = 0,05902) kontrollerat för IQ. Skolår och IQ har med andra ord ungefär samma betydelse för lönen då variablerna mäts i antal standardavvikelser.
15.3 ICKE-LINJÄRA EFFEKTER OCH FIXA EFFEKTER Vi har redan sett flera exempel på hur man kan använda en logaritmisk skala då det passar data bättre att mäta förändringar i procent. I kapitel 7 (Att beskriva tidsseriedata) såg vi också hur man kan beskriva kvadratiska trender i en serie över tid. Logaritmer och kvadratiska funktioner är de populäraste sätten att beskriva icke-linjära samband. Logaritmer används mer eller mindre rutinmässigt när vi har variabler som mäts i pengar eller stora kvantiteter (löner, priser, koldioxidutsläpp, befolkningsmängd). Kvadratiska funktioner används när vi vill beskriva att en viss variabel (x) har en avtagande eller tilltagande effekt på y. I det här avsnittet ska vi se ett par exempel på hur kvadratiska funktioner kan användas då vi jobbar med tvärsnittsdata. Vi ska också diskutera ett tredje sätt att beskriva icke-linjära effekter genom användningen av fixa effekter. Kvadratiska funktioner Exempel: Ju mer tid du sätter på att plugga desto bättre blir också tentresultatet. Men effekten av att gå från 0 till 1 studietimmar per vecka är säkert större än effekten av att gå från 11 till 12 timmar som i sin tur är större än effekten av att gå från 21 till 22 timmar. Den positiva effekten av att plugga ytterligare en timme är alltså positiv, men avtagande. Och i något skede om du går från, säg, 100 till 101 timmar så kanske effekten blir negativ. Anta nu att tentpoängen bestäms av antalet studietimmar enligt tabellen nedan.
timmar poäng förändring (per vecka) 0 0 1 14 +14 2 27 +13 3 39 +12 4 50 +11 5 60 +10 6 69 +9 7 77 +8 8 84 +7 9 90 +6 10 95 +5 11 99 +4 12 102 +3 13 104 +2 14 105 +1 Om du går från att inte studera alls till att studera en timme per vecka så adderar du 14 poäng till tentresultatet. Om du går från en till två studietimmar per vecka så adderar du ytterligare 13 poäng till tentresultatet, och om du går från två till tre studietimmar adderar du ytterligare 12 poäng till tentresultatet. Avkastningen på att plugga ytterligare en timme minskar alltså med 1 poäng för varje timme. Det här är ett exempel på ett kvadratiskt samband. Regressionsmodellen nedan beskriver hur vi mäter ett sådant samband. Vi beskriver då tentresultatet (poäng) som en kvadratisk funktion av antalet arbetstimmar. (Här har vi också adderat till en felterm eftersom tentpoängen i verkligheten knappast bara bestäms av antalet studietimmar.) poäng = β 0 + β 1 timmar + β 2 timmar 2 + u Vi har nu ett datamaterial som täcker 100 studerande, deras arbetstimmar och resultatet på tenten. Vi estimerar modellen ovan med resultatet: poäng = 0 + 14,5timmar 0,5timmar 2 Spridningsdiagrammet nedan illustrerar detta datamaterial med regressionsekvationen i rött.
Låt oss ännu fundera på vad den här regressionen berättar. Koefficienten för timmar är positiv; effekten av att plugga är positiv åtminstone i början. Koefficienten för timmar 2 är negativ; den positiva effekten av att plugga är avtagande, dvs. den blir mindre positiv ju mer du pluggar. I något skede når vi maxpunkten och efter det så lönar det sig inte att plugga ännu mer. Hur mycket predikteras tentpoängen förändras om vi ökar arbetstiden med en timme? Jo, det här beror helt och hållet på hur mycket vi pluggade i utgångsläget. Eller med andra ord: Avkastningen på att plugga ytterligare en timme är en funktion av hur många timmar vi pluggade innan. Vi kan få en bra bild av hur stor den här avkastningen är genom att derivera poäng med avseende på antalet timmar: poäng = 0 + 14,5timmar 0,5timmar 2 δpoäng = 14,5 1 timmar δtimmar Exempel: Avkastningen på att plugga ytterligare en timme är ~4,5 poäng, givet att vi innan pluggade 10 timmar: δpoäng = 14,5 1 timmar δtimmar = 4,5 =10 Notering: När vi deriverar och sätter timmar = 10, så får vi egentligen lutningen på kurvan i just den punkten (10). 4,5 poäng är med andra ord snarare avkastningen då vi går från 9,5 till 10,5
studietimmar, men detta är tillräckligt nära för att duga bra som approximation. Exempel: Är det bra att vara hur smart som helst? Spridningsdiagrammet nedan visar sambandet mellan logaritmerad lön och IQ, och bygger på data för 2061 amerikaner. I rött har vi estimerat ett linjärt samband; i grönt har vi estimerat en kvadratisk funktion. Den kvadratiska funktionen passar data bättre, men hur tolkar vi den? ln(lön) = 4,62 + 0,0288 IQ 0,00012 IQ 2 Koefficienten för IQ är positiv; lönen ökar med högre IQ åtminstone till att börja med. Koefficienten för IQ 2 är negativ; den positiva effekten avtar ju smartare du är. Nedan har vi deriverat ln(lön) med avseende på IQ: δln (lön) δiq = 0,0288 0,00024 IQ Anta att vi har en person med en intelligenskvot på 100: Hur mycket predikteras lönen öka om intelligensen ökar med ytterligare 1 poäng? Jo, med ungefär 0,5 procent: 0,0288 0,00024 IQ = 0,0048 100
Anta nu att vi har en person med en intelligenskvot på 120: Hur mycket predikteras lönen öka om intelligensen ökar med ytterligare 1 poäng? Jo, inte alls: 0,0288 0,00024 IQ = 0 120 Det lönar sig alltså inte att vara smartare än så; vid 120 poäng når lönekurvan sin höjdpunkt och därefter predikteras lönen börja sjunka igen. Det går förstås också bra att använda högre gradens polynom, t.ex. att beskriva lönen som en kubisk funktion av IQ: ln(lön) Eller fjärde gradens polynom: ln(lön) = β 0 + β 1 IQ + β 2 IQ 2 + β 3 IQ 3 + u = β 0 + β 1 IQ + β 2 IQ 2 + β 3 IQ 3 + β 4 IQ 4 + u I praktiken använder man dock sällan högre gradens polynom. Det här beror delvis på att det inte brukar behövas, och vi håller gärna modellen så enkel som möjligt. Det går förstås också bra att inkludera andra oberoende variabler i den här regressionen. Nedan har vi också inkluderat mammans utbildning (mätt i antal år): ln(lön) = 4,45 + 0,0306 IQ 0,00013 IQ 2 + 0,01mutb Då mammans utbildning ökar med ett år så ökar lönen i snitt med 1 procent, kontrollerat för IQ. Fixa effekter När vi säger att vi använder fixa effekter så betyder det att vi lägger in en dummy-variabel för varje värde på x. Exempel: Tar äldre pappor ut mer föräldraledighet? Eller är det istället dom yngre som tar ut mer föräldraledighet? Vi har ett datamaterial som består av 6340 nyblivna pappor i åldrarna 20-45. Regressionen nedan visar att äldre pappor (33-45 år) i snitt tar ut 12 dagar mer ledighet än de yngre (20-32 år): ledighet = 15,9 + 12,0äldre
Nedan har vi kört motsvarande regression, men istället delat in papporna i fem åldersgrupper: 20-24 år, 25-29 år, 30-34 år, 35-39 år och 40-45 år. Referensgruppen är de yngsta (20-24 år): ledighet = 10,1 + 7,3grupp2 + 13,4grupp3 + 18,0grupp4 + 18,1grupp5 där grupp2 är en dummy för pappor som är 25-29 år; grupp3 är en dummy för pappor som är 30-34 år; grupp4 är en dummy för de som är 35-39 år och grupp5 är en dummy för de äldsta. Vi ser alltså att de yngsta (20-24 år) i snitt tar ut ~10 pappadagar. De äldsta (40-45 år) tar i snitt ut ~18 pappadagar mer än de yngsta. Men varför stanna där? Varför inte använda en dummy för varje ålder? Alltså en dummy för 21-åringar; en dummy för 22-åringar;... ; en dummy för 44-åringar och en sista för 45-åringar. (Här använder vi återigen de yngsta, 20-åringarna, som referens.) Nedan ser du ett utdrag av regressionen: ledighet = 7,4 + 1,3ålder21 + 1,5ålder22 + 3,8ålder23 + + 19,8ålder45 Tabellen nedan ger hela regressionsutskriften:
Figuren nedan visar hur genomsnittlig pappaledighet varierar med ålder, och bygger på estimaten från föregående regression. I det här fallet så skulle vi säga att vi använt åldersfixa effekter. Det fina med fixa effekter är att du aldrig kan ta fel. Hur ser det egentliga sambandet mellan ålder och pappaledighet ut? Linjärt? Kvadratiskt? Kubiskt? Eller kanske genomsnittlig pappaledighet varierar oregelbundet med ålder så att ingen vanlig funktion passar bra som en beskrivning av sambandet? När vi använder ålderfixa effekter så anpassar vi oss totalt efter data; vi behöver inte försöka gissa. Det dåliga med fixa effekter är att vi måste estimera många parametrar (25 stycken + interceptet i det här fallet). Och det kan vara svårt att få en bra bild av sambandet. Av den anledningen brukar man så gott som aldrig använda fixa effekter för den x- variabel som är av huvudsakligt intresse. Anta i det här fallet att vi egentligen är intresserade av att mäta sambandet mellan pappans inkomst och pappaledigheten, kontrollerat för ålder. Nedan visas det råa sambandet: ledighet = 80,3 + 13,3ln (inkomst) När inkomsterna ökar med 1 procent så ökar pappaledigheten i snitt med 0,133 dagar. Nedan visas resultatet när vi dessutom kontrollerat för ålder genom att inkludera åldersfixa effekter: ledighet = 59,8 + 9,1 ln(inkomst) + åldersixa effekter
När inkomsterna ökar med 1 procent så ökar pappaledigheten i snitt med 0,091 dagar, kontrollerat för ålder. Nedan ser du regressionsutskriften: Då man presterar resultatet i en tabell så skulle det till exempel kunna se ut så här: Tabell: OLS-regressioner med pappaledighet som utfall (1) (2) VARIABLER Ln(inkomst) 13.34*** 9.053*** (0.494) (0.497) Åldersfixa effekter Nej Ja Konstant -80.28*** -59.82*** (3.781) (3.838) Observationer 6,340 6,340 R2 0.103 0.205 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 [Notering: Data från exemplet ovan är fejkat.]