Introduktion till kausala effekter Ronnie Pingel Institutionen f or folkh also- och v ardvetenskap och Statistiska institutionen 2016-09-03
Utgångspunkten Introduktion Vanligt mål i empirisk forskning skatta kausala effekter Effekten av en binär behandling, W, på ett utfall, Y Tilldelning av behandling är inte randomiserad, självselektion till behandlingsgrupp W = 1 och kontrollgrupp W = 0 Forskaren har tillgång till alla kovariater, X, som är korrelerade med W och Y, så kallade äkta confounders kausala effekter kan skattas trots ej randomiserad tilldelning av behandling
Regressionanalys Introduktion Utan att formalisera vad som är kausalt har ni kanske någon gång ställt upp följande modell för en behandling och ett utfall, justerat för kovariaterna X 1 och X 2, skattat modellen med linjär regression, och resonerat i termer av effekten av W på Y : Y = α + τw + β 1 X 1 + β 2 X 2 + ε
Kausala effekter - Neyman-Rubin Framework Introduktion
Kausala effekter - Neyman-Rubin Framework Introduktion Vi observerar N individer från en större population. Varje individ har två potentiella utfall: 1. Om behandling. 0. Om kontroll En individuell kausal effekt är definierad som skillnaden mellan potentiella utfall, Y 1 Y 0 Vi kan aldrig observera bägge potentiella utfall, utan vi observerar Y = WY 1 + (1 W )Y 0
Fundamental Problem Introduktion Vi kan skatta genomsnittliga kausala effekter: t ex average treatment effect (ATE) τ = E(Y 1 Y 0 ) = E(Y 1 ) E(Y 0 )
Fundamental Problem Introduktion Vi kan skatta genomsnittliga kausala effekter: t ex average treatment effect (ATE) τ = E(Y 1 Y 0 ) = E(Y 1 ) E(Y 0 )
Varför potentiella utfall? Introduktion Tydlig förståelse för estimander Estimander kan generaliseras till annat än genomsnitt Tydligt skilt från en parameter i en modell Kan definiera estimander för ändliga populationer Kan undersöka icke-konstant behandlingseffekt Kräver tanke om treatment assignment
I ett randomiserat försök gäller att E(Y 1 ) = E(Y W = 1), E(Y 0 ) = E(Y W = 0) ATE kan då skattas med skillnaden i medelvärden Introduktion ˆτ = ȲW =1 ȲW =0 eller med samma resultat med en regression Ê(Y ) = ˆα + ˆτW Formellt: pga att randomisering ger Unconfoundedness : (Y 1, Y 0 ) W Overlap : 0 < P(W = 1) < 1 där betecknar oberoende I exemplet är skillnaden av medelvärden i respektive behandlingsgrupp 0, 25. Skillnaden av medelvärden för de potentiella utfallen är 0, 125
I observationsstudier gäller generellt inte unconfoundedness pga av confounders X. Men man kan tänka sig att för varje värde på X så gäller uncofoundedness, det vill säga Unconfoundedness : (Y 1, Y 0 ) W X Overlap : 0 < P(W = 1 X ) < 1 Några lösningar är alltså: a) stratifiering, b) matchning, c) parametriska metoder (regressionsanalys) ATE kan då identifieras med τ = E(Y 1 Y 0 ) = E [E(Y p(x ), W = 1) E(Y p(x ), W = 0)]
Stratifiering och matchning Introduktion Fördelar med stratifiering: Inga parametriska antaganden. Tydligt. Nackdel: Många strata och/eller flera kovariater leder till dimensionalitetsproblem Fördel med matchning: Inga parametriska antaganden. Intuitivt. Tydliggör att kausal inferens är ett missing data problem! Imputation. Nackdel med matchning: Flera kovariater leder till dimensionalitetsproblem. Biased skattningar om fler än 1 kovariat pga inexakta matcher. Lägre styrka.
Regressionsanalys Introduktion Fördel med regressionsanalys: Löser dimensionalitetsproblemet. Bäst styrka om rätt modell. Nackdel: Parametriskt. Linjär regression är känslig för misspecificerad modell, ska till exempel en kvadratisk term inkluderas? Är konstant behandlingseffekt rimligt? Mixar design (behandlingstilldelning) och utfall, ej transparent. Behandlingstilldelning får inte vara deterministiskt, dvs Overlap : 0 < P(W = 1 X ) < 1 måste vara uppfyllt. Linjär regression tar inte hänsyn till detta utan extrapolerar utan problem.
P