Introduktion till kausala effekter

Relevanta dokument
Skattning av kausala effekter vid effektmodifiering genom matchning på funktioner av prognostic scores

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Att utvärdera offentlig politik med registerdata

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Metoder för att mäta effekter av arbetsmarknadspolitiska program WORKING PAPER 2012:2

Kausalitet Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i:

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

SKATTNING AV KAUSALA EFFEKTER MED MATCHAT FALL-KONTROLLDATA

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk

F11. Kvantitativa prognostekniker

Studietyper, inferens och konfidensintervall

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Kovariattransformationers inverkan på matchningsestimatorn vid skattning av kausala effekter

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 12: Linjär regression

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Att välja statistisk metod

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Matematisk statistik för B, K, N, BME och Kemister

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

F23 forts Logistisk regression + Envägs-ANOVA

F13 Regression och problemlösning

Introduktion till statistik för statsvetare

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Enkel och multipel linjär regression

Höftledsdysplasi hos dansk-svensk gårdshund

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Repetitionsföreläsning

Matematisk statistik för B, K, N, BME och Kemister

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Vad beror skillnaden på? Systematiska och slumpmässiga fel

MSG830 Statistisk analys och experimentplanering

Hur skriver man statistikavsnittet i en ansökan?

Hur hanterar man avvikande patienter? Estimander och analysmetoder i kliniska prövningar

Föreläsning 13: Multipel Regression

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Studiedesign: Observationsstudier

Parade och oparade test

oberoende av varandra så observationerna är

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

STATISTISK ANALYS AV KOMPLEXA DATA

Repetitionsföreläsning

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Grundläggande matematisk statistik

Tentamen Tillämpad statistik A5 (15hp)

Frågor som påverkar utvärderingens design

Finansiell statistik. Multipel regression. 4 maj 2011

7.5 Experiment with a single factor having more than two levels

Interferens i kända och okända nätverk

Hur man tolkar statistiska resultat

Matematisk statistik, Föreläsning 5

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Regressions- och Tidsserieanalys - F8

Tentamen Metod C vid Uppsala universitet, , kl

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Urvalsmetoder: Stratifierat urval (kap 9.5)

MSG830 Statistisk analys och experimentplanering

Introduktion Kritiskt förhållningssätt Olika typer av undersökningar

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning G60 Statistiska metoder

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

import totalt, mkr index 85,23 100,00 107,36 103,76

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Vilket av följande alternativ är INTE ett sätt att kontrollera för möjliga ovidkommande gruppsskillnader i mellanpersonsdesign?

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

3 Maximum Likelihoodestimering

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Utvärdering av samordningsförbundens verksamhet

LMA201/LMA521: Faktorförsök

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Diskussionsproblem för Statistik för ingenjörer

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Multipel Regressionsmodellen

Hypotestestning och repetition

8 Inferens om väntevärdet (och variansen) av en fördelning

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Transkript:

Introduktion till kausala effekter Ronnie Pingel Institutionen f or folkh also- och v ardvetenskap och Statistiska institutionen 2016-09-03

Utgångspunkten Introduktion Vanligt mål i empirisk forskning skatta kausala effekter Effekten av en binär behandling, W, på ett utfall, Y Tilldelning av behandling är inte randomiserad, självselektion till behandlingsgrupp W = 1 och kontrollgrupp W = 0 Forskaren har tillgång till alla kovariater, X, som är korrelerade med W och Y, så kallade äkta confounders kausala effekter kan skattas trots ej randomiserad tilldelning av behandling

Regressionanalys Introduktion Utan att formalisera vad som är kausalt har ni kanske någon gång ställt upp följande modell för en behandling och ett utfall, justerat för kovariaterna X 1 och X 2, skattat modellen med linjär regression, och resonerat i termer av effekten av W på Y : Y = α + τw + β 1 X 1 + β 2 X 2 + ε

Kausala effekter - Neyman-Rubin Framework Introduktion

Kausala effekter - Neyman-Rubin Framework Introduktion Vi observerar N individer från en större population. Varje individ har två potentiella utfall: 1. Om behandling. 0. Om kontroll En individuell kausal effekt är definierad som skillnaden mellan potentiella utfall, Y 1 Y 0 Vi kan aldrig observera bägge potentiella utfall, utan vi observerar Y = WY 1 + (1 W )Y 0

Fundamental Problem Introduktion Vi kan skatta genomsnittliga kausala effekter: t ex average treatment effect (ATE) τ = E(Y 1 Y 0 ) = E(Y 1 ) E(Y 0 )

Fundamental Problem Introduktion Vi kan skatta genomsnittliga kausala effekter: t ex average treatment effect (ATE) τ = E(Y 1 Y 0 ) = E(Y 1 ) E(Y 0 )

Varför potentiella utfall? Introduktion Tydlig förståelse för estimander Estimander kan generaliseras till annat än genomsnitt Tydligt skilt från en parameter i en modell Kan definiera estimander för ändliga populationer Kan undersöka icke-konstant behandlingseffekt Kräver tanke om treatment assignment

I ett randomiserat försök gäller att E(Y 1 ) = E(Y W = 1), E(Y 0 ) = E(Y W = 0) ATE kan då skattas med skillnaden i medelvärden Introduktion ˆτ = ȲW =1 ȲW =0 eller med samma resultat med en regression Ê(Y ) = ˆα + ˆτW Formellt: pga att randomisering ger Unconfoundedness : (Y 1, Y 0 ) W Overlap : 0 < P(W = 1) < 1 där betecknar oberoende I exemplet är skillnaden av medelvärden i respektive behandlingsgrupp 0, 25. Skillnaden av medelvärden för de potentiella utfallen är 0, 125

I observationsstudier gäller generellt inte unconfoundedness pga av confounders X. Men man kan tänka sig att för varje värde på X så gäller uncofoundedness, det vill säga Unconfoundedness : (Y 1, Y 0 ) W X Overlap : 0 < P(W = 1 X ) < 1 Några lösningar är alltså: a) stratifiering, b) matchning, c) parametriska metoder (regressionsanalys) ATE kan då identifieras med τ = E(Y 1 Y 0 ) = E [E(Y p(x ), W = 1) E(Y p(x ), W = 0)]

Stratifiering och matchning Introduktion Fördelar med stratifiering: Inga parametriska antaganden. Tydligt. Nackdel: Många strata och/eller flera kovariater leder till dimensionalitetsproblem Fördel med matchning: Inga parametriska antaganden. Intuitivt. Tydliggör att kausal inferens är ett missing data problem! Imputation. Nackdel med matchning: Flera kovariater leder till dimensionalitetsproblem. Biased skattningar om fler än 1 kovariat pga inexakta matcher. Lägre styrka.

Regressionsanalys Introduktion Fördel med regressionsanalys: Löser dimensionalitetsproblemet. Bäst styrka om rätt modell. Nackdel: Parametriskt. Linjär regression är känslig för misspecificerad modell, ska till exempel en kvadratisk term inkluderas? Är konstant behandlingseffekt rimligt? Mixar design (behandlingstilldelning) och utfall, ej transparent. Behandlingstilldelning får inte vara deterministiskt, dvs Overlap : 0 < P(W = 1 X ) < 1 måste vara uppfyllt. Linjär regression tar inte hänsyn till detta utan extrapolerar utan problem.

P