Skattning av kausala effekter vid effektmodifiering genom matchning på funktioner av prognostic scores

Storlek: px
Starta visningen från sidan:

Download "Skattning av kausala effekter vid effektmodifiering genom matchning på funktioner av prognostic scores"

Transkript

1 Skattning av kausala effekter vid effektmodifiering genom matchning på funktioner av prognostic scores Elin Moritz Student VT 2011 Examensarbete, 15 hp Statistik C, 30 hp Handledare: Ingeborg Waernbaum

2

3 Sammanfattning För att kunna skatta kausala effekter av en ickerandomiserad behandling görs justeringar för skillnader i bakgrundsvariabler mellan behandlade och kontroller, till exempel genom matchning. Rosenbaum och Rubin (1983) har visat att det är tillräckligt att justera för propensity scores, som är den betingade sannolikheten att bli behandlad givet bakgrundsvariablerna. Hansen (2008) föreslår att prognostic scores, som modellerar den betingade fördelningen av utfallet under ickebehandling givet bakgrundsvariablerna, kan användas som ett alternativ till propensity scores. I sin ursprungliga form möjliggör dock inte prognostic scores skattning av den genomsnittliga kausala effekten i populationen då det finns bakgrundsvariabler som påverkar effekten av behandlingen, så kallad effektmodifiering. I denna uppsats undersöks därför om matchning på två varianter av prognostic scores, som även modellerar utfallet under behandlingsbetingelsen, kan användas för att skatta kausala effekter vid effektmodifiering. Dessutom görs jämförelser mellan prognostic scores och propensity scores, både vid förekomst av och avsaknad av effektmodifiering. Matchningsestimatorns egenskaper undersöks genom simulering. Resultaten visar att matchning på prognostic scores i olika former ofta ger estimatorn lägre mean square error (MSE) än matchning på propensity scores.

4 Abstract Title: Estimation of causal effects by matching on functions of prognostic scores in the presence of effect modification. To estimate causal effects of non-randomized treatments, adjustments are made for differences in background variables between treated and control subjects. One way to accomplish this is by matching. Rosenbaum and Rubin (1983) have shown that it is sufficient to adjust for propensity scores, the conditional probability of being treated given the background variables. Hansen (2008) suggests that prognostic scores, which model the conditional distribution of the outcome under the nontreatment condition given the background variables, may be used as an alternative to propensity scores. However, in their original form, prognostic scores cannot be used for estimating the average causal effect in the population when there are background variables that affect the effect of the treatment, i.e. effect modification. In this paper, we investigate whether matching on two versions of prognostic scores, which also model the outcome under the treatment condition, can be used to estimate causal effects when effect modification is present. In addition, comparisons are made between prognostic scores and propensity scores, both in the presence of and in the absence of effect modification. The properties of the matching estimator are examined through simulations. The results show that matching on the different versions of prognostic scores often gives the estimator lower mean square error (MSE) than matching on propensity scores. 3

5 Innehåll 1 Inledning Syfte och frågeställningar Teori och modell Kausala effekter definierade genom potentiella utfall Parametrar Observationsstudier i jämförelse med experiment Antaganden Dimensionsreducering Propensity scores Prognostic scores Estimation Matchningsestimatorer Matchningskriterier Simulering Simuleringens design vid avsaknad av effektmodifiering Simuleringens design vid effektmodifiering Estimation och inferens Resultat Skattning av ATE vid avsaknad av effektmodifiering Skattning av ATE vid effektmodifiering Skattning av ATT vid avsaknad av effektmodifiering Skattning av ATT vid effektmodifiering Diskussion 36 7 Tillkännagivanden 37 Referenser 38 A Appendix 40 A.1 Härledning av betingade väntevärden A.2 R-kod

6 1 Inledning Inom många forskningsområden är det av intresse att kunna dra slutsatser om effekter av behandlingar och interventioner. Det kan till exempel röra sig om effekten av en medicinsk behandling, en utbildning eller en samhällspolicy. Behandling är alltså i detta sammanhang ett mycket omfattande begrepp. Metoder för att kunna hantera denna typ av frågeställningar utvecklas inom det statistiska teoriområdet kausal inferens. Den dominerande modellen inom den kausala inferensteorin är den som utvecklats av Rubin (1974, 1977, 1978, 1980), och som av Holland (1986) benämns Rubins modell for kausal inferens. Inom denna modell definieras den kausala effekten för en individ som skillnaden mellan utfallet vid behandling och utfallet vid ickebehandling (kontroll). Dessa två utfall kallas inom modellen för potentiella utfall. Problemet är att bara ett av de två potentiella utfallen kan observeras för varje individ, eftersom individen inte samtidigt kan utsättas för båda betingelserna. Därför kan den kausala effekten på individnivå inte skattas. Detta kallas av Holland (1986) det fundamentala problemet vid kausal inferens. För att kunna skatta kausala effekter får istället jämförelser göras på gruppnivå. Om individer randomiserats till behandling och kontroll medför slumpen att det inte finns några systematiska skillnader mellan behandlings- och kontrollgrupperna i fråga om bakgrundsvariabler. Det enda som skiljer grupperna åt är att den ena gruppen mottagit behandling och den andra inte. Detta medför att den kausala effekten kan skattas genom direkt jämförelse av de två grupperna, till exempel genom skillnaden i medelvärde för de två grupperna. Vid en ickerandomiserad behandling, en observationsstudie, är det däremot inte slumpen som styrt vem som får behandling eller inte. Det är därför troligt att de individer som fått behandling systematiskt skiljer sig från kontrollerna. Det kan inte uteslutas att det finns bakgrundsvariabler som påverkar både benägenheten att bli behandlad och responsvariabeln. I detta fall kan inte medelvärdet för behandlings- och kontrollgrupperna jämföras direkt för att skatta effekten av behandlingen. För att möjliggöra estimation av kausala effekter vid ickerandomiserade studier görs justeringar för skillnader i bakgrundsvariabler mellan behandlade och kontroller, till exempel genom matchning, där individer med liknande värden på bakgrundsvariablerna jämförs mot varandra. Det kan dock vara problematiskt att justera för många bakgrundsvariabler samtidigt, eftersom 1

7 det kan vara svårt att hitta individer i behandlings- och kontrollgrupp som har samma värden på alla bakgrundsvariabler. Rosenbaum och Rubin (1983, 1984) har dock visat att det är tillräckligt att justera för en funktion av bakgrundsvariablerna, som kallas propensity score. En propensity score är den betingade sannolikheten att bli behandlad givet bakgrundsvariablerna, och summerar alltså sambandet mellan bakgrundsvariablerna och behandlingsvariabeln. Propensity scores har fått stort genomslag och används vid analys av kausala effekter inom många olika forskningsområden (Stürmer et al. 2006, Imbens & Wooldridge 2009). Nyligen har en annan funktion av bakgrundsvariablerna, prognostic scores, föreslagits som lämplig att använda vid justering (Hansen 2008). Prognostic scores summerar sambandet mellan bakgrundsvariabler och potentiella utfall. Närmare bestämt modelleras det potentiella utfallet vid ickebehandling. Hansen menar att prognostic scores kan vara ett värdefullt alternativ eller komplement till propensity scores vid analys av kausala effekter. I empiriska studier förekommer ofta så kallad effektmodifiering, vilket innebär att bakgrundsvariablerna eller en funktion av bakgrundsvariablerna påverkar effekten av behandlingen (Hansen 2008). Ett exempel på detta skulle kunna vara om det finns en effekt av utbildning på lön, men att effekten är olika för män och kvinnor. Det är också tänkbart att effekten av en viss medicin beror på patientens ålder. Effektmodifiering kan alltså ses som en sorts interaktionseffekt. Hansen (2008) diskuterar dock inte om eller hur den genomsnittliga kausala effekten i populationen kan skattas då effektmodifiering förekommer. 1.1 Syfte och frågeställningar Syftet med denna uppsats är att beskriva hur matchning på prognostic scores kan användas för att skatta kausala effekter. Prognostic scores är ett nytt och till stora delar outforskat område, då inget finns publicerat i ämnet sedan Hansen (2008). Det är därför av intresse att undersöka prognostic scores vidare. I Hansen (2008) används enbart utfallet under ickebehandling för att modellera prognostic scores. Detta medför vissa begränsningar, då prognostic scores av denna typ inte kan användas för att skatta den genomsnittliga kausala effekten i populationen vid effektmodifiering. Det skulle alltså inte vara möjligt att skatta effekten av utbildning på lön (enligt exemplet ovan) genom att enbart modellera utfallet för dem som inte genomfört utbildning. 2

8 Ett alternativ skulle kunna vara att även modellera det potentiella utfallet under behandling, det vill säga utfallet för dem som genomgått utbildning enligt exemplet, genom prognostic scores för behandlade. I uppsatsen undersöks hur prognostic scores (för kontroller) i kombination med prognostic scores för behandlade kan användas för att skatta kausala effekter. Syftet är att beskriva och jämföra matchningsestimatorernas egenskaper under olika betingelser, och att även göra jämförelser mellan prognostic scores och propensity scores. De egenskaper som undersöks är bias, varians och mean square error (MSE). Uppsatsens huvudsakliga frågeställningar är: Kan prognostic scores för behandlade i kombination med prognostic scores för kontroller användas för att skatta kausala effekter vid effektmodifiering? Hur ska de två typerna av prognostic scores kombineras för att få de bästa skattningarna, det vill säga de estimatorer som har lägst bias, varians och MSE? Hur skiljer sig estimatorernas egenskaper åt då matchning sker på prognostic scores i jämförelse med propensity scores? För att kunna besvara frågeställningarna genomförs simuleringar i statistikprogrammet R. Uppsatsen inleds med en genomgång av relevant teori i avsnitt 2, däribland mer detaljerade beskrivningar av Rubins modell, propensity scores och prognostic scores. Därefter följer i avsnitt 3 en beskrivning av hur kausala effekter kan skattas med hjälp av matchningsestimatorer. I avsnitt 4 respektive 5 beskrivs simuleringen och de efterföljande resultaten. Uppsatsen avslutas med en sammanfattande diskussion i avsnitt 6. 2 Teori och modell 2.1 Kausala effekter definierade genom potentiella utfall I Rubins modell för kausal inferens definieras effekten av en behandling alltid relativt en annan behandling. Termerna behandling och orsak ses här som likvärdiga. I denna uppsats berörs enbart fallet med en binär behandling, Z, där Z = 1 innebär att en enhet, till exempel en individ, tilldelats behandling 3

9 medan Z = 0 innebär att enheten tillhör kontrollgruppen. Vanligtvis definieras den kausala effekten som skillnaden mellan två potentiella utfall. För att det ska vara möjligt att definiera kausala effekter på detta sätt krävs att enheterna potentiellt kan tilldelas endera av de två behandlingarna, det vill säga att värdet på Z kunde ha varit annorlunda. Detta innebär till exempel att det är relevant att tala om den kausala effekten av en viss utbildning på en individs lön, men inte den kausala effekten av kön. Ytterligare ett krav är att behandlingen föregår utfallet i tiden (Holland 1986). Låt det potentiella utfallet under behandling betecknas Y (1) och det potentiella utfallet under kontroll betecknas Y (0). Y (1) och Y (0) är två stokastiska variabler som är definierade över alla enheter i den population som är av intresse (Morgan & Winship 2007, s ). Då definieras den kausala effekten av Z på den slumpmässigt valda enheten i som Y i (1) Y i (0). (1) För varje enhet kommer dock bara ett av de potentiella utfallen att kunna observeras. För enheter med Z = 1 kan endast värdet på Y (1) observeras, medan enbart värdet på Y (0) kan observeras för enheter med Z = 0. Y, det observerbara utfallet, definieras alltså som Y = Z Y (1) + (1 Z) Y (0). (2) Att varje individ bara har ett observerbart utfall medför, som nämnts i inledningen, att den kausala effekten på individnivå aldrig kan observeras (Holland 1986). Ett sätt att lösa detta problem är att göra antagandena att värdet på Y i (0) inte beror på när i tiden enheten utsätts för kontrollbetingelsen, samt att värdet på Y i (1) inte förändras av att enheten tidigare utsatts för kontrollbetingelsen. Detta möjliggör att enheten kan exponeras för Z = 0 och Z = 1 i sekvens, så att värdena på både Y i (0) och Y i (1) kan observeras. Ett annat sätt är att göra antagandet att två enheter är helt homogena. Den ena enheten kan då tilldelas behandling och den andra kontroll, och utifrån detta dras slutsatser om den kausala effekten på enhetsnivå. Det är dock inte möjligt att bevisa att de nämnda antagandena är sanna, men de kan vara rimliga vid till exempel fysikaliska experiment. Dessa tillvägagångssätt kallas av Holland (1986) för den vetenskapliga lösningen. Den statistiska lösningen till det fundamentala problemet vid kausal inferens är istället att undersöka den genomsnittliga kausala effekten av Z i 4

10 populationen. För att kunna skatta denna effekt krävs dock att en annan uppsättning antaganden är uppfyllda (Holland 1986). Det är den statistiska lösningen som beskrivs vidare i följande avsnitt. 2.2 Parametrar Den parameter som ofta är av intresse vid kausal inferens är väntevärdet av den kausala effekten av Z (definierad i ekvation (1)) i populationen, τ ATE = E[Y (1) Y (0)] = E[Y (1)] E[Y (0)]. (3) Denna parameter benämns ofta Average Treatment Effect (ATE). Vid jämförelse av ekvation (1) och (3) ses att index i har utelämnats i den sistnämnda ekvationen. Detta kan göras eftersom väntevärdet för en slumpmässigt vald individ ur populationen är samma som ATE. Skattningen av ATE är således också en skattning av den kausala effekten på individnivå (Morgan & Winship 2007, s ). I många observationsstudier kan det vara av större relevans att skatta den kausala effekten för dem som typiskt sett blir behandlade, τ ATT = E[Y (1) Y (0) Z = 1] = E[Y (1) Z = 1] E[Y (0) Z = 1]. (4) Denna parameter kallas ofta Average Treatment Effect for the Treated (ATT) (Morgan & Winship 2007, s. 42). Om målet för en studie till exempel är att skatta effekten av rökning på lungcancerincidens är det av intresse att undersöka effekten av rökning för dem som faktiskt röker (ATT), då det kan motivera en intervention som får människor att sluta röka. Eftersom den omvända interventionen, att få människor att börja röka, knappast är aktuell, är effekten av rökning för dem som inte röker inte relevant och därmed inte ATE. I andra sammanhang kan det istället vara mer relevant att skatta den kausala effekten för dem som typiskt sett inte blir behandlade, som på motsvarande sätt definieras som τ ATC = E[Y (1) Y (0) Z = 0] = E[Y (1) Z = 0] E[Y (0) Z = 0]. (5) 5

11 Denna parameter brukar benämnas Average Treatment Effect for the Controls (ATC) (Morgan & Winship 2007, s. 42). ATC kan vara av intresse exempelvis inom medicinsk forskning, då syftet är att undersöka huruvida de som inte får en viss behandling skulle kunna dra nytta av den. Med andra ord undersöks om behandlingen ges till rätt personer. 2.3 Observationsstudier i jämförelse med experiment Ekvation (3), (4) och (5) implicerar att information från olika enheter kan utnyttjas för att skatta genomsnittliga kausala effekter. I de observerade data finns dock bara information om E[Y (1) Z = 1] och E[Y (0) Z = 0] (Holland 1986). På vilket sätt denna information används för att skatta behandlingseffekter beror på vilket sätt enheterna tilldelats behandling. Här är det viktigt att skilja mellan randomiserade studier (experiment) och ickerandomiserade studier (observationsstudier). Vid en randomiserad studie råder oberoende mellan behandlingstilldelning och alla andra variabler, däribland de potentiella utfallen Y (1) och Y (0), vilket kan skrivas (Y (1), Y (0)) Z, (6) där symbolen betecknar oberoende. Detta innebär att vetskap om vilken behandling en enhet har fått inte ger någon information om behandlingseffekten (Morgan & Winship 2007, s ). Ekvation (6) implicerar att och att E[Y (1)] = E[Y (1) Z = 1] = E[Y (1) Z = 0] (7) E[Y (0)] = E[Y (0) Z = 0] = E[Y (0) Z = 1]. (8) Detta medför i sin tur att ekvation (3) kan skrivas τ ATE = E[Y (1)] E[Y (0)] = E[Y (1) Z = 1] E[Y (0) Z = 0], vilket ger att ATE enkelt kan skattas genom skillnaden i medelvärde för behandlings- och kontrollgrupp (Holland 1986). Randomiseringen medför 6

12 också att det inte finns någon grupp som typiskt sett blir behandlad eller kontroll. En jämförelse av ekvation (7) och (8) med (3), (4) och (5) visar att ATE, ATT och ATC blir samma parameter. Vid ickerandomiserade studier råder generellt inte oberoendet i ekvation (6). Andra faktorer än slumpen styr behandlingstilldelningen, vilket medför att det kan föreligga andra skillnader mellan behandlade och kontroller än just vilken behandlingsgrupp de tillhör. Det är mycket möjligt att det finns bakgrundsvariabler som både påverkar benägenheten att bli behandlad och responsvariabeln, så kallade störande variabler (confounders). Exempelvis kan det vara så att de individer som väljer behandling generellt är sådana som drar nytta av behandlingen. Således innehåller värdet på behandlingsvariabeln Z viss information om behandlingseffekten. Detta medför att den kausala effekten inte kan skattas väntevärdesriktigt och konsistent genom skillnaden i medelvärde mellan experiment- och kontrollgrupp (Morgan & Winship 2007, s ). För att kunna skatta kausala effekter i ickerandomiserade studier, och särskilja effekten av behandling från effekten av störande variabler, måste vissa antaganden göras. 2.4 Antaganden Låt X beteckna en vektor av observerbara bakgrundsvariabler (kovariat), mätta före behandlingen. För att kunna skatta den genomsnittliga kausala effekten, ATE, krävs att följande två antaganden är uppfyllda: A1: (Y (1), Y (0)) Z X A2: 0 < P r(z = 1 X) < 1. A1 brukar kallas unconfoundedness, och innebär att givet X, är de potentiella utfallen oberoende av behandlingstilldelningen. Detta innebär att X måste innehålla alla bakgrundsvariabler som påverkar både behandlingstilldelning, Z, och utfall, (Y (1), Y (0)). A2 brukar kallas overlap och innebär att oavsett värdena på X, kan varje individ tilldelas endera behandlingen. För att se hur dessa antaganden möjliggör skattningen av ATE, notera att A1 medför att 7

13 E[Y (1) X] = E[Y (1) X, Z = 1] och att E[Y (0) X] = E[Y (0) X, Z = 0]. Detta medför i sin tur att den genomsnittliga kausala effekten för en subpopulation med X = x är τ ATE,X = E[Y (1) Y (0) X] = E[Y (1) X] E[Y (0) X] (9) = E[Y (1) X, Z = 1] E[Y (0) X, Z = 0], där det sista steget håller under A1. ATE för populationen är därmed väntevärdet över fördelningen för X. Detta kan också formuleras så att τ ATE = E[Y (1) Y (0)] = E X [E[Y (1) X, Z = 1] E[Y (0) X, Z = 0]]. (10) För att ekvation (10) ska hålla, så att det är genomförbart att estimera den genomsnittliga kausala effekten, måste det vara möjligt att skatta både E[Y (1) X, Z = 1] och E[Y (0) X, Z = 0] för alla X = x. Detta är endast möjligt om A2 håller, då det annars finns värden X = x då det antingen bara finns behandlade eller kontroller (Imbens 2004). I en randomiserad studie är A1 och A2 automatiskt uppfyllda. Ekvation (6) medför att A1 håller och varje enhet i populationen har en möjlighet att tilldelas endera behandlingen, vilket innebär att även A2 håller (Rosenbaum & Rubin 1983). Om målet istället är att skatta ATT måste följande antaganden hålla: B1: B2: Y (0) Z X P r(z = 1 X) < 1. 8

14 B1 benämns unconfoundedness for controls och B2 weak overlap. Under B1 gäller att den genomsnittliga kausala effekten för en subpopulation behandlade med X = x är τ ATT,X = E[Y (1) Y (0) X, Z = 1] = E[Y (1) X, Z = 1] E[Y (0) X, Z = 1] (11) = E[Y (1) X, Z = 1] E[Y (0) X, Z = 0]. ATT för populationen är, under B2, väntevärdet över fördelningen för X för de behandlade, τ ATT = E[Y (1) Y (0) Z = 1] = E X Z=1 [E[Y (1) X, Z = 1] E[Y (0) X, Z = 0]]. (12) B1 och B2 är svagare än de antaganden som krävs för att skatta ATE, vilket beror på att momenten i fördelningen för Y (1) direkt kan skattas utifrån observerade data (Imbens 2004). Antagandena försvagas på omvänt sätt om istället ATC ska skattas. Ytterligare ett antagande som måste göras för att kunna skatta genomsnittliga kausala effekter, både vid randomiserade och ickerandomiserade studier, är det som brukar kallas Stable Unit Treatment Value Assumption (SUT- VA). Detta antagande innebär att utfallet för en viss enhet efter en viss behandling inte påverkas av vilken behandling andra enheter tilldelas, samt att det inte existerar olika versioner av behandlingen (Rubin 1980). 2.5 Dimensionsreducering Under de antaganden som tagits upp i föregående avsnitt är det möjligt att skatta genomsnittliga kausala effekter även vid ickerandomiserade studier genom att justera för skillnader i X mellan behandlade och kontroller. Att exempelvis matcha eller subklassificera på X kan dock vara problematiskt. Om X har hög dimension, och/eller innehåller kontinuerliga variabler, uppstår ett stort antal möjliga kombinationer av kovariat. Redan om X exempelvis består av fem diskreta variabler med tre nivåer vardera, uppstår 3 5 = 243 möjliga kombinationer. Detta visar på att det kan vara mycket svårt att hitta enheter bland behandlade och kontroller som har samma värden på X. Det är därför ofta önskvärt att reducera dimensionen av X. Två metoder för att göra detta är propensity scores, utvecklade av Rosenbaum och Rubin (1983), och prognostic scores, utvecklade av Hansen (2008). 9

15 2.5.1 Propensity scores En propensity score är en skalär funktion av X och definieras som e(x) = P r(z = 1 X) = E(Z X), det vill säga den betingade sannolikheten att bli behandlad givet X. Rosenbaum och Rubin (1983) visar att X Z e(x), det vill säga att den betingade fördelningen av X givet e(x) är lika för behandlade och kontroller. Oberoendet mellan X och Z kallas av Hansen (2008) propensity balance, då kovariaten är balanserade mellan behandlade och kontroller givet en viss propensity score. Rosenbaum och Rubin visar även att, under A1 och A2, är de potentiella utfallen oberoende av behandlingstilldelningen givet e(x), (Y (1), Y (0)) Z e(x), och att oavsett värdet på e(x), kan varje individ tilldelas endera behandlingen, 0 < P r(z = 1 e(x)) < 1. Detta medför in sin tur att, under A1, är E[Y (1) e(x)] = E[Y (1) e(x), Z = 1] och E[Y (0) e(x)] = E[Y (0) e(x), Z = 0]. Detta innebär att den genomsnittliga kausala effekten för ett specifikt värde på e(x) är τ ATE,e(X) = E[Y (1) Y (0) e(x)] = E[Y (1) e(x)] E[Y (0) e(x)] = E[Y (1) e(x), Z = 1] E[Y (0) e(x), Z = 0]. 10

16 ATE i populationen är, under A2, väntevärdet över fördelningen för e(x), τ ATE = E[Y (1) Y (0)] = E e(x) [E[Y (1) e(x), Z = 1] E[Y (0) e(x), Z = 0]]. Enheter med samma propensity score men olika behandling kan alltså fungera som kontroller för varandra, då väntevärdet av skillnaden i deras responser är lika med ATE. Genom att justera för skillnader i propensity scores kan ATE skattas väntevärdesriktigt, då denna justering medför att fördelningen för X blir lika för behandlade och kontroller. Justeringen kan till exempel göras genom matchning, subklassificering eller regression (Rosenbaum & Rubin 1983). Vid en ickerandomiserad studie är de sanna propensity scores i regel okända och måste skattas från data. Generellt fungerar det väldigt bra att använda skattade propensity scores istället för sanna (Rubin 1997). Ofta ger till och med skattade propensity scores bättre balans i de observerade kovariaten mellan behandlade och kontroller än sanna scores. Detta kan förklaras av att skattade propensity scores också justerar för de slumpmässiga obalanser som finns mellan behandlade och kontroller då enbart ett stickprov från populationen undersöks (Rosenbaum 1987, Morgan & Harding 2006). Vid skattning av propensity scores används vanligtvis logistisk regression med Z som responsvariabel och kovariaten som förklaringsvariabler, ett annat alternativ är diskriminantanalys (Rubin 1997). I idealfallet har forskaren detaljerad kunskap om vilka variabler som påverkar behandlingstilldelning och utfall, så att valet av vilka kovariat (inklusive funktioner av dessa såsom interaktioner) som ska inkluderas som förklaringsvariabler kan styras av ämneskunskap. Ofta är dock detta inte fallet, utan olika datadrivna metoder såsom stepwise -metoder används frekvent för att välja variabler (Brookhart et al. 2006). Rubin och Thomas (1996) menar att ett kovariat bör inkluderas i modellen om det är relaterat till utfallen, även om det inte är statistiskt signifikant, eftersom detta ger estimatorer med lägre varians. Andra forskare förespråkar dock enklare modeller, vilket diskuteras i exempelvis Caliendo och Kopeinig (2008). Det är viktigt att notera att för att justering för propensity scores verkligen ska göra behandlade och kontroller jämförbara så måste A1 vara uppfyllt, det vill säga att alla störande variabler måste ha observerats. Detta är dock alltid en begränsning hos ickerandomiserade studier. Randomisering medför däremot att fördelningarna för både observerade och ickeobserverade kovariat är lika för behandlade och kontroller (Rubin 1997). 11

17 2.5.2 Prognostic scores Prognostic scores reducerar dimensionen av X genom att modellera p(y (0) X), det vill säga den betingade fördelningen av Y (0) givet bakgrundsvariablerna. En prognostic score, Ψ C (X), definieras Y (0) X Ψ C (X), (13) det vill säga att Y (0) och X är oberoende givet Ψ C (X). Ett ekvivalent sätt att skriva ekvation (13) är p(y (0) X) = p(y (0) Ψ C (X)), det vill säga att Ψ C (X) ger samma information som X om fördelningen för Y (0). Oberoendet mellan Y (0) och X kallas av Hansen (2008) för prognostic balance, då fördelningen för X är lika för enheter med olika värden på Y (0) givet Ψ C (X). Om Y (0) följer en generaliserad linjär modell (GLM) så är den linjära prediktorn av Y (0) givet X en prognostic score, liksom skalären E[Y (0) X] (Hansen 2008). Om länkfunktionen i en GLM betecknas g och den linjära prediktorn η, samt µ 0 = E[Y (0)], kan modellen skrivas g(µ 0 ) = η = Xβ (Olsson 2002, s. 36). Med dessa beteckningar är alltså både η = Xβ och E[Y (0)] = g 1 (Xβ) prognostic scores. Om inte Y (0) är binär behöver dock inte en prognostic score vara en skalär. Om Y (0) till exempel följer en linjär regression av X, men med ickekonstant varians som beror av X, så utgör regressionen och variansfunktionen tillsammans en prognostic score. För att skatta ATT genom att justera för prognostic scores krävs att alla störande variabler som både påverkar behandlingstilldelning och det potentiella utfallet under kontroll har observerats, så att antagande B1 gäller, det vill säga Hansen visar att detta medför att Y (0) Z X. Y (0) Z Ψ C (X), (14) 12

18 det vill säga att givet en prognostic score är Y (0) och behandlingstilldelningen oberoende. Förutom B1 krävs att det inte finns något värde på Ψ C (X) för vilket enheterna med säkerhet tilldelas behandling, Ekvation (14) medför att P r(z = 1 Ψ C (X)) < 1. (15) E[Y (0) Ψ C (X), Z = 1] = E[Y (0) Ψ C (X), Z = 0], vilket ger att den genomsnittliga ATT för ett specifikt värde på Ψ C (X) är τ ATT,ΨC (X) = E[Y (1) Y (0) Ψ C (X), Z = 1] = E[Y (1) Ψ C (X), Z = 1] E[Y (0) Ψ C (X), Z = 1] = E[Y (1) Ψ C (X), Z = 1] E[Y (0) Ψ C (X), Z = 0]. ATT i populationen är, under (15), väntevärdet över fördelningen av Ψ C (X) för de behandlade, det vill säga τ ATT = E[Y (1) Y (0) Z = 1] = E ΨC (X) Z=1[E[Y (1) Ψ C (X), Z = 1] E[Y (0) Ψ C (X), Z = 0]]. Vid skattning av ATE måste antagandena utökas. Alla störande variabler som både påverkar behandlingstilldelning och de potentiella utfallen under behandling och kontroll måste ha observerats, så att antagande B1 samt Y (1) Z X (16) håller. Dessutom får det inte finnas något värde på Ψ C (X) för vilket enheter bara kan tilldelas antingen behandling eller kontroll, 0 < P r(z = 1 Ψ C (X)) < 1. (17) Vid skattning av ATE måste hänsyn även tas till om så kallad effektmodifiering föreligger. Ψ C (X) är sufficient för Y (0) enligt ekvation (13), men inte nödvändigtvis för Y (1). Detta beror på att kovariaten eller en funktion av kovariaten kan modifiera effekten av behandlingen. Hansens definition är sådan att om Ψ C (X) är sufficient för både Y (0) och Y (1), så att förutom ekvation (13) gäller att Y (1) X Ψ C (X), 13

19 förekommer inte effektmodifiering. Om däremot Ψ C (X) inte är sufficient för Y (1), Y (1) X Ψ C (X), där betecknar ickeoberoende, medan (Ψ C (X), m(x)) är sufficient för Y (1) så att Y (1) X Ψ C (X), m(x), så förekommer effektmodifiering och m(x) kallas för en effektmodifierare. Om effektmodifiering inte förekommer gäller att givet en prognostic score är både Y (0) och Y (1) oberoende av Z, Y (0) Z Ψ C (X) och Y (1) Z Ψ C (X). Detta medför i sin tur att E[Y (1) Ψ C (X)] = E[Y (1) Ψ C (X), Z = 1] och att E[Y (0) Ψ C (X)] = E[Y (0) Ψ C (X), Z = 0]. Den genomsnittliga kausala effekten för ett specifikt värde på Ψ C (X) är, under B1 och (16), τ ATE,ΨC (X) = E[Y (1) Y (0) Ψ C (X)] = E[Y (1) Ψ C (X)] E[Y (0) Ψ C (X)] = E[Y (1) Ψ C (X), Z = 1] E[Y (0) Ψ C (X), Z = 0]. ATE i populationen är, under (17), väntevärdet över fördelningen av Ψ C (X), det vill säga τ ATE = E[Y (1) Y (0)] = E ΨC (X)[E[Y (1) Ψ C (X), Z = 1] E[Y (0) Ψ C (X), Z = 0]]. 14

20 Om effektmodifiering förekommer måste betingning även göras på effektmodifieraren m(x) för att ATE ska kunna skattas. Under antagandena B1 och (16) gäller, då effektmodifiering existerar, att samt att E[Y (1) Ψ C (X), m(x)] = E[Y (1) Ψ C (X), m(x), Z = 1] E[Y (0) Ψ C (X), m(x)] = E[Y (0) Ψ C (X), m(x), Z = 0]. Detta innebär att den genomsnittliga kausala effekten för en specifik kombination av värden på Ψ C (X) och m(x) är τ ATE,ΨC (X),m(X) = E[Y (1) Y (0) Ψ C (X), m(x)] = E[Y (1) Ψ C (X), m(x)] E[Y (0) Ψ C (X), m(x)] = E[Y (1) Ψ C (X), m(x), Z = 1] E[Y (0) Ψ C (X), m(x), Z = 0]. ATE för populationen är, under (17), väntevärdet över den simultana fördelningen för Ψ C (X) och m(x), τ ATE = E[Y (1) Y (0)] = E ΨC (X),m(X)[E[Y (1) Ψ C (X), m(x), Z = 1] E[Y (0) Ψ C (X), m(x), Z = 0]]. I likhet med propensity scores är prognostic scores som regel okända och måste skattas från data. För att skatta prognostic scores anpassas en modell av p(y (0) X) till någon uppsättning kontroller. Denna anpassning extrapoleras sedan till de behandlade och kontroller som ska jämföras. Att enbart kontrollerna kan användas till att skatta modellen är en nackdel för prognostic scores i jämförelse med propensity scores. Huruvida prognostic balance har uppnåtts kan enbart undersökas för stickprovets kontroller, medan propensity balance kan undersökas för både behandlade och kontroller i stickprovet. Att enbart kontrollerna bidrar till skattningen medför också potentiellt problem med överanpassning. Om regression används för att skatta prognostic 15

21 scores kommer viss bias att uppstå i skattningarna, så att individer som har låga värden på Y (0) skattas för högt och individer med höga värden skattas för lågt. Dessa två bias tenderar att ta ut varandra, men då behandlings- och kontrollgrupperna skiljer sig mycket åt i X så att jämförelserna koncentreras till antingen höga eller låga värden på Ψ C (X), kommer bias att kvarstå. Hansen visar att det i dessa fall till och med kan vara sämre att justera för prognostic scores än att inte justera alls. Problemen kan dock minskas genom att skatta modellen för prognostic scores på andra kontroller än de som sedan används vid skattningen av kausala effekter. En annan möjlighet är att använda prognostic scores och propensity scores i kombination (Hansen 2008). Eftersom prognostic balance inte kan kontrolleras för behandlingsgruppen, och eftersom effektmodifiering kan förekomma, kräver justering för prognostic scores ofta starkare antaganden än justering för propensity scores. Hansen påpekar dock att antagandet i ekvation (17) kan hålla även om motsvarande antagande (A2) för propensity scores inte håller. 3 Estimation Kausala effekter kan skattas både genom parametriska och ickeparametriska metoder. Under senare tid har särskilt de ickeparametriska metoderna utvecklats (Imbens 2004). Ickeparametriska estimatorer är sådana som inte kräver några antaganden angående variablernas sannolikhetsfördelning eller angående funktionell form, till skillnad från exempelvis linjär regression som förutsätter normalitet och linjäritet. Det finns olika metoder för att ickeparametriskt skatta kausala effekter, till exempel matchning, subklassificering och ickeparametrisk regression. Eftersom matchning är den metod som används vid simuleringen i denna uppsats, beskrivs så kallade matchningsestimatorer i nästa avsnitt. 3.1 Matchningsestimatorer Ekvation (9) och (10) utgör grunden till hur ATE kan skattas med ickeparametriska metoder. Enligt dessa ekvationer kan ATE skrivas τ ATE = E[Y (1) Y (0)] = E X [E[Y (1) Y (0) X]]. Estimationen kräver således skattning av både det inre väntevärdet E[Y (1) Y (0) X] och det yttre väntevärdet över fördelningen för X. Ekvation (9) 16

22 indikerar att individer med samma värden på X men olika värde på Z kan användas för att skatta det inre väntevärdet. En enkel form av matchning åstadkommer detta genom att för varje behandlad hitta en kontroll med liknande värden på X, och för varje kontroll hitta en behandlad med liknande värden på X. Det saknade potentiella utfallet för varje individ skattas därefter som dess matchningspartners värde, och en skattning av Y (1) Y (0) beräknas. Det yttre väntevärdet skattas därefter som medelvärdet av denna skattning över alla individer. ATT kan, enligt ekvation (11) och (12), på motsvarande sätt skrivas τ ATT = E[Y (1) Y (0) Z = 1] = E X Z=1 [E[Y (1) Y (0) X, Z = 1]]. Vid skattning av ATT matchas varje behandlad mot en kontroll med liknande värden på X, men inte tvärtom. Värdet på Y (1) är känt för alla behandlade, medan Y (0) skattas som matchningspartnerns värde. Därmed kan det inre väntevärdet E[Y (1) Y (0) X, Z = 1] skattas. Det yttre väntevärdet över fördelningen för X för de behandlade skattas därefter som medelvärdet för alla behandlade individer. Skattning av ATC, τ ATC = E[Y (1) Y (0) Z = 0] = E X Z=0 [E[Y (1) Y (0) X, Z = 0]], (18) går till på omvänt sätt. I detta fall matchas varje kontroll mot en behandlad, och ATC skattas som medelvärdet av skattningarna på individnivå över alla individer i kontrollgruppen. Det finns olika typer av matchningsestimatorer, som främst skiljer sig åt på ett fåtal punkter. En skillnad är hur många individer som matchas mot den aktuella individen. Det är inte nödvändigt att bara matcha varje behandlad mot en kontroll och vice versa som i exemplen ovan, utan flera kontroller kan matchas mot varje behandlad och tvärtom. Att matcha mot flera individer ger i regel estimatorn lägre varians, men ökad bias, då risken för fler dåliga matchningar ökar. Om flera individer används vid matchningen skiljer sig estimatorerna också åt i fråga om hur de olika matchningarna vägs vid skattningen, till exempel kan den bästa matchningen för en viss individ ges större vikt medan den sämsta ges lägre vikt (Morgan & Harding 2006). Ett annat sätt att minska inflytandet av dåliga matchningar är att använda så kallad caliper matching, då ett maximalt tillåtet avstånd mellan en individ och dess matchningar bestäms. Ytterligare en skillnad mellan olika matchningsestimatorer är huruvida återläggning används eller inte när 17

23 matchningen görs, det vill säga om en individ kan matchas mot en eller flera individer i motsatt grupp (Morgan & Harding 2006). Matchning med återläggning tenderar att minska estimatorns bias, då möjligheten att göra bra matchningar ökar (Abadie & Imbens 2006). I ekvation (9) - (12) samt (18) illustreras parametrarna då betingning sker på X, men som visats i avsnitt och är det tillräckligt att matcha på propensity scores eller prognostic scores. Matchningsestimatorer skiljer sig således också åt genom vilket kriterium som används vid matchningen, vilket beskrivs mer utförligt i avsnitt 3.2. De matchningsestimatorer som används i simuleringarna i kommande avsnitt finns beskrivna i Abadie och Imbens (2006), och återfinns i R-paketet Matching (Sekhon 2011). Låt N vara stickprovsstorleken vid ett slumpmässigt urval ur populationen av intresse, N 0 vara antalet kontroller och N 1 antalet behandlade (så att N = N 0 + N 1 ). Estimatorn för ATE är då ˆτ ATE = 1 N N (Ŷi Ŷi(0)) (1) i=1 (19) där Ŷ i (1) = { Y i (1) om Z i = 1 Ỹ i (1) om Z i = 0 och Ŷ i (0) = {Ỹi (0) om Z i = 1 Y i (0) om Z i = 0. Om enbart en matchning görs för varje individ är Ỹi(1) (om individen är kontroll) respektive Ỹi(0) (om individen är behandlad) utfallet för den individ i motsatt behandlingsgrupp som är den bästa matchningen. Matchningsförfarandet, för matchning på ett enskilt kovariat, illustreras i figur 1. Om istället varje individ matchas mot flera individer i motsatt behandlingsgrupp, säg m stycken, är Ỹi(1) och Ỹi(0) medelvärdet av utfallen för de m individer som ger de bästa matchningarna. 18

24 Z 0 1 Y Y^ i(1) Y^ i(0) X Figur 1: I figuren illustreras matchning på ett enskilt kovariat. En individ i från behandlingsgruppen (Z = 1) matchas mot den individ i kontrollgruppen (Z = 0) som ligger närmast i X-led. Den kausala effekten för individ i skattas som skillnaden i utfall, Y, mellan de två individerna. För att skatta ATE upprepas detta för alla individer i både behandlings- och kontrollgruppen, och medelvärdet över alla individer beräknas. 19

25 För att skatta ATT kan estimatorn i ekvation (19) modifieras till och för ATC blir estimatorn ˆτ ATT = 1 N 1 ( ) Y i (1) N Ỹi(0), (20) 1 i=1 ˆτ ATC = 1 N 0 (Ỹi (1) Y i (0)). N 0 i=1 Då matchning sker med återläggning råder inte oberoende mellan observationerna. Detta gör estimatorernas samplingfördelningar mer komplicerade att härleda teoretiskt. I Abadie och Imbens (2006) undersöks egenskaperna hos estimatorerna i ekvation (19) och (20) för stora stickprov, då matchning sker på enskilda kovariat samt på den euklidiska vektornormen, antalet matchningar per individ är bestämt i förväg och återläggning används. De visar bland annat att matchningsestimatorerna asymptotiskt har viss bias eftersom matchningen inte kan göras exakt. Om matchningen enbart görs på ett kontinuerligt kovariat är dock biasen negligerbar, det vill säga att N(ˆτATE τ ATE ) d N(0, 1) (21) V (ˆτATE ) och att N1 (ˆτ ATT τ ATT ) V (ˆτATT ) d N(0, 1), (22) Estimatorerna är alltså asymptotiskt normalfördelade i detta fall. Abadie och Imbens härleder estimatorer för V (ˆτ ATE ) och V (ˆτ ATT ) som tar hänsyn till beroendet mellan observationerna. Variansen för ˆτ ATE, då matchning sker mot en individ i motsatt grupp, skattas som ˆV AI (ˆτ ATE ) = 1 N + 1 N N ) 2 (Ŷi (1) Ŷi(0) ˆτ ATE i=1 N ( (K(i)) 2 + K(i) ) ˆσ 2 (X i, Z i ), (23) i=1 20

26 där K(i) är antalet gånger individ i har använts för matchning och ˆσ 2 (X i, Z i ) = 1 2 (Y i Y (i) ) 2, där Y (i) är den bästa matchningen till individ i i samma behandlingsgrupp. Variansen för ˆτ ATT skattas som ˆV AI (ˆτ ATT ) = 1 N 1 ) 2 (Y i (1) N Ỹi(0) ˆτ ATT 1 i=1 + 1 N (1 Z i ) ( (K(i)) 2 K(i) ) ˆσ 2 (X i, Z i ). (24) N 1 i=1 3.2 Matchningskriterier Vilken individ som räknas som den bästa matchningen beror på vilket kriterium som används. Vid matchning på ett enskilt kovariat är den bästa matchningen för individ i den individ j i motsatt grupp som minimerar avståndet X i X j. Ofta är det dock inte tillräckligt att matcha enbart på ett kovariat, utan det finns flera störande variabler. Som tidigare nämnts är det ofta svårt att genomföra exakt matchning på flera kovariat, varför dimensionsreducerande metoder används. Låt X i vara en vektor med kovariat för individ i. Vid matchning på propensity scores är den bästa matchningen för individ i den individ j i motsatt grupp som minimerar avståndet e(x i ) e(x j ). Som regel används dock skattade propensity scores vid matchningen, oftast estimerade genom logistisk regression med Z som responsvariabel och kovariaten som förklaringsvariabler, så att den individ som minimerar är den bästa matchningen. ê(x i ) ê(x j ) (25) Vid matchning på skalära prognostic scores är den individ som minimerar Ψ C (X i ) Ψ C (X j ) den bästa matchningen. Även prognostic scores måste i regel skattas från data. Exempelvis kan en regression göras på kontrollgruppen med Y (0) som responsvariabel och kovariaten som förklaringsvariabler. Därefter predikteras värden, skattade prognostic scores, för både kontroll- 21

27 och behandlingsgruppen. Den bästa matchningen är den individ i motsatt grupp som minimerar ˆΨ C (X i ) ˆΨ C (X j ). (26) Matchningen kan också göras på den euklidiska vektornormen, vilket innebär att den individ i motsatt grupp som minimerar (X i X j ) T (X i X j ) är den bästa matchningen (Abadie & Imbens 2006). I praktiken brukar kovariaten standardiseras på något sätt, istället för att matchningen görs direkt på vektornormen. Oftast används Mahalanobisavståndet, där inversen av kovariansmatrisen för X, S 1 X detta kriterium är den individ som minimerar den bästa matchningen (Imbens 2004)., används vid standardiseringen. Vid matchning på (X i X j ) T S 1 X (X i X j ) Det är också tänkbart att använda varianter av prognostic scores som tar hänsyn till utfallen under både behandling och kontroll, vilket eventuellt skulle kunna användas för att skatta ATE även vid effektmodifiering. Detta tillvägagångssätt har inte tidigare studerats. Ett sätt att göra detta är att modellera utfallen för behandlings- och kontrollgrupp genom två separata regressioner. Den första görs på kontrollgruppen och har Y (0) som responsvariabel och kovariaten som förklaringsvariabler. Den andra görs på motsvarande sätt på behandlingsgruppen med Y (1) som responsvariabel och kovariaten som förklaringsvariabler. Därefter predikteras värden från båda regressionerna för både kontroll- och behandlingsgrupp, så att varje individ erhåller både en skattad prognostic score för kontroller, ˆΨ C (X), och en skattad prognostic score för behandlade, ˆΨT (X). En prognostic score för behandlade, Ψ T (X), definieras Y (1) X Ψ T (X), det vill säga Y (1) och X är oberoende givet Ψ T (X). Låt Q i vara en vektor bestående av ˆΨ C (X i ) och ˆΨ T (X i ), där ˆΨ C (X i ) är skattad prognostic score för kontroller och ˆΨ T (X i ) är skattad prognostic score för behandlade för individ i. Ett alternativ för att kunna använda ˆΨ C (X) och ˆΨ T (X) vid matchning är att göra en dimensionsreducering genom att skatta prognostic propensity scores, ê(q), via logistisk regression med Z som responsvariabel och ˆΨ C (X) och ˆΨ T (X) som förklaringsvariabler. Predikterade värden från den logistiska regressionen används vid matchningen, så att den individ i motsatt grupp som minimerar ê(q i ) ê(q j ) (27) 22

28 är den bästa matchningen. Ett annat alternativ är att matcha på ˆΨ C (X) och ˆΨ T (X) genom att använda Mahalanobisavståndet så att den individ i motsatt grupp som minimerar är den bästa matchningen. (Q i Q j ) T S 1 Q (Q i Q j ) (28) Enligt Hansen (2008) förväntas matchning enligt ekvation (26) ge goda skattningar av både ATE och ATT vid avsaknad av effektmodifiering, men inte av ATE vid effektmodifiering. Vilket matchningskriterium som fungerar bäst kan alltså bero på huruvida effektmodifiering föreligger eller inte. Således är det av intresse att för empiriska data kunna avgöra om effektmodifiering förekommer. Vid avsaknad av effektmodifiering är behandlingseffekten lika för alla värden på Ψ C (X). Detta beror på att Y (1) och Y (0) i detta fall beror av X på samma sätt (det vill säga är samma funktion av X), vilket medför att E[Y (1) Y (0) X] är en konstant och därmed också E[Y (1) Y (0) Ψ C (X)]. Detta gäller inte om effektmodifiering föreligger, då Y (1) och Y (0) är olika funktioner av X. Huruvida effektmodifiering förekommer kan bedömas genom att studera ett diagram där den skattade behandlingseffekten, Ŷi(1) Ŷi(0), plottas mot ˆΨ C (X i ) för varje individ, se Hernán och Robins (kommande) för motsvarande diskussion om E[Y (1) Y (0) X]. Detta illustreras i figur 2 för skattning av ATE från data som simulerats enligt de modeller som beskrivs i avsnitt 4.1 och 4.2. I diagrammen ses att behandlingseffekten är relativt konstant vid avsaknad av effektmodifiering, men inte vid förekomst av effektmodifiering. Variationen i skattad behandlingseffekt givet en viss prognostic score är dessutom större i det sistnämnda fallet. 4 Simulering Genom simulering kan matchningsestimatorernas egenskaper för ett ändligt stickprov vid matchning enligt olika kriterier undersökas för olika stickprovsstorlekar. I denna uppsats undersöks egenskaperna (bias, standardavvikelse och MSE) hos estimatorerna i ekvation (19) och (20), både vid avsaknad av och förekomst av effektmodifiering. Matchning görs på de fyra kriterierna i ekvation (25) - (28). Om modellen för Ψ C (X) är korrekt specificerad, och matchning görs på en skalär prognostic score (26), kan detta asymptotiskt 23

29 Ψ^ C(X i) Y^ i(1) Y^ i(0) Ψ^ C(X i) Y^ i(1) Y^ i(0) Figur 2: I figuren ses, för ett simulerat stickprov om 1000 individer, skattad behandlingseffekt, Ŷi(1) Ŷi(0), plottad mot skattad prognostic score, ˆΨ C (X i ), vid avsaknad av effektmodifiering (övre bilden) och vid förekomst av effektmodifiering (nedre bilden). 24

30 ses som matchning på ett kontinuerligt kovariat. Detta medför att resultaten i ekvation (21) - (24) är applicerbara. Samma sak gäller vid matchning på propensity scores (25). För att minska estimatorns bias används återläggning och varje individ matchas mot en individ i motsatt grupp. Simulering genomförs för stickprovsstorlekarna n = 1000 och n = 5000, eftersom stickprov av denna storleksordning är vanligt förekommande vid registerstudier. Totalt genomförs alltså 16 simuleringar, se översikt i tabell 1. Varje simulering omfattar 1000 replikat, vilket exempelvis i fallet med n = 5000 innebär att 1000 stickprov om 5000 individer tas. Detta ger approximativa bilder av estimatorernas samplingfördelningar under olika betingelser. Tabell 1: Översikt över de 16 simuleringsbetingelserna. I tabellen redovisas huruvida effektmodifiering föreligger, vilket kriterium som används för matchning (med ekvationsnummer inom parentes), samt stickprovsstorlek (n). Effektmod. Kriterium för matchning n 1 Nej Propensity scores (25) Nej Propensity scores (25) Nej Prognostic scores (26) Nej Prognostic scores (26) Nej Prognostic propensity scores (27) Nej Prognostic propensity scores (27) Nej Prognostic scores genom Mahalanobisavst. (28) Nej Prognostic scores genom Mahalanobisavst. (28) Ja Propensity scores (25) Ja Propensity scores (25) Ja Prognostic scores (26) Ja Prognostic scores (26) Ja Prognostic propensity scores (27) Ja Prognostic propensity scores (27) Ja Prognostic scores genom Mahalanobisavst. (28) Ja Prognostic scores genom Mahalanobisavst. (28) Simuleringens design vid avsaknad av effektmodifiering Simuleringarna baseras på två kovariat, X 1 och X 2, där 25

31 X 1 N(5, 2) och X 2 N(8, 2). Dessutom används brustermerna ε 0 och ε 1, som är N(0, 1)-fördelade. För de simuleringar då ingen effektmodifiering föreligger är och Y (0) = 1 + 6X 1 + 2X 2 + ε 0 Dessutom är Y (1) = X 1 + 2X 2 + ε 1. p = P r(z = 1) = e 0,4X 1+0,25X 2 och Z Bernoulli(p). X 1 och X 2 är således störande variabler, som påverkar både de potentiella utfallen och behandlingstilldelningen. Uttrycket för p har valts så att stickprovet ska innehålla ungefär lika många behandlade som kontroller. De observerbara variablerna för varje individ är X 1, X 2, Z och Y, där Y definierats enligt ekvation (2). I detta fall är behandlingseffekten konstant, då Y (0) och Y (1) påverkas av de störande variablerna på samma sätt. Därför blir ATE och ATT lika, så att och τ ATE = E[Y (1) Y (0)] = 10 τ ATT = E[Y (1) Y (0) Z = 1] =

32 En exakt beräkning av E[Y (1) Z = 1] E[Y (0) Z = 0], det vill säga väntevärdet för en naiv estimator som inte kontrollerar för skillnader i X, är svår att göra, se appendix A.1. Istället används simulering för att beräkna ett approximativt värde. En separat simulering med n = och 1000 replikat ger att E[Y (1) Z = 1] E[Y (0) Z = 0] 16, Simuleringens design vid effektmodifiering Variablerna X 1, X 2, ε 0, ε 1, Z, och Y definieras som i föregående avsnitt. Vid effektmodifiering påverkas Y (0) och Y (1) av de störande variablerna på olika sätt. I detta fall är och Y (0) = 6 + 9X 1 X 2 + ε 0 Liksom tidigare är Y (1) = 2 + 3X 1 + 5X 2 + ε 1. τ ATE = E[Y (1) Y (0)] = 10. Däremot medför effektmodifieringen att ATT skiljer sig från ATE. En separat simulering med n = och 1000 replikat ger ett approximativt sant värde på ATT, samt att τ ATT = E[Y (1) Y (0) Z = 1] 3, 45, E[Y (1) Z = 1] E[Y (0) Z = 0] 16,

33 4.3 Estimation och inferens I simuleringarna skattas ATE och ATT genom estimatorerna i ekvation (19) och (20). Estimatorernas approximativa väntevärden beräknas som medelvärdet över de 1000 replikaten, det vill säga Ê[ˆτ ATE ] = k=1 ˆτ ATE,k och Ê[ˆτ ATT ] = ˆτ ATT,k, 1000 k=1 där k = 1,..., 1000 betecknar replikatnummer. Därefter kan estimatorernas approximativa bias beräknas som respektive ˆBˆτATE = Ê[ˆτ ATE] τ ATE (29) ˆBˆτATT = Ê[ˆτ ATT] τ ATT. (30) Estimatorernas approximativa standardavvikelser (simuleringsstandardavvikelser) beräknas som sˆτate = ( 2 ˆτ ATE,k ATE]) Ê[ˆτ (31) k=1 och sˆτatt = ( 2. ˆτ ATT,k ATT]) Ê[ˆτ (32) k=1 Estimatorernas MSE beräknas enligt MSEˆτATE = s 2ˆτ ATE + ˆB 2ˆτ ATE (33) respektive 28

Introduktion till kausala effekter

Introduktion till kausala effekter Introduktion till kausala effekter Ronnie Pingel Institutionen f or folkh also- och v ardvetenskap och Statistiska institutionen 2016-09-03 Utgångspunkten Introduktion Vanligt mål i empirisk forskning

Läs mer

Kovariattransformationers inverkan på matchningsestimatorn vid skattning av kausala effekter

Kovariattransformationers inverkan på matchningsestimatorn vid skattning av kausala effekter Kovariattransformationers inverkan på matchningsestimatorn vid skattning av kausala effekter En simuleringsstudie och en jämförelse mellan två behandlingar av psoriasis Gabriel Wallin Student Vt 2014 C-uppsats,

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

SKATTNING AV KAUSALA EFFEKTER MED MATCHAT FALL-KONTROLLDATA

SKATTNING AV KAUSALA EFFEKTER MED MATCHAT FALL-KONTROLLDATA SKATTNING AV KAUSALA EFFEKTER MED MATCHAT FALL-KONTROLLDATA Evelina Abramsson, Kajsa Grind VT 2017 Examensarbete, 15 hp Statistik C2, 15 hp Umeå Universitet Skattning av kausala effekter med matchat fall-kontroll

Läs mer

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Propensity Scores. Bodil Svennblad UCR 16 september 2014 Propensity Scores Bodil Svennblad UCR 16 september 2014 Jämföra två behandlingar Randomiserad studie A B Inte alltid etiskt försvarbart Dyrt Restriktioner på studiepopulationen (generaliserbart?) Real

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till

Läs mer

Samplingfördelningar 1

Samplingfördelningar 1 Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots Fuktighet i jordmåner Variansanalys (Anova) Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 A 1 A 2 A 3 12.8 8.1 9.8 13.4 10.3 10.6 11.2 4.2 9.1 11.6 7.8 4.3 9.4 5.6 11.2 10.3

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

Kapitel 9 Egenskaper hos punktskattare

Kapitel 9 Egenskaper hos punktskattare Sannolikhetslära och inferens II Kapitel 9 Egenskaper hos punktskattare 1 Egenskaper hos punktskattare En skattare är en funktion av stickprovet och således en slumpvariabel. En bedömning av kvaliteten

Läs mer

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Statistiska Institutionen Gebrenegus Ghilagaber (docent) Lösningsförslag till skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, VT09. Onsdagen 3 juni 2009-1 Sannolkhetslära Mobiltelefoner tillverkas

Läs mer

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17 1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 4. Kapitel 5, sid Stickprovsteori Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

LMA201/LMA521: Faktorförsök

LMA201/LMA521: Faktorförsök Föreläsning 1 Innehåll Försöksplanering Faktorförsök med två nivåer Skattning av eekterna. Diagram för huvudeekter Diagram för samspelseekter Paretodiagram Den här veckan kommer tillägnas faktorförsök.

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov Summer Science Camp, Tjärnö, 8 August 2012 Varför statistik? Serik Sagitov http://www.math.chalmers.se/ serik/ Avdelningen för matematisk statistik Matematiska Vetenskaper Chalmers Tekniska Högskola och

Läs mer

Föreläsning 7. Statistikens grunder.

Föreläsning 7. Statistikens grunder. Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Föreläsningens innehåll Översikt, dagens föreläsning: Inledande

Läs mer

Interferens i kända och okända nätverk

Interferens i kända och okända nätverk Interferens i kända och okända nätverk Samuel Hellman och Erik Lindberg Student Vt 2015 Examensarbete, 15 hp Statistikerprogrammet, 180 hp Sammanfattning I experimentella studier och observationsstudier

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Enkel och multipel linjär regression

Enkel och multipel linjär regression TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0

Läs mer

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen Kap 6: Normalfördelningen Normalfördelningen Normalfördelningen som approximation till binomialfördelningen σ μ 1 Sats 6 A Om vi ändrar läge och/eller skala på en normalfördelning så har vi fortfarande

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Diskussionsproblem för Statistik för ingenjörer

Diskussionsproblem för Statistik för ingenjörer Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka

Läs mer

Metoder för att mäta effekter av arbetsmarknadspolitiska program WORKING PAPER 2012:2

Metoder för att mäta effekter av arbetsmarknadspolitiska program WORKING PAPER 2012:2 Metoder för att mäta effekter av arbetsmarknadspolitiska program WORKING PAPER 22:2 AV: MARIE GARTELL, CHRISTER GERDES OCH PETRA NILSSON. Sammanfattning De arbetsmarknadspolitiska programmen är en viktig

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00 Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 5Hp 41I12B KINAF13, KINAR13, KINLO13,KMASK13 7,5 högskolepoäng Tentamensdatum: 30 oktober

Läs mer

Statistisk försöksplanering

Statistisk försöksplanering Statistisk försöksplanering Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Skriftlig tentamen 3 hp 51SF01 Textilingenjörsutbildningen Tentamensdatum: 2 November Tid: 09:00-13 Hjälpmedel: Miniräknare

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

STATISTISK POWER OCH STICKPROVSDIMENSIONERING STATISTISK POWER OCH STICKPROVSDIMENSIONERING Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 11 & 12 Johan Lindström 2 & 9 oktober 217 Johan Lindström - johanl@maths.lth.se FMSF7/MSB2 F11 1/32 Repetition Multipel linjär regression

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 (2015-04-22) OCH INFÖR ÖVNING 7 (2015-04-29) Aktuella avsnitt i boken: Kap 61 65 Lektionens mål: Du ska

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle Lärare: Mikael Elenius, 2006-08-25, kl:9-14 Betygsgränser: 65 poäng Väl Godkänt, 50 poäng

Läs mer

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2 Finansiell Statistik (GN, 7,5 hp, HT 008) Föreläsning Diskreta sannolikhetsfördelningar (LLL kap. 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level

Läs mer

Kausalitet 2012-03-26. Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i:

Kausalitet 2012-03-26. Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i: Seminariets agenda Vad är kausal inferens? nna Ekman rbets- och miljömedicin Kausalitet Statistiska samband kontra kausalitet Konfounding DG ett grafiskt stöd Inverse propability weights Kausalitet ounterfactual

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen

Läs mer

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4) Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-06 En stratifierad sundersökning: NTU2014 Från NTU2014 Från NTU2014 Dellens

Läs mer

Några extra övningsuppgifter i Statistisk teori

Några extra övningsuppgifter i Statistisk teori Statistiska institutionen Några extra övningsuppgifter i Statistisk teori 23 JANUARI 2009 2 Sannolikhetsteorins grunder 1. Tre vanliga symmetriska tärningar kastas. Om inte alla tre tärningarna visar sexa,

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.

Läs mer

Problem med analyser av EQ-5D data. Philippe Wagner Tomasz Czuba Jonas Ranstam

Problem med analyser av EQ-5D data. Philippe Wagner Tomasz Czuba Jonas Ranstam Problem med analyser av EQ-5D data Philippe Wagner Tomasz Czuba Jonas Ranstam Tänkte prata om Vad är EQ-5D? Hur analyseras EQ-5D data? Kort repetition av t-testet T-testet och EQ-5D data Kort repetition

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4: Konfidensintervall (forts.) Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6): EM-fotboll 2012 några grafer Sport är en verksamhet som genererar mängder av numerisk information som följs med stort intresse EM i fotboll är inget undantag och detta dokument visar några grafer med kommentarer

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Statistik för teknologer, 5 poäng Skrivtid:

Statistik för teknologer, 5 poäng Skrivtid: UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för teknologer, MSTA33, p Statistik för kemister, MSTA19, p TENTAMEN 2004-06-03 TENTAMEN I MATEMATISK STATISTIK Statistik för teknologer,

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys

Läs mer

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade HT 2011 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas in senast 29/9 kl 16.30.

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9. Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:

Läs mer

0 om x < 0, F X (x) = c x. 1 om x 2.

0 om x < 0, F X (x) = c x. 1 om x 2. Avd. Matematisk statistik TENTAMEN I SF193 SANNOLIKHETSLÄRA OCH STATISTIK FÖR 3-ÅRIG Media TIMEH MÅNDAGEN DEN 16 AUGUSTI 1 KL 8. 13.. Examinator: Gunnar Englund, tel. 7974 16. Tillåtna hjälpmedel: Läroboken.

Läs mer

F9 Konfidensintervall

F9 Konfidensintervall 1/16 F9 Konfidensintervall Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 18/2 2013 2/16 Kursinformation och repetition Första inlämningsuppgiften rättas nu i veckan. För att

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

Mendelsk randomisering

Mendelsk randomisering Mendelsk randomisering 1 Föredraget en bild: Mendelsk randomisering = instrumentalvariabelanalys med gener som instrument 2 Översikt Kausalitet Instrumentalvariabler Mendelsk randomisering 3 Vad är kausalitet?

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två

Läs mer

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder Martin Singull Matematisk statistik Matematiska institutionen Innehåll Fö2 Punktskattningar Egenskaper Väntevärdesriktig Effektiv Konsistent

Läs mer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer