Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk

Relevanta dokument
Exempel på tentamensuppgifter

Introduktion till kausala effekter

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

Lösningar till SPSS-övning: Analytisk statistik

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13

Matematisk statistik KTH. Formelsamling i matematisk statistik

Enkel och multipel linjär regression

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen MVE302 Sannolikhet och statistik

Höftledsdysplasi hos dansk-svensk gårdshund

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Tentamen MVE300 Sannolikhet, statistik och risk

Föreläsning 11: Mer om jämförelser och inferens

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F13 Regression och problemlösning

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Lycka till!

Propensity Scores. Bodil Svennblad UCR 16 september 2014

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Matematisk statistik för B, K, N, BME och Kemister

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 4: Konfidensintervall (forts.)

Tentamen i Matematisk statistik Kurskod S0001M

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

F23 forts Logistisk regression + Envägs-ANOVA

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

9. Konfidensintervall vid normalfördelning

Lösningar till uppgifter från Milton-Arnold, kap 3 4 Matematisk statistik

Kap 3: Diskreta fördelningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Introduktion till statistik för statsvetare

FÖRELÄSNING 7:

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE300 Sannolikhet, statistik och risk

Formler och tabeller till kursen MSG830

Överlevnadsanalys. Överlevnadsanalys med tidsberoende kovariater. Tid till en händelse: observationer i kalendertid och som tid från start.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen MVE301 Sannolikhet, statistik och risk

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Sannolikheter och kombinatorik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Medelfel, felfortplantning

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Lösningsförslag till Tillämpad matematisk statistik LMA521, Tentamen

Studietyper, inferens och konfidensintervall

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

TMS136: Dataanalys och statistik Tentamen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

SF1901: Sannolikhetslära och statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Sammanfattning. Förord

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 13: Multipel Regression

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Lektionsanteckningar 11-12: Normalfördelningen

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Till ampad statistik (A5) Förläsning 13: Logistisk regression

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

F9 SAMPLINGFÖRDELNINGAR (NCT

Markov Chain Monte Carlo, contingency tables and Gröbner bases

4 Diskret stokastisk variabel

Extrauppgifter i matematisk statistik

Tentamen i Matematisk Statistik, 7.5 hp

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska metoder för säkerhetsanalys

Thomas Önskog 28/

Analys av miljööverträdelser i Sverige. Miljösanktionsavgiftens påverkan på återfall. Analysis of environmental violations in Sweden

Avd. Matematisk statistik

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Transkript:

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk Idag: AstraZeneca i Lund I morgon: Statistik-konsulterna

Innehåll Risker på individ- och populationsnivå Preliminaria Logrank test/cox Regression

Det fundamentala sambandet Låt X representera allt som påverkar vilken risk en individ har för något och låt p(x) vara risken då X = x. Låt vidare F(x) vara CDF:en för X i en population Då ges populationsrisken av p = p(x)df(x). Hur stor populationsrisken är bestäms alltså av fördelningen av risk-faktorerna i populationen Till höger ses att 1. Risken p(x) för Mb Down som funktion av mammans ålder 2. Fördelningen df(x) för mammans ålder vid graviditeten för två år i Sverige 3. Klart att det produceras fler barn med Mb Down 2007 and 1993. 4. Men den individuella risken är densamma! 10 8 6 % 4 2 0 1973 2007 Risk for Mb Down 20 30 40 Age of Mother

Odds ratio och studiedesign O(A) = P(A)/P(A c ) odds för A, S delpopulation vi samplar from. Bayes sats ger att O(A S) = P(A S) P(A c S) = P(S A)P(A) P(S A c )P(A c ) = R O(A). Alltså är O(A E,S) = R(E)O(A E) där R(E) är den relativa risken i en exponerad delpopulation. Om R(E)/R(E c ) inte beror av om man är exponerad eller ej, så får vi samma odds ratio som i hela populationen Odds ratio är parametern som förenar kohort och fall-kontroll studier. Med varierande grad av exponering, x, kan vi anta att O(A x) = e α+xβ. Vi kan därför använda logistisk regression på båda typer av studier, så länge det bara är β som är av intresse. α ersätts av α+ln(r) för fall-kontroll studien och är en nuisance parameter. Kan elimineras av att mangör en conditional logistic regression istället.

Hodgkins lymfom och tonsillektom En rimlig hypotes är att tar man bort tonsillerna på barn, så försämrar man immunförsvaret med en påföljande riskökning för t.ex. Hodgkin s lymfom. En case-control studie designades som addresserade denna fråga. (E = tonsillektomerad, C = Hodgkins lymfom). Resultatet kan uttryckas i odds-ratio: skattningen är 2.93 med 95% CI (1.82,4.71). Det enda vettiga i case-control studier starkt stöd för ett beroende mellan E och C. E E c Total C 67 34 101 C c 43 64 107 Total 110 98 208 Uppmuntrad av detta gjordes en ny studie, med en lite annorlunda design Man startade med 175 lymfon-patienter, och letade upp syskon av samma kön med en ålder inom 5 år Resultatet blev 85 par med följande resultat: (H,S) = 26, (H,S c ) = 15, (H c,s) = 7, (H c,s c ) = 37. (H = Hodgkin, S = Syskon)

fortsättning Det första man gjorde var att omorganisera dessa data till samma typ av tabell som ovan Denna gång blev odds ratiot bara 1.4, och konfidens-intervallet innehåller 1 (90% CI är (0.88,2.46)) E E c Total C 41 44 85 C c 33 52 85 Total 74 96 170 Men har vi använt data rätt? Vi kan inte reproducera ursprungsdata från denna tabell, så vi måste ha missat något Den rätta tabellen är den till höger Men den kan inte analyseras på samma sätt Det vi odds ratio vi skattar från detta är 15/7 = 2.14, vilket har 90% CI (1.03, 4.47) Inte starkt stöd, men ett resultat i samma riktning som ovan S S c Total H 26 15 41 H c 7 37 46 Total 33 52 85

fortsättning Förklaring: Controls (C c ) E E c Cases E P(E C)P(E C c ) P(E C)P(E c C c ) (C) E c P(E c C)P(E C c ) P(E c C)P(E c C c ) och odds ratio:t är θ = P(E C)P(Ec C c ) P(E c C)P(E C c ). Den intressanta frågan är varför den första tabellen ger skattning 1.4, och den senare 2.14......och vilket samband det är mellan dessa två skattningar Det handlar om hetereogenecitet i populationen.

Det allmänna miss-specifikationsproblemet Antag att det gäller att där Z har CDF G(z) i populationen. E(Y X = x,z = z) = h(βx +z) Vi har bara mätt X. Antagandena betyder att E(Y X = x) = b(βx +z)dg(z) Antag att vi antar E(Y X = x) = h(β x). Vilken är då relationen mellan β (individuella känsligheten för X) och β (populations-känslighet)? För en vanlig varians-analys h(u) = u blir β = β. Vad gäller för en logistisk regression, där h(u) = 1/(1+e u ) eller en Probit-modell där h(u) = Φ(u)?

Logistisk regression För en probit-modell med Z N(0,σ 2 ) har vi E(Y X = x) = xβ Φ(xβ +σz)dφ(z) = Φ( ). 1+σ 2 Det följer attt β = β/ 1+σ 2, så alla koefficienter regredierar mot noll. För att översätta detta till en logistisk regression använder man att till bra approximation är h(u) = Φ(au) a = 0.59. Det följer att β β/ 1+a 2 σ 2. Egentligen ska Z vara γz och att det är γ 2 σ 2 som dyker upp ovan. Effekten är alltså resultatet av kombinationen heterogeneitet i Z (variansen) och den prediktiva styrkan (γ).

Fyrfälts-tabeller Betrakta en 2 2-tabell som beskriver en exponering-fall relation. Modell: logit(p(x,ξ)) = ξ +βx, där x = 1 för exponerade och x = 0 för kontroller. θ = e β är odds ratio och ξ varierar mellan individer med en CDF P(ξ). Odds ratio för populationen blir då ψ = P1(1 P0) e ξ+βx, där P x = (1 P 1)P 0 1+e ξ+βxdp(ξ). Med ξ N(α,σ 2 ), har vi approximativt ln(p x/(1 P x)) = (α+βx)/ 1+a 2 σ 2...... så ψ θ ν med ν = 1/ 1+a 2 σ 2 < 1. Odds ratio beräknat från populationsdata (ψ) förväntas vara biased mot ett, jämfört med det odds ratio som är relevant för individen (θ).

Matchade fall-kontroll data För en 1:1-matchad studie har vi sannolikhetstabellen till höger ξ är gemensam för fall och kontroll. P 10/P 01 = θ, oberörd av heterogenitet. För den andra Hodgkin studien har vi 1.47 = 2.14 ν, från vilket vi kan få en indikation på heterogeniteten genom att lösa ut ν. Controls(C c ) E E c Cases E P 11 P 10 (C) E c P 01 P 00 P xy = e βx där e (x+y)ξ (1+e ξ+β )(1+e ξ ) dp(ξ).

Preliminaria Logrank test/cox Regression Proportionella hazards - lite noteringar Låt T vara en tid-till-händelse variabel med kumulativ hazard Λ(t). Cox proportionella hazard (PH) modell innebär då att vi antar att om en individ beskrivs av kovariatvärdena x, så gäller att hans cumulativa hazard är e βx Λ(t). Konkurerande modell är Accelerated Failure Time (AFT) modellen, som antar att individens kumulativa hazard istället är Λ(t/e βx ). En parametrisk fördelning kan skrivas både som PH och AFT modell: Weibull-fördelningen med Λ(t) = λt γ. En enkel modell för hetereogeneitet är att hazarden varierar mellan individer endast genom en proportionalitetsfaktor, som har en viss fördelning i populationen. Kallas frailty modellen och innebär att Λ(t η) = ηe zβ Λ 0(t) Låt T vara en tid-till-händelse variabel med kumulativ hazard Λ(t). där η betecknar frailty och har fördelningen G(η) i populationen.

Preliminaria Logrank test/cox Regression Heuristiskt kring Weibull fördelningen Antag att vi har en Weibull fördelning med frailty, där frailty-fördelningen är lognormal med medelvärde ett. En AFT modell kan då skrivas lnt = γ 1 ( lnλ zβ +X +Y), där X har en SEV fördelning och Y = lnη. Det följer att varians av lnt är (α 2 +σ 2 )/γ 2, där α 2 är SEV-variansen. Om ignorerar frailty och antar Λ 0(t) = µt ν gäller and variancen av lnt ar α 2 /ν 2. lnt = ν 1 ( lnµ xβ +X), Löser vi ut ν får vi ν 2 = γ 2 α 2 /(α 2 +σ 2 ). Med en linjär regression bör vi få β/γ = β /ν, alltså β β = 1+σ2 /α 2. Ungefär som för logistisk regression!

Preliminaria Logrank test/cox Regression Frailty och logrank test Studera överlevnadstid efter påbörjad behandling i en ny drog mot lungcancer. Randomiserad, 2:1, dubbel-blind etc Tabell nedan beskriver data Group N Observed Expected Active 1129 634 654.4 Placebo 563 342 321.6 Logrank test: hazard ratio estimate 0.91, 95% confidence interval (0.80, 1.04), p = 0.16 Detta är en hazard ratio på populationsnivå. Vad kan vi då säga om det som intresserar patienten, effekten på individnivå.

Preliminaria Logrank test/cox Regression Frailty och logrank test Modell: frailty modell med frailty-fördelning som har variance α. Individ-nivås parameter betecknas θ, den vi får ur logrank testet ovan θ. Hazard ratio θ 0.95 Utan några censoreringar kan vi 0.85 räkna ut sambandet till höger mellan α och θ, givet att θ = 0.91. 0.8 0.9 0 1 2 3 Variance of gamma distribution Om nu den individuella risken är större än θ, hur ska vi göra för att komma närmare den? Svar: leta prediktiva covariater! Det reducerar variansen av återstående frailty och skillnaden mellan den sanna individuella risken och det vi ser på populationsnivå minskar.

Preliminaria Logrank test/cox Regression Korrigera för prediktiva kovariater Så vi letar efter prediktiva kovariater genom att analysera dessa ensamma. Välj sedan ut den mest prediktiva, vilket visar sig vara en dichotom variabel som har med en WHO scala för sjukdomsstatus att göra. Gör vi nu en Cox regression med denna och behandling som kovariater får vi nya behandlingsskattningar: HR = 0.855, 95% CI (0.75,0.98), p = 0.020. Plötsligt har vi bevisat behandlingens värde! Vi har fem fler covariater att beakta - inkluderar vi dem ändrar sig resultatet i praktiken inte.

Epilog: var försiktig med stratifiering Ett alternativ till en additiv Cox Regression för att hantera de sex kovariaterna är att stratifiera på dem Stratifiering på endast WHO variabeln ändra inte resultatet mycket Stratifiering på alla ger HR skattning 0.89 med 95% CI (0.77, 1.02) och p = 0.087. Studien fallerar! Varför? Stratifieringen delar upp data i 2 6 = 64 celler. Fyra tomma, 23% har 3 patienter. Hazard ratio P.g.a. 2:1 randomiseringen drabbar detta den aktiva 0.8 behandlingen mest 0.7 1.1 1 0.9 0 1 2 3 4 5 6 7 No of covariates added Vi tappar 27 patienter (14 dödsfall) på aktiv, 2 (1 dödsfall) på placebo. Den sista kovariaten vi justerar för är inte prediktiv i sig själv!

Konsekvenser Resultatet ses till höger Så tro inte att det inte spelar någon roll vilken statistiker du arbetar med Statistik är inte en räknekonst, det är en vetenskap!