APC (Age, Period, Cohort) - modellering av incidensdata

Relevanta dokument
Studiedesign och effektmått

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Regressions- och Tidsserieanalys - F7

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Till ampad statistik (A5) Förläsning 13: Logistisk regression

MVE051/MSG Föreläsning 14

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Multipel Regressionsmodellen

Epidemiologi (II) Läkarprogrammet Termin 5, VT Lars Rylander. Avdelningen för arbets- och miljömedicin, Lund

Kurskod: TAMS24 / Provkod: TEN (8:00-12:00) English Version

Föreläsning 12: Linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Epidemiologi I. Läkarprogrammet Termin 5, VT Lars Rylander. Avdelningen för arbets- och miljömedicin, Lund Enheten för miljöepidemiologi

Tentamen MVE301 Sannolikhet, statistik och risk

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Tentamen MVE302 Sannolikhet och statistik

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Studiedesign MÅSTE MAN BLI FORSKARE BARA FÖR ATT MAN VILL BLI LÄKARE? 2/13/2011. Disposition. Experiment. Bakgrund. Observationsstudier

Matematisk statistik för B, K, N, BME och Kemister

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat?

F11. Kvantitativa prognostekniker

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen MVE301 Sannolikhet, statistik och risk

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Metod och teori. Statistik för naturvetare Umeå universitet

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i matematisk statistik

10.1 Enkel linjär regression

English Version. Number of sold cakes Number of days

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Regressions- och Tidsserieanalys - F3

Matematisk statistik för B, K, N, BME och Kemister

Medicinsk statistik II

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Tentamen MVE302 Sannolikhet och statistik

English Version. + 1 n 2. n 1

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Hur skriver man statistikavsnittet i en ansökan?

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Statistiska metoder för säkerhetsanalys

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Fordonsavgaser och uppkomst av lungsjukdom/astma. Lars Modig Doktorand Yrkes- och miljömedicin

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Parade och oparade test

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

STATISTISK ANALYS AV KOMPLEXA DATA

Med åldrandet följer skörhet: hur kan vi undvika det? Laura Fratiglioni

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Att mäta hälsa och sjukdom. Kvantitativa metoder II: teori och tillämpning Folkhälsovetenskap 4, termin 6 Hanna Hultin hanna.hultin@ki.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Fatigue Properties in Additive manufactured Titanium & Inconell

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Thomas Önskog 28/

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Höftledsdysplasi hos dansk-svensk gårdshund

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Skrivning i ekonometri lördagen den 25 augusti 2007

Grundläggande matematisk statistik

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

Föreläsning 13: Multipel Regression

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Skrivning i ekonometri torsdagen den 8 februari 2007

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Formel- och tabellsamling i matematisk statistik

F13 Regression och problemlösning

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Matematisk statistik för D, I, Π och Fysiker

STOCKHOLMS UNIVERSITET FYSIKUM

tentaplugg.nu av studenter för studenter

Föreläsning 15, FMSF45 Multipel linjär regression

Medicinsk statistik II

oberoende av varandra så observationerna är

Formler och tabeller till kursen MSG830

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Tentamen i matematisk statistik

Transkript:

APC (Age, Period, Cohort) - modellering av incidensdata Metodseminarium, mars 2010 Jonas Björk E-post: Jonas.Bjork@skane.se (Version 2010-03-08)

APC-modellering av incidensdata Incidensberäkningar Poisson regression Introduktion till APC-modellering

Traditionell indelning av epidemiologi Beskrivande (deskriptiv) Jämförelser av sjukdomsförekomst i olika regioner, länder, tidstrender etc. Analytisk APC - modellering Interventiv

Incidens Insjuknandefrekvens Incidens = Antal nya sjukdomsfall / Persontid under risk Värdemängd 0 - Enhet: Antal fall per persontid under risk, Ex. Antal fall per personår

Kohort 1 Kohort 2 Antal sjukdomsfall a b Personår T 1 T 2 Incidens I 1 = a / T 1 I 2 = b / T 2 Incidens I1 I2 95% konfidensintervall I1 ± 1,96 I2 ± 1,96 T T 1 2 Incidensdifferens ID = I1 I2 I1 I2 95% konfidensintervall ID ± 1,96 + T T 1 2 Enkla incidensberäkningar och jämförelser kan göras med hjälp av Excel-arket EPISHEET Incidenskvot IK = q1/ q2 Incidenskvot på log-skalan ln( IK) = ln( I1/ I2) = ln( I1) ln( I2) 95% konfidensintervall 1 1 ln( IK) ± 1,96 + a b OBS! Formlerna för beräkning av konfidensintervall förutsätter att antal sjukdomsfall är minst 5 och "stort" antal personår i båda kohorterna

Incidensjämförelser - Exempel Exempel: I en klassisk uppföljning av hälsoeffekter av rökning i en kohort av manliga läkare i Storbritannien studerades bl.a. sambandet med mortalitet i hjärtkärlsjukdom (Doll & Hill 1996): Rökare Icke-rökare Antal fall 630 101 Personår under risk 142 247 39 220 Incidens (95% KI ) per 100 000 personår Incidensdifferens (95% KI) per 100 000 personår 443 (408 478) 258 (207 308) 185 (124 246) Referens Incidenskvot (95% KI a ) 1,7 (1,4 2,1) Referens

Poisson regression Modellering av incidensdata - Exempel Åldersgrupp (år) Rökare Ickerökare Dödsfall Personår (%) Incidens Dödsfall Personår Incidens Incidenskvot (95% KI) 35-44 32 52 407 (36,8) 61 2 18 790 (47,9) 11 5,7 (1,4-24) 45-54 104 43 248 (30,4) 240 12 10 673 (27,2) 112 2,1 (1,2-3,9) 55-64 206 28 612 (20,1) 712 28 5 710 (14,6) 490 1,5 (1,0-2,2) 65-74 186 12 663 (8,9) 1 469 28 2 585 (6,6) 1 083 1,4 (0,91-2,0) 75-84 102 5 317 (3,7) 1 918 31 1 462 (3,7) 2 120 0,90 (0,61-1,4) Totalt 630 142 247 (100) 443 101 39 220 (100) 258 1,7 (1,4-2,1)

Poisson regression Modellering av incidensdata Exempel (forts.) Poisson regression - Modell för diskreta utfallsvariabler, t.ex. antal sjukdomsfall, som används för att uppskatta incidenskvoter i kohortundersökningar lny = lnt + α + β1 Rökning + β 2 ÅLDER2 + β3 ÅLDER3 + β 4 ÅLDER4 + β5 ÅLDER5 ln Y = naturliga logaritmen av antal sjukdomsfall, T = Persontid under risk Ger multiplikativ modell på originalskalan: Y = T e α e β1rökning β2ålder2 β3ålder3 β4 ÅLDER4 β5ålder5 e e e e Poisson regression finns exempelvis i SPSS (PASW), SAS och R

Poisson regression Modellering av incidensdata Exempel (forts.) Parameter Incidenskvot 95% KI Enkel modell Konstant α = -5,96 0,0026 0,0021-0,0031 Rökning Rökare β 1= 0,54 1,7 1,4-2,1 Icke-rökare Referens 1,0 - Multipel modell Konstant α = -7,92 0,00036 0,00025-0,00053 Rökning Rökare β 1= 0,36 1,4 1,2-1,8 Icke-rökare Referens 1,0 - Ålder (år) 75-84 β 5= 3,70 40 28-59 65-74 β 4= 3,35 29 20-41 55-64 β 3= 2,63 14 9,7-20 45-54 β 2= 1,48 4,4 3,0-6,5 35-44 Referens 1,0 - Y = T e α e β1rökning β2 ÅLDER2 β3ålder3 β4ålder4 β5ålder5 e e e e

Poisson regression Modellförutsättningar Modell för ln(y), dvs log-linjärt samband mellan kovariater (x 1, x 2,...) och antal fall (incidens) Antal fall Y givet kovariaterna ska följa en Poisson fördelning (McNamee 2005) Multiplikativ modell - relativa risker multipliceras

Poisson fördelningen f ( Y ) = e µ Y µ Y! Medelvärde = µ, Standardavvikelse SD = µ µ = 4 µ = 5 µ = 10 Ofta är den verkliga spridningen i antalet fall större än vad som anges av Poissonfördelningen (Overdispersion). Leder till att precisionen överskattas = Falskt för snäva konfidensintervall Allvarligt problem! Extra variation läggs ofta in i Poisson-modellen för att hantera overdispersion

APC-modellering med Poission regression Förklara variationen i incidens med hjälp av ålder, period och kohort (födelseår) Separationsproblem: COHORT + AGE = PERIOD (Holford 1991) lny = lnt + α + β Age + β Period + β A P C Cohort

Ålder 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 5-9 0-4 lny Ref. APC-modellering Period 2005-2009 2000-2004 1995-1999 1990-1994 1985-1989 1980-1984 1975-1979 1970-1974 1965-1969 1960-1964 1955-1959 1950-1954 1945-1949 1940-1944 1935-1939 1930-1934 1925-1929 1920-1924 Ref. Kohort 2001-2009 1996-2005 1991-2000 1986-1995 1981-1990 1976-1985 1971-1980 1966-1975 1961-1970 1956-1965 1951-1960 1946-1955 1941-1950 1936-1945 1931-1940 1926-1935 1921-1930 Ref. Modelleringen görs ofta i årsklasser = lnt + α + φai Agei + φpi Periodi + Ex. 5-årsklasser för ålder och period 10-årsklasser för kohort φ Ci Cohort i

Separationsproblemet lny = lnt + α + β Age + β Period + β A P C Cohort Saknar unik lösning, linjära effekter kan ej separeras, däremot kan kurvaturer (avvikelser från linjär trend) uppskattas unikt Ytterligare begränsning behöver införas för unik lösning Ex. Använd två kohorter som referens (kohorteffekt = 0 för dessa). Godtyckligt! Programpaket påför ofta egna begränsningar Ordningen mellan kovariaterna kan spela roll för estimaten! Tvåfaktormodell löser inte problemet Age Period Cohort AC - drift modell AP - drift modell CP drift modell - - β A + β P β P + βc β A β C β P + βc β A + β P βc β A -

Ytterligare begränsning införd Ex. Bröstcancer-mortalitet i USA och Kanada (Tarone et al 1997)

Ytterligare begränsning införd Ex. Bröstcancer-mortalitet i USA och Kanada (forts.) (Tarone et al 1997)

Tvåfaktormodell Age + Period Bra modell om något inträffar som påverkar alla, oavsett ålder Epidemi Vaccination Intervention Ändrad registrering (artefakt) Age + Cohort Bra modell om livsstilsmönster etc. som grundläggs tidigt ändras, t.ex. rökvanor eller yrkesval (Clayton & Schifflers, Statistics in Medicine 1987a)

Tvåfaktormodell (Ålder+ Period) Exempel Tuberkulos i Sverige Parameter Estimates Parameter B Exp(B) = Incidence rate ratio 95% CI 95% CI Lower Upper Lower Upper (Intercept) -5,93-6,17-5,68 0,00 0,00 0,00 [Sex=1] 0,02-0,07 0,10 1,02 0,94 1,11 [Sex=0] 0.. 1.. [Age=16] 75-79 0,93 0,54 1,31 2,52 1,72 3,70 [Age=15] 70-74 0,89 0,55 1,24 2,44 1,73 3,45 [Age=14] 65-69 0,95 0,63 1,27 2,58 1,88 3,54 [Age=13] 60-64 0,95 0,65 1,26 2,59 1,91 3,51 [Age=12] 55-59 0,91 0,61 1,21 2,49 1,84 3,36 [Age=11] 50-54 0,87 0,57 1,17 2,39 1,78 3,21 [Age=10] 45-49 0,88 0,59 1,17 2,40 1,80 3,21 [Age=9] 40-44 0,99 0,71 1,27 2,68 2,03 3,55 [Age=8] 35-39 1,13 0,86 1,40 3,10 2,36 4,06 [Age=7] 30-34 1,25 0,99 1,51 3,49 2,68 4,55 [Age=6] 25-29 1,36 1,10 1,62 3,91 3,02 5,07 [Age=5] 20-24 1,42 1,16 1,68 4,13 3,20 5,34 [Age=4] 15-19 1,00 0,73 1,27 2,72 2,08 3,56 [Age=3] 10-14 -0,13-0,46 0,20 0,88 0,63 1,23 [Age=2] 5-9 -0,45-0,82-0,08 0,64 0,44 0,93 [Age=1] 0-4 0.. 1.. [Period=18] 2005-2009 -6,25-8,38-4,12 0,00 0,00 0,02 [Period=17] 2000-2004 -6,48-8,38-4,57 0,00 0,00 0,01 [Period=16] 1995-1999 -6,07-7,63-4,51 0,00 0,00 0,01 [Period=15] 1990-1994 -5,64-6,90-4,38 0,00 0,00 0,01 [Period=14] 1985-1989 -5,05-6,00-4,10 0,01 0,00 0,02 [Period=13] 1980-1984 -4,61-5,38-3,84 0,01 0,00 0,02 [Period=12] 1975-1979 -4,35-5,04-3,67 0,01 0,01 0,03 [Period=11] 1970-1974 -3,91-4,46-3,35 0,02 0,01 0,03 [Period=10] 1965-1969 -3,17-3,57-2,78 0,04 0,03 0,06 [Period=9] 1960-1964 -2,63-2,94-2,31 0,07 0,05 0,10 [Period=8] 1955-1959 -2,23-2,50-1,97 0,11 0,08 0,14 [Period=7] 1950-1954 -1,68-1,89-1,47 0,19 0,15 0,23 [Period=6] 1945-1949 -1,20-1,38-1,02 0,30 0,25 0,36 [Period=5] 1940-1944 -0,83-0,99-0,67 0,44 0,37 0,51 [Period=4] 1935-1939 -0,64-0,79-0,49 0,53 0,46 0,61 [Period=3] 1930-1934 -0,32-0,46-0,18 0,73 0,63 0,83 [Period=2] 1925-1929 -0,13-0,26 0,00 0,88 0,77 1,00 [Period=1] 1920-1924 0.. 1.. (Scale) 411,8022 Vaccination infördes på 1940-talet, slopades 1975

APC - Modellbyggarstrategi Linjära trendmodeller (Clayton & Schifflers, Statistics in Medicine 1987b; Holford, Annu Rev Publ Health 1991)

APC Modellbyggarstrategi (forts.) (Clayton & Schifflers, Statistics in Medicine 1987b)

APC-modellbygge - Exempel Period Age 1987 90 1991 94 1995 98 1999 02 Hip Fracture Incidence per 10 000 50 53 4 3 3 3 54 57 6 6 5 5 58 61 10 9 8 7 62 65 15 14 14 12 66 69 23 23 23 21 70 73 39 40 40 37 74 77 73 71 70 66 78 81 125 129 124 114 82 85 206 207 212 190 86 89 307 306 306 291 90 93 388 402 398 381 94 97 429 451 435 425 (Rosengren et al, inskickad för publicering)

APC-modellbygge Exempel (forts.) Relative Period Effect Relative Cohort Effect 0,2 0.2 0,15 0.15 0,1 0.1 0,05 0-0,05-0,1-0,15 Relative Period Effect (Ln) 0.05 0-0.05-0.1-0.15 Relative Cohort Effect (ln) All Women Men All Women Men -0.2-0,2 1999-02 1995-98 1991-94 1987-90 1945-52 1941-48 1937-44 1933-40 1929-36 1925-32 1921-28 1917-24 1913-20 1909-16 1905-12 1901-08 1897-04 1893-00 1889-96 Calendar Period Birth Cohort (Rosengren et al, inskickad för publicering)

APC-modellbygge Exempel (forts.) Adding drift parameters, reflecting linear period/cohort trends, improved the fit of the model considerably (χ2=214, df=1, both p<0.0001). The fit improved further when allowing for curvature (departure from linearity) in the trends (χ2=165 for sex+age+cohort, df=13 and χ2=108 for sex+age+period, df=2, both p<0.0001). This suggests that both linearity and curvature are present in period/cohort effects. Additional improvement in fit was seen when cohort effects were added to the sex+age+period model (χ2=144, df=13, p<0.0001) and when period effects were added to the sex+age+cohort model (χ2=86, df=2, p<0.0001). The latter finding suggests that independent curvature in both period and cohort trends is present in the data. (Rosengren et al, inskickad för publicering)

APC-modellbygge Exempel (forts.) Separationsproblemet... β(age) = 0.432 + d, β(cohort) = 0.043 d, β(period) = 0.011 + d, where d is the common drift parameter that cannot be estimated. Thus, the sum of the cohort and period linear drifts can be estimated as β(cohort) + β(period) = 0.043 + 0.011= 0.054. This sum is considerably smaller than the age drift; in particular any period drift can be estimated to be considerably smaller than the age drift: β(age) β(period) = 0.421. No further guidance in the relative size of the cohort and period linear drifts can be obtained from the data. (Rosengren et al, inskickad för publicering)