APC (Age, Period, Cohort) - modellering av incidensdata Metodseminarium, mars 2010 Jonas Björk E-post: Jonas.Bjork@skane.se (Version 2010-03-08)
APC-modellering av incidensdata Incidensberäkningar Poisson regression Introduktion till APC-modellering
Traditionell indelning av epidemiologi Beskrivande (deskriptiv) Jämförelser av sjukdomsförekomst i olika regioner, länder, tidstrender etc. Analytisk APC - modellering Interventiv
Incidens Insjuknandefrekvens Incidens = Antal nya sjukdomsfall / Persontid under risk Värdemängd 0 - Enhet: Antal fall per persontid under risk, Ex. Antal fall per personår
Kohort 1 Kohort 2 Antal sjukdomsfall a b Personår T 1 T 2 Incidens I 1 = a / T 1 I 2 = b / T 2 Incidens I1 I2 95% konfidensintervall I1 ± 1,96 I2 ± 1,96 T T 1 2 Incidensdifferens ID = I1 I2 I1 I2 95% konfidensintervall ID ± 1,96 + T T 1 2 Enkla incidensberäkningar och jämförelser kan göras med hjälp av Excel-arket EPISHEET Incidenskvot IK = q1/ q2 Incidenskvot på log-skalan ln( IK) = ln( I1/ I2) = ln( I1) ln( I2) 95% konfidensintervall 1 1 ln( IK) ± 1,96 + a b OBS! Formlerna för beräkning av konfidensintervall förutsätter att antal sjukdomsfall är minst 5 och "stort" antal personår i båda kohorterna
Incidensjämförelser - Exempel Exempel: I en klassisk uppföljning av hälsoeffekter av rökning i en kohort av manliga läkare i Storbritannien studerades bl.a. sambandet med mortalitet i hjärtkärlsjukdom (Doll & Hill 1996): Rökare Icke-rökare Antal fall 630 101 Personår under risk 142 247 39 220 Incidens (95% KI ) per 100 000 personår Incidensdifferens (95% KI) per 100 000 personår 443 (408 478) 258 (207 308) 185 (124 246) Referens Incidenskvot (95% KI a ) 1,7 (1,4 2,1) Referens
Poisson regression Modellering av incidensdata - Exempel Åldersgrupp (år) Rökare Ickerökare Dödsfall Personår (%) Incidens Dödsfall Personår Incidens Incidenskvot (95% KI) 35-44 32 52 407 (36,8) 61 2 18 790 (47,9) 11 5,7 (1,4-24) 45-54 104 43 248 (30,4) 240 12 10 673 (27,2) 112 2,1 (1,2-3,9) 55-64 206 28 612 (20,1) 712 28 5 710 (14,6) 490 1,5 (1,0-2,2) 65-74 186 12 663 (8,9) 1 469 28 2 585 (6,6) 1 083 1,4 (0,91-2,0) 75-84 102 5 317 (3,7) 1 918 31 1 462 (3,7) 2 120 0,90 (0,61-1,4) Totalt 630 142 247 (100) 443 101 39 220 (100) 258 1,7 (1,4-2,1)
Poisson regression Modellering av incidensdata Exempel (forts.) Poisson regression - Modell för diskreta utfallsvariabler, t.ex. antal sjukdomsfall, som används för att uppskatta incidenskvoter i kohortundersökningar lny = lnt + α + β1 Rökning + β 2 ÅLDER2 + β3 ÅLDER3 + β 4 ÅLDER4 + β5 ÅLDER5 ln Y = naturliga logaritmen av antal sjukdomsfall, T = Persontid under risk Ger multiplikativ modell på originalskalan: Y = T e α e β1rökning β2ålder2 β3ålder3 β4 ÅLDER4 β5ålder5 e e e e Poisson regression finns exempelvis i SPSS (PASW), SAS och R
Poisson regression Modellering av incidensdata Exempel (forts.) Parameter Incidenskvot 95% KI Enkel modell Konstant α = -5,96 0,0026 0,0021-0,0031 Rökning Rökare β 1= 0,54 1,7 1,4-2,1 Icke-rökare Referens 1,0 - Multipel modell Konstant α = -7,92 0,00036 0,00025-0,00053 Rökning Rökare β 1= 0,36 1,4 1,2-1,8 Icke-rökare Referens 1,0 - Ålder (år) 75-84 β 5= 3,70 40 28-59 65-74 β 4= 3,35 29 20-41 55-64 β 3= 2,63 14 9,7-20 45-54 β 2= 1,48 4,4 3,0-6,5 35-44 Referens 1,0 - Y = T e α e β1rökning β2 ÅLDER2 β3ålder3 β4ålder4 β5ålder5 e e e e
Poisson regression Modellförutsättningar Modell för ln(y), dvs log-linjärt samband mellan kovariater (x 1, x 2,...) och antal fall (incidens) Antal fall Y givet kovariaterna ska följa en Poisson fördelning (McNamee 2005) Multiplikativ modell - relativa risker multipliceras
Poisson fördelningen f ( Y ) = e µ Y µ Y! Medelvärde = µ, Standardavvikelse SD = µ µ = 4 µ = 5 µ = 10 Ofta är den verkliga spridningen i antalet fall större än vad som anges av Poissonfördelningen (Overdispersion). Leder till att precisionen överskattas = Falskt för snäva konfidensintervall Allvarligt problem! Extra variation läggs ofta in i Poisson-modellen för att hantera overdispersion
APC-modellering med Poission regression Förklara variationen i incidens med hjälp av ålder, period och kohort (födelseår) Separationsproblem: COHORT + AGE = PERIOD (Holford 1991) lny = lnt + α + β Age + β Period + β A P C Cohort
Ålder 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-44 35-39 30-34 25-29 20-24 15-19 10-14 5-9 0-4 lny Ref. APC-modellering Period 2005-2009 2000-2004 1995-1999 1990-1994 1985-1989 1980-1984 1975-1979 1970-1974 1965-1969 1960-1964 1955-1959 1950-1954 1945-1949 1940-1944 1935-1939 1930-1934 1925-1929 1920-1924 Ref. Kohort 2001-2009 1996-2005 1991-2000 1986-1995 1981-1990 1976-1985 1971-1980 1966-1975 1961-1970 1956-1965 1951-1960 1946-1955 1941-1950 1936-1945 1931-1940 1926-1935 1921-1930 Ref. Modelleringen görs ofta i årsklasser = lnt + α + φai Agei + φpi Periodi + Ex. 5-årsklasser för ålder och period 10-årsklasser för kohort φ Ci Cohort i
Separationsproblemet lny = lnt + α + β Age + β Period + β A P C Cohort Saknar unik lösning, linjära effekter kan ej separeras, däremot kan kurvaturer (avvikelser från linjär trend) uppskattas unikt Ytterligare begränsning behöver införas för unik lösning Ex. Använd två kohorter som referens (kohorteffekt = 0 för dessa). Godtyckligt! Programpaket påför ofta egna begränsningar Ordningen mellan kovariaterna kan spela roll för estimaten! Tvåfaktormodell löser inte problemet Age Period Cohort AC - drift modell AP - drift modell CP drift modell - - β A + β P β P + βc β A β C β P + βc β A + β P βc β A -
Ytterligare begränsning införd Ex. Bröstcancer-mortalitet i USA och Kanada (Tarone et al 1997)
Ytterligare begränsning införd Ex. Bröstcancer-mortalitet i USA och Kanada (forts.) (Tarone et al 1997)
Tvåfaktormodell Age + Period Bra modell om något inträffar som påverkar alla, oavsett ålder Epidemi Vaccination Intervention Ändrad registrering (artefakt) Age + Cohort Bra modell om livsstilsmönster etc. som grundläggs tidigt ändras, t.ex. rökvanor eller yrkesval (Clayton & Schifflers, Statistics in Medicine 1987a)
Tvåfaktormodell (Ålder+ Period) Exempel Tuberkulos i Sverige Parameter Estimates Parameter B Exp(B) = Incidence rate ratio 95% CI 95% CI Lower Upper Lower Upper (Intercept) -5,93-6,17-5,68 0,00 0,00 0,00 [Sex=1] 0,02-0,07 0,10 1,02 0,94 1,11 [Sex=0] 0.. 1.. [Age=16] 75-79 0,93 0,54 1,31 2,52 1,72 3,70 [Age=15] 70-74 0,89 0,55 1,24 2,44 1,73 3,45 [Age=14] 65-69 0,95 0,63 1,27 2,58 1,88 3,54 [Age=13] 60-64 0,95 0,65 1,26 2,59 1,91 3,51 [Age=12] 55-59 0,91 0,61 1,21 2,49 1,84 3,36 [Age=11] 50-54 0,87 0,57 1,17 2,39 1,78 3,21 [Age=10] 45-49 0,88 0,59 1,17 2,40 1,80 3,21 [Age=9] 40-44 0,99 0,71 1,27 2,68 2,03 3,55 [Age=8] 35-39 1,13 0,86 1,40 3,10 2,36 4,06 [Age=7] 30-34 1,25 0,99 1,51 3,49 2,68 4,55 [Age=6] 25-29 1,36 1,10 1,62 3,91 3,02 5,07 [Age=5] 20-24 1,42 1,16 1,68 4,13 3,20 5,34 [Age=4] 15-19 1,00 0,73 1,27 2,72 2,08 3,56 [Age=3] 10-14 -0,13-0,46 0,20 0,88 0,63 1,23 [Age=2] 5-9 -0,45-0,82-0,08 0,64 0,44 0,93 [Age=1] 0-4 0.. 1.. [Period=18] 2005-2009 -6,25-8,38-4,12 0,00 0,00 0,02 [Period=17] 2000-2004 -6,48-8,38-4,57 0,00 0,00 0,01 [Period=16] 1995-1999 -6,07-7,63-4,51 0,00 0,00 0,01 [Period=15] 1990-1994 -5,64-6,90-4,38 0,00 0,00 0,01 [Period=14] 1985-1989 -5,05-6,00-4,10 0,01 0,00 0,02 [Period=13] 1980-1984 -4,61-5,38-3,84 0,01 0,00 0,02 [Period=12] 1975-1979 -4,35-5,04-3,67 0,01 0,01 0,03 [Period=11] 1970-1974 -3,91-4,46-3,35 0,02 0,01 0,03 [Period=10] 1965-1969 -3,17-3,57-2,78 0,04 0,03 0,06 [Period=9] 1960-1964 -2,63-2,94-2,31 0,07 0,05 0,10 [Period=8] 1955-1959 -2,23-2,50-1,97 0,11 0,08 0,14 [Period=7] 1950-1954 -1,68-1,89-1,47 0,19 0,15 0,23 [Period=6] 1945-1949 -1,20-1,38-1,02 0,30 0,25 0,36 [Period=5] 1940-1944 -0,83-0,99-0,67 0,44 0,37 0,51 [Period=4] 1935-1939 -0,64-0,79-0,49 0,53 0,46 0,61 [Period=3] 1930-1934 -0,32-0,46-0,18 0,73 0,63 0,83 [Period=2] 1925-1929 -0,13-0,26 0,00 0,88 0,77 1,00 [Period=1] 1920-1924 0.. 1.. (Scale) 411,8022 Vaccination infördes på 1940-talet, slopades 1975
APC - Modellbyggarstrategi Linjära trendmodeller (Clayton & Schifflers, Statistics in Medicine 1987b; Holford, Annu Rev Publ Health 1991)
APC Modellbyggarstrategi (forts.) (Clayton & Schifflers, Statistics in Medicine 1987b)
APC-modellbygge - Exempel Period Age 1987 90 1991 94 1995 98 1999 02 Hip Fracture Incidence per 10 000 50 53 4 3 3 3 54 57 6 6 5 5 58 61 10 9 8 7 62 65 15 14 14 12 66 69 23 23 23 21 70 73 39 40 40 37 74 77 73 71 70 66 78 81 125 129 124 114 82 85 206 207 212 190 86 89 307 306 306 291 90 93 388 402 398 381 94 97 429 451 435 425 (Rosengren et al, inskickad för publicering)
APC-modellbygge Exempel (forts.) Relative Period Effect Relative Cohort Effect 0,2 0.2 0,15 0.15 0,1 0.1 0,05 0-0,05-0,1-0,15 Relative Period Effect (Ln) 0.05 0-0.05-0.1-0.15 Relative Cohort Effect (ln) All Women Men All Women Men -0.2-0,2 1999-02 1995-98 1991-94 1987-90 1945-52 1941-48 1937-44 1933-40 1929-36 1925-32 1921-28 1917-24 1913-20 1909-16 1905-12 1901-08 1897-04 1893-00 1889-96 Calendar Period Birth Cohort (Rosengren et al, inskickad för publicering)
APC-modellbygge Exempel (forts.) Adding drift parameters, reflecting linear period/cohort trends, improved the fit of the model considerably (χ2=214, df=1, both p<0.0001). The fit improved further when allowing for curvature (departure from linearity) in the trends (χ2=165 for sex+age+cohort, df=13 and χ2=108 for sex+age+period, df=2, both p<0.0001). This suggests that both linearity and curvature are present in period/cohort effects. Additional improvement in fit was seen when cohort effects were added to the sex+age+period model (χ2=144, df=13, p<0.0001) and when period effects were added to the sex+age+cohort model (χ2=86, df=2, p<0.0001). The latter finding suggests that independent curvature in both period and cohort trends is present in the data. (Rosengren et al, inskickad för publicering)
APC-modellbygge Exempel (forts.) Separationsproblemet... β(age) = 0.432 + d, β(cohort) = 0.043 d, β(period) = 0.011 + d, where d is the common drift parameter that cannot be estimated. Thus, the sum of the cohort and period linear drifts can be estimated as β(cohort) + β(period) = 0.043 + 0.011= 0.054. This sum is considerably smaller than the age drift; in particular any period drift can be estimated to be considerably smaller than the age drift: β(age) β(period) = 0.421. No further guidance in the relative size of the cohort and period linear drifts can be obtained from the data. (Rosengren et al, inskickad för publicering)