F10: Intensiteter och Poissonmodeller
Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den s.v. N. Exempel: N = antal olyckor under ett år. N = antal orkaner under ett år. N = antal fel på ett system under en månad. Ibland har vi ett tidsperspektiv, dvs n 1,..., n k är uppmätta i tidsperioderna efter varandra. Exempel: n 1,..., n 10 = antal olyckor under år 2000, 2001,..., 2009.
Frågeställningar Konstant V.v.=Var Cyklister Frågeställningar: Antag att E(N) är konstant m. Vad är en lämplig fördelning för N? Kanske Po(m)? Hur kan vi testa om E(N) är konstant? Ska modellen vara N i Po(m) eller N i Po(m i ) för i = 1,..., k? Modellval med hjälp av Likelihoodfunktionen och Deviance. Hur kan vi modellera hur m i påverkas av andra variabler? Poissonregression.
Frågeställningar Konstant V.v.=Var Cyklister Test av Poissonfördelning konstant väntevärde Ex: MC-förare Antalet dödade MC-förare (och passagerare) i Sverige under perioden 1990 2012 var: 46 37 33 42 31 32 40 36 40 36 39 38 37 47 56 46 55 60 51 47 37 46 31 80 Antalet omkomna mc förare (Källa: Trafikverket) 60 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år
Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts) Modell: N i = antal döda MC-förare år i, i = 1,..., 23 (där i = 1 betyder 1990) med E(N i ) = m i. Är det rimligt att modellera data med en Poissonfördelning med konstant intensitet, dvs N i Po(m) där m 1 =... = m 23 = m? Tänkbara test: q 2 -test. Kräver tyvärr ett större datamaterial än vi har här. Utnyttja att Po(m) N(m, m) om m > 15 och kolla om data ser normalfördelade ut. Vi har m = 1 13 13 i=1 n i = 41.9 > 15 så det borde fungera. Utnyttja att i en Poissonfördelning gäller att E(N) = V(N) = m så att vi borde få x/s 2 1.
Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Ungefär normalfördelat? Probability 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 Normal Probability Plot 35 40 45 50 55 60 Data Ja, det ser hyfsat normalfördelat ut så det är inte uppenbart fel med en Poissonfördelning.
Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Är väntevärdet och variansen lika stora? Utnyttja att i en Poissonfördelning gäller att E(N) = V(N) = m så att vi borde få (V(N)) (E(N)) = s2 x 1 k = k 1 i=1 (n i n) 2 1 k k i=1 n 1. i Gör alltså ett konfidensintervall för kvoten och undersök om det innehåller 1. Vi har x = 41.9 och s 2 = 66.8 så det verkar inte helt lovande.
Frågeställningar Konstant V.v.=Var Cyklister Konfidensintervall för kvoten: Man kan visa att om N är approximativt normalfördelad, där m är stort, så är (k 1)s2 /s 2 (xi x) 2 m = x/m x s 2 q2 (k 1) och ett konfidensintervall för m/s 2 får genom 21 a/2 (k 1)s2 1 a = P (q (k 1) x ( x = P s 2 q2 1 a/2 (k 1) k 1 ) m s 2 q2 a/2 (k 1) ) (k 1) m s 2 x s 2 q2 a/2 k 1
Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Eftersom vi har k = 23, x = 41.9 och s 2 = 66.8 får vi ett 95 % konfidensintervall som ( ) 41.9 I m/s 2 = 66.8 q2 0.975 (23 1), 41.9 23 1 66.8 q2 0.025 (23 1) 23 1 ( 41.9 = 66.8 10.98 22, 41.9 66.8 36.78 ) 22 = (0.31, 1.05) Eftersom intervallet täcker över 1 kan vi inte förkasta att E(N) = V(N). Ja, data skulle kunna komma från en Poissonfördelning med konstant intensitet.
Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister Antalet dödade cyklister i Sverige under perioden 1990 2012 var 68 68 76 70 52 57 49 42 58 45 47 43 42 35 27 38 26 33 30 20 21 21 28 100 Antalet omkomna cyklister (Källa: Trafikverket) 80 60 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år Är det rimligt att modellera data med en Poissonfördelning med konstant intensitet, dvs N i Po(m) där m 1 =... = m 23 = m?
Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister (forts): Ungefär normalfördelat? Probability 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 Normal Probability Plot 20 30 40 50 60 70 Data Ja, x = 43.3 > 15 och det ser hyfsat normalfördelat ut så det är inte uppenbart fel med en Poissonfördelning.
Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister (forts): Är väntevärdet och variansen lika stora? Vi har x = 43.3 och s 2 = 284.1 så det verkar tveksamt. Vi får ett 95 % konfidensintervall som ( ) 43.3 I m/s 2 = 284.1 q2 0.975 (23 1) 43.3, 23 1 284.1 q2 0.025 (23 1) 23 1 ( 43.3 = 284.1 10.98 22, 43.3 284.1 36.78 ) 22 = (0.08, 0.25) Eftersom intervallet inte täcker över 1 kan vi förkasta att E(N) = V(N). Nej, data skulle visserligen kunna vara Poissonfördelade men intensiteten är inte konstant. Det ser ju ut som om intensiteten avtar med tiden. Hur kan vi modellera och testa det?
Exempel LR-test Sverige vs USA MC-förare Val mellan två modeller Vi väljer mellan två modeller, där den ena är en förenkling av den andra. Exempel: MC-förare Är antalet dödade MC-förare varje år poissonfördelat med konstant väntevärde eller varierar väntevärdena från år till år? Exempel: Cyklister Är antalet dödade cyklister varje år poissonfördelat med konstant väntevärde eller avtar väntevärdena med tiden? Exempel: Sverige vs USA År 1998 dog ca n U = 41 500 personer i USA i bilolyckor. Motsvarande siffra i Sverige var ca n S = 500. Total körsträcka detta år uppskattades i USA till t U = 4.14 10 12 (km) och i Sverige till t S = 0.0625 10 12 (km). Är det lika farligt att färdas en km i Sverige som i USA?
Exempel LR-test Sverige vs USA MC-förare Modellval Likelihood ratio-test (LR-test) Vi väljer mellan två modeller: Complex med parameteruppsättning j complex Simple med parameteruppsättning j simple där simple är ett specialfall av complex. Likelihoodfunktionen Likelihoodfunktionen för respektive modell är L(j complex ) = P(att få observerade data j complext ) L(j simple ) = P(att få observerade data j simple ). Det gäller att L(j complex ) > L(j simple ) men är skillnaden tillräckligt stor (statistisk signifikant) för att välja den komplexa modellen? Vi vill inte ha fler parametrar i modellen än nödvändigt.
Exempel LR-test Sverige vs USA MC-förare Likelihood-kvot Betrakta kvoten mellan likelihoodfunktionerna med de skattade parametrarna (maximum!): LR = L(j simple ) L(j complex ). Deviance Man kan visa att om den simpla modellen är korrekt så gäller att DEV = 2 ln(lr) = 2(ln L(j complex ) ln L(j simple )) q2 (p q), p = antal parametrar i den komplexa modellen q = antal parametrar i den simpla modellen Förkasta alltså den simpla modellen till förmån för den komplexa om DEV > q 2 a(p q).
Exempel LR-test Sverige vs USA MC-förare Exempel: Sverige vs USA Två tänkbara modeller: Modell 1 ( simple ) Samma intensitet: N u = antal döda i USA Po(l t u ) N s = antal döda i Sverige Po(l t s ). j simple = l, q = 1. ML-skatta l. Modell 2 ( complex ) Olika intensiteter N u = antal döda i USA Po(l u t u ) N s = antal döda i Sverige Po(l s t s ). j complex = (l u, l s ), p = 2. ML-skatta l u och l s.
Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 1: ML-skattning: L(l) = P(N u = n u l) P(N s = n s l) = e ltu (lt u) nu n u! l(l) = ln L(l) = ln tnu u l(l) = n u + n s l l = n u + n s t u + t s = ts ns n u! n s! lnu+ns e l(tu+ts) e (lt s) ns lts = tnu u n s! ts ns n u! n s! + (n u + n s ) ln l l(t u + t s ) (t u + t s ) = 0 41 500 + 500 4.14 10 12 = 0.9994 10 8 + 0.0625 1012 ln L(l ) = ln tnu u ts ns n u! n s! + (n u + n s ) ln l l (t u + t s ) = ln tnu u ts ns n u! n s! + (n u + n s ) ln l (n u + n s )
Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 2: ML-skattningar: L(l u, l s ) = P(N u = n u l u ) P(N s = n s l s ) = e (l ut lutu u ) nu n u! = tnu u ts ns n u! n s! lnu u l ns s e lsts (l st s ) ns n s! e lutu lsts l(l u, l s ) = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s l u t u l s t s l(l u, l s ) l u l(l u, l s ) l s = n u l u t u = 0 l u = n u t u = = n s l s t s = 0 l s = n s t s = 41 500 = 1.00 10 8 4.14 1012 500 = 0.80 10 8 0.0625 1012
Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 2: Likelihood (forts) ln L(l u, l s ) = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s l ut u l s t s = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s (n u + n s ) Deviance: Modell 1 vs 2 Vi får nu jämförelsen ) DEV = 2 ln LR = 2 (ln L(l complex ) ln L(l simple ) = 2 (ln L(l u, l s ) ln L(l )) = 2 (n u ln l u + n s ln l s (n u + n s ) ln l ) =...
Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) ( DEV = 2 41 500 ln 1.0 10 8 + 500 ln 0.8 10 8 (41 500 + 500) ln 0.9994 10 8) = 27.1 DEV > q 2 a(p q) = q 2 0.05 (2 1) = 3.84 Vi kan förkasta den simpla modellen på signifikansnivå 5 %. Det är alltså signifikant farligare att köra bil i USA jämfört med i Sverige. Anmärkning: DEV = 2 ln LR L complex = e 27.1/2 L simple dvs e 27.1/2 = 760 300 gånger troligare att få exakt de data vi fick med den komplexa modellen jämfört med den simpla.
Exempel LR-test Sverige vs USA MC-förare Ex: MC-förare (igen) Vi vill testa om väntevärdet i poissonfördelningen kan vara konstant eller om varje år har ett eget väntevärde. Simple: N i Po(m). ML-skattning m = n = 41.9. q = 1 Complex: N i Po(m i ). ML-skattningar m i = n i. p = 23. Resultat: DEV =... = 2 ( 23 ) n i ln n i 23 n ln n = 34.2 i=1 DEV > q 2 a(p q) = q 2 0.05 (23 1) = 33.9 Den komplexa modellen är alltså (med nöd och näppe) signifikant bättre än den simpla. Väntevärdet är inte konstant! Man kan nog ana en liten ökning över tid. Hur kan vi avgöra det?
Modell Tolkning MC Cyklister Poissonregression Modellera hur m i beror på andra faktorer. Vid k tillfällen mäter vi både N och p andra variabler. N: responsvariabel (beroende variabel), N i Po(m i ) x 1,..., x p : förklarande variabler (oberoende variabler). Exempel: N = antal trafikdödade, x 1 = tiden, x 2 = antal bilar,... Modell Eftersom m i är väntevärdet i en Poissonfördelning måste den vara positiv. Det kan vi garantera med en log-linjär modell: ln m i = b 0 + b 1 x 1i +... + b p x pi, i = 1,..., k Med p = 0 får vi ln m i = b 0 dvs m i = e b 0 = m och konstant väntevärde.
Modell Tolkning MC Cyklister Exempel: En förklarande variabel: Med p = 1 och en variabel x får vi modellen: ln m i = b 0 + b 1 x i m i = e b 0+b 1 x i = e b0 ( ) e b xi 1 Här kallas e b 1 för rate ratio för variabeln x. Om x ökar med 1 enhet ska väntevärdet m multipliceras med e b 1. Om b 1 = 0 är e b 1 = 1, dvs ingen förändring. Väntevärdet beror inte på x!. Om b 1 > 0 är e b 1 > 1, dvs väntevärdet ökar när x ökar. Om b 1 < 0 är e b 1 < 1, dvs väntevärdet minskar när x ökar.
Modell Tolkning MC Cyklister Ex: MC-förare (igen) Vi vill undersöka om antalet döda ändras (ökar eller minskar) med tiden. Modell: N t = antal döda år t, X t = tiden räknat från år 1990 = t, ln m t = b 0 + b 1 X t = b 0 + b 1 t ML-skattningen av b 0 och b 1 måste lösas numeriskt: b 0 = 3.60 eb 0 = 36.7, b 1 = 0.012 eb 1 = 1.012 Antalet döda MC-förare ökar med, i medeltal, 1.2 % per år.
Modell Tolkning MC Cyklister Ex: MC-förare (forts) 80 Antalet omkomna mc förare (Källa: Trafikverket) 60 40 20 Observationer µ t = µ ln µ t = β 0 + β 1 t 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år Är ökningen signifikant?
Modell Tolkning MC Cyklister Ex: MC-förare (forts) Modeller: Simple: m t = m, dvs konstant (1 parameter). Komplex: ln m t = b 0 + b 1 t, dvs ändras med tiden (2 parametrar). 22 DEV =... = 2 n t (b0 + b 1 t ln m ) = 5.72 t=0 DEV > q 2 0.05 (2 1) = 3.84 Ja, ökningen över tid är signifikant.
Modell Tolkning MC Cyklister Ex: Cyklister (igen) Vi vill undersöka om antalet döda ändras (ökar eller minskar) med tiden. Modell: N t = antal döda år t, X t = tiden räknat från år 1990 = t, ln m t = b 0 + b 1 X t = b 0 + b 1 t, b 0 = 4.31 eb 0 = 74.3, b 1 = 0.055 eb 1 = 0.95 Antalet döda cyklister minskar med, i medeltal, 5 % per år. Är minskningen signifikant? DEV =... = 127.9 > q 2 0.05 (2 1) = 3.84 Ja, minskningen över tid är signifikant.
Modell Tolkning MC Cyklister Ex: Cyklister (forts) Antalet omkomna cyklister (Källa: Trafikverket) 100 80 60 Observationer µ t = µ ln µ t = β 0 + β 1 t 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år