Statistiska metoder för säkerhetsanalys

Relevanta dokument
MVE051/MSG Föreläsning 7

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Några extra övningsuppgifter i Statistisk teori

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik KTH. Formelsamling i matematisk statistik

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 12: Repetition

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Tentamen MVE301 Sannolikhet, statistik och risk

MVE051/MSG Föreläsning 14

Statistiska metoder för säkerhetsanalys

Statistisk analys av komplexa data

TMS136. Föreläsning 4

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

0 om x < 0, F X (x) = c x. 1 om x 2.

PROGRAMFÖRKLARING III

Tentamen MVE302 Sannolikhet och statistik

TMS136. Föreläsning 13

Datorövning 4 Poissonregression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 12: Regression

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 12: Linjär regression

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik TMS064/TMS063 Tentamen

Våra vanligaste fördelningar

Föreläsning 13: Multipel Regression

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen MVE301 Sannolikhet, statistik och risk

FACIT: Tentamen L9MA30, LGMA30

Binomialfördelning, två stickprov

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

F13 Regression och problemlösning

TMS136. Föreläsning 7

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen MVE301 Sannolikhet, statistik och risk

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

TMS136. Föreläsning 11

FÖRELÄSNING 7:

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

Lärmål Sannolikhet, statistik och risk 2015

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 11: Mer om jämförelser och inferens

TMS136. Föreläsning 10

Lektionsanteckningar 11-12: Normalfördelningen

Statistiska metoder för säkerhetsanalys

Examinationsuppgifter del 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

3 Maximum Likelihoodestimering

Avd. Matematisk statistik

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

TMS136: Dataanalys och statistik Tentamen

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Lycka till!

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8: Konfidensintervall

4.1 Grundläggande sannolikhetslära

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

Avd. Matematisk statistik

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Tentamen i Matematisk statistik Kurskod S0001M

Avd. Matematisk statistik

Avd. Matematisk statistik

Statistiska metoder för säkerhetsanalys

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 7. Statistikens grunder.

Avd. Matematisk statistik

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

, s a. , s b. personer från Alingsås och n b

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Demonstration av laboration 2, SF1901

Avd. Matematisk statistik

Transkript:

F10: Intensiteter och Poissonmodeller

Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den s.v. N. Exempel: N = antal olyckor under ett år. N = antal orkaner under ett år. N = antal fel på ett system under en månad. Ibland har vi ett tidsperspektiv, dvs n 1,..., n k är uppmätta i tidsperioderna efter varandra. Exempel: n 1,..., n 10 = antal olyckor under år 2000, 2001,..., 2009.

Frågeställningar Konstant V.v.=Var Cyklister Frågeställningar: Antag att E(N) är konstant m. Vad är en lämplig fördelning för N? Kanske Po(m)? Hur kan vi testa om E(N) är konstant? Ska modellen vara N i Po(m) eller N i Po(m i ) för i = 1,..., k? Modellval med hjälp av Likelihoodfunktionen och Deviance. Hur kan vi modellera hur m i påverkas av andra variabler? Poissonregression.

Frågeställningar Konstant V.v.=Var Cyklister Test av Poissonfördelning konstant väntevärde Ex: MC-förare Antalet dödade MC-förare (och passagerare) i Sverige under perioden 1990 2012 var: 46 37 33 42 31 32 40 36 40 36 39 38 37 47 56 46 55 60 51 47 37 46 31 80 Antalet omkomna mc förare (Källa: Trafikverket) 60 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år

Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts) Modell: N i = antal döda MC-förare år i, i = 1,..., 23 (där i = 1 betyder 1990) med E(N i ) = m i. Är det rimligt att modellera data med en Poissonfördelning med konstant intensitet, dvs N i Po(m) där m 1 =... = m 23 = m? Tänkbara test: q 2 -test. Kräver tyvärr ett större datamaterial än vi har här. Utnyttja att Po(m) N(m, m) om m > 15 och kolla om data ser normalfördelade ut. Vi har m = 1 13 13 i=1 n i = 41.9 > 15 så det borde fungera. Utnyttja att i en Poissonfördelning gäller att E(N) = V(N) = m så att vi borde få x/s 2 1.

Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Ungefär normalfördelat? Probability 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 Normal Probability Plot 35 40 45 50 55 60 Data Ja, det ser hyfsat normalfördelat ut så det är inte uppenbart fel med en Poissonfördelning.

Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Är väntevärdet och variansen lika stora? Utnyttja att i en Poissonfördelning gäller att E(N) = V(N) = m så att vi borde få (V(N)) (E(N)) = s2 x 1 k = k 1 i=1 (n i n) 2 1 k k i=1 n 1. i Gör alltså ett konfidensintervall för kvoten och undersök om det innehåller 1. Vi har x = 41.9 och s 2 = 66.8 så det verkar inte helt lovande.

Frågeställningar Konstant V.v.=Var Cyklister Konfidensintervall för kvoten: Man kan visa att om N är approximativt normalfördelad, där m är stort, så är (k 1)s2 /s 2 (xi x) 2 m = x/m x s 2 q2 (k 1) och ett konfidensintervall för m/s 2 får genom 21 a/2 (k 1)s2 1 a = P (q (k 1) x ( x = P s 2 q2 1 a/2 (k 1) k 1 ) m s 2 q2 a/2 (k 1) ) (k 1) m s 2 x s 2 q2 a/2 k 1

Frågeställningar Konstant V.v.=Var Cyklister Ex: MC-förare (forts): Eftersom vi har k = 23, x = 41.9 och s 2 = 66.8 får vi ett 95 % konfidensintervall som ( ) 41.9 I m/s 2 = 66.8 q2 0.975 (23 1), 41.9 23 1 66.8 q2 0.025 (23 1) 23 1 ( 41.9 = 66.8 10.98 22, 41.9 66.8 36.78 ) 22 = (0.31, 1.05) Eftersom intervallet täcker över 1 kan vi inte förkasta att E(N) = V(N). Ja, data skulle kunna komma från en Poissonfördelning med konstant intensitet.

Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister Antalet dödade cyklister i Sverige under perioden 1990 2012 var 68 68 76 70 52 57 49 42 58 45 47 43 42 35 27 38 26 33 30 20 21 21 28 100 Antalet omkomna cyklister (Källa: Trafikverket) 80 60 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år Är det rimligt att modellera data med en Poissonfördelning med konstant intensitet, dvs N i Po(m) där m 1 =... = m 23 = m?

Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister (forts): Ungefär normalfördelat? Probability 0.98 0.95 0.90 0.75 0.50 0.25 0.10 0.05 0.02 Normal Probability Plot 20 30 40 50 60 70 Data Ja, x = 43.3 > 15 och det ser hyfsat normalfördelat ut så det är inte uppenbart fel med en Poissonfördelning.

Frågeställningar Konstant V.v.=Var Cyklister Ex: Cyklister (forts): Är väntevärdet och variansen lika stora? Vi har x = 43.3 och s 2 = 284.1 så det verkar tveksamt. Vi får ett 95 % konfidensintervall som ( ) 43.3 I m/s 2 = 284.1 q2 0.975 (23 1) 43.3, 23 1 284.1 q2 0.025 (23 1) 23 1 ( 43.3 = 284.1 10.98 22, 43.3 284.1 36.78 ) 22 = (0.08, 0.25) Eftersom intervallet inte täcker över 1 kan vi förkasta att E(N) = V(N). Nej, data skulle visserligen kunna vara Poissonfördelade men intensiteten är inte konstant. Det ser ju ut som om intensiteten avtar med tiden. Hur kan vi modellera och testa det?

Exempel LR-test Sverige vs USA MC-förare Val mellan två modeller Vi väljer mellan två modeller, där den ena är en förenkling av den andra. Exempel: MC-förare Är antalet dödade MC-förare varje år poissonfördelat med konstant väntevärde eller varierar väntevärdena från år till år? Exempel: Cyklister Är antalet dödade cyklister varje år poissonfördelat med konstant väntevärde eller avtar väntevärdena med tiden? Exempel: Sverige vs USA År 1998 dog ca n U = 41 500 personer i USA i bilolyckor. Motsvarande siffra i Sverige var ca n S = 500. Total körsträcka detta år uppskattades i USA till t U = 4.14 10 12 (km) och i Sverige till t S = 0.0625 10 12 (km). Är det lika farligt att färdas en km i Sverige som i USA?

Exempel LR-test Sverige vs USA MC-förare Modellval Likelihood ratio-test (LR-test) Vi väljer mellan två modeller: Complex med parameteruppsättning j complex Simple med parameteruppsättning j simple där simple är ett specialfall av complex. Likelihoodfunktionen Likelihoodfunktionen för respektive modell är L(j complex ) = P(att få observerade data j complext ) L(j simple ) = P(att få observerade data j simple ). Det gäller att L(j complex ) > L(j simple ) men är skillnaden tillräckligt stor (statistisk signifikant) för att välja den komplexa modellen? Vi vill inte ha fler parametrar i modellen än nödvändigt.

Exempel LR-test Sverige vs USA MC-förare Likelihood-kvot Betrakta kvoten mellan likelihoodfunktionerna med de skattade parametrarna (maximum!): LR = L(j simple ) L(j complex ). Deviance Man kan visa att om den simpla modellen är korrekt så gäller att DEV = 2 ln(lr) = 2(ln L(j complex ) ln L(j simple )) q2 (p q), p = antal parametrar i den komplexa modellen q = antal parametrar i den simpla modellen Förkasta alltså den simpla modellen till förmån för den komplexa om DEV > q 2 a(p q).

Exempel LR-test Sverige vs USA MC-förare Exempel: Sverige vs USA Två tänkbara modeller: Modell 1 ( simple ) Samma intensitet: N u = antal döda i USA Po(l t u ) N s = antal döda i Sverige Po(l t s ). j simple = l, q = 1. ML-skatta l. Modell 2 ( complex ) Olika intensiteter N u = antal döda i USA Po(l u t u ) N s = antal döda i Sverige Po(l s t s ). j complex = (l u, l s ), p = 2. ML-skatta l u och l s.

Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 1: ML-skattning: L(l) = P(N u = n u l) P(N s = n s l) = e ltu (lt u) nu n u! l(l) = ln L(l) = ln tnu u l(l) = n u + n s l l = n u + n s t u + t s = ts ns n u! n s! lnu+ns e l(tu+ts) e (lt s) ns lts = tnu u n s! ts ns n u! n s! + (n u + n s ) ln l l(t u + t s ) (t u + t s ) = 0 41 500 + 500 4.14 10 12 = 0.9994 10 8 + 0.0625 1012 ln L(l ) = ln tnu u ts ns n u! n s! + (n u + n s ) ln l l (t u + t s ) = ln tnu u ts ns n u! n s! + (n u + n s ) ln l (n u + n s )

Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 2: ML-skattningar: L(l u, l s ) = P(N u = n u l u ) P(N s = n s l s ) = e (l ut lutu u ) nu n u! = tnu u ts ns n u! n s! lnu u l ns s e lsts (l st s ) ns n s! e lutu lsts l(l u, l s ) = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s l u t u l s t s l(l u, l s ) l u l(l u, l s ) l s = n u l u t u = 0 l u = n u t u = = n s l s t s = 0 l s = n s t s = 41 500 = 1.00 10 8 4.14 1012 500 = 0.80 10 8 0.0625 1012

Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) Modell 2: Likelihood (forts) ln L(l u, l s ) = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s l ut u l s t s = ln tnu u ts ns n u! n s! + n u ln l u + n s ln l s (n u + n s ) Deviance: Modell 1 vs 2 Vi får nu jämförelsen ) DEV = 2 ln LR = 2 (ln L(l complex ) ln L(l simple ) = 2 (ln L(l u, l s ) ln L(l )) = 2 (n u ln l u + n s ln l s (n u + n s ) ln l ) =...

Exempel LR-test Sverige vs USA MC-förare Ex: Sverige vs USA (forts) ( DEV = 2 41 500 ln 1.0 10 8 + 500 ln 0.8 10 8 (41 500 + 500) ln 0.9994 10 8) = 27.1 DEV > q 2 a(p q) = q 2 0.05 (2 1) = 3.84 Vi kan förkasta den simpla modellen på signifikansnivå 5 %. Det är alltså signifikant farligare att köra bil i USA jämfört med i Sverige. Anmärkning: DEV = 2 ln LR L complex = e 27.1/2 L simple dvs e 27.1/2 = 760 300 gånger troligare att få exakt de data vi fick med den komplexa modellen jämfört med den simpla.

Exempel LR-test Sverige vs USA MC-förare Ex: MC-förare (igen) Vi vill testa om väntevärdet i poissonfördelningen kan vara konstant eller om varje år har ett eget väntevärde. Simple: N i Po(m). ML-skattning m = n = 41.9. q = 1 Complex: N i Po(m i ). ML-skattningar m i = n i. p = 23. Resultat: DEV =... = 2 ( 23 ) n i ln n i 23 n ln n = 34.2 i=1 DEV > q 2 a(p q) = q 2 0.05 (23 1) = 33.9 Den komplexa modellen är alltså (med nöd och näppe) signifikant bättre än den simpla. Väntevärdet är inte konstant! Man kan nog ana en liten ökning över tid. Hur kan vi avgöra det?

Modell Tolkning MC Cyklister Poissonregression Modellera hur m i beror på andra faktorer. Vid k tillfällen mäter vi både N och p andra variabler. N: responsvariabel (beroende variabel), N i Po(m i ) x 1,..., x p : förklarande variabler (oberoende variabler). Exempel: N = antal trafikdödade, x 1 = tiden, x 2 = antal bilar,... Modell Eftersom m i är väntevärdet i en Poissonfördelning måste den vara positiv. Det kan vi garantera med en log-linjär modell: ln m i = b 0 + b 1 x 1i +... + b p x pi, i = 1,..., k Med p = 0 får vi ln m i = b 0 dvs m i = e b 0 = m och konstant väntevärde.

Modell Tolkning MC Cyklister Exempel: En förklarande variabel: Med p = 1 och en variabel x får vi modellen: ln m i = b 0 + b 1 x i m i = e b 0+b 1 x i = e b0 ( ) e b xi 1 Här kallas e b 1 för rate ratio för variabeln x. Om x ökar med 1 enhet ska väntevärdet m multipliceras med e b 1. Om b 1 = 0 är e b 1 = 1, dvs ingen förändring. Väntevärdet beror inte på x!. Om b 1 > 0 är e b 1 > 1, dvs väntevärdet ökar när x ökar. Om b 1 < 0 är e b 1 < 1, dvs väntevärdet minskar när x ökar.

Modell Tolkning MC Cyklister Ex: MC-förare (igen) Vi vill undersöka om antalet döda ändras (ökar eller minskar) med tiden. Modell: N t = antal döda år t, X t = tiden räknat från år 1990 = t, ln m t = b 0 + b 1 X t = b 0 + b 1 t ML-skattningen av b 0 och b 1 måste lösas numeriskt: b 0 = 3.60 eb 0 = 36.7, b 1 = 0.012 eb 1 = 1.012 Antalet döda MC-förare ökar med, i medeltal, 1.2 % per år.

Modell Tolkning MC Cyklister Ex: MC-förare (forts) 80 Antalet omkomna mc förare (Källa: Trafikverket) 60 40 20 Observationer µ t = µ ln µ t = β 0 + β 1 t 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år Är ökningen signifikant?

Modell Tolkning MC Cyklister Ex: MC-förare (forts) Modeller: Simple: m t = m, dvs konstant (1 parameter). Komplex: ln m t = b 0 + b 1 t, dvs ändras med tiden (2 parametrar). 22 DEV =... = 2 n t (b0 + b 1 t ln m ) = 5.72 t=0 DEV > q 2 0.05 (2 1) = 3.84 Ja, ökningen över tid är signifikant.

Modell Tolkning MC Cyklister Ex: Cyklister (igen) Vi vill undersöka om antalet döda ändras (ökar eller minskar) med tiden. Modell: N t = antal döda år t, X t = tiden räknat från år 1990 = t, ln m t = b 0 + b 1 X t = b 0 + b 1 t, b 0 = 4.31 eb 0 = 74.3, b 1 = 0.055 eb 1 = 0.95 Antalet döda cyklister minskar med, i medeltal, 5 % per år. Är minskningen signifikant? DEV =... = 127.9 > q 2 0.05 (2 1) = 3.84 Ja, minskningen över tid är signifikant.

Modell Tolkning MC Cyklister Ex: Cyklister (forts) Antalet omkomna cyklister (Källa: Trafikverket) 100 80 60 Observationer µ t = µ ln µ t = β 0 + β 1 t 40 20 0 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 år