Statistiska metoder för säkerhetsanalys

Relevanta dokument
PROGRAMFÖRKLARING III

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Datorövning 6 Extremvärden och Peak over Threshold

Datorövning 6 Extremvärden och Peaks over Threshold

Matematisk statistik för D, I, Π och Fysiker

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 5, FMSF45 Summor och väntevärden

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Föreläsning 5, Matematisk statistik Π + E

SF1901: Sannolikhetslära och statistik

Statistiska metoder för säkerhetsanalys

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

Statistiska metoder för säkerhetsanalys

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys

SF1901 Sannolikhetsteori och statistik I

SF1911: Statistik för bioteknik

Några extra övningsuppgifter i Statistisk teori

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Kap 2. Sannolikhetsteorins grunder

TMS136. Föreläsning 4

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen MVE301 Sannolikhet, statistik och risk

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamensskrivning i stokastik MAGB64, 7.5 ECTS den 8 juni 2012 kl 14 19

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

Lärmål Sannolikhet, statistik och risk 2015

STATISTISKA INSTITUTIONEN Jakob Bergman

Föreläsning 12: Repetition

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Statistiska metoder för säkerhetsanalys

SF1901 Sannolikhetsteori och statistik I

6. Flerdimensionella stokastiska variabler

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Weibullanalys. Maximum-likelihoodskattning

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Demonstration av laboration 2, SF1901

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

SF1901 Sannolikhetsteori och statistik I

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen MVE301 Sannolikhet, statistik och risk

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

FINGERÖVNINGAR I SANNOLIKHETSTEORI MATEMATISK STATISTIK AK FÖR I. Oktober Matematikcentrum Matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

SF1901: SANNOLIKHETSTEORI OCH FLERDIMENSIONELLA STOKASTISKA STATISTIK VARIABLER. Tatjana Pavlenko. 8 september 2017

Skattningsmetoder för den generaliserade extremvärdesfördelningen

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

BILAGA II. Extremvärdesstatistik och osäkerhet

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Reliability analysis in engineering applications

Problemdel 1: Uppgift 1

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 6, Matematisk statistik Π + E

Tentamen MVE301 Sannolikhet, statistik och risk

f(x) = 2 x2, 1 < x < 2.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Datorövning 3 Bootstrap och Bayesiansk analys

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 11: Mer om jämförelser och inferens

Extremvärdesteori och POT-modellen

Avd. Matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

TMS136. Föreläsning 5

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Föreläsning 3. Sannolikhetsfördelningar

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TAMS17/TEN1 STATISTISK TEORI FK TENTAMEN ONSDAG 10/ KL

Exempel på tentamensuppgifter

TMS136: Dataanalys och statistik Tentamen

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Extremvärdesteori som ett hjälpmedel att sätta gränser

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

SF1901: Övningshäfte

Datorövning 3 Bootstrap och Bayesiansk analys

TENTAMEN I STATISTIKENS GRUNDER 1

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Transkript:

F13: Kvantiler och extremvärden

Lysrör Extremvärden Vi hade tidigare (Kedja) att om X i var oberoende och Rayleigh-fördelade så blev Y = min(x 1,..., X n ) också Rayleighfördelad. Vad händer med Z = max(x 1,..., X n )? Exempel: Lysrör En viss typ av lysrör har livslängder som kan anses vara exponentialfördelade med väntevärde 1 år. I ett rum finns 100 lysrör. (a) Beräkna 100-års-livslängden, dvs x 0.01. (b) Hur stor är sannolikheten att minst ett av de 100 lysrören har en livslängd som överstiger x 0.01? (c) Beräkna fördelningen för tiden tills alla lysrören gått sönder. (d) Vad händer med fördelningen då antalet lysrör växer?

Lysrör Ex: Lysrör (forts): (a) Vi har livslängderna X i med F X (x) = P(X x) = 1 e x så att P(X > x 0.01 ) = e x 0.01 = 0.01 x 0.01 = ln 0.01 4.6 år. (b) Vi har P(max(X 1,..., X 100 ) > x 0.01 ) = = 1 P(max(X 1,..., X 100 ) x 0.01 ) = 1 (P(X i x 0.01 )) 100 = 1 (1 1 100 )100 1 e 1 = 0.6321

Lysrör Ex: Lysrör (forts): (c) Vi söker fördelningen för Z = max(x 1,..., X 100 ), dvs F Z (x) = P(Z x) = P(max(X 1,..., X 100 ) x) = P(X 1 x,..., X 100 x) = (P(X x)) 100 = (F X (x)) 100 = (1 e x ) 100, x > 0, f Z (x) = F Z (x) = 100 f X(x) (F X (x)) 100 1 (d) För stora n har vi att = 100 e x (1 e x ) 100 1, x > 0 F Z (x) = (1 e x ) n = (1 e (x ln n) dvs en Gumbel-fördelning med a = 1 och b = ln n. n ) n e (x ln n) e

Lysrör 1 0.8 0.6 0.4 Maximum av n st Exp(1) n=1 n=2 n=10 n=50 n=250 0.2 0 2 0 2 4 6 8 10 x 1 0.8 0.6 0.4 Gumbelfördelningar med a=1, b=ln n n=1 n=2 n=10 n=50 n=250 0.2 0 2 0 2 4 6 8 10 x

Definition Lysrör Generaliserad extremvärdesfördelning GEV Maximum, Z = max(x 1,..., X n ), av många oberoende identiskt fördelade stokastiska variabler kan bara vara fördelade enligt tre olika typer: Fréchet, Gumbel eller (omvänd) Weibull. De tre sammanfattas som en Generaliserad extremvärdesfördelning (GEV): { ( P(Z z) exp 1 c z b ) } 1/c = a = z b (1 c e a )1/c c < 0, z > b + a/c, Fréchet e e (z b)/a, c = 0, < z <, Gumbel z b (1 c e c = form, a = skala, b = läge. a )1/c c > 0, z < b + a/c, Weibull +

Definition Lysrör GEV (forts): Tung svans uppåt om c < 0, begränsad svans om c > 0. 0.7 0.6 0.5 GEV med a=1, b=0 c = 0.6 c = 0 c = 1 0.4 0.3 0.2 0.1 0 6 4 2 0 2 4 6 z a-kvantilen i GEV-fördelningen ges av z a = { b + a c (1 ( ln(1 a))c ), c 0, b a ln( ln(1 a)), c = 0

Definition Lysrör Ex: Lysrör (forts): (e) En stor fastighetsägare har 50 rum med 100 lysrör i varje. Beräkna 50- års -lystiden för den maximala lystiden för de olika rummen, dvs den lystid som överstigs i medeltal en gång på 50 rum. Vi har att Z = max(x 1,..., X 100 ) = maximal lystid i ett rum är ungefär Gumbelfördelad med parametrar a = 1 och b = ln 100 så att P(Z > z 50 ) = 1 (1 e z 50 ) 100 1 e e (z 50 ln 100) = 1 50 z 50 = ln(1 (1 1 50 )1/100 ) = 8.5072 år (Exakt) z 50 = ln 100 ln( ln(1 1 )) = 8.5071 år 50 (Approx.) (Det skiljer ungefär 53 minuter.)

Lysrör POT GPD ny GEV Skattning av stora kvantiler Antag att vi inte känner fördelningen för livslängderna men ändå vill skatta kvantiler långt ute i svansen, t.ex. har vi observerat livslängderna för de 100 lysrören i vart och ett av 50 rum, dvs 5000 lysrör. 30 25 20 15 10 5 0 Observerade livslängder (år) för 5000 lysrör 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Lysrör (nr) Hur kan vi skatta svansen i fördelningen?

Lysrör POT GPD ny GEV Max-fördelning Vi vet att maximum av livslängderna för många lysrör är ungefär GEV-fördelat så vi skulle kunna använda maximum för de 50 rummens lysrör istället: Maximal livslängd i 50 rum med 100 lysrör i varje 30 25 per lysrör per rum 20 15 10 5 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Lysrör (nr)

Lysrör POT GPD ny GEV Max-fördelning (forts): Slöseri med data att bara använda rumsmaxima. Använd också mindre extrema värden, näst högsta, osv. 50 rumsmaxima = 5000 observationer men bara 50 maxima. Rum 1 har minsta maxvärdet Z = 3.7 och 311 lysrör har längre livslängd än så! Kan man använda alla 311? Eller varför inte de 405 värden som är större än 3.0? Eller 648 värden större än 2.0?

Lysrör POT GPD ny GEV Överskott över tröskelnivå (Peaks Over Threshold) Använd alla värden som överstiger en viss nivå. Bestäm en någorlunda hög tröskelnivå u (pröva några olika). Uppskatta förväntat antal överskott l = l u per tidsenhet (t.ex. per år) med l observerat antal överskott = totala observationsperioden Antag att antalet överskott N över tröskeln u under ett år är poissonfördelat: Ex: Lysrör (forts): P(N = k) = e l lk Med u = 3.0 får vi l = 405/5000 = 0.08., k = 0, 1, 2,... k!

Lysrör POT GPD ny GEV Generaliserad Paretofördelning Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är. Nästan alla fördelningar har en Generaliserad Pareto-svans (GPD). Med Y = X u = överskottet över nivån u gäller approximativt ( 1 1 c y ) 1/c, c 0 P(Y y) a + 1 e y/a, c = 0, Exponential Tung svans om c < 0, begränsad svans om c > 0. Skatta a och c med ML-metoden. Ex: Lysrör (forts): Med Matlab får vi a = 3.08 och c = 0.20.

Lysrör POT GPD ny GEV 0.6 0.5 0.4 0.3 0.2 0.1 GPD med a=2 c = 0.6 c = 0 c = 1 0 1 0 1 2 3 4 5 6 7 8 9 10 y Överskott över nivån u = 3 år 0.3 0.25 Observerade överskott Skattad Generaliserad Pareto (c = 0.20, a=3.08) 0.2 0.15 0.1 0.05 0 0 5 10 15 20 25 Y = X u

Lysrör POT GPD ny GEV Poisson + GPD = GEV N(t) = antalet överskott över u under t år är poissonfördelat med väntevärde lt. Överskottens storlek Y 1,..., Y N är ungefär GPD. Med Z t = t-årligt maximum = u + max(y 1,..., Y N ), så är, för z > u: P(Z t z) = P(N(t) = 0) + =... = exp ( P(N(t) = n, Y 1,..., Y n z u) n=1 ( 1 c z m s där s = a (lt) c och m = u + s a. c ) 1/c + )

Lysrör POT GPD ny GEV Ex: Lysrör (forts): För 50 000 lysrör har vi, t.ex. s = a (l 50 000) c = 0.58 och m = u + s a c = 15.45 och 1 %-kvantilen z 0.01 = m + s c (1 ( ln(1 0.01))c ) = 19.85 år. 0.7 0.6 0.5 Skattad fördelning för maximal livslängd Max av 100 lysrör Max av 5000 lysrör Max av 50000 lysrör 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 Livslängd (år) OBS: osäker skattning!