Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Relevanta dokument
PROGRAMFÖRKLARING III

Statistiska metoder för säkerhetsanalys

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

BILAGA II. Extremvärdesstatistik och osäkerhet

Statistiska metoder för säkerhetsanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Datorövning 6 Extremvärden och Peak over Threshold

SF1911: Statistik för bioteknik

Datorövning 6 Extremvärden och Peaks over Threshold

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7. Statistikens grunder.

Skattningsmetoder för den generaliserade extremvärdesfördelningen

Lärmål Sannolikhet, statistik och risk 2015

Value at Risk med Extremvärdesteori En Studie av Råvaror

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

F13 Regression och problemlösning

TMS136. Föreläsning 4

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

BILAGA 1 BERÄKNINGAR HÖGVATTEN

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Introduktion till statistik för statsvetare

4.1 Grundläggande sannolikhetslära

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 4, Matematisk statistik för M

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Matematisk statistik för D, I, Π och Fysiker

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Matematisk statistik för B, K, N, BME och Kemister

f(x) = 2 x2, 1 < x < 2.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

Stokastiska signaler. Mediesignaler

TMS136. Föreläsning 7

Matematisk statistik för D, I, Π och Fysiker

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lufttorkat trä Ugnstorkat trä

Datorövning 1: Fördelningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Demonstration av laboration 2, SF1901

Tentamen MVE302 Sannolikhet och statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamen MVE302 Sannolikhet och statistik

MVE051/MSG Föreläsning 7

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

STOCKHOLMS UNIVERSITET FYSIKUM

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Avd. Matematisk statistik

Statistiska metoder för säkerhetsanalys

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsningsanteckningar till kapitel 8, del 2

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Grundläggande matematisk statistik

Reliability analysis in engineering applications

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Grundläggande matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 15, FMSF45 Multipel linjär regression

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen MVE300 Sannolikhet, statistik och risk

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12: Regression

Kap 2. Sannolikhetsteorins grunder

Avd. Matematisk statistik

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

F9 Konfidensintervall

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 12: Repetition

Kap 3: Diskreta fördelningar

SF1901: Medelfel, felfortplantning

Transkript:

Extremvärden att extrapolera utanför data och utanför teori/modell Statistik för modellval och prediktion p.1/27

Ledning utgjuter sig Centrala Uppsala översvämmades på tisdagskvällen för andra gången den här sommaren. Brandkåren fick rycka ut och länspumpa i många källarvåningar och trafikkaos uppstod. I bl a Samariterhemmets källare och i källaren på Uppsalabuss huvudkontor trängde kloakvattnet upp ur avloppen. Stinkande vatten stod decimeterhögt på golvet. Ledningarna är inte underdimensionerade, det är regnen som är för stora, säger - - - på gatukontoret. (Uppsala Nya Tidning, 1996) Statistik för modellval och prediktion p.2/27

Extremvärden och återkomsttider Beteckning: Maximum M n = max(x 1,X 2,...,X n ) av n oberoende observationer av en variabel Varje X k kan vara ett maximivärde, t ex över ett år Bestäm P(M n x) för stora värden på n och rimliga x-värden 1-årsvärdet x 1 är det värde som överskrids i medeltal en gång på 1 år: P(X 1 > x 1 ) = 1/1 ( P(M 1 > x 1 ) = 1 1 1 1 ) 1 1 1/e =.6321 Statistik för modellval och prediktion p.3/27

eneraliserad extremvärdesfördelning GEV Tre-typs-satsen : Fördelningen för maximum av många oberoende identiskt fördelade variabler kan bara vara fördelade enligt tre olika typer Fréchet, Gumbel, (omvänd) Weibull Modernt: alla samlas i en Generaliserad extremvärdesfördelning GEV: { ( P(M z) exp 1 c z b a ) 1/c Gumbel: c = ; Fréchet: c < ; Weibull: c >. c = form; a = skala; b = läge + } Statistik för modellval och prediktion p.4/27

Simulating från de tre typerna Monte Carlo-simulering av 1 värden från varje typ histogram och plot på Gumbel paper, specialpapper för Gumbelfördelning 1 1 Gumbel Probability Plot 5 ξ = 1 Frechet typ log( log(f)) 5 2 2 4 6 8 1 12 14 16 18 1 5 2 1 1 2 3 4 5 2 15 1 5 ξ = 1 Weibull typ ξ = Gumbel typ 5 4 3 2 1 1 log( log(f)) log( log(f)) 5 2 2 4 6 8 1 12 14 16 18 Gumbel Probability X Plot 6 4 2 2 2 1 1 2 3 4 5 Gumbel Probability X Plot 1 5 5 5 4 3 2 1 1 X Statistik för modellval och prediktion p.5/27

Parameterskattningar Parameterskattning i GEV sker numeriskt genom maximering av Likelihood-funktionen eller med hjälp av en modifierad momentmetod finns i alla statistiska extremvärdespaket Osäkerhetsuppskattning sker med hjälp av Likelihood-funktionen Inte alltid tillförlitligt! extremes ger konfidensintervall för parametrarna N-årsvärdet i GEV-fördelningen skattas genom att man sätter in parameterskattningarna: x N = b + a c (1 ( ln(1 1/N))c ) Statistik för modellval och prediktion p.6/27

Passar modellen diagnostik Kvantilplottar: plotta kvantiler x (k) i data mot kvantiler y (k) i den anpassade fördelningen F emp (x (k) ) = k 1/2 n F fit (y (k) ) = k 1/2 n Sannolikhetsplottar: liknar kvantilplottar men sker emd sannolikheterna i stället Fördelningsplottar: CDF (kumulativ) eller PDF (täthet) extremes skattningsrutiner ger en plott av skattade återkomstvärden med konfidensintervall Statistik för modellval och prediktion p.7/27

Vattennivån i Japanska sjön Vattennivån mäts varje sekund - bilda maximum över 5 minuter, uppenbart inte samma över hela perioden: (m) 2 15 1 Water level 5 5 1 15 2 25 2 Maximum 5 min water level (m) 15 1 5 1 15 2 25 Time (h) Statistik för modellval och prediktion p.8/27

Normera Tag först medelvärde och standardavvikelse för varje 5- minutersperiod, drag bort och dividera. Då har varje period medelvärdet och standardavvikelsen 1. Bilda sedan maximum över 5 minuter och anpassa en GEV fördelning Statistik för modellval och prediktion p.9/27

GEV anpassad till 5-min maximum 1 Probability plot 1.2 Density plot.8 1.6.8 F(x).4.6.4.2.2 2 3 4 5 6 x 2 3 4 5 6 x 5 4.5 Residual Quantile Plot 1.8 Residual Probability Plot Model (gev) 4 3.5 Model (gev).6.4 3 2.5 3 4 5 Empirical.2.5 1 Empirical Statistik för modellval och prediktion p.1/27

Extremvärdesteorins dilemma Man vill alltid uttala sig om det man sällan observerat, t.o.m. om det man aldrig observerat!. Hur kan man säga något om 1-årsvärdet om man bara har värden från 2 år? Statistik för modellval och prediktion p.11/27

2 år av månadsdata 5 2 years of monthly data 4.5 4 3.5 3 2.5 2 1.5 1.5 5 1 15 2 Statistik för modellval och prediktion p.12/27

Överskott över tröskelnivå Slöseri med data att bara använda årliga maximum. Använd också mindre extrema värden, näst högsta, osv. 2 års månadsdata = 24 observationer men bara 2 årliga maxima År 7 har minsta maximivärdet X 7 = 1.67 och 42 månadsvärden är större än 1.67! Kan man använda alla 42? Eller varför inte 48 värden större än 1.5. Eller 84 värden 1? Statistik för modellval och prediktion p.13/27

Poisson-fördelat antal överskott Bestäm en någorlunda hög tröskelnivå u pröva några olika Uppskatta förväntade antalet överskott λ = λ u per tidsenhet (t ex per år) med λ = Observerat antal överskott Totala observationstiden Ex: med 48 värden över 1.5 under 2 år ger skattningen = 48/2 = 2.4 λ 1.5 Antag att antalet överskott N över tröskeln u under ett år är Poisson-fördelat P(N = k) = e λ k λ /λ! Statistik för modellval och prediktion p.14/27

Generaliserad Pareto fördelning - GPD Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är Nästan alla fördelningar har en Generaliserad Pareto-svans, GPD Med Y = X u = överskottet över nivån u gäller approximativt P(Y y) 1 ( 1 c y ) 1/c a + Exponentiell svans: c = ; Tung svans: c < ; Begränsad svans: c > Statistik för modellval och prediktion p.15/27

GPD-svans i normalfördelningen Svansen i normalfördelningen är GPD med c = 8 Normal distribution 6 4 2 4 3 2 1 1 2 3 4 1 The tail > 2 of a normal distribution.8 F(x).6.4 Red = empirical cdf of exceedances over 2 Blue = estimated GPD.2.2.4.6.8 1 1.2 1.4 1.6 x 1.8 Statistik för modellval och prediktion p.16/27

Poisson + GPD = GEV N = antalet överskott Y j = X j u över u är Poissonfördelat med väntevärde λ Överskottens storlek Y 1,...,Y N, är ungefär GPD Med M = årligt maximum = u + max(y 1,...,Y N ), så är för x > u: P(M x) = P(N = ) + =... = exp { λ P(N = n,y 1,...,Y n x u) n=1 ( 1 + ξ x u σ ) 1/ξ + } (1) Statistik för modellval och prediktion p.17/27

Poisson + GPD = GEV, forts Formel (1) är en GEV-fördelning P(M x) = exp { ( 1 + ξ x µ ψ Översättning från Poisson+GPD till GEV: ψ = σ λ ξ µ = u + ψ σ ξ ) 1/ξ För att få maximum över n år, ersätt λ med nλ i (1) + } Statistik för modellval och prediktion p.18/27

Val av tröskel Hur välja tröskeln u? Obs: antag GPD ovanför nivån u Diagnostik: En GPD har linjärt medelöverskott E(X u X > u) = σ + ξu 1 ξ Plotta medelvärdet av alla överskott över nivån u som funktion av u. Välj det minsta u-värdet där kurvan till höger ser linjär ut Lutningen är ξ/(1 ξ) om ξ < 1. Statistik för modellval och prediktion p.19/27

Medelöverskott över tröskel Plott av E(X u X > u) för 2 år med månadsdata: 1.2 Mean exceedance over threshold 1.1 1.9.8.7.6.5.4.3.2 1 1.5 2 2.5 3 3.5 4 Statistik för modellval och prediktion p.2/27

Diagnostik i GPD-analys En plott av medelöverskottet är svår att tolka Alternativ: Skatta en full GPD för olika trösklar Om svansen ovanför u är GPD så är alla överskott över u > u också GPD med samma formparameter ξ men med olika skalparameter σ u = σ u + ξ (u u ) Modifieras skala = σ u ξ u bör vara konstant om GPD-fördelningen passar Statistik för modellval och prediktion p.21/27

Uppskattad CDF för årsmaximum Från 2 årsmaxima: c =.14, b = 2.81, a =.77 1 Empirical and GEV estimated cdf (PWM method).9.8.7 True CDF for yearly maximum F(x).6.5.4.3.2 CDF for estimated GEV.1 1 2 3 4 5 x Statistik för modellval och prediktion p.22/27

Uppskattad CDF med POT-metoden 84 överskott över u = 1 och GPD-skattning ger c =.4, b = 2.38, a =.93 1 Tail probability 1 1 Tail by POT method True CDF 1 2 Tail by direct GEV estimation 1 3 1 4 2 3 4 5 6 7 8 9 1 Statistik för modellval och prediktion p.23/27

Olyckor i Engelska kolgruvor Tidpunkt och antal döda i engelska kolgruvor 1861-1962 45 4 35 3 25 2 15 1 5 186 188 19 192 194 196 Statistik för modellval och prediktion p.24/27

GEV? GEV på alla data är inte riktigt logiskt men bra ändå : Empirical and GEV estimated cdf (PWM method) 1.9.8.7.6 F(x).5.4.3.2.1 1 2 3 4 5 x Statistik för modellval och prediktion p.25/27

Specialstudera riktigt svåra olyckor - POT 25 olyckor med > 1 döda. Anpassa en GPD till data > 1. 1% av dessa överstiger 35. 1.9.8.7.6 CDF for deaths > 1 and GPD F(x).5.4.3.2.1 1 2 3 4 5 6 x Statistik för modellval och prediktion p.26/27

Regn i Venezuela - GEV eller Gumbel? Gumbelfördelningen är GEV med formparameter =. Baserat på regndata från 1951-1998 uppskattade man fördelningen för maximala regmängden under ett dygn. GEV med a = 19.9,b = 49.2,c =.16. Formparametern c är inte signifikant skild från och man skulle kunna anta en Gumbelfördelning i stället för en GEV. Det ger 1 års värdet på dygnsregnet till x 1 = 249 mm. Under 1999 inträffade en katstrof med 41 mm regn under ett dygn. Med den fulla GEV hade man uppskatta x 1 = 468 mm, dvs betydligt närmare. Gör man dessutom ett konfidensintervall får man att med 95% konfidens är x 1 < 13 mm. Statistik för modellval och prediktion p.27/27