Extremvärden att extrapolera utanför data och utanför teori/modell Statistik för modellval och prediktion p.1/27
Ledning utgjuter sig Centrala Uppsala översvämmades på tisdagskvällen för andra gången den här sommaren. Brandkåren fick rycka ut och länspumpa i många källarvåningar och trafikkaos uppstod. I bl a Samariterhemmets källare och i källaren på Uppsalabuss huvudkontor trängde kloakvattnet upp ur avloppen. Stinkande vatten stod decimeterhögt på golvet. Ledningarna är inte underdimensionerade, det är regnen som är för stora, säger - - - på gatukontoret. (Uppsala Nya Tidning, 1996) Statistik för modellval och prediktion p.2/27
Extremvärden och återkomsttider Beteckning: Maximum M n = max(x 1,X 2,...,X n ) av n oberoende observationer av en variabel Varje X k kan vara ett maximivärde, t ex över ett år Bestäm P(M n x) för stora värden på n och rimliga x-värden 1-årsvärdet x 1 är det värde som överskrids i medeltal en gång på 1 år: P(X 1 > x 1 ) = 1/1 ( P(M 1 > x 1 ) = 1 1 1 1 ) 1 1 1/e =.6321 Statistik för modellval och prediktion p.3/27
eneraliserad extremvärdesfördelning GEV Tre-typs-satsen : Fördelningen för maximum av många oberoende identiskt fördelade variabler kan bara vara fördelade enligt tre olika typer Fréchet, Gumbel, (omvänd) Weibull Modernt: alla samlas i en Generaliserad extremvärdesfördelning GEV: { ( P(M z) exp 1 c z b a ) 1/c Gumbel: c = ; Fréchet: c < ; Weibull: c >. c = form; a = skala; b = läge + } Statistik för modellval och prediktion p.4/27
Simulating från de tre typerna Monte Carlo-simulering av 1 värden från varje typ histogram och plot på Gumbel paper, specialpapper för Gumbelfördelning 1 1 Gumbel Probability Plot 5 ξ = 1 Frechet typ log( log(f)) 5 2 2 4 6 8 1 12 14 16 18 1 5 2 1 1 2 3 4 5 2 15 1 5 ξ = 1 Weibull typ ξ = Gumbel typ 5 4 3 2 1 1 log( log(f)) log( log(f)) 5 2 2 4 6 8 1 12 14 16 18 Gumbel Probability X Plot 6 4 2 2 2 1 1 2 3 4 5 Gumbel Probability X Plot 1 5 5 5 4 3 2 1 1 X Statistik för modellval och prediktion p.5/27
Parameterskattningar Parameterskattning i GEV sker numeriskt genom maximering av Likelihood-funktionen eller med hjälp av en modifierad momentmetod finns i alla statistiska extremvärdespaket Osäkerhetsuppskattning sker med hjälp av Likelihood-funktionen Inte alltid tillförlitligt! extremes ger konfidensintervall för parametrarna N-årsvärdet i GEV-fördelningen skattas genom att man sätter in parameterskattningarna: x N = b + a c (1 ( ln(1 1/N))c ) Statistik för modellval och prediktion p.6/27
Passar modellen diagnostik Kvantilplottar: plotta kvantiler x (k) i data mot kvantiler y (k) i den anpassade fördelningen F emp (x (k) ) = k 1/2 n F fit (y (k) ) = k 1/2 n Sannolikhetsplottar: liknar kvantilplottar men sker emd sannolikheterna i stället Fördelningsplottar: CDF (kumulativ) eller PDF (täthet) extremes skattningsrutiner ger en plott av skattade återkomstvärden med konfidensintervall Statistik för modellval och prediktion p.7/27
Vattennivån i Japanska sjön Vattennivån mäts varje sekund - bilda maximum över 5 minuter, uppenbart inte samma över hela perioden: (m) 2 15 1 Water level 5 5 1 15 2 25 2 Maximum 5 min water level (m) 15 1 5 1 15 2 25 Time (h) Statistik för modellval och prediktion p.8/27
Normera Tag först medelvärde och standardavvikelse för varje 5- minutersperiod, drag bort och dividera. Då har varje period medelvärdet och standardavvikelsen 1. Bilda sedan maximum över 5 minuter och anpassa en GEV fördelning Statistik för modellval och prediktion p.9/27
GEV anpassad till 5-min maximum 1 Probability plot 1.2 Density plot.8 1.6.8 F(x).4.6.4.2.2 2 3 4 5 6 x 2 3 4 5 6 x 5 4.5 Residual Quantile Plot 1.8 Residual Probability Plot Model (gev) 4 3.5 Model (gev).6.4 3 2.5 3 4 5 Empirical.2.5 1 Empirical Statistik för modellval och prediktion p.1/27
Extremvärdesteorins dilemma Man vill alltid uttala sig om det man sällan observerat, t.o.m. om det man aldrig observerat!. Hur kan man säga något om 1-årsvärdet om man bara har värden från 2 år? Statistik för modellval och prediktion p.11/27
2 år av månadsdata 5 2 years of monthly data 4.5 4 3.5 3 2.5 2 1.5 1.5 5 1 15 2 Statistik för modellval och prediktion p.12/27
Överskott över tröskelnivå Slöseri med data att bara använda årliga maximum. Använd också mindre extrema värden, näst högsta, osv. 2 års månadsdata = 24 observationer men bara 2 årliga maxima År 7 har minsta maximivärdet X 7 = 1.67 och 42 månadsvärden är större än 1.67! Kan man använda alla 42? Eller varför inte 48 värden större än 1.5. Eller 84 värden 1? Statistik för modellval och prediktion p.13/27
Poisson-fördelat antal överskott Bestäm en någorlunda hög tröskelnivå u pröva några olika Uppskatta förväntade antalet överskott λ = λ u per tidsenhet (t ex per år) med λ = Observerat antal överskott Totala observationstiden Ex: med 48 värden över 1.5 under 2 år ger skattningen = 48/2 = 2.4 λ 1.5 Antag att antalet överskott N över tröskeln u under ett år är Poisson-fördelat P(N = k) = e λ k λ /λ! Statistik för modellval och prediktion p.14/27
Generaliserad Pareto fördelning - GPD Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är Nästan alla fördelningar har en Generaliserad Pareto-svans, GPD Med Y = X u = överskottet över nivån u gäller approximativt P(Y y) 1 ( 1 c y ) 1/c a + Exponentiell svans: c = ; Tung svans: c < ; Begränsad svans: c > Statistik för modellval och prediktion p.15/27
GPD-svans i normalfördelningen Svansen i normalfördelningen är GPD med c = 8 Normal distribution 6 4 2 4 3 2 1 1 2 3 4 1 The tail > 2 of a normal distribution.8 F(x).6.4 Red = empirical cdf of exceedances over 2 Blue = estimated GPD.2.2.4.6.8 1 1.2 1.4 1.6 x 1.8 Statistik för modellval och prediktion p.16/27
Poisson + GPD = GEV N = antalet överskott Y j = X j u över u är Poissonfördelat med väntevärde λ Överskottens storlek Y 1,...,Y N, är ungefär GPD Med M = årligt maximum = u + max(y 1,...,Y N ), så är för x > u: P(M x) = P(N = ) + =... = exp { λ P(N = n,y 1,...,Y n x u) n=1 ( 1 + ξ x u σ ) 1/ξ + } (1) Statistik för modellval och prediktion p.17/27
Poisson + GPD = GEV, forts Formel (1) är en GEV-fördelning P(M x) = exp { ( 1 + ξ x µ ψ Översättning från Poisson+GPD till GEV: ψ = σ λ ξ µ = u + ψ σ ξ ) 1/ξ För att få maximum över n år, ersätt λ med nλ i (1) + } Statistik för modellval och prediktion p.18/27
Val av tröskel Hur välja tröskeln u? Obs: antag GPD ovanför nivån u Diagnostik: En GPD har linjärt medelöverskott E(X u X > u) = σ + ξu 1 ξ Plotta medelvärdet av alla överskott över nivån u som funktion av u. Välj det minsta u-värdet där kurvan till höger ser linjär ut Lutningen är ξ/(1 ξ) om ξ < 1. Statistik för modellval och prediktion p.19/27
Medelöverskott över tröskel Plott av E(X u X > u) för 2 år med månadsdata: 1.2 Mean exceedance over threshold 1.1 1.9.8.7.6.5.4.3.2 1 1.5 2 2.5 3 3.5 4 Statistik för modellval och prediktion p.2/27
Diagnostik i GPD-analys En plott av medelöverskottet är svår att tolka Alternativ: Skatta en full GPD för olika trösklar Om svansen ovanför u är GPD så är alla överskott över u > u också GPD med samma formparameter ξ men med olika skalparameter σ u = σ u + ξ (u u ) Modifieras skala = σ u ξ u bör vara konstant om GPD-fördelningen passar Statistik för modellval och prediktion p.21/27
Uppskattad CDF för årsmaximum Från 2 årsmaxima: c =.14, b = 2.81, a =.77 1 Empirical and GEV estimated cdf (PWM method).9.8.7 True CDF for yearly maximum F(x).6.5.4.3.2 CDF for estimated GEV.1 1 2 3 4 5 x Statistik för modellval och prediktion p.22/27
Uppskattad CDF med POT-metoden 84 överskott över u = 1 och GPD-skattning ger c =.4, b = 2.38, a =.93 1 Tail probability 1 1 Tail by POT method True CDF 1 2 Tail by direct GEV estimation 1 3 1 4 2 3 4 5 6 7 8 9 1 Statistik för modellval och prediktion p.23/27
Olyckor i Engelska kolgruvor Tidpunkt och antal döda i engelska kolgruvor 1861-1962 45 4 35 3 25 2 15 1 5 186 188 19 192 194 196 Statistik för modellval och prediktion p.24/27
GEV? GEV på alla data är inte riktigt logiskt men bra ändå : Empirical and GEV estimated cdf (PWM method) 1.9.8.7.6 F(x).5.4.3.2.1 1 2 3 4 5 x Statistik för modellval och prediktion p.25/27
Specialstudera riktigt svåra olyckor - POT 25 olyckor med > 1 döda. Anpassa en GPD till data > 1. 1% av dessa överstiger 35. 1.9.8.7.6 CDF for deaths > 1 and GPD F(x).5.4.3.2.1 1 2 3 4 5 6 x Statistik för modellval och prediktion p.26/27
Regn i Venezuela - GEV eller Gumbel? Gumbelfördelningen är GEV med formparameter =. Baserat på regndata från 1951-1998 uppskattade man fördelningen för maximala regmängden under ett dygn. GEV med a = 19.9,b = 49.2,c =.16. Formparametern c är inte signifikant skild från och man skulle kunna anta en Gumbelfördelning i stället för en GEV. Det ger 1 års värdet på dygnsregnet till x 1 = 249 mm. Under 1999 inträffade en katstrof med 41 mm regn under ett dygn. Med den fulla GEV hade man uppskatta x 1 = 468 mm, dvs betydligt närmare. Gör man dessutom ett konfidensintervall får man att med 95% konfidens är x 1 < 13 mm. Statistik för modellval och prediktion p.27/27