Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING III Matematisk statistik, Lunds universitet stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.2/22 Statistiska hjälpmedel för extremvärden R-paketet extremes Extremvärdesfördelningar Extremvärden att extrapolera utanför data och utanför teori/modell POT-metoden Peak over threshold method Skattningar Osäkerhet i återkomstvärden Extremvärden tillsammans med cyklisk eller linjär trend Extremvärden med andra kovariater stik för modellval och prediktion p.3/22 Statistik för modellval och prediktion p.4/22
Ledning utgjuter sig The Extreme Value problem Centrala Uppsala översvämmades på tisdagskvällen för andra gången den här sommaren. Brandkåren fick rycka ut och länspumpa i många källarvåningar och trafikkaos uppstod. I bl a Samariterhemmets källare och i källaren på Uppsalabuss huvudkontor trängde kloakvattnet upp ur avloppen. Stinkande vatten stod decimeterhögt på golvet. Ledningarna är inte underdimensionerade, det är regnen som är för stora, säger - - - på gatukontoret. (Uppsala Nya Tidning, 996) Beteckning: Maximum M n = max(x, X 2,..., X n ) av n oberoende observationer av en variabel Varje X k kan vara ett maximivärde, t ex över ett år Bestäm P(M n x) för stora värden på n och rimliga x-värden -årsvärdet x är det värde som överskrids i medeltal en gång på år: P(X > x ) = / ( P(M > x ) = ) /e =.632 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.6/22 neraliserad extremvärdesfördelning GEV Tre-typs-satsen : Fördelningen för maximum av många oberoende identiskt fördelade variabler kan bara vara fördelade enligt tre olika typer Fréchet, Gumbel, (omvänd) Weibull Modernt: alla samlas i en Generaliserad extremvärdesfördelning GEV: { ( P(M z) exp + ξ z µ ψ ) /ξ + } Simulating från de tre typerna Monte Carlo-simulering av värden från varje typ histogram och plot på Gumbel paper, specialpapper för Gumbelfördelning 2 2 4 6 8 2 4 6 8 2 2 3 4 2 ξ = Frechet typ ξ = Gumbel typ log( log(f)) log( log(f)) Gumbel Probability Plot 2 2 4 6 8 2 4 6 8 Gumbel Probability X Plot 6 4 2 2 2 2 3 4 Gumbel Probability X Plot Gumbel: ξ = ; Fréchet: ξ > ; Weibull: ξ <. ξ = Weibull typ log( log(f)) ξ = form; ψ = skala; µ = läge 4 3 2 4 3 2 X stik för modellval och prediktion p.7/22 Statistik för modellval och prediktion p.8/22
Parameterskattningar Passar modellen diagnostik Parameterskattning i GEV sker numeriskt genom maximering av Likelihood-funktionen eller med hjälp av en modifierad momentmetod finns i alla statistiska extremvärdespaket Osäkerhetsuppskattning sker med hjälp av Likelihood-funktionen Inte alltid tillförlitligt! extremes ger konfidensintervall för parametrarna N-årsvärdet i GEV-fördelningen skattas genom att man sätter in parameterskattningarna: x N = µ + ψ ( ) ξ (ln N) ξ Kvantilplottar: plotta kvantiler x (k) i data mot kvantiler y (k) i den anpassade fördelningen F emp (x (k) ) = k /2 n F fit (y (k) ) = k /2 n Sannolikhetsplottar: liknar kvantilplottar men sker emd sannolikheterna i stället Fördelningsplottar: CDF (kumulativ) eller PDF (täthet) extremes skattningsrutiner ger en plott av skattade återkomstvärden med konfidensintervall stik för modellval och prediktion p.9/22 Statistik för modellval och prediktion p./22 2 år av månadsdata Överskott över tröskelnivå 4. 4 3. 3 2. 2.. 2 years of monthly data Slöseri med data att bara använda årliga maximum. Använd också mindre extrema värden, näst högsta, osv. 2 års månadsdata = 24 observationer men bara 2 årliga maxima År 7 har minsta maximivärdet X 7 =.67 och 42 månadsvärden är större än.67! Kan man använda alla 42? Eller varför inte 48 värden större än.. Eller 84 värden? 2 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.2/22
Poisson-fördelat antal överskott Generaliserad Pareto fördelning - GPD Bestäm en någorlunda hög tröskelnivå u pröva några olika Uppskatta förväntade antalet överskott λ = λ u per tidsenhet (t ex per år) med λ = Observerat antal överskott Totala observationstiden Ex: med 48 värden över. under 2 år ger skattningen = 48/2 = 2.4 λ. Antag att antalet överskott N över tröskeln u under ett år är Poisson-fördelat P(N = k) = e λ k λ /λ! Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är Nästan alla fördelningar har en Generaliserad Pareto-svans, GPD Med Y = X u = överskottet över nivån u gäller approximativt P(Y y) ( + ξ y ) /ξ σ + Exponentiell svans: ξ = ; Tung svans: ξ > ; Begränsad svans: ξ < stik för modellval och prediktion p.3/22 Statistik för modellval och prediktion p.4/22 GPD-svans i normalfördelningen Svansen i normalfördelningen är GPD med ξ = F(x) 8 6 4 2 Normal distribution 4 3 2 2 3 4.8.6.4.2 The tail > 2 of a normal distribution Red = empirical cdf of exceedances over 2 Blue = estimated GPD Poisson + GPD = GEV N = antalet överskott Y j = X j u över u är Poissonfördelat med väntevärde λ Överskottens storlek Y,..., Y N, är ungefär GPD Med M = årligt maximum = u + max(y,..., Y N ), så är för x > u: P(M x) = P(N = ) + =... = exp { P(N = n, Y,..., Y n x u) n= ( λ + ξ x u σ ) /ξ + } ().2.4.6.8.2.4.6 x.8 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.6/22
Poisson + GPD = GEV, forts Val av tröskel Formel () är en GEV-fördelning { ( P(M x) = exp + ξ x µ ψ Översättning från Poisson+GPD till GEV: ψ = σ λ ξ µ = u + ψ σ ξ ) /ξ + } Hur välja tröskeln u? Obs: antag GPD ovanför nivån u Diagnostik: En GPD har linjärt medelöverskott E(X u X > u) = σ + ξu ξ Plotta medelvärdet av alla överskott över nivån u som funktion av u. Välj det minsta u-värdet där kurvan till höger ser linjär ut Lutningen är ξ/( ξ) om ξ <. För att få maximum över n år, ersätt λ med nλ i () stik för modellval och prediktion p.7/22 Statistik för modellval och prediktion p.8/22 Medelöverskott över tröskel Plott av E(X u X > u) för 2 år med månadsdata: Mean exceedance over threshold.2..9.8.7.6..4 Diagnostik i GPD-analys En plott av medelöverskottet är svår att tolka Alternativ: Skatta en full GPD för olika trösklar Om svansen ovanför u är GPD så är alla överskott över u > u också GPD med samma formparameter ξ men med olika skalparameter σ u = σ u + ξ (u u ) Modifieras skala = σ u ξ u bör vara konstant om GPD-fördelningen passar.3.2. 2 2. 3 3. 4 stik för modellval och prediktion p.9/22 Statistik för modellval och prediktion p.2/22
Uppskattad CDF för årsmaximum Från 2 årsmaxima: ξ =.4, µ = 2.8, ψ =.77 Empirical and GEV estimated cdf (PWM method).9 Uppskattad CDF med POT-metoden 84 överskott över u = och GPD-skattning ger ξ =.4, µ = 2.38, ψ =.93 Tail probability.8.7.6 True CDF for yearly maximum Tail by POT method F(x). True CDF.4 2.3.2. CDF for estimated GEV 3 Tail by direct GEV estimation 2 3 4 x 4 2 3 4 6 7 8 9 stik för modellval och prediktion p.2/22 Statistik för modellval och prediktion p.22/22