PROGRAMFÖRKLARING III

Relevanta dokument
Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Statistiska metoder för säkerhetsanalys

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

BILAGA II. Extremvärdesstatistik och osäkerhet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Datorövning 6 Extremvärden och Peak over Threshold

Datorövning 6 Extremvärden och Peaks over Threshold

SF1911: Statistik för bioteknik

Statistiska metoder för säkerhetsanalys

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 7. Statistikens grunder.

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Lärmål Sannolikhet, statistik och risk 2015

Skattningsmetoder för den generaliserade extremvärdesfördelningen

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Tentamen MVE302 Sannolikhet och statistik

Datorövning 1: Fördelningar

Tentamen MVE302 Sannolikhet och statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 11: Mer om jämförelser och inferens

f(x) = 2 x2, 1 < x < 2.

SF1901 Sannolikhetsteori och statistik I

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Value at Risk med Extremvärdesteori En Studie av Råvaror

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Avd. Matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 4, Matematisk statistik för M

Matematisk statistik för D, I, Π och Fysiker

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lufttorkat trä Ugnstorkat trä

0 om x < 0, F X (x) = c x. 1 om x 2.

TMS136. Föreläsning 4

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Introduktion till statistik för statsvetare

Tentamen MVE301 Sannolikhet, statistik och risk

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Demonstration av laboration 2, SF1901

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Tentamen MVE300 Sannolikhet, statistik och risk

TMS136. Föreläsning 7

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

4.1 Grundläggande sannolikhetslära

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

MVE051/MSG Föreläsning 7

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 7: Punktskattningar

STOCKHOLMS UNIVERSITET FYSIKUM

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7: Punktskattningar

F9 Konfidensintervall

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Tentamen i Matematisk statistik Kurskod S0001M

Weibullanalys. Maximum-likelihoodskattning

SF1901: Medelfel, felfortplantning

Avd. Matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Reliability analysis in engineering applications

Föreläsning 12: Repetition

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Föreläsning 12: Regression

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Matematisk statistik KTH. Formelsamling i matematisk statistik

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Grundläggande matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Avd. Matematisk statistik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Lektionsanteckningar 11-12: Normalfördelningen

TENTAMEN Datum: 14 feb 2011

Transkript:

Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING III Matematisk statistik, Lunds universitet stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.2/22 Statistiska hjälpmedel för extremvärden R-paketet extremes Extremvärdesfördelningar Extremvärden att extrapolera utanför data och utanför teori/modell POT-metoden Peak over threshold method Skattningar Osäkerhet i återkomstvärden Extremvärden tillsammans med cyklisk eller linjär trend Extremvärden med andra kovariater stik för modellval och prediktion p.3/22 Statistik för modellval och prediktion p.4/22

Ledning utgjuter sig The Extreme Value problem Centrala Uppsala översvämmades på tisdagskvällen för andra gången den här sommaren. Brandkåren fick rycka ut och länspumpa i många källarvåningar och trafikkaos uppstod. I bl a Samariterhemmets källare och i källaren på Uppsalabuss huvudkontor trängde kloakvattnet upp ur avloppen. Stinkande vatten stod decimeterhögt på golvet. Ledningarna är inte underdimensionerade, det är regnen som är för stora, säger - - - på gatukontoret. (Uppsala Nya Tidning, 996) Beteckning: Maximum M n = max(x, X 2,..., X n ) av n oberoende observationer av en variabel Varje X k kan vara ett maximivärde, t ex över ett år Bestäm P(M n x) för stora värden på n och rimliga x-värden -årsvärdet x är det värde som överskrids i medeltal en gång på år: P(X > x ) = / ( P(M > x ) = ) /e =.632 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.6/22 neraliserad extremvärdesfördelning GEV Tre-typs-satsen : Fördelningen för maximum av många oberoende identiskt fördelade variabler kan bara vara fördelade enligt tre olika typer Fréchet, Gumbel, (omvänd) Weibull Modernt: alla samlas i en Generaliserad extremvärdesfördelning GEV: { ( P(M z) exp + ξ z µ ψ ) /ξ + } Simulating från de tre typerna Monte Carlo-simulering av värden från varje typ histogram och plot på Gumbel paper, specialpapper för Gumbelfördelning 2 2 4 6 8 2 4 6 8 2 2 3 4 2 ξ = Frechet typ ξ = Gumbel typ log( log(f)) log( log(f)) Gumbel Probability Plot 2 2 4 6 8 2 4 6 8 Gumbel Probability X Plot 6 4 2 2 2 2 3 4 Gumbel Probability X Plot Gumbel: ξ = ; Fréchet: ξ > ; Weibull: ξ <. ξ = Weibull typ log( log(f)) ξ = form; ψ = skala; µ = läge 4 3 2 4 3 2 X stik för modellval och prediktion p.7/22 Statistik för modellval och prediktion p.8/22

Parameterskattningar Passar modellen diagnostik Parameterskattning i GEV sker numeriskt genom maximering av Likelihood-funktionen eller med hjälp av en modifierad momentmetod finns i alla statistiska extremvärdespaket Osäkerhetsuppskattning sker med hjälp av Likelihood-funktionen Inte alltid tillförlitligt! extremes ger konfidensintervall för parametrarna N-årsvärdet i GEV-fördelningen skattas genom att man sätter in parameterskattningarna: x N = µ + ψ ( ) ξ (ln N) ξ Kvantilplottar: plotta kvantiler x (k) i data mot kvantiler y (k) i den anpassade fördelningen F emp (x (k) ) = k /2 n F fit (y (k) ) = k /2 n Sannolikhetsplottar: liknar kvantilplottar men sker emd sannolikheterna i stället Fördelningsplottar: CDF (kumulativ) eller PDF (täthet) extremes skattningsrutiner ger en plott av skattade återkomstvärden med konfidensintervall stik för modellval och prediktion p.9/22 Statistik för modellval och prediktion p./22 2 år av månadsdata Överskott över tröskelnivå 4. 4 3. 3 2. 2.. 2 years of monthly data Slöseri med data att bara använda årliga maximum. Använd också mindre extrema värden, näst högsta, osv. 2 års månadsdata = 24 observationer men bara 2 årliga maxima År 7 har minsta maximivärdet X 7 =.67 och 42 månadsvärden är större än.67! Kan man använda alla 42? Eller varför inte 48 värden större än.. Eller 84 värden? 2 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.2/22

Poisson-fördelat antal överskott Generaliserad Pareto fördelning - GPD Bestäm en någorlunda hög tröskelnivå u pröva några olika Uppskatta förväntade antalet överskott λ = λ u per tidsenhet (t ex per år) med λ = Observerat antal överskott Totala observationstiden Ex: med 48 värden över. under 2 år ger skattningen = 48/2 = 2.4 λ. Antag att antalet överskott N över tröskeln u under ett år är Poisson-fördelat P(N = k) = e λ k λ /λ! Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är Nästan alla fördelningar har en Generaliserad Pareto-svans, GPD Med Y = X u = överskottet över nivån u gäller approximativt P(Y y) ( + ξ y ) /ξ σ + Exponentiell svans: ξ = ; Tung svans: ξ > ; Begränsad svans: ξ < stik för modellval och prediktion p.3/22 Statistik för modellval och prediktion p.4/22 GPD-svans i normalfördelningen Svansen i normalfördelningen är GPD med ξ = F(x) 8 6 4 2 Normal distribution 4 3 2 2 3 4.8.6.4.2 The tail > 2 of a normal distribution Red = empirical cdf of exceedances over 2 Blue = estimated GPD Poisson + GPD = GEV N = antalet överskott Y j = X j u över u är Poissonfördelat med väntevärde λ Överskottens storlek Y,..., Y N, är ungefär GPD Med M = årligt maximum = u + max(y,..., Y N ), så är för x > u: P(M x) = P(N = ) + =... = exp { P(N = n, Y,..., Y n x u) n= ( λ + ξ x u σ ) /ξ + } ().2.4.6.8.2.4.6 x.8 stik för modellval och prediktion p./22 Statistik för modellval och prediktion p.6/22

Poisson + GPD = GEV, forts Val av tröskel Formel () är en GEV-fördelning { ( P(M x) = exp + ξ x µ ψ Översättning från Poisson+GPD till GEV: ψ = σ λ ξ µ = u + ψ σ ξ ) /ξ + } Hur välja tröskeln u? Obs: antag GPD ovanför nivån u Diagnostik: En GPD har linjärt medelöverskott E(X u X > u) = σ + ξu ξ Plotta medelvärdet av alla överskott över nivån u som funktion av u. Välj det minsta u-värdet där kurvan till höger ser linjär ut Lutningen är ξ/( ξ) om ξ <. För att få maximum över n år, ersätt λ med nλ i () stik för modellval och prediktion p.7/22 Statistik för modellval och prediktion p.8/22 Medelöverskott över tröskel Plott av E(X u X > u) för 2 år med månadsdata: Mean exceedance over threshold.2..9.8.7.6..4 Diagnostik i GPD-analys En plott av medelöverskottet är svår att tolka Alternativ: Skatta en full GPD för olika trösklar Om svansen ovanför u är GPD så är alla överskott över u > u också GPD med samma formparameter ξ men med olika skalparameter σ u = σ u + ξ (u u ) Modifieras skala = σ u ξ u bör vara konstant om GPD-fördelningen passar.3.2. 2 2. 3 3. 4 stik för modellval och prediktion p.9/22 Statistik för modellval och prediktion p.2/22

Uppskattad CDF för årsmaximum Från 2 årsmaxima: ξ =.4, µ = 2.8, ψ =.77 Empirical and GEV estimated cdf (PWM method).9 Uppskattad CDF med POT-metoden 84 överskott över u = och GPD-skattning ger ξ =.4, µ = 2.38, ψ =.93 Tail probability.8.7.6 True CDF for yearly maximum Tail by POT method F(x). True CDF.4 2.3.2. CDF for estimated GEV 3 Tail by direct GEV estimation 2 3 4 x 4 2 3 4 6 7 8 9 stik för modellval och prediktion p.2/22 Statistik för modellval och prediktion p.22/22