BILAGA II. Extremvärdesstatistik och osäkerhet

Relevanta dokument
Potensmodellen är ett samband mellan återkomstnivå, återkomsttid och varaktighet för skyfall. Sambandet presenteras nedan:

PROGRAMFÖRKLARING III

Statistisk metodik för beräkning av extrema havsvattenstånd

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Nederbördshändelser extraherades från kommundata (avsnitt 2.2) enligt ett antal kriterier. Nederbördshändelserna hämtades enligt följande rutin

BILAGA 1 BERÄKNINGAR HÖGVATTEN

Sammanfattning till Extremregn i nuvarande och framtida klimat

BILAGA IX.1 Utvärdering av HIPRAD mot lokala stationer i Stockholm och Malmö

Statistiska metoder för säkerhetsanalys

Föreläsning 7. Statistikens grunder.

Dimensionerande nederbörd igår, idag och imorgon Jonas German, SMHI

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Datorövning 6 Extremvärden och Peak over Threshold

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Thomas Önskog 28/

Matematisk statistik för B, K, N, BME och Kemister

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

4 Diskret stokastisk variabel

Tentamen i Matematisk statistik Kurskod S0001M

Lösningsförslag till Tillämpad matematisk statistik LMA521, Tentamen

Grundläggande matematisk statistik

Att beräkna t i l l v ä x t takter i Excel

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Radardata för högupplösta nederbördsanalyser och hydrologiska prognoser. Peter Berg, Emil Björck, Lars Norin, Jonas Olsson, Wei Yang

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8: Konfidensintervall

F3 Introduktion Stickprov

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Matematisk statistik Kurskod S0001M

Forskningsmetodik 2006 lektion 2

Föreläsning 4, Matematisk statistik för M

SF1901 Sannolikhetsteori och statistik I

Datorövning 6 Extremvärden och Peaks over Threshold

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Avd. Matematisk statistik

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Monte Carlo-metoder. Bild från Monte Carlo

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Skattningsmetoder för den generaliserade extremvärdesfördelningen

Demonstration av laboration 2, SF1901

Kontinuerliga funktioner. Ytterligare en ekvivalent formulering av supremumaxiomet

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 10

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

FÖRELÄSNING 7:

STOCKHOLMS UNIVERSITET FYSIKUM

Tentamen MVE301 Sannolikhet, statistik och risk

Statistik 1 för biologer, logopeder och psykologer

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

1.1 Diskret (Sannolikhets-)fördelning

Studietyper, inferens och konfidensintervall

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Föreläsning 11, Matematisk statistik Π + E

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Bedömningsanvisningar

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Parade och oparade test

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Multifraktaler och fysiskt baserade skattningar av extrema flöden

Tentamen MVE301 Sannolikhet, statistik och risk

9. Konfidensintervall vid normalfördelning

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

LMA522: Statistisk kvalitetsstyrning

LMA521: Statistisk kvalitetsstyrning

Föreläsning G60 Statistiska metoder

Oberoende stokastiska variabler

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F9 Konfidensintervall

Medelvärde, median och standardavvikelse

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

SF1901 Sannolikhetsteori och statistik I

19.1 Funktioner av stokastiska variabler

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

1 Mätdata och statistik

SF1901: Sannolikhetslära och statistik

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Tentamentsskrivning: Matematisk statistik TMA Tentamentsskrivning i Matematisk statistik TMA321, 4.5 hp.

, för 0 < x < θ; Uppgift 2

SF1911: Statistik för bioteknik

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsningsanteckningar till kapitel 8, del 2

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Transkript:

BILAGA II Extremvärdesstatistik och osäkerhet I denna något spretiga bilaga har samlats ett antal sektioner som beskriver och fördjupar olika metoder och resultat kopplade till den statistiska bearbetningen av extremvärden, inklusive osäkerhet. Bilaga II.1 Om återkomsttider Ett vedertaget sätt att modellera extrem nederbörd är med återkomsttider (Coles, 2001). Återkomsttider är ett mått på hur extremt ett värde är, och kan intuitivt tolkas som med hur många års mellanrum som händelsen i genomsnitt inträffar. Här är ordet genomsnitt väldigt viktigt, en 100- årshändelse kan inträffa två år i rad, men i långa loppet är det alltså i genomsnitt 100 år mellan dessa händelser. Den vanligaste ansatsen vid arbete med återkomsttider är att bygga en modell kring nederbördsseriens årshögsta värden. Ansatsen har även tillämpats i denna studie. Värdena antas vara oberoende och följa en och samma sannolikhetsfördelning. Utifrån denna fördelning får man kunskap om hur årets högsta nederbörd beter sig på den aktuella platsen. I projektet har två olika metoder använts för att beräkna återkomsttider. Metoderna är Årsmaxmetoden och Peak over Threshold (POT). De är beskrivna i respektive delavsnitt nedan Statistikteorin som återkomsttider bygger på kallas extremvärdesteori. Den viktigaste satsen inom denna är extremvärdessatsen som, under vissa förutsättningar, tillåter antagandet att årsmax-värdena (årsmax = högsta värdet under året) följer en viss sannolikhetsfördelning. I princip måste årsmaxvärdena vara oberoende och likafördelade (dvs. årsmax år 1900 bör bete sig som årsmax år 1990). Det är inte nödvändigt att använda kalenderår då de mest extrema händelserna extraheras. Generellt behöver tidsperioden indelas i block och sedan hämtas det högsta värdet inom varje block. Blocken konstrueras så att det högsta värdet inom varje block är oberoende av de andra blockens högsta värden, och att de alla följer samma fördelning. Det är viktigt att tolka återkomsttider korrekt. Exempelvis ska100-årsnederbörden tolkas som den nederbörd som har 1 chans på 100, varje år, att det överskrids. På samma sätt ska man tolka meningen Nederbörden 40 mm har återkomsttid 50 år som att det varje år är 1 chans på 50 att nederbörden överskrider 40 mm. Sannolikheten under en längre period är därmed inte densamma som för ett enskilt år. Den ackumulerade sannolikheten för att en händelse sker under en längre tidsperiod visas för olika återkomsttider i tabell 1. För vidare fördjupning se Blom m.fl. (2005) eller Coles (2001).

Tabell 1. Sannolikheten att en händelse med en viss återkomsttid överskrids minst en gång under en given period. Återkomsttid (år) Sannolikhet under 100 år (%) Sannolikhet under 200 år (%) Sannolikhet under 300 år (%) 50 87 98 100 100 63 87 95 200 39 63 78 300 28 49 63 1000 10 18 26 10 000 1 2 3 Bilaga II.2 Årsmaxmetoden (AM)-metoden I årsmaxmetoden delas tidsserien i block, vanligen om ett kalenderår per block, och det högsta värdet extraheras från varje block. Då erhålls en dataserie med årsmax-värden. Dessa värden anpassas sedan till en sannolikhetsfördelning. Metoden kallas även ofta för årsmax-metoden, eftersom block om ett år används. Dataserien behöver inte nödvändigtvis indelas i block över kalenderår. Blocken ska konstrueras på sådant sätt att det högsta värdet inom varje är oberoende av de andra blockens högsta värden, och att de alla följer samma fördelning (Coles, 2001). Låt den sannolikhetsfördelning som anpassats till data ha fördelningsfunktion F(x; θ), där x är datavektorn (t.ex. årsmax-värden), och θ är fördelningens parametervektor. Återkomstnivån R för återkomsttid T år kan beräknas genom R = F 1 (1 1 T ; θ) Med andra ord är R det värde där fördelningsfunktionen F antar värdet 1 1 T. Vi kan kasta om lite i ekvationen ovan för att få ett uttryck för återkomsttiden givet nivån R: T = 1 1 F(R;θ) Extremvärdessatsen ger stöd till användandet av GEV-fördelningen, samt dess specialfall Gumbel (vilket man får när GEV:s formparameter = 1). I praktiken kan dock godtycklig sannolikhetsfördelning användas för modellering av extremvärden, så länge som den är kontinuerlig och har stöd för de värden som extremvärdena kan anta. I detta projekt har följande sannolikhetsfördelningar använts för att beräkna återkomsttider med årsmaxmetoden:

Generalized Extreme Value (GEV) F(x; μ, σ, ξ) = exp( (1 + ξ ( x μ σ ) 1 ξ) Stödet är x R μ är platsparametern ( location ) σ är skalparametern ( scale ) ξ är formparametern ( shape ) Gumbel z = (x μ) σ F(x; μ, σ) = 1 exp ( exp(z)) Stödet är x R μ är platsparametern ( location ) σ är skalparametern ( scale ) Log-Pearson typ III Låt x vara tidsserien med totalt n årsmaxvärden. x i är värdet på plats i, i = 1,, n. Skapa μ = 1 n n i=1 x i σ = 1 n (x n i=1 i m) 2 s 1 = n i=1 x i n s 2 = 2 i=1 x i n s 3 = 3 i=1 x i t 1 = n 2 s 3 t 2 = 3 n s 1 s 2 t 3 = 2 s 1 3 u = n (n 1) n 2) σ 3

C = t 1+t 2 +t 3 u Låt p vara CDF-värdet av intresse (För T-årsvärdet så sätts p=1-1/t), och F 1 (p) är återkomstnivån för detta CDF-värde. Formeln för F 1 (p) ser ut som följer: F 1 (p) = exp (μ + K(p, C) σ) Där K(p, C) beräknas enligt nedanstående steg w = log ( 1 p 2) a 0 = 2.515517 a 1 = 0.802853 a 2 = 0.010328 b 0 = 1 b 1 = 1.432788 b 2 = 0.189269 b 3 = 0.001308 z = w a 0 + a 1 w+ a 2 w 2 b 0 + b 1 w+ b 2 w 2 + b 3 w 3 k = C/6 t 1 = z t 2 = (z 2 1) k t 3 = (z3 6 z) k 2 3 t 4 = (z 2 1) k 3 t 5 = z k 4 t 6 = k5 3 K = t 1 + t 2 + t 3 + t 4 + t 5 + t 6 Log-Pearson typ III har använts i t.ex. Bilaga III för beräkning av återkomsttider för skyfall.

Bilaga II.3 Peak-Over-Threshold (POT)-metoden Peak over threshold (POT) är en metod för att beräkna återkomsttider från en tidsserie (Coles, 2001). Grundprincipen är att oberoende händelser extraheras över en viss tröskel, och de anpassas sedan till en sannolikhetsfördelning som återkomsttider kan beräknas utifrån. För de utvalda tidsserierna har en POT-analys utförts. Först extraherades händelser över en viss fix tröskel. Enligt Pickands-Balkema-de Haans sats (Pickands, 1975) gäller att om händelserna över tröskeln är oberoende och likafördelade, vilket de bör vara om tröskeln valts på ett klokt sätt, så kommer de att följa en Generaliserad Pareto (GP) fördelning. Denna fördelning kan sägas vara skräddarsydd för POT-metoden. Parametrarna av denna fördelning har skattats med ML-metoden (se avsnitt 3.3.1). Hur tröskeln i POT-analysen väljs är ett aktivt forskningsområde och det finns ofta inget uppenbart svar. Om tröskeln väljs för hög så är man mer garanterad att händelserna är oberoende och verkligen relevanta för extremvärdesanalysen, men man kan då gå miste om relevanta händelser. Om tröskeln väljs för låg så får man in mycket brus i data, dvs. händelser som inte är extrema och därmed inte av intresse för analysen. För stationsårsmetoden har tröskeln valts så att man får lika många händelser som antal år i datamaterialet, d.v.s. om tidsserien är X år lång väljer man den tröskel som ger X händelser som överskrider den. Anledningen till detta var för att få den jämförbar med årsmaxmetoden. Generalized Pareto (GP) Fördelningsfunktionen för GP-fördelningen är F(ξ, σ)(x) = { 1 (1 + ξx σ ) Stödet är x > 0 1 ξ för ξ 0 1 e x σ för ξ = 0 Återkomsttider med POT-metodik beräknas på följande sätt: Låt F vara fördelningsfunktionen av den skattade GP-fördelningen. Denna funktion är inverterbar (då den är strängt växande), och vi kan kalla dess invers F 1. Antag att T-årsnivån söks, där T är återkomsttiden i år (till exempel 100-årsnivån). För att kunna uttrycka återkomsttider i denna enhet behöver hänsyn tas till antalet händelser per år. Därför skalas sannolikheten för överskridande, 1 1, med genomsnittligt antal händelser per år enligt T P = (1 1 T ) 1 genomsnittligt antal händelser per år Genomsnittligt antal händelser per år är Totalt antal händelser över tröskeln Antal år med data. Återkomstnivån Rför återkomsttid T är sedan R = F 1 (P).

Bilaga II.4 Anpassningar för olika regioner och varaktigheter Figur 1. Framtagna 15-min extremvärden och anpassade sannolikhetsfördelningar för de sammanslagna serierna i region SV och SÖ.

Figur 1. (forts.) Framtagna 15-min extremvärden och anpassade sannolikhetsfördelningar för de sammanslagna serierna i region M och N.

Figur 2. Framtagna 3-tim extremvärden och anpassade sannolikhetsfördelningar för de sammanslagna serierna i region SV och SÖ.

Figur 2. (forts.) Framtagna 3-tim extremvärden och anpassade sannolikhetsfördelningar för de sammanslagna serierna i region M och N.

Bilaga II.5 Modellering av konfidensintervall Såsom beskrivs i avsnitt 3.1.2.2 valdes POT-metoden med GP-fördelningen ut för att ta fram den slutliga statistiken. För att kvantifiera osäkerheten i anpassningarna beräknades konfidensintervall. Olika konfidensgrader testades och till slut valdes 95%, som kan anses vara standard. Figur 3 visar konfidensintervallen för anpassningen till 60-min värden från samtliga regioner. Figur 3. Framtagna 1-tim extremvärden och anpassad GP-fördelning inklusive konfidensintervall för de sammanslagna serierna i region SV och SÖ.

Figur 3. (forts.) Framtagna 1-tim extremvärden och anpassad GP-fördelning inklusive konfidensintervall för de sammanslagna serierna i region M och N. I Figur 3 ses att konfidensintervallet är nära symmetriskt upp till minst 100 års återkomsttid (i själva verket är det övre intervallet marginellt större än det undre). Därför antogs en modell för att uttrycka intervallet som ± en andel (%) av själva ackumulationen för denna varaktighet. Denna andel visade sig ha en måttlig variation över olika varaktigheter, se ett exempel i Figur 4, och antogs därför kunna beskrivas av medelvärdet över alla varaktigheter.

Andel (%) Andel (%) 16 14 12 10 8 6 4 2 0 15 30 60 120 360 Varaktighet (min) Figur 4. Konfidensintervallets andel av ackumulationen för olika varaktigheter med 50 års återkomsttid i region SÖ. Röd linje visar medelvärdet. Andelen varierade däremot tydligt med återkomsttid, från ett fåtal procent för korta återkomsttider upp till 15-20% för långa. En enkel potensfunktion användes för att beskriva denna variation, för alla varaktigheter Andel = 2 Återkomsttid 0.45 vilken väl beskriver medelkurvan (Figur 5). Som synes finns viss regional variation, med störst andel i region SV och lägst i region N. Skillnaderna på ett fåtal procent påverkar emellertid väldigt lite de slutliga konfidensintervallen; därför försummas den regionala variationen och samma anpassning används för alla regioner. 20 18 16 14 12 10 8 6 4 2 0 0 20 40 60 80 100 120 Återkomsttid (år) SV SÖ M N Medel Anpassning Figur 5. Konfidensintervallets andel av ackumulationen för olika återkomsttider i de olika regionerna, för medelvärdet av dem samt som en anpassad funktion.

Bilaga II.6 Metod för beräkning av extremvärdesstatistik i griddade modeller En peak-over-threshold-metod (POT) används för extremvärdesanalys i de griddade data. För varje gridpunkt och varaktighet görs följande: 1. För en given period av 15 till 30 år (beroende på seriens längd) sorteras nederbördsmängden i avtagande ordning. 2. Den högsta nederbördshändelsen noteras 3. X tidssteg före och efter händelsen tas bort från analysen på grund av att de inte kan anses oberoende samplingar. För varaktigheter på en till tre timmar är X tre timmar och för längre varaktigheter sätts X lika med varaktigheten. 4. Upprepa över steg 2-3 tills 650 händelser har registrerats över 30 år, eller 325 händelser över 15 år för HIPRAD. 5. Anpassa en Generalized Pareto (GP) fördelning till data och beräkna återkomsttider. Statistik för de fyra regionerna beräknas sedan genom medelvärdesbildning av resultatet i vardera gridpunkt. Gränsen 650 värden, det vill säga i snitt ca 22 värden per år, togs fram genom att studera parametervärdena för GP vid olika tröskelvärden. Parametervärdena var stabila inom brusnivån fram till ungefär 650 datapunkter varefter fördelningen ändrar form. Det kan tolkas som att det inte längre är svansen på fördelningen som samplas och att extremvärdesteorin inte längre gäller. Det är en fördel att ligga så nära den punkten som möjligt för att få robusta resultat. Utvärderingen utfördes på punkter i Sverige, men även runt om i Europa på klimatmodellerna. Bilaga II.7 Utsortering av orimliga gridpunkter i HIPRAD Metoden för att sortera ut orimliga data från HIPRAD består i att undersöka den normaliserade intensitetsfördelningen (alltså en sannolikhetsfördelning) i varje gridpunkt jämfört med medelintensitetsfördelningen för de tjugo närmaste automatstationerna. För att utvärdera fördelningen användes en metod där man summerar den överlappande arean av två sannolikhetsfördelningar, vilket ger ett värde (SS) mellan noll och ett, där ett innebär en exakt likhet. Statistiskt brus gör att en perfekt överensstämmelse inte är rimlig, så flera olika nivåer undersöktes. Figur 6 visar resultatet för HIPRAD på grundupplösningen samt på upplösningen för de regionala klimatmodellerna. Orimligt många punkter ratas vid gränsen 0.9, så den något lägre gränsen 0.85, det vill säga 85% överensstämmelse med stationer, antogs för att sortera bort vissa gridpunkter. Vissa av regionerna som visas i figuren för SS=0.85 känns igen som problemregioner för radarn medan andra eventuellt faller bort på grund av den exakta gräns som satts även om de inte avviker drastiskt.

Figur 6. Resultat av utsortering av HIPRAD-pixlar för olika gränsvärden och för HIPRAD på två olika upplösningar. I orange visas de gridpunkter som har lägre SS-värden än titeln anger.