Datorövning 2 Fördelningar inom säkerhetsanalys



Relevanta dokument
Datorövning 2 Fördelningar inom säkerhetsanalys

Föreläsning G04: Surveymetodik

Grundläggande matematisk statistik

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

4.2.3 Normalfördelningen

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Föreläsning G70 Statistik A

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Introduktion till statistik för statsvetare

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

TMS136: Dataanalys och statistik Tentamen med lösningar

Genomsnittligt sökdjup i binära sökträd

Föreläsning 2: Punktskattningar

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

θx θ 1 om 0 x 1 f(x) = 0 annars

1. Test av anpassning.

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

Borel-Cantellis sats och stora talens lag

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

2. Konfidensintervall för skillnaden mellan två proportioner.

S0005M V18, Föreläsning 10

Datorövning 1: Fördelningar

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

F10 ESTIMATION (NCT )

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

================================================

Tentamen i matematisk statistik

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Följande begrepp används ofta vid beskrivning av ett statistiskt material:

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

4. Uppgifter från gamla tentor (inte ett officiellt urval) 6

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

b 1 och har för olika värden på den reella konstanten a.

101. och sista termen 1

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Tentamen i Sannolikhetsteori III 13 januari 2000

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Lösningar och kommentarer till uppgifter i 1.1

Datorövning 1 Fördelningar

a) Beräkna E (W ). (2 p)

Jag läser kursen på. Halvfart Helfart

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

Tentamen i Elektronik, ESS010, del 2 den 14 dec 2009 klockan 14:00 19:00.

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Matematisk statistik TMS063 Tentamen

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Formelblad Sannolikhetsteori 1

TENTAMEN I MATEMATISK STATISTIK

Egna funktioner. Vad är sin? sin är namnet på en av många inbyggda funktioner i Ada (och den återfinns i paketet Ada.Numerics.Elementary_Functions)

Kompletterande kurslitteratur om serier

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

Stokastiska variabler

Andra ordningens lineära differensekvationer

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Tentamenskrivning, , kl SF1625, Envariabelanalys för CINTE1(IT) och CMIEL1(ME ) (7,5hp)

Funktionsteori Datorlaboration 1

MS-A0409 Grundkurs i diskret matematik I

Uppsala Universitet Matematiska Institutionen Bo Styf. Genomgånget på föreläsningarna Föreläsning 26, 9/2 2011: y + ay + by = h(x)

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

Lösningsförslag

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Datorövning 1 Introduktion till Matlab Fördelningar

Tentamen i Matematisk statistik för V2 den 28 maj 2010

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Fourierserien. fortsättning. Ortogonalitetsrelationerna och Parsevals formel. f HtL g HtL t, där T W ã 2 p, PARSEVALS FORMEL

TAMS15: SS1 Markovprocesser

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

. Mängden av alla möjliga tillstånd E k kallas tillståndsrummet.

Statistik för bioteknik SF1911 // KTH Matematisk statistik // Formler och tabeller. 1 Numeriska sammanfattningar (statistikor)

Transkript:

Luds tekiska högskola Matematikcetrum Matematisk statistik STATISTISKA METODER FÖR SÄKERHETSANALYS FMS065, HT-15 Datorövig 2 Fördeligar iom säkerhetsaalys I dea datorövig ska vi studera ågra grudläggade begrepp frå saolikhetsteori: täthetsfuktio, vätevärde och varias; och frå iferesteori: histogram, empirisk fördelig och parameterskattig. Vi aväder Gumbel-fördelige som exempel eftersom de ofta aväds iom säkerhetsaalys. Vi börjar med simulerigar me ska också studera riktiga data av mätigar av våghöjder i Atlate. 1 Förberedelseuppgifter 1. Läs igeom hadledige samt kapitel 3.4 3.5 och 4.2 4.3 i boke. 2. Skriv er defiitioe av vätevärde och varias för e kotiuerlig slumpvariabel X, d.v.s. E(X ) och V (X ). Beräka vätevärde och varias för X om X är expoetialfördelad. 3. Skriv upp likelihoodfuktioe L(a; x) om x = {x 1... x } är ett stickprov frå e expoetialfördelig. 4. Hur tolkar ma e ormalfördeligsplot? 2 Täthetsfuktioe som ett gräsvärde för histogram Histogram aväds ofta för att beskriva fördelige av data. Vi jämför histogram med täthetsfuktioe, ofta beteckad f X (x) om variabel heter X, och börjar med e Gumbelfördelig med fördeligsfuktio F X (x) = exp( e (x b)/a ) med parametrara a = 2.1 och b = 1.7. Matlab har ibyggda fuktioer, evrd, etc. där ev står för Extreme Value (distributio), för Gumbelfördelige me de är defiierade åt fel håll, jämfört med boke, så vi ka ite utyttja dem direkt. Därför har vi skrivit e ege versio gumbrd som ka laddas er frå kurses hemsida. Där fis fler Gumbel-fuktioer som vi kommer att behöva så ladda er dem också. Simulera 1000 slumptal och rita ett histogram: >> a = 2.1; b = 1.7; >> x = gumbrd(a,b,1,1000) % e radvektor med 1000 kolumer >> hist(x) Likar detta täthetsfuktioe? Eftersom vi har atal observatioer i varje klass på y-axel ka vi ite rita täthetsfuktioe i samma skala. De itegrerar ju till ett. Vi behöver skala om histogrammet så det också itegrerar till ett. Vi har gjort e ege fuktio histpdf (se hemsida) för detta: >> help histpdf >> histpdf(x)

DATORÖVNING 2, FMS065 2 Nu ka vi lägga till täthetsfuktioe till histogrammet: >> xv = lispace(mi(x),max(x),1000); % 1000 värde jämt utspridda mella mista % och största x-värdet. >> f = gumbpdf(xv,a,b); % gumbpdf fis på hemsida. >> hold o % Fortsätt rita i histogrammet. >> plot(xv,f, r ) >> hold off Uppgift: Vad häder är atalet slumptal ökar? Testa geom att öka atalet simulerigar frå 1000 till 2000, 5000 och 10000. Öka gära också atalet klasser i histogrammet till 50. Uppgift: Vad häder är atalet slumptal miskar? Testa geom att miska atalet simulerigar frå 1000 till 500, 100 och 25. Glöm ite att miska atalet klasser i histogrammet också. 3 Vätevärde och varias för e slumpvariabel För e slumpvariabel X, ager vätevärdet E(X ) var värdea ligger i medeltal (tygdpukte i fördelige). Variase V(X ) (eller stadardavvikelse D(X ) = V(X )) av X ka ses som ett mått på spridige. Vätevärde och varias fis beräkat för att atal fördeligar, se ågo lämplig tabell. För ett givet datamaterial x 1,..., x (stickprov), vet vi oftast ite vilke fördelig det gäller, och därmed heller ite vätevärde och varias för de fördelige. Stickprovsmedelvärdet, beteckat x = 1 i=1 x i, och stickprovsvariase, beteckad s 2 = 1 1 i=1 (x i x) 2, är motsvarade empiriska mått på läge och spridig. Om atalet observatioer,, ökar förvätar vi oss att dessa storheter ärmar sig E(X ) respektive V(X ). Låt oss udersöka detta med hjälp av simulerade data där vi vet svaret. I e Gumbelfördelig ges vätevärde och varias av 1 E(X ) = b + a g, där g 0.5772 är Eulers kostat, V(X ) = a2 p 2 6. Välj ige a = 2.1 och b = 1.7. Då får vi >> a = 2.1; b = 1.7; >> EX = b-a*psi(1) % -psi(1) ger Eulers kostat i Matlab. >> VX = a^2*pi^2/6 >> DX = sqrt(vx) Simulera u 50 observatioer frå Gumbel-fördelige (gumbrd) och beräka stickprovsmedelvärdet (mea), -variase (var) och -stadardavvikelse (std): 1 g def = lim k ( k i=1 (1/i) l i ) = 0.57721566...

DATORÖVNING 2, FMS065 3 >> x = gumbrd(a,b,1,50); >> mea(x) >> var(x) >> std(x) Uppgift: Jämför med de teoretiska värdea som du fick fram ia. Stämmer de överes? Uppgift: Simulera ågra större stickprov med, t.ex., 200, 1000 och 5000 obervatioer. Vad häder är atalet observatioer ökar? 4 Skattig av parametrar Atag att vi har ett stickprov x 1,..., x frå e Gumbelfördelig me där parametrara a och b är okäda. Maximum-likelihood-skattigar fis implemeterat i Matlab för flera olika fördeligar (xxxfit). Eftersom Gumbelfördelige i Matlab är bakväd har vi gjort e ege versio gumbfit. Vi börjar med att simulera 50 observatioer frå samma Gumbel-fördelig som tidigare och aväder seda gumbfit för att skatta parametrara: >> a = 2.1; b = 1.7; >> x = gumbrd(a,b,1,50); >> phat = gumbfit(x); % phat iehåller både a- och b-skattigara. >> ahat = phat(1) % a-skattige >> bhat = phat(2) % b-skattige Uppgift: Hur stämmer skattigara med de saa parametervärdea? Uppgift: Simulera 50 ya slumptal frå samma fördelig och skatta parametrara ige. Blev det samma som förra gåge? Varför ite? Egeskaper hos skattigar Uppebarlige varierar skattigara är vi gör ya observatioer. Dessutom är det ofta så att skattigara av två parametrar i samma fördelig (här a och b) ite är oberoede. Vi vill alltså udersöka både variase för de olika skattigara och kovariase mella dem.

DATORÖVNING 2, FMS065 4 För skattigara a och b i e Gumbelfördelig gäller (är atalet observatioer ökar) att 2 V(a ) 6 p 2 a2 a2 0.60793 ) V(b 6(1 g)2 ) (1 + p 2 a2 a2 1.10867 C(a, b ) 6(1 g) p 2 a2 0.25702 a2 (1) (2) Notera att variatioe i b-skattige ite beror på b uta bara på a. Dessutom är kovariase positiv vilket iebär att båda skattigara riskerar att bli för stora (eller för små) samtidigt. För att illustrera detta har vi skrivit e fuktio som simulerar ya stickprov frå e Gumbel-fördelig, skattar a och b och ritar upp dem. >> a = 2.1; b = 1.7; = 50; >> type gumbsim % Se vad fuktioe gör. >> phat = gumbsim(a,b,,1000); % 1000 stickprov med obs i varje. Uppgift: Eligt teori om ML-skattigar ska a och b vara ugefär ormalfördelade. Verkar det stämma? Uppgift: I de udre figure är de 1000 pare (a, b ) iritade. Hur ser ma att kovariase är större ä oll? Uppgift: Ädra stickprovsstorleke frå 50 till 5. Vad häder med ormalapproximatioe? Blir de bättre eller sämre? 5 Fördeligspapper I verkliga situatioer vet vi ite vilke fördelig observatioera kommer frå. Det fis flera sätt att udersöka detta me vi kocetrerar oss här på fördeligspapper som är e ekel grafisk metod. Atag att vi har ett stickprov x 1, x 2,..., x. Ia vi ka skatta ågra parametrar måste vi övertyga oss om att data kommer frå e viss familj av fördeligar, t.ex. ormal, Gumbel eller Weibull. Det är ofta svårt att se detta i ett histogram me det ka vara eklare att aväda fördeligsfuktioe och rita i de i ett fördeligspapper 3. Det fis olika papper för olika fördeligar. Papprets x- och y-axlar är kostruerade så att om data kommer frå e give typ av fördelig så hamar observatioera på e rät lije. Statistics Toolbox i Matlab har ormplot (för ormalfördelig) och wblplot (för Weibull-fördelig). Vi har skrivit e ege gumbplot (för Gumbel-fördelig). Vi provar att geerara data frå ågra olika fördeligar och ser hur det ser ut i olika papper. Vi börjar med ormalfördelig: 2 Det är ite ekelt att visa detta. 3 Ia datorera ritade ma på papper. Namet häger kvar.

DATORÖVNING 2, FMS065 5 >> data = rad(2000,1); % 2000st N(0,1) >> figure(1) >> clf % Tömmer iehållet i figure 1 >> hist(data) >> figure(2) >> ormplot(data) >> figure(3) >> wblplot(data) % Några felmeddelade? Varför? >> figure(4) >> gumbplot(data) Uppgift: Hur ser det ut är vi ritar i rätt papper? I fel papper? Uppgift: Gör om det hela med rektagelfördelade slumptal istället (data=rad(2000,1);). Passar ågo av de tre fördeligara? Uppgift: Gör om det med Weibullfördelade slumptal istället (data=wblrd(2, 2.3, 2000, 1); ger Weibull med a = 2, b = 0 och c = 2.3). Passar ågo av de tre fördeligara? Uppgift: Och ige med e Gumbelfördelig (data=gumbrd(2.1, 1.7, 2000, 1);). Passar ågo av de tre fördeligara? Uppgift: Experimetera med att ädra parametrara i fördelige och också atalet slumptal. Vad häder är ma ädrar parametrara? Vad häder om ma miskar atalet observatioer frå 2000 till, t.ex., 100 eller 25? 6 Mätigar av sigifikat våghöjd i Atlate Vi ska u aväda våra kuskaper för att hitta e lämplig fördelig och skatta parametrar i ett riktigt datamaterial. Iom oceaografi och mari tekologi aväds extremvärdesteori flitigt. När ma desigar havsplattformar behöver ma dimesioera dem efter extrema förhållade. Vi ska studera mätigar frå Atlate. Materialet består av s.k. sigifikata våghöjder 4, d.v.s. medelvärdet av de högsta tredjedele av vågora. Ladda ed datafile och m-file frå hemsida och läs i de i Matlab, läs beskrivige, ta reda på storleke och rita upp de: 4 Ehete är förmodlige 1 meter.

DATORÖVNING 2, FMS065 6 >> close all % Stäger alla plot-föster. >> atl = load( atlatic.dat ); >> help atlatic >> size(atl) >> plot(atl,. ) Vi är itresserade av flera olika saker i materialet me vi ska kocetrera oss på att skatta parametrara i de fördelig som vi tycker passar till data. I de här datorövige ska vi göra följade steg: Hitta e familj av fördeligar, F(x), som verkar passa till data. När vi valt lämplig fördelig, skatta de okäda parametrara. Uppskatta variase för parameterskattigara. Lämplig fördelig Ma vet att de sigifikata våghöjde beter sig ugefär som om de vore maximal våghöjd. Därför ka ma misstäka att de ka vara, t.ex., Gumbel-fördelad. Udersök det geom att rita olika fördeligspapper: >> ormplot(atl) >> wblplot(atl) >> gumbplot(atl) Uppgift: Vilke fördelig verkar bra? Varför är de adra ite bra? Parameterskattigar Nu vill vi skatta parametrara i de valda fördelige och aväda dem för att skatta vätevärde och varias. Jämför seda med stickprovets medelvärde och varias: >> phat = gumbfit(atl); % ML-skattigar av a och b. >> ahat = phat(1) >> bhat = phat(2) >> EX = bhat-ahat*psi(1) % Skattade E och V baserat på... >> VX = ahat^2*pi^2/6 %...de skattade a och b. >> medel = mea(atl) % Stickprovsmedelvärde... >> varias = var(atl) %...och -varias. Uppgift: Verkar vätevärdes- och variasskattige baserat på ML-skattige av parametrara vara rimlig jämfört med stickprovsskattigara? Vi ka få e uppskattig av hur osäkra skattigara är geom att aväda formel (1) och (2) för att uppskatta stadardavvikelse (via variase) hos a och b :

DATORÖVNING 2, FMS065 7 >> Vahat = 6*ahat^2/pi^2/legth(atl); >> Dahat = sqrt(vahat) >> Vbhat = (1+6*(1+psi(1))^2/pi^2)*ahat^2/legth(atl); >> Dbhat = sqrt(vbhat) Uppgift: Verkar osäkerhete stor eller lite i förhållade till hur stora skattigara är? I ästa datorövig ska vi aväda skattade parametrar för att skatta kvatiler i fördelige, t.ex. 100-årsvåge. Vi ska också udersöka hur osäkerhete i parameterskattigara fortplatar sig till kvatilskattige.