Datorövning 2 Fördelningar inom säkerhetsanalys

Relevanta dokument
Datorövning 2 Fördelningar inom säkerhetsanalys

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Grundläggande matematisk statistik

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

4.2.3 Normalfördelningen

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Föreläsning G04: Surveymetodik

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

Föreläsning 2: Punktskattningar

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

Lycka till! I(X i t) 1 om A 0 annars I(A) =

θx θ 1 om 0 x 1 f(x) = 0 annars

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Tentamen i matematisk statistik

Föreläsning G70 Statistik A

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Formelblad Sannolikhetsteori 1

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

S0005M V18, Föreläsning 10

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

F10 ESTIMATION (NCT )

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

TMS136: Dataanalys och statistik Tentamen med lösningar

Introduktion till statistik för statsvetare

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Matematisk statistik TMS063 Tentamen

2. Konfidensintervall för skillnaden mellan två proportioner.

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

1. Test av anpassning.

Genomsnittligt sökdjup i binära sökträd

a) Beräkna E (W ). (2 p)

Avd. Matematisk statistik

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Tentamen i Sannolikhetsteori III 13 januari 2000

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

================================================

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

b 1 och har för olika värden på den reella konstanten a.

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Id: statistik.tex :48:29Z joa

Följande begrepp används ofta vid beskrivning av ett statistiskt material:

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Datorövning 1: Fördelningar

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Borel-Cantellis sats och stora talens lag

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Matematisk statistik KTH. Formelsamling i matematisk statistik

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

Stokastiska variabler

TENTAMEN I MATEMATISK STATISTIK

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

TAMS15: SS1 Markovprocesser

101. och sista termen 1

Lösningar och kommentarer till uppgifter i 1.1

4. Uppgifter från gamla tentor (inte ett officiellt urval) 6

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

SAMMANFATTNING TAMS65

Tentamen i Elektronik, ESS010, del 2 den 14 dec 2009 klockan 14:00 19:00.

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR CDEFI, NANO OCH PI, MAS233, 2004 FMS 012, FMS 022, FMS 121 OCH MAS233

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

Matematisk statistik

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

Tentamen i Matematisk statistik för V2 den 28 maj 2010

x 1 x 2 x 3 x 4 x 5 x 6 HL Z x x x

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Jag läser kursen på. Halvfart Helfart

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

Statistik för bioteknik SF1911 // KTH Matematisk statistik // Formler och tabeller. 1 Numeriska sammanfattningar (statistikor)

Transkript:

Luds tekiska högskola Matematikcetrum Matematisk statistik STATISTISKA METODER FÖR SÄKERHETSANALYS FMS065 Datorövig 2 Fördeligar iom säkerhetsaalys I dea datorövig ska vi studera ågra grudläggade frå saolikhetsteori: täthetsfuktio, vätevärde och varias; och frå iferesteori: histogram, empirisk fördelig och parameterskattig. Vi aväder Gumbelfördelige som exempel eftersom de ofta aväds iom säkerhetsaalys. Vi börjar med simulerigar me ska också studera riktiga data av mätigar av våghöjder i Atlate. 1 Förberedelseuppgifter 1. Läs igeom hadledige samt kapitel 3.4-3.5 och 4.2-4.3 i boke. 2. Skriv er defiitioe av vätevärde och varias för e kotiuerlig slumpvariabel X, d.v.s. E(X ) och V (X ). Beräka vätevärde och varias för X om X är expoetialfördelad. 3. Beräka likelihoodfuktioe L(a; x) om x = {x 1...x } är ett stickprov frå e expoetialfördelig. 4. Hur tolkar ma e ormalfördeligsplot? 2 Täthetsfuktioe som ett gräsvärde för histogram Histogram aväds ofta för att beskriva fördelige av data. Vi jämför histogram med täthetsfuktioe, ofta beteckad f X (x) om variabel heter X, och börjar med e Gumbelfördelig med fördeligsfuktio F X (x) = exp( e (x b)/a ) med parametrara a = 2.1 och b = 1.7. Eftersom Matlab defiierar Gumbelfördelige åt fel håll, jämfört med boke, ka vi ite utyttjaevrd direkt. Därför har vi skrivit e ege versiogumbrd som ka laddas er frå kurses hemsida. Där fis fler Gumbel-fuktioer som vi kommer att behöva. Simulera 1000 slumptal och rita ett histogram: >> a=2.1; b=1.7; >> x=gumbrd(a,b,1,1000) % e radvektor med 1000 kolumer >> hist(x) Likar detta täthetsfuktioe? Eftersom vi har atal observatioer i varje klass på y-axel ka vi ite rita täthetsfuktioe i samma skala. De itegrerar ju till ett. Vi behöver skala om histogrammet så det också itegrerar till ett. Vi har gjort e ege fuktiohistpdf för detta: >> help histpdf >> histpdf(x) Nu ka vi lägga till täthetsfuktioe till histogrammet:

ii >> xv=lispace(mi(x),max(x),1000) % 1000 värde jämt utspridda mella mista % och största x-värdet. >> f=gumbpdf(xv,a,b) % gumbpdf fis på hemsida. >> hold o % Fortsätt rita i histogrammet. >> plot(xv,f, r ) >> hold off Uppgift: Vad häder är atalet slumptal ökar? Testa geom att öka atalet simulerigar frå 1000 till 2000, 5000 och 10000. Uppgift: Vad häder är atalet slumptal miskar? Testa geom att miska atalet simulerigar frå 1000 till 500, 100 och 25. 3 Vätevärde och varias för e slumpvariabel För e slumpvariabel X, ager vätevärdet E(X ) var värdea ligger i medeltal (tygdpukte i fördelige). Variase V(X ) (eller stadardavvikelse D(X ) = V(X )) av X ka ses som ett mått på spridige. Vätevärde och varias fis beräkat för att atal fördeligar, se ågo lämplig tabell. För ett givet datamaterial x 1,..., x (stickprov), vet vi oftast ite vilke fördelig det gäller, och därmed heller ite vätevärde och varias för de fördelige. Stickprovsmedelvärdet, beteckat x = 1 i=1 x i, och stickprovsvariase, beteckad s 2 = 1 1 i=1 (x i x) 2, är motsvarade empiriska mått på läge och spridig. Om atalet observatioer,, ökar förvätar vi oss att dessa storheter ärmar sig E(X ) respektive V(X ). Låt oss udersöka detta med hjälp av simulerade data där vi vet svaret. I e Gumbelfördelig ges vätevärde och varias av 1 E(X ) = b + a, där 0.5772 är Eulers kostat V(X ) = a2 Ô 2 6. Välj ige a = 2.1 och b = 1.7. Då får vi >> a=2.1; b=1,7; >> EX=b-a*psi(1) % -psi(1) ger Eulers kostat i Matlab. >> VX=a^2*pi^2/6 >> DX=sqrt(VX) Simulera u 50 obervatioer frå Gumbel-fördelige (gumbrd) och beräka stickprovsmedelvärdet (mea), -variase (var) och -stadardavvikelse (std): >> x=gumbrd(a,b,1,50); >> mea(x) >> var(x) >> std(x) 1 def = lim k Pk i=1 (1/i) l i = 0.57721566... är Eulers kostat; det är ite kät om är irratioellt eller ite (Hilberts sjude problem).

iii Uppgift: Jämför med de teoretiska värdea som du fick fram ia. Stämmer de överes? Uppgift: Simulera ågra större stickprov med, t.ex., 200, 1000 och 5000 obervatioer. Vad häder är atalet observatioer ökar? 4 Skattig av parametrar Atag att vi har ett stickprov x 1,..., x frå e Gumbelfördelig me där parametrara a och b är okäda. Maximum-likelihood-skattigar fis implemeterat i Matlab för flera olika fördeligar (xxxfit). Eftersom Gumbelfördelige i Matlab är bakväd har vi gjort e ege versio gumbfit. Vi börjar med att simulera 50 obeservatioer frå samma Gumbel-fördelig som tidigare och aväder seda gumbfit för att skatta parametrara: >> a=2.1; b=1.7; >> x=gumbrd(a,b,1,50); >> phat=gumbfit(x); % phat iehåller både a- och b-skattigara. >> ahat=phat(1) % a-skattige >> bhat=phat(2) % b-skattige Uppgift: Hur stämmer skattigara med de saa parametervärdea? Uppgift: Simulera 50 ya slumptal frå samma fördelig och skatta parametrara ige. Blev det samma som förra gåge? Varför ite? Egeskaper hos skattigar Uppebarlige varierar skattigara är vi gör ya obervatioer. Dessutom är det ofta så att skattigara av två parametrar i samma fördelig (här a och b) ite är oberoede. Vi vill alltså udersöka både variase för de olika skattigara och kovariase mella dem. För skattigara a och b i e Gumbelfördelig gäller (är atalet obsdrvatioer ökar) att 2 V(a ) 6 Ô 2 a2 a2 0.60793 ) V(b 6(1 )2 ) (1 + Ô 2 a2 a2 1.10867 C(a, b ) 6(1 ) Ô 2 2 Det är ite ekelt att visa detta. a2 0.25702 a2

iv Notera att variatioe i b-skattige ite beror på b uta bara på a. Dessutom är kovariase positiv vilket iebär att båda skattigara riskerar att bli för stora (eller för små) samtidigt. För att illustrera detta har vi skrivit e fuktio som simulera ya stickprov frå e Gumbel-fördelig, skattar a och b och ritar upp dem. >> a=2.1; b=1.7; =50; >> type gumbsim % Se vad fuktioe gör. >> phat=gumbsim(a,b,,1000); % 1000 stickprov med obs i varje. Uppgift: Eligt teori om ML-skattigar ska a och b vara ugefär ormalfördelade. Verkar det stämma? Uppgift: I de udre figure är 1000 pare (a, b ) iritade. Hur ser ma att kovariase är större ä oll? Uppgift: Ädra stickprovsstorleke frå 50 till 10. Vad häder med ormalapproximatioe? Blir de bättre eller sämre? 5 Fördeligspapper I verkliga situatioer vet vi ite vilke fördelig observatioera kommer frå. Det fis flera sätt att udersöka detta me vi kocetrerar oss här på fördeligspapper som är e ekel grafisk metod. Atag att vi har ett stickprov x 1, x 2,...,x. Ia vi ka skatta ågra parametrar måste vi övertyga oss om att data kommer frå e viss familj av fördeligar, t.ex. ormal, Gumbel eller Weibull. Det är ofta svårt att se detta i ett histogram me det ka vara eklare att aväda fördeligsfuktioe och rita i de i ett fördeligspapper 3. Det fis olika papper för olika fördeligar. Papprets x- och y-axlar är kostruerade så att om data kommer frå e give typ av fördelig så hamar observatioera på e rät libje. Statistics Toolbox i Matlab har ormplot (för ormalfördeig) och wblplot (för Weibull-fördelig). Vi har skrivit e ege gumbplot (för Gumbel-fördelig). Vi provar att geerara data frå ågra olika fördeligar och ser hur det ser ut i olika papper. Vi börjar med ormalfördelig: >> data=rad(2000,1); % 2000st N(0,1) >> hist(data) >> ormplot(data) >> wblplot(data) % Några felmeddelade? Varför? >> gumbplot(data) Uppgift: Hur ser det ut är vi ritar i rätt papper? I fel papper? 3 Ia datorera ritade ma på papper. Namet häger kvar.

v Uppgift: Gör om det med rektagelfördelade slumptal istället (data=rad(2000,1);). Passar ågo av de tre fördeligara? Uppgift: Gör om det med Weibullfördelade slumptal istället (data=wblrd(2,2.3,2000,1); ger Weibull med a = 2, b = 0 och c = 2.3). Passar ågo av de tre fördeligara? Uppgift: Och ige med e Gumbelfördelig (data=gumbrd(2.1,1.7,2000,1); Passar ågo av de tre fördeligara? Uppgift: Experimetera med att ädra parametrara i fördelige och också atalet slumptal. Vad häder är ma ädrar parametrara? Vad häder om ma miskar atalet observatioer frå 2000 till, t.ex., 100 eller 25? 6 Mätigar av sigifikat våghöjd i Atlate Vi ska u aväda våra kuskaper för att hitta e lämplig fördelig och skatta parametrar i ett riktigt datamaterial. Iom oceaografi och mari tekologi aväds extremvärdesteori flitigt. När ma desigar havsplattformat behöver ma dimesioera dem efter extrema förhållade. Vi ska studera mätigar frå Atlate. Materialet består av s.k. sigifikata våghöjder 4, d.v.s. medelvärdet av de högsta tredjedele av vågora. Ladda ed datafile frå hemsida och läs i de i Matlab, läs e beskrivig, ta reda på storleke och rita upp de: >> atl=load( atlatic.dat ); >> help atlatic >> size(atl) >> plot(atl,. ) Vi är itresserade av flera olika saker i materialet me vi ska kocetrera oss på att skatta 100-års-våge, d.v.s. skatta kvatile x 0.01 i de fördelig som vi tycker passa till data. I de här datorövige ska vi göra följade steg: Hitta e familj av fördeligar, F(x), som verkar passa till data. När vi valt lämplig fördelig, skatta de okäda parametrara. Skatta 100-års-våge, dvs, skatta x 0.01. 4 Ehete är förmodlige 1 meter.

vi Lämplig fördelig Ma vet att de sigifikata våghöjde beter sig ugefär som om de vore maximal våghöjd. Därför ka ma misstäka att de kommer frå e Gumbel-fördelig, t.ex. Udersök det geom att rita olika fördeligspapper: >> ormplot(atl) >> wblplot(atl) >> gumbplot(atl) Uppgift: Vilke fördelig verkar bra? Varför är de adra ite bra? Paremeterskattigar Uppgift: Skatta parametrara i de valda fördelige och aväd dem för att skatta vätevärde och varias. Jämför med stickprovets medelvärde och varias. Skattig av kvatiler Skatta, med hjälp av a ad b, de övre 1 %-kvatile x 0.01, som uppfyller P(X > x 0.01 ) = 0.01 1 F(x 0.01 ) = 1 exp( e (x0.01 b)/a ) = 0.01. Det ger oss x 0.01 = b a l( l(1 0.01)). E föruftig skattig x0.01 av x 0.01 borde då bli x0.01 = b a l( l(1 0.01)). (1) Stoppa i dia skattiar och få resultatet: >> xhat=phat(2)-phat(1)*log(-log(1-0.01)) Eftersom a och b båda är slumpvariabler, som dessutom är beroede, är x0.01 också e slumpvariabel. Ma ka beräka vätevärde och varias för de geom att utyttja reglera för lijärkombiatioer. Me det lämar vi till ästa datorövig. Då ka vi göra bootstrap istället...