F13: Kvantiler och extremvärden
Lysrör Extremvärden Vi hade tidigare (Kedja) att om X i var oberoende och Rayleigh-fördelade så blev Y = min(x 1,..., X n ) också Rayleighfördelad. Vad händer med Z = max(x 1,..., X n )? Exempel: Lysrör En viss typ av lysrör har livslängder som kan anses vara exponentialfördelade med väntevärde 1 år. I ett rum finns 100 lysrör. (a) Beräkna 100-års-livslängden, dvs x 0.01. (b) Hur stor är sannolikheten att minst ett av de 100 lysrören har en livslängd som överstiger x 0.01? (c) Beräkna fördelningen för tiden tills alla lysrören gått sönder. (d) Vad händer med fördelningen då antalet lysrör växer?
Lysrör Ex: Lysrör (forts): (a) Vi har livslängderna X i med F X (x) = P(X x) = 1 e x så att P(X > x 0.01 ) = e x 0.01 = 0.01 x 0.01 = ln 0.01 4.6 år. (b) Vi har P(max(X 1,..., X 100 ) > x 0.01 ) = = 1 P(max(X 1,..., X 100 ) x 0.01 ) = 1 (P(X i x 0.01 )) 100 = 1 (1 1 100 )100 1 e 1 = 0.6321
Lysrör Ex: Lysrör (forts): (c) Vi söker fördelningen för Z = max(x 1,..., X 100 ), dvs F Z (x) = P(Z x) = P(max(X 1,..., X 100 ) x) = P(X 1 x,..., X 100 x) = (P(X x)) 100 = (F X (x)) 100 = (1 e x ) 100, x > 0, f Z (x) = F Z (x) = 100 f X(x) (F X (x)) 100 1 (d) För stora n har vi att = 100 e x (1 e x ) 100 1, x > 0 F Z (x) = (1 e x ) n = (1 e (x ln n) dvs en Gumbel-fördelning med a = 1 och b = ln n. n ) n e (x ln n) e
Lysrör 1 0.8 0.6 0.4 Maximum av n st Exp(1) n=1 n=2 n=10 n=50 n=250 0.2 0 2 0 2 4 6 8 10 x 1 0.8 0.6 0.4 Gumbelfördelningar med a=1, b=ln n n=1 n=2 n=10 n=50 n=250 0.2 0 2 0 2 4 6 8 10 x
Definition Lysrör Generaliserad extremvärdesfördelning GEV Maximum, Z = max(x 1,..., X n ), av många oberoende identiskt fördelade stokastiska variabler kan bara vara fördelade enligt tre olika typer: Fréchet, Gumbel eller (omvänd) Weibull. De tre sammanfattas som en Generaliserad extremvärdesfördelning (GEV): { ( P(Z z) exp 1 c z b ) } 1/c = a = z b (1 c e a )1/c c < 0, z > b + a/c, Fréchet e e (z b)/a, c = 0, < z <, Gumbel z b (1 c e c = form, a = skala, b = läge. a )1/c c > 0, z < b + a/c, Weibull +
Definition Lysrör GEV (forts): Tung svans uppåt om c < 0, begränsad svans om c > 0. 0.7 0.6 0.5 GEV med a=1, b=0 c = 0.6 c = 0 c = 1 0.4 0.3 0.2 0.1 0 6 4 2 0 2 4 6 z a-kvantilen i GEV-fördelningen ges av z a = { b + a c (1 ( ln(1 a))c ), c 0, b a ln( ln(1 a)), c = 0
Definition Lysrör Ex: Lysrör (forts): (e) En stor fastighetsägare har 50 rum med 100 lysrör i varje. Beräkna 50- års -lystiden för den maximala lystiden för de olika rummen, dvs den lystid som överstigs i medeltal en gång på 50 rum. Vi har att Z = max(x 1,..., X 100 ) = maximal lystid i ett rum är ungefär Gumbelfördelad med parametrar a = 1 och b = ln 100 så att P(Z > z 50 ) = 1 (1 e z 50 ) 100 1 e e (z 50 ln 100) = 1 50 z 50 = ln(1 (1 1 50 )1/100 ) = 8.5072 år (Exakt) z 50 = ln 100 ln( ln(1 1 )) = 8.5071 år 50 (Approx.) (Det skiljer ungefär 53 minuter.)
Lysrör POT GPD ny GEV Skattning av stora kvantiler Antag att vi inte känner fördelningen för livslängderna men ändå vill skatta kvantiler långt ute i svansen, t.ex. har vi observerat livslängderna för de 100 lysrören i vart och ett av 50 rum, dvs 5000 lysrör. 30 25 20 15 10 5 0 Observerade livslängder (år) för 5000 lysrör 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Lysrör (nr) Hur kan vi skatta svansen i fördelningen?
Lysrör POT GPD ny GEV Max-fördelning Vi vet att maximum av livslängderna för många lysrör är ungefär GEV-fördelat så vi skulle kunna använda maximum för de 50 rummens lysrör istället: Maximal livslängd i 50 rum med 100 lysrör i varje 30 25 per lysrör per rum 20 15 10 5 0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Lysrör (nr)
Lysrör POT GPD ny GEV Max-fördelning (forts): Slöseri med data att bara använda rumsmaxima. Använd också mindre extrema värden, näst högsta, osv. 50 rumsmaxima = 5000 observationer men bara 50 maxima. Rum 1 har minsta maxvärdet Z = 3.7 och 311 lysrör har längre livslängd än så! Kan man använda alla 311? Eller varför inte de 405 värden som är större än 3.0? Eller 648 värden större än 2.0?
Lysrör POT GPD ny GEV Överskott över tröskelnivå (Peaks Over Threshold) Använd alla värden som överstiger en viss nivå. Bestäm en någorlunda hög tröskelnivå u (pröva några olika). Uppskatta förväntat antal överskott l = l u per tidsenhet (t.ex. per år) med l observerat antal överskott = totala observationsperioden Antag att antalet överskott N över tröskeln u under ett år är poissonfördelat: Ex: Lysrör (forts): P(N = k) = e l lk Med u = 3.0 får vi l = 405/5000 = 0.08., k = 0, 1, 2,... k!
Lysrör POT GPD ny GEV Generaliserad Paretofördelning Överskotten över en hög nivå är mer representativa för de globala extremvärdena än vad data i gemen är. Nästan alla fördelningar har en Generaliserad Pareto-svans (GPD). Med Y = X u = överskottet över nivån u gäller approximativt ( 1 1 c y ) 1/c, c 0 P(Y y) a + 1 e y/a, c = 0, Exponential Tung svans om c < 0, begränsad svans om c > 0. Skatta a och c med ML-metoden. Ex: Lysrör (forts): Med Matlab får vi a = 3.08 och c = 0.20.
Lysrör POT GPD ny GEV 0.6 0.5 0.4 0.3 0.2 0.1 GPD med a=2 c = 0.6 c = 0 c = 1 0 1 0 1 2 3 4 5 6 7 8 9 10 y Överskott över nivån u = 3 år 0.3 0.25 Observerade överskott Skattad Generaliserad Pareto (c = 0.20, a=3.08) 0.2 0.15 0.1 0.05 0 0 5 10 15 20 25 Y = X u
Lysrör POT GPD ny GEV Poisson + GPD = GEV N(t) = antalet överskott över u under t år är poissonfördelat med väntevärde lt. Överskottens storlek Y 1,..., Y N är ungefär GPD. Med Z t = t-årligt maximum = u + max(y 1,..., Y N ), så är, för z > u: P(Z t z) = P(N(t) = 0) + =... = exp ( P(N(t) = n, Y 1,..., Y n z u) n=1 ( 1 c z m s där s = a (lt) c och m = u + s a. c ) 1/c + )
Lysrör POT GPD ny GEV Ex: Lysrör (forts): För 50 000 lysrör har vi, t.ex. s = a (l 50 000) c = 0.58 och m = u + s a c = 15.45 och 1 %-kvantilen z 0.01 = m + s c (1 ( ln(1 0.01))c ) = 19.85 år. 0.7 0.6 0.5 Skattad fördelning för maximal livslängd Max av 100 lysrör Max av 5000 lysrör Max av 50000 lysrör 0.4 0.3 0.2 0.1 0 0 5 10 15 20 25 Livslängd (år) OBS: osäker skattning!