Grundläggande matematisk statistik

Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s. en viss sannolikhetsfunktion/täthetsfunktion och fördelningsfunktion. Desssa funktioner kännetecknar slumpprocessen entydigt. Kom ihåg (F.pdf): Om X är en kontinuerlig s.v., vi kan inte beräkna slh:en att X antar ett enskild värde, t.ex P X = 5.5 vi kan bara beräkna slh:en att X ligger i något intervall, t. ex P 3 < X 5.5 Wikipedia: https://sv.wikipedia.org/wiki/sannolikhetsf%c3%b6rdelning

Kontinuerlig likformig fördelning Kodbeteckning: X ~ U a, b uniform Utfallsrum: Ω X = a, b Täthetsfunktion: b a f X x = f X x a x b b a annars X ~ U a, b a b x Kontinuerlig likformig fördelning Fördelningsfunktion: F X x måste vara noll för alla x vänster om a F X x måste vara ett för alla x höger om b För a x b gäller: F X x = P X x = න x f X t x dt = න a x x f X t dt = න a b a dt = b a t a x a = b a F X x X ~ U a, b F X x = x < a x a a x b b a x > b a b x

Kontinuerlig likformig fördelning Väntevärde, beräkning: E X + b = න x f X x dx = න x a b a dx = b a x a = b a b a = b a a + b b a b + a = b f X x a + b a + b = tyngdpunkt a b x Kontinuerlig likformig fördelning Väntevärde, varians, standardavvikelse: E X = a + b masscentrum V X = b a ju större avståndet mellan a och b, desto större variansen b a D X = V(X) = Exempel på kontinuerlig likformig fördelning: Bussen från Arlanda till Uppsala går varje 3:e minut. Jag vet inte när jag kommer ut ur planet väntetiden på bussen ligger någonstans mellan och 3 minuter väntetiden är fördelad X ~ U(, 3) 3

Exponentialfördelningen Kodbeteckning: X ~ Exp λ Utfallsrum: Ω X =, Täthetsfunktion: f X x = λ e λ x x x < λ > λ f X x X ~ Exp λ Exponentialfördelningen X ~ Exp λ Olika λ 4

Exponentialfördelningen X ~ Exp λ Normering: + න f X x + dx = න λ e λ x dx = λ λ e λ x + = e λ x = Fördelningsfunktion: F X x = för x < För x gäller: F X x = න x f X t x dt = න λ e λ t dt = λ λ e λ t x = e λ t x = e λ x F X x = e λ x x x < λ > Fördelningsfunktion: Exponentialfördelningen F X x = e λ x x x < λ > F X x X ~ Exp λ x 5

Exponentialfördelningen Väntevärde, beräkning: E X + = න x f X x = λ x λ e λ x u v + dx = λ න x e λ x dx u v + partiell integration + λ න λ e λ x dx = + න e λ x dx = λ u v Anmärkning: lim x x x e λ x = lim = lim x eλ x x λ e λ x = L Hospital Exponentialfördelningen Väntevärde, varians, standardavvikelse: E X = λ V X = λ D X = λ Kvantil: x α Kom ihåg definitionen för x α : F X x α e λ x α = α e λ x α = α λ x α = ln α x α = = α ln α λ Kvantildefinitionen: f X x area α area α x α 6

Exponentialfördelningen Väntevärde, varians, standardavvikelse: E X = λ V X = λ D X = λ Median: = kvantil för α =.5 alltså x.5 x α = ln α λ f X x F X x x.5 = λ ln.5 x.5 = ln λ.5.5 x.5 x.5 Exponentialfördelningen Exempel: En slumpvariabel är exponentiellt fördelad med väntevärde /3. Beräkna.-kvantilen. Skissa resultatet. area=. x. P = qexp(., rate = 3, lower.tail = FALSE) 7

Exponentialfördelningen Exempel: En elektronisk komponent har en livstid som kan anses vara exponentiellt fördelad med väntevärde 5 timmar. Vad är sannolikheten att denna komponent fungerar längre än 4 timmar? s. v. X: livstid Vad är sannolikheten att denna komponent fungerar mellan och 4 timmar? P = pexp(4, rate = /5) - pexp(, rate = /5).47 Exponentialfördelningen Exempel: En s.v. X är exponentiellt fördelad med väntevärdet Τ4 : X ~ Exp 4 a) P X.5?? P X.5 = F X.5 = e 4.5 = e =.865 b) P. X.4?? P. X.4 = P. < X.4 = F X.4 F X. c) E X?? d) V X?? E X = λ = 4 = e 4.4 e 4. = e.6 + e.8 V X = λ = 6 = e.8 e.6.47 8

Exponentialfördelningen Sammanhang med Poisson-fördelningen: Vi antar att s.v. X är Poisson-fördelad: X ~ Po λ t dvs. händelserna sker helt slumpmässigt i tid eller rum. Avståndet mellan två händelser kallas inter-arrival time och betecknas ofta med T. Eftersom händelserna sker slumpmässigt, är även T en slumpvariabel. Fördelningen av denna s.v. kan anges: T = inter-arrival time event event där X ~ Po λ t P T > t = P inga händelser i intervallet, t = P X = = p X λ t P T > t = e λ t = e λ t! F T t = P T t = P T > t = e λ t Detta är fördelningsfkt:en för Exp λ T ~ Exp λ Inter-arrival time för Poisson-processen är exponentiellt fördelad. förekommer mycket ofta bell curve (klocka) centrala gränsvärdessatsen många storheter är (ungefär) normalfördelade Exempel: mätfel, brusspänning i elektriska system, vita blodkroppar per ml osv. Kodbeteckning: X ~ N μ, σ OBS!: ibland X ~ N μ, σ Utfallsrum: Ω X =, Täthetsfunktion: f X x = x μ π σ e σ < x < + parametrar: μ: symmetricentrum, väntevärde σ: karakteriserar bredden av f X x, standardavvikelse 9

Täthetsfunktion: f X x = x μ π σ e σ < x < + f X x X ~ N μ, σ σ Normering: + න μ x μ π σ e σ dx = (beräkning: se t. ex. Blom s. 6) Olika µ (väntevärden) μ = μ = 4 μ = 8 Olika σ (standardavvikelser) σ =.5 σ =.5 σ = 4.5

Väntevärde, varians, standardavvikelse: E X + = න x f X x + dx = න x x μ π σ e σ dx = = μ V X + = න x μ f X x + dx = න x μ x μ π σ e σ dx = = σ D X = V(X) E X = μ Härledning: se t. ex Blom s. 46 och 48 V X = σ D X = σ Fördelningsfunktion: F X x X ~ N μ, σ inget analytiskt uttryck inte heller tabellerad (tabellerad bara för N(,)) μ Fördelningsfunktion för N(, ): specialfall μ = ; σ = standard normalförd. F X x = න x π t e dt = Φ x kallas Φ x tabellerad för (tillräckligt) många x

Fördelningsfunktion för N(,): Φ x μ = σ = tabellerad från.. 4. i.-steg Det finns bara en tabell över fördelningsfunktionen för N(, ). Vilken nytta ska denna speciella tabell ha? Låt X ~ N(μ, σ) F X x = න Substitution: z = t μ σ dz dt = σ F X x x t μ π σ e σ dt allmän fördelningsfunktion (OBS! z är faktiskt den standardiserade slumpvariabeln!) dt = σ dz x μ σ = න π z e dz = Φ täthetsfunktion för N(, ) x μ σ F X för N(, )!!

X ~ N(μ, σ) F X x = Φ x μ σ Fördelningsfunktionen för den allmänna normalfördelningen kan beräknas med hjälp av fördelningsfunktionen för den standardiserade normalfördelningen. Om X ~ N(μ, σ), så är F X x = Φ x μ, där Φ är fördelningsfunktionen för den σ standardiserade normalfördelningen, N(, ). X ~ N(μ, σ) P X x = F X x = Φ x μ σ Med hjälp av denna formel och en tabell över Φ kan man beräkna fördelningsfunktionen för alla värden av x, för alla μ och σ (med en viss precision). P X x = F X x = Φ x μ σ Tabellerna över Φ finns dock bara för positiva argument (se ovan). Med hjälp av symmetrien av N, lyckas dock också beräkningen för negativa argument. Man utnyttjar att N, är symmetrisk kring noll: f X x X ~ N(, ) Dem rödmarkerade områdena har samma storlek (pga. symmetrin). Därmed följer: Φ a = Φ a Φ a Φ a Beräkning av Φ för negativa argument a a 3

Sannolikheten att en normalfördelad slumpvariabel hamnar mellan a och b: gäller allmänt gäller bara för normalfördelningen f X x X ~ N μ, σ a b a) Exempel: beräkning av F X för godtyckliga μ och σ X ~ N(μ, σ) X ~ N(3, ) söker: P X? P X = F X = Φ 3 tabell = Φ = Φ =.843 =.587 b) X ~ N(μ, σ) X ~ N(, ) söker: P X 3? P X 3 = F X 3 F X = Φ 3 Φ = Φ Φ = Φ Φ = Φ =.843 =.683 Del b) frågade efter slh. att X ligger mellan μ σ och μ + σ. Denna slh. är alltså 68%. Se nästa sida 4

Sannolikhet att X ligger mellan μ σ och μ + σ P μ σ < X μ + σ = F X μ + σ F X μ σ = Φ = Φ Φ = 68% μ + σ μ σ Φ μ σ μ σ Om X ~ N μ, σ, så är sannolikheten att X ligger mellan μ σ och μ + σ ungefär 68%. Med samma metod får man: P μ σ X μ + σ 95% P μ 3σ X μ + 3σ 99.7% Sannolikhet att X ligger mellan μ σ och μ + σ P μ σ X μ + σ 68% Om X ~ N μ, σ ungefär 68%. så är sannolikheten att X ligger mellan μ σ och μ + σ f X x X~ N μ, σ 68% μ σ μ μ + σ 5

På samma sätt som ovan kan man komplettera: 68% 95% 99.7% Exempel: En s.v. X är normalfördelad med väntevärde 3 och variansen 4. a) Ange sannolikheten att denna s.v. blir mindre än. Skissa resultatet OBS!: :a parameter är standardavvikelsen! b) Ange sannolikheten att denna s.v. ligger mellan och 5. Skissa resultatet. a) b) 6

Kvantiler för den standardiserade normalfördelningen, N(, ) Kom ihåg definitionen för kvantiler x α : F X x α = α Kvantilerna för N(, ) kallas ofta λ α f X x X ~ N(, ) F X x α = α generellt Φ λ α = α för N(, ) area = α Kvantilerna för N(, ) är tabellerade: se Blom et al. s. 397 7

Kvantiler för den standardiserade normalfördelningen, N(, ) Ofta används också α Τ som argument, dvs. vi ersätter α med α Τ : f X x X ~ N(, ) Φ λα Τ = α Τ α λα area = α =.5 λ.5 förekommer ofta! λ.5 =.96 α Sannolikhet att en N, -slumpvariabel ligger mellan λα Τ och +λα Τ : P λα < X λα = Φ λα Φ λα = Φ λα Φ λα = Φ λα = α = α f X x X ~ N(, ) P λα < X λα = α (pga. symmetri) α α α OBS!: detta viktiga resultat behövs senare för intervallskattningen! λα λα 8

Linjärtransformation av normalfördelade s.v. Y = a X + b linjärtransformation Repetition linjärtransformation (se F3): μ = E(X) σ = V(X) σ = D(X) Vi vet redan att E Y = a μ + b och D Y = a σ - detta gäller ju allmänt - men om X är normalfördelad, då är även Y normalfördelad: Om X ~ N(μ, σ) och Y = a X + b där a, b är rella tal Y ~ N a μ + b, a σ Summa och differens av slumpvariabler Väntevärde och varians för summa och differens av slumpvariabler (ny): kovarians Om a = och b = ± : Kovarians: C X, Y = E X μ X Y μ Y Bara om x, y oberoende! ( C X, Y = ) Observera plusset i ekvationen! (b = b = ) För flera summander gäller: Ekvationen för väntevärdet gäller allmänt. Ekvationen för variansen gäller bara om alla X i är parvist oberoende! Väntevärdet för en summa är alltså detsamma som summan av väntevärdena. Om alla variabler är oberoende, då är också variansen för en summa detsamma som summan av varianserna. 9

Summa och differens av två oberoende normalfördelade slumpvariabler Låt X ~ N μ X, σ X alltså E X = μ X och V X = σ X Y ~ N μ Y, σ Y alltså E Y = μ Y och V Y = σ Y E X + Y = μ X + μ Y och E X Y = μ X μ Y V X + Y = V X + V(Y) = σ X + σ y D X + Y = σ X + σ y V X Y = V X + V Y = σ X + σ y D X Y = σ X + σ y Summa / differens av två oberoende normalfördelade s.v. är också normalfördelade, med väntevärde μ X ± μ Y och standardavvikelse σ X + σ y alltid plus! X ± Y ~ N μ X ± μ Y, σ X + σ y Summa av flera oberoende normalfördelade s.v. Låt X i ~ N μ, σ i =,,., n n oberoende normalfördelade s.v. med samma väntevärde och varians X i måste vara oberoende Summa och differens av flera oberoende normalfördelade s.v. med samma väntevärde och varians är också normalfördelade; väntevärdena och varianserna adderas: Låt X i ~ N μ, σ i =,,., n oberoende X i ~ N n μ, n σ i Notera att summan är också normalfördelade (bevisas inte).

Medelvärdet av flera oberoende normalfördelade s.v. Låt X i ~ N μ, σ i =,,., n n oberoende normalfördelade s.v. med samma väntevärde och varians (se ovan) Standardavvikelsen för തX är mindre än för ett enda X i - viktig för mätningar! Fler mätvärden (n) smalare fördelning för തX n Täthetsfunktion för genomsnittet ( തX) f ത X x n = n = 4 n = 6 X i ~ N(μ, σ) തX n ~ N μ, σ n SEM = Standard Error of the Mean

Exempel: Fördelning för X i Sannolikheten är 3% att felet hållas i gränserna mellan -3 och 3. Exempel: Fördelning för തX Sannolikheten är 87% att felets medelvärde hållas i gränserna mellan -3 och 3. Mycket bättre!

Centrala gränsvärdessatsen (CGS) ( Central Limit Theorem, CLT) Vi har sett: summor och medelvärden av N-fördelade s.v. är N-fördelade. CGS: även summor/medelvärden av godtyckligt fördelade s.v. är N-fördelad, om slumpvariablerna är: likafördelade (har samma fördelning) oberoende många (limit ) AsN betyder asymptotiskt normalfördelad, det räcker också med bara N. Summa och medelvärde är ungefär normalfördelade, oavsett formen på den givna fördelningen på X i, bara antalet komponenter är stort nog. OBS!: CGS gäller ungefär även om X i är icke exakt likafördelade eller svagt beroende. CGS: kasta flera tärningar - sannolikhet för summan av ögontalen n = n = se F.pdf: två tärningar n = 5 n = n = antalet tärningar (deras ögontal summeras) Ju större n blir, desto mer liknar fördelningen för summan en normalfördelning. 3

Fördelning av medelvärdet och dess standardisering X i ~ N eller CGS Kom ihåg: En slumpvariabel standardiseras genom att subtrahera medelvärdet och dela med standardavvikelsen. Den resulterande slumpvariabeln har väntevärde och standardavvikelse. Denna variabel är N(,)-fördelad ( standard normal ). Summa och differens av medelvärden o Vi har sett att medelvärdet av flera normalfördelade slumpvariabler (med samma väntevärde μ och samma standardavvikelse σ) också är normalfördelad. o Dessutom är medelvärdet av godtycklig fördelade slumpvariabler (ungefär) normalfördelad, bara antalet komponenter är stort nog (CGS). CGS = Centrala gränsvärdessatsen Enligt reglerna för summor av normalfördelade s.v. följer: 4

Summa och differens av medelvärden Exempel: De oberoende s.v. X och X är båda N(, ). Ange fördelningen för genomsnittet തX = X +X. (Blom, 6.7) Detta stämmer överens med den allmänna formeln vi hade (n = ): σ n = = Sammanfattning: fördelning av summor/medelvärden 5

Summa och differens av N-fördelade s.v. Exempel: Vissa tillverkade byggnadselement har en längd (i cm) som approximativt är N 5,.4. Man lägger slumpmässigt valda element intill varandra utan fogar. Hur stor är slh. att deras sammanlagda längd överstigar 55 cm? (Blom, s. 53) sökes: Summa och differens av N-fördelade s.v. Exempel, fortsättning: Man lägger ut två råder om 4 element vardera. Hur stor är slh. att skillnaden mellan radernas längder överstigar cm? Råd : R Råd : R (Blom, ändrat) Detsamma för råd Sökes: OBS: Akta absoluttecknen! 6

Medelvärdet av N-fördelade slumpvariabler Exempel: Vid användning av en viss mätmetod antas de erhållna värdena vara normalfördelade med väntevärdet 8. och standardavvikelsen.5. Hur stor är slh. att ett mätvärde ligger mellan 7.5 och 8.5? Exempel, fortsättning: Hur stor är sannolikheten att aritmetiska medelvärdet av fyra oberoende mätvärden ligger i samma intervall? Exempel: En s.v. X är standard-normalfördelad. Beräkna följande slh.: X ~ N(, ) Jogreus, s. 339 kontinuerlig s.v.! tabell! a) P(X.8)? P X.8 = P X <.8 = F X.8 = Φ.8 =.9656 b) P X.35 = Φ.35 = Φ.35 =.6368 =.363 c) P. < X.5 = Φ.5 Φ. = Φ.5 Φ. = Φ.5 + Φ. =.695 +.8849 =.5764 d) P X > a =.5 Söker: a P X > a = P X a = F X a = Φ a =.5 Φ a =.95 a =.64 (tabell) e) P X < a =.95 Söker: a P X < a = P a < X +a = Φ a Φ a = Φ a Φ a = Φ a =.95 Φ a =.975 a =.96 = λ.5 7

Exempel: En s.v. X är standard-normalfördelad. För en annan s.v. Y gäller: Y = 3 X + Ange väntevärdet, varians och standardavvikelse för s.v. Y! E X = ; V X = givna Svar: E Y = E 3 X + = 3 E X + = V Y = V 3 X + = 3 V X = 9 D Y = V(Y) = 9 = 3 Exempel: En s.v. X ärnormalfördelad med X ~ N(5, ) Beräkna följande sannolikheter: a) P(X 6)? P X 6 = F X 6 = Φ 6 5 = Φ.5 =.695 b) P(.8 < X < 7.)? P.8 < X < 7. = P.8 < X 7. = F X 7. F X.8 = Φ 7. 5 Φ.8 5 = Φ. Φ.6 = Φ. Φ.6 = Φ. + Φ.6 =.8643 +.945 =.895 c) P X a =.5 Söker: a P X a = F X a = Φ a 5 Φ 5 a =.5 värdet.5 inte i tabellen använd Φ x = Φ(x) =.95 tabell 5 a =.64 för att Φ.64 =.95 a = 5.64 =.7 8

Appendix Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Sannolikheten inom σ-intervaller 9

Stora talens lag ( X n ) P X n då n Blom s. 8 3