Grundläggande matematisk statistik Väntevärde, varians, standardavvikelse, kvantiler Uwe Menzel, 28 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Väntevärdet X : diskret eller kontinuerlig slumpvariable (s.v.) p X k sannolikhetsfunktion; f X : täthetsfunktion Väntevärde: viktat medelvärde, där varje utfall viktas med sitt respektive sannolikhet. Eempel : diskret s.v. X k 2 3 p X k 6 3 2 OBS!: det aritmetiska medelvärdet är: M = + 2 + 3 = 2 3 Väntevärde: E(X) epectation E X = 6 + 2 3 + 3 2 = 6 + 4 6 + 9 6 = 4 6 = 2 3 vikter, adderas till utfall som är mest sannolika får störst vikt mindre sannolika utfall får mindre vikt.
Väntevärden, definition X : diskret eller kontinuerlig slumpvariable (s.v.) p X k sannolikhetsfunktion; f X : täthetsfunktion Diskreta slumpvariabler: E X = k p X k k Ω en summand = utfall dess sannolikhet summeras över all k från Ω Kontinuerliga slumpvariabler: + E X = න f X d integral istället för summa Väntevärdet betecknas ofta med μ, dvs. μ = E(X) Väntevärden för en funktion av en slumpvariabel Funktioner av slumpvariabler: X 2 ; 2 X ; X 3 ; e X E X = න f X d M X t = E e t moment-generating function E X 2 = න 2 f X d E e X = න e f X d E X n = dn M dt n t= n:e moment = n:e derivering för t = Allmänt: kontinuerlig diskret E g X = න g f X d E g k = g(k) p X k k samma funktion samma funktion 2
Väntevärden för en funktion av en slumpvariabel Eempel parkeringsavgift: anta att parkeringstiden är en slumpvariabel X som är likförmig fördelat på intervallet (, ) : man skriver också X ~ U, ; U från uniform täthetsfunktionen är alltså: f X = < X annars likförmig fördelat på (, ) X ~ U, väntevärde: f X X ~ U, E X = න f X d = න d = 2 2 = 2 medelparkeringstid Väntevärden för en funktion av en slumpvariabel Eempel, fortsättning : anta att parkeringsavgiften består av kr engångsavgift plus 2 kr/timme. Parkeringsavgiften är alltså en slumpvariabel (Y). Det gäller Y = + 2 X (Y är en funktion av en s.v., och därför också en s.v.) Kom ihåg: f X = < X annars täthetsfunktion för parkeringstiden Väntevärdet för parkeringsavgiften: + E Y = E + 2 X = න + 2 X f X d = න + 2 X d g() g() = + 2 = + = (det är kr för engångsavgiften och krona för den förväntade parkeringstiden ½ timme!) 3
Variansen X : diskret eller kontinuerlig slumpvariable (s.v.) p X k sannolikhetsfunktion; f X : täthetsfunktion Variansen beskriver spridningen av en s.v.. Beteckning: V(X) = varians för s.v. X Definition: V X = E X μ 2 där μ = E(X) Ofta används beteckningen σ 2 elller σ 2 för V(X) Vi vet att: E g X = න g f X d sätter g = μ 2 respektive: E g k = g(k) p X k sätter g k = k μ 2 k kontinuerliga s.v. diskreta s.v. V X + = න μ 2 f X d V X = k μ 2 p X k k Varians, illustration (för diskreta s.v.) V X = k μ 2 p X k k kvadratiska avståndet från medelvärdet μ k μ Utfallen som ligger långt bort från medelvärdet μ och som har samtidigt en stor slh. p X k bidrar mycket till variansen, dvs. stora stolpar långt bort från väntevärdet μ orsaker stor varians. 4
Varians, alternativa uttryck V X = න μ 2 f X d = න 2 + μ 2 2μ f X d = න 2 f X d + μ 2 න f X d 2μ න f X d = = E X = μ = E X 2 + μ 2 2 μ 2 = E X 2 μ 2 det är ofta lättare att räkna alltså: V X = E X 2 μ 2 + E X 2 = න 2 f X d om X kontinuerlig E X 2 = k 2 p X k k om X diskret Beräkning av variansen Eempel : diskret slumpvariabel med följande täthetsfunktion p X k k 2 3 4 8 2 4 8 8 Beräkna variansen V(X)! 8 μ = E X = 8 + 2 2 8 + 3 4 8 + 4 8 = 2 8 μ 2 = 22 64 k p X k E X 2 = 2 8 + 22 2 8 + 32 4 8 + 42 8 = 6 8 k 2 p X k V X = 6 8 22 6 8 22 = =.73 V(X) för tärning?? 64 64 5
area=.5 area=.5 28-9-25 Standardavvikelse D X = V(X) D(X) positiva roten väljs Betecknas också med σ alltså σ = D(X) Standardavvikelsen har samma enhet (meter, sekund, ) som slumpvariabeln. Variationskoefficient R X = D(X) E(X) spridning i relation till väntevärdet (om väntevärdet är stort kan eventuellt en större spriding accepteras). dimensionslös anges ofta i % Median mellersta värdet i utfallsrummet a) diskreta s.v. ojämt antal värden jämt antal värden b) kontinuerliga slumpvariabler Medianen delar täthetsfunktionen i två delar med samma area under kurvan. Därför gäller också: F X.5 =.5 median.5 = beteckning för median 6
Median o Medianen är inte detsamma som väntevärdet! o Medianen och väntevärdet sammanfaller om fördelningen är symmetrisk! Eempel : F Y y = y 2 för < X ; annars Beräkna medianen!: F X.5 =.5.5 = median 2.5 = 2.5 = 2 Eempel s.v. X med täthetsfunktion f X f X = 2 < annars Väntevärde: Varians: E X + = න + E X 2 = න f X 2 f X d = න 2 d = න 2 2 d = 2 d = න 2 2 d = 2 න 3 d = 2 3 = 2 3 3 4 = 4 2 V X = E X 2 μ 2 = 2 4 9 = 9 8 8 8 = 8 7
Eempel, forts. s.v. X med täthetsfunktion f X = 2 < annars Fördelningsfunktion < F X = න f X t dt = න 2 t dt = 2 t 2 = 2 2 F X = < 2 < > F X Median F X.5 =.5 2.5 =.5.5 =.5 Kvantiler α = beteckning för α kvantil < α f X α area α Kvantilen α är en position på -aeln av en täthetsfunktion. Kvantilen α ligger så att arean under täthetsfunktionen höger om α är just α. OBS!: Det finns en alternativ definition, i synnerhet i engelsk literatur! Enligt den definitionen ligger α så att arean under täthetsfunktionen vänster om α är just α. I föreläsningen används dock den förstnämda definitionen! Om arean till höger om kvantilen är α, så måste arean till vänster vara α (aiom 2). Med hjälp av definitionen för fördelningsfunktionen följer: F X α = α Kvantiler beräknas vanligtvis med denna formel (om det är möjligt att lösa denna ekvation för att ta fram α ). 8
Beräkning av kvantiler Eempel : Beräkning av kvantilen.5 Låt X vara en s.v. med följande täthetsfunktion: f X = 2 e 2 <. Fördelningsfunktion: F X = න f X t dt = න 2 e 2t dt = 2 e 2t 2 = e 2t = e 2 2. Beräkning av kvantilen.5 F X α = α med α =.5 för, annars e 2.5 =.5 =.95 f X e 2.5 =.5 2.5 = ln.5 area =.5.5 = ln.5.5 2.5 Kvartiler Kvartilerna delar täthetsfunktion i 4 lika stora andeler. f X Sammanhang med kvantilerna: :a kvartil =.75 2:a kvartil =.5 (median) 25% 25% 25% 25% 3:e kvartil =.25 :a kvartil 2:a kvartil 3:e kvartil o 2:a kvartilen är samtidigt medianen (för symmetriska täthetsfunktioner är det samtidigt väntevärdet). o Avståndet mellan :a och 3:e quartil kallas också IQR ( Inter-Quartile Range ). Detta kan också används som ett mått för spridningen av en slumpvariabel. 9
Linjärtransformation av slumpvariabler X, Y: slumpvariabler a, b: reella tal Y = a X + b linjärtransformation a) speciellt fall: a = Y = X + b b konstant f X X Y = X + b väntevärdet förskjuts med b variansen oförändrad tärning: Ω X =, 2, 3, 4, 5, 6 Ω X+2 = 3, 4, 5, 6, 7, 8 E(X) E(Y) Linjärtransformation av slumpvariabler X, Y: slumpvariabler a, b: reella tal Y = a X + b linjärtransformation b) speciellt fall: b = Y = a X a konstant = skalering, ombyte av enhet t.e. m cm på -aeln f X X Y = a X o väntevärdet förskjuts o variansen förändras tärning: Ω X =, 2, 3, 4, 5, 6 Ω 5 X = 5,, 5, 2, 25, 3 E(X) E(Y)
Räkneregler för linjärtransformation av s.v. E a X + b = a E X + b Y = a X + b linjärtransformation V a X + b D a X + b = a 2 V(X) = a D(X) en förskjutning med b påverkar inte variansen Bevis (för kontinuerliga s.v.): E a X + b = න a + b f X d = a න f X d + b න f X d = a E X + b = E(X) = V a X + b = න a + b a μ + b 2 f X d = a 2 න μ 2 f X d = a 2 V X E a X + b Standardiserade slumpvariabler X : slumpvariabel Låt E X = μ (väntevärde) V X = σ 2 (varians) D X = σ standardavvikelse Låt oss definiera en ny s.v. genom linjärtransformation: (från X, subtrahera väntevärdet och delar med std.av.) Y = X μ σ detta är en linjärtransformation: Y = σ X μ σ a b
Standardiserade slumpvariabler Y = X μ σ Väntevärde och standardavvikelse för Y blir: μ E Y = E V Y = V X μ σ X μ σ = E σ X μ σ = σ E X μ σ = σ 2 = V σ X μ σ = σ2 V X = Låt X vara en slumpvariabel med E X = μ och D X = σ. Den standardiserade slumpvariabeln Y = X μ har väntevärdet och standardavvikelsen. σ OBS!: Detta säger dock ingenting om fördelningen för Y. S.v. Y måste inte ha samma fördelning som X. 2