Väntevärden Bengt Ringnér October 0, 2006 1 Inledning 2 Väntevärden Låt X vara en stokastisk variabel som representerar ett slumpmässigt försök, t ex att mäta en viss storhet. Antag att man kan göra, eller åtminstone tänka sig, oberoende upprepningar av försöket under oförändrade förhållanden, och beteckna resultaten med x 1,x 2,... Väntevärdet av X, som skrivs E(X), är vad man väntar sig att medelvärdet av X skall bli i det långa loppet, dvs vilket värde man väntar sig att x 1 + x 2 2, x 1 + x 2 + x,..., x 1 + x 2 +... + x,... skall närma sig mer och mer ju större blir. Exempel Mats Tatistiker spelar på en spelautomat som ger en enkrona med sannolikheten 0.4, en femkrona med sannolikheten 0.2 och en tia med sannolikheten 0.1. Vad är väntevärdet hur mycket han vinner? Om 1000, till exempel, väntar man sig att han skall få 400 enkronor, 200 femkronor och 100 tior, dvs totalt 400 + 5 200 + 10 100 kronor, så I formelspråk är detta E(X) 400 + 5 200 + 10 100 1000 2.4 E(X) 0 P(X 0) +1 P(X 1) +5 P(X 5) +10 P(X 10) 2.4 }{{}}{{}}{{}}{{} 0. 0.4 0.2 0.1 Fortsättning: Om insatsen är 2.50 per spelomgång får han i det långa loppet betala 10 öre per gång för nöjet att spela. I formelspråk: E(X 2.5) E(X) 2.5 0.1 1
Exempel Om X betecknar temperaturen mätt i grader Celsius och E(X) 10, vad är då E(Y ) där Y betecknar samma temperatur, men mätt i grader Fahrenheit, dvs Y 9 5 X + 2? Eftersom sambandet Y 9 5X + 2 är lineärt (jämför med exemplet efter sats 1 nedan), kan man resonera så här: y 1 + y 2 +... + y 9 5 x 1 + 2 + 9 5 x 2 + 2 +... + 9 5 x + 2 9 5 x1 + x 2 +... + x + 2 + 2 +... + 2 } {{ } 2 Alltså E(Y ) E( 9 5 X + 2) 9 E(X) + 2 50. 5 Exempel Om X är den tid det tar att äta frukost, Y den tid det tar att cykla till jobbet och X + Y den totala tiden, får vi, eftersom (x 1 + y 2 ) + (x 2 + y 2 ) +... + (x + y ) att x 1 + x 2 +... + x E(X + Y ) E(X) + E(Y ).. + y 1 + y 2 +... + y u är följande räkneregler i överensstämmelse med vad man menar med väntevärde. Vi kan kalla dem axiom för väntevärdesräkningar. I fortsättningskurser kan man bevisa att de inte leder till motsägelser. 1. Om X 0, så är E(X) 0. 2. E(1) 1.. Om a är en konstant, så är E(aX) ae(x). 4. E(X + Y ) E(X) + E(Y ). 5. Om X kan anta värdena 0,1,2,...,n, gäller E(X) k P(X k). k0, 2
edanstående definition är egentligen en sats som följer ur räknereglerna. Definition 1 Om X kan anta värdena 0, 1, 2,..., gäller E(X) k P(X k). k0 Om X är kontinuerlig med täthetsfunktion f X, gäller E(X) x f X (x)dx. Observera Om X bara kan variera inom vissa gränser, har man dem som integrationsgränser. Om t ex X är rektangelfördelad mellan a och b är b E(X) x 1 b a dx 1 [ ] x 2 b 1 b 2 a 2 a + b b a 2 b a 2 2, a vilket är vad man kunde vänta sig. Följande viktiga sats bevisar 1 vi inte. Sats 1 Om Y g(x) där g är en given funktion är E(Y ) g(k) P(X k), respektive E(Y ) k0 a g(x) f X (x)dx. Exempel Efter att ha väckts av en jordbävning under en predikan i domkyrkan i Pisa rusade Gallilei upp i det lutande tornet för att utföra fallförsök med klot av olika material. Han hade nämligen kommit på att pendelrörelse kan användas för noggrann tidmätning. Med en lätt historieförfalskning orkade han inte ända upp, utan stannade på en höjd X, som var rektangelfördelad mellan 0 och 16. Tiden för klotet att nå marken från höjden X är Y 2X/9.81. Beräkna E(Y ). Lösning: E(Y ) E( 2X/9.81) 2/9.81E( X) 2/9.81 [ ] 2/9.81 2 16 16 x/2 2/9.81 2 0 16. 16 0 x 1 16 0 dx 1 I engelskspråkig litteratur kallas satsen ibland Law of the Unconscious Statistician. För att kunna göra ett strikt bevis av den behöver man kunna måtteori, men då trillar den å andra sidan ut automatiskt.
Här kan man alltså inte som i fahrenheitexemplet sätta in E(X) 8 i formeln för Y, utan måste räkna ut en integral. Se emellertid Gauss approximation nedan. Standardavvikelse Man brukar använda beteckningarna E(X) µ X, E(Y ) µ Y, etc. Om bara ett µ är inblandat kan man hoppa över indexet. Som mått på hur mycket X avviker från sitt väntevärde i det långa loppet skulle man kunna använda E( X µ ), men följande är bättre att räkna med. Definition 2 Standardavvikelsen av X ges av där V kallas variansen och ges av där µ E(X). D(X) V(X) V(X) E((X µ) 2 ). Exampel I spelet i förra avsnittet ges variansen enligt sats 1 av V(X) (0 2.4) 2 P(X 0) +(1 2.4) 2 P(X 1) + }{{}}{{} 0. 0.4 (5 2.4) 2 P(X 5) +(10 2.4) 2 P(X 10)... }{{}}{{} 0.2 0.1 För att det skall bli enklare att räkna utvecklar man kvadraten: V(X) (k µ) 2 P(X k) }{{} k 2 2kµ+µ 2 k 2 P(X k) 2µ kp(x k) +µ 2 kp(x k) } {{ } E(X 2 ) } {{ } µ } {{ } 1 E(X 2 ) µ 2 1 0.4 + 25 0.2 + 100 0.1 2.4 2 9.64, 4
så D(X).105. Detta kommer att användas i samband med centrala gränsvärdessatsen senare. Exempel I exemplet med temperaturer gäller att variationerna upp och ner är 9/5 gånger så stora om de mäts i Fahrenheit istället för i Celsius. Att addera 2 påverkar inte variationerna. I formler: Vidare gäller rimligtvis att D( 9 5 X + 2) 9 5 D(X). D( X) D(X). Exempel är det gäller X+Y blir det inte så enkelt eftersom variablerna kan bero på varandra. I exemplet med frukost- och cykeltiderna kan det vara så att ju längre tid frukosten tar ju snabbare måste man cykla. I extremfallet tar man alltid in hela förseningen och då är D(X +Y ) 0. Här behövs istället satsen nedan. Sats 2 För variansen gäller: 1. V(X) 0 alltid och V(X) 0 om X är konstant. 2. V(X) E(X 2 ) µ 2 där µ E(X).. Om a och b är konstanter, är (a) V(aX + b) a 2 V(X). Speciellt V( X) V(X). (b) D(aX + b) a D(X). Speciellt D( X) D(X). 4. Om X och Y är oberoende gäller: Bevis (a) V(X + Y ) V(X) + V(Y ). (b) V(X Y ) V(X) + V(Y ). Obs + i högerledet, ty 2 +. (c) D(X ± Y ) σx 2 + σ2 Y. Pythagoras sats. 1. Eftersom (X µ) 2 0, är E((X µ) 2 ) 0. Om X är konstant är µ X. 5
2. Utveckla E((X µ) 2 ) som i exemplet ovan. Detta ger E((X µ) 2 ) E(X 2 2Xµ µ 2 ) E(X 2 ) 2µE(X)+µ 2 E(X 2 ) µ 2. ( ) ) 2. V (ax + b) E( (ax + b) (aµ + b) a 2 V(X). } {{ } a 2 (X µ) 2 4. (a) Enligt definition: ( ) ) 2 V(X + Y ) E( (X + Y ) (µ X + µ Y ). Men ( 2 (X + Y ) (µ X + µ Y )) ( 2 (X µ X ) + (Y µ Y )) (X µ X ) 2 + 2(X µ X )(Y µ Y ) + (Y µ Y ) 2. Om X och Y är oberoende, kommer positiva och negativa utfall av (X µ X )(Y µ Y ) att ta ut varandra 2 i det långa loppet, så V(X + Y ) E((X µ X ) 2 ) + E((Y µ Y ) 2 ) V(X) + V(Y ). (b) Detta kan bevisas på två sätt: i. Precis som i a. Minustecknet påverkar bara termen som försvinner. ii. V(X Y ) V(X +( Y )) V(X)+V( Y ) V(X)+V(Y ). (c) Fås genom rotutdragning. 2 Skall man vara petnoga, följer det av en variant av sats 1 att E((X µ X)(Y µ Y )) X (j µ X)(k µ Y ) P(X j, Y k) {z } j,k P(Y k)p(y k) X X (j µ X)P(X j) (k µ Y )P(Y k) 0. j k {z } {z } E(X) µ X 0 E(Y ) µ Y 0 Motsvarande gäller för kontinuerliga stokastiska variabler. 6
4 Tillämpningar 4.1 Trafikintensiteter Om X är poissonfördelad med parameter µ gäller E(X) k0 ke µµk k! e µ µ k (k 1)! j0 e µµj+1 j! µ e µµj j! j0 }{{} 1 µ. Exempel Trafiken på en viss väg antas vara sådan att antalet bilar som passerar undet ett tidsintervall är poissonfördelat. Vidare är trafikintensiteten 2.6 bilar per minut. En igelkott behöver en halv minut för att kila över vägen. Vad är sannolikheten att ingen bil passerar under den tiden? Låt X vara antalet bilar som passerar under en halv minut. Då gäller E(X) 2.6/2 1. och enligt förutsättningarna är X poissonfördelad. Den sökta sannolikheten ges alltså av P(X 0) e 1.1.0 0! e 1. 0.2725 Sannolikheten att igelkotten kommer över helskinnad är naturligtvis större än så, men det var inte det frågan gällde. 4.2 Centrala gränsvärdessatsen Exempel Antag att Mats i det första exemplet spelar 100 spel. Vad är sannolikheten att han inte förlorar mer är 50 kronor? Eftersom han betalar 100 2.5 250 kronor i insats, måste han vinna minst 200 kronor. Han vinner X X 1 + X 2 +... + X 100. Enligt tidigare är E(X i ) 2.4 och D(X i ).105 Detta ger och E(X) 100 2.4 240 V(X) 100.105 2 så D(X) 100.105 2 }{{} 10.105 1.05 O B S! 7
Eftersom X är en summa av många oberoende och likafördelade stokastiska variabler, säger centrala gränsvärdessatsen att X är ungefär normalfördelad. Alltså ges den sökta sannolikheten av ( ) 200 240 P(X 200) 1 Φ 1 Φ( 1.288) Φ(1.288) 1.05 0.8997 + 0.8 (0.9015 0.8997) 0.9011 4. Mätosäkerhet Om man gör tre oberoende mätningar av samma sak och kallar resultaten för X, Z resp. U med väntevärde µ och standardavvikelse σ, gäller E( X + Z + U E(X + Z + U) E(X) + E(Z) + E(U) ) µ + µ + µ µ och V( X + Z + U V(X + Z + U) V(X) + V(Z) + V(U) ) 2 2 σ2 + σ 2 + σ 2 2 σ2, dvs. D( X + Z + U ) σ. Om man har n oberoende mätningar med samma µ och σ, får man på motsvarande sätt och E( X) E( 1 n V( X) V( 1 n X k ) 1 n E( X k ) 1 n X k ) 1 n 2 V( X k ) 1 n 2 E(X k ) 1 n V(X k ) 1 n 2 µ µ σ 2 σ2 n, dvs. D( X) σ n. Detta har man nytta av vid normalfördelning och normalapproximation. Den praktiska tolkningen är: 8
Standardavvikelsen är ett mått på hur stort det slumpmässiga felet brukar vara. Den blir mindre ju fler observationer man har. Väntevärdet talar om hur man ligger i genomsnitt; om man har ett positivt systematiskt fel, så är µ större än det verkliga värdet, och tvärtom om det systematiska felet är negativt. Det systematiska felet är oförändrat även om man bildar medelvärde av flera observationer. Har slutligen X 1,X 2,...,X n1 väntevärde µ 1 och standardavvikelse σ 1, medan Y 1,Y 2,...,Y n2 har väntevärde µ 2 och standardavvikelse σ 2, gäller E( X Ȳ ) µ 1 µ 2 och, om alla stokastiska variabler är oberoende, I specialfallet σ 1 σ 2 σ gäller D( X Ȳ ) σ 2 1 n 1 + σ2 2 n 2. D( X Ȳ ) σ 1 n 1 + 1 n 2. Om X- och Y -mätningarna har samma systematiska fel tar de ut varandra. Genom att låta Y vara mätningar av någon storhet som man redan känner, kan man använda fomlerna för att eliminera det systematiska felet. 5 Gauss approximativa felfortplantningslag Jämför med sats 1 och Gallileiexemplet. Här är också Y g(x), men nu är g ungefär lineär, dvs. g(x) ax+b, i området där X varierar. Detta ger E(g(X)) E(aX + b) ae(x) + b g(e(x)) och V(g(X)) V(aX + b) a 2 V(X) ( g (E(X))) 2 V(X), dvs. D(g(X)) g (E(X)) D(X). Den sista formeln kan förklaras med att derivatan talar ju om hur mycket en liten förändring i X motsvarar för Y. Den slumpmässiga variationen ändras då lika mycket. 9
och Om Y g(x, Z) med X och Z oberoende gäller på motsvarande sätt E(g(X,Z)) g(e(x), E(Z)) D(g(X,Z)) g x(e(x), E(Z)) 2 (D(X)) 2 + g z(e(x), E(Z)) 2 (D(Z)) 2, där g x och g z betyder partiella derivatan när man betraktar den andra variabeln som konstant. 10