Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast, längden på en slumpmässigt utvald person Väntevärde: Varians: Standardavvikelse: E ( X ) µ = x p( x ) Var g = i=1 i g i ( X ) = σ = p( x ) ( x µ ) = x p( x ) i= 1 ( ) σ σ = Var X = i i g i= 1 i i µ

Linjära variabeltransformationer Låt X vara en variabel med väntevärde µ X och standardavvikelse σ X och låt en annan variabel Y = a + b X Då gäller att ( Y ) = µ Y = E( a + b X ) = a + b X ( Y ) = σ = Var( a + b X ) = b σ E µ Var Y X En firma ska beräkna kostnaden för ett visst projekt. Materialkostnaden är 5000 kr, dessutom tillkommer en arbetskostnad på 900 kr per dag. Utifrån erfarenhet vet man att ett sådant projekt tar i genomsnitt 11.9 dagar att utföra med en varians på 1.9 dagar. Beräkna väntevärde och varians för kostnaden för projektet. 3

Sannolikhetsfördelning Sammanställning av vilka värden en slumpvariabel kan anta och hur ofta respektive värde antas. På teoretisk väg eller genom att studera ett stickprovs fördelning för en variabel kan vi härleda variabeln till att tillhöra en viss sannolikhetsfördelning. Detta möjliggör annars mycket komplicerade sannolikhetsberäkningar vilket i sin tur ger möjlighet att dra slutsatser om populationen som stickprovet dragits ur. Diskret sannolikhetsfördelning: när slumpvariabeln endast kan anta ett ändligt antal värden, eller ett oändligt men uppräkneligt antal Kontinuerlig sannolikhetsfördelning: när slumpvariabeln kan anta ett oändligt antal värden 4

Diskret sannolikhetsfördelning Diskreta sannolikhetsfördelningar är sannolikhetsfördelningar för variabler som endast kan anta ett uppräkneligt antal värden. De vanligaste diskreta sannolikhetsfördelningarna är uppbyggda av ett eller flera delförsök och för varje delförsök studerar vi om experimentet har lyckats eller inte. Varje delförsök sägs följa Bernoullifördelningen men man använder även beteckningen tvåpunktsfördelning eller säger att utfallet av varje delförsök är binärt. Innebörden är att varje delförsök endast kan anta ett av två möjliga värden (lyckat eller misslyckat delförsök). Vi definierar händelsen A = sex ögon upp vid tärningskast och kastar en tärning. Varje tärningskast är då ett delförsök som antingen kan lyckas (sex ögon upp) eller inte lyckas (ej sex ögon upp) och kan därmed betraktas som Bernoullifördelat. 5

Binomialfördelning Grobarheten hos en viss typ av frön är 60%. Vi planterar 5 frön under samma förutsättningar och frågar oss: vad är sannolikheten för att två av fröna gror? Låt X vara en slumpvariabel. Givet att följande krav är uppfyllda: 1. alla delförsök är oberoende av varandra. varje delförsök är Bernoullifördelat med sannolikhet att lyckas= π gäller att X är binomialfördelad enligt X ~ bin(n; π) Sannolikheten för k lyckade utfall bland n beräknas då enligt n k ( ) n Pr( X = k) = π 1 π k k Beskrivande mått för en binomialfördelad slumpvariabel: ( X ) = µ nπ Var( X ) = σ = nπ ( 1 π ) E = 6

Hypergeometrisk fördelning Vad är sannolikheten för triss i ess på en pokerhand? Givet att 1. varje delförsök är Bernoullifördelat. Ej oberoende mellan dragningarna gäller att slumpvariabeln X är hypergeometriskt fördelad enligt X ~ hyp(n; π; N) Sannolikheten för k lyckade utfall bland n beräknas då enligt Pr ( X = k ) Nπ N Nπ k n k = N n Beskrivande mått: ( X ) = µ nπ E = Var ( X ) = σ = nπ ( 1 π ) N N n 1 7

Poissonfördelning Används för att beskriva händelser som inträffar oberoende av varandra och där väntevärdet är detsamma som variansen. Kan användas för att approximera sannolikheten för k lyckade utfall bland n för en binomialfördelad slumpvariabel X när n är stort (minst 0) och π är litet (mindre än 0.05). Pr( X k µ µ = k) = e k! där µ = nπ X ~ poi(µ) Sannolikheten för k lyckade utfall bland n beräknas enligt Enligt SCB:s statistik fanns det den 4 oktober 011 7517 personer i Sverige med efternamnet Gustafsson. Vid samma tidpunkt var antalet svenska medborgare 9 48 054 personer. Vi drar ett OSU om 1000 personer ur befolkningsregistret. Vad är sannolikheten för att minst av dessa heter Gustafsson i efternamn? Beskrivande mått: ( X ) = µ nπ Var ( X ) = σ = µ = nπ E = 8

Geometrisk fördelning En person singlar slant, tills hon första gången får krona. Vad är sannolikheten att första kronan kommer på tredje kastet? Givet att 1. alla delförsök är oberoende av varandra. varje delförsök är Bernoullifördelat är slumpvariabeln X geometriskt fördelad enligt X ~ geo(π) Sannolikheten för att försöket lyckas vid delförsök k bestäms enligt Pr( X = k) = k 1 ( 1 π ) π Beskrivande mått: E ( X ) Var ( X ) = µ = = σ 1 π = 1 ( π ) π Kraven är desamma vid binomialfördelning och geometrisk fördelning, men frågeställningarna olika! 9

Kontinuerlig sannolikhetsfördelning Kontinuerliga sannolikhetsfördelningar är fördelningar för variabler som kan anta ett oändligt antal värden. Vi känner till att fördelningen för en kontinuerlig kvantitativ variabel beskrivs med histogram. Histogrammen baseras dock i allmänhet på stickprov, men genom att utgå från histogrammets utseende kan man sammanfatta variabelns utseende med en matematisk funktion, i syfte att generalisera resultaten till populationen och göra sannolikhetsberäkningar om denna. Det man gör kan liknas vid att lägga en mjuk kurva över histogrammet. Kurvan kallas för en täthetsfunktion. Vi kan uppfatta täthetsfunktionen som ett histogram, där varje stapel är oändligt tunn och där staplarna ligger oändligt tätt intill varandra. Täthetsfunktionen konstrueras så att arean under kurvan blir 1: detta gör det möjligt att använda den för sannolikhetsberäkningar. 10

Normalfördelningen En mycket viktig kontinuerlig fördelning, därför att den väldigt ofta återkommer i statistiska beräkningar och spelar en mycket stor roll inom statistiken. Normalfördelningen är symmetrisk kring sitt väntevärde µ - 3σ µ - σ µ - σ µ µ + σ µ + σ µ + 3σ f ( x) 1 = e σ π 1 x µ σ Den funktion som beskriver normalfördelningen 11

Att söka en sannolikhet för givet X Normalfördelning Inom skidskytte är det känt att det avstånd från centrum av tavlan en slumpmässigt vald skytt träffar är en normalfördelad slumpvariabel med väntevärde 30 mm och standardavvikelse 10 mm. Hur stor andel av skotten kan förväntas träffa inom 0 mm från centrum? Standardiseringsformel: z = x µ σ där µ och σ är den normalfördelade variabeln X parametrar och x är det värde vi är intresserade av. 1

Att söka X för en given sannolikhet Normalfördelning Vi fortsätter att betrakta skidskyttarna, för vilka det är känt att det avstånd för vilket en slumpmässigt vald skytt träffar centrum på tavlan är en normalfördelad slumpvariabel med väntevärde 30 mm och standardavvikelse 10 mm, och frågar oss: om vi vill rita en markering där 60% av skotten ska hamna innanför, hur långt från centrum ska då den cirkeln gå? 13

Normalfördelningsapproximation av binomialfördelning Låt X vara en binomialfördelad slumpvariabel enligt X ~ bin(n; π) Givet att nπ(1 π) > 5 kan X approximeras enligt X ( µ = nπ; σ = nπ ( π )) N 1 Approximationens syfte: underlätta beräkningar som annars skulle vara mycket tunga. Vi definierar händelsen A = sexa vid tärningskast och kastar tärning 100 gånger. Vad är sannolikheten för att vi ska få sexa fler än 0 gånger? 14

Normalfördelningsapproximation av binomialfördelning 5 10 15 0 5 30 X Kontinuitetskorrektion: Metod för att förbättra approximationen. Tanken bakom kontinuitetskorrektion är att betrakta varje värde hos den binomialfördelade variabeln som ett intervall. Om vi exempelvis vill beräkna sannolikheten för att fler än 0 av 100 försök lyckas, så betraktar vi talet 1 som ett intervall [0.5; 1.5]. Principen är att vi inkluderar hela intervallet i sannolikhetsberäkningen. 15