Föreläsning 2 732G70 Statistik A
Introduktion till sannolikhetslära Sannolikhetslära: område inom statistiken där vi studerar experiment vars utfall beror av slumpen Sannolikhet: numeriskt värde (mellan 0 och 1) som talar om för oss hur troligt det är att händelsen vi studerar ska inträffa Regler för sannolikheter: 1. En sannolikhet ligger alltid mellan 0 och 1 2. Sannolikheten för alla disjunkta händelser som ingår i utfallsrummet kommer tillsammans att summera till 1 3. Om vi vet att sannolikheten för händelsen A är Pr(A), så är sannolikheten för att A inte ska inträffa 1 Pr(A) 2
Relativ frekvens Relativ frekvens 0.3 0.25 0.2 0.15 0.1 0.05 0 Tärningskast 1 1001 2001 3001 4001 5001 6001 7001 8001 9001 3
Additionssatsen för disjunkta händelser För två händelser A och B som är disjunkta, så gäller att sannolikheten för att A eller B ska inträffa är Pr( A B) Låt A = händelsen att enheten tillhör gruppen för stora B = händelsen att enheten tillhör gruppen för små Pr(A) = 0.05 Pr(B) = 0.15 Pr( A) Pr( B) Bland enheterna som produceras vid ett löpande band klassificeras 5 procent som för stora, 80 procent som lagom och 15 procent som för små. Slumpmässigt väljs en enhet ur produktionen. Bestäm sannolikheten för att den utvalda enheten är för stor eller för liten. Pr( A B) Pr( A) Pr( B) 0.05 0.15 0.20 4
Additionssatsen för icke disjunkta händelser För två händelser A och B som inte är disjunkta, så gäller att sannolikheten för att A eller B ska inträffa är Pr( A B) Pr( A) Pr( B) Pr( A B) En viss febersjukdom kan ge flera sidobesvär, i följande omfattning hos de drabbade: Besvär Eksem 7% Halsont 10% Både eksem och halsont 2% Relativ frekvens Vad är sannolikheten för att en person som drabbats av febersjukdomen får antingen eksem eller halsont? 5
Multiplikationssatsen för oberoende händelser Vad är sannolikheten att både händelserna A och B ska inträffa? Givet att A och B är oberoende gäller att Pr( A B) Vi definierar A = händelsen att första kastet ger krona B = händelsen att andra kastet ger krona Pr(A) = Pr(B) = 0.5 Pr( A) Pr( B) Vi singlar slant två gånger. Vad är sannolikheten för två krona i rad? Pr( A B) Pr( A) Pr( B) 0.50.5 0.25 6
Betingad sannolikhet Sannolikheten för att händelsen A ska inträffa givet att händelsen B redan inträffat beräknas Pr( A B) Pr( A B) Pr( B) Exempel : Man drar ett slumpmässigt urval av medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller höger). Kön Vänster Höger Totalt Kvinna 98 141 239 Man 67 59 126 Totalt 165 200 365 Vad är sannolikheten för att en slumpmässigt vald person är kvinna, om vi vet att personen sympatiserar med högerblocket? Om Pr(A B) = Pr(A) eller Pr(B A) = Pr(B) så är händelserna A och B oberoende 7
Multiplikationssatsen för beroende händelser Vad är sannolikheten att både händelserna A och B ska inträffa? Om A och B är beroende gäller att Pr Låt A B PrA PrB A PrB PrA B PrB A En skål innehåller 10 röda och 5 blå kulor. Vi väljer slumpmässigt och utan återläggning 2 kulor. Vad är sannolikheten för att bägge är blå? A = händelsen att den första utvalda kulan är blå B = händelsen att den andra utvalda kulan är blå Pr Pr 5 15 A PrB A 4 14 5 15 4 14 A B PrA PrB A 0. 10 Sannolikheten för att den andra utvalda kulan är blå, givet att den första var blå 8
Exempel Efter stängning en börsdag på den svenska börsen kan generalindex ha stigit, varit oförändrat eller sjunkit. Det finns ett starkt samband med NASDAQ-börsens generalindex: om den samma dag (men NASDAQ-börsen stänger tidigare) har stigit, varit oförändrad eller sjunkit så är chansen stor att samma sak händer på den svenska börsen. Man studerar börskurserna under en längre tid och beräknar då följande. Stigit 0.6 Oförändrat 0.2 Sjunkit 0.2 Andel dagar NASDAQ:s generalindex Man kartlägger även sannolikheten för att svenska generalindex ska stiga givet hur det gått på NASDAQ samma dag, och sammanställer följande. NASDAQ stigit 0.75 NASDAQ oförändrat 0.15 NASDAQ sjunkit 0.10 Sannolikhet för att svenskt generalindex stigit givet att Vi studerar en slumpmässigt vald dag. Vad är sannolikheten för att det svenska generalindex stigit den dagen? 9
Satsen om total sannolikhet Om A 1,, A g är g parvis disjunkta händelser, vars union bildar hela utfallsrummet, är sannolikheten för händelsen B Pr g B PrAi PrB A i i1 10
Bayes sats Exempel (fortsättning): En viss dag har det svenska generalindex stigit. Vad är sannolikheten för att NASDAQ:s generalindex stigit samma dag? Om A 1,, A g är g parvis disjunkta händelser vars union bildar hela utfallsrummet gäller att sannolikheten för händelsen A j givet att händelsen B inträffat är Pr A j B g Pr i1 A PrB A Pr j A PrB A i j i 11
Kapitel 4 Sannolikhetsfördelningar Sid 79-124
Slumpvariabel En variabel för vilken slumpen bestämmer hur ofta respektive värde i utfallsrummet antas. Slantsingling, tärningskast, längden på en slumpmässigt utvald person Väntevärde: Varians: E X x px Var g i1 i g i 2 2 2 X px x x px i1 i i g i1 i i 2 Standardavvikelse: Var 2 X 13
Exempel Vinstplanen för en normalserie om 16 miljoner Trisslotter ser ut på följande sätt. Vinst (kr) Antal Vinst (kr) Antal 2500000 8 750 1200 1000000 8 500 1600 250000 40 250 4000 200000 8 200 3600 100000 16 150 10000 20000 16 100 75200 10000 320 75 238400 2000 1120 50 1672800 1000 1680 25 1336000 14
Linjära variabeltransformationer Låt X vara en variabel med väntevärde E(X) och standardavvikelse σ X och låt en annan variabel Y a b X Då gäller att E Y Y Ea b X a b X 2 2 2 Y Var a b X b Var Y X Växelkursen mellan kronor och euro var under ett visst år i genomsnitt 0.11 euro/krona med en standardavvikelse om 0.05 euro/krona. Ett visst växlingskontor tar en rörlig avgift om 5 procent av växlingsbeloppet. Beräkna väntevärde och standardavvikelse för växelkursen mellan kronor och euro hos det aktuella växlingskontoret. 15
Sannolikhetsfördelning Sammanställning av vilka värden en slumpvariabel kan anta och hur ofta respektive värde antas. Genom att på teoretisk väg eller genom att studera ett stickprovs fördelning för en variabel kan vi härleda variabeln till att tillhöra en viss sannolikhetsfördelning. Detta möjliggör annars mycket komplicerade sannolikhetsberäkningar vilket i sin tur ger möjlighet att dra slutsatser om populationen som stickprovet dragits ur. Diskret sannolikhetsfördelning: när slumpvariabeln endast kan anta heltalsvärden Kontinuerlig sannolikhetsfördelning: när slumpvariabeln kan mätas med flera decimalers noggrannhet 16
Diskret sannolikhetsfördelning Diskreta sannolikhetsfördelningar är sannolikhetsfördelningar för variabler som endast kan anta heltalsvärden. De vanligaste diskreta sannolikhetsfördelningarna är uppbyggda av ett eller flera delförsök och för varje delförsök studerar vi om experimentet har lyckats eller inte. Varje delförsök sägs följa Bernoullifördelningen men man använder även beteckningen tvåpunktsfördelning eller säger att utfallet av varje delförsök är binärt. Innebörden är att varje delförsök endast kan anta ett av två möjliga värden (lyckat eller misslyckat delförsök). Vi definierar händelsen A = sex ögon upp vid tärningskast och kastar en tärning. Varje tärningskast är då ett delförsök som antingen kan lyckas (sex ögon upp) eller inte lyckas (ej sex ögon upp) och kan därmed betraktas som Bernoullifördelat. 17
Binomialfördelning Grobarheten hos en viss typ av frön är 60%. Vi planterar 5 frön under samma förutsättningar och frågar oss: vad är sannolikheten för att två av fröna gror? Låt X vara en slumpvariabel. Givet att följande krav är uppfyllda: 1. alla delförsök är oberoende av varandra 2. varje delförsök är Bernoullifördelat gäller att X är binomialfördelad enligt X ~ bin(n; π) Sannolikheten för k lyckade utfall bland n beräknas då enligt n k n Pr( X k) 1 k k Beskrivande mått för en binomialfördelad slumpvariabel: E 2 X n Var X n 1 18
Hypergeometrisk fördelning Erfarenhetsmässigt vet administratören vid en arbetsplats med 30 anställda att 60% av de som anmäler sig till ett möte dyker upp och vill ha fika. Till ett visst möte anmäler sig 5 personer. Vad är sannolikheten för att det räcker för administratören att beställa fika till 2 personer? Givet att 1. varje delförsök är Bernoullifördelat 2. stickprovet dras utan återläggning och utgör mer än 10% av populationen gäller att slumpvariabeln X är hypergeometriskt fördelad enligt X ~ hyp(n; π; N) Sannolikheten för k lyckade utfall bland n beräknas då enligt Pr X k N k N n N n N k Beskrivande mått: E X n Var 2 X n 1 N n N 1 19
Poissonfördelning Underlättar beräkning av sannolikheten för k lyckade utfall bland n för en binomialfördelad slumpvariabel X när n är stort (minst 20) och π är litet (mindre än 0.05). X ~ poi(µ) där µ = nπ Sannolikheten för k lyckade utfall bland n beräknas enligt Pr( X k) k k! e Enligt SCB:s statistik fanns det den 24 oktober 2011 75217 personer i Sverige med efternamnet Gustafsson. Vid samma tidpunkt var antalet svenska medborgare 9 428 054 personer. Vi drar ett OSU om 1000 personer ur befolkningsregistret. Vad är sannolikheten för att minst 2 av dessa heter Gustafsson i efternamn? Beskrivande mått: E X n Var X 2 n 20
Geometrisk fördelning En person singlar slant, tills hon första gången får krona. Ställ upp sannolikhetsfördelningen för detta experiment för de första 3 slantsinglingarna. Givet att 1. alla delförsök är oberoende av varandra 2. varje delförsök är Bernoullifördelat är slumpvariabeln X geometriskt fördelad enligt X ~ geo(π) Sannolikheten för att försöket lyckas vid delförsök k bestäms enligt Pr( X k) k1 1 Beskrivande mått: E Var X X 1 2 1 2 Kraven är desamma vid binomialfördelning och geometrisk fördelning, men frågeställningarna olika! 21