IDA/Statistik 2008-09-25 Annica Isaksson DATORÖVNING 4: DISKRETA SANNOLIKHETSFÖRDELNINGAR. I denna datorövning ska du illustrera olika sannolikhetsfördelningar samt beräkna sannolikheter i dessa m h a Minitab. START Logga in genom att skriva in ditt user name och ditt password och välja log on to: HELIX. Klicka på OK. Starta Minitab: 1. Öppna Start-menyn. 2. Välj All Programs och sök upp alternativet Minitab Solutions. 3. I undermenyn för Minitab Solutions, välj alternativet Minitab 15 Statistical Software English. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret: 1. Klicka i Session-fönstret så att det blir aktivt (titelraden tänds blå). 2. Öppna menyn Editor och välj alternativet Enable commands. ILLUSTRATION AV SANNOLIKHETSFÖRDELNINGAR Minitab har funktioner för ett stort antal sannolikhetsfördelningar. Här ska vi använda några av dessa för att illustrera hur sannolikhetsfördelningarna kan se ut. BINOMIALFÖRDELNINGEN Binomialfördelningen uppstår som bekant när man upprepar ett försök ett visst antal gånger och förutsättningarna varje gång är desamma. Börja med att mata in värdena 0 t o m 10 i en kolumn: MTB > set c1 DATA> 0:10 DATA> end I Minitab kan man anropa sannolikhetsfunktioner eller täthetsfunktioner för ett antal fördelningar med kommandot pdf (Probability Density Function). Denna funktion beräknar 1
sannolikhetsfunktionen (eller täthetsfunktionen för kontinuerliga slumpvariabler) för ett eller flera värden och ger även möjlighet att lagra detta/dessa värden i en konstant/kolumn. Kommandot beräknar som default täthetsfunktionen för en normalfördelning med väntevärde 0 och standardavvikelse 1. I annat fall måste ett underkommando användas. Skriv in följande: MTB > pdf c1 c2; SUBC> binomial 10 0,1. Alternativt kan du använda menyerna: Välj Calc > Probability Distributions > Binomial. Välj Probability. I fältet Number of trials, skriv in 10. I fältet Event probability, skriv in 0,1. I fältet Input column, välj c1. I fältet Optional Storage, välj c2. Klicka OK. Studera värdena i C2. Dessa är sannolikheterna för att en slumpvariabel, X, som är binomialfördelad med parametrarna n=10 och π=0,1, ska anta värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 respektive 10. Illustrera sannolikhetsfördelningen i ett stolpdiagram genom följande kommando: MTB > chart c2*c1; SUBC> summarized; SUBC> bar. Alternativt kan du använda menyerna: Välj Graph > Bar Chart Välj Bars represent: Values from a table och Simple. Klicka OK. I fältet Graph variables, välj c2, och i fältet Categorical value, välj c1. Klicka OK. Pröva även med följande kommando: MTB > chart c2*c1; SUBC> summarized; SUBC> project. Vilket diagram föredrar du? Skriv nu in följande: MTB > help pdf och du får upp ett hjälpfönster där du kan läsa om hur kommandot pdf fungerar. Ett annat kommando är cdf (Cumulative Distribution Function), dvs fördelningsfunktionen. Fördelningsfunktionen för en slumpvariabel definieras (som bekant) som F(x)=P(X x). Om en 2
slumpvariabel, X, antar heltalsvärden (t ex den binomialfördelade variabeln ovan, som antog heltalen 0, 1,, 10), så gäller följande: P (X=x)=F(x) F(x 1). Ge nu följande kommando: MTB > cdf c1 c3; SUBC> binomial 10 0,1. I kolumnen C3 ska du nu ha fördelningsfunktionen beräknad för värdena 0, 1, 2,, 10 för en binomialfördelad slumpvariabel med parametrarna n=10 och π=0,1. För att illustrera denna funktion i Minitab kan kommandot plot användas (det går att använda chart också, men det blir mer omotiverat här): En fördelningsfunktion antar ju faktiskt värden för alla tänkbara värden på x mellan - och +, även om den intervallvis är konstant. T ex har den värdet 0 fram till det lägsta möjliga värdet hos X och den har sedan värdet 1 från och med det högsta möjliga värdet hos X. Däremellan är den en s k trappstegsfunktion. Ge följande kommando: MTB > plot c3*c1; SUBC> connect; SUBC> step -1. Det sista underkommandot ser till att det just blir en trappstegsform av det slag vi vill ha. Hade detta utelämnats helt hade du sammanbundit punkterna direkt, och hade du inte lagt till värdet 1 hade trappstegen kommit mittemellan x-värdena. För mer information om hur kommandot plot fungerar, skriv MTB > help plot Kontrollera nu relationen P(X=x)=F(x) - F(x-1) genom att jämföra värdena i C2 och C3 på lämpligt sätt. Försök även (utan datorns hjälp) att skriva upp den omvända relationen mellan sannolikhetsfunktionen och fördelningsfunktionen för denna variabel. Vi använder för de flesta fördelningar ett beteckningssystem för att få en kompaktare beskrivning av en variabel och dess sannolikhetsfördelning. För en binomialfördelad variabel skriver vi att X är Bi(n; π). Illustrera nu i stolpdiagram följande sannolikhetsfördelningar: Bi(10; 0,3) lagra resultatet i C4 Bi(10; 0,5) lagra resultatet i C5 Bi(10; 0,7) lagra resultatet i C6 Bi(10; 0,9) lagra resultatet i C7 Bi(100; 0,2) lagra resultatet i C9 (här behövs en kolumn C8 med värdena 0-100) Bi(100; 0,5) lagra resultatet i C10 Vad kan man säga generellt om binomialfördelningens form för olika värden på π? 3
Hur verkar formen hos binomialfördelningen bli då n är stor? HYPERGEOMETRISKA FÖRDELNINGEN Den hypergeometriska fördelningen uppstår (i motsats till binomialfördelningen) vid dragning utan återläggning. Vi utgår från att det finns totalt N element från vilka vi slumpmässigt ska dra n stycken utan återläggning. En hypergeometriskt fördelad slumpvariabel X utgörs av antalet element bland de dragna som är av en viss typ. För att kunna räkna på detta krävs att man vet hur många (eller hur stor andel) av de N elementen som är av denna typ. Vi ska nu använda Minitab för att beräkna sannolikhetsfunktionen för en slumpvariabel, som har hypergeometrisk fördelning där N=100, n=10 och antal element av en viss typ bland de 100 är 30, dvs andelen element av denna typ är π=0,3. Kortfattat skriver vi att X är Hyp(n=10, π=0,3, N=100). Vilka värden kan X anta? För att beräkna sannolikhetsfunktionen, skriv in följande kommando: MTB > pdf c1 c12; SUBC> hypergeometric 100 30 10. Vi har alltså i kommandot använt C1 igen. Detta för att även denna slumpvariabel antar värden mellan 0 och 10. Illustrera fördelningen i ett stolpdiagram. Man kan fråga sig hur stor skillnaden egentligen är mellan att dra med och utan återläggning. Svaret är att ju större N är i förhållande till n, desto mindre blir skillnaden. Detta bör upplevas som något ganska naturligt. Om kvoten n/n är liten kan vi approximera en hypergeometrisk fördelning Hyp(n, π, N) med motsvarande binomialfördelning Bi(n; π). I vårt exempel är n=10 och N=100 vilket innebär att n/n=0,1. Undersök om den hypergeometriska fördelningen approximeras bra med motsvarande binomialfördelning genom att jämföra sannolikhetsfunktionen närmast ovan med den, som beräknades för Bi(10; 0,3). Beräkna sedan sannolikhetsfunktionen för hypergeometriska fördelningar där N=200, n=10 och π=0,3 samt där N=500, n=10 och π=0,3 och jämför även dessa med Bi(10; 0,3). Beräkna nu på lämpligt sätt F(3) för en variabel X som är Hyp(n=12, π=0,28, N=50) F(3) för en variabel X som är antalet röda kulor man får när man slumpmässigt och utan återläggning drar 12 kulor ur en urna som innehåller 50 kulor varav 14 är röda. F(7.4) F(5.35) för en variabel som är Bi(13; 0,29) genom att använda kommandot pdf. POISSONFÖRDELNINGEN Poissonfördelningen uppstår när man räknar antalet inträffade händelser av en viss typ utan att ha någon övre begränsning. Det typiska exemplet är att man studerar antalet händelser över ett visst tidsintervall, men det kan t. ex. också handla om antalet bakterier man kan observera i ett vätskeprov. Poissonfördelningen karaktäriseras helt och hållet av sitt väntevärde, µ. 4
Även Possionfördelningen finns i Minitab. Ge kommandot help pdf för att se hur den anropas. Skapa en ny kolumn C15 i vilken ni lägger in talen 0:100. Beräkna med hjälp av kommandot pdf sannolikheter för värdena i C15 för fyra slumpvariabler som är Poissonfördelade med i tur och ordning väntevärdena 0,1, 1,0, 10,0 och 50,0. Illustrera resultaten i stolpdiagram. Vad kan man allmänt säga om formen hos en Poissonfördelning (i relation till dess väntevärde)? En intressant tillämpning är följande: Till en telefonväxel ankommer samtal med i genomsnitt intensiteten 3 samtal per minut. Antalet inkomna samtal i ett visst tidsintervall modelleras bäst med en Poissonfördelning. Vad är sannolikheten att det har kommit in högst 17 samtal under en period av fem minuter? 5