1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Lunds univrsitet Matematikcentrum Matematisk statistik Biostatistisk grundkurs, MASB11 Laboration 2 HT-2014, 141212 Fördelningar och simulering Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner som finns i R vad det gäller simulering och dels att öka förståelsen för vissa grundläggande områden inom sannolikhetsteorin t.ex. frekvenstolkning av sannolikhetsbegreppet, slumpmässiga urval, slumpvariabel, sannolikhetsfördelning och summor av slumpvariabler (Centrala gränsvärdessatsen). Laborationen redovisas med en kort skriftlig rapportsom ska vara inlämnad senast fredag 141219. Rapporten ska omfatta avsnitt 1, 2 och 3 samt Uppgift 7. Simulering av slumpvariabler i R Simulering i R görs genom färdiga funktioner unika för respektive fördelning. Exempel på några av dessa funktioner finns i efterföljande tabell. Fördelning Funktion i R Exempel i R Binomial rbinom(antal,n,p) rbinom(100,10,0.5) Poisson rpois(antal,mean) rpois(100,2) Normal rnorm(antal,mean,stddev) rnorm(100,10,15) Likformig (Rektangel) runif(antal,min,max) runif(100,10,20) Exponential rexp(antal,scale) (yr) rexp(100,1) mean = väntevärdet, μ, ifördelningen stddev = standardavvikelsen, σ, ifördelningen scale = 1/väntevärdet i exponentialfördelningen 1 Sannolikhet enligt frekvenstolkningen Kast med tärning 1.1 Uppvärmning Om vi kastar en symmetrisk tärning förväntar vi oss, att i det långa loppet skall alla sex sidorna ha kommit upp ungefär lika många gånger. Detta betyder till exempel att om vi räknar antalet treor som kommit upp, så bör detta antal utgöra ungefär en sjättedel av det totala antalet kast. Eftersom frekvenstolkningen handlar om vad som händer i det långa loppet i vårt exempel efter många tärningskast kan det ju lätt hända att man tröttnar och avbryter sitt försök innan man hunnit skaffa tillräckligt mycket data (att kasta en tärning tiotusen gånger kan ju

bli lite jobbigt). Det finns dock pionjärer som offrat sig och verkligen gjort detta. För att visa vad som händer, utan att bevisa någonting, räcker det att utföra en datorsimulering, det vill säga, låta en dator utföra försöket i stället. Vi skall nu med datorns hjälp simulera hundra tärningskast och studera den relativa frekvensen av treor. Simulera nu de hundra tärningskasten. Glöm inte att avsluta kommandot med semikolon, annars kommer skärmen att fyllas med hundra stycken slumptal. >> X <- floor(6*runif(100,0,1)+1); Funktionen floor avrundar nedåt. Vi vill nu kontrollera att elementen i X verkligen har en fördelning som ett tärningskast. Första steget blir att räkna antalet treor. I R finns ett antal relationsoperatorer, som tillåter jämförelser av matriser. Med kommandot >> Y <- X==3; får vi en vektor av samma dimension som X och som enbart innehåller ettor och nollor. På varje plats där X har en trea, har Y en etta, och på varje plats där X har ett element som inte är en trea, har Y en nolla. Genom att räkna antalet ettor i vektorn Y, får vi alltså reda påhurmånga treor, som finns i vektorn X. De successiva relativa frekvenserna av treor kan vi nu beräkna med följande kommando: >> relf <- cumsum(y)/seq(1,100) Funktionen cumsum ger en vektor där element nummer i är summan av de i första elementen iinparametern,ivårt fall Y. Notationen seq(1,100) är en vektor med talen 1 till och med 100. övertyga dig om att relf innehåller de successiva relativa frekvenserna. Nu kan vi plotta de relativa frekvenserna: >> plot(relf) 1.2 Differensen mellan antalet treor och fyror Nu ska analysen kompletteras genom att undersöka hur den successiva skillnaden av antalet treor och fyror ser ut som funktion av antalet kast. Börja med att skapa en ny variabel Z som innehåller den kumulerade summan av antalet fyror och beräkna därefter den successiva skillnaden mellan antalet treor och fyror. öppna därefter ett nytt grafikfönster och plotta skillnaden mellan antalet treor och antalet fyror som funktion av antalet kast: >> win.graph() >> Z <- X==4; >> diff <- cumsum(y)-cumsum(z); >> plot(diff) Uppgift 1.1 Ta en liten paus och fundera över följande fråga: Törs du dra några slutsatser eller eventuellt ställa upp något antagande utifrån kurvorna över de relativa och absoluta frekvenserna? Vilka resultat förväntar du dig rent teoretiskt vid många kast med en symmetrisk tärning? Hundra kast är kanske lite för lite. Simulera istället tiotusen tärningskast och beräkna relativa frekvensen treor som funktion av antalet kast på samma sätt som ovan (spara gärna resultatet 2

i en ny variabel, till exempel relf1). Kan du säga något om den relativa frekvensen treor, när antalet kast är stort? Beräkna också skillnaden mellan antalet treor och antalet fyror och spara den tex. i diff1. Kan du säga något om skillnaden när antalet kast är stort? För att bättre kunnasevad som händeri försökets början, kan man plotta relf1 mot log(antal kast): >> plot(log10(seq(1,10000)),relf1) Om man använder kommandot points(...) efter att man skapat en figur med plot(...) kan man låsa figuren i bildfönstret, så att man kan rita nya kurvor ovanpå. Gör ytterligare en försöksserie med tiotusen kast. Analysera och plotta relativa frekvensen treor (som du sparat i en ny variabel, till exempel relf2) gentemot log(antal kast) på samma sätt som ovan. För att kunna skilja de två kurvornaåt, kan man plotta den andra kurvan med en annan signatur eller färg, till exempel >> plot(log10(seq(1,10000)),relf2,col ="red" ) Notera såväl skillnader som likheter mellan de två försöksserierna. Rita också upp differenserna mellan treor och fyror för de två försöksserierna och notera skillnader och likheter. 1.3 Analys av försöket kasta en tärning För att belysa vad som sker vid det här experimentet (kast med tärning) skall du utföra försöket flera gånger under likartade förhållanden. Det vi kallar olika realiseringar. Försöket skall utföras cirka 7 gånger. För att utröna vad som sker i långa loppet behövs det ett stort antal kast, helst 100 000, i varje realisering. Bilden blir klarare ju fler kast du använder; numera bör internminnet hos alla datorerna räcka för så stora simuleringar, vid varje realisering skall du i varje fall använda lika många kast, dock minst 10 000. Följande frågor skall besvaras, varje fråga skall åtföljas av en lämplig figur där resultatet av de olika realiseringarna framgår. Man kan med fördel utföra beräkningarna med en så kallad script-fil i R. Se Introduktion till R. Uppgift 1.2 Hur många kast gissar du behövas för att vi säkert skall kunna uppskatta sannolikheten för en trea respektive en fyra? Ett motiverat svar kan inte ger förrän längre fram i kursen. Uppgift 1.3 Vilka slutsatser kan du dra angående skillnaden av de relativa frekvenserna av treor och fyrar i en realisering? är resultatet i de olika realiseringarna samstämmigt? Vilket resultat förväntar du dig rent teoretiskt vid många kast med en symmetrisk tärning? Uppgift 1.4 är kurvan över skillnaden mellan antalet treor och antalet fyror förenlig med din slutsats från föregående punkt? Förklara också varför resultatet blev som det blev. 3

2 Binomialfördelningen Om man till exempel vill skapa ett antal slumptal (25 stycken) från en binomialfördelning där antale försök n=10 och sannolikheten för den lyckade händelsen a är 0.2 skriver man följande kommando: xbino1 <- rbinom(25,10,0.2) I variabeln xbino1 lagras de simulerade värdena. För att kolla på resultatet kan man skriva bino1 eller print(bino1) i kommandofönstret. Det som bland annat är intressant att ta reda på i stickprovet är om sannolikhetsfördelningen, den relativa frekvensen av de olika utfallen stämmer överens med den valda binomialfördelningen. Vi måste alltså räkna efter hur många händelser av respekive utfall som finns i stickprovet. I R kan man göra detta genom att först kategorisera resultatet i variabeln bino1 och därefter beräkna den relativa frekvensen: x <- seq(0,10,1) #utfallsrummet xkategori <- factor(xbino1) # kategorisering av resultatet i xbino1. xfreq <- table(xfreq) # r\"{a} absoluta frekvensen. relfreq <- prop.table(xfreq) # skattningen av sannolikhetsfunktionen. När man gjort detta kan man plotta den skattade sannolikhetsfunktionen i ett stolpdiagram irmedhjälp av plot-funktionen: plot(x, relfreq, type="h",col="blue") # alternativt med barplot Den teoretiska sannolikhetsfunktionen p X (x) för motsvarande binomialfördelade slumpvariabel, s.v. X, kan man enkelt plocka fram i R med hjälp av R-kommandot dbinom(x,n,p). Vill man ha tag på fördelningsfunktionen F X (x) använder man R-kommandot x,n,p. Ivårt fall skriver man tex: px <- dbinom(x,10,0.2) # x={0,1,...,10} utfallsrummet. points(x, px, type="h", col="red") # plottar i samma figur. Uppgift 2 Undersök nu hur många stickprov frå ens.v.x Bin(10, 0.2) som behövs för att hitta en rimlig överensstämmelse mellan den skattade sannolikhetsfunktionen och den teoretiska sannolikhetsfunktionen p X (x). Gäller samma sak för den s.v. X Bin(10, 0.5) eller för den s.v. X Bin(25, 0.7)? 3 Normalfördelningen Om man till exempel vill ha ett antal slumptal (50 stycken) från en normalfördelning med väntevärdet (populationsmedelvärdet) 100 och standardavvikelsen 15 skriver man följande kommando: a1 <- rnorm(50,100,15) I variabeln a1 lagras då de genererade värdena. Vill man kolla på värdena skriver man bara a1 så får man en lista på värdena. Vill man beräkna basstatistiken för datamaterialet kan man skriva: 4

a1sum <- summary(a1) En boxplot får man genoma att skriva boxplot(a1) och ett histogram genom att skriva hist(a1). Prova dessa kommandon så duservadsomhänder. Vill du veta mer om ett kommando kan du skriva kommandot med ett frågetecken framför t.ex:?hist,?boxplot, etz. Uppgift 3 Skapa nu ett stickprov normal om 10 slumptal från en normalfördelning med väntevärdet 10 och standardavvikelsen 2. Bilda sedan ett andra stickprov som heter uni och innehåller 10 slumptal från en likformig fördelning mellan 10 och 20. Ledning: rnorm(10,10,2) och runif(10,10,20). Observera att slumptalen kan ses som stickprov om 10 observationer från två kända populationer. Kontrollera nu med hjälp av kommandot hist(normal) och hist(uni) hur väl stickproven överensstämmer med populationerna. För ett stort stickprov bör de se ut som den teoretiska fördelningen tex så här: 1500 600 500 1000 400 300 500 200 100 0 0 5 10 15 20 0 10 12 14 16 18 20 Figur 1: Normal(10,4) samt Uniform(10,20). Hur väl stämmer stickproven överens med populationerna? Upprepa nu förfarandet för stickprovsstorlek n=50 observationer samt n=500. Bör överensstämmelsen bli bättre eller sämre? Uppgift 4 Skapa nu tre stickprov om n=1000 observationer från följande fördelningar (kalla dem t.ex. norm1, uni1 resp. exp1): Normal(10, 2). Rektangelfördelning Uniform(10, 20). Exponential med väntevärdet 1 (rexp(1000,1)). Kontrollera med histogrammet hur fördelningarna ser ut. 4 QQ-plot och qqnorm Om man vill kontrollera hur pass nära ett stickprov är en viss teoretisk fördelning kan man använda olika grafiska metoder. En sådan metod är en s.k. Q-Q plot (Q=Quantile). I en Q-Q 5

plot jämför man de verkliga värdena i stickprovet med det man kunde förvänta sig från en viss teoretisk fördelning. Om de observerade värdena överensstämmer med de förväntade så kommer punkterna i en Q-Q plot att följa en rät linje. Jämför nu de tre stickproven ovan med vad vi kunde förvänta oss från en normalfördelning. I R finns det en standardfunktion qqnorm(stickprovsnamn) där man jämför kvantilerna i ett stickprov med normalfördelningen. I kommandofönstret: qqnorm(norm1) qqnorm(uni1) qqnorm(exp1) Dina figurer bör se ut ungefär som i Figur 2 nedan. Notera att olika avvikelser från normalfördelning resulterar i olika former på kurvan. Normal Q Q Plot norm1 Normal Q Q Plot uni1 Sample Quantiles 6 8 10 12 14 Sample Quantiles 10 12 14 16 18 20 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles Normal Q Q Plot exp1 Sample Quantiles 0 1 2 3 4 5 6 7 2 1 0 1 2 Theoretical Quantiles Figur 2: QQ-plot för Normal-, Likformig- samt Exp-fördelning. 6

Uppgift 5 I de tidigare uppgifterna har vi simulerat vad som händer om vi tar stickprov av olika storlekar från olika kända fördelningar. Vi skall nu gå vidare och undersöka vad som händer om vi bildar olika storheter i stickprovet. Vilka egenskaper får då dessa storheter? Det är framförallt väntevärdet E[X], variansen V [X] ochfördelningen F X (x) som vi intresserar oss för. Vi börjar med att undersöka vilken fördelningen summan av två observationer från en normalfördelning med väntevärde 10 och standardavvikelse 2 har. Börja med generera två nya stickprov om 1000 observationer norm1 och norm2: norm1 <- rnorm(1000,10,2) norm2 <- rnorm(1000,10,2) När vi kör dessa kommandon kommer det att bildas två nya variabler som heter norm1 och norm2 och som innehåller 1000 slumptal var. Bilda nu summan (sum12) av de två kolumnerna norm1 och norm2. Undersök vilken fördelning summan har genom att göra ett histogram och en Q-Q plot. sum12 <- norm1+norm2 Vilken fördelning har summan? Vad bör väntevärdet bli? Standardavvikelsen? (Använd gärna R, x beräknas med sqrt(x)) Beräkna också medelvärdet av sum12 med mean(sum12) och stickprovsstandardavvikelsen sd(sum12). Hur passar de med de teoretiska värdena? 5 Centrala gränsvärdessatsen Lägger man ihop, adderar, (eller beräknar medelvärdet) av flera oberoende normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? Vilken fördelning fås om man adderar exponentialfördelade variabler? Centrala gränsvärdessatsen säger att om man adderar ett stort antal oberoende variabler från en godtycklig fördelning blir summan (eller medelvärdet) normalfördelad. Detta märkliga faktum ska du i denna uppgift undersöka med hjälp av den interaktiva rutinen cgs(). Konkret kan vi tänka oss att du gör ett antal mätningar av en intressant (bio)variabel, du bildar summan av mätningarna (eller medelvärdet). Det du ska undersöka är hur summan kommer att variera från mätserie till mätserie? Beror det på ursprungsfördelningen hos den uppmätta variabeln? Så här använder du rutinen cgs i RStudio När du skriver cgs() får du möjlighet att välja mellan ett antal fördelningar med givna parametrar eller kan du konstruera en egen diskret sannolikhetsfördelning. Välj ett av alternativen genom att mata in tillhörande siffra. Du får en figur med täthetsfunktion eller sannolikhetsfunktion för din valda fördelning. Välj nu hur många mätningar du ska göra från denna fördelning och mata in detta antal. I kommandofönstret visas resultatet av din mätningar (de 10 första om du valt ett stort antal), d.v.s. R har hämtat slumptal från din valda fördelning. Summan av alla mätningarna skrivs ut. I din figur markeras mätningarna med kryss. 7

Antag nu att du gör upprepade serier med det antal mätningar, n, som du valt. För varje serie beräknas summan av dina mätningar. Hur varierar då summan? Mera matematiskt beskrivet: Om X 1,X 2,...,Xn är oberoende med den fördelning du valt, vad är dåfördelningen för summan X 1 + X 2 +...+ Xn? Undersök detta genom att simulera N serier med det antal mätningar (n) du valt. Rutinen ritar sedan upp ett histogram för summan. Ange alltså ett värde på N, tänk på att välja N tillräckligt stort så att du kan få en uppfattning av fördelningen i histogrammet. Centrala gränsvärdessatsen säger att om du valt ett tillräckligt stort antal mätningar kommer fördelningen för summan att bli ungefär normalfördelning. Rutinen ger dig möjlighet att anpassa en normalfördelning till data. Du kan låta R sköta om det och din uppgift blir då att undersöka grafiskt om du tycker att approximationen verkar bra. Till din hjälp har du också enq-qplotdär du kan se om summan verkar passa till en normalfördelning. Du kan också anpassa normalfördelningen själv och måste då fundera på vilka värden på väntevärde och standardavvikelse som gäller (prova gärna detta själv som en utmärkt övning!). Om du vill köra rutinen igen kan du undvika den interaktiva fasen genom att direkt skriva in dina val i anropet. Exempelvis ger cgs(2,10,1000,1) att 1000 serier med vardera 10 mätningar slumpas från en likformig fördelning, R(0, 4). Histogramet för de 1000 summorna plottas, normalfördelning anpassas och en Q-Q plot ritas. Uppgift 6 1. Välj rektangelfördelning, antal=2 i R-funktionen cgs(. Vilka värden kan summan av två mätningar ligga mellan? Verkar histogrammet rimligt? 2. öka antalet mätningar i rektangelfördelningen. Vad händer om du tar antalet mätningar till 5? Eller ökar till 10? 3. Försök anpassa rätt normalfördelning till histogrammet, d.v.s. tänk ut värdena på väntevärde och standardavvikelse. Ledning: Om s.v. X är uniform(a,b): E[X] = a+b 2 och att V [X] = (b a)2 12. 4. Exponentialfördelning: Gör nu motsvarande för exponentialfördelningen. Hur många mätningar behöver ni ta innan ni tycker att summan är ungefär normalfördelat? Verkar fördelningen gå snabbare eller långsammare mot en normalfördelning än det gjorde för den likformiga fördelningen. Vad beror detta på? 5. Normalfördelning: Vad händer om ni tar antal=2? Kan du förklara detta? 6. Undersök gärna på motsvarande sätt vad som händer då man bildar summor från binomial- eller poissonfördelningen. 7. Testa gärna med en egen diskret fördelning, tex binomialfördelningen. 8. Du har tittat på vad som händer med summor av variabler. Vad händer om man i stället tar medelvärdet av variablerna (mätningarna)? 8

Uppgift 7 Centrala gränsvärdessatsen i praktiken: På 35 patienter med Hodgkins sjukdom mätte man antalet T4 celler i blodet (antal/mm 3 ). Samtidigt mätte man motsvarande antal hos 35 patienter som hade andra sjukdomar (Non-Hodgkins). Data ligger i filen Hodgkindata.RData som du hittar på kursens hemsida. Läs in data via Workspace-fönstrets öppna-ikon. Du har nu fått två nya variabler Hodgkin och NonHodgkin. Undersök om antalet celler i blodet är normalfördelat för de båda grupperna. Det är möjligt jämföragruppernagenom att bildadifferensenmellan detvågruppmedelvärdena. Kan du använda dig av centrala gränsvärdessatsen i detta fall? Kan du säga något om vilken fördelning differensen i medelvärden har? är det ett stort problem att variabeln inte är normalfördelad i de båda grupperna från början? Kan man åtgärda detta på något sätt? Prova och se vad som händer med fördelningen för data om man istället använder en transformation av värdena, till exempel X eller log X. Svar på vissa frågor Summan blir normalfördelad (alla linjära kombinationer av normalfördelningar blir i sig normalfördelade). Väntevärdet bör bli summan av de två väntevärdena, (10 + 10 = 20) och för att få standardavvikelsen så lägger vi ihop de två varianserna och tar roten ur summan, 2 2 +2 2 = 8=2, 83. 9