Lunds univrsitet Matematikcentrum Matematisk statistik

Relevanta dokument
1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Hypotesprövning och styrkefunktion

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Föreläsning G60 Statistiska metoder

Lektionsanteckningar 11-12: Normalfördelningen

Datorövning 1: Fördelningar

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

4.1 Grundläggande sannolikhetslära

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Statistik 1 för biologer, logopeder och psykologer

FÖRELÄSNING 3:

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

FÖRELÄSNING 8:

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Datorövning 1 Fördelningar

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1.1 Diskret (Sannolikhets-)fördelning

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

4 Diskret stokastisk variabel

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Föreläsning 7: Punktskattningar

Kap 3: Diskreta fördelningar

Jörgen Säve-Söderbergh

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Miniprojektuppgift i TSRT04: Femtal i Yatzy

Några extra övningsuppgifter i Statistisk teori

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SOS HT Slumpvariabler Diskreta slumpvariabler Binomialfördelning. Sannolikhetsfunktion. Slumpförsök.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Laboration 3: Parameterskattning och Fördelningsanpassning

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Datorövning 1: Fördelningar

Föreläsning 7: Punktskattningar

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning G70 Statistik A

DATORÖVNING 2: SIMULERING

8 Inferens om väntevärdet (och variansen) av en fördelning

Laboration med Minitab

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Introduktion till statistik för statsvetare

Projekt 1: Om fördelningar och risker

Föreläsning 5: Hypotesprövningar

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

TMS136. Föreläsning 4

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

F3 Introduktion Stickprov

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Demonstration av laboration 2, SF1901

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Grundläggande matematisk statistik

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Samplingfördelningar 1

Uppgift a b c d e Vet inte Poäng

Introduktion och laboration : Minitab

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Föreläsning 3. Sannolikhetsfördelningar

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

TMS136. Föreläsning 11

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Exempel för diskreta och kontinuerliga stokastiska variabler

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

SF1901: Sannolikhetslära och statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

4.2.1 Binomialfördelning

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Tentamen TAIU07 Matematiska beräkningar med MATLAB för MI

Transkript:

Lunds univrsitet Matematikcentrum Matematisk statistik Biostatistisk grundkurs, MASB11 Laboration 2 VT-2015, 150205 Felrisker Fördelningar och Simulering Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner som finns i R vad det gäller simulering och dels att öka förståelsen för vissa grundläggande områden inom sannolikhetsteorin t.ex. frekvenstolkning av sannolikhetsbegreppet, slumpmässiga urval, slumpvariabel, sannolikhetsfördelning. Laborationen redovisas med en kort skriftlig rapport som ska vara inlämnad senast innan nästa laborationstillfälle tisdag 150217. Rapporten ska omfatta avsnitt 1, 2 och 3 och vara en syntes av vad ni kommit fram till. Förberedelsuppgifterna ska också lämnas in handskrivna från var och en. Förberedelseuppgifter 1. Räkna uppgift 3.14 i kursboken. Tilläggsfrågor: Beräkna den intressanta sannolikheten att en patient har sjukdomen om testet är negativt. Vilken egenskap hos testet skall man försöka ändra för att denna sannolikhet skall bli mindre? Skall man försöka få sannolikheten för positivt falskt svar att bli 0 eller sannolikheten för sant negativt svar att bli 1? 2. Räkna uppgifterna 4.8 och 4.9 i kursboken. 3. I en befolkning är 20% rökare och vi väljer slumpmässigt ut 5 personer. (a) Vad är sannolikheten att ingen av de fem är cigarrettrökare? (b) Vad är sannolikheten att alla fem är cigarrettrökare? (c) Vad är sannolikheten att minst 2 är cigarrettrökare? (d) Vad är väntevärde och varians för antalet cigarrettrökare? 1 Diagnostik, felrisker och hypotesprövning Vi skall börja med att studera några aspekter av det sjukdomstest som presenterades i övningsuppgift 3.14, och som du bör ha arbetat dig igenom för att få fullt utbyte av detta avsnitt. Det finns ett färdigt R-script, Uppg314.R på kurshemsidan, som du kan använda dig av. Undersök vad funktionen gör och vilka inparametrar som behövs. Anropa därefter först funktionen med de värden som anges som standard i scriptet. ändra sedan sannolikheten för positivt utslag om personen har sjukdomen till 0.999 och låt funktionen rita nya kurvor. ändra slutligen sannolikheten för positivt utslag om personen inte har sjukdomen till 0.01 och låt funktionen rita nya kurvor. Studera de tre figurerna och besvara följande frågor:

Identifiera de fyra kurvorna i varje figur, vilka sannolikheter representerar de? Kurvorna hör ihop parvis, på så sätt att den ena enkelt kan rekonstrueras ur den andra. Förklara hur. Diskutera vilka egenskaper du som patient skulle värdera högst vid ett test av detta slag och relatera det till kurvorna i figurerna. Exemplet med sjukdomstestet illustrerar väl de felrisker man måste ta i beaktande, när man skall konstruera ett hypotestest. Om vi, rent allmänt, ställer upp en hypotes H 0 som vi vill pröva, kan vi hamna i någon av de situationer som beskrivs i figuren nedan. H 0 sann H 0 falsk H 0 förkastas fel typ I OK H 0 förkastas ej OK fel typ II Hur teststorheten kommer att se ut och hur felriskerna skall beräknas beror på hur nollhypotesen H 0 formulerats. Nollhypotesen skall först och främst väljas på ett sådant sätt att ett förkastande av nollhypotesen ger ett tydligt svar på den fråga, man söker svar på. Utgå från din diskussion i sista frågepunkten ovan och formulera (i ord) en nollhypotes, som du finner adekvat. Identifiera sedan de två felriskerna P [fel typ I] och P [fel typ II] och tala om hur stora de blir i ditt fall. (Använd de siffror som ges i uppgift 3.14.) 2 Sannolikhet enligt frekvenstolkningen Kast med tärning Simulering av slumpvariabler i R Simulering i R görs genom färdiga funktioner unika för respektive fördelning. Exempel på några av dessa funktioner finns i efterföljande tabell. Fördelning Funktion i R Exempel i R Binomial rbinom(antal,n,p) rbinom(100,10,0.5) Poisson rpois(antal,mean) rpois(100,2) Normal rnorm(antal,mean,stddev) rnorm(100,10,15) Likformig (Rektangel) runif(antal,min,max) runif(100,10,20) Exponential rexp(antal,scale) (yr) rexp(100,1) mean = väntevärdet, µ, i fördelningen stddev = standardavvikelsen, σ, i fördelningen scale = 1/väntevärdet i exponentialfördelningen 2.1 Uppvärmning Om vi kastar en symmetrisk tärning förväntar vi oss, att i det långa loppet skall alla sex sidorna ha kommit upp ungefär lika många gånger. Detta betyder till exempel att om vi räknar antalet treor som kommit upp, så bör detta antal utgöra ungefär en sjättedel av det totala antalet kast. Eftersom frekvenstolkningen handlar om vad som händer i det långa loppet i vårt exempel efter många tärningskast kan det ju lätt hända att man tröttnar och avbryter sitt försök 2

innan man hunnit skaffa tillräckligt mycket data (att kasta en tärning tiotusen gånger kan ju bli lite jobbigt). Det finns dock pionjärer som offrat sig och verkligen gjort detta. För att visa vad som händer, utan att bevisa någonting, räcker det att utföra en datorsimulering, det vill säga, låta en dator utföra försöket i stället. Vi skall nu med datorns hjälp simulera hundra tärningskast och studera den relativa frekvensen av treor. Simulera nu de hundra tärningskasten. Glöm inte att avsluta kommandot med semikolon, annars kommer skärmen att fyllas med hundra stycken slumptal. >> X <- floor(6*runif(100,0,1)+1); Funktionen floor avrundar nedåt. Vi vill nu kontrollera att elementen i X verkligen har en fördelning som ett tärningskast. Första steget blir att räkna antalet treor. I R finns ett antal relationsoperatorer, som tillåter jämförelser av matriser. Med kommandot >> Y <- X==3; får vi en vektor av samma dimension som X och som enbart innehåller ettor och nollor. På varje plats där X har en trea, har Y en etta, och på varje plats där X har ett element som inte är en trea, har Y en nolla. Genom att räkna antalet ettor i vektorn Y, får vi alltså reda på hur många treor, som finns i vektorn X. De successiva relativa frekvenserna av treor kan vi nu beräkna med följande kommando: >> relf <- cumsum(y)/seq(1,100) Funktionen cumsum ger en vektor där element nummer i är summan av de i första elementen i inparametern, i vårt fall Y. Notationen seq(1,100) är en vektor med talen 1 till och med 100. övertyga dig om att relf innehåller de successiva relativa frekvenserna. Nu kan vi plotta de relativa frekvenserna: >> plot(relf) 2.2 Differensen mellan antalet treor och fyror Nu ska analysen kompletteras genom att undersöka hur den successiva skillnaden av antalet treor och fyror ser ut som funktion av antalet kast. Börja med att skapa en ny variabel Z som innehåller den kumulerade summan av antalet fyror och beräkna därefter den successiva skillnaden mellan antalet treor och fyror. öppna därefter ett nytt grafikfönster och plotta skillnaden mellan antalet treor och antalet fyror som funktion av antalet kast: >> win.graph() >> Z <- X==4; >> diff <- cumsum(y)-cumsum(z); >> plot(diff) Ta en liten paus och fundera över följande fråga: Törs du dra några slutsatser eller eventuellt ställa upp något antagande utifrån kurvorna över de relativa och absoluta frekvenserna? Vilka resultat förväntar du dig rent teoretiskt vid många kast med en symmetrisk tärning? Hundra kast är kanske lite för lite. Simulera istället tiotusen tärningskast och beräkna relativa frekvensen treor som funktion av antalet kast på samma sätt som ovan (spara gärna resultatet 3

i en ny variabel, till exempel relf1). Kan du säga något om den relativa frekvensen treor, när antalet kast är stort? Beräkna också skillnaden mellan antalet treor och antalet fyror och spara den tex. i diff1. Kan du säga något om skillnaden när antalet kast är stort? För att bättre kunna se vad som händer i försökets början, kan man plotta relf1 mot log(antal kast): >> plot(log10(seq(1,10000)),relf1) Om man använder kommandot points(...) efter att man skapat en figur med plot(...) kan man låsa figuren i bildfönstret, så att man kan rita nya kurvor ovanpå. Gör ytterligare en försöksserie med tiotusen kast. Analysera och plotta relativa frekvensen treor (som du sparat i en ny variabel, till exempel relf2) gentemot log(antal kast) på samma sätt som ovan. För att kunna skilja de två kurvorna åt, kan man plotta den andra kurvan med en annan signatur eller färg, till exempel >> plot(log10(seq(1,10000)),relf2,col ="red" ) Notera såväl skillnader som likheter mellan de två försöksserierna. Rita också upp differenserna mellan treor och fyror för de två försöksserierna och notera skillnader och likheter. 2.3 Analys av försöket kasta en tärning För att belysa vad som sker vid det här experimentet (kast med tärning) skall du utföra försöket flera gånger under likartade förhållanden. Det vi kallar olika realiseringar. Försöket skall utföras cirka 7 gånger. För att utröna vad som sker i långa loppet behövs det ett stort antal kast, helst 100 000, i varje realisering. Bilden blir klarare ju fler kast du använder; numera bör internminnet hos alla datorerna räcka för så stora simuleringar, vid varje realisering skall du i varje fall använda lika många kast, dock minst 10 000. Följande frågor skall besvaras, varje fråga skall åtföljas av en lämplig figur där resultatet av de olika realiseringarna framgår. Man kan med fördel utföra beräkningarna med en så kallad script-fil i R. Se Introduktion till R. Hur många kast gissar du behövas för att vi säkert skall kunna uppskatta sannolikheten för en trea respektive en fyra? Ett motiverat svar kan inte ger förrän längre fram i kursen. Vilka slutsatser kan du dra angående skillnaden av de relativa frekvenserna av treor och fyrar i en realisering? är resultatet i de olika realiseringarna samstämmigt? Vilket resultat förväntar du dig rent teoretiskt vid många kast med en symmetrisk tärning? Är kurvan över skillnaden mellan antalet treor och antalet fyror förenlig med din slutsats från föregående punkt? Förklara också varför resultatet blev som det blev. 3 Binomialfördelningen Om man till exempel vill skapa ett antal slumptal (25 stycken) från en binomialfördelning där antale försök n=10 och sannolikheten för den lyckade händelsen a är 0.2 skriver man följande kommando: xbino1 <- rbinom(25,10,0.2) 4

I variabeln xbino1 lagras de simulerade värdena. För att kolla på resultatet kan man skriva bino1 eller print(bino1) i kommandofönstret. Det som bland annat är intressant att ta reda på i stickprovet är om sannolikhetsfördelningen, den relativa frekvensen av de olika utfallen stämmer överens med den valda binomialfördelningen. Vi måste alltså räkna efter hur många händelser av respekive utfall som finns i stickprovet. I R kan man göra detta genom att först kategorisera resultatet i variabeln bino1 och därefter beräkna den relativa frekvensen: xomega <- seq(0,10,1) #utfallsrummet xkategori <- factor(xbino1) # kategorisering av resultatet i xbino1. xfreq <- table(xkategori) # r\"{a} absoluta frekvensen. relfreq <- prop.table(xfreq) # skattningen av sannolikhetsfunktionen. Kontrollera nu vilka av de möjliga utfallen som kom med stickprovet. Kom alla med? För att kunna plotta den skattade sannolikhetsfunktionen mot respektive utfall måste man skapa en vektor variabel som innehåller dessa värden. Gör nu detta: xutfall<-c(?,?,?,...,?,?) När man gjort detta kan man plotta den skattade sannolikhetsfunktionen i ett stolpdiagram i R med hjälp av plot-funktionen: plot(xutfall, relfreq, type="h",col="blue") # alternativt med barplot Den teoretiska sannolikhetsfunktionen p X (x) för motsvarande binomialfördelade slumpvariabel, s.v. X, kan man enkelt plocka fram i R med hjälp av R-kommandot dbinom(x,n,p). Vill man ha tag på fördelningsfunktionen F X (x) använder man R-kommandot x,n,p. I vårt fall skriver man tex: px <- dbinom(x,10,0.2) # x={0,1,...,10} utfallsrummet. points(xomega, px, type="h", col="red") # plottar i samma figur. Undersök nu hur många stickprov frå en s.v.x Bin(10, 0.2) som behövs för att hitta en rimlig överensstämmelse mellan den skattade sannolikhetsfunktionen och den teoretiska sannolikhetsfunktionen p X (x). Gäller samma sak för den s.v. X Bin(10, 0.5) eller för den s.v. X Bin(25, 0.7)? 4 R-script Uppg314.R ps<-0.9 pf<-0.05 p<-seq(0,1,0.001) ppos<-ps*p+pf*(1-p) p7kpos<-(ps*p)/ppos p7kneg<-(1-ps)*p/(1-ppos) win.graph() plot(p,p7kpos,type="l",col="red",xlab="p, relativsjukdomsfrekvens",ylab="p, Sannolikhet") points(p,1-p7kpos,type="l",col="blue") points(p,p7kneg,type="l",col="dark red") points(p,1-p7kneg,type="l",col="green") grid() title(main=\textrm{"konfidens f\"{o}r sjukdomstest"}) 5