Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Relevanta dokument
1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Lektionsanteckningar 11-12: Normalfördelningen

Samplingfördelningar 1

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Föreläsning G60 Statistiska metoder

Laboration 3: Parameterskattning och Fördelningsanpassning

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Lunds univrsitet Matematikcentrum Matematisk statistik

Demonstration av laboration 2, SF1901

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Kap 2. Sannolikhetsteorins grunder

Laboration med Minitab

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Introduktion till statistik för statsvetare

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 1: Introduktion till R och Deskriptiv statistik

DATORÖVNING 2: STATISTISK INFERENS.

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TMS136. Föreläsning 4

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Grundläggande matematisk statistik

TMS136. Föreläsning 7

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 1: Fördelningar

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

F9 SAMPLINGFÖRDELNINGAR (NCT

Introduktion och laboration : Minitab

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Föreläsning 7: Punktskattningar

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Formel- och tabellsamling i matematisk statistik

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Datorövning 1 Fördelningar

Projekt 1: Om fördelningar och risker

DATORÖVNING 2: SIMULERING

Föreläsning 7: Punktskattningar

Repetitionsföreläsning

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

MVE051/MSG Föreläsning 7

Sannolikhet och statistik med Matlab. Måns Eriksson

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsning 7: Punktskattningar

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Föreläsning 7. Statistikens grunder.

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

LABORATION 1. Syfte: Syftet med laborationen är att

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 3. Sannolikhetsfördelningar

FÖRELÄSNING 8:

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Diskussionsproblem för Statistik för ingenjörer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

SF1901 Sannolikhetsteori och statistik I

En introduktion till och första övning for Excel

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Statistiska metoder för säkerhetsanalys

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Lärmål Sannolikhet, statistik och risk 2015

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

FÖRELÄSNING 7:

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Något om sannolikheter, slumpvariabler och slumpmässiga urval

4 Diskret stokastisk variabel

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

TMS136. Föreläsning 13

Några extra övningsuppgifter i Statistisk teori

SF1911: Statistik för bioteknik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Uppgift a b c d e Vet inte Poäng

Laboration 4 R-versionen

Transkript:

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3 Laboration 2 Fördelningar och simulering Introduktion 2014-02-06 Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner som finns i R vad det gäller simulering och dels att öka förståelsen för vissa grundläggande områden inom sannolikhetsteorin t.ex. slumpmässiga urval, slumpvariabel, sannolikhetsfördelning och summor av slumpvariabler (Centrala gränsvärdessatsen). Simulering av slumpvariabler i R Simulering i R görs genom färdiga funktioner unika för respektive fördelning. Exempel på några av dessa funktioner finns i efterföljande tabell. Fördelning Funktion Exempel Binomial rbinom(antal,n,p) rbinom(100, 10,0.5) Poisson rpois(antal, mean) rpois(100, 2) Normal rnorm(antal, mean, stddev) rnorm(50,100,15) Likformig (Rektangel) runif(antal, min, max) runif(100, 10, 20) (engelska: Uniform) Exponential rexp(antal, scale) rexp(100,1) mean = väntevärdet i fördelningen stddev = standardavvikelsen i fördelningen scale = 1 / väntevärdet (i exponentialfördelningen) Om man till exempel vill ha ett antal slumptal (50 stycken) från en normalfördelning med väntevärdet (populationsmedelvärdet) 100 och standardavvikelsen 15 skriver man följande kommando a1 <- rnorm(50,100,15)

I variabeln a1 lagras då de genererade värdena. Vill man kolla på värdena skriver man bara a1 så får man en lista på värdena. Vill man beräkna basstatistiken för datamaterialet kan man skriva: summary(a1) En boxplot får man genoma att skriva boxplot(a1) och ett histogram genom att skriva hist(a1). Prova dessa kommandon så du ser vad som händer. Vill du veta mer om ett kommando kan du skriva kommandot med ett frågetecken framför t.ex.:?hist. Uppgift 1 Skapa nu ett stickprov normal om 10 slumptal från en normalfördelning med väntevärdet 10 och standardavvikelsen 2. Bilda sedan ett andra stickprov som heter uni och innehåller 10 slumptal från en likformig fördelning mellan 10 och 20. Ledning: rnorm(10,10,2) och runif(10,10,20). Observera att slumptalen kan ses som stickprov om 10 observationer från två kända populationer. Kontrollera nu med hjälp av kommandot hist(normal) och hist(uni) hur väl stickproven överensstämmer med populationerna. Teoretiskt ska det se ut så här: 5 10 15 10 15 20 Normal (10,4) Uniform (10,20) Hur väl stämmer stickproven överens med populationerna? Upprepa nu förfarandet för stickprovsstorlek n=50 observationer samt n=500. Bör överensstämmelsen bli bättre eller sämre? Uppgift 2 Skapa nu tre stickprov om n=1000 observationer från följande fördelningar (kalla dem t.ex. norm1, uni1 resp. exp1):

Normal(10, 2) Uniform(10, 20) Exponential med väntevärdet 1 (rexp(1000,1)) Kontrollera med histogrammet hur fördelningarna ser ut. QQ-plot och qqnorm Om man vill kontrollera hur pass nära ett stickprov är en viss teoretisk fördelning kan man använda olika grafiska metoder. En sådan metod är en s.k. Q-Q plot (Q=Quantile). I en Q-Q plot jämför man de verkliga värdena i stickprovet med det man kunde förvänta sig från en viss teoretisk fördelning. Om de observerade värdena överensstämmer med de förväntade så kommer punkterna i en Q-Q plot att ligga längs en rät linje. Jämför nu de tre stickproven ovan med vad vi kunde förvänta oss från en normalfördelning. I R finns det en standardfunktion qqnorm(stickprovsnamn) där man jämför kvantilerna i ett stickprov med normalfördelningen. I kommandofönstret: qqnorm(norm1) qqnorm(uni1 qqnorm(exp1) Dina figurer bör se ut ungefär så här: Vi ser alltså att olika avvikelser från normalfördelning resulterar i olika kurvutseende. 3

Uppgift 3 I de tidigare uppgifterna har vi simulerat vad som händer om vi tar stickprov av olika storlekar från olika kända fördelningar. Vi skall nu gå vidare och undersöka vad som händer om vi bildar olika storheter i stickprovet. Vilka egenskaper får då dessa storheter? Det är framförallt väntevärdet, variansen och fördelningen som vi intresserar oss för. Vi börjar med att undersöka vilken fördelningen summan av två observationer från en normalfördelning med väntevärde 10 och standardavvikelse 2 har. Börja med generera två nya stickprov om 1000 observationer norm1 och norm2: norm1 <- rnorm(1000,10,2) norm2 <- rnorm(1000,10,2) När vi kör dessa kommandon kommer det att bildas två nya variabler som heter norm1 och norm2 och som innehåller 1000 slumptal var. Bilda nu summan (sum12) av de två kolumnerna norm1 och norm2. Undersök vilken fördelning summan har genom att göra ett histogram och en Q-Q plot. sum12 <- norm1+norm2 Vilken fördelning har summan? Vad bör väntevärdet bli? Standardavvikelsen? (Använd gärna R, x beräknas med sqrt(x)) Beräkna också medelvärdet av sum12 med mean(sum12) och stickprovsstandardavvikelsen sd(sum12). Hur passar de med de teoretiska värdena? Centrala gränsvärdessatsen Adderar man (eller tar medelvärdet) av flera oberoende normalfördelade slumpvariabler är summan också normalfördelad. Men vad händer om man lägger ihop flera variabler som alla är rektangelfördelade? Vilken fördelning fås om man adderar exponentialfördelade variabler? Centrala gränsvärdessatsen säger att om man adderar man ett stort antal oberoende variabler från en godtycklig fördelning blir summan (eller medelvärdet) normalfördelad. Detta märkliga faktum ska du i denna uppgift undersöka med hjälp av den interaktiva rutinen cgs. Konkret kan vi tänka oss att du gör ett antal mätningar av en intressant (bio)variabel, du bildar summan av mätningarna (eller medelvärdet). Det du ska undersöka är hur summan kommer att variera från mätserie till mätserie? Beror det på fördelningen hos variabeln?

Så här använder du rutinen cgs i RStudio: När du skriver cgs() får du möjlighet att välja mellan ett antal fördelningar med givna parametrar eller kan du konstruera en egen diskret sannolikhetsfördelning. Välj ett av alternativen genom att mata in tillhörande siffra. Du får en figur med täthetsfunktion eller sannolikhetsfunktion för din valda fördelning. Välj nu hur många mätningar du ska göra från denna fördelning och mata in detta antal. I kommandofönstret visas resultatet av din mätningar (de 10 första om du valt ett stort antal), d.v.s. R har hämtat slumptal från din valda fördelning. Summan av alla mätningarna skrivs ut. I din figur markeras mätningarna med kryss. Antag nu att du gör upprepade serier med det antal mätningar som du valt. För varje serie beräknas summan av dina mätningar. Hur varierar då summan? Mera matematiskt beskrivet: Om X, Xantal är oberoende med den fördelning du valt, vad är då fördelningen för X + +Xantal? Undersök detta genom att simulera N serier med det antal mätningar du valt. Rutinen ritar sedan upp ett histogram för summan. Ange alltså ett värde på N, tänk på att välja N tillräckligt stort så att du kan få en uppfattning av fördelningen i histogrammet. Centrala gränsvärdessatsen säger att om du valt ett tillräckligt stort antal mätningar kommer fördelningen för summan att bli ungefär normalfördelning. Rutinen ger dig möjlighet att anpassa en normalfördelning till data. Du kan låta R sköta om det och din uppgift blir då att undersöka grafiskt om du tycker att approximationen verkar bra. Till din hjälp har du också en Q-Q plot där du kan se om summan verkar passa till en normalfördelning. Du kan också anpassa normalfördelningen själv och måste då fundera på vilka värden på väntevärde och standardavvikelse som gäller (en utmärkt övning!). Om du vill köra rutinen igen kan du undvika den interaktiva fasen genom att direkt skriva in dina val i anropet. Exempelvis ger cgs(2,10,1000,1) att 1000 serier med vardera 10 mätningar slumpas från en R(0, 4), histogram för de 1000 summorna plottas, normalfördelning anpassas och en Q-Q plot ritas. Uppgift 4 1. Välj rektangelfördelning, antal=2 i cgs(). Vilka värden kan summan av två mätningar ligga mellan? Verkar histogrammet rimligt? 2. Öka antalet mätningar i rektangelfördelningen. Vad händer om du tar antalet mätningar till 5? Eller ökar till 10? 3. Försök anpassa ''rätt'' normalfördelning till histogrammet, d.v.s. tänk ut värdena på väntevärde och standardavvikelse. Ledning: Man kan visa att om X är ( b a) a+b E(X) = Var(X) = uniform(a,b): => 2 12 4. Exponentialfördelning: Gör motsvarande för exponentialfördelningen. Hur många mätningar behöver ni ta innan ni tycker att summan är ungefär normalfördelat? Verkar fördelningen gå snabbare eller långsammare mot en normalfördelning än det gjorde för den likformiga fördelningen. Vad beror detta på? 5 2

5. Normalfördelning: Vad händer om ni tar antal=2? Kan du förklara detta? 6. Undersök gärna på motsvarande sätt vad som händer då man bildar summor från binomial- eller poissonfördelningen. 7. Testa gärna med en egen diskret fördelning. 8. Du har tittat på vad som händer med summor av variabler. Vad händer om man i stället tar medelvärdet av variablerna (mätningarna)? Uppgift 5 Centrala gränsvärdessatsen i praktiken: På 35 patienter med Hodgkins sjukdom mätte man antalet T4 celler i blodet (antal/mm³). Samtidigt mätte man motsvarande antal hos 35 patienter som hade andra sjukdomar (Non-Hodgkins). Data ligger i filen Hodgkindata.RData som du hittar på kursens hemsida. Läs in data via Workspacefönstrets Öppna-ikon. Du har nu fått två nya variabler Hodgkin och NonHodgkin. Undersök om antalet celler i blodet är normalfördelat för de båda grupperna. Du hade tänkt jämföra grupperna genom att bilda differensen mellan de två gruppmedelvärdena. Kan du använda dig av centrala gränsvärdessatsen i detta fall? Kan du säga något om vilken fördelning differensen i medelvärden har? Är det ett stort problem att variabeln inte är normalfördelad i de båda grupperna? Svar på frågorna: Summan blir normalfördelad (alla linjära kombinationer av normalfördelningar blir i sig normalfördelade). Väntevärdet bör bli summan av de två väntevärdena (10+10=20) och för att få standardavvikelsen så lägger vi ihop de två varianserna och tar roten ur 2 2 summan: 2 + 2 = 8 = 2,83 Hodgkins sjukdom: Ursprungliga data är definitivt ej normalfördelade men enligt centrala gränsvärdessatsen kommer medelvärdena i de två grupperna att approximativt vara det. Data är inte lika skeva som en exponentialfördelning så 35 observationer borde vara tillräckligt. Därmed kommer skillnaden mellan medelvärdena också att vara approximativt normalfördelad.