träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Relevanta dokument
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Datorövning 1: Fördelningar

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Datorövning 1 Fördelningar

Laboration 3: Parameterskattning och Fördelningsanpassning

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Laboration med Minitab

Lunds univrsitet Matematikcentrum Matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Datorövning 1: Fördelningar

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

bli bekant med summor av stokastiska variabler.

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 1 Introduktion till Matlab Fördelningar

Föreläsning 7. Statistikens grunder.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Demonstration av laboration 2, SF1901

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Projekt 1: Om fördelningar och risker

Laboration 4: Hypotesprövning och styrkefunktion

Lektionsanteckningar 11-12: Normalfördelningen

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Laboration 1: Introduktion till R och Deskriptiv statistik

Föreläsning 3, Matematisk statistik Π + E

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Grundläggande matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Laboration 2: Statistisk hypotesprövning

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Introduktion och laboration : Minitab

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematisk statistik för B, K, N, BME och Kemister

Laboration 2: Sannolikhetsteori och simulering

Statistiska metoder för säkerhetsanalys

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

SF1911: Statistik för bioteknik

1 Grundläggande begrepp vid hypotestestning

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

TMS136. Föreläsning 4

Grundläggande matematisk statistik

DATORÖVNING 2: SIMULERING

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

LABORATION 1. Syfte: Syftet med laborationen är att

Introduktion till statistik för statsvetare

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Laboration 2: Sannolikhetsteori och simulering

DATORÖVNING 2: STATISTISK INFERENS.

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

FÖRELÄSNING 8:

(x) = F X. och kvantiler

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Veckoblad 3. Kapitel 3 i Matematisk statistik, Dahlbom, U.

1 Introduktion till projektuppgiften

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

MVE051/MSG Föreläsning 7

Kap 2. Sannolikhetsteorins grunder

SF1901 Sannolikhetsteori och statistik I

Mer om slumpvariabler

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

SF1901 Sannolikhetsteori och statistik I

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

F9 Konfidensintervall

Föreläsning 3. Sannolikhetsfördelningar

Laboration 4 R-versionen

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 1: Beskrivande statistik

Laboration 2: Sannolikhetsteori och simulering

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

Transkript:

Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 1, 1 APRIL 215 FÖRDELNINGAR, SIMULERING OCH FÖRDELNINGSANPASSNING Syfte Syftet med dagens laboration är att du ska träna på begreppen täthetsfunktion och fördelningsfunktion träna på att simulera slumptal från en fördelning träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från Förberedelseuppgifter Du måste ha arbetat ordentligt med de väsentligaste begreppen i kapitel 4.1-4.3 i kursboken. Repetera vid behov begreppen fördelningsfunktion, sannolikhetsfunktion och täthetsfunktion samt normalfördelningen. Du skall ha gjort följande uppgifter innan du kommer till laborationen. Hemuppgift 1: Orientera dig om R och de olika fönstren som dyker upp när man startar RStudio. Ett minimum är att läsa igenom de första se sidorna i stencilen Introduktion tillr. Ladda gärna nerrochrstudio till din dator och kör några kommandon från Introduktionen. Har du inte möjlighet till detta kan du använda datorerna i MH23 där du loggar in med hjälp av ditt Stil-konto. Hemuppgift 2: För att träna på normalfördelningen gör uppgift 11 (serumkolesterolhalt hos kvinnor) och uppgift 116 (vikt hos 1-åriga flickor) i studiematerialet. Fastnar du kan du få hjälp på övningen som ligger omedlbart före laborationen. Hemuppgift 3: Det är viktigt att skilja data (observationerna, mätningarna från ett visst slumpmässigt fenomen) från modellen man gör om den slumpmässiga variationen. I kursen använder vi begreppen empirisk fördelningsfunktion, frekvensfunktion (täthetsfunktion), stolpdiagram, histogram, sannolikhetsfunktion och fördelningsfunktion. Vilka av dessa hör till data och vilka hör till modellen? Det är också möjligt att para ihop begreppen, så att ett modellbegrepp motsvarar ett annat begrepp för data. Gör det! Data Modell

1 Datamaterial jordprov I skogsområdet ASA försökspark i Småland är 94 olika gropar grävda i marken och från varje grop är jordprover tagna där bland mycket annat aluminiumhalt och calciumhalt är uppmätta (mg/g). Data finns i filen jordprov.rdata som innehåller de två variablerna al och ca. Öppna filen i det övre högra fönstret i RStudio. Du kan se de uppmätta halterna genom att klicka på ikonen längst till höger på raden jordprov. Alternativt skriver duview(jordprov) i Rstudios console i nedre vänstra fönstret. 1.1 Överblick av materialet Först vill man beräkna några sammanfattande mått för data (medelvärde, min, ma, standardavvikelse o.s.v.) och se några översiktsfigurer. För att nå variabeln al i datamaterialet jordprov skriver du jordprov$al, t.e. ger kommandotmean(jordprov$al) dig medelvärdet av aluminiummätningarna. Uppgift 1.1: Gör en översiktsanalys av aluminium- och calciumhalterna genom att t.e. använda följande funktioner i R: summary(), sd(), hist(), plot(), boplot(). Pröva också plot(jordprov$al,jordprov$ca). Då man har mätningar, 1, 2,..., n, fås mycket information genom att rita upp den s.k. empiriska fördelningsfunktionen (empirical cumulative distribution function på engelska). Datapunkterna, i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med i plottas sedan mot i. Det blir en väande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I R kan du få funktionen utritad genom kommandotplot.ecdf(). Uppgift 1.2: Rita ut den empiriska fördelningsfunktionen för aluminiumhalterna. En grid läggs in i figuren om du skriverplot.ecdf(jordprov$al,panel.first=grid()). Använd figuren för att ta reda på hur stor andel av mätningarna som understeg 8 mg/g. Vilken aluminiumhalt övstigs i 7 % av mätningarna? 1.2 Passar någon standardfördelning till mina data? Nu vill vi, med grafiska metoder, undersöka om de två dataseten kan modelleras med några standardfördelningar. Några kontinuerliga standardfördelningar som vi stöter på i kursen är normalfördelningen, lognormalfördelningen, eponentialfördelningen och rektangelfördelningen (likformig fördelning eller på engelska uniform). NORMALFÖRDELNING, µ=2, σ=3 1 LOGNORMALFÖRDELNING.1.5.6 1 15 2 25 3 EXPONENTIALFÖRDELNING, µ=2.8.6.4.2.5 1 1.5 2 2.5 3 3.5 4 4.5 5 REKTANGELFÖRDELNING, R(3,5).6.4.4.2.2 1 2 3 4 5 6 7 8 9 1 2 2.5 3 3.5 4 4.5 5 5.5 6 2

När du tittar på histogrammet för aluminiumhalter verkar det inte orimligt att de skulle vara normalfördelade, men ett histogram är oftast ett trubbigt instrument då man vill anpassa en standardfördelning till data. Ett mer använd metod är att rita ut data i ett så kallat fördelningspapper eller QQ-plot. För att illustrera metoden är vi hjälpta av att se hur den fungerar på stickprov där vi verkligen vet fördelningen, vi behöver alltså veta hur man skapar slumptal från olika fördelningar. 2 Simulering av slumpvariabler i R I R finns det färdiga funktioner för simulering från respektive fördelning. Några eempel på dessa funktioner ser du i tabellen nedan. Fördelning Funktion Eempel Normal rnorm(antal,mean,stddev) rnorm(2,3,1) Eponential rep(antal,1/mean) rep(5,.5) Rektangel runif(antal,min,ma) runif(3,-2,5) Binomial rbinom(antal,n,p) rbinom(1,5,.2) Poisson rpois(antal,mean) rpois(25,4) Vill du t.e. simulera 1 slumptal från en normalfördelning med väntevärde (mean) 2 och standardavvikelse (stddev) 3 och lägga dem i variabelnnorm1 gör du det genomnorm1<-rnorm(1,2,3). Uppgift 2.1: Rita ut de 1 normalfördelade slumptalen i norm1 i ett histogram. Ser histogrammet ut som den teoretiska normalfördelningen i figuren ovan? Pröva vad som händer om du i stället gör ett histogram på 1 simulerade normalfördelade slumptal. Uppgift 2.2: Skapa 1 slumptal från en eponentialfördelning med väntevärde 2 och lägg dem i variabeln ep1. Gör ett histogram och jämför med eponentialfördelningens täthetsfunktion som t.e. är utritad i figuren ovan. Uppgift 2.3: Gör samma sak för en rektangelfördelning R(3,5), lägg de 1 slumptalen i förslgsvisunif1. 2.1 QQ-plot Ofta har man frågeställningen om data i ett stickprov kan tänkas modelleras med en teoretisk standardfördelning. Detta gällde t.e. aluminiumhalterna i marken som du studerade tidigare. En grafisk metod när man försöker anpassa sina data till en fördelning är att använda sig av en så kallad QQ-plot där Q står för kvantil (quantile). Värdena i datamaterialet jämförs med de man kunde förvänta sig från en viss teoretisk fördelning. Om data överensstämmer med de förväntade kommer punkterna i en QQ-plot att ligga utmed en rät linje. Omvänt, om QQ-plotten visar stor avvikelse från en rät linje passar inte den fördelning vi testat med till våra data. För att pröva om ett stickprov kan tänkas komma från en normalfördelning är kommandotqqnorm(stickprovsnamn). Uppgift 2.4: Pröva hur QQ-plotten ser ut då du anpassar stickprovet med 1 normalfördelade slumptal (norm1) till en normalfördelning genom kommandotqqnorm(norm1). 3

Eftersom vi vet attnorm1 innehåller normalfördelade slumptal bör anpassningen förstås vara god. Observera dock att man inte kan kräva en perfekt rät linje i plotten, vi har ju att göra med slumptal. En mindre avvikelse i linjens båda ändar är inte ovanligt. Uppgift 2.5: Pröva nu vad som händer då du försöker anpassa eponentialfördelade slumptal ep1 eller rektangelfördelade slumptal unif1 till en normalfördelning genom att använda kommandona qqnorm(ep1) respektiveqqnorm(unif1). 3 Modell för aluminiumhalten Vi tittar på aluminiumhalterna i de 94 jordproverna igen. Uppgift 3.1: Använd metoden QQ-plot för att avgöra om dessa halter kan modelleras med en normalfördelning (qqnorm(jordprov$al)). Tidigare har du låtit R beräkna medelvärde och standardavvikelse för aluminiumhalterna. Dessa värden kan du använda som uppskattningar av väntevärdet μ och standardavvikelsen σ i den anpassade fördelningen. Om du tyckte att en normalfördelning passade bra till data kan vi nu sätta upp en modell för våra observationer. Modell: X =aluminiumhalten i ett jordprov; X är normalfördelad med väntevärde medelvärdet för data och standardavvikelsen standardavvikelse för data. Med denna modell kan du beräkna sannolikheter och göra förutsägelser kring framtida mätningar. Du kan t.e. beräkna sannolikheten att en ny aluminiummätning kommer att överstiga 8 mg/g. Eller bestämma den Al-halt som kommer att understigas av 1 % av kommande mätningar. Uppgift 3.2: Antag att du vill beräkna sannolikheten att aluminiumhalten i ett prov överstiger 8, med andra ord du vill beräkna P(X 8). På övningarna har du gjort det med hjälp av räknare och/eller tabell. I R är kommandot för beräkning av normalfördelningens fördelningsfunktion pnorm(). Skriv?pnorm så ser du hur kommandot ska skrivas. 4

Uppgift 3.3: Då du vill bestämma den Al-halt som kommer att understigas av 1 % av kommande mätningar är det en kvantil i normalfördelningen som efterfrågas. Skissa gärna fördelningen, markera kvantilen men använd qnorm() ir. 4 Modell för calciumhalten Uppgift 4.1: Pröva med en QQ-plot om även calciumhalterna kan modelleras med en normalfördelning. En annan standardfördelning som är vanlig för biodata är lognormalfördelningen. Mätningar kan modelleras med en lognormalfördelning om de logaritmerade mätningarna passar bra till en normalfördelning. Det innebär att det inte behövs någon speciell QQ-plot för denna fördelning, man kan använda qqnorm(log(stickprovsnamn)). Uppgift 4.2: Pröva om calciummätningarna verkar vara lognormalfördelade. Uppgift 4.3: Uppskatta sannolikheten att en calciummätning överstiger 3 mg/g. Ledning: Om Y =calciumhalt söker vi P(Y > 3) vilket är ekvivalent med att P(ln(Y ) > ln(3)). Men om Y är lognormalfördelad gäller att ln(y ) är normalfördelad. Tänk ut hur väntevärdet och standardavvikelsen i den normalfördelningen kan skattas! 5