Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Relevanta dokument
SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Föreläsning 7: Punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Datorövning 1: Fördelningar

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

F9 Konfidensintervall

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Thomas Önskog 28/

Föreläsning 8: Konfidensintervall

Föreläsning 11: Mer om jämförelser och inferens

TMS136. Föreläsning 10

Laboration 4: Hypotesprövning och styrkefunktion

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 7. Statistikens grunder.

Föreläsning 12: Regression

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Datorövning 1 Fördelningar

TMS136. Föreläsning 7

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

FÖRELÄSNING 7:

Obligatorisk uppgift, del 1

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Föreläsning 12: Repetition

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

FÖRELÄSNING 8:

9. Konfidensintervall vid normalfördelning

SF1901 Sannolikhetsteori och statistik I

Demonstration av laboration 2, SF1901

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Industriell matematik och statistik, LMA /14

TMS136. Föreläsning 13

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

MVE051/MSG Föreläsning 7

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

bli bekant med summor av stokastiska variabler.

Matematisk statistik KTH. Formelsamling i matematisk statistik

F3 Introduktion Stickprov

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Formel- och tabellsamling i matematisk statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

TMS136. Föreläsning 11

Grundläggande matematisk statistik

F13 Regression och problemlösning

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

0 om x < 0, F X (x) = c x. 1 om x 2.

Tenta i Statistisk analys, 15 december 2004

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

LKT325/LMA521: Faktorförsök

Lektionsanteckningar 11-12: Normalfördelningen

F9 SAMPLINGFÖRDELNINGAR (NCT

Matematisk statistik för D, I, Π och Fysiker

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Samplingfördelningar 1

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Mer om konfidensintervall + repetition

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Föreläsning 11, Matematisk statistik Π + E

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

TENTAMEN I MATEMATISK STATISTIK

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Transkript:

Lunds universitet Matematikcentrum Matematisk statistik Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer Information om laborationerna I andra halvan av MASA01 kursen ingår två laborationer. programspråket R och görs i grupper av 2-4 personer. Laborationerna grundar sig på Redovisning av varje labb sker i form av en skriftlig rapport som skall lämnas in på övningen den efterföljande veckan. Rapporten skall vara skriven så att den går att läsa självständigt utan att man behöver använda sig av laborationshandledningen. Alla grafer skall vara försedda med beskrivande namn på axlarna. Vidare skall all programkod vara rik på kommentarer och inkluderad i rapporten (antingen löpande i texten eller i bilagor i slutet). Rapporten till denna laboration skall lämnas in den 28 November i början av övningen. Problem som är markerade med asterisk (*) är problem som helt eller delvis kan lösas utan R. Ifall ni har frågor eller något är oklart så är ni välkommna att fråga mig. Mareile Große Ruse, mareile@maths.lth.se, MH:325

1 ÄR HOLLÄNDARE LÄNGRE ÄN ITALIENSKOR? Laboration 3 Laborationens syfte är att ge en fördjupad förståelse för de tre centrala statistiska metoder: skattning, konfidensintervall och statistiska test. 1 Är holländare längre än italienskor? I den första delen av laborationen ägnar vi oss åt skattningen av parametrar och konfidensintervall. 1.1 Introduktion till Lisas studie I somras var Lisa och hennes vän Emma på en lång resa genom Europa. De insåg att en typisk holländsk man verkade vara längre än en typisk italiensk man. Nu vill de utföra en studie om detta. Lisa reste till Amsterdam och valde slumpmässigt ett stickprov på n = 100 holländska män och mätte dem. Samtidigt var Emma i Rom och gjorde precis samma sak: hon valde slumpmässigt n = 100 italienska män och skrev ner deras längder. Alla värden som Lisa och Emma fick finns i filen studielisa.csv. Ladda ner filen från kursens hemsida och spara den på din dator. I R kan man läsa in datan från en csv fil med hjälp av funktionen read.table(). Använd R s hjälpfunktion help(read.table) om du vill veta mer. Vi läsa in datan (och sparar den i variablen data) genom att skriva data <- read.table("c:/.../studielisa.csv", header = TRUE, sep = ",") Här får du anpassa sökvägen C:/.../studieLisa.csv till datafilens plats. (Om du inte vet filens sökväg så högerklicka på filen studielisa.cvs och välja egenskaper, där hittar du den riktiga sökvägen.) Nu vill vi reda ut vad data är för datatyp. Därför kör vi str(data) och får: > str(data) data.frame : 100 obs. of 2 variables: $ nederländerna: num 188 183 185 183 188... $ italien : num 169 174 173 173 169... Detta betyder att data har datatyp data.frame och innehåller två variabler, nederländerna och italien. Båda variabler har längden n = 100. För att få en bättre förståelse av data tittar vi på de första, säg 10, raderna av data: 2

1 ÄR HOLLÄNDARE LÄNGRE ÄN ITALIENSKOR? > data[1:10, ] nederländerna italien 1 187.7 169.1 2 182.7 174.3 3 184.6 172.6 4 182.9 172.8 5 188.0 169.0 6 183.5 172.3 7 182.0 168.9 8 179.2 171.2 9 179.9 166.5 10 184.1 168.6 I kolonnen nederländerna finns alla längder som Lisa mätte, dvs längderna av alla n holländarna. Längderna av de n italienska personerna finns i kolonn italien. För att förenkla analysen sparar vi värdena i två separata variabler, ned och ital: ned <- data$nederländerna ital <- data$italien 1.2 Formell beskrivning av experimentet För att kunna genomföra en statistisk analys behövs en formell beskrivning av experimentet. Låt X vara längden av en holländsk man och Y längden av en italiensk man. Vi antar att X N (µ N, 25), Y N (µ I, 25) där µ N, µ I är okända (bokstaven N motsvarar nederländerna och I motsvarar italien). Lisas och Emmas experiment kan då beskrivas genom 2n oberoende mätningar X 1,... X n,y 1,..., Y n, där X i motsvarar längden av den ite holländare och Y i är längden av den i:te italienaren. X 1,..., X n har samma fördelning som X och Y 1,..., Y n har samma fördelning som Y. De realiserade värdena x 1,..., x n (resp. y 1,..., y n ) finns i vektorn ned (resp. i vektorn ital). Emmas och Lisas gissning är En typisk italiensk man är mindre än en typisk manlig holländare I denna laboration ska vi använda oss av statistiska metoder för att undersöka deras hypotes. 3

1 ÄR HOLLÄNDARE LÄNGRE ÄN ITALIENSKOR? 1.3 Uppgifter Problem* 1.1 Låt θ := µ N µ I beteckna den okända skillnaden mellan medellängderna µ N och µ I. Ange lämpliga hypoteser H 0 och H 1 för Emmas och Lisas studie. Uttryck hypoteserna med hjälp av väntevärdesdifferensen θ. Problem* 1.2 Ange Maximum Likelihood (ML) skattaren ˆµ N av µ N och ML skattaren ˆµ I av µ I. Vad har ˆµ N och ˆµ I för fördelningar? Ovan antar vi att X,Y är normalfördelade med samma varians (σ 2 = 25) och okänt väntevärde µ N resp. µ I. Problem 1.3 Är antagandena V(X) = 25 och V(Y ) = 25 rimliga? Lisa och Emma antog en normalfördeling för deras stickprov. Vi vill granska detta. I den första laborationerna jämförde vi ett normaliserat histogram med täthetsfunktionen av en (lämplig) normalfördelning. Här ska vi använda oss av R-funktionen density som skattar täthetsfunktionen av ett stickprov. Vi börjar med skattningen ˆf ned av täthetsfunktionen f ned (dvs av täthetsfunktionen av slumpvariablen X). Kör fned_hat <- density(ned) och därefter kör str(fned_hat). Du får det följande: > str(fned_hat) List of 7 $ x : num [1:512] 166 166 166 166 166... $ y : num [1:512] 2.76e-05 3.12e-05 3.52e-05 3.96e-05 4.45e-05... $ bw : num 1.67 $ n : int 100 $ call : language density.default(x = ned) $ data.name: chr "ned" $ has.na : logi FALSE - attr(*, "class")= chr "density" Variablen fnet_hat är av typ list och innehåller 7 element. Det första elementet är en vektor x, som består av alla x-värden där f ned har skattats. I vektorn y (den andra i listen) finns de tillhörande skattade funktionsvärdena y = ˆf ned (x). Övriga element är inte viktiga för oss och vi vill inte ta hänsyn till dem. Kom ihåg att vi erhåller elementet mitt_element av listen min_list genom min_list$mitt_element För att plotta ˆf ned kör vi därför plot(fned_hat$x, fned_hat$y, type = "l") 4

2 VAD BETYDER ÖVERTECKNINGSSANNOLIKHETEN AV ETT KONFIDENSINTERVALL EGENTLIGEN? Problem 1.4 Rita upp den skattade täthetsfunktionen ˆf ned och lägg till täthetsfunktionen av en normalfördelning N (µ, σ 2 ). Glöm inte att använda olika färger och tillägg gärna en legend. Tänk på att välja lämpliga väntevärde µ och varians σ 2 till normalfördelningen. Gör samma sak för stickprovet ital. Verkar det rimligt att anta en normalfördelning i båda fall? Problem* 1.5 En lämplig skattare av θ = µ N µ I är ˆθ = ˆµ N ˆµ I. Lisa påstår att ˆθ N (µ N µ I, 1 n50). Har hon rätt? Förklara. Problem 1.6 Ange ett ensidigt 95% konfidensintervall I θ = [low θ, ) för θ och beräkna detta med R. Tipps: Du får α-kvantiler r α av en standardnormalfördelning genom att använda qnorm(α, mean = 0, sd = 1) Gör en statistisk slutsats med ledning av ditt intervall: Kan man förkasta hypotesen att holländare är kortare än italienskarna? (Tänk på konfidensmetoden i hypotesprövningen.) 2 Vad betyder överteckningssannolikheten av ett konfidensintervall egentligen? I denna delen av laborationen undersöka vi begreppet överteckningssannolikheten av ett 95% konfidensintervall. Ovan beräknade vi ett 95% konfidensintervall I θ för parametern θ. Då finns precis två möjliga scenario. Antigen ligger θ i I θ, eller inte. Därför är det olämpligt att säga "Sannolikheten att θ ligger i I θ är 0.95 ". Talet 95% betyder följande: Om Lisa och Emma upprepar deras studie flera gånger och varje gång beräknar de I θ, så innehåller I θ den riktiga parametern θ i ungefär 95% av alla försök. Vi kommer nu att analysera detta med hjälp av en simulering. Vi genererar 1000 studier med n = 100 datapunkter från N (µ N, 25) och 100 datapunkter från N (µ I, 25), där vi väljer µ N = 182 och µ I = 171. Det korrekta värdet av θ blir då 182 171 = 11. Varje gång beräknar vi konfidensintervallet I θ. I slutet räknar vi i hur många gånger intervallet I θ innehåller det korrekta värdet θ = 11. (Förvissa dig om att du förstår koden nedan och komplettera den.) 5

2 VAD BETYDER ÖVERTECKNINGSSANNOLIKHETEN AV ETT KONFIDENSINTERVALL EGENTLIGEN? B <- 1000 n <- 100 mu_ned <- 182 mu_ital <- 171 theta <- mu_ned - mu_ital sigma2 <- 25 count <- 0 for(i in 1:B){ ned <- rnorm(n, mu_ned, sqrt(sigma2)) ital <- rnorm(n, mu_ital, sqrt(sigma2)) theta_hat <- mean(ned) - mean(ital) sd_theta <-... # (fyll in det riktiga, du behöver standardavvikelsen # av theta_hat för konfidensintervalls undre gräns) I_theta_low <-...# (beräkna undre gränsen av konfidensintervallet) } # Ligger theta i intervallet? count <- count + as.numeric(i_theta_low <= theta) count/b # proportionen av antalet intervallet innehåller theta Obsevera att detta inte går att göra för verkliga data. Vi kan konstruera 1000 konfidensintervall pga av att vi har simulerade data. I verkligheten har vi ett enda studie, som vi ska analysera. 6