SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011



Relevanta dokument
SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Demonstration av laboration 2, SF1901

F9 Konfidensintervall

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

Datorövning 1: Fördelningar

Laboration 3: Parameterskattning och Fördelningsanpassning

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Matematisk statistik KTH. Formelsamling i matematisk statistik

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Avd. Matematisk statistik

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Samplingfördelningar 1

FÖRELÄSNING 7:

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

TMS136. Föreläsning 10

TMS136. Föreläsning 13

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Datorövning 1 Fördelningar

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Lektionsanteckningar 11-12: Normalfördelningen

0 om x < 0, F X (x) = c x. 1 om x 2.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

bli bekant med summor av stokastiska variabler.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Föreläsning 12: Repetition

Föreläsning 7. Statistikens grunder.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Föreläsning 7: Punktskattningar

, s a. , s b. personer från Alingsås och n b

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Thomas Önskog 28/

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Föreläsning 11: Mer om jämförelser och inferens

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F3 Introduktion Stickprov

TMS136. Föreläsning 11

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Uppgift 1. f(x) = 2x om 0 x 1

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Föreläsningsanteckningar till kapitel 8, del 2

Matematisk statistik TMS064/TMS063 Tentamen

Sannolikhet och statistik med Matlab. Måns Eriksson

SF1901: Medelfel, felfortplantning

Föreläsning 7: Punktskattningar

TMS136. Föreläsning 7

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Föreläsning 12: Regression

Föreläsning 7: Punktskattningar

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

SF1901 Sannolikhetsteori och statistik I

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

TMS136. Föreläsning 4

Avd. Matematisk statistik

Avd. Matematisk statistik

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

Avd. Matematisk statistik

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

Laboration 5: Intervallskattning och hypotesprövning

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

DATORÖVNING 2: STATISTISK INFERENS.

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

4 Diskret stokastisk variabel

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Avd. Matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Föreläsning 4: Konfidensintervall (forts.)

Transkript:

Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i läroboken hur man kan göra konfidensintervall för väntevärdet i en population, och skillnaden i väntevärde mellan två olika populationer, när värdena i populationerna inte kan anses vara normalfördelade. Temat för den här datorlaborationen är bootstrap, vilket innebär att uppskatta variationen i en skattning med hjälp av simulering. Till att börja med formulerar vi själva skattningsproblemet. Antag att vi har data x 1, x 2,...,x n som vi ser som observationer av oberoende stokatiska variabler X 1, X 2,...,X n med gemensam fördelning (eller fördelningsfunktion) F. Denna fördelningsfunktion beror på någon parameter θ som vi vill skatta, och vi markerar det genom att skriva F θ. Denna parameter kan vara t ex väntevärdet i en normalfördelning eller proportionen i en binomialfördelning. För att skatta θ från data använder vi någon funktion h, dvs skattningen är θ obs = h(x 1, x 2,...,x n ). För att skatta ett väntevärde t ex använder vi i regel stickprovsmedelvärdet h(x 1, x 2,...,x n ) = n 1 n 1 x k. Skattningen θobs är en observation av skattaren θ, som är en stokastisk variabel. Vi kan representera θ som θ = h(x 1, X 2,...,X n ). Den osäkerhet som finns förknippad med θobs ( hur bra är skattningen? ) representeras på motsvarande sätt av variationen i θ. Det är därför det är så viktigt att försöka ta reda på vilken variation denna stokastiska variabel har, t ex dess varians och/eller dess fördelning. I tanken skulle vi kunna studera variationen hos θ genom att simulera ett stickprov x 1, x 2,..., x n från X 1, X 2,...,X n och sedan bilda θ = h( x 1, x 2,..., x n ) vilket då är ett simulerat värde från θ. I praktiken går 1

det förstås inte, eftersom fördelningsfunktionen F för X k, som vi alltså skall simulera från, inte är känd; den beror ju på en parameter θ som vi inte känner. Bootstrap bygger på ovanstående tanke, men istället för att simulera från F, som vi inte känner, så simulerar vi från en approximation av denna fördelning. Denna approximation ges av det observerade stickprovet x 1, x 2,...,x n självt. Med andra ord så skapar vi ett simulerat stickprov x 1, x 2,..., x n genom att för k = 1, 2,...,n sätta x k lika med något av de observerade värdena x 1, x 2,...,x n (med lika sannolikheter). På så sätt kan vi få ett värde θ = h( x 1, x 2,..., x n ) som approximativt är en simulering från θ. Naturligtvis räcker det inte med en enda simulering av en stokastisk variabel, utan vi måste göra många. Proceduren ovan upprepas alltså säg M gånger, dvs vi simulerar M stycken bootstrapstickprov x (m) 1, x (m) 2,..., x (m) n, m = 1, 2,...,M som ovan (oberoender av varandra) och bildar motsvarande bootstrappade skattningar θ (m) = h( x (m) 1, x (m) 2,..., x (m) n ). 1 Bootstrap av väntevärdesskattning för simulerade data Till att börja med skall vi illustrera bootstrap-idén på en liten mängd data, och en enkel skattning skattning av väntevärde. Vi simulerar 20 värden från en s k dubbelexponentialfördelning (också kallad Laplacefördelning), som har täthetsfunktion f(x) = (θ/2)e θ x för en parameter θ > 0. Denna fördelning har väntevärdet 0, men vi antar att vi varken vet detta, eller att data faktiskt kommer från en sådan fördelning. >> n=20 >> x=exprnd(1,n,1).*sign(rand(n,1)-1/2) Här resulterar sign(rand(n,1)-1/2) i en n 1-vektor med slumpvis valda tecken ±1 (varför?). För att konstruera ett bootstrapstickprov kan vi först slumpa vilka index i vi skall välja för de observationer x i som skall ingå i bootstrapstickprovet, och sedan plocka fram motsvarande x-värden: >> idx=randsample(n,n,true) >> xboot=x(idx) 2

Tänk efter varför det fungerar! Notera att det finns observationer x k som återfinns mer än en gång i bootstrapstickprovet. Om vi nu tar θ som väntevärdet av den fördelning vi har observationer från, så är vår skattning förstås θ obs = x. Vi kan tillämpa medelvärdesbildningen på M = 1000 bootstrapstickprov för att skapa lika många bootstrapreplikat av skattningen. >> M=1000, thetaboot=zeros(m,1); >> for i=1:m, thetaboot(i)=mean(x(randsample(n,n,true)));end Här hoppar vi över variablerna idx och xboot ovan, som användes för mellanlagringar. Nu har vi alltså en vektor thetaboot med bootstrapreplikat av θ, och genom att titta på variationen hos dessa simulerade värden så kan vi dra slutsatser om variationen hos θ. Skriv >> hist(thetaboot,50) för att rita ett histogram över bootstrapreplikaten (parametern 50 är antalet klasser i histogrammet). Är variationen stor eller liten? Skriv >> std(thetaboot) för att beräkna stickprovsstandardavvikelsen för bootstrapreplikaten. Detta är alltså en uppskattning av standardavvikelsen hos θ. Utan att använda bootstrap, hur skulle du då uppskatta denna standardavvikelse, dvs vilket medelfel för skattningen θobs skulle du använda? Räkna ut detta medelfel för de data du har och jämför med uppskattningen du får via bootstrap. Observera att bootstrapberäkningen inte baseras på några analytiska beräkningar, utan bara på simuleringar! När vi gör konfidensintervall utgår vi ofta från en skattare som, ofta approximativt, är normalfördelad. Gäller det i det här fallet? Det kan du undersöka genom att använda funktionen normplot i Matlab. >> normplot(thetaboot) Hur skulle du göra ett konfidensintervall för väntevärdet baserat på antagandet att θ är approximativt normalfördelad? Beräkna ett sådant konfidensintervall! Ett alternativ är att ta fram gränser för konfidensintervallet som kvantiler ur den simulerade bootstrapfördelningen, dvs som empiriska kvantiler från bootstrapreplikaten θ (m) : 3

>> quantile(thetaboot,[.025.975]) ger ett intervall med (approximativt) 95% konfidensgrad, och där vi lagt 2.5% av felrisken i vänstra respektive högra svansen av fördelningen. Hur överensstämmer det med intervallet du beräknade ovan? Observera att, återigen, bootstrapmetoden bara använder simuleringar, och inget antagande om approximativ normalfördelning. 2 Bootstrap av väntevärdesskattning för födelsevikter I filen birth.dat, som finns på kurshemsidan, finns data för 747 nyfödda barn i Malmö kommun. Ladda ned filen och läs in den i Matlab. Du får då en matris birth i Matlabs arbetsminne. Filen birth.txt innehåller information om vad som finns i matrisen. T ex innehåller kolonn 3 alla födelsevikter, som vi skall arbeta med. Skriv >> x=birth(:,3); för att lägga värdena i den kolonnen i vektorn x. Skatta sedan den förväntade födelsevikten, dvs väntevärdet av den fördelning som vi tänker oss att vikterna kommer ifrån, som i föregående avsnitt. Jämför också med vad du får med de metoder som finns i läroboken! För att underlätta arbetet kan du använda en funktion bootstrp som finns i Matlab, och som gör hela arbetet med att simulera bootstrapreplikat θ (m). >> thetaboot = bootstrp(m,@mean,x); 3 Bootstrap av skattning av skillnad väntevärden för födelsevikter Vi skall nu går vidare till att studera skillnaden mellan väntevärdena i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). I filen birth.txt ser man att kolonn 20 i verb+birth+ innehåller rökvanor, och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x 4

och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x=birth(birth(:,20)<3,3); >> y=birth(birth(:,20)==3,3); Vad som händer här är att birth(:,20)<3 returnerar en vektor av sant och falskt, och att bara de rader av kolonn 3 (födelsevikterna) i birth för vilka jämförelsen är sann, väljs ut. Använd funktionen length eller kommandot whos för att se storleken på vektorerna x och y. För att skatta skillnaden mellan populationernas väntevärden, använder vi som vanligt skillnaden mellan stickprovsmedelvärdena, mean(x)-mean(y). För att undersöka osäkerheten i denna skattningen kan vi använda bootstrap, och simulera bootstrapreplikat enligt >> thetaboot = bootstrp(m,@mean,x)-bootstrp(m,@mean,y); Ser bootstrapreplikaten ut att komma från en normalfördelning? Vad får du för konfidensintervall för skilladen θ mellan väntevärdena? Vad får du med den metod i boken som du skulle använda? 4 Bootstrap av kvantilskattning Det kan vara intresse att studera en kvantil för fördelningen av födelsevikterna, t ex för att få ett mått på vad som är en ovanligt låg födelsevikt (vilket i sin tur kan ha medicinska implikationer). Arbeta åter med alla födelsevikter, dvs >> x=birth(:,3); Med bokens beteckningar är 95%-kvantilen den punkt som har 5% av fördelningens sannolikhetsmassa till vänster om sig. Denna punkt benämns som 5%-kvantilen i Matlab (och de flesta andra läroböcker!). Du kan beräkna den empiriska kvantilen som quantile(x,.05). Detta är alltså den punkt som har 5% av värdena i x till vänster om sig. Hur osäker är skattningen? Använd bootstrap för att undersöka det! Du kan skapa bootstrapreplikat enligt >> thetaboot = bootstrp(m,@(z) quantile(z,.05),x); 5

Undersök bootstrapreplikaten och gör ett konfidensintervall för 5%-kvantilen hos födelseviktsfördelningen. Observera att du nu analyserat (med bootstrap) ett statistiskt problem (konfidensintervall för kvantilskattning) som inte går att lösa med metoder som finns i läroboken! 6