Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Relevanta dokument
Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Laboration 4: Intervallskattning och hypotesprövning

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Intervallskattning och hypotesprövning

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 4: Hypotesprövning och styrkefunktion

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Laboration 2: Sannolikhetsteori och simulering

Laboration 5: Intervallskattning och hypotesprövning

Avd. Matematisk statistik

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

bli bekant med summor av stokastiska variabler.

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 2: Sannolikhetsteori och simulering

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Avd. Matematisk statistik

Demonstration av laboration 2, SF1901

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 4: Intervallskattning och hypotesprövning

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 12: Repetition

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Datorövning 1: Fördelningar

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Avd. Matematisk statistik

Tenta i Statistisk analys, 15 december 2004

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

TMS136. Föreläsning 10

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Laboration 3: Parameterskattning och Fördelningsanpassning

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

0 om x < 0, F X (x) = c x. 1 om x 2.

Avd. Matematisk statistik

Laboration 2: Styrkefunktion samt Regression

Lufttorkat trä Ugnstorkat trä

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

Matematisk statistik TMS064/TMS063 Tentamen

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

Thomas Önskog 28/

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Datorövning 1 Fördelningar

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TMS136. Föreläsning 13

Laboration 4: Intervallskattning och hypotesprövning

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

TMS136. Föreläsning 4

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

F9 Konfidensintervall

f(x) = 2 x2, 1 < x < 2.

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

SF1901 Sannolikhetsteori och statistik I

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Matematisk statistik för D, I, Π och Fysiker

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Datorövning 3 Bootstrap och Bayesiansk analys

Uppgift a b c d e Vet inte Poäng

Avd. Matematisk statistik

Sekventiellt t-test av skillnaden i väntevärden mellan två normalfördelade stickprov

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Datorövning 3 Hypotesprövning och styrka

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Tentamen i Matematisk statistik Kurskod S0001M

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Föreläsning 11, FMSF45 Konfidensintervall

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Laboration 4: Lineär regression

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Avd. Matematisk statistik

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 3, HT -06 MATEMATISK STATISTIK FÖR F, PI OCH NANO, FMS 012 MATEMATISK STATISTIK FÖR FYSIKER, MAS 233 Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik: Maximum likelihood- och minsta kvadrat-skattning Styrkefunktion Bootstrap, som inte är en egentlig del av kursinnehållet men som spelar en stor roll i modern statistik. 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom kapitel 11, avsnitt 13.4 och hela laborationshandledningen. Tag med handledningen till laboration 2 även till detta laborationstillfälle, eftersom vi skall spinna vidare på en del av övningarna från denna tidigare laboration! Till laborationens start har du med dig lösningar till uppgifterna (a) (c): (a) Antag att det är givet data x 1, x 2,..., x n från oberoende dragningar från en exponentialfördelning med okänt väntevärde a. Tätheten för en sådan fördelning är (1/a) e x/a för x > 0. Härled MLoch MK-skattningarna av a. (Detta behövs i avsnitt 2.1, ML- och MK-skattning.) (b) Antag att Z N(m, ). Vilken fördelning har R = A + Z då A är ett reellt tal? (c) Vi återvänder till radondataexemplet i laboration 2. Betrakta skattningen i av intensiteten i ett enstaka rum. I laboration 2 gjorde du uppåt begränsade ensidiga konfidensintervall för en sådan intensitet. Dessa konfidensintervall kan användas för att testa H 0 : i = 200 mot H 0 : i < 200. I den här laborationen skall vi titta på styrkan av detta test, då det sanna i verkligen är mindre än 200. Övertyga dig om att konfidensintervallet från laboration 2 verkligen svarar mot ett test på nivån, och beräkna (approximativt) styrkan av testet för en verklig radonhalt i < 200. 2 Punktskattningar 2.1 ML- och MK-skattning Vi skall i den här uppgiften titta litet närmare på två av de vanligaste skattningsmetoderna i statistiken, nämligen ML- och MK-skattning. Vi skall bl a se att ML-skattning är ett maximeringsproblem medan MK-skattning är ett minimeringsproblem. I filen Ñ Ø Ø º Ø har vi 150 mätningar av livslängden (enhet: timmar) av en viss komponent i en bil. Livslängden hos varje komponent antas vara oberoende av andra komponenter. Ladda in data och gör en första undersökning av livslängderna. ÐÓ Ñ Ø Ø º Ø ÔÐÓØ Ñ Ø Ø ³ ³µ Ø Ñ Ø Ø µ

2 Datorlaboration 3, FMS012, MAS233, HT -06 Vi är intresserade av att skatta medellivslängden för komponenten. Ett sätt att göra detta på är att göra en ML-skattning av a. För att kunna göra en ML-skattning måste vi ha en uppfattning om vilken fördelning data har. Från liknande experiment som gjorts tidigare har det visat sig att fördelningen för livslängden hos en viss komponent är approximativt exponentialfördelad. Alltså antar vi att livslängden är exponentialfördelad och ställer upp log-likelihoodfunktionen. Hur ser den ut? Svar: l(a) = ln L(a) =... Det finns en Ñ-fil, ÅÄ ÜÔ, som beräknar l(a). Studera Ñ-filens MATLAB-kommandon och förvissa dig om att den verkligen ger rätt funktion! (ØÝÔ ÅÄ ÜÔ) Rita upp l(a) för 30 a 150. Hur ser funktionen ut och vilket värde på a motsvarar ML-skattningen? (Du kan använda kommandot ÞÓÓÑ för att förstora delar av figuren.) ¼ º ½ ¼ Ð ÅÄ ÜÔ Ñ Ø Ø µ ÔÐÓØ Ðµ Ö Nu går vi över och tittar på hur en MK-skattning av medellivslängden ser ut. Fördelen med MK jämfört med ML är att fördelningen för data ej behöver vara helt känd; det räcker med att vi känner väntevärdet. Börja med att ställa upp förlustfunktionen, Q(a). Svar: Q(a) =... Programmet Åà ÜÔ är skrivet för att beräkna Q(a). Titta på MATLAB-kommandona för att kolla att det stämmer! Rita upp Q(a); vilket värde på a motsvarar MK-skattningen? É Åà ÜÔ Ñ Ø Ø µ ÔÐÓØ Éµ Både ML- som MK-skattningen av a är enkel att beräkna, se förberedelseuppgift (a). Beräkna aml och amk och jämför med dina figurer. 2.2 Skattningen a är en stokastisk variabel! Om vi skulle ta 150 nya mätningar av livslängden hos ovanstående komponenter (dvs ett nytt stickprov), så skulle skattningen av väntevärdet med säkerhet bli annorlunda, dvs skattningen kan ses som en stokastisk variabel. För att illustrera detta tänker vi oss att vi tar 1000 stickprov med 150 mätningar i varje. Eftersom vi inte har 1000 riktiga stickprov så får vi nöja oss med att simulera data. Genom att utnyttja funktionen ÜÔÖÒ kan vi enkelt generera exponentialfördelade slumptal. Vi antar att det sanna väntevärdet är 100, dvs a = 100. ÐÔ ÜÔÖÒ ½¼¼ Ü ÜÔÖÒ ½ ¼ ½¼¼¼µ

Datorlaboration 3, FMS012, MAS233, HT -06 3 Kolonn nummer i i matrisen Ü motsvarar stickprov i. Nu skall vi skatta a för varje stickprov. Det kan göras enkelt enligt Ø Ñ Ò Üµ Element i i vektorn Ø innehåller skattningen av väntevärdet för stickprov i. Plotta Ø! Hur ser det ut? Vilken ungefärlig fördelning har skattningen av väntevärdet? Använd dig av kommandona Ø och ÒÓÖÑÔÐÓØ och dina kunskaper om centrala gränsvärdessatsen för att ta reda på detta. Vad är sannolikheten att skattningen avviker mer än 10 enheter från det sanna värdet 100, dvs understiger 90 eller överstiger 110? 3 Styrkefunktion Vi återvänder nu till radondatamätningarna i laboration 2, och det test som diskuterades i förberedelseuppgifterna. Styrkan hos testet talar om hur stor chans testet har att upptäcka en viss avvikelse från den halt 200 Bq/m 3 som nollhypotesen H 0 anger. För att öka styrkan kan man placera ut större eller fler filmer med fler mätytor, eller så kan man mäta under längre tid (det senare alternativet diskuterar vi dock inte). Vi skall studera hur styrkan varierar då man varierar antalet mätytor. Den specialskrivna funktionen Ö ÓÒÔÓÛ Ö Ò Ð µ beräknar styrkefunktionen för testet ovan för alla -värden i vektorn vid signifikansnivån Ð då man gör mätningar på Ò ytor i ett rum. Skriv ut funktionen (ØÝÔ Ö ÓÒÔÓÛ Ö) och kontrollera att den gör vad du kommit fram till i förberedelserna! Beräkna styrkefunktionen för testsituationen ovan med 10 mätytor, för -värden mellan 100 och 300 Bq/m 3 och rita upp den: ½¼¼ ¼¼ Ö ÓÒÔÓÛ Ö ½¼ ¼º¼ µ Ö ÔÐÓØ µ Hur stor är sannolikheten att vi förkastar H 0 : = 200 om verkligen är 200 Bq/m 3? Hur stor är den då är 180 Bq/m 3? Hur ändrar sig styrkan om vi halverar respektive fördubblar antalet mätytor? Om vi ändrar signifikansnivån? Rita gärna flera funktioner i samma diagram med ÓÐ. Hur ser den absolut ideala (men ouppnåeliga) styrkefunktionen ut? Hur skall vi göra för att komma nära denna?

4 Datorlaboration 3, FMS012, MAS233, HT -06 4 Bootstrap Vi återvänder till ett annat problem från laboration 2, nämligen att avgöra om mottagarkänsligheten i ett antal mobiltelefoner är lägre i ett frekvensband än i ett annat. Ladda återigen in datamaterialet och bilda parvisa skillnader (modellen är alltså stickprov i par): ÐÓ Ò Ø Ú ØÝ Ð Ò Ø Ú ØÝ ½µ Ñ Ò Ø Ú ØÝ ¾µ Þ Ñ¹ Ð Vårt intresse är nu att bestämma om fördelningen från vilken stickprovet z är taget har ett väntevärde, Ñ säg, som är mindre än noll. Denna fråga tacklade vi i laboration 2 genom att göra ett uppåt begränsat ensidigt konfidensintervall för Ñ. Konstruktionen av detta konfidensintervall baserades på en normalapproximation av fördelningen för Ñ = X, motiverad med centrala gränsvärdessatsen. Antag nu att vi inte vill göra en sådan normalapproximation, beroende t ex på att vi tycker att fördelningen för z är för skev och att vi inte tror att CGS är en bra approximation vid vår stickprovsstorlek (76), eller kanske helt enkelt på att vi inte kan CGS. Hur kan vi då komma åt fördelningen för Ñ, som ju är fundamentet för att göra ett konfidensintervall för Ñ? Ett simuleringsbaserat sätt att göra detta är s k bootstrap. Grundidén är följande: våra observationer är oberoende dragningar från en fördelning F, som är okänd för oss. Skattningen Ñ uppkommer genom att göra n oberoende dragningar från F, och sedan bilda medelvärdet. Det är fördelningen för Ñ som vi vill åt. Denna kan man i princip beräkna, eller simulera från, om F vore känd, men F är okänd. Dock har vi en skattning F av denna okända fördelning, nämligen den s k empiriska fördelningen som ges av stickprovet z. Detta är den diskreta fördelning som har sannolikheten 1/n i varje punkt z i i stickprovet. Sannolikhetsfunktionen är alltså p (x) = 1/n om x = z i för något i, annars noll. Att simulera från F är enkelt; vi drar bara ett värde z i från stickprovet på måfå (alla med lika sannolikhet 1/n alltså). Kom ihåg att vi vill veta fördelningen för en variabel Ñ som är ett medelvärde av n oberoende dragningar från den okända fördelningen F. En sådan variabel kan vi inte skapa, men det går fint om vi ersätter F med skattningen F. Vi drar då (med återläggning) n värden z 1,...,z n från stickprovet (det s k bootstrapstickprovet) och beräknar dess medelvärde Ñ. Detta kan vi göra om hur många gånger vi vill, med olika resultat, och vi kan göra t ex ett histogram för att uppskatta tätheten för Ñ. Idén är att denna täthet skall likna tätheten för Ñ. Beräkna 10 000 bootstrappade medelvärden med funktionen ÓÓØÑ Ò: ÑÙ Ø Ö Ø Ö ÓÓØÑ Ò Þ ½¼¼¼¼µ Använd dessa simulerade värden för att skatta täthetsfunktionen för Ñ : Ñ ¹¼º ¼º¼¼ ¹¼º Û Ø Ñ Ü Ñ µµ ÒÒÒ Ø ÑÙ Ø Ö Ø Ö Ñ µ Ö Ñ ÒÒÒ»½¼¼¼¼»Û Ø µ Denna skattning kan vi alltså använda som approximation av tätheten för Ñ. Tidigare har vi använt en normaltäthet som approximation av tätheten för Ñ. Vi ritar in denna täthet också: Ò Ð Ò Ø Þµ ÜÜ ¹¼º ¼º¼¼½ ¹¼º ÓÐ ÓÒ ÔÐÓØ ÜÜ ÒÓÖÑÔ ÜÜ Ñ Ò Þµ Ø Þµ» ÕÖØ Òµµ ³Ö³µ Rita gärna in en t-täthet med 76 1 frihetsgrader också! För att göra ett uppåt begränsat konfidensintervall med konfidensgrad 95% skall vi plocka 5%-kvantilen ur fördelningen för Ñ (en fördelning vi inte känner). Vi kan approximera denna kvantil med motsvarande kvantil i våra två approximationer till fördelningen i fråga, bootstrapfördelningen och normalfördelningen:

Datorlaboration 3, FMS012, MAS233, HT -06 5 Ñ Ò Þµ ÒÓÖÑ ÒÚ ¼º µ Ø Þµ» ÕÖØ Òµ ÔÖØ Ð ÑÙ Ø Ö Ø Ö µ Hur jämför sig resultaten? Kontrollera vad ÔÖØ Ð gör! Tänk nu noga efter: vilka är de stora skillnaderna mellan normalapproximationen och bootstrap? Vilka för- och nackdelar har de olika metoderna?