SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Relevanta dokument
SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

3 Maximum Likelihoodestimering

Laboration 4: Lineär regression

1 Förberedelseuppgifter

Föreläsning 12: Linjär regression

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 2: Styrkefunktion samt Regression

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Demonstration av laboration 2, SF1901

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Laboration 3: Parameterskattning och Fördelningsanpassning

Avd. Matematisk statistik

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematisk statistik, Föreläsning 5

SF1901 Sannolikhetsteori och statistik I

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Datorövning 1 Fördelningar

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Datorövning 1: Fördelningar

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TAMS65 DATORÖVNING 2

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Seminarium 4 Regressionsanalys

Matematisk statistik TMS064/TMS063 Tentamen

bli bekant med summor av stokastiska variabler.

MVE051/MSG Föreläsning 7

0 om x < 0, F X (x) = c x. 1 om x 2.

oberoende av varandra så observationerna är

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Tentamen MVE301 Sannolikhet, statistik och risk

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Statistiska metoder för säkerhetsanalys

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

MVE051/MSG Föreläsning 14

Laboration 1: Introduktion till R och Deskriptiv statistik

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

Avd. Matematisk statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

10.1 Enkel linjär regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Laboration 4: Hypotesprövning och styrkefunktion

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

LABORATION 3 - Regressionsanalys

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

SF1901: Medelfel, felfortplantning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Matematisk statistik för B, K, N, BME och Kemister

LABORATION 3 - Regressionsanalys

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

GMM och Estimationsfunktioner

Laboration 4 R-versionen

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Lufttorkat trä Ugnstorkat trä

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Tentamen MVE302 Sannolikhet och statistik

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 15, FMSF45 Multipel linjär regression

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Tentamen MVE301 Sannolikhet, statistik och risk

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

Laboration 5: Intervallskattning och hypotesprövning

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 9p av totalt 20p Hjälpmedel: MATLAB

Tentamen MVE301 Sannolikhet, statistik och risk

Transkript:

Matematisk Statistik SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2 1 Introduktion Detta är handledningen till Datorlaboration 1, ta med en utskriven kopia av den till redovisningstillfället. Läs handledningen två gånger. Försäkra dig om att du förstår hur de MATLAB-kommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet (och uppmuntras) med högst två personer per grupp. Godkänd laboration ger 4 poäng till ordinarie tentamenstillfälle. 2 Förberedelseuppgifter 1. Definiera likelihood och log-likelihood samt förklara sambandet mellan dessa begrepp. Beskriv idén bakom Minsta-kvadratmetoden (MK) respektive Maximum-likelihoodmetoden (ML). 2. En Rayleighfördelad stokastisk variabel X har täthetsfunktionen f X (x) = x x2 e 2b b2 2. Antag nu att du har n stycken Rayleighfördelade variabler. a) Bestäm ML-skattningen av b. b) Bestäm MK-skattningen av b. 3. Beskriv hur du kan ta fram ett approximativt konfidensintervall för parametern b. Motivera varför det är rimligt att göra den approximation som du har gjort. Ledning: Använd MK-skattningen.

4. Beskriv idén bakom linjär regression. Förklara vad polynomregression är. 5. Beskriv hur man i MATLAB mha kommandot regress kan skatta parametrarna i modellen w = log(y k ) = β 0 + β 1 x k + ε k (1) 6. Förklara idén bakom bootstrap. Läs sid. 272-273 om bootstrap i läroboken om nödvändigt. 3 Syfte och vidare introduktion Börja med att ladda ner följande filer från kurshemsidan. wave_data.mat resistorer.mat moore.mat poly.mat birth.dat birth.txt - beskrivning av datat birth.dat Se till att filerna ligger i den mapp du kommer att arbeta i. För att kontrollera att du har lagt filerna rätt, skriv ls *.*at och se om filerna ovan listas. Du kan skriva dina kommandon direkt i MATLAB-prompten men det är absolut att föredra att arbeta i editorn. Om den inte är öppen så kan du öppna den och skapa ett nytt dokument genom att skriva edit lab1.m. Koden som ges nedan är skriven i celler. En ny cell påbörjas genom att skriva två procenttecken. Ctrl+Enter exkeverar innehållet i en cell. Sida 2 av 8

4 Laborationsuppgifter Problem 1 - Maximum likelihood/minsta kvadrat Scriptet nedan generar en samling Rayleigh-fördelade stokastiska variabler och plottar sedan skattningen my_est. Använd dina två skattningar från förberdelseuppgift 2. %% Problem 1 : Maximum l i k e l i h o o d / Minsta kvadrat M = 1 e4 ; b = 4 ; x = r a y l r n d (b, M, 1 ) ; h i s t _ d e n s i t y ( x, 40) hold on my_est_ml = % Skriv in din ML s k a t t n i n g har % my_est_mk = p l o t ( my_est, 0, r ) p l o t (b, 0, ro ) Ser din skattning bra ut? Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning: %% Problem 1 : Maximum l i k e l i h o o d / Minsta kvadrat ( f o r t s. ) p l o t ( 0 : 0. 1 : 6, r a y l p d f ( 0 : 0. 1 : 6, my_est ), r ) Problem 2 - Konfidensintervall I detta avsnitt kommer en Rayleigh-fördelad signal att undersökas; parameter och konfidensintervall för denna skall skattas. Ladda in data genom att skriva load wave_data.mat. Filen innehåller en signal som du kan plotta genom att skriva följande %% Problem 2 : K o n f i d e n s i n t e r v a l l load wave_data. mat subplot ( 2 1 1 ), p l o t ( y ( 1 : 1 0 0 ) ) subplot ( 2 1 2 ), h i s t _ d e n s i t y ( y ) Om du ändrar y(1:100) till y(1:end) så kan du se hela signalen. Skatta parametern på datat på samma sätt som i föregånde uppgift. Spara din skattning som my_est. Ta fram ett konfidensintervall för skattningen och spara övre respektive undre värdet som upper_bound respektive lower_bound. Sida 3 av 8

Skriv ner dina resulat:............ Plotta nu intervallet för din skattning av parametern %% Problem 2 : K o n f i d e n s i n t e r v a l l ( f o r t s. ) hold on % Gor sa a t t ploten h a l l s kvar p l o t ( lower_bound, 0, g ) p l o t ( upper_bound, 0, g ) Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning på samma vis som i föregånde avsnitt: %% Problem 2 : K o n f i d e n s i n t e r v a l l ( f o r t s. ) p l o t ( 0 : 0. 1 : 6, r a y l p d f ( 0 : 0. 1 : 6, my_est ), r ) Ser fördelningen ut att passa bra? Rayleighfördelningen kan t ex användas för att beskriva hur en radiosignal avtar. Experimentella mätningar på Manhattan har visat att Rayleighfördelningen beskriver radiosignalers fädning (engeleska: fading) på ett bra sätt i den sortens stadsmiljö [1]. Problem 3 - Passning av fördelning Ladda in resistorer.mat och studera datat (som beskriver en uppmätt egenskap hos ett antal resistorer) med hjälp av ett histogram. Undersök också hur det ser ut med kommandot normplot. Vilken fördelning tror du att resistorernas motstånd har? Är det någon fördelning du kan utesluta? Varför kan man vara intresserad av fördelningen för någon specifik egenskap hos resistorer?...... Problem 4 - Linjär regression Vi kommer att titta på fenomenet som kallas Moores lag. Ladda in datat moore.mat på samma sätt som tidigare. I datat så är y antal transistorer/yta medan x representerar årtal. Det betyder att om vi plottar dem mot varandra Sida 4 av 8

så ser vi en plot av utvecklingen över tid av antalet transistorer per yta. Inför modellen w i = log(y i ) = β 0 + β 1 x i + ε i. (2) Skatta β 0 och β 1 med hjälp av MATLABs funktion regress. Om du skattar parametrar mha data från 1971 till 2011, vad är då din prediktion för antalet transistorer år 2020? Problem 5 - Polynomregression Börja med att ladda filen poly.mat. Plotta y1, y2, y3, var för sig mot x1, x2, respektive x3. Ser de ut att kunna beskrivas av polynom? Inför modellen y k = β 0 + β 1 x + β 2 x 2 + + β n x n. (3) Bilda nu, för var och en av de tre datamängderna, en X-matris på ett lämpligt vis. Alltså, studera plottarna och designa sedan ett X sådant att det kan representera ett polynom av den grad du tror passar. I fallet för modellen (3) ovan så ser X ut så här: 1 x x 2... x n 1 x x 2... x n X =..... (4) 1 x x 2... x n Ta sedan fram din skattning av ˆβ med hjälp av regress och plotta din skattade modell I fallet y1, får vi: %% Problem 4 : Regression y_hat = X beta_hat ; p l o t ( y1,. ) hold on p l o t ( y_hat, r. ) Plotta residualerna ŷ = X ˆβ, (5) Sida 5 av 8

%% Problem 4 : Regression ( f o r t s. ) r e s = y_hat y1 ; subplot ( 2 1 1 ), normplot ( r e s ) subplot ( 2 1 2 ), h i s t ( r e s ) Vilken fördelning ser de ut att komma från? Vad kan du dra för slutsatser om modellen? Linjär regression utvecklades under sent 1700-tal av en ung Gauss. Metoden fick ett genomslag när den förutspådde banan för den genom tiderna först upptäckta asteroiden, Ceres. Linjär regression används än flitigare idag med tillämpningar inom i stort sett all vetenskap som behandlar data. Fördjupning i ämnet ges i kursen Regressionsanalys. Problem 6 - Deskriptiv statistik Vi skall nu studera skillnaden mellan väntevärden i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). I filen birth.txt ser man att kolonn 20 i birth.txt innehåller rökvanor och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x = birth(birth(:, 20) < 3, 3); >> y = birth(birth(:, 20) == 3, 3); Vad som händer här är att birth(:, 20) < 3 returnerar en vektor av sant och falskt och att bara de rader av kolonn 3 (födelsevikterna) i birth för vilka jämförelsen är sann, väljs ut. Använd funktionen length eller kommandot whos för att se storleken på vektorerna x och y. Använd koden nedan för att visuellt inspektera datat. %% Problem 5 : D e s k r i p t i v s t a t i s t i k load lab2data / b i r t h. dat x = b i r t h ( b i r t h ( :, 20) < 3, 3 ) ; y = b i r t h ( b i r t h ( :, 20) == 3, 3 ) ; subplot ( 2, 2, 1 ) boxplot ( x ) a x i s ( [ 0 2 500 5 0 0 0 ] ) Sida 6 av 8

subplot ( 2, 2, 2 ) boxplot ( y ) a x i s ( [ 0 2 500 5 0 0 0 ] ) subplot ( 2, 2, 3 : 4 ) k s d e n s i t y ( x ) hold on [ fy, ty ] = k s d e n s i t y ( y ) ; p l o t ( ty, fy, r ) Vad betyder plotarna? Vilka slutsatser kan ni dra?...... Problem 7 - Bootstrap av skattning av skillnad mellan väntevärden för födelsevikter Namnet bootstrap syftar till metaforen att dra sig upp ur ett knivig situation genom att ta tag i sina stövelskaft. Ett klassiskt exempel är historien om Baron von Münchausen i vilken han ska ha räddat sig och sin häst ur ett träsk genom att dra ur de båda genom att lyfta sig själv i håret. Detta förfarande beskriver idén bakom den statistiska varianten av metoden mycket väl: Man har observerat en begränsad mängd data och man vill bilda sig en uppfattning om vad som hade hänt om man hade haft fler observationer. I vårt fall ska vi studera skillnaden mellan väntevärden i två populationer, i detta fall skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten (se föregående problem). För att skatta skillnaden mellan populationernas väntevärden, använder vi som vanligt skillnaden mellan stickprovsmedelvärdena, mean(x) - mean(y). För att undersöka osäkerheten i denna skattningen ska vi använda bootstrap och simulera M stycken bootstrapreplikat enligt >> thetaboot = bootstrp(m, @mean, x) - bootstrp(m, @mean, y); Ser bootstrapreplikaten ut att komma från en normalfördelning? Använd >> quantile(thetaboot, [0.025, 0.975]) Sida 7 av 8

för att bestämma ett konfidensintervall för skillnaden θ mellan väntevärdena? Vad får du med hjälp av metoden i boken, dvs konfidensintervall för skillnad mellan väntevärden? Referenser [1] Dmitry Chizhik, Jonathan Ling, Peter W. Wolniansky, Reinaldo A. Valenzuela, Nelson Costa, and Kris Huber (2003). Multiple-input-multipleoutput measurements and modeling in Manhattan IEEE Journal on Selected Areas in Communications, Vol 21, p. 321-331. Sida 8 av 8