SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Relevanta dokument
SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Demonstration av laboration 2, SF1901

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

F13 Regression och problemlösning

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Föreläsning 12: Linjär regression

Datorövning 1: Fördelningar

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 4: Lineär regression

SF1901 Sannolikhetsteori och statistik I

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för D, I, Π och Fysiker

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

bli bekant med summor av stokastiska variabler.

Thomas Önskog 28/

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Laboration 4 R-versionen

SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA

1 Förberedelseuppgifter

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

Datorövning 1 Fördelningar

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

MVE051/MSG Föreläsning 14

3 Maximum Likelihoodestimering

Matematisk statistik KTH. Formelsamling i matematisk statistik

Laboration 2: Styrkefunktion samt Regression

F9 Konfidensintervall

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Laboration 3: Parameterskattning och Fördelningsanpassning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

MVE051/MSG Föreläsning 7

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

Matematisk statistik TMS064/TMS063 Tentamen

oberoende av varandra så observationerna är

Föreläsning 12, FMSF45 Hypotesprövning

Avd. Matematisk statistik

Avd. Matematisk statistik

Enkel och multipel linjär regression

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 7. Statistikens grunder.

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Föreläsning 7: Punktskattningar

SF1901: Medelfel, felfortplantning

Laboration 4 Regressionsanalys

Grundläggande matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Avd. Matematisk statistik

Matematisk statistik, Föreläsning 5

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsning 7: Punktskattningar

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

TMS136. Föreläsning 10

Föreläsning 7: Punktskattningar

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamen i Matematisk statistik Kurskod S0001M

Tenta i Statistisk analys, 15 december 2004

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 1: Fördelningar

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

Transkript:

Matematisk Statistik SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE Introduktion Detta är handledningen till Laboration 2, ta med en utskriven kopia av den till laborationen. Försäkra dig om att du förstår hur de MATLABkommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet (och uppmuntras) om högst två personer per grupp. Godkänd laboration ger 3 poäng till ordinarie tentamenstillfälle. 1 Förberedelseuppgifter 1. Läs laborationshandledningen två gånger. 2. Rita täthetsfunktionerna för följande fördelningar (a) N(0, 1), N( 1, 10), N(100, 0.01). (b) exp(1), exp(2), exp(10). (c) Γ(1, 2), Γ(5, 1). 3. Reflektera över vad som är karakteristiskt för normalfördelade data. 4. Specificera ett 1 α konfidensintervall för µ om data består av n oberoende N(µ, σ)-fördelade stokastiskavariabler där σ är känd/okänd?

5. Definiera likelihood, log-likelihood, förklara sambandet mellan dessa. Beskriv idén bakom Minsta-kvadrat (MK) respektive Maximum-likelihood (ML) metoden. 6. När X har täthetsfunktionen f X (x) = x x2 e 2b b2 2 så säger vi att den är Rayleighfördelad. Antag nu att du har n stycken Rayleighfördelade variabler. Bestäm ML-skattningen av b. Svar:......................................................... Bestäm MK-skattningen av b. Svar:......................................................... 7. Beskriv hur du kan ta fram ett approximativt konfidensintervall för parametern b. Motivera varför det är rimligt att göra denna approximation. Ledning: Använd MK-skattningen. 8. Beskriv idén bakom linjär regression. Förklara vad polynom-regression är. 9. Beskriv hur man i MATLAB mha kommandot regress kan skatta parametrarna i modellen w = log(y k ) = β 0 + β 1 x k + ε k (1) 10. Förklara idén bakom bootstrap. Läs sid. 272-273 om bootstrap i läroboken om nödvändigt. Sida 2 av 9

Vidare introduktion Börja med att ladda ner filerna wave_data.mat resistorer.mat moore.mat poly.mat birth.dat birth.txt - beskrivning av datat birth.dat från kurshemsidan. Se till att de ligger i den mapp du kommer att arbeta i. För att kontrollera att du har lagt filerna rätt, skriv ls *.*at och försäkra dig om att filerna ovan listas. Du kan skriva dina kommandon direkt i MATLAB-prompten men det är absolut att föredra att arbeta i editorn. Om den inte är öppen så kan du öppna den och skapa ett nytt dokument genom att skriva edit lab2.m. Problem 1 - Maximum likelihood/minsta kvadrat Scriptet nedan generar en samling Rayleigh-fördelade stokastiska variabler och plottar sedan skattningen my_est Använd dina två skattningar från förberdelseuppgift 6. 1 %% Problem 1: Maximum likelihood/minsta kvadrat 2 M = 1e4; 3 b = 4; 4 x = raylrnd(b, M, 1); 5 hist_density(x, 40) 6 hold on 7 my_est_ml = % Skriv in din ML-skattning har 8 % my_est_mk = 9 plot(my_est, 0, 'r*') 10 plot(b, 0, 'ro') 11 hold off Ser din skattning bra ut?............ Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning: Sida 3 av 9

1 plot(0:0.1:6, raylpdf(0:0.1:6, my_est), 'r') 2 hold off Problem 2 - Konfidensintervall I detta avsnitt kommer en Rayleigh-fördelad signal att undersökas; parameter och konfidensintervall för denna skall skattas. Ladda in data genom att skriva load wave_data.mat. Filen innehåller en signal som du kan plotta genom att skriva följande 1 %% Problem 2: Konfidensintervall 2 load wave_data.mat 3 subplot(211), plot(y(1:100)) 4 subplot(212), hist_density(y) Om du ändrar y(1:100) till y(1:end) så kan du se hela signalen. Skatta parametern på datat på samma sätt som i föregånde uppgift. Spara din skattning som my_est. Ta fram ett konfidensintervall för skattningen och spara övre respektive undre värdet som upper_bound respektive lower_bound. Skriv ner dina resulat:............ Plota nu intervallet för din skattning av parametern 1 %... 2 hold on % Gor sa att ploten halls kvar 3 plot(lower_bound, 0, 'g*') 4 plot(upper_bound, 0, 'g*') Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning på samma vis som i föregånde avsnitt: 1 %... 2 plot(0:0.1:6, raylpdf(0:0.1:6, my_est), 'r') 3 hold off Ser fördelningen ut att passa bra? Rayleighfördelningen kan t ex användas för att beskriva hur en radiosignal Sida 4 av 9

avtar. Experimentella mätningar på Manhattan har visat att Rayleighfördelningen beskriver radiosignalers fädning (engeleska: fading) på ett bra sätt i den sortens stadsmiljö [1]. Problem 3 : Simulering av konfidensintervall Ett 1 α konfidensintervall för parametern µ täcker den sanna (okända) µ med sannolikhet 1 α. Syftet med uppgiften är att förstå innebörden av detta begrepp med hjälp av simuleringar. Följande kod använder n = 25 oberoende observationer från N(2, 1) fördelningen för att skatta ett 95% konfidensintervall för väntevärdet (vi glömmer bort att vi vet vad det sanna värdet är). Detta upprepas 100 gånger så vi har 100 konfidensintervall, hur många av dessa förväntar vi oss ska täcka den sanna parametern? 1 %% Simulering av konfidensintervall 2 % Parametrar: 3 n = 25; %Antal matningar 4 mu = 2; %Vantevardet 5 sigma = 1; %Standardavvikelsen 6 alpha = 0.05; 7 8 %Simulerar n * 100 observationer. (n observationer for... varje intervall och 100 intervall) 9 x = normrnd(mu, sigma,n,100); %n x 100 matris med varden 10 11 %Skattar mu med medelvardet 12 xbar = mean(x); %vektor med 100 medelvarden. 13 14 %Beraknar de undre och ovre granserna 15 undre = xbar - norminv(1-alpha/2)*sigma/sqrt(n); 16 ovre = xbar + norminv(1-alpha/2)*sigma/sqrt(n); 17 18 %Ritar upp alla intervall och markerar de som inte tacker... det sanna vardet roda 19 figure(1) 20 hold on 21 for k=1:100 22 if ovre(k) < mu 23 plot([undre(k) ovre(k)],[k k],'r') 24 elseif undre(k) > mu 25 plot([undre(k) ovre(k)],[k k],'r') 26 else 27 plot([undre(k) ovre(k)],[k k],'b') 28 end 29 end 30 %b1 och b2 ar bara till for att figuren ska se snygg ut. 31 b1 = min(xbar - norminv(1 - alpha/2)*sigma/sqrt(n)); 32 b2 = max(xbar + norminv(1 - alpha/2)*sigma/sqrt(n)); 33 axis([b1 b2 0 101]) %Minimerar mangden outnyttjat utrymme i... figuren Sida 5 av 9

34 35 %Ritar ut det sanna vardet 36 plot([mu mu],[0 101],'g') 37 hold off Vad visar de horisontella strecken och det vertikala strecket? Hur många intervall täcker det sanna värdet av µ? Stämmer resultatet med dina förväntningar? Kör simuleringarna flera gånger och tolka resultatet............. Ändra nu på µ, σ, n och α (en i taget) hur påverkar de olika parametrarna resultatet?............ Problem 4 : Passning av fördelning Ladda in resistorer.mat, studera datat (som beskriver en uppmätt egenskap hos ett antal resistorer) med hjälp av ett histogram. Undersök också hur det ser ut med kommandot normplot. Vilken fördelning tror du att resistorernas motstånd har? Är det någon fördelning du kan utesluta? Varför kan man vara intresserad av fördelningen för någon specifik egenskap hos resistorer?............ Problem 5a: Linjär regression Vi kommer att titta på fenomenet som kallas Moores lag. Ladda in datat moore.mat på samma sätt som tidigare. I datat så är y antal transistorer/yta medan x representerar årtal. Det betyder att om vi plottar dem mot varandra så ser vi en plot av utvecklingen över tid av antalet transistorer per yta. Inför följande modell w i = log(y i ) = β 0 + β 1 x i + ε i, (2) Skatta β 0 och β 1 med hjälp av MATLABs regress. Om du skattar parametrar mha data från 1971 till 2011, vad är då din prediktion för antalet transistorer år 2020? Sida 6 av 9

Problem 5b: Polynomregression Börja med att ladda filen poly.mat. Plotta y1, y2, y3, var för sig mot x1, x2, respektive x3. Ser de ut att kunna beskrivas av polynom?............ Inför modellen y k = β 0 + β 1 x + β 2 x 2 + + β n x n. (3) Bilda nu, för vart och ett av de tre data-mängderna, en X-matris på ett lämpligt vis. Alltså, studera plottarna och designa sedan ett X sådant att det kan representera ett polynom av den grad du tror passar. I fallet för modellen (3) ovan så ser X ut så här: 1 x x 2... x n 1 x x 2... x n X =..... (4) 1 x x 2... x n Alltså bilda din X-matris, ta fram din skattning av ˆβ med hjälp av regress och plotta sedan din skattade modell, i fallet y1, får vi: ŷ = X ˆβ, (5) 1 %% Problem 4: Regression 2 y_hat = X*beta_hat; 3 plot(y1, '.') 4 hold on 5 plot(y_hat, 'r.') 6 hold off Plotta residualerna 1 res = y_hat - y1; 2 subplot(211), normplot(res) 3 subplot(212), hist(res) Sida 7 av 9

Vilken fördelning ser de ut att komma från? Vad kan du dra för slutsatser om modellen? Linjär regression utvecklades under sent 1700-tal av en ung Gauss. Metoden fick ett genomslag när den förutspådde banan för den genom tiderna först upptäckta asteroiden, Ceres. Linjär regression används än flitigare idag med tillämpningar inom i stort sett all vetenskap som behandlar data. Fördjupning av ämnet ges i kursen Tillämpad Matematisk Statistik. Problem 6 - Bootstrap av skattning av skillnad mellan väntevärden för födelsevikter Vi skall nu gå vidare till att studera skillnaden mellan väntevärden i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). I filen birth.txt ser man att kolonn 20 i birth.txt innehåller rökvanor, och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x = birth(birth(:, 20) < 3, 3); >> y = birth(birth(:, 20) == 3, 3); Vad som händer här är att birth(:, 20) < 3 returnerar en vektor av sant och falskt, och att bara de rader av kolonn 3 (födelsevikterna i birth för vilka jämförelsen är sann, väljs ut. Använd funktionen length eller kommandot whos för att se storleken på vektorerna x och y. För att skatta skillnaden mellan populationernas väntevärden, använder vi som vanligt skillnaden mellan stickprovsmedelvärdena, mean(x) - mean(y). För att undersöka osäkerheten i denna skattningen ska vi använda bootstrap och simulera M stycken bootstrapreplikat enligt >> thetaboot = bootstrp(m, @mean, x) - bootstrp(m, @mean, y); Sida 8 av 9

Ser bootstrapreplikaten ut att komma från en normalfördelning? Vad får du för konfidensintervall för skillnaden θ mellan väntevärdena? Använd >> quantile(thetaboot, [0.025, 0.975]) Vad får du med den metod i boken, d v s konfidensintervall för skillnad mellan väntevärden, som du skulle använda?............ Referenser [1] Chizhik, Dmitry and Ling, Jonathan and Wolniansky, Peter W and Valenzuela, Reinaldo A and Costa, Nelson and Huber, Kris (2003). Multipleinput-multiple-output measurements and modeling in Manhattan Selected Areas in Communications, IEEE Journal on, Vol 21, p. 321-331. Sida 9 av 9