SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

Relevanta dokument
SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

SF1910 Tillämpad statistik, HT 2018 Laboration 2 för CSAMH

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Demonstration av laboration 2, SF1901

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 12: Linjär regression

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

F13 Regression och problemlösning

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Datorövning 1: Fördelningar

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

1 Förberedelseuppgifter

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Laboration 4: Lineär regression

bli bekant med summor av stokastiska variabler.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Datorövning 1 Fördelningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematisk statistik för D, I, Π och Fysiker

SF1901 Sannolikhetsteori och statistik I

Laboration 2: Styrkefunktion samt Regression

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Thomas Önskog 28/

Matematisk statistik för B, K, N, BME och Kemister

Laboration 4 R-versionen

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

MVE051/MSG Föreläsning 14

Laboration 3: Parameterskattning och Fördelningsanpassning

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

3 Maximum Likelihoodestimering

Matematisk statistik, Föreläsning 5

Tentamen MVE301 Sannolikhet, statistik och risk

SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Obligatorisk uppgift, del 1

Matematisk statistik TMS064/TMS063 Tentamen

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 11: Mer om jämförelser och inferens

SF1901: Medelfel, felfortplantning

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

MVE051/MSG Föreläsning 7

Tentamen MVE301 Sannolikhet, statistik och risk

Datorövning 1: Fördelningar

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

F9 Konfidensintervall

Grundläggande matematisk statistik

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 12: Regression

Avd. Matematisk statistik

Enkel och multipel linjär regression

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TMS136. Föreläsning 10

oberoende av varandra så observationerna är

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 7: Punktskattningar

Laboration 4 Regressionsanalys

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 12, FMSF45 Hypotesprövning

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 7: Punktskattningar

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Avd. Matematisk statistik

Bayesiansk statistik, 732g43, 7.5 hp

Transkript:

Matematisk Statistik Introduktion SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI Detta är handledningen till Laboration 2, ta med en utskriven kopia av den till laborationen. Läs handledningen två gånger. Försäkra dig om att du förstår hur de MATLAB-kommandon som finns i den bifogade koden fungerar. Laborationen bedöms som godkänd eller ej godkänd. För att få deltaga i laborationen skall svar på förberedelseuppgifter kunna redovisas individuellt. Arbete i grupp är tillåtet (och uppmuntras) med högst två personer per grupp. Godkänd laboration ger 3 poäng till ordinarie tentamenstillfälle. 1 Förberedelseuppgifter 1. Rita täthetsfunktionerna för följande fördelningar (a) N(0,1),N( 1,10),N(100,0.01). (b) Exp(1), Exp(2), Exp(10). (c) Γ(1,2),Γ(5,1). 2. Reflektera över vad som är karakteristiskt för normalfördelade data. 3. Specificera ett 1 α konfidensintervall för µ om data består av n oberoende N(µ,σ)-fördelade stokastiska variabler där σ är känd/okänd? 4. Definiera likelihood och log-likelihood samt förklara sambandet mellan dessa begrepp. Beskriv idén bakom Minsta-kvadrat (MK) respektive Maximum-likelihood (ML) metoden.

5. När X har täthetsfunktionen f X (x) = x x2 2b b2e 2 så säger vi att den är Rayleighfördelad. Antag nu att du har n stycken Rayleighfördelade variabler. Bestäm ML-skattningen av b. Svar:...... Bestäm MK-skattningen av b. Svar:...... 6. Beskriv hur du kan ta fram ett approximativt konfidensintervall för parametern b. Motivera varför det är rimligt att göra den approximation som du har gjort. Ledning: Använd MK-skattningen. 7. Beskriv idén bakom linjär regression. Förklara vad polynom-regression är. 8. Beskriv hur man i MATLAB mha kommandot regress kan skatta parametrarna i modellen w = log(y k ) = β 0 +β 1 x k +ε k (1) 9. Förklara idén bakom bootstrap. Läs sid. 272-273 om bootstrap i läroboken om nödvändigt. Sida 2 av 9

Vidare introduktion Börja laborationen med att ladda ner följande filer frå n kurshemsidan. wave_data.mat resistorer.mat moore.mat poly.mat birth.dat birth.txt - beskrivning av datat birth.dat Se till att de ligger i den mapp du kommer att arbeta i. För att kontrollera att du har lagt filerna rätt, skriv ls *.*at och se om filerna ovan listas. Du kan skriva dina kommandon direkt i MATLAB-prompten men det är absolut att föredra att arbeta i editorn. Om den inte är öppen så kan du öppna den och skapa ett nytt dokument genom att skriva edit lab2.m. Koden som ges nedan är skriven i celler. En ny cell påbörjas genom att skriva två procenttecken. Ctrl+Enter exkeverar innehållet i en cell. Problem 1 - Maximum likelihood/minsta kvadrat Scriptet nedan generar en samling Rayleigh-fördelade stokastiska variabler och plottar sedan skattningen my_est Använd dina två skattningar från förberdelseuppgift 5. 1 %% Problem 1: Maximum likelihood/minsta kvadrat 2 M = 1e4; 3 b = 4; 4 x = raylrnd(b, M, 1); 5 hist_density(x, 40) 6 hold on 7 my_est_ml = % Skriv in din ML-skattning har 8 % my_est_mk = 9 plot(my_est, 0, 'r*') 10 plot(b, 0, 'ro') 11 hold off Ser din skattning bra ut?...... Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning: Sida 3 av 9

1 %% Problem 1: Maximum likelihood/minsta kvadrat (forts.) 2 plot(0:0.1:6, raylpdf(0:0.1:6, my_est), 'r') 3 hold off Problem 2 - Konfidensintervall I detta avsnitt kommer en Rayleigh-fördelad signal att undersökas; parameter och konfidensintervall för denna skall skattas. Ladda in data genom att skriva load wave_data.mat. Filen innehåller en signal som du kan plotta genom att skriva följande 1 %% Problem 2: Konfidensintervall 2 load wave_data.mat 3 subplot(211), plot(y(1:100)) 4 subplot(212), hist_density(y) Om du ändrar y(1:100) till y(1:end) så kan du se hela signalen. Skatta parametern på datat på samma sätt som i föregånde uppgift. Spara din skattning som my_est. Ta fram ett konfidensintervall för skattningen och spara övre respektive undre värdet som upper_bound respektive lower_bound. Skriv ner dina resulat:...... Plota nu intervallet för din skattning av parametern 1 %% Problem 2: Konfidensintervall (forts.) 2 hold on % Gor sa att ploten halls kvar 3 plot(lower_bound, 0, 'g*') 4 plot(upper_bound, 0, 'g*') Kontrollera hur täthetsfunktionen ser ut genom att plotta den med din skattning på samma vis som i föregånde avsnitt: 1 %% Problem 2: Konfidensintervall (forts.) 2 plot(0:0.1:6, raylpdf(0:0.1:6, my_est), 'r') 3 hold off Ser fördelningen ut att passa bra? Rayleighfördelningen kan t ex användas för att beskriva hur en radiosignal Sida 4 av 9

avtar. Experimentella mätningar på Manhattan har visat att Rayleighfördelningen beskriver radiosignalers fädning (engeleska: fading) på ett bra sätt i den sortens stadsmiljö [1]. Problem 3 - Simulering av konfidensintervall Ett 1 α konfidensintervall för parametern µ täcker den sanna (okända) µ med sannolikhet 1 α. Syftet med uppgiften är att förstå innebörden av detta begrepp med hjälp av simuleringar. Följande kod använder n = 25 oberoende observationer från N(2, 1) fördelningen för att skatta ett 95% konfidensintervall för väntevärdet (vi glömmer bort att vi vet vad det sanna värdet är). Detta upprepas 100 gånger så vi har 100 konfidensintervall, hur många av dessa förväntar vi oss ska täcka den sanna parametern? 1 %% Problem 3: Simulering av konfidensintervall 2 % Parametrar: 3 n = 25; %Antal matningar 4 mu = 2; %Vantevardet 5 sigma = 1; %Standardavvikelsen 6 alpha = 0.05; 7 8 %Simulerar n * 100 observationer. (n observationer for... varje intervall och 100 intervall) 9 x = normrnd(mu, sigma,n,100); %n x 100 matris med varden 10 11 %Skattar mu med medelvardet 12 xbar = mean(x); %vektor med 100 medelvarden. 13 14 %Beraknar de undre och ovre granserna 15 undre = xbar - norminv(1-alpha/2)*sigma/sqrt(n); 16 ovre = xbar + norminv(1-alpha/2)*sigma/sqrt(n); 17 18 %Ritar upp alla intervall och markerar de som inte... tacker det sanna vardet roda 19 figure(1) 20 hold on 21 for k=1:100 22 if ovre(k) < mu 23 plot([undre(k) ovre(k)],[k k],'r') 24 elseif undre(k) > mu 25 plot([undre(k) ovre(k)],[k k],'r') 26 else 27 plot([undre(k) ovre(k)],[k k],'b') 28 end 29 end 30 %b1 och b2 ar bara till for att figuren ska se snygg ut. 31 b1 = min(xbar - norminv(1 - alpha/2)*sigma/sqrt(n)); 32 b2 = max(xbar + norminv(1 - alpha/2)*sigma/sqrt(n)); 33 axis([b1 b2 0 101]) %Minimerar mangden outnyttjat... utrymme i figuren Sida 5 av 9

34 %Ritar ut det sanna vardet 35 plot([mu mu],[0 101],'g') 36 hold off Vad visar de horisontella strecken och det vertikala strecket? Hur många intervall täcker det sanna värdet av µ? Stämmer resultatet med dina förväntningar? Kör simuleringarna flera gånger och tolka resultatet....... Ändra nu på µ, σ, n och α (en i taget) och se hur de olika parametrarna på verkar resultatet?...... Problem 4 - Passning av fördelning Ladda in resistorer.mat och studera datat (som beskriver en uppmätt egenskap hos ett antal resistorer) med hjälp av ett histogram. Undersök också hur det ser ut med kommandot normplot. Vilken fördelning tror du att resistorernas motstånd har? Är det någon fördelning du kan utesluta? Varför kan man vara intresserad av fördelningen för någon specifik egenskap hos resistorer?...... Problem 5a - Linjär regression Vi kommer att titta på fenomenet som kallas Moores lag. Ladda in datat moore.mat på samma sätt som tidigare. I datat så är y antal transistorer/yta medan x representerar årtal. Det betyder att om vi plottar dem mot varandra så ser vi en plot av utvecklingen över tid av antalet transistorer per yta. Inför modellen w i = log(y i ) = β 0 +β 1 x i +ε i. (2) Skatta β 0 och β 1 med hjälp av MATLABs funktion regress. Om du skattar parametrar mha data från 1971 till 2011, vad är då din prediktion för antalet transistorer år 2020? Sida 6 av 9

Problem 6b - Polynomregression Börja med att ladda filen poly.mat. Plotta y1, y2, y3, var för sig mot x1, x2, respektive x3. Ser de ut att kunna beskrivas av polynom?...... Inför modellen y k = β 0 +β 1 x+β 2 x 2 + +β n x n. (3) Bilda nu, för vart och ett av de tre data-mängderna, en X-matris på ett lämpligt vis. Alltså, studera plottarna och designa sedan ett X sådant att det kan representera ett polynom av den grad du tror passar. I fallet för modellen (3) ovan så ser X ut så här: 1 x x 2... x n 1 x x 2... x n X =..... (4) 1 x x 2... x n Alltså bilda din X-matris, ta fram din skattning av ˆβ med hjälp av regress och plotta sedan din skattade modell, I fallet y1, får vi: ŷ = Xˆβ, (5) 1 %% Problem 4: Regression 2 y_hat = X*beta_hat; 3 plot(y1, '.') 4 hold on 5 plot(y_hat, 'r.') 6 hold off Plotta residualerna 1 %% Problem 4: Regression (forts.) 2 res = y_hat - y1; 3 subplot(211), normplot(res) 4 subplot(212), hist(res) Vilken fördelning ser de ut att komma från? Sida 7 av 9

Vad kan du dra för slutsatser om modellen? Linjär regression utvecklades under sent 1700-tal av en ung Gauss. Metoden fick ett genomslag när den förutspådde banan för den genom tiderna först upptäckta asteroiden, Ceres. Linjär regression används än flitigare idag med tillämpningar inom i stort sett all vetenskap som behandlar data. Fördjupning i ämnet ges i kursen Regressionsanalys. Problem 7 - Bootstrap av skattning av skillnad mellan väntevärden för födelsevikter Vi skall nu gå vidare till att studera skillnaden mellan väntevärden i två populationer, t ex skillnaden i födelsevikt för barn vars mammor röker respektive inte röker under graviditeten. (Om ni vill kan ni ta två andra populationer, och/eller andra variabler att studera!). I filen birth.txt ser man att kolonn 20 i birth.txt innehåller rökvanor, och att värdena 1 och 2 betyder att mamman inte röker under graviditeten, medan värdet 3 betyder att hon gör det. Ni kan skapa två variabler x och y för födelsevikter hörande till icke-rökande respektive rökande mammor enligt >> x = birth(birth(:, 20) < 3, 3); >> y = birth(birth(:, 20) == 3, 3); Vad som händer här är att birth(:, 20) < 3 returnerar en vektor av sant och falskt, och att bara de rader av kolonn 3 (födelsevikterna ibirth för vilka jämförelsen är sann, väljs ut. Använd funktionen length eller kommandot whos för att se storleken på vektorerna x och y. För att skatta skillnaden mellan populationernas väntevärden, använder vi som vanligt skillnaden mellan stickprovsmedelvärdena, mean(x) - mean(y). För att undersöka osäkerheten i denna skattningen ska vi använda bootstrap och simulera M stycken bootstrapreplikat enligt >> thetaboot = bootstrp(m, @mean, x) - bootstrp(m, @mean, y); Ser bootstrapreplikaten ut att komma från en normalfördelning? Vad får du för konfidensintervall för skillnaden θ mellan väntevärdena? Använd >> quantile(thetaboot, [0.025, 0.975]) Vad får du med hjälp av metoden i boken, dvs konfidensintervall för skillnad mellan väntevärden? Sida 8 av 9

...... Referenser [1] Dmitry Chizhik, Jonathan Ling, Peter W. Wolniansky, Reinaldo A. Valenzuela, Nelson Costa, and Kris Huber (2003). Multiple-input-multipleoutput measurements and modeling in Manhattan IEEE Journal on Selected Areas in Communications, Vol 21, p. 321-331. Sida 9 av 9