Datorövning 1: Fördelningar

Relevanta dokument
Datorövning 1 Fördelningar

Datorövning 1: Fördelningar

Datorövning 1 Introduktion till Matlab Fördelningar

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Demonstration av laboration 2, SF1901

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 7. Statistikens grunder.

Laboration 3: Parameterskattning och Fördelningsanpassning

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

SF1901 Sannolikhetsteori och statistik I

Föreläsning 3, Matematisk statistik Π + E

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 3 Bootstrap och Bayesiansk analys

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Datorövning 3 Bootstrap och Bayesiansk analys

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Laboration 2: Sannolikhetsteori och simulering

Lektionsanteckningar 11-12: Normalfördelningen

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

FÖRELÄSNING 7:

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Laboration med Minitab

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Föreläsning G60 Statistiska metoder

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 8: Konfidensintervall

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Matematisk statistik för B, K, N, BME och Kemister

Laboration 1: Beskrivande statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Matematisk statistik 9 hp Föreläsning 3: Transformation och simulering

F9 Konfidensintervall

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Projekt 1: Om fördelningar och risker

Föreläsning 7: Punktskattningar

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

SF1901: Sannolikhetslära och statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

DATORÖVNING 2: STATISTISK INFERENS.

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Thomas Önskog 28/

TMS136. Föreläsning 10

Föreläsning 7: Punktskattningar

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Datorövning 2 Fördelningar inom säkerhetsanalys

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Monte Carlo-metoder. Bild från Monte Carlo

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

FÖRELÄSNING 8:

TAIU07 Matematiska beräkningar med Matlab

Laboration 1: Mer om Matlab samt Deskriptiv statistik

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 4, Matematisk statistik för M

Föreläsningsanteckningar till kapitel 8, del 2

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

LKT325/LMA521: Faktorförsök

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

DATORÖVNING 2: SIMULERING

Datorövning 6 Extremvärden och Peak over Threshold

Beskrivande statistik

SF1901 Sannolikhetsteori och statistik I

Datorövning 5 Tillförlitlighet hos system

Föreläsning 7: Punktskattningar

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

3 Jämförelse mellan Polyas urna och en vanlig urna

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

PROGRAMFÖRKLARING III

Transkript:

Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS012/MASB03: MATEMATISK STATISTIK, 9 HP, VT-17 Datorövning 1: Fördelningar I denna datorövning ska du utforska begreppen sannolikhet och fördelningar genom numeriska exempel i Matlab. Du behöver en Matlab-installation som inkluderar Statistics Toolbox. De extra filer du behöver finns att ladda ner från kursens hemsida http://www.maths.lth.se/matstat/kurser/ fms012/f 1 Förberedelseuppgifter 1. Läs igenom denna handledning. 2. Förvissa dig om att du förstår vad täthetsfunktion och fördelningsfunktion är och hur de förhåller sig till varandra. 3. Redovisas vid laborationens start! Skriv upp täthetsfunktionen för X N (μ, σ)-fördelad s.v. och skissa upp den. Ange väntevärde och standardavvikelse för X. 4. Redovisas vid laborationens start! Om X har en standardnormalfördelning, vad är då μ och σ? 2 Relativa frekvenser och fördelningar I denna del ska vi använda numeriska exempel i Matlab för att studera koncepten sannolikhet och fördelning. Målet är att du ska få en intuitiv känsla för sannolikhetsresonemang, snarare än att konfronteras med teori. Data-undersökning För att illustrera syftet använder vi artificiella data som är simulerade från en statistisk fördelning. Detta i motsats till verkliga data där det inte finns några etiketter som säger vilken fördelning det är. Trots att vi vet hur data genererades är det ändå användbart och man använder ofta simulerade data i skattningar och test i mer komplicerade situationer. För att skaffa dig ett slumpmässigt dataset med 50 värden, skriv >> data=randn(1,50) Uppgift: Vilken fördelning kommer ditt slumpmässiga stickprov från (använd help randn)? Vilka värden har parametrarna i den? Skriv ner täthetsfunktionen.

2 DATORÖVNING 1, FMS012/MASB03 VT-17 En god regel, när man står inför ett nytt datamaterial, är att rita upp det på några olika sätt. Vi börjar med att göra ett histogram: >> hist(data) Uppgift: Ser det ut som du väntade dig? Jämför med täthetsfunktionen. Använd nu kommandot >> figure(2) % Ritar i ett nytt fönster >> plot(data,'.') och relatera det till histogrammet. Uppgift: Jämför histogrammet med ploten. Hur syns egenskaperna hos data i histogrammet, och tvärtom? Ett annat sätt är att rita de sorterade data, med ordningsnumret på y-axeln: >> figure(3) >> plot(sort(data),1:length(data),'.') Uppgift: Jämför denna plot med figure(1) och figure(2). Hur hänger de ihop med varandra? Uppgift: Välj ut några datapunkter i figure(2) och försök hitta dem i de andra två figurerna. I figure(3) kan vi t.ex. avläsa hur många av observationerna som är mindre än eller lika med ett visst tal. Uppgift: Välj x = 1.1 och försök avgöra i figuren (det går att zooma) hur många av värdena som är mindre än eller lika med 1.1. När antalet observationer i stickprovet ökar kan vi tolka kvoten som sannolikheten att få ett värde mindre än eller lika med x. Kvoten kan beräknas så här: >> ratio = sum(data<=1.1) / length(data) Uppgift: Stämmer det med din uppskattning från figuren?

DATORÖVNING 1, FMS012/MASB03 VT-17 3 För att förstå hur data<=1.1 fungerar så jämför vi det med ursprungsdata: >> data >> data<=1.1 Vad är det som händer? Uppgift: Pröva med några andra värden på x. Hur borde andelen ändra sig när x ökar respektive minskar? Jämför med figuren. Den omvända proceduren, hitta det värde x som motsvarar en given sannolikhet, dvs en given kvantil, är ofta viktigare. Vi återkommer till det lite senare. Vi kan naturligtvis låta datorn välja ett stort antal värden att undersöka och sedan försöka få en överblick. Eftersom vi har ett ändligt antal observationer så blir antalet, eller andelen, observationer som än mindre än eller lika med ett visst x-värde en stegfunktion som vi kan rita upp: >> figure(4) >> stairs(sort(data),(1:length(data))/length(data),'-') >> grid on Figuren bör likna Figur 1 i handledningen och din egen figure(3), bortsett från y-skalan. Den visar hur värdena är fördelade och denna typ av figur kallas empirisk fördelningsfunktion (empirical distribution function 1. För ett värde på x-axeln, t.ex. 1.1, hittar vi, på y-axeln, andelen värden som är mindre än eller lika värdet på x-axeln. Uppgift: Kolla att andelen värden som är mindre än eller lika med 1.1 stämmer med det du fick fram tidigare. Större stickprov. Fördelningsfunktionen för en slumpvariabel Låt oss nu studera ett större datamaterial, t.ex. 2000 observationer från samma fördelning som tidigare. Vi simulerar data och ritar dem i en ny figur: >> data=randn(1,2000); >> figure(5) >> hist(data) >> figure(6) >> stairs(sort(data),(1:length(data))/length(data),'.-') >> grid on Uppgift: Jämför histogrammet med det i figure(1). Hur förändrades det när du fick fler observationer? 1 Fördelningsfunktioner kallas ofta cumulative distribution functions.

4 DATORÖVNING 1, FMS012/MASB03 VT-17 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 3 2 1 0 1 2 3 Figur 1: Empirisk fördelningsfunktion, ett exempel Uppgift: Jämför den empiriska fördelningsfunktionen med den i figure(4). Hur förändrades den? Uppgift: Vad blir nu andelen värden som är mindre än eller lika med 1.1? Med många observationer närmar sig resultatet fördelningsfunktionen, dvs, för en slumpvariabel X, funktionen F X (x) = P(X x). I vårt fall valdes X från en normalfördelning; vi hade X N(0, 1). Vi ritar in den teoretiska fördelningsfunktionen, normcdf, i samma figur som de två empiriska: >> x=linspace(-4,4,500); % 500 värden jämnt fördelade mellan -4 och 4 >> figure(4) >> hold on % Fortsätt rita fler saker i samma figur. >> plot(x,normcdf(x),'r') >> hold off % Sluta rita i samma figur. >> figure(6) >> hold on % Fortsätt rita fler saker i samma figur. >> plot(x,normcdf(x),'r') >> hold off % Sluta rita i samma figur. För alla fördelningsfunktioner F X, har vi att F X (x) 1 när x och att F X (x) 0 när x. Uppgift: Tolka figuren. Vad är det på x- och y-axlarna?

DATORÖVNING 1, FMS012/MASB03 VT-17 5 Uppgift: Jämför hur bra de empiriska fördelningsfunktionerna följer den teoretiska i de två figurerna. Vad hände när antalet observationer ökade? Uppgift: Läs av P(X 1.1) ur den teoretiska fördelningsfunktionen i figuren och jämför med dina tidigare skattningar. Jämför också med det exakta värdet som kan fås med normcdf(1.1). Kvantiler Begreppet kvantil är viktigt. Kvantilen kan definieras på olika sätt men vi (och många andra) använder följande definition: kvantilen är det tal x α som uppfyller P(X x α ) = 1 α (1) där α är ett tal mellan 0 och 1 (vanliga val är: 0.05, 0.01, 0.001). Uppgift: Läs av kvantilen x 0.05 där α = 0.05 ur dina figurer, med hjälp av definitionen (1). Både som skattningar i de två empiriska fördelningsfunktionerna och exakt i den teoretiska. Jämför med det exakta värdet, som kan fås med norminv(1-0.05). Uppgift: Experimentera med att ändra antalet observationer. Simulera nya slumptal, rita nya histogram och empiriska fördelningsfunktioner, samt skatta P(X 1.1) och x 0.05. Uppgift: Använd ett mycket litet dataset, t.ex. 5 observationer och gör om simuleringarna och skattningarna några gånger. Verkar de tillförlitliga? Uppgift: Använd ett större dataset, t.ex. 100 observationer och gör om simuleringarna och skattningarna några gånger. Verkar de mer tillförlitliga nu? Hur datasetets storlek påverkar osäkerheten i uppskattningarna kommer vi tillbaka till under hela resten av kursen. Andra fördelningar Vi ska nu rita upp några normalfördelningar, N (μ, σ), och se hur de ändrar sig när vi ändrar på parametrarna μ och σ.

6 DATORÖVNING 1, FMS012/MASB03 VT-17 >> close all % stäng alla gamla figurer >> x = linspace(0,10,1000); % Genererar 1000 tal jämnt utspridda % mellan 0 och 10. >> figure(1) >> plot(x,normpdf(x,2,0.5)) % N(2, 0.5) >> hold on % Lås plotten, övriga ritas i samma bild. >> plot(x,normpdf(x,7,0.5),'r') % N(7, 0.5) i rött >> plot(x,normpdf(x,5,2),'g') % N(5, 2) i grönt >> plot(x,normpdf(x,5,0.2),'y') % N(5, 0.2) i gult >> hold off % Lås upp plotten >> xlabel('x') >> title('täthetsfunktioner, f(x)') >> figure(2) >> plot(x,normcdf(x,2,0.5)) >> hold on >> plot(x,normcdf(x,7,0.5),'r') >> plot(x,normcdf(x,5,2),'g') >> plot(x,normcdf(x,5,0.2),'y') >> hold off >> xlabel('x') >> title('fördelningsfunktioner, F(x)') Uppgift: Vad händer med fördelningen när μ ändras? Vad representerar μ i fördelningen? Uppgift: Vad händer med fördelningen när σ ändras? Vad respresenterar σ i fördelningen? Uppgift: Fördelningsfunktionen är ju integralen av täthetsfunktionen. Relatera dem till varandra i figuren. Hur ändrar sig, t.ex. fördelningsfunktionen när x ligger nära μ jämfört med när x ligger långt från μ? Hur ser täthetsfuktionen ut då (stor eller liten?) Uppgift: Experimentera med andra värden på μ och σ och se vad som händer. Du kan behöva ändra x för att för att få plats i figuren (tips: det allra mesta av en normalfördelning ryms inom μ ± 4σ). Jfr. Uppgift 6.7: Elförbrukningen (kwh) vid en kemisk tillverkningsprocess varierar från dag till dag som en s.v. X N (180, 5). Uppgift: Rita upp fördelningsfunktionen för X och avläs sannolikheten att elförbrukningen en viss dag är minst 170 kwh. Jämför med det exakta värdet 1-normcdf(170,180,5).

DATORÖVNING 1, FMS012/MASB03 VT-17 7 Uppgift: Utnyttja figuren för att bestämma P(170 X 195). Jämför med exakta värdet normcdf(195,180,5)-normcdf(170,180,5). Uppgift: Läs av 1 %-kvantilen för elförbrukningen i figuren. Jämför med det exakta värdet norminv(1-0.01,180,5).