DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Relevanta dokument
bli bekant med summor av stokastiska variabler.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Datorövning 2 Diskret fördelning och betingning

Laboration 2: Sannolikhetsteori och simulering

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: Sannolikhetsteori och simulering

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 1: Fördelningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Datorövning 1 Fördelningar

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Lektionsanteckningar 11-12: Normalfördelningen

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Demonstration av laboration 2, SF1901

Jörgen Säve-Söderbergh

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Föreläsning 8, Matematisk statistik Π + E

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

SF1901: Sannolikhetslära och statistik. Mer om Approximationer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

TMS136. Föreläsning 4

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Introduktion till statistik för statsvetare

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Föreläsning 12: Regression

Datorövning 1: Fördelningar

Kap 2. Sannolikhetsteorins grunder

SF1901 Sannolikhetsteori och statistik I

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Laboration 3: Parameterskattning och Fördelningsanpassning

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Matematisk statistik för D, I, Π och Fysiker

(x) = F X. och kvantiler

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Projekt 1: Om fördelningar och risker

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

4 Diskret stokastisk variabel

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

SF1901: Sannolikhetslära och statistik

Föreläsning 5, FMSF45 Summor och väntevärden

SF1901 Sannolikhetsteori och statistik I

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

TMS136. Föreläsning 7

Laboration med Minitab

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Matematisk statistik 9 hp Föreläsning 4: Flerdim

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

TENTAMEN I STATISTIKENS GRUNDER 1

Introduktion och laboration : Minitab

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Föreläsning 5, Matematisk statistik Π + E

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

1.1 Diskret (Sannolikhets-)fördelning

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

Diskussionsproblem för Statistik för ingenjörer

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9 hp Föreläsning 8: Binomial- och Poissonfördelning, Poissonprocess

Kurssammanfattning MVE055

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Sannolikhet och statistik med Matlab. Måns Eriksson

4.1 Grundläggande sannolikhetslära

SF1901: Sannolikhetslära och statistik

Betingning och LOTS/LOTV

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

Föreläsning 4: Konfidensintervall (forts.)

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

FACIT: Tentamen L9MA30, LGMA30

Problemdel 1: Uppgift 1

Matematisk statistik för D, I, Π och Fysiker

Laboration 1: Beskrivande statistik

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03 Syfte: Syftet med dagens laborationen är att du skall: få förståelse för diskreta, bivariate och betingade fördelningar. bli bekant med summor av stokastiska variabler. få förståelse för hur och när centrala gränsvärdessatsen kan användas. Specialrutiner finns att hämta på kursens hemsida: www.maths.lu.se/kurshemsida/fmsf45masb03/ 1 Bakgrund Laborationen består av två delar. Först studerar vi hur en bivariat diskret fördelning kan konstrueras från enklare del komponenter och undersöker de resulterande marginal och betingade fördelningar. Därefter undersöker vi summor av stokastiska variabler och centrala gränsvärdessatsen. 1.1 En modell för skördeutfall I första delen av laborationen kommer vi att studera en enkel modell för skördeutfall. Frågan är hur stor skörd man kan förvänta sig om man planterar n st frö. För att modellera skördeutfallet kan vi dela upp problemet i två steg 1. Först konstruerar vi en modell för antalet av de planterade fröna som gror 2. Därefter funderar vi på hur stort skördeutfallet (antal nya frö) blir om precis k st frö gror. Den resulterande modellen består nu av en fördelning för antalet frö p X (k) och en betingad fördelning för skördeutfallet, p Y X =k (l k). Bayessats och satsen om total sannolikhet ger oss nu den gemensam fördelningen för antalet frö som gror och skördeutfallet samt marginal fördelningen för skördeutfallet. p X,Y (k, l) = p X (i) p Y X =k (l) och p Y (l) = k p X (i) p Y X =k (l) Utöver dessa fördelningar är även den betingade fördelningen för X givet Y intressant, p X Y =l (k l). Om vi enbart observerar den totala skörden y så kan denna fördelning användas för att säga något om hur många frö som faktiskt grott. 1.2 Förberedelseuppgifter 1. Förvissa dig om att du förstår vad en sannolikhetsfunktion är. 2. Mozquizto 1: Vi planterar 7 frö med grobarhet 75%. Ange fördelningen för antalet frön som kommer att gro (om de gror oberoende av varandra) samt fördelningens väntevärde och varians. 3. Mozquizto 2: Om X i Po ( μ i ) och oberoende vilken fördelning har då summan Y = n i=1 X i?

2 Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 4. Förvissa dig om att du förstår hur total sannolikhet fungerar för väntevärde, d.v.s. hur man kan beräkna E(Y ) = E(E(Y X )) 5. Mozquizto 3: Förvissa dig om att du förstår vad Centrala gränsvärdessatsen innebär och när den kan användas. 6. Vi beräknar medelvärdet X av de oberoende s.v. X i Po (3), i = 1,..., n (samma väntevärde för alla X i ). Ange väntevärde och varians för X. Vilken fördelning får X (approximativt) när n är stort? Ungefär hur stort måste n vara för att approximationen ska bli bra? 2 Modell för skördeutfall 2.1 Diskret variabel: Antal frö som gror Vi vill simulera antalet frön som kommer att gro bland de sju planterade fröna. Det kan vi göra på två sätt. Det mest rättframma är att simulera 7 frön och räkna antalet som gror. Funktionen rand(1,n) ger en radvektor med n rektangelfördelade slumptal, U, mellan 0 och 1. För att sannolikheten att ett frö kommer att gro skall bli p kan vi helt enkelt se efter om U p. I så fall kommer fröet att gro. Om U > p så kommer det inte att gro. För att få reda på antalet frön som kommer att gro bland de 7 summerar vi den resulterande 0/1-variabeln: n = 7; p = 0.75; U = rand(1,n) % 1 rad och n kolumner med observation från R(0,1) U<=p % 0 = gror inte, 1 = gror X = sum(u<=p) % antal frön som gror Uppgift: Jämför resultatet av U=rand(1,n) och U<=p och förvissa dig om att du förstår vad som hände. För att illustrera vad som händer så kan vi också plotta slumptalen och den sannolikhet som vi jämför med. figure(1) stem(u) % 7 st R(0,1) slumptal refline(0, p) % sannoliheten vi vill jmf U med. Mozquizto 4: Hur många frön grodde? Ett smidigare sätt är att utnyttja att vi vet att antalet frön som kommer att gro är Bin (7, 0.75)- fördelat. Då kan vi simulera X direkt med hjälp av MATLABs färdiga rutiner: help binornd X = binornd(n,p) Uppgift: Gör om simuleringen några gånger. Hur många frön brukar gro? Antalet frön som kommer att gro varierar uppenbarligen från gång till gång. För att se hur vanligt det är med olika antal frön som kommer att gro simulerar vi N = 100 planterings tillfällen och ritar ett stolpdiagram (vi har ju en diskret variabel).

Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 3 N = 100; % antal fröpåsar X = binornd(n,p,n,1) % X = antal groende frön i var och en av Nx1 påsar antal = hist(x,0:n) %använd hist för att räkna antalet gånger vi får 0,1,...,n antal(4) %antal X==3 (4:e siffra i vektorn 0,1,2,3,...) sum(x==3) %jfr med antalet X som är lika med 3 figure(2) bar(0:n,antal) % stolpdiagram xlabel( antal frön som gror ) ylabel( antal tillfällen ) Uppgift: Var det någon av planterings tillfällen som inte hade några groende frön alls? Uppgift: Hur många av planterings tillfällen gav 5 groende frön? Hur många gav högst 2 groende frön? Vi vill nu jämföra våra 100 påsar med den teoretiska sannolikhetsfunktionen. För att göra det måste vi skala om y-axeln till andelar bar(0:n,[antal/n; binopdf(0:n,n,p)] ) % rita två uppsättningar staplar xlabel( antal frön som gror ) ylabel( andel påsar ) För att hålla ordning på vilken färg som är vilken adderar vi också en legend med förklarande text legend( simulering, exakt, Location, NorthWest ) Mozquizto 5: Hur stämmer andelen av de simulerade planterings tillfällena som hade precis 5 groende frön eller högst 2 groende frön med motsvarande sannolikheter? (Jämför med resultatet från binopdf(5,n,p) och binocdf(2,n,p)) Mozquizto 6: Experimentera med att ändra grobarheten från p = 0.75 och antalet frön från n = 7. Hur ändrar sig fördelningen när n eller p minskar eller ökar? 2.2 Centrala gränsvärdessatsen för binomialfördelning Om np(1 p) > 10 kan binomialfördelningen approximeras med en normalfördelning. Vi kan jämföra fördelningsfunktionerna och se hur bra det blir: n = 7; p = 0.75; np = n*p % väntevärde npq = np*(1-p) % varians x = linspace(np-4*sqrt(npq),np+4*sqrt(npq)); % mu +/- 4 sigma figure(3) stairs(0:n,binocdf(0:n,n,p)) % Stegfunktion p.g.a diskret s.v. hold on plot(x,normcdf(x,np,sqrt(npq))) % men den här är kontinuerlig hold off

4 Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 Uppgift: Pröva med lite olika värden på n och p. Testa både när det går bra att normalapproximera och när det inte går. Mozquizto 7: Beräkna sannolikheten att högst 2 frön gror, både exakt och med normalapproximation. 2.3 Simulering med hjälp av betingad fördelning: Skördeutfall Vi tänker oss nu att varje frö som gror ger upphov till ett Poissonfördelat antal nya frön, i medeltal 10 frön per groende ursprungligt frö. Frön som inte gror ger naturligtvis inga nya frön. Vi är intresserade av fördelningen för det totala antalet nya frön som erhålls om vi planterar 7 frön med 75 % grobarhet. Sedan tidigare har vi att X = antal frön som gror Bin (7, 0.75). Om exakt X = k frön grodde blir Y = antal nya frön en summa över antalet frö från k st oberoende plantor. D.v.s. Summan av k stycken oberoende Po (10)-fördelade variabler, en för varje groende frö: Y = k Z i där Z i Po (10) i=1 Från förberedelseuppgifterna har vi då att fördelningen för Y X = k Po (10 k) där k = 0,..., 7. Fördelningen för Y ges då av (Satsen om Total Sannolikhet) p Y (l) = 7 p Y X =k (l) p X (k) = k=0 7 (10 k) l e 10 k l! k=0 ( ) 7 0.75 k 0.25 7 k k För att ta reda på hur denna fördelning ser ut studerar vi först det enklare fallet med enbart n = 2 planterade frön. Först illustrerar vi sannolikheten att 0, 1 eller 2 frö gror figure(4) subplot(211) bar(0:2, binopdf(0:2,2,.75)) title( Antal frö som gror ) ylabel( p(x) ) Därefter illustrerar vi de tre olika varianterna av betingade fördelningar: Po (0), Po (10), Po (20). mu = 10; x = 0:4*mu; figure(4) subplot(234) bar(x, poisspdf(x, 0*mu)) title( Skörd om 0 frö gror ) ylabel( p(y x=0) ) subplot(235) bar(x, poisspdf(x, 1*mu)) title( Skörd om 1 frö gror ) ylabel( p(y x=1) )

Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 5 subplot(236) bar(x, poisspdf(x, 2*mu)) title( Skörd om 2 frö gror ) ylabel( p(y x=2) ) Mozquizto 8: Hur ändrar sig den betingade fördelningen för Y givet X när antalet groende frön ändrar sig? Uppgift: Tänk efter hur fördelningen för Y borde se ut, när vi viktat ihop dessa 3 fördelningar med vikter enligt binomialfördelningen för antalet groende frön. Även om vi inte vill räkna ut sannolikhetsfunktionen för Y så är det ganska enkelt att låta Matlab göra det: py = poisspdf(x,0*mu)*binopdf(0,2,0.75); %fallet X=0 py = py + poisspdf(x,1*mu)*binopdf(1,2,0.75); %fallet X=1 py = py + poisspdf(x,2*mu)*binopdf(2,2,0.75); %fallet X=2 figure(5) bar(x,py) xlabel( antal nya frön ) Uppgift: Ser fördelningen ut som du hade väntat dig? För det allmänna fallet kan vi använda en for-sats för att beräkna summan över k: n=7; p=0.75; mu=10; y = 0:100; py = zeros(size(y)); % Fyll först p_y(y) med nollor. for k=0:n % Uppdatera p_y(y) för varje k py=py+poisspdf(y,mu*k)*binopdf(k,n,p); end figure(6) bar(y,py) xlabel( antal nya frön ) Funktionen harvest.m (som finns på kurshemsidan) ritar upp sannolikhetsfunktionen för Y där Y X = x Po ( μ x ) och X Bin ( n, p ) för valfria värden på n, p och μ. help harvest harvest(7, 0.75, 10) Mozquizto 9: Experimentera med olika värden på n, p och μ. Vad händer om antalet planterade frö, n, minskar eller ökar? Om grobarheten, p, minskar eller ökar? Om medelantalet nya frön per frö som gror, μ, minskar eller ökar? Uppgift: Vad händer om grobarheten är 100 %?

6 Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 Uppgift: Kan du få fördelningen att se normalfördelad ut? 2.4 Bivariat fördelning och betingad fördelning Funktionen harvest2d.m illustrerar den gemensamma fördelningen för antalet frön som gror, X, och antalet nya frö som skördas, Y. p X,Y (k, l) = p Y X =k (l) p X (k), k = 0, 1,..., n; l = 0, 1, 2, 3,... figure(1) harvest2d(7, 0.75, 10) figure(2) harvest(7, 0.75, 10) Mozquizto 10: Experimentera med olika värden på n, p och μ. Hur hänger den bivariata sannolikhetsfunktionen, p X,Y (k, l), ihop med marginal sannolikheten, p Y (l)? Givet den gemensamma sannolikhetsfunktionen kan vi också räkna ut den betingade fördelningen för hur många frön som grott givet att vi vet skördeutfallet p X Y =l (k) = p X,Y (k, l) p Y (l) = p Y X =k(l) p X (k), k = 0, 1,..., n p Y (l) Använd funktionen harvestcond.m för att illustrera den betingade sannolikhetsfunktionen om vi har skördat y = 25 frö figure(1) harvestcond(7, 0.75, 10, 25) figure(2) harvest2d(7, 0.75, 10) Mozquizto 11: Experimentera med olika värden på n, p, μ och observerat skördeutfall y. Hur hänger den bivariata sannolikhetsfunktionen, p X,Y (k, l), ihop med den betingade sannolikheten, p X Y =l (k)? Mozquizto 12: Vad är det troligaste antalet frö som grott (högst betingad sannolikhet) givet att man skördade 50 frön? 3 Centrala gränsvärdessatsen Vi skall nu titta lite närmare på Centrala Gränsvärdessatsen (CGS). Vi börjar med en liten simulering från en känd fördelning, två slumpmässiga obervationer x 1, x 2 från X Po ( μ ) där μ = 3. Vi ska sedan beräkna medelvärdet x och se hur nära väntevärdet μ det hamnar. mu = 3; % det sanna my-värdet x = poissrnd(mu,2,1) % en 2x1-matris med Po(my)-slumptal xmedel = mean(x) % medelvärdet

Laboration 2, Matstat D, I, Pi och Fysiker, HT-18 7 Uppgift: Gör om simuleringen och medelvärdesberäkningen några gånger. Verkar medelvärdet variera mindre än de enskilda observationerna? Borde den det? I så fall, hur mycket mindre? Låt oss göra om simuleringarna ett stort antal gånger så vi får bättre uppfattning om hur medelvärdet beter sig: mu = 3; n = 2; % antal termer i medelvärdet M = 1000; % antal simuleringar x = poissrnd(mu,n,m) % n x M-matris. x1 i första raden, xn i sista. xmedel = mean(x) % M st medelvärden subplot(2,1,1) hist(x(1,:),0:15) % histogram över de Mst x1-värdena subplot(2,1,2) hist(xmedel,0:0.5:15) % histogram över de Mst x-medelvärdena Uppgift: Experimentera med lite olika värden på n och se vad som händer med medelvärdet. Du kan behöva ändra klassbredden i det undre histogrammet för att se något, t.ex. 0:0.1:15, som ger klasser från 0 till 15 med bredd 0.1. Mozquizto 13: Jämför variationen hos de enskilda observationerna i den övre figuren och variationen för skattningarna i den undre figuren. Hur ändrar sig variationen hos observationerna när vi ändrar n? Enligt centrala gränsvärdessatsen vet vi att X i och därmed också medelvärdet X blir normalfördelat om vi summerar tillräckligt många variabler; oavsett vilken fördelning X i har. Funktionen cgsgui.m illustrerar hur summor och medelvärde av ett antal olika standard fördelningar ser ut när n blir stort. Uppgift: Experimentera med cgsgui för Po (3)-fördelningen. Hur ser approximationen ut för olika n (och μ)? Uppgift: För små n kan normalfördelningen uppenbarligen bli negativ. Blir X n någonsin negativ? Mozquizto 14: Undersök hur några andra fördelningar (t.ex. binomial-, exponential- och rektangefördelningarna) beter sig. Hur stort måste n vara för att normalapproximationen ska bli bra? Skiljer det sig mellan fördelningarna?