bli bekant med summor av stokastiska variabler.

Relevanta dokument
DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Datorövning 2 Diskret fördelning och betingning

Laboration 2: Sannolikhetsteori och simulering

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: Sannolikhetsteori och simulering

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 1: Fördelningar

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Datorövning 1 Fördelningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Jörgen Säve-Söderbergh

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Demonstration av laboration 2, SF1901

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Föreläsning 8, Matematisk statistik Π + E

TMS136. Föreläsning 4

SF1901: Sannolikhetslära och statistik. Mer om Approximationer

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Introduktion till statistik för statsvetare

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Kap 2. Sannolikhetsteorins grunder

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

SF1901 Sannolikhetsteori och statistik I

Föreläsning 12: Regression

Laboration 3: Parameterskattning och Fördelningsanpassning

Datorövning 1: Fördelningar

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

(x) = F X. och kvantiler

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Projekt 1: Om fördelningar och risker

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

4 Diskret stokastisk variabel

SF1901: Sannolikhetslära och statistik

TMS136. Föreläsning 7

SF1901 Sannolikhetsteori och statistik I

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 5, FMSF45 Summor och väntevärden

Laboration med Minitab

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Matematisk statistik för D, I, Π och Fysiker

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

TENTAMEN I STATISTIKENS GRUNDER 1

Introduktion och laboration : Minitab

Matematisk statistik 9 hp Föreläsning 4: Flerdim

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

1.1 Diskret (Sannolikhets-)fördelning

Föreläsning 5, Matematisk statistik Π + E

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9 hp Föreläsning 8: Binomial- och Poissonfördelning, Poissonprocess

Diskussionsproblem för Statistik för ingenjörer

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Sannolikhet och statistik med Matlab. Måns Eriksson

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kurssammanfattning MVE055

Betingning och LOTS/LOTV

1 Sannolikhet enligt frekvenstolkningen Kast med tärning

SF1901: Sannolikhetslära och statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

2 x dx = [ x ] 1 = 1 ( 1 (1 0.9) ) 100 = /

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

Problemdel 1: Uppgift 1

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

Laboration 1: Beskrivande statistik

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

modell Finansiell statistik, vt-05 Modeller F5 Diskreta variabler beskriva/analysera data Kursens mål verktyg strukturera omvärlden formellt

4.1 Grundläggande sannolikhetslära

FACIT: Tentamen L9MA30, LGMA30

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Lärmål Sannolikhet, statistik och risk 2015

Föreläsning G60 Statistiska metoder

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 2 MATEMATISK STATISTIK FÖR E FMSF20 Syfte: Syftet med dagens laborationen är att du skall: få förståelse för diskreta, bivariate och betingade fördelningar. bli bekant med summor av stokastiska variabler. få förståelse för hur och när centrala gränsvärdessatsen kan användas. Specialrutiner finns att hämta på kursens hemsida: www.maths.lu.se/kurshemsida/fmsf45masb03/ 1 Bakgrund Laborationen består av två delar. Först studerar vi hur en bivariat diskret fördelning kan konstrueras från enklare del komponenter och undersöker de resulterande marginal och betingade fördelningar. Därefter undersöker vi summor av stokastiska variabler och centrala gränsvärdessatsen. 1.1 En modell för skördeutfall I första delen av laborationen kommer vi att studera en enkel modell för skördeutfall. Frågan är hur stor skörd man kan förvänta sig om man planterar n st frö. För att modellera skördeutfallet kan vi dela upp problemet i två steg 1. Först konstruerar vi en modell för antalet av de planterade fröna som gror 2. Därefter funderar vi på hur stort skördeutfallet (antal nya frö) blir om precis k st frö gror. Den resulterande modellen består nu av en fördelning för antalet frö p X (k) och en betingad fördelning för skördeutfallet, p Y X =k (l k). Bayessats och satsen om total sannolikhet ger oss nu den gemensam fördelningen för antalet frö som gror och skördeutfallet samt marginal fördelningen för skördeutfallet. p X,Y (k, l) = p X (i) p Y X =k (l) och p Y (l) = k p X (i) p Y X =k (l) Utöver dessa fördelningar är även den betingade fördelningen för X givet Y intressant, p X Y =l (k l). Om vi enbart observerar den totala skörden y så kan denna fördelning användas för att säga något om hur många frö som faktiskt grott. 1.2 Förberedelseuppgifter 1. Förvissa dig om att du förstår vad en sannolikhetsfunktion är. 2. Mozquizto 1: Vi planterar 7 frö med grobarhet 75%. Ange fördelningen för antalet frön som kommer att gro (om de gror oberoende av varandra) samt fördelningens väntevärde och varians. 3. Mozquizto 2: Om X i Po ( μ i ) och oberoende vilken fördelning har då summan Y = n i=1 X i?

2 Laboration 2, Matstat E, HT-18 4. Förvissa dig om att du förstår hur total sannolikhet fungerar för väntevärde, d.v.s. hur man kan beräkna E(Y ) = E(E(Y X )) 5. Mozquizto 3: Förvissa dig om att du förstår vad Centrala gränsvärdessatsen innebär och när den kan användas. 6. Vi beräknar medelvärdet X av de oberoende s.v. X i Po (3), i = 1,..., n (samma väntevärde för alla X i ). Ange väntevärde och varians för X. Vilken fördelning får X (approximativt) när n är stort? Ungefär hur stort måste n vara för att approximationen ska bli bra? 2 Modell för skördeutfall 2.1 Diskret variabel: Antal frö som gror Vi vill simulera antalet frön som kommer att gro bland de sju planterade fröna. Det kan vi göra på två sätt. Det mest rättframma är att simulera 7 frön och räkna antalet som gror. Funktionen rand(1,n) ger en radvektor med n rektangelfördelade slumptal, U, mellan 0 och 1. För att sannolikheten att ett frö kommer att gro skall bli p kan vi helt enkelt se efter om U p. I så fall kommer fröet att gro. Om U > p så kommer det inte att gro. För att få reda på antalet frön som kommer att gro bland de 7 summerar vi den resulterande 0/1-variabeln: n = 7; p = 0.75; U = rand(1,n) % 1 rad och n kolumner med observation från R(0,1) U<=p % 0 = gror inte, 1 = gror X = sum(u<=p) % antal frön som gror Uppgift: Jämför resultatet av U=rand(1,n) och U<=p och förvissa dig om att du förstår vad som hände. För att illustrera vad som händer så kan vi också plotta slumptalen och den sannolikhet som vi jämför med. figure(1) stem(u) % 7 st R(0,1) slumptal refline(0, p) % sannoliheten vi vill jmf U med. Mozquizto 4: Hur många frön grodde? Ett smidigare sätt är att utnyttja att vi vet att antalet frön som kommer att gro är Bin (7, 0.75)- fördelat. Då kan vi simulera X direkt med hjälp av MATLABs färdiga rutiner: help binornd X = binornd(n,p) Uppgift: Gör om simuleringen några gånger. Hur många frön brukar gro? Antalet frön som kommer att gro varierar uppenbarligen från gång till gång. För att se hur vanligt det är med olika antal frön som kommer att gro simulerar vi N = 100 planterings tillfällen och ritar ett stolpdiagram (vi har ju en diskret variabel).

Laboration 2, Matstat E, HT-18 3 N = 100; % antal fröpåsar X = binornd(n,p,n,1) % X = antal groende frön i var och en av Nx1 påsar antal = hist(x,0:n) %använd hist för att räkna antalet gånger vi får 0,1,...,n antal(4) %antal X==3 (4:e siffra i vektorn 0,1,2,3,...) sum(x==3) %jfr med antalet X som är lika med 3 figure(2) bar(0:n,antal) % stolpdiagram xlabel( antal frön som gror ) ylabel( antal tillfällen ) Uppgift: Var det någon av planterings tillfällen som inte hade några groende frön alls? Uppgift: Hur många av planterings tillfällen gav 5 groende frön? Hur många gav högst 2 groende frön? Vi vill nu jämföra våra 100 påsar med den teoretiska sannolikhetsfunktionen. För att göra det måste vi skala om y-axeln till andelar bar(0:n,[antal/n; binopdf(0:n,n,p)] ) % rita två uppsättningar staplar xlabel( antal frön som gror ) ylabel( andel påsar ) För att hålla ordning på vilken färg som är vilken adderar vi också en legend med förklarande text legend( simulering, exakt, Location, NorthWest ) Mozquizto 5: Hur stämmer andelen av de simulerade planterings tillfällena som hade precis 5 groende frön eller högst 2 groende frön med motsvarande sannolikheter? (Jämför med resultatet från binopdf(5,n,p) och binocdf(2,n,p)) Mozquizto 6: Experimentera med att ändra grobarheten från p = 0.75 och antalet frön från n = 7. Hur ändrar sig fördelningen när n eller p minskar eller ökar? 2.2 Centrala gränsvärdessatsen för binomialfördelning Om np(1 p) > 10 kan binomialfördelningen approximeras med en normalfördelning. Vi kan jämföra fördelningsfunktionerna och se hur bra det blir: n = 7; p = 0.75; np = n*p % väntevärde npq = np*(1-p) % varians x = linspace(np-4*sqrt(npq),np+4*sqrt(npq)); % mu +/- 4 sigma figure(3) stairs(0:n,binocdf(0:n,n,p)) % Stegfunktion p.g.a diskret s.v. hold on plot(x,normcdf(x,np,sqrt(npq))) % men den här är kontinuerlig hold off

4 Laboration 2, Matstat E, HT-18 Uppgift: Pröva med lite olika värden på n och p. Testa både när det går bra att normalapproximera och när det inte går. Mozquizto 7: Beräkna sannolikheten att högst 2 frön gror, både exakt och med normalapproximation. 2.3 Simulering med hjälp av betingad fördelning: Skördeutfall Vi tänker oss nu att varje frö som gror ger upphov till ett Poissonfördelat antal nya frön, i medeltal 10 frön per groende ursprungligt frö. Frön som inte gror ger naturligtvis inga nya frön. Vi är intresserade av fördelningen för det totala antalet nya frön som erhålls om vi planterar 7 frön med 75 % grobarhet. Sedan tidigare har vi att X = antal frön som gror Bin (7, 0.75). Om exakt X = k frön grodde blir Y = antal nya frön en summa över antalet frö från k st oberoende plantor. D.v.s. Summan av k stycken oberoende Po (10)-fördelade variabler, en för varje groende frö: Y = k Z i där Z i Po (10) i=1 Från förberedelseuppgifterna har vi då att fördelningen för Y X = k Po (10 k) där k = 0,..., 7. Fördelningen för Y ges då av (Satsen om Total Sannolikhet) p Y (l) = 7 p Y X =k (l) p X (k) = k=0 7 (10 k) l e 10 k l! k=0 ( ) 7 0.75 k 0.25 7 k k För att ta reda på hur denna fördelning ser ut studerar vi först det enklare fallet med enbart n = 2 planterade frön. Först illustrerar vi sannolikheten att 0, 1 eller 2 frö gror figure(4) subplot(211) bar(0:2, binopdf(0:2,2,.75)) title( Antal frö som gror ) ylabel( p(x) ) Därefter illustrerar vi de tre olika varianterna av betingade fördelningar: Po (0), Po (10), Po (20). mu = 10; x = 0:4*mu; figure(4) subplot(234) bar(x, poisspdf(x, 0*mu)) title( Skörd om 0 frö gror ) ylabel( p(y x=0) ) subplot(235) bar(x, poisspdf(x, 1*mu)) title( Skörd om 1 frö gror ) ylabel( p(y x=1) )

Laboration 2, Matstat E, HT-18 5 subplot(236) bar(x, poisspdf(x, 2*mu)) title( Skörd om 2 frö gror ) ylabel( p(y x=2) ) Mozquizto 8: Hur ändrar sig den betingade fördelningen för Y givet X när antalet groende frön ändrar sig? Uppgift: Tänk efter hur fördelningen för Y borde se ut, när vi viktat ihop dessa 3 fördelningar med vikter enligt binomialfördelningen för antalet groende frön. Även om vi inte vill räkna ut sannolikhetsfunktionen för Y så är det ganska enkelt att låta Matlab göra det: py = poisspdf(x,0*mu)*binopdf(0,2,0.75); %fallet X=0 py = py + poisspdf(x,1*mu)*binopdf(1,2,0.75); %fallet X=1 py = py + poisspdf(x,2*mu)*binopdf(2,2,0.75); %fallet X=2 figure(5) bar(x,py) xlabel( antal nya frön ) Uppgift: Ser fördelningen ut som du hade väntat dig? För det allmänna fallet kan vi använda en for-sats för att beräkna summan över k: n=7; p=0.75; mu=10; y = 0:100; py = zeros(size(y)); % Fyll först p_y(y) med nollor. for k=0:n % Uppdatera p_y(y) för varje k py=py+poisspdf(y,mu*k)*binopdf(k,n,p); end figure(6) bar(y,py) xlabel( antal nya frön ) Funktionen harvest.m (som finns på kurshemsidan) ritar upp sannolikhetsfunktionen för Y där Y X = x Po ( μ x ) och X Bin ( n, p ) för valfria värden på n, p och μ. help harvest harvest(7, 0.75, 10) Mozquizto 9: Experimentera med olika värden på n, p och μ. Vad händer om antalet planterade frö, n, minskar eller ökar? Om grobarheten, p, minskar eller ökar? Om medelantalet nya frön per frö som gror, μ, minskar eller ökar? Uppgift: Vad händer om grobarheten är 100 %?

6 Laboration 2, Matstat E, HT-18 Uppgift: Kan du få fördelningen att se normalfördelad ut? 3 Centrala gränsvärdessatsen Vi skall nu titta lite närmare på Centrala Gränsvärdessatsen (CGS). Vi börjar med en liten simulering från en känd fördelning, två slumpmässiga obervationer x 1, x 2 från X Po ( μ ) där μ = 3. Vi ska sedan beräkna medelvärdet x och se hur nära väntevärdet μ det hamnar. mu = 3; % det sanna my-värdet x = poissrnd(mu,2,1) % en 2x1-matris med Po(my)-slumptal xmedel = mean(x) % medelvärdet Uppgift: Gör om simuleringen och medelvärdesberäkningen några gånger. Verkar medelvärdet variera mindre än de enskilda observationerna? Borde den det? I så fall, hur mycket mindre? Låt oss göra om simuleringarna ett stort antal gånger så vi får bättre uppfattning om hur medelvärdet beter sig: mu = 3; n = 2; % antal termer i medelvärdet M = 1000; % antal simuleringar x = poissrnd(mu,n,m) % n x M-matris. x1 i första raden, xn i sista. xmedel = mean(x) % M st medelvärden subplot(2,1,1) hist(x(1,:),0:15) % histogram över de Mst x1-värdena subplot(2,1,2) hist(xmedel,0:0.5:15) % histogram över de Mst x-medelvärdena Uppgift: Experimentera med lite olika värden på n och se vad som händer med medelvärdet. Du kan behöva ändra klassbredden i det undre histogrammet för att se något, t.ex. 0:0.1:15, som ger klasser från 0 till 15 med bredd 0.1. Mozquizto 10: Jämför variationen hos de enskilda observationerna i den övre figuren och variationen för skattningarna i den undre figuren. Hur ändrar sig variationen hos observationerna när vi ändrar n? Enligt centrala gränsvärdessatsen vet vi att X i och därmed också medelvärdet X blir normalfördelat om vi summerar tillräckligt många variabler; oavsett vilken fördelning X i har. Funktionen cgsgui.m illustrerar hur summor och medelvärde av ett antal olika standard fördelningar ser ut när n blir stort. Uppgift: Experimentera med cgsgui för Po (3)-fördelningen. Hur ser approximationen ut för olika n (och μ)?

Laboration 2, Matstat E, HT-18 7 Uppgift: För små n kan normalfördelningen uppenbarligen bli negativ. Blir X n någonsin negativ? Mozquizto 11: Undersök hur några andra fördelningar (t.ex. binomial-, exponential- och rektangefördelningarna) beter sig. Hur stort måste n vara för att normalapproximationen ska bli bra? Skiljer det sig mellan fördelningarna?