Några kontinuerliga fördelningar, felfortplantning

Relevanta dokument
Grundläggande matematisk statistik

Kap 2. Sannolikhetsteorins grunder

TMS136. Föreläsning 4

Demonstration av laboration 2, SF1901

Statistiska metoder för säkerhetsanalys

SF1901 Sannolikhetsteori och statistik I

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 3. Sannolikhetsfördelningar

TENTAMEN I STATISTIKENS GRUNDER 1

SF1901 Sannolikhetsteori och statistik I

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Sannolikhetslära och statistik

Lektionsanteckningar 11-12: Normalfördelningen

Repetition 2, inför tentamen

0 om x < 0, F X (x) = c x. 1 om x 2.

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

1 Föreläsning V; Kontinuerlig förd.

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

SF1901: Sannolikhetslära och statistik

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

SF1901 Sannolikhetsteori och statistik I

Introduktion till statistik för statsvetare

Formel- och tabellsamling i matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

FINGERÖVNINGAR I SANNOLIKHETSTEORI MATEMATISK STATISTIK AK FÖR I. Oktober Matematikcentrum Matematisk statistik

Repetitionsföreläsning

SF1911: Statistik för bioteknik

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Kurssammanfattning MVE055

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Föreläsning 5, FMSF45 Summor och väntevärden

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

FÖRELÄSNING 4:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

(x) = F X. och kvantiler

Lärmål Sannolikhet, statistik och risk 2015

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Några extra övningsuppgifter i Statistisk teori

FÖRELÄSNING 7:

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Föreläsning 12: Regression

Tentamen i Matematisk statistik Kurskod S0001M

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Stokastiska signaler. Mediesignaler

SF1901: Övningshäfte

Statistiska metoder för säkerhetsanalys

4.1 Grundläggande sannolikhetslära

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8, Matematisk statistik Π + E

SF1901: Sannolikhetslära och statistik

Grundläggande matematisk statistik

Tentamen MVE302 Sannolikhet och statistik

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

f(x) = 2 x2, 1 < x < 2.

SF1901: Sannolikhetslära och statistik

Hur måttsätta osäkerheter?

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

1 Stokastiska processer. 2 Poissonprocessen

Föreläsning 4, Matematisk statistik för M

Föreläsning 6, Repetition Sannolikhetslära

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

TMS136. Föreläsning 5

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematisk statistik för D, I, Π och Fysiker

Övningstentamen i kursen Statistik och sannolikhetslära (LMA120)

Transformer i sannolikhetsteori

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 5, Matematisk statistik Π + E

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

TMS136. Föreläsning 5

Matematisk statistik KTH. Formelsamling i matematisk statistik

TMS136. Föreläsning 11

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

TMS136. Föreläsning 7

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Veckoblad 3. Kapitel 3 i Matematisk statistik, Dahlbom, U.

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik 9 hp Föreläsning 3: Transformation och simulering

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Transkript:

Några kontinuerliga fördelningar, felfortplantning

Några kontinuerliga fördelningar

Kontinuerlig fördelning: Endast intervall kan ges sannolikhet - - Det är fullständigt meningslöst att leta efter sannolikheten att en höjdhoppare hoppar 8.986415926536 meter, lika meningslöst som att efter att han hoppar exakt 9.0000 meter. Eftersom man avrundar, betyder 8.95 meter intervallet (8.945,8.955). Detta är allmänt: Bara intervall och unioner av disjunkta intervall kan ges sannolikhet, men det räcker. Kronblad av tuviris jämförda med normalkvantiler.

Antag att kronbladsstorleken är normalfördelad Antag också att de skattade värdena är helt sanna: =0.246; =0.105. Om det finns ett krav från en köpare av tuviris att kronbladen ska vara mellan 0.2 och 0.4 tum. Sannolikheten för detta kan beräknas. P(0.2<X<0.4)= ((0.4-0.246)/0.105)((0.2-0.246)/0.105)= (1.47)- (-0.44)= (1.47)-(1- (0.44))= (1.47)+ (0.44)-1=0.9292+0.6700-1=0.5992. Alternativ i R (ungefär samma i Matlab):

Fördelningsfunktion - - Integralen av täthetsfunktionen För normalfördelningen kan man återföra till den standardiserade normalfördelningen. I allmänhet finns inte en så enkel lösning. Notera förresten: f(x)=f (x).

Överlevnadsanalys Tid till en händelse (ofta, men inte nödvändigtvis, död), som inträffar med intensiteten (t). Om X är överlevnadstiden, så är S(x) = P(X>x)=1-F(x). (t) tolkas som dödsrisk. För cancerstudier är den oftast avtagande, dvs risken att dö är stor strax efter diagnos men minskar om man överlever en första tiden. Obs: Intensiteten är inte detsamma som tätheten! (Intensiteten nämns bara här i förbigående. Inte viktigt till tentan.)

Exponentialfördelningen F(t)=1-S(t) - Exponentialfördelningen är fallet att är konstant.

Exponentialfördelningen: konstant intensitet Jag lånar ett exempel från Penn State University Students arrive at a local bar and restaurant according to an approximate Poisson process at a mean rate of 30 students per hour. What is the probability that the bouncer has to wait more than 3 minutes to card the next student?

https://onlinecourses.science.psu.edu/stat414/node/ 140/

Exponentialfördelningen saknar minne x>x0>0 Exponentialfördelningen innebär att utsätta sig för konstant risk: Varje dag är det lika stor risk att drabbas av en olycka. Sannolikheten att drabbas av en olycka om man vet att den inte inträffat vid tidpunkten x0 är den sannolikhet man får genom att nollställa klockan. Analogt: Antag att du slår fem tärningar varje minut tills du får fem sexor. Det lyckas en gång på 7776. Om du hållit på en dag, så har det ingen betydelse. Varje minut är som om den vore den första.

Rektangelfördelningen

Fortsättning av exemplet Antag att b=12 g. Vad är sannolikheten att resten av degen väljer över 5 g? Lösning: Rita först upp en figur Det syns i figuren att arean är 1/12*7=58.3 %.

Lognormalfördelningen - Detta är en fördelning som man inte alltid tänker på att man använder. När data inte ser normala ut, logaritmerar man och ser om det fungerar bättre.

R: qqnorm(x[[1]]); qqnorm(log(x[[1]]))

Obeservera! Man skulle också kunna tänka sig andra transformationer. Att dra roten ur eller invertera är vanligt. Och är log-transformen väldigt behändig och är de facto det första man försöker om data inte är normalfördelade.

Logaritmen transformerar gånger till plus Varje like sätter Lööfs inlägg i kontakt med en ny krets av individer, som har kan ha ett stort antal vänner. Varje like ökar alltså sannolikheten för att få ett till. Vi befinner oss på en multiplikativ skala. Den som får 1000 likes får lätt 100 till, på samma sätt som det som har tio lätt får ett till. Liknande skeenden: framgång genererar mer framgång.

Lognormalfördelningen behöver inte förstås Definition: Y är lognormalfördelad med parametrar och om det finns ett log(y) är normalfördelad med parametrar och. Glöm inte att transformera tillbaka! - Detta betyder att logaritmen av Annie Lööfs likes brukar ligga i intervallet (5.899-1.96*1.196,5.899+1.96*1.196)= (3.55,8.24). Detta är rätt svårsåld information! Städer växer också mer än linjärt.

Sammanfattning: tre kontinuerliga fördelningar - - Lognormalfördelningen är bara hur Y är fördelad om log(y) är normalfördelad. ( Tung svans ) Exponentialfördelningen är den konstanta väntans fördelning. Rektangelfördelning är konstant täthet i ett intervall. Exempel: avrundningsfel av stora tal.

Standardfördelningar+CGS

Exponentialfördelning med väntevärde a Små skåpbilar för åtta passagerare står vid en stor tunnelbanestation och kör till ett populärt hotell. Något orealistiskt (Men vad ska man göra?) antar man att kunderna kommer i genomsnitt två i minuten oberoende av varandra med tider som är exponentialfördelade. a) b) c) Vad är fördelningen för den tid taxichauffören får vänta tills bilen är full? Vad är sannolikheten att chauffören behöver vänta längre än 20 minuter innan han får köra? Finn en gräns för hur lång väntetiden bara blir en gång på 100!

Lösning med CGS (centrala gränsvärdessatsen) Låt Xi i=1,...8 vara oberoende exp(2)-fördelade slumpvariabler. Den totala väntetiden är b) P(T>20)~1-Φ((20-16)/5.66)=1-Φ (0.7067138)=[ur R]=1-0.7601278 = 0.24. T = X1+...+X8 c) P(T>x) = 1/100; 1-Φ((x-16)/5.66)=1/100. E(T) = E(X1)+...+E(X8)=8*2= 16 V(T) = V(X1)+...+V(X8)=8*22= 32 Alltså är T approximativt normalfördelad med väntevärde 16 och standardavvikelse 321/2=5.66. (Den exakta fördelningen råkar vara känd, så det är fullt möjligt att jämföra.)

(x-16)/5.66=2.3263 x = 16+5.66*2.3263=29.2

Binomialfördelnig Gör n försök som vart och ett lyckas med sannolikhet p, oberoende av alla andra försök. Baka en svårbakad kaka under fem söndagar i rad. Rimligen gäller: Z~Bin(9,p). Detta är allmänt. Om Z~Bin(n,p), så kan Z skrivas som summan Z=X1+...+Xn, där Xi-variablerna är oberoende och Xi~Bin(1,p) X: Antalet gånger i augusti den faller ihop i augusti X~Bin(5,p) Y: Antalet gånger i september den faller ihop i augusti Y~Bin(4,p) Z: antalet gånger den faller ihop under augusti+september. Men detta betyder att Z alltid är en summa av många variabler om n är stort. CGS säger då att Z är approximativt normalfördelad.

Exempel: röd-grön-färgblindhet I Lund bor 122 000 människor. Låt oss säga att hälften av dem är män. Vad är fördelningen för X: antalet röd-grön-färgblinda, om dessa utgör 10 procent av befolkningen. X~Bin(61 000,0.1) E(X)=[n*p] =6 100 V(X)=[n*p*q]=61 000*0.1*0.9=5490 D(X)=54901/2=74.09

Poissonapproximation Vad är fördelningen för antalet röd-grön-färgblinda i en skolklass med 30 flickor. 1) 2) Röd-grön-färgblindhet sitter på X-kromosomen, och det räcker att en pojke får en för att bli färgblind. En flicka behöver två X-kromosomer med anlaget, vilket har sannolikhet 0.1*0.1=0.01. Antalet rödgrön-färgblinda flickor i klassen är alltså fördelat som Bin(30,.0.1)

Regler för X~Bin(n,p) Om p 0.1, så gäller approximativt X~Po(np) Om npq 10, så gäller approximativt X~N(np,npq) Notera, för övrigt, att att exemplet med röd-grön-färgblinda män fungerar med båda approximationerna.

Felfortplantning

Första ordningens Taylorapproximation

Gauss approximationsformler, eller deltametoden

Exempel: lognormalfördelning (här finns facit)

Flera variabler

Exempel Låt X~N(100,82) och Y~N(200,92) vara koordinaterna för en båt på havet. Om det inte är dimma är ljusstyrkan från lanternorna omvänt proportionell mot avståndet till båten i kvadrat. Därför kan följande funktion av X och Y vara av intresse: g(x,y) = 1/(X2+Y2) E(g(X,Y))~1/(1002+2002)=2*10-5 g x(x,y) = -2x/(x2+y2)2; g y(x,y) = -2y/(x2+y2)2 g x(100,200) = -2*100/(1002+2002)2; g y(100,200) = -2*200/(1002+2002)2

Råräknande g x(100,200) = -2*100/(1002+2002)2=-8e-08 g y(100,200) = -2*200/(1002+2002)2=-1.6e-07 V(1/(X2+Y2))~(-8e-08) 2*V(X)+(-1.6e-07) 2*V(Y)=(-8e-08) 2*82+(-1.6e-07) 2*92=2.4832e-12 D(1/(X2+Y2))~1.58e-06. Test i R:

Ett sätt att testa i R (ungefär samma i Matlab) E(g(X,Y))~1/(1002+2002)=2*10-5; D(1/(X2+Y2))~1.58e-06.

Mer illustrativt: 1000 simuleringar

En titt på projektet

Data från vintrarna2008/2009 resp 2010/2011 Vad ses för tendenser? Om vi ser en nedgång av partikelhalten, bevisar det något?

Storkar och födelsetal