MVE051/MSG Föreläsning 7

Relevanta dokument
MVE051/MSG Föreläsning 14

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

TMS136. Föreläsning 7

4 Diskret stokastisk variabel

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Föreläsning 8: Konfidensintervall

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 7. Statistikens grunder.

Föreläsning 12: Repetition

Lektionsanteckningar 11-12: Normalfördelningen

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Introduktion till statistik för statsvetare

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

modell Finansiell statistik, vt-05 Modeller F5 Diskreta variabler beskriva/analysera data Kursens mål verktyg strukturera omvärlden formellt

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

TMS136. Föreläsning 4

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Samplingfördelningar 1

FÖRELÄSNING 8:

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

1.1 Diskret (Sannolikhets-)fördelning

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen MVE301 Sannolikhet, statistik och risk

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Kap 3: Diskreta fördelningar

Jörgen Säve-Söderbergh

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Våra vanligaste fördelningar

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Tentamen MVE301 Sannolikhet, statistik och risk

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

4.1 Grundläggande sannolikhetslära

F9 Konfidensintervall

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Tentamen MVE302 Sannolikhet och statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Punktskattning 1 Ett exempel

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

40 5! = 1, ! = 1, Om man drar utan återläggning så kan sannolikheten beräknas som 8 19

Statistiska metoder för säkerhetsanalys

TMS136. Föreläsning 11

Föreläsning 4: Konfidensintervall (forts.)

Lärmål Sannolikhet, statistik och risk 2015

Formel- och tabellsamling i matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Tentamen MVE302 Sannolikhet och statistik

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Avd. Matematisk statistik

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

9. Konfidensintervall vid normalfördelning

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

SF1901: Sannolikhetslära och statistik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

F10 Problemlösning och mer om konfidensintervall

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Laboration med Minitab

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Avd. Matematisk statistik

FÖRELÄSNING 7:

Föreläsning 12: Regression

Mer om konfidensintervall + repetition

Härledning av Black-Littermans formel mha allmänna linjära modellen

Formler och tabeller till kursen MSG830

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

TMS136: Dataanalys och statistik Tentamen

Statistik 1 för biologer, logopeder och psykologer

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Avd. Matematisk statistik

F3 Introduktion Stickprov

Föreläsning 6, Repetition Sannolikhetslära

Transkript:

MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016

Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel En övning med Hypergeometrisk fördelning (om vi har tid): Nr 57 från kapitel 3. Vi använder även negativ Binomialfördelning i dag. Kort kursevaluering vid halvtid.

Deskriptiv statistik Att sammanställa och illustrera data kallas deskriptiv statistik. Syftet med att samla i hop data är generellt att hitta någo sorts underliggande modell för data: Vi skall snart precisera detta. Vad man samlar in och val av sammanfattning och illustration av data kan aldrig göras helt objektivt. Processen reflekterar ideer man redan har om vad som är möjliga underliggande modeller. Det bästa man kan göra är att öppet dokumentera sina val. När man samlat i hop data bör man alltid, som första uppgift, göra grafiska plots av data numeriska sammanfattningar av data Syftet är att försöka leta efter och jämföra möjliga underliggande modeller.

Numeriska sammanfattningar av data Medelvärde x. Median: Om x 1, x 2,..., x n är data sorterat i storleksordning så är medianen x (n+1)/2 om n är udda och medelvärdet av x n/2 och x (n+1)/2 om n är jämn. Stickprovs-variansen: s 2 = 1 n 1 n (x i x) 2 i=1 Stickprovs-standardavvikelsen är kvadratroten av detta. Min och max.

Grafiska sammanfattningar av data I läroboken beskrivs stem and leaf och ogives. Värd att läsa genom, men lite gammaldags i dag. Använd de plotningsfunktioner som finns tillgänglig i det dataprogram du använder. Till exempel spridningsdiagram (scatterplots). Ett möjligt beräkningsverktyg: R (www.r-project.org). Exempel: Histogrammer. Märk att vissa val tas (av dig eller av programmet). Kom i håg: Syftet är alltid att hitta möjliga underliggande modeller, eller jämföra olika möjliga modeller.

Boxplots Exempel på bra sätt att visualisera en-variata data. Visualiserer medianen, och kvartilerna (värdena så att 25% av data är mindre än första kvartil och 75% av data är mindre än 3dje kvartil). Visualiserar även outliers: (avvikande värden). Detaljerna för hur Boxplots konstrueras varierar mellan olika program; ni behöver inte kunna detaljerna som finns i Milton.

Stokastiska variabler som modeller för data Vi kan säga att vi använder en stokastisk variabel X som en modell för en del av värkligheten om Vi beskriver en population av objekt, eller eventuelt möjliga observationer, där våra data representerar en delmängd av populationen. Variabeln X representerar värdena i populationen. De observerade data x 1,..., x n är ett stickprov (random sample) från populationen, med andra ord: Varje enskild observation xi modelleras med variabeln X i. Alla Xi är oberoende och har samma fördelning som X. MÄRK: Att det är rimligt att anta att data är ett stickprov behöver man alltid kolla: Är varje observation slumpmässigt vald med uniform sannolikhet från populationen? Är varje observation slumpmässigt vald oberoende av andra observationer? MÄRK: Syftet med modelleringen (och med all vetenskap) är egentligen att kunna göra prediktioner av nya observationer.

Att hitta stokastisk modell för dina data Steg ett: Att hitta typ av modell. I vårt fall, att välja mellan normalfördelad, Poissonfördelad, Binomialfördelad, Gammafördelad, etc.: Använd kunskap om processen som genererat data. Är data kontinuerlig eller diskret? En sekvens av försök? Etc. Man kan också använda observerade data för att välja mellan liknande modeller: Detta ligger utanför vår kurs. Steg två: Hitta parametrarna i modellen. (E.g., µ och σ 2 i en normalfördeling, λ i en Poissonfördelning, etc.): Man beräknar ett estimat (en skattning) för varje parameter genom att använda data i någon formel tagit fram för denna parametern i denna modellen. Man kan i stället använda sannolikhetsteori för att beskriva hur man lär sig om parametrarna från data. Detta ligger dock utanför vår kurs.

Estimater och estimatorer Vi antar nu vi har en modell med en okänd parameter θ, och data x 1,..., x n som är ett stickprov från modellen. Vi skiljer mellan En estimator: En funktion, eller formel, som från ett stickprov X 1,..., X n kan bereäkna ett tal som är tänkt att kunna fungera som värde på parametern. Ett estimat: Det värdet man får när man använder estimatorn på våra data x 1,..., x n. Vi skriver ofta ˆθ för estimatet för parametern θ, men förvirrande nog så används ˆθ ofta också för att beteckna estimatorn som används för att beräkna estimatet. (Om parametern kallas µ så skriver vi ˆµ etc.) En funktion av ett stickprov kallas en statistika. En estimator är alltså en statistika. En statistika är en stokastisk variabel, så vi kan prata om dens fördelning, väntevärde, varians, etc.

Att konstruera en estimator Att använda estimatorer är ett ad-hoc tillvägagångssätt; det finns inget matematiskt entydigt svar på hur de skall konstrueras. Dock tycker många att en bra estimator bör ha följande egenskaper: Väntevärdesrätt: Om vi ser estimatorn som en statistika och beräknar dens väntevärde, så skall detta vara lika med parametern man estimerar. Minimum varians: Om vi ser estimatorn som en statistika och beräknar dens varians, så skall denna vara så liten som möjligt. (Utanför kursen) Vanligaste sättet att konstruera en estimator: Maximum Likelihood (ML). Skriv sannolikheten av alla observerade data som en funktion av alla parametrar. Detta är likelihood funktionen. Hitta de parametrar som maximerar likelihood funktionen. Formlerna för parametrarna som maximerar likelihood, beräknat från observerade data, används sen som estimatorer för parametrarna.

Exempel: Estimator för väntevärdet Antag att data är ett stickprov från fördelningen Normal(µ, σ), alltså att de representeras med oberoende stokastiska variablar Vi vill hitta en estimator för µ. X 1, X 2,..., X n Normal(µ, σ) En naturlig estimator är ˆµ = 1 n n i=1 X i = X. (Det är en ML-estimator). Estimatorn är väntevärdesrätt, i.e., E [ X ] = µ. (Enkelt bevis). Beviset fungerar lika bra oberoende av fördelningen till X i. Så estimatorn X är alltid en väntevärdesrätt estimator för väntevärdet i en fördelning. Exempel: Antag observationerna x 1, x 2,..., x n är ett stickprov från en Poisson(λ) fördelning, där ju väntevärdet är lika med parametern λ. Då är X en väntevärdesrätt estimator för λ.

Varians av en estimator Estimatorn X har varians σ 2 /n, där σ 2 är variansen till fördelningen för X 1,..., X n. Beviset är bra att ha koll på. (MÄRK: Det använder att om X och Y är obereoende stokastiska variabler, så har vi Var [X + Y ] = Var [X ] + Var [Y ]). Exempel: Bernoulli-fördelningen (Binomialfördelningen med bara ett försök): Fördelningen har en parameter p och X har möjliga värden 0 och 1. Väntevärdet i fördelningen är p och variansen är p(1 p). Därmed blir ˆp = X en väntevärdesrätt estimator för p. Estimatorn har varians p(1 p)/n.

Estimator för varians Om X 1, X 2,..., X n är ett stickprov från en fördelning med väntevärde µ och varians σ 2, så är ˆσ 2 = 1 n 1 n (X i X ) 2 i=1 en väntevärdesrätt estimator för σ 2. Beviset är bra att ha koll på: E [ˆσ [ ] 2] 1 n = E (X i X ) 2 n 1 i=1 [ ] 1 n = E ((X i µ) (X µ)) 2 = = σ 2 n 1 i=1 Detta är orsaken till att vi delar på n 1 i stället för n när vi beräknar stickprovsvariansen.

En estimators fördelning För att ytterligare lära oss om hur bra en estimator är, så kan vi studera dens fördelning, inte bara dens väntevärde och varians. Exempel: Om X 1,..., X n Normal(µ, σ), så vet vi att estimatorn X har väntevärde µ och varians σ 2 /n: Också: Man kan visa: Om X1,..., X n är oberoende normalfördelade, så är även X 1 + X 2 + + X n normalfördelad. Vi vet att om Y är normalfördelad så är även Y /n normalfördelad. Från detta får vi att X Normal(µ, σ/ n). Om X 1,..., X n har en Bernoulli-fördelning med parameter p, så får vi direkt från definitionerna att X 1 + X 2 + + X n har en Binomialfördelning med Parametrar n och p. Därmed kan vi också få en explicit beskrivning av fördelningen till X = (X 1 + X 2 + + X n )/n. Man kan visa att om X 1,..., X n Normal(µ, σ) så har vi för variansestimatorn ˆσ 2 (n 1)ˆσ 2 /σ 2 χ 2 (n 1) Alltså: ˆσ 2 har en fördelning som motsvarar σ 2 multiplicerad med en chi-kvadrat fördelning med n 1 frihetsgrader.

Vi studerar estimatorer, inte estimat Antag vi undersöker en typ försök som varje gång resulterar i success (1) eller misslyckande (0), och sannolikheten för success är en okänd parameter p. Antag vi gör ett antal försök, och får resultaten 0, 1, 0, 0, 1, 0, 0, 1 Vi gör sen estimatet 3/8 = 0.375 för p. Hur bra är estimatet? Det kan vi inte säga något om med metoderna vi använder nu: Vi studerar estimatorer, inte estimat. Hur bra är estimatorn? För att svara måste vi först specificera exakt vilken estimator vi använt: ALTERNATIV 1: Estimatorn består i att göra 8 försök, låta x vara antalet successer, och beräkna ˆp = x/8. ALTERNATIV 2: Estimatorn bestor i att göra försök tills man fått fram 3 lyckade försök, och låta x vara antalet försök man behövde göra. Sen beräknar man ˆp = 3/x. De två estimatorerna har olika egenskaper! Det är kanske inte naturligt att använda några av dessa för att anslå hur nära 0.375 är p givet våra data.

Exempel, fortsättning Låt oss till exempel anta att det värkliga värdet för p är 0.6. Vi kan då studera vilka fördelningar våra två alternativa estimatorer har. ALTERNATIV 1: Vi har X Binomial(8, 0.6). De möjliga värdena för ˆp = X /8 och deras sannolikheter finns i tabellen under: 0/8 1/8 2/8 3/8 4/8 5/8 6/8 7/8 8/8 0.001 0.008 0.041 0.124 0.232 0.279 0.209 0.090 0.017 Estimatorn har väntevärde 0.6; den är väntevärdesrätt. ALTERNATIV 2: Vi får X Neg-Binomial(3, 0.6). De möjliga värdena för ˆp = 3/X och deras sannolikheter finns i tabellen under: 3/3 3/4 3/5 3/6 3/7 3/8 3/9 3/10 3/11 0.216 0.259 0.207 0.138 0.083 0.046 0.025 0.013 0.006 3/12 3/13 3/14 3/15 3/16,3/17,... 0.003 0.001 0.001 0.000 totalt 0.000 Estimatorn har väntevärde 0.672. Den är INTE väntevärdesrätt.