SF1901 Sannolikhetsteori och statistik I



Relevanta dokument
SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I

Statistik 1 för biologer, logopeder och psykologer

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

Föreläsning 9: Hypotesprövning

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Uppgift

Föreläsning 14: Försöksplanering

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Något om permutationer

Möbiustransformationer.

Statistiska metoder för säkerhetsanalys

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat. Jan Grandell & Timo Koski

Datorövning 2 Diskret fördelning och betingning

Träning i bevisföring

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Statistiska synpunkter på politiska opinionsundersökningar

Föreläsning 12: Repetition

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

INLÄMNINGSUPPGIFT 2 (Del 2, MATEMATISK STATISTIK) Kurs: MATEMATIK OCH MATEMATISK STATISTIK 6H3000

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lathund, procent med bråk, åk 8

1. Frekvensfunktionen nedan är given. (3p)

Mätning av effekter. Vad är elektrisk effekt? Vad är aktiv-, skenbar- reaktiv- medel- och direkteffekt samt effektfaktor?

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

David Wessman, Lund, 30 oktober 2014 Statistisk Termodynamik - Kapitel 5. Sammanfattning av Gunnar Ohléns bok Statistisk Termodynamik.

Grundläggande biostatistik. Jenny Selander

Institutionen för matematik Envariabelanalys 1. Jan Gelfgren Datum: Fredag 9/12, 2011 Tid: 9-15 Hjälpmedel: Inga (ej miniräknare)

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Summor av slumpvariabler

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Tentamen i Tillämpad matematisk statistik LMA521 för EPI och MI den 14 dec 2011

5B1816 Tillämpad mat. prog. ickelinjära problem. Optimalitetsvillkor för problem med ickelinjära bivillkor

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

parametriska test Mätning Ordinalskala: Nominalskala:

Ekvationssystem, Matriser och Eliminationsmetoden

Övningshäfte i matematik för. Kemistuderande BL 05

CAEBBK01 Drag och tryckarmering

SF1625 Envariabelanalys

Samverkande Expertnät

Föreläsning 8: Räkning. Duvhålsprincipen. Kombinatorik

Facit med lösningsförslag kommer att anslås på vår hemsida Du kan dessutom få dem via e-post, se nedan.

Webb-bidrag. Sök bidrag på webben Gäller från

Invisible Friend Senast uppdaterad

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

SF1620 Matematik och modeller

FMS012/MASB03: Matematisk statistik 9.0 hp för F+fysiker Föreläsning 1: Sannolikhet

Avd. Matematisk statistik

Lunds tekniska högskola Matematikcentrum Matematisk statistik

SEPARABLA DIFFERENTIALEKVATIONER

5. Motion om policy för besvarande av post yttrande Dnr 2015/

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Övningshäfte

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Kundservicerapport Luleå kommun 2015

Mätningar på op-förstärkare. Del 3, växelspänningsförstärkning med balanserad ingång.

Matematisk statistik för D, I, Π och Fysiker

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

Föreläsning 8: Konfidensintervall

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

L(9/G)MA10 Kombinatorik och geometri Gruppövning 1

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Sommar och solkraft. Nykarleby Kraftverk Ab Tony Eklund

Två konstiga klockor

(a) Hur stor är sannolikheten att en slumpvist vald person tror att den är laktosintolerant?

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Regression med kvalitativa variabler. Jesper Rydén

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Idag: Dataabstraktion

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

5 Kontinuerliga stokastiska variabler

Matematisk statistik KTH. Formelsamling i matematisk statistik

Snabbslumpade uppgifter från flera moment.

Modul 6: Integraler och tillämpningar

Det är bra om även distriktsstyrelsen gör en presentation av sig själva på samma sätt som de andra.

Kunskapskrav för godtagbara kunskaper i matematik - slutet av åk 3

Kurskod: TAMS11 Provkod: TENB 22 April 2014, 14:00am-18:00noon. English Version

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Utveckla arbetsmiljö och verksamhet genom samverkan

SANNOLIKHET. Sannolikhet är: Hur stor chans (eller risk) att något inträffar.

Begreppet delaktighet inom rättspsykiatrisk vård

Vi skall skriva uppsats

Transkript:

SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 9 26 november 2015 1 / 29

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 2 / 29

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 3 / 29

Statistisk inferens: data kunskap Inference is the problem of turning data into knowledge, where knowledge often is expressed in terms of entities that are not present in the data per se but are present in models that one uses to interpret the data. Committee on the Analysis of Massive Data: Frontiers in Massive Data Analysis. The National Academies Press, Washington D.C., 2013, sid. 3. 4 / 29

Exempel: opinionsundersökning Ett antal personer, säg 1000 st, väljes på måfå ur en stor population (t.ex. Sveriges befolkning). En fråga (rörande t.ex. monarkins vara eller icke vara eller medlemskap i Nato), som skall besvaras med ja eller nej, ställs med resultatet att x = 350 personer svarar ja. Vi vill uppskatta andelen ja -svarare p i hela populationen. 5 / 29

Exempel: the German tank problem During World War II, British and U.S. statisticians working for military intelligence were keenly interested in estimating German war production (especially the production of Panzerkampfwagen V, Panther), but could hardly ask the German factories to send them reports. Instead, they based their estimates on the manufacturing serial numbers of captured equipment (especially the tank gearboxes). These numbers ({1, 2, 3,... }) were consecutive and did not vary (as this was rational in terms of maintenance and spare parts). These serial numbers provided a sample that was very small, but reliable. Utmaningen består i att skatta det totala antalet tyska stridsvagnar av denna typ. 6 / 29

Inferensproblemet Vi antar att vi har tillgång till uppmätta värden x 1, x 2,..., x n. Denna mätdata kan ses som utfall av s.v. X 1, X 2,..., X n, vilkas fördelning (diskret eller kontinuerlig) beror av en ev. flerdimensionell okänd parameter θ. Mängden av möjliga parametrar, parameterrummet, betecknas Ω θ. Vi vill skatta θ med hjälp av mätdatan. 7 / 29

Exempel: opinionsundersökning (forts.) Statistisk modell: det uppmätta antalet ja -sägare x = 350 kan ses som ett utfall (observation) av där p är okänt. X Hyp(9743087, 1000, p), Då n/n = 1000/9743087 0.1 kan vi med gott samvete bortse från det faktum att vi väljer personer utan återläggning och approximera hypergeometriska fördelningen med en binomialfördelning, dvs. anta att x = 350 är en observation av X Bin(1000, p). Befolkningsmängd i Sverige den 30 nov 2014 enligt SCB. 8 / 29

Exempel: the German tank problem (forts.) Statistisk modell: varje upphittat serienummer x i, i = 1,..., n, ses, något förenklat, som ett utfall av en s.v. X i med likformig fördelning över mängden {1,..., θ}, där θ är det okända antalet pansarvagnar. De olika X i :na kan anses vara oberoende. 9 / 29

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 10 / 29

Punktskattning Vi vill skatta den okända parametern θ med hjälp av en funktion av data. Följande definition är viktig. Definition En punktskattning av en parameter θ är en funktion θ som för varje uppsättning mätdata x 1, x 2,..., x n ordnar ett värde i Ω θ. Detta värde betecknas θ obs = θ (x 1, x 2,..., x n ). Då mätdata ses som utfall av s.v. X 1, X 2,..., X n är θ obs ett utfall observation av stickprovsvariabeln θ (X 1, X 2,..., X n ). Den senare betecknas ofta θ för enkelhets skull. 11 / 29

Punktskattning (forts.) Det gäller alltså att θ obs är en observation av den s.v. θ (X 1, X 2,..., X n ) = θ. Om ny mätdata samlas in ses denna som ett nytt utfall av X 1, X 2,..., X n, vilket i sin tur leder till ett nytt utfall θ obs av θ. Skattningens osäkerhet beror på hur θ varierar kring θ, och att bestämma fördelningen för θ är sålunda en viktig (och ibland svår) uppgift. 12 / 29

Väntevärdesriktighet Det är givetvis önskvärt att fördelningen för θ inte har något systematiskt fel. Detta kan formaliseras med hjälp av följande definition. Definition En punktskattning sägs vara väntevärdesriktig om E(θ ) = θ oavsett värdet på den okända parametern θ Ω θ. 13 / 29

Konsistens Ju fler mätningar (information) vi har tillgång till, desto bättre kan vi förvänta oss att den okända parametern kan skattas. För n mätdata betecknar vi nu stickprovsvariabeln med θ n. Fördelningen för θ n bör sålunda koncentreras mer och mer kring θ när n ökar. Detta kan formaliseras med hjälp av följande definition. Definition Om för varje θ Ω θ och för varje givet (litet) ε > 0, P( θ n θ ε) 0 då stickprovsstorleken n, sägs punktskattningen vara konsistent. 14 / 29

Intermezzo: Markovs olikhet I samband med konsistensundersökningar är följande enkla olikhet användbar. Sats (Markovs olikhet) Låt X vara en icke-negativ s.v. Då gäller för varje fixt ε > 0, P(X ε) 1 E(X ). ε Markovs olikhet implicerar direkt Tjebysjovs olikhet (som finns i boken och formelsamlingen). Genom att tillämpa Markovs olikhet på X p, för p 0, får man även P(X ε) = P(X p ε p ) 1 ε p E(X p ). 15 / 29

Opinionsundersökning (forts.) Då vi vill skatta en andel p är punktskattningen rimlig. p obs = p (x) = x n = 350 1000 = 0.35. Denna skattning är väntevärdesriktig, ty ( ) X E(p ) = E(p (X )) = E = E(X ) 1000 1000 = 1000p 1000 = p. 16 / 29

Opinionsundersökning (forts.) För ett godtyckligt n ges skattningens varians av ( ) X V(pn) = V = 1 np(1 p) V(X ) = n n2 n 2 = p(1 p). n Detta medför att skattningen även är konsistent, ty Markovs olikhet ger för varje fixt ε > 0, P( p n p ε) 1 ε 2 E( p n p 2 ) = 1 ε 2 V(p n) = där högerledet går mot noll då n. p(1 p) nε 2, Alltså, ju fler personer vi frågar, desto mer koncentrerad blir skattningen kring den okända andelen p! 17 / 29

Medelkvadratfel Ett annat sätt att beskriva hur koncentrerad θ är kring θ är följande. Definition Medelkvadratfelet (MSE, Mean Square Error) för en punktskattning är MSE = E({θ θ} 2 ). Man visar enkelt (övning!) att MSE = V(θ ) + {E(θ ) θ} 2. Termen E(θ ) θ kallas systematiskt fel eller bias och är noll om skattningen är väntevärdesriktig. I det senare fallet är alltså MSE = V(θ ). 18 / 29

Effektivitet Definition Om två olika skattningar θ och ˆθ är väntevärdesriktiga och det gäller att V(θ ) V(ˆθ ) för alla θ Ω θ (med sträng olikhet för något θ) sägs θ vara effektivare on ˆθ. En väntevärdesriktig skattning med liten varians är helt enkelt bättre! 19 / 29

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 20 / 29

Skattning av väntevärde och varians Låt mätdata x 1, x 2,..., x n vara observationer av oberoende s.v. X 1, X 2,..., X n från någon fördelning med väntevärde µ och varians σ 2, dvs. för alla i gäller att E(X i ) = µ, V(X i ) = σ 2. Antag att vi vill skatta µ och σ 2 med hjälp av mätdata x 1, x 2,..., x n. Lämpliga skattningar visar sig vara stickprovsmedelvärdet resp. stickprovsvariansen µ obs = x = 1 n (σ 2 ) obs = 1 n 1 n x i, i=1 n (x i x) 2 not. = s 2. i=1 21 / 29

Skattning av väntevärde och varians (forts.) Normeringen 1/(n 1) istället för 1/n i s 2 gör stickprovsvariansen väntevärdesriktig. Ovan skattningar visar sig ha goda egenskaper: Sats Stickprovsmedelvärdet x och stickprovsvariansen s 2 är väntevärdesriktiga och konsistenta skattningar av µ resp. σ 2. Notera att dessa skattningar inte kräver kännedom om den gemensamma fördelningen för X i :na! 22 / 29

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 23 / 29

Maximum-likelihood-metoden Hittills har vi konstruerat skattningar ad hoc. Maximum-likelihood-metoden (ML-metoden) ger ett systematiskt tillvägagångssätt. Idé: välj det parametervärde som ger högst sannolikhet för den givna mätdatan! Definition Funktionen L(θ) = { p X1,...,X n (x 1,..., x n ; θ) f X1,...,X n (x 1,..., x n ; θ) kallas likelihood-funktionen (L-funktionen). (diskreta fallet), (kontinuerliga fallet), Funktionen ln L(θ) kallas log-likelihood-funktionen. 24 / 29

Maximum-likelihood-metoden (forts.) Notera att L(θ) beror på den observerade mätdatan. I det diskreta fallet är sålunda L(θ) precis sannolikheten att just mätdatan x 1, x 2,..., x n erhållas om θ vore modellparameter. Det kontinuerliga fallet kan tolkas analogt. Som skattning väljer vi sedan det parametervärde som maximerar L(θ). Definition Det värde θ obs för vilket L(θ) antar sitt största värde inom Ω θ kallas maximum-likelihood-skattningen (ML-skattningen) av θ. Ofta är det enklare att maximera log-likelihood-funktionen, vilken har samma maximum. 25 / 29

R. A. Fisher Figur: R. A. Fisher (1890 1962), a genius who almost single-handedly created the foundations for modern statistical science (A. Hald), the greatest biologist since Darwin (R. Dawkins). 26 / 29

Opinionsundersökning (forts.) Beräkna ML-skattningen av p! [ svar: p obs = x n = 350 ] 1000 = 0.35 27 / 29

Opinionsundersökning (forts.) 0 log likelihood function 50 100 log L(p) 150 200 250 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p Figur: Plot av log-likelihood-funktionen. 28 / 29

Nästa föreläsning Mer om punktskattningar, konfidensintervall. 29 / 29