F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Relevanta dokument
F9 Konfidensintervall

Mer om konfidensintervall + repetition

Summor av slumpvariabler

F10 Problemlösning och mer om konfidensintervall

Föreläsning 7. Statistikens grunder.

F13 Regression och problemlösning

Diskussionsproblem för Statistik för ingenjörer

F3 Introduktion Stickprov

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Mer om slumpvariabler

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Formel- och tabellsamling i matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Repetitionsföreläsning

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 12: Regression

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

TMS136. Föreläsning 7

FÖRELÄSNING 7:

9. Konfidensintervall vid normalfördelning

Summor av slumpvariabler

FÖRELÄSNING 8:

MVE051/MSG Föreläsning 7

Föreläsning 7: Punktskattningar

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Föreläsning 7: Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 8: Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Tentamen i Matematisk statistik Kurskod S0001M

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Grundläggande matematisk statistik

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 12: Linjär regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

TMS136. Föreläsning 10

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

SF1901 Sannolikhetsteori och statistik I

Föreläsning 7: Punktskattningar

Kap 3: Diskreta fördelningar

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik för B, K, N, BME och Kemister

Thomas Önskog 28/

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Laboration med Minitab

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

10. Konfidensintervall vid två oberoende stickprov

Introduktion till statistik för statsvetare

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

Övningstentamen i kursen Statistik och sannolikhetslära (LMA120)

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4: Konfidensintervall (forts.)

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Grundläggande matematisk statistik

, s a. , s b. personer från Alingsås och n b

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Examinationsuppgifter del 2

Forskningsmetodik 2006 lektion 2

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Statistik 1 för biologer, logopeder och psykologer

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Tentamen i Matematisk statistik Kurskod S0001M

Introduktion till statistik för statsvetare

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning G60 Statistiska metoder

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

TMS136. Föreläsning 11

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

8 Inferens om väntevärdet (och variansen) av en fördelning

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TMS136. Föreläsning 13

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 12, FMSF45 Hypotesprövning

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Föreläsningsanteckningar till kapitel 8, del 2

Transkript:

1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013

Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ, σ 2 ). För att kunna räkna ut sannolikheter måste vi känna till värdena på µ och σ 2. Hur ska vi ta reda på vilka värden på parametrarna som vi bör använda? Metod 1: försök att gissa rimliga parametervärden. Metod 2: gör mätningar av diametern för flera kullager och använd mätningarna för att skatta parametrarnas värden. 2/17

3/17 Inledande exempel: kullager n stycken mätningar har gjorts: x 1, x 2,..., x n. För väntevärdet µ = x f (x)dx föreslås två olika skattningar: Medelvärdet x = 1 n n i=1 x i. Medianen x: den mittersta observationen då datamaterialet sorteras i storleksordning. Är någon av dessa skattningar bättre än den andra? Vad menar vi med att en skattning är bättre? För variansen µ = (x µ)2 f (x)dx föreslås skattningen: Stickprovsvariansen s 2 = 1 n 1 n i=1 (x i x) 2. Vore det inte bättre att använda 1 n n i=1 (x i x) 2 istället?

4/17 Inledande exempel: kullager 15 mätningar x 1,..., x 15 utfördes: Vi får följande: 3.09 2.95 3.02 2.97 2.93 3.08 3.02 2.94 2.96 2.94 3.02 2.96 3.07 2.97 2.98 Medelvärdet x = 1 n n i=1 x i = 2.993. Medianen x = 2.97 Stickprovsvariansen s 2 = 1 n 1 n i=1 (x i x) 2 = 0.00285 1 n n i=1 (x i x) 2 = 0.00266 Här är skillnaderna mellan de olika skattningarna relativt små, men ibland kan de vara stora. Hur kan vi veta vilka skattningarna vi ska tro på?

Jämförelse av två mätmetoder Tre föremål med de okända vikterna M 1, M 2 och M 3 ska vägas med en våg vars mätfel har standardavvikelse σ. Man ska göra tre vägningar och väljer mellan följande metoder: 1. Väg vardera föremålet en gång. 2. Mät föremålen 1 och 2 tillsammans, 2 och 3 tillsammans samt 1 och 3 tillsammans och beräkna de enskilda föremålens vikter utifrån detta. Se tavlan!? Vilken metod är bäst? 5/17

Jämförelse av två mätmetoder Ger metoderna rätt väntevärden? Vilken metod har lägst varians? Vilken ger lägst mätfel? Vi utnyttjar räknereglerna för väntevärden och varians: E[aX + by + c] = ae[x ] + be[y ] + c. Om X och Y är oberoende så är V[aX + by + c] = a 2 V[X ] + b 2 V[Y ]. Inom industriella tillämpningar är man ofta intresserad av den här typen av beräkningar, för att undersöka hur man kan använda de tillgängliga resurserna vid en undersökning på bästa sätt. 6/17

7/17 Jämförelse av skattningar I exemplet med vågen så var vår målsättning att skatta de tre okända vikterna på bästa möjliga sätt. Vi tog reda på vilken metod (vilken skattning) som var bäst genom att räkna ut deras väntevärden och varianser. Kan vi använda samma sorts jämförelse även i kullagerexemplet? Jämföra väntevärden för skattningarna: vill att de ska ge rätt värde i genomsnitt. Jämföra varians för skattningarna: lägre varians är bättre! Men väntevärde och varians är egenskaper hos slumpvariabler...? Är skattningar slumpvariabler?

Exempel: schweizerost Man vill veta hur många hål en genomsnittlig schweizerost har. I butiken finns 20 stycken ostar, med varierande antal hål: 0 1 1 2 2 3 5 6 11 12 12 13 17 18 23 26 27 28 30 32 Man väljer på måfå ut 10 av ostarna och räknar ut median och medelvärde för antalet hål för dessa. Se exempel med R! Resultatet beror på vilka ostar man råkade välja! Skattningarna är tal som beskriver utfallet av ett slumpförsök vars resultat inte är känt på förhand - vilket innebär att de är slumpvariabler. 8/17

Skattningar som slumpvariabler För att underlätta våra studier av skattningar så börjar vi med att titta på skattningar med ett mer abstrakt synsätt. Antag att vi har samlat in observationer x 1, x 2..., x n och att vi vill skatta en parameter m. Vår skattning ˆm är en funktion av insamlade data, det så kallade stickprovet x 1, x 2..., x n : ˆm(x 1, x 2..., x n ) Om vi utförde undersökningen flera gånger så skulle ˆm variera från gång till gång, eftersom vi skulle få olika stickprov varje gång. Vi studerar därför den bakomliggande slumpvariabeln ˆM(X 1, X 2,..., X n ). Egenskaperna hos slumpvariabeln ˆM säger oss hur bra metoden använd ˆm för att skatta m är. Vi är framförallt intresserade av E[ ˆM] och V[ ˆM]. 9/17

10/17 Väntevärdesriktighet Under resten av föreläsningen så antar vi att vi har samlat in ett stickprov av x 1, x 2..., x n som är observationer av oberoende och likafördelade slumpvariabler X 1, X 2,..., X n. En skattning ˆM av parametern m är väntevärdesriktig om E[ ˆM] = m. Väntevärdesriktighet ses ofta som den viktigaste egenskapen hos en skattning. Är skattningarna i kullagerexemplet väntevärdesriktiga?

11/17 Skattningars varians Vi är ofta även intresserad av spridningen hos en skattning, eftersom det ger oss en uppfattning om hur osäker skattningen är. Om vi dessutom har två väntevärdesriktiga skattningar att välja mellan så verkar det rimligt att välja den skattning som har lägst spridning det vill säga lägst varians. Vilken av skattningarna av µ i kullagerexemplet har lägst varians?

Exempel: kvalitetskontroll Ett företag får en leverans av ett mycket stort antal komponenter. De vill utföra en kvalitetskontroll och beslutar sig för att skicka tillbaka leveransen om den innehåller minst 10% defekta komponenter. De väljer ut n komponenter på måfå och vill utifrån det skatta p=andelen defekta komponenter. 12/17

13/17 Metod för skattningar: kvalitetskontroll Vi delar upp problemet i tre delar: modellering, skattning och analys. 1. Modellering: låt X vara antalet defekta komponenter bland de n observerade. Då är X Bin(n, p) 2. Skattning: som skattning av andelen p föreslås ˆp = x/n, där x är det observerade antalet defekta komponenter. 3. Analys: vi beräknar E[ˆp] och V[ˆp].

14/17 Medelfel (standard error) Standardavvikelsen D[ ˆM] = intressantare än variansen. V[ ˆM] visar sig ofta vara För våra skattningar får vi 1 D[ˆp] = n p(1 p) och D[ X ] = σ. n Tyvärr så innehåller båda dessa okända parametrar, p respektive σ. Om man stoppar in skattningarna ˆp och ˆσ i uttrycken så får man en skattning av skattningarnas standardavvikelser. Sådana skattningar kallas medelfel och betecknas d( ˆM): 1 d[ˆp] = n ˆp(1 ˆp) och d[ X ] = ˆσ. n

15/17 Hur osäker är skattningen? Vi har nu studerat några egenskaper hos skattningar: Väntevärdesriktighet. Varians. Medelfel. Men vi saknar fortfarande en viktig pusselbit. Det är inte troligt att vår skattning ˆm råkar bli precis det sanna värdet på parametern m. Och även om medelfelet d( ˆM) säger oss något om skattningen osäkerhet så ger det oss ingen information om vilka värden på m som är troliga utifrån våra insamlade data. Bättre vore därför att få fram ett intervall med troliga värden på m. Sådana intervall kallas konfidensintervall och beräknas med hjälp av ˆM och d( ˆM).

16/17 Hur vet man om något är normalfördelat? För att undersöka om insamlade data kan komma från en normalfördelning brukar man undersöka datamaterialet grafiskt, exempelvis med histogram. Histogram 1 Histogram 2 Täthet 0.0 0.1 0.2 0.3 Täthet 0.00 0.05 0.10 0.15 3 1 0 1 2 3 y 5 0 5 10 y

17/17 Sammanfattning Skattningar är slumpvariabler! Väntevärden för skattningar Varians för skattningar Medelfel Undersökning av antagande om normalfördelning kan göras grafiskt om man har ett tillräckligt stort stickprov