Föreläsning 7. Statistikens grunder.

Relevanta dokument
F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 3. Sannolikhetsfördelningar

Mer om konfidensintervall + repetition

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 11: Mer om jämförelser och inferens

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

F9 Konfidensintervall

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Diskussionsproblem för Statistik för ingenjörer

Lektionsanteckningar 11-12: Normalfördelningen

F3 Introduktion Stickprov

Thomas Önskog 28/

Föreläsning G60 Statistiska metoder

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

MVE051/MSG Föreläsning 7

SF1901 Sannolikhetsteori och statistik I

Föreläsning 4. Kapitel 5, sid Stickprovsteori

F10 Problemlösning och mer om konfidensintervall

Mer om slumpvariabler

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

9. Konfidensintervall vid normalfördelning

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

FÖRELÄSNING 7:

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Formel- och tabellsamling i matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Summor av slumpvariabler

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

TMS136. Föreläsning 7

Matematisk statistik KTH. Formelsamling i matematisk statistik

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Föreläsning 12: Regression

Avd. Matematisk statistik

Samplingfördelningar 1

Föreläsning 8: Konfidensintervall

Några extra övningsuppgifter i Statistisk teori

Föreläsningsanteckningar till kapitel 8, del 2

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Repetitionsföreläsning

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Datorövning 1: Fördelningar

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik för D, I, Π och Fysiker

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Grundläggande matematisk statistik

FÖRELÄSNING 8:

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistik 1 för biologer, logopeder och psykologer

Weibullanalys. Maximum-likelihoodskattning

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Introduktion till statistik för statsvetare

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Föreläsning 7: Punktskattningar

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning 12: Linjär regression

Föreläsning 7: Punktskattningar

Grundläggande matematisk statistik

SF1901: Medelfel, felfortplantning

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

TMS136. Föreläsning 10

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Demonstration av laboration 2, SF1901

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik för D, I, Π och Fysiker

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 7: Punktskattningar

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SF1901 Sannolikhetsteori och statistik I

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Lufttorkat trä Ugnstorkat trä

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Transkript:

Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016

Föreläsningens innehåll Översikt, dagens föreläsning: Inledande exempel och motivering: två fall Skattningar som slumpvariabler Data och modell

Inledning

Exempel: Fall 1 Man vill fylla förpackningar med 500 g. Viss variation förekommer, och man modellerar massan i fylld förpackning som en slumpvariabel X, som antages vara normalfördelad: X N(µ, σ 2 ). Vilka är lämpliga värden på parametrarna µ och σ? Fokus på µ, förväntad vikt, till en början. Idé: Parametern µ är väntevärde. Kanske kan medelvärdet från insamlade data ge en uppskattning? Bildkälla: precisensan.com

Exempel, forts. Data (10 observationer x 1,..., x 10 ): 498, 502, 495, 503, 500, 501, 500, 499, 496, 492 x = 498.6. Alltså x = 498.6. Men i långa loppet, om nya stickprov om 10 observationer (tänks) samlas in? Nya datamaterial: 502, 499, 497, 500, 501, 491, 508, 500, 495, 503 x = 499.6. 501, 495, 498, 500, 497, 503, 502, 495, 498, 500 x = 498.9. Vi ser en slumpmässig variation hos medelvärdet. Idé: Kan denna variation modelleras på lämpligt sätt?

Exempel: Fall 2 Kvalitetskontroll: Man vill att högst 1% av tillverkade komponenter skall vara felaktiga. Man väljer ut n komponenter och räknar antalet felaktiga. Inför slumpvariabeln Modell: X = Antal felaktiga komponenter. X Bin(n, p), där n är känt men kunskap om p önskas. Idé: Uppskatta p som kvoten x/n, där x är observerat antal felaktiga.

Exempel, forts. Data (5 observationer, x 1,..., x 5 : Detta ger uppskattningen p = 1/5 = 0.2. fler stickprov om 5 observationer tänks samlas in? Dessa resulterade i följande uppskattningar av felsannolikheten p: 0.4, 0, 0.2. Idé: Kan denna variation modelleras på lämpligt sätt?

Skattningar som slumpvariabler

Formalisering: Parametrisk inferens Punktskattningar och estimatorer. Fall 1: Vi vill uppskatta parametern µ i normalfördelningen. En punktskattning, kort skattning, ges av medelvärdet: µ = x. Den kan uppfattas som en slumpvariabel X som kallas estimator. Fall 2: Vi vill uppskatta parametern p i binomialfördelningen. En punktskattning ges av p = x/n, dvs. estimatorn X /n. Egenskaper hos skattningar: Vi valde intuitivt skattningarna x resp. x/n (medelvärde resp. andel). Finns mer allmän metodik för att hitta skattningar? Kan man jämföra skattningar vad är en bra skattning? Statistiska egenskaper hos skattningar studeras.

Översikt Datavärlden ( verkligheten ). Observationer: x 1,..., x n Skattning (exempel) x = g(x 1,..., x n ) = 1 n (x 1 + + x n ) Fördelningsvärlden. Oberoende slumpvariabler: X 1,..., X n Estimator (exempel) X = g(x 1,..., X n ) = 1 n (X 1 + + X n )

Allmänna fallet Vii studerar en fördelningsfamilj F (x; θ) där θ är en okänd parameter. Stickprov: observationerna x 1,..., x n. Motsvarande slumpvariabler X 1,..., X n är oberoende, var och en med fördelningen F. Med en punktskattning t = ˆθ av parametern θ menas en funktion g av stickprovet, dvs. Motsvarande estimator: ˆθ = t = g(x 1,..., x n ). T = g(x 1,..., X n ). Fall 1: Fall 2: µ = g(x 1,..., x n ) = 1 n (x 1 + + x n ). p = g(x) = x n.

Statistiska egenskaper: Väntevärdesriktighet En god egenskap hos en skattning borde vara att den i medeltal leder till rätt parameter. En skattning av en parameter θ är väntevärdesriktig om det för estimatorn T gäller att E[T ] = θ Väntevärdesriktighet är alltså en god egenskap hos skattningar. Skattningarna µ och p är väntevärdesriktiga. Visas på tavlan!

AKTIVERING! Observationerna x 1,..., x 5 nedan anses vara oberoende observationer av en slumpvariabel X N(µ, σ 2 ). Bildkälla: sodahead.com 1.2, 1.2, 0, 2.3, 2.3 Ange en väntevärdesriktig skattning av parametern µ.

Statistisk spridning hos estimatorer Antag att vi (i allmänna fallet) har en estimator T = g(x 1,..., X n ). En uppfattning om osäkerheten hos denna estimator kan fås genom att beräkna V[T ] och D[T ]. Skattningar av D[T ] betecknas d[t ] och kallas medelfel. [ Medelfel hos µ och p, se tavlan! Svar : d[ µ] = s/ ] 1 n, d[ p] = n ˆp(1 ˆp)

VIKTIGASTE FORMELN I KURSEN?! V[ X ] = σ2 n.

Exempel: Medelvärdesbildning (föreläsning 5) Antag att X N(20, 5 2 ). Då gäller för medelvärdet X av n oberoende variabler X N(20, 5 2 /n). Täthetsfunktioner. Heldragen kurva: X. Streckad kurva: X, n = 5. Punktstreckad kurva: X, n = 20. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0 10 20 30 40 Vi kan nu uppfatta fördelningen för X som fördelningen för en estimator.

Exempel: Medelfel hos skattat väntevärde µ Antag att vi har 16 observationer av en slumpvariabel X N(µ, σ 2 ). Man har beräknat parameterskattningarna µ = x = 102.7, σ = s = 16.4. Medelfelet för skattningen µ ges då av d[µ] = s = 16.4 = 4.1. n 4

Exempel, försöksplanering Tre föremål med vikterna m 1, m 2 resp. m 3 skall vägas med en våg. Vilken av följande två metoder är att föredra (ger lägst mätfel): (a): Väg vardera föremålet en gång. (b): Väg två föremål tillsammans: 1 och 2, 2 och 3, 1 och 3. Bildkälla: www.thecoolkitchen.com

Data och modell

Data och modell: Fördelningsfamilj? Grundläggande frågor: Vilken fördelningsfamilj är lämplig i min situation? Hur kan parametrar skattas, hur kan deras osäkerhet bestämmas? Inga enkla svar allmän kunskap om situationen; visuella tekniker; statistiska test.

Q-Q-plot: Normalfördelning Brottseghet hos material B. Rät linje? Normalfördelning kan passa (här: normalfördelningspapper ). Sample Quantiles 10.6 10.8 11.0 11.2 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Theoretical Quantiles

Q-Q-plottar: Simulerade observationer Väntevärde 25 för normal- resp. exponentialvariabler. Normalfördelade obs Exponentialfördelade obs 0.00 0.02 0.04 0.06 10 15 20 25 30 35 40 0.000 0.010 0.020 0.030 0 20 40 60 80 100 Normalfördelade obs Exponentialfördelade obs 2 1 0 1 2 2 1 0 1 2 15 20 25 30 35 Data 0 20 40 60 80 Data

Exempel: Weibullfördelning, vindhastighet Vindhastighet modelleras ofta med hjälp av en Weibullfördelning. Täthetsfunktion: f (x) = k a Fördelningsfunktion: ( x a ) k 1 e (x/a) k, x 0. F (x) = 1 e (x/a)k, x 0. Två parametrar att skatta: skalparametern a och formparametern k.

Exempel, forts. Vindhastigheten studeras i Falsterbo respektive Uppsala. Punktskattningar: Plats â k Falsterbo 7.30 2.15 Uppsala 2.27 1.57 Bildkälla: www.tiki-toki.com

Exempel, forts. Histogram från mätdata, täthetsfunktion från anpassad fördelning. Vänster: Falsterbo. Höger: Uppsala.