SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Relevanta dokument
Thomas Önskog 28/

SF1901 Sannolikhetsteori och statistik I

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Matematisk statistik för D, I, Π och Fysiker

9. Konfidensintervall vid normalfördelning

TMS136. Föreläsning 10

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

F9 Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsningsanteckningar till kapitel 8, del 2

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Avd. Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Grundläggande matematisk statistik

Avd. Matematisk statistik

FÖRELÄSNING 7:

SF1901: Medelfel, felfortplantning

Föreläsning 7: Punktskattningar

Föreläsning 7. Statistikens grunder.

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TMS136. Föreläsning 11

Matematisk statistik för B, K, N, BME och Kemister

FÖRELÄSNING 8:

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Mer om konfidensintervall + repetition

Lufttorkat trä Ugnstorkat trä

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 7: Punktskattningar

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

TMS136. Föreläsning 13

Föreläsning 7: Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 8: Konfidensintervall

Lektionsanteckningar 11-12: Normalfördelningen

10. Konfidensintervall vid två oberoende stickprov

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Punktskattning 1 Ett exempel

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

F10 Problemlösning och mer om konfidensintervall

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 4: Konfidensintervall (forts.)

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 12: Repetition

Föreläsning 12: Linjär regression

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

f(x) = 2 x2, 1 < x < 2.

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Stickprovsvariabeln har en fördelning / sprindning

Repetitionsföreläsning

Föreläsningsanteckningar till kapitel 9, del 2

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Avd. Matematisk statistik

Föreläsning 3: Konfidensintervall

MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 FÖRELÄSNINGSANTECKNINGAR I

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 5: Hypotesprövningar

Avd. Matematisk statistik

Avd. Matematisk statistik

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

Avd. Matematisk statistik

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

F3 Introduktion Stickprov

MVE051/MSG Föreläsning 7

Transkript:

SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017

PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt (rep.) Punktskattningar (rep.) Intervallskattning (Kap. 12.2) Exempel i situationer med normalfördelade data: intervall för väntevärde när standardavvikelsen är känd resp. okänd. (Kap. 12.3)

STATISTISK INFERENS KONSTEN ATT DRA SLUTSATSER (REP.) Sannolikhetsteorin: Hur beskriver man slumpen med hjälp av sannolikhetsmodell? Statistikteorin: Vilka slutsatser kan man dra av ett datamaterial? Vi har skaffat oss ett stickprov av observationer x1,..., x n av oberoende s.v. X 1,..., X n genom experiment. Fördelningen för X beror av en okänd parameter, θ. Vi vill uttnyttja stickprovet (data) för att uppskatta fördelningsparameter θ. Exempel: 1. Uppskatta medelhastigheten hos hela populationen bilar som passerar korsningen: θ = µ = E (X ). X i är hastighet hos bil i. Data: x 1 = 65, x 2 = 50,..., x 78 = 56. 2. Hur stor är den förväntade andelen fortkörare? θ = p = P(X > 50). Data: y = 41.

STATISTISK INFERENS ÖVERSIKT (REP.) Punktskattning: Hur gör man en bra uppskattning av en okänd storhet (parametervärde)? Hur vet man att uppskattningen är bra? Intervallskattning: Bestämma istället ett intervall som innehåller det sanna (verkliga) parametervärdet med givet (stor) sannolikhet, t ex 0.95. Hypotesprövning: Om uppskattningen blev 0.013, kan det sanna parametervärdet ändå vara 0.01?

PUNKTSKATTNING: (REP.) Forts. på exempel. Modell: Vi har X i som hastighet hos bil i där E (X i ) = µ och V (X i ) = σ. Alla X i antas vara oberoende och lika fördelade för i = 1,..., n där n = 78. Om vi dessutom antar att X i är normalfördelade ska det också anges: X i N(µ, σ), X i är oberoende för i = 1,..., n, n = 78. Vi skattar fördelningsparametern θ med hjälp av någon lämplig funktion θ (x) av stickprovet x = (x 1,..., x n ). θ (x) (ofta skrivs som θobs (x)) kallas för en skattning av θ. Funktionen θ (X ) av motsvarande stokastiska variabler X = (X 1,..., X n ) kallas för skattare av θ. θ (X ) är också en stokastisk variabel med t. ex. fördelning, väntevärde och varians. Skilj på θ som är en parameter, dvs okänt tal, och θ som är dess skattning. Skattningen varierar med stickprovet, det gör inte θ! Tokning: Fördelning för θ (X ) talar om vad skattningen kunde blivit istället, om vi gjort om experiment, t ex mäter hastighet hos 78 nya bilar.

EGENSKAPER HOS PUNKTSKATTNINGAR (REP.) Önskvärda egenskaper. En skattare bör vara väntevärdesriktig, (skattar den rätt sak?). E (θ (X )) = θ, effektiv, (hur osäker den är?). V (θ (X )) är så liten som möjligt, och konsistent, dvs P( θ n θ > ε) 0 då n. Skattningen blir bättre när man har fler observationer. Ett problem kan uppstå när man vill ange osäkerheten i en skattare med hjälp av standardavvikelse/varians är att denna kan berå av någon okänd parameter. För att ange osäkerhet numeriskt måste även standardavvikelsen skattas. Detta kallas för medelfelet och kommer till stor användning vid beräkning av konfidenintervall. Def: Medelfelet för skattningen θ är en skattning av standardavvikelsen D(θ (X )) och betecknas med d(θ ). Exempel på tavlan.

MK OCH ML SKATTNINGAR (REP.) Minsta-kvadrat metoden, MK: Om E (X i ) = µ i (θ) så fås MK-skattningen av θ genom att minimera förlustfunktionen m Q(θ) = (x i µ i (θ)) 2 i=1 med avseende på θ. Maximum likelihood-metoden, ML: ML skattningen av θ fås genom att maximera likekihood-funktionen L(θ) med avseende på θ { px1,...,x L(θ) = n (x 1,..., x n ; θ) diskreta fallet f X1,...,X n (x 1,..., x n ; θ) kontinuerliga fallet Tolkning av ML-metod: välj det parametervärde som ger högst sannolikhet för de givna mätvärdena.

INTERVALLSKATTNING En punktskattare ger endast ett varde, sjalva skattningen av okänd parameter! D(θ ) och d(θ ) ger en uppfattning om osäkerheten i skattningen men det ar ofta svårt att tolka exakt vad den betyder i en praktisk situation. Vi skall nu ytterligare precisera ett mått pa den osäkerhet slumpen bidrar med nar det vi forsöker skatta parametrar. I många situationer är man inte nöjd med att bara ge en punktskattning av en parameter θ, t ex ph-värdet uppskattas till θ = 5.7, utan man skulle få ph-värdet ligger med 95% säkerhet mellan 5.3 och 6.1, eller ph-värdet är med 95% säkerhet minst 5.4. Ett intervall av denna typ kallas ett konfidensintervall. Syfte: Att få numeriskt intervall där θ ligger med föreskriven säkerhet. Vi måste också precisera uttrycket med 95% säkerhet.

INTERVALLSKATTNING (FORTS.) Def: Låt x = (x 1,..., x n ) vara utfall av ett slumpmässigt stickprov X = (X 1,..., X n ) vars fördelning beror av en okänd parameter θ och låt 0 < α < 1. Ett intervall, I θ = (a 1 (x), a 2 (x)) kallas ett konfidensintervall för θ med konfidensgrad 1 α om den innehåller θ med sannolikhet 1 α, dvs P (a 1 (X ) < θ < a 2 (X )) = 1 α. Konfidensgränserna, a 1 (x) och a 2 (x) är observationer av stickprovsvariabler, a 1 (X ) och a 2 (X ). Ett konfidensintervall I θ = (a 1 (x), a 2 (x)) kan alltså betraktas som en observation av ett intervall med stokastiska gränser.

INTERVALLSKATTNING (FORTS.) Vanliga värden för konfidensgrad 1 α är 0.95, 0.99 och 0.999. Tolkning: om man då påstår att konfidensintervallet innehåller θ, löper man en risk på 0.05, 0.01 respektive 0.001 att göra ett felaktigt uttalande. Frekvenstolkning: Antag att man gång på gång skulle kunna upprepa insamlingen av stickprov och varje gång ta fram, säg ett tvåsidigt 95% intervall. I det långa loppet skulle andelen 0.95 av intervallen täcka över det okända parameter värde θ, medan återstoenden skulle missa det. Exempel av simuleringar ges i Lab 2. Om båda gränserna är ändliga kallas intervallet tvåsidigt. Ett ensidigt konfidensintervall ges av P (a 1 (X ), ) = 1 α, eller P (, a 2 (X )) = 1 α.

ALLMÄN METOD FÖR KONFIDENSINTERVALL Börjar med exempel på tavla. Konstruktion av konfidensintervall för en okänd parameter θ kan beskrivas i följande steg: 1. Skriv upp parameter att skatta (θ) och hitta punktskattare θ (X 1,..., X n ). 2. Bestäm punktskattares fördelning. 3. Transformera punktskattare till en ny s.v. vars fördelning inte beror på några okända parametrar, dvs till en pivotvariabel 1. 4. Stäng in den transformerade s. v. mellan kvantiler. 5. Skriv om till I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )). 1 Pivot=svängtapp eller gruntbult, grunden som resten av något vilar på.

TILLÄMPNING PÅ NORMALFÖRDELNINGEN: I µ DÅ σ ÄR KÄND. Låt x 1,..., x n vara ett slumpmässigt stickprov från N(µ, σ), dvs x i, i = 1,..., n är observationer av de oberoende s.v. X 1,..., X n, där X i N(µ, σ). Vi är intresserade att ställa upp ett 1 α konfidensintervall för väntevärdet µ. Antag att σ är känd. 1. En punktskattare av µ är µ = X = n i=1 X i (ML skttattning.) 2. µ = X N(µ, σ n ), dvs E (µ ) = µ och D(µ ) = σ n. 3. Enligt sats 6.1 är µ µ D(µ ) = X µ σ/ N(0, 1), n dvs en pivotvariabel. 4. Vi uttnyttjar egenskaper av N(0, 1)- fördelning för att bestämma kvantiler ( P λ α/2 < X ) µ D(µ ) < λ α/2 = 1 α. 5. Omforma olikheten till konfidensintervallet för µ ( ) I µ = ( x ± λ α/2 D(µ σ )) = x ± λ α/2 n

TILLÄMPNING PÅ NORMALFÖRDELNINGEN (FORTS.) : I µ DÅ σ ÄR OKÄND. När σ är okänd så är D(µ ) = σ/ n också okänd och intervallet I µ = ( x ± λ α/2 D(µ )) blir ej användbart. Lösning: 1-3. Vi ersätter D(µ ) med skattare d = S/ n (medelfelet) där n 1 S = n 1 (X i X ) 2 i=1 och använder istället en pivotvariabel T = µ µ d(µ ) = X µ S/ t(n 1). n 4-5. Kvantiler för T fås nu från t-fördelningen, dvs t α/2 (n 1) och t α/2 (n 1) (se mer om t-fördelning i Kap. 12.3). Omforma ( P t α/2 (n 1) < X ) µ d(µ ) < t α/2(n 1) = 1 α till I µ på samma sätt som ovan.

KONFIDENSINTERVALL FÖR µ: SAMAFATTNING Låt x 1,..., x n vara ett slumpmässigt stickprov från N(µ, σ) där µ är okänd. Då om σ är känd: I µ = ( x ± λ α/2 D(µ )) = ( x ± λ α/2 σ n ), om σ är okänd: I µ = ( x ± t α/2 (n 1)d(µ )) = ( x ± t α/2 (n 1) σ n ), där kvantilerna ges av λα/2 är N(0, 1)-fördelnings α/2-kvantil (se Tabell 2) tα/2 (n 1) är t-fördelnings α/2-kvantil (se Tabell 3)

t-fördelning FIGUR: Täthetsfunktion för t-fördelning med ν = n 1 frihetsgrader.