TMS136. Föreläsning 7

Relevanta dokument
TMS136. Föreläsning 10

Samplingfördelningar 1

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

TMS136. Föreläsning 4

F9 SAMPLINGFÖRDELNINGAR (NCT

Lektionsanteckningar 11-12: Normalfördelningen

FÖRELÄSNING 7:

MVE051/MSG Föreläsning 7

TMS136. Föreläsning 11

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TMS136. Föreläsning 13

Jörgen Säve-Söderbergh

Föreläsning G60 Statistiska metoder

Formel- och tabellsamling i matematisk statistik

9. Konfidensintervall vid normalfördelning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1901: Sannolikhetslära och statistik

F3 Introduktion Stickprov

Föreläsning 12: Repetition

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Grundläggande matematisk statistik

Mer om konfidensintervall + repetition

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

F9 Konfidensintervall

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Thomas Önskog 28/

4 Diskret stokastisk variabel

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

F10 Problemlösning och mer om konfidensintervall

Föreläsning 4: Konfidensintervall (forts.)

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

, s a. , s b. personer från Alingsås och n b

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Föreläsning 12: Regression

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 7. Statistikens grunder.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Kap 2. Sannolikhetsteorins grunder

Kap 3: Diskreta fördelningar

FÖRELÄSNING 8:

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 5. Kapitel 6, sid Inferens om en population

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

0 om x < 0, F X (x) = c x. 1 om x 2.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Summor av slumpvariabler

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Centrala gränsvärdessatsen (CGS). Approximationer

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Demonstration av laboration 2, SF1901

Statistik 1 för biologer, logopeder och psykologer

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

10. Konfidensintervall vid två oberoende stickprov

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Repetitionsföreläsning

1.1 Diskret (Sannolikhets-)fördelning

TENTAMEN I STATISTIKENS GRUNDER 2

Statistik 1 för biologer, logopeder och psykologer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Studietyper, inferens och konfidensintervall

Våra vanligaste fördelningar

LMA522: Statistisk kvalitetsstyrning

FACIT: Tentamen L9MA30, LGMA30

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

SF1901 Sannolikhetsteori och statistik I

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Uppgift a b c d e Vet inte Poäng

Tentamen MVE301 Sannolikhet, statistik och risk

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Introduktion till statistik för statsvetare

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Matematisk statistik KTH. Formelsamling i matematisk statistik

13.1 Matematisk statistik

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

LMA521: Statistisk kvalitetsstyrning

TENTAMEN I STATISTIKENS GRUNDER 2

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Transkript:

TMS136 Föreläsning 7

Stickprov När vi pysslar med statistik handlar det ofta om att baserat på stickprovsinformation göra utlåtanden om den population stickprovet är draget ifrån Situationen skulle kunna vara att en population har ett medelvärde/väntevärde som är okänt och vi vill göra en kvalificerad gissning (skattning) av det okända medelvärdet baserad på ett stickprov Ett stickprov som inte ännu är observerat är en uppsättning oberoende och likafördelade s.v. X 1,, X n Ett observerat stickprov är en uppsättning tal och betecknas x 1,, x n Att beskriva ett observerat stickprov med olika mått (läge, spridning, ) kallas att göra deskriptiv statistik

Stickprovsmedelvärde Om vi observerar x 1,, x n från en population med väntevärde μ kan vi skatta μ med (det observerade) stickprovsmedelvärdet n x = 1 n i=1 x i Lite längre fram i kursen ska vi formalisera vad vi menar med skatta

Stickprovsvarians Om vi observerar x 1,, x n från en population varians σ 2 kan vi skatta σ 2 med (den observerade) stickprovsvariansen 1 n 1 n i=1 x i x 2 Om vi tar roten ur får en skattning av (populations)standardavvikelsen σ Man kan undra varför det står n 1 och inte n i nämnaren men längre fram ska vi se att detta ger oss en önskvärd egenskap

Beräkningsformel Det är en övning (använd gamla hederliga kvadreringsregeln) att visa att 1 n 1 n i=1 x i x 2 = n i=1 x i 2 1 n n 1 n i=1 x i 2

Ändliga populationer Oftast är populationerna vi vill uttala oss om mycket större än de stickprov vi tar och då är det ingen mening att fundera på precis hur stora populationerna är Om vi (till äventyrs) kan observera hela populationen som här antas innehålla N objekt har vi alltså x 1,, x N och då är μ = 1 N N x i i=1 och σ 2 = 1 N N i=1 x i μ 2

Ett annat spridningsmått Varians är ju ett spridningsmått Ett annat spridningsmått som används i bland annat kvalitetsstyrning är variationsbredd (range) Om vi observerat x 1,, x n är variationsbredden r = max x i min (x i )

Histogram Alla har sett ett histogram, men vad är det för något? Vi observerar x 1,, x n Vi delar in x-axeln i ett antal lika breda intervall (eller fack) sådana att våra observationer ryms inom intervallen För varje intervall gör vi en stapel vars höjd bestäms av antalet/andelen observationer som hamnar i intervallet

Frekvens Histogram exempel Vi har genererat 100 observationer (i Excel) från en kontinuerligt likformig fördelning på intervallet (0,10) 16 14 12 10 8 Histogram 6 Frekvens 4 2 0 0 1 2 3 4 5 6 7 8 9 10 Fler Fack

Sannolikhetsplot En sannolikhetsplot är ett grafiskt verktyg som används för att avgöra om observerade data genererats från en viss fördelning Många statistiska metoder förutsätter att man har normalfördelade data och för att avgöra om de data man fått kommer från en normalfördelning är en sannolikhetsplot ett av många användbara verktyg

Att konstruera en sannolikhetsplot Vi observerar x 1,, x n Vi ordnar observationerna i storleksordning från den minsta till den största x (1),, x (n) Sedan plottar vi paren x j, (j 0.5)/n på ett sannolikhetspapper för den föreskrivna fördelningen Om observationerna kommer från den föreskrivna fördelningen hamnar punkterna (någorlunda) längs en rät linje

Sannolikhetspapper Ett sannolikhetspapper är egentligen ett koordinatssystem där man delat in y-axeln på ett sätt som är representativt för den föreskrivna fördelningen Antag att vi vill kolla om observationerna kan anses normalfördelade

Sannolikhetspapper? Om vi kikar i standard normalfördelningstabellen i bokens appendix ser vi att z = 0.67 ger Φ z = 0.25 och att z = 0.67 ger Φ z = 0.75 Som tumregel har vi att den räta linjen (längs vilken observationerna ska ligga för att anses normalfördelade) ska approximativt gå genom de punkter som delar av 25% och 75% av våra data

Sannolikhetspapper? Så om vi har tio observationer drar vi linjen så att den skär x (3), 0.67 och x (8), 0.67 För att få y-koordinaterna för punkterna som ska placeras ut standardiserar vi observationerna y (i) = x i s x Vi placerar ut punkterna x (i), y (i) i koordinatssystemet och om de ligger längs den räta linjen är det rimligt att anta att data är normalfördelade

Så här ska det inte se ut

Men så här är bättre

Ett annat sätt att kolla För att förvissa sig om att observerade data kommer från en normalfördelning vill man se att ett histogram (med lämpligt valda intervall/fack) liknar klockan

Centrala gränsvärdessatsen Centrala gränsvärdessatsen (CGS, Central limit theorem) är ett remarkabelt resultat som under vissa snälla antaganden ger att stickprovsmedelvärdet är approximativt normalfördelat om stickprovet är någorlunda stort Detta betyder att man kan räkna sannolikheter för ett stickprovsmedelvärde utan att veta vilken fördelning stickprovet kommer ifrån

CGS Låt X 1,, X n vara oberoende och likafördelade med E X i = μ och SD X i = σ Då gäller för stickprovsmedelvärdet n att X = 1 n i=1 X i lim P n X μ σ n x = Φ(x)

CGS På FL6 hade vi ett exempel där i räknade på en sannolikhet för medelfyllningen av läskburkar under antagande om normalfördelad påfyllning Med CGS räcker det att veta väntevärdet och variansen för stickprovsmedlemmarna för att kunna räkna på sannolikheter för stickprovsmedelvärdet

CGS Histogrammen nedan visar (i varje diagram) 50 observationer av stickprovsmedelvärden baserade på 2, 5, 10, 20 och 50 observationer av kontinuerligt likformigt fördelade (på (0,1)) s.v.

CGS

CGS

CGS

Följder av CGS Vi har tidigare sett att man kan approximera binomialfördelning med normalfördelning om parametern n i binomialfördelningen är tillräckligt stor Att detta funkar är en följd av CGS eftersom vi kan betrakta en binomialfördelad s.v. som en summa av oberoende och likafördelade nollett-värda Bernoulli-variabler

Följder av CGS Vi har också sett att man kan approximera Poissonfördelning med normalfördelning om parametern λ i Poissonfördelningen är tillräckligt stor Att detta funkar är en följd av CGS eftersom vi kan betrakta en Poissonfördelad s.v. med ett stort λ som en summa av oberoende Poissonfördelade alla med samma lilla λ

Följder av CGS Vi formulerade ju slutklämmen i CGS som lim P n X μ σ n x = Φ(x) Detta betyder ju även att X är approximativt normalfördelad med väntevärde μ och standardavvikelse σ n n Det betyder också att i=1 X i är approximativt normalfördelad med väntevärde nμ och standardavvikelse nσ

Exempel När man tillverkar en viss typ av spik är väntevärdet för massan hos en spik 30g och standardavvikelsen är 1g Vad är sannolikheten att 200 spikar tillsammans inte väger mer än 5990g om vi antar att spikarnas massor är oberoende av varandra?

Exempel forts Låt X i för i = 1,.., 200 vara massan av en spik. Vi har att μ = E X i = 30 och σ = SD X i = 1 200 Massan för 200 spik är i=1 X i och det följer 200 att E i=1 X i = 200 30 = 6000 och att 200 SD i=1 X i = 200 1 = 200

Exempel forts Vi har då att 200 P X i i=1 5990 = P 200 X i i=1 6000 200 5990 6000 200 Φ 0.71 0.24

Viktigt Massan för 200 spik kan INTE skrivas 200X i! 200 SD 200X i = 200 men SD i=1 X i = 200 så 200X i har inte (ens) samma fördelning som 200 i=1 X i Gör inte misstaget att tro att data blir normalfördelade bara för att stickprovet blir stort, ty det är inte vad CGS säger. Det är stickprovsmedelvärdet som blir normalfördelat när stickprovet blir stort!

Exempel En flodhäst på ett zoo äter ett eller två paket flodhästmat per dag. Sannolikheten att en flodhäst äter ett paket är 10% och sannolikheten att den äter två paket är 90%. Om vi antar att hur mycket en flodhäst äter på olika dagar är oberoende, vad är sannolikheten att en flodhäst äter mer än 700 paket på ett år (365 dagar)?

Exempel Om vi låter X i var hur många paket mat en flodhäst är dag i har vi att E X i = 1 0.1 + 2 0.9 = 1.9 och V X i = 1 2 0.1 + 2 2 0.9 1.9 2 = 0.09 SD X i = 0.3

Exempel 365 Om vi låter W = i=1 X i vara hur många paket en flodhäst äter under ett år har vi alltså att E W = 365 1.9 = 693.5 och SD W = 365 0.3 Det följer att 700 693.5 P W > 700 P Z > 365 0.3 = 1 Φ 1.13 0.13