Lektionsanteckningar 11-12: Normalfördelningen

Relevanta dokument
Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning G60 Statistiska metoder

Samplingfördelningar 1

FÖRELÄSNING 7:

Statistik 1 för biologer, logopeder och psykologer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

FÖRELÄSNING 8:

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

F9 SAMPLINGFÖRDELNINGAR (NCT

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

F3 Introduktion Stickprov

Föreläsning 12: Regression

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 7: Punktskattningar

TMS136. Föreläsning 4

TMS136. Föreläsning 7

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

4 Diskret stokastisk variabel

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning 7: Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning G70 Statistik A

Kap 3: Diskreta fördelningar

F9 Konfidensintervall

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 7: Punktskattningar

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Studietyper, inferens och konfidensintervall

Grundläggande matematisk statistik

8. NÅGRA SPECIELLA KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 12: Linjär regression

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Föreläsning 7. Statistikens grunder.

Några extra övningsuppgifter i Statistisk teori

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 5. Kapitel 6, sid Inferens om en population

Repetitionsföreläsning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Mer om slumpvariabler

TMS136. Föreläsning 11

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

1.1 Diskret (Sannolikhets-)fördelning

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

SF1911: Statistik för bioteknik

Föreläsningsanteckningar till kapitel 8, del 2

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

TMS136. Föreläsning 10

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Uppgift a b c d e Vet inte Poäng

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 3. Sannolikhetsfördelningar

MVE051/MSG Föreläsning 7

8 Inferens om väntevärdet (och variansen) av en fördelning

LMA521: Statistisk kvalitetsstyrning

LMA522: Statistisk kvalitetsstyrning

bli bekant med summor av stokastiska variabler.

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Problemdel 1: Uppgift 1

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Forskningsmetodik 2006 lektion 2

SF1901 Sannolikhetsteori och statistik I

Grundläggande matematisk statistik

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

SF1901: Sannolikhetslära och statistik

Kap 2. Sannolikhetsteorins grunder

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

, s a. , s b. personer från Alingsås och n b

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Grundläggande matematisk statistik

15. SAMPLINGFÖRDELNINGAR OCH CENTRALA GRÄNSVÄRDESSATSEN

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Transkript:

Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet omfattar alla värden variabeln kan anta. En kontinuerlig slumpvariabel illustreras med en kurva. Om sannolikhetsmodellen är korrekt beskriver alltså denna kurva variabelns fördelning i populationen. När vi bestämmer kurvan anpassar vi skalan så att arean under kurvan blir lika med 1. Då är det möjligt att göra sannolikhetsberäkningar. 1

11.1 Normalfördelningen Normalfördelningen är den viktigaste fördelningen i statistik. Normalfördelningen är kontinuerlig och den har en symmetriskt klockformad sannolikhetskurva. Normalfördelningen har flera goda matematiska egenskaper, som gör den enkel att hantera. Många fördelningar kan approximeras med normalfördelningen. Variationen i medelvärden och procenttal i stickprov kan analyseras med hjälp av normalfördelningen. Normalfördelningen är ett nödvändigt instrument vid nästan all statistisk analys. 2

En slumpvariabel X som kan beskrivas med uttrycket 2 1 x μ 2 f( x) 1 σ = e där < x < (1) σ 2π sägs vara normalfördelad med parametrarna μ och σ. μ och σ är normalfördelningens väntevärde (medelvärde) och standardavvikelse. När vi känner dessa parametrar känner vi variabelns sannolikhetsfördelning fullständigt. Normalfördelningen är symmetrisk kring sitt väntevärde. Detta är en egenskap som vi har nytta av vid praktiska sannolikhetsberäkningar. Givetvis gäller också att ytan under kurvan är lika med 1. 3

Tre normalfördelade variabler med samma standardavvikelse men olika medelvärden 4

Fyra normalfördelade variabler med samma medelvärde men olika standardavvikelser 5

Cirka 68 procent av observationerna på en normalfördelad variabel ligger inom plus och minus en standardavvikelse från dess medelvärde. Cirka 95 procent av observationerna på en normalfördelad variabel ligger inom plus och minus två standardavvikelser från dess medelvärde. 99,7 procent av observationerna på en normalfördelad variabel ligger inom plus och minus tre standardavvikelser från dess medelvärde. 6

11.2 Standardiserade normalfördelning När man beräknar sannolikheter för normalfördelade variabler arbetar man alltid med den standardiserade normalfördelningen. Man brukar använda bokstaven Z för att beteckna en standardiserad normalfördelad variabel. Om X är en normalfördelad variabel med medelvärde μ och standardavvikelsen σ är den standardiserade variabeln Z = X μ (2) σ normalfördelad med medelvärdet noll och standardavvikelsen ett, dvs. ( ) EZ ( ) X E X μ E μ μ μ = = 0 σ σ = = (3) σ 2 Var ( Z ) Var X μ = 1 Var 2 ( X σ = ) = = 1 (4) σ σ σ2 7

Den standardiserade normalfördelningen är symmetrisk kring väntevärdet noll. Det nya i denna sats är att en normalfördelad variabel som standardiseras förblir normalfördelad. Detta innebär att alla normalfördelade variabler, oavsett väntevärde och standardavvikelse, kan transformeras till den standardiserade normalfördelningen. När denna standardisering är gjord kan man göra sannolikhetsberäkningar med hjälp av en Z tabell. 8

11.3 Stickprov I ett slumpmässigt urval från en population där variabeln X har fördelningen p(x), medelvärdet μ och variansen σ 2, är observationerna X1, X2,..., X n oberoende slumpvariabler med samma fördelning p(x). Speciellt gäller att: E( X ) = E( X ) =... = E( X ) = μ (5) 1 2 n VarX ( ) VarX ( )... VarX ( ) σ 2 = = = = (6) 1 2 n De värdena som variablerna X1, X2,..., X n antar i ett faktiskt stickprov betecknas x 1, x 2,..., x n. Sammanfattningsvis konstaterar vi att slumpmässigt urval omfattar n observationer är n slumpvariabler som har alla samma fördelning som populationen. Detta innebär inte alla stickprov är lika. 9

De har visserligen samma sannolikhetsfördelning men det faktiska utfallet skiljer sig från stickprov till stickprov. En slumpvariabel kan man beskriva med medelvärdet och variansen. För stickprovsmedelvärdet är väntevärdet E( X) = E 1 X X... X 1 + + + = E X + X +... + X n n ( 1 2 n) ( 1 2 n) 1 = 1 E( X1) + E( X2) +... + E( Xn ) = (... n n μ + μ + + μ ) = 1 n n μ = μ (7) Vi säger att stickprovsmedelvärdet X är en väntevärdesriktig skattning av populationsmedelvärdet μ. Innan stickprovet är taget är X en slumpvariabel. Vilket värde x denna variabel antar i ett konkret försök beror på vilka individer som kommer med i stickprovet, dvs. på slumpen. 10

Om vi bara tar ett stickprov är det troligt att medelvärdet x antingen är mindre än eller större än μ. Någon garanti att vi ska få det exakta värdet μ finns naturligtvis inte. Variansen i stickprovsmedelvärdet blir ( ) = 1 ( 1+ 2+... + n ) Var X Var X X X n 2 ( VarX ( 1) VarX ( 2)... VarX ( n) ) = 1 + + + n ( ) 2 = 1 σ2+ σ2+... + σ2 = 1 nσ2= σ (8) n2 n2 n Beräkningen förutsätter att variablerna X1, X2,..., X n är parvisa okorrelerade. Denna förutsättning är uppfylld när urvalet kommer från en stor population. Vi ser att variansen i stickprovsmedelvärdet är omvänt proportionellt mot stickprovets storlek. 11

Fördelningen för X koncentreras därför mer och mer kring värdet μ då n växer. För ett stort stickprov är det därför troligt att x ligger nära μ. 12

11.4 Linjära kombinationer Linjära kombinationer av normalfördelade variabler är normalfördelade. Både summor och medelvärden är linjära kombinationer. En summa av normalfördelade variabler blir normalfördelad. För ett stickprov omfattande n observationer X1, X2,..., X n på en normalfördelad variabel med medelvärdet μ och standardavvikelsen σ gäller att: t X är normalfördelad med E( X ) = μ och σ x = Var( X ) = σ n Summan S= X1+ X2 +... + Xn är normalfördelad med E(S ) = n μ och σ S = Var( S) = n σ 13

11.5 Centrala gränsvärdessatsen Summan av n oberoende slumpvariabler med samma fördelning är ungefär normalfördelad om n är tillräckligt stort. En viktig följd av centrala gränsvärdessatsen blir att summor och medelvärden beräknade på stora stickprov är ungefär normalfördelade oavsett populationens fördelning. I figur 1 presenteras samplingfördelningen för en normalfördelad variabel med väntevärde 5 och standardavvikelsen 3. Vi ser att även om vi bara drar ett urval på en observation från denna fördelning är samplingfördelningen normalfördelad. Men ju större urval, desto mindre blir variansen kring väntevärdet. 14

Figur 1 Samplingfördelning för en Normalfördelad Variabel Normalfördelad Variabel n=1 Normalfördelad Variabel n=5 0.0 2.0 4.0 6.0 8-5 0 5 10 15 Väntevärde 5 och Standardavvikelsen 3 0.0 2.0 4.0 6.0 8 0 2 4 6 8 10 Väntevärde 5 och Standardavvikelsen 3 Normalfördelad Variabel n=30 Normalfördelad Variabel n=100 0.0 2.0 4.0 6.0 8 3 4 5 6 7 Väntevärde 5 och Standardavvikelsen 3 0.0 2.0 4.0 6.0 8 3.5 4 4.5 5 5.5 6 Väntevärde 5 och Standardavvikelsen 3 15

I figur 2 visas samplingfördelningen för en snedfördelad variabel med väntevärde 5 och standardavvikelsen 5. Vi ser tydligt att samplingfördelningen går mer och mer mot en normalfördelning och redan vid urvalsstorleken n = 30, har vi en normalfördelning. När stickprovstorleken ökar minskas variansen och fördelningen koncentreras därför mer och mer kring det förväntade värdet. 16

Figur 2 Samplingfördelning för en Snedfördelad Variabel Snedfördelad Variabel n=1 Snedfördelad Variabel n=5 0.0 2.0 4.0 6.0 8.1 0 5 10 15 20 25 Väntevärde 5 och Standardavvikelsen 5 0.0 2.0 4.0 6.0 8 2 4 6 8 10 12 Väntevärde 5 och Standardavvikelsen 5 Snedfördelad Variabel n=30 Snedfördelad Variabel n=100 0.0 2.0 4.0 6.0 8 3 4 5 6 7 Väntevärde 5 och Standardavvikelsen 5 0.0 2.0 4.0 6.0 8 4 4.5 5 5.5 6 Väntevärde 5 och Standardavvikelsen 5 17

I figur 3 visas samplingfördelningen för en binomialfördelning med andelen positiva lika med 0,30. När vi drar en enda observation ur populationen får vi antingen en nolla eller en etta. Sannolikheten att få en nolla är 0,70 och sannolikheten att få en etta är 0,30, varför den första grafen enbart tar dessa två värden. Sedan när vi ökar på stickprovsstorleken blir binomialfördelningen mer och mer lik en normalfördelning. Vid stickprovstorleken n = 100 har vi en till synes normalfördelning och fördelningen koncentreras mer och mer kring det förväntade värdet. 18

Figur 3 Samplingfördelning för en Binomialvariabel Binomialfördelad Variabel n=1 Binomialfördelad Variabel n=5 0.2.4.6.8 0.2.4.6.8 1 0.1.2.3.4 0.2.4.6.8 1 Binomialfördelad Variabel n=30 Binomialfördelad Variabel n=100 0.0 5.1.1 5 0.2.4.6 0.0 2.0 4.0 6.0 8.1.1.2.3.4.5 19