FÖRELÄSNING 7: 2016-05-10 LÄRANDEMÅL Normalfördelningen Standardnormalfördelning Centrala gränsvärdessatsen Konfidensintervall Konfidensnivå Konfidensintervall för väntevärdet då variansen är känd Samla in data Sammanställ data Gissa modell för data Testa modellen Använd modellen för att förutsäga information om ny data onormalfördelning ocgs okonfidensintervall NORMALFÖRDELNINGEN En kontinuerlig slumpvariabel X som är normalfördelad har två parametrar: väntevärdet μ och standardavvikelsen. X~Normal(μ, ) Frekvensfunktionen ges av, f(x) = 1 2π e (x μ)2 / 2 Hur ser normalfördelningens frekvensfunktion ut?
Symmetrisk kring det förväntade värdet μ, så P(X μ + z) = P(X μ z). Ju högre standardavvikelse, desto planare kurva Både fördelnings- och frekvensfunktion för normalfördelningen är komplicerade och därför använder vi istället tabell för fördelningsfunktionen. Eftersom det finns oändliga kombinationer av parametrarna μ och, och det är opraktiskt att ha oändligt många tabeller, så skriver vi om en normalfördelad slumpvariabel X så att den blir standardnormalfördelad. Om X är en normalfördelad slumpvariabel med väntevärde μ och standardavvikelse, så är Z standardnormalfördelad, X~Normal(μ, ) Z = X μ Z~Normal(0,1) En normalfördelning med väntevärde 0 och standardavvikelse 1 kallas för standardnormalfördelning. Fördelningsfunktionen för standardnormalfördelningen betecknas Φ(z) = P(Z z) och ges av tabell. Låt X~Normal(100, 20). Vad är P(X 140)? P(X 140) = P(X 100 140 100) = P(X 100 40) = P ( X 100 20 = P(Z 2) = Φ(2) Vi kan slå upp värdet för Φ(2) i en tabell och finner att Φ(2) = P(Z 2) = 0.9772 Hur ofta avviker en observation med 1, 2, eller 3 standardavvikelser från det förväntade värdet? P(X μ + ) = P(X μ ) = P ( X μ P(X μ + 2) = P(X μ 2) = P ( X μ P(X μ + 3) = P(X μ 3) = P ( X μ 1) = Φ( 1) 0.1587 2) = Φ( 2) 0.0228 3) = Φ( 3) 0.0013 40 20 ) = KONFIDENSINTERVALL När vi punkskattar en parameter får vi ingen information om hur exakt skattningen är. För att få detta kan vi istället intervallskatta. Ett konfidensintervall med konfidensgrad 100(1 α)% för parametern θ är ett intervall [L 1, L 2 ] sådant att, oavsett värde på θ, P[L 1 θ L 2 ] = 1 α Ju lägre konfidensgrad, desto smalare konfidensintervall.
Ett 95%-igt konfidentintervall för binomialparametern p ges av intervallet [L 1, L 2 ] så att, P[L 1 p L 2 ] = 0.95 För att kunna konstruera ett konfidensintervall för en parameter θ måste vi 1) ha en slumpvariabel vars uttryck innehåller parametern θ, och 2) känna till denna slumpvariabels fördelning. CENTRALA GRÄNSVÄRDESSATSEN I denna kurs kommer vi koncentrera oss på parametrar som kan skattas med hjälp av stickprovsmedelvärdet, t.ex. p eller λ, samt på slumpvariabelns väntevärde μ. Ofta vet vi dock inte vad varken X eller X har för fördelning. Sats, Antag att X 1, X 2,, X n är ett stickprov med oberoende observationer där alla har samma fördelning med väntevärde μ och standardavvikelse. Om stickprovsstorleken n är stort säger centrala gränsvärdessatsen att summan av stickprovet, X 1 + X 2 + X n, är approximativt normalfördelat med väntevärde E[X 1 + X 2 + X n ] = nμ och standardavvikelse Var(X 1 + X 2 + X n ) = n. n i=1 X i ~Normal(nμ, n) Delar vi med stickprovsstorleken n får vi att stickprovsmedelvärdet är approximativt normalfördelat med väntevärde μ och standardavvikelse n, X ~Normal (μ, n ) Centrala gränsvärdessatsen visar alltså att summan av oberoende slumpvariabler dragna från samma fördelning, samt stickprovsmedelvärdet X approximativt kommer följa en normalfördelning oavsett vilken fördelning stickprovet är draget från, givet att stickprovet är tillräckligt stort (tumregel: n 30). Detta medför att vi kan konstruera konfidensintervall för stora stickprov, i och med att vi känner fördelningen för stickprovsmedelvärdet! KONFIDENSINTERVALL FÖR μ DÅ ÄR KÄND Vi vill skatta en slumpvariabels X väntevärde μ från ett stort stickprov X 1, X 2,, X n och beräkna ett konfidensintervall för vår skattning. Vi vet inte X fördelning, E[X] = μ och Var(X) = Centrala gränsvärdessatsen säger oss att, eftersom stickprovet är stort så är stickprovsmedelvärdet X approximativt normalfördelat med samma väntevärde som X har, μ, men med något längre standardavvikelse, / n, X ~Normal (μ, n )
Skriv om X till en standardnormalfördelad slumpvariabel, X μ / n ~Normal(0,1) Säg att vi vill sätta upp ett två-sidigt 100(1 α)% konfidensintervall för X väntevärdet μ med hjälp av den standardnormalfördelade Z = X μ / n Då vill vi att, P( z α 2 Z z α 2 ) = 1 α P ( z α 2 X μ z / n α 2) = P( z α 2 / n X μ z α 2 / n) = = P(X z α 2 n μ X + z α 2 n) = 1 α Alltså kommer den lägre respektive övre gränsen för konfidensintervallet ges av, L 1 = X z α 2 n L 2 = X + z α 2 n Låt X 1, X 2,, X n vara ett stickprov med storlek n draget från en normalfördelning med väntevärde μ och känd standardavvikelse. Ett 100(1 α)% två-sidigt konfidensintervall ges då av, X ± z α/2 / n Slumpvariabeln X betecknar uppmätt värmekapaciteten i ett nytt material. Ett stickprov av 30 bitar testas och väntevärdet av X punktskattas till stickprovsmedelvärdet, μ = x = 0.643. Baserat på tidigare test vet man att standardavvikelsen är = 0.01. Hur exakt är denna skattning? Finn ett 95%-igt konfidensintervall för väntevärdet av X, α = 1 95 100 = 0.05 α 2 = 0.025 Använd tabell för att finna z 0,025, P[Z z 0.025 ] = Φ( z 0.025 ) = 0.025 Φ( 1.96) = 0.025 z 0.025 = 1.96 Alltså ges det 95%-iga konfidensintervallet av,
X ± z α 2 n 0.643 ± 1.96 0.01/ 30 0.643 ± 0.0035 Om vi hade nöjt oss med ett 90% konfidens? α = 1 90 100 = 0.1 α 2 = 0.05 Använd tabell för att finna z 0,05, P[Z z 0.05 ] = Φ( z 0.05 ) = 0.05 Φ( 1.64) = 0.049 Φ( 1.65) = 0.051 z 0.05 ( 1.64 ( 1.65)) 2 Alltså ges det 90%-iga konfidensintervallet av, X ± z α 2 n 0.643 ± 1.645 0.01/ 30 0.643 ± 0.0030 = 1.645 Det 90%-iga konfidensintervallet är alltså smalare än det 95%-iga. Ju högre säkerhet vi kräver av vår skattning, desto fler värden måste vi inkludera och konfidensintervallet blir bredare. Ett 99%- igt konfidensintervall för väntevärdet μ ges av 0.643 ± 0.0047.