Föreläsning 4: Konfidensintervall (forts.)

Relevanta dokument
9. Konfidensintervall vid normalfördelning

Thomas Önskog 28/

10. Konfidensintervall vid två oberoende stickprov

Föreläsning 11: Mer om jämförelser och inferens

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TMS136. Föreläsning 13

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Formel- och tabellsamling i matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 3: Konfidensintervall

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

, s a. , s b. personer från Alingsås och n b

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 6: Hypotestester (forts.)

F9 SAMPLINGFÖRDELNINGAR (NCT

TMS136. Föreläsning 10

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

F9 Konfidensintervall

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TMS136. Föreläsning 11

FACIT: Tentamen L9MA30, LGMA30

Föreläsning 5: Hypotesprövningar

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

F3 Introduktion Stickprov

Föreläsningsanteckningar till kapitel 8, del 2

SF1901 Sannolikhetsteori och statistik I

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Avd. Matematisk statistik

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Avd. Matematisk statistik

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

FÖRELÄSNING 7:

Avd. Matematisk statistik

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Stokastiska vektorer och multivariat normalfördelning

Föreläsning 7: Punktskattningar

F10 Problemlösning och mer om konfidensintervall

TMS136. Föreläsning 4

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Kap 2. Sannolikhetsteorins grunder

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Avd. Matematisk statistik

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 7: Stokastiska vektorer

Föreläsning 7: Punktskattningar

Föreläsning 11, Matematisk statistik Π + E

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Avd. Matematisk statistik

Uppgift 1. f(x) = 2x om 0 x 1

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Sannolikhetslära och statistik

Lufttorkat trä Ugnstorkat trä

Demonstration av laboration 2, SF1901

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Formler och tabeller till kursen MSG830

Föreläsning 12: Regression

Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13

TMS136. Föreläsning 7

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

FÖRELÄSNING 8:

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Avd. Matematisk statistik

Avd. Matematisk statistik

Tenta i Statistisk analys, 15 december 2004

Repetitionsföreläsning

TENTAMEN I STATISTIKENS GRUNDER 2

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk Statistik, 7.5 hp

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Samplingfördelningar 1

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Föreläsning 12: Linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik

TAMS79: Föreläsning 6. Normalfördelning

SF1911: Statistik för bioteknik

SF1901 Sannolikhetsteori och statistik I

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Transkript:

Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika situationer där vi börjar med att titta på framförallt skillnader mellan olika mätningar. En rimlig fråga är om det föreligger någon skillnad mellan till exempel väntevärden för två stycken stickprov. Antag att vi har två slumpmässiga stickprov från två normalfördelningar. Vi vet inte direkt om fördelningarna har samma parametrar, så situationen skulle kunna se ut enligt följande. µ µ x Hur avgör vi om till exempel µ µ? Eller snarare om det är så att µ µ? Eller kanske om µ > µ? Går det att avgöra om varianserna skiljer sig åt? Vad gör vi om inte stickprovet är från en normalfördelning? Linjärkombinationer av normalfördelningar Låt X,..., X m och Y,..., Y n vara oberoende slumpmässiga stickprov från Nµ, σ respektive Nµ, σ. Om c och c är konstanter, kan vi hitta ett konfidensintervall för linjärkombinationen c µ + c µ? Svaret beror på vilka antaganden vi gör. Vi börjar med att hitta en lämplig stokastisk storhet. Vi ser att Ec X + c Y c µ + c µ och V c X + c Y c så eftersom vi har oberoende normalfördelade variabler gäller att σ m + c σ n, Z c X + c Y c µ + c µ N,. c σ σ m n Om vi känner σ och σ räcker detta för att ställa upp ett resultat.

. Känd varians Antag att följande värden är uppmätta. Kända varianser x i 47.7 55.6 5.3 46. 54.9 y i 9. 47.8 3.9 37.7 7.9 4. 4.5 4.9 Låt x i vara observationer av stokastiska variabler X i Nµ, 4 och y i observationer av stokastiska variabler Y i Nµ, 9, där samtliga variabler är oberoende. Ange ett 95% konfidensintervall för µ µ. Lösning: Låt W X Y. Varför? Denna storhet har egenskapen att EW EX EY µ µ, vilket är precis vad vi är intresserade av. Vidare är En lämplig teststorhet ges av V W V X + V Y 4 5 + 49 8 43.7. Z W µ µ V W N,. Obligatorisk principfigur! y λ α/ λ α/ x Eftersom kan vi ur olikheten lösa ut sambandet P λ α/ < Z < λ α/ α W λ α/ V W < µ µ < W + λ α/ V W. Vi skattar W med w x y 5. 37.9. Ur tabell finner vi att Φ.96.95 +.5.975, så λ α/.96. Alltså blir intervallet I µ µ.9.96 43.7,.9 +.96 43.7 33.85, 7.95. Vad säger detta oss? Jo, att med 95% säkert så ligger det verkliga värdet för µ µ i intervallet 33.85, 7.95. Till exempel ser vi att noll inte finns med i intervallet, så det måste vara så att µ > µ med hög säkerhet!

. Okända men likadana varianser σ σ Så om vi inte känner till vad varianserna är behöver vi skatta dessa. Om vi dessutom antar att σ σ får vi ett enklare resultat, så vi börjar med det. Om vi nyttjar att σ σ σ i ekvation erhåller vi att Z c X + c Y c µ + c µ N,. c σ + m c n Men vi vet fortfarande inte vad σ är, så vi ersätter σ med stickprovsstandardavvikelsen s. Eftersom vi har två stickprov viktar vi ihop dessa på sedvanligt sätt: s m s + n s. m + n Motsvarande stickprovsvariabel S uppfyller som bekant att och enligt Gossets sats blir T c X + c Y c µ + c µ tm + n. c S + m c n m + n S σ χ m + n Okänd varians Samma siffror som i exemplet ovan, men nu vet vi inte vad standardavvikelserna är. Antag att de är lika, dvs att σ σ σ. Finn ett 95% K.I. för µ µ inte samma uttryck som sist!. Kan du säga något om påståendet att µ > µ? Lösning: Vi antar alltså här att X i Nµ, σ och Y i Nµ, σ. Vi kan skatta varianserna för varje serie med de vanliga stickprovsvarianserna, så s n n i är kända storheter. Dessa viktas ihop enligt Det följer nu att x i x och s m s n s + m s. n + m m y i y T c X + c Y c µ + c µ tn + m. c S + n c m c Låt k : n + c m. Snarlikt med fallet där vi kände varianserna kan vi stänga in T : i P t α/ n + m < T < t α/ n + m α där vi ur olikheten kan lösa ut sambandet T t α/ n + m S k < c µ + c µ < T + t α/ n + m S k. Vi har n 5 och m 8, så m+n frihetsgrader. Ur tabell finner vi att t.5.. 3

y t α/ t α/ x Vi kan räkna ut stickprovsvarianserna för x i och y i separat med formel eller miniräknare. Vi erhåller s 7.8 och s 49.9 små bokstäver, ej stokastiskt!. Den sammanvägda standardavvikelsen blir då 4s + 7s Vidare är c och c, så s 6.374. k c n + c m 5 + 8.57. Alltså blir c t.5 s n + c. 6.374.57 7.6976. m Vi kan också räkna ut att x y 4., så det sökta intervallet ges av I µ µ 4. 7.7, 4. + 7.7 6.4,.8. Vi ser att noll ej ingår i intervallet, så det förligger troligt att µ > µ..3 Okända varianser σ σ Ha ha. Well.. vi har inget användbart exakt samband, men det finns metoder för att hantera även denna situation. Dessa metoder ligger utanför denna kurs, men det kanske kan vara intressant att ha hört talas om dem. Problemet ligger i att uppskatta frihetsgraden ν för tν- fördelningen. Man kan visa Welch-Satterthwaite-ekvationen att S + S appr. s χ / ν, där ν + s n n n n n Därifrån kan vi till exempel använda att s 4 n + n s 4 n. T X Y µ µ S n + S n appr. tν för att ställa upp ett konfidensintervall för µ µ. 4

3 Stickprov i par Om stickproven X,..., X m och Y,..., Y n inte är oberoende får vi problem. Åtminstone om inte beroendet är känt. Låt oss betrakta ett vanligt förekommande exempel, nämligen stickprov i par. Av nödvändighet är då m n så stickproven har samma storlek. Vi tänker oss att x k är observationer från X k Nµ k, σ och Y k Nµ k +, σ. Typexemplet är när vi mäter något före och efter en förändring. Bilda nu ett nytt stickprov Z k av oberoende variabler: Z k Y k X k N, σ, för något σ. Vi är nu tillbaka där vi var föregående föreläsning, så de tekniker vi utvecklade där fungerar även nu. Exempel Preparat mot hjärnbrist. Mätningar i lämplig enhet före och efter behandling hos nio patienter. Person 3 4 5 6 7 8 9 Före 5.8. 8. 9.4.8 6.6 3.7 3.5 7.5 Efter 4.8.4 8.3 9.5. 5.6 3.4 4.4 6. Bestäm ett 99% KI av den genomsnittliga effekten hos preparatet. Kan du styrka att det fungerar? Lösning: Låt x i vara värde före behandling för person i och y i motsvarande efter. Vi antar att olika personer är oberoende och att x i är observationer från X i Nµ i, σ och Y i Nµ i +, σ. Bilda Z i Y i X i N, σ. Vi har nu en enda serie z i y i x i som ges enligt z i -..3...4 -. -.3.9.5 Vi räknar ut s.7886 och z.. Vidare är n 8 och α., så t α/ 8 t.5 8 3.36. Alltså, I. 3.36.7886/ 9,. + 3.36.7886/ 9.66,.. Eftersom nollan finns med kan vi inte förkasta att med 99% säkerhet. Preparatet kan alltså vara verkningslöst. 4 Jämförelse av varianser The box. You opened it. We came. Pinhead Vi antog tidigare att stickproven hade samma varians för att kunna ställa upp en lämplig teststorhet. Hur vet vi det? Kan vi på något sätt avgöra om det antagandet är rimligt? Vi vill alltså jämföra varianserna för två stickprov och för att göra det behöver vi introducera en ny fördelning ljuva lycka!. 5

4. F-fördelningen F-fördelning Definition. Vi kallar X Fd, d F-fördelad med frihetsgraderna d > och d > om f X x B d, d d d d x d + d d +d x, x, d där Ba, b Γa Γb Γa + b är beta-funktionen. Notera att X Fd, X χ d..5 y d, d d, d d 3, d 5 d 4, d 6 d 5, d d 8, d d, d d, d 3 4 5 6 x Sats. Om V χ d och V χ d är oberoende så gäller att V /d V /d F d, d. Bevis. Vi börjar med att betrakta hur man kan hitta täthetsfunktionen för kvoten Z X/Y av två oberoende stokastiska variabler X och Y. Vi antar att respektive täthetsfunktion är kontinuerlig. Det gäller att f X,Y x, y f X xf Y y och X F Z z P Y z P X Y z, Y > + P X Y z, Y < ˆ yz f X,Y x, ydx dy + f Y yf X yz dy + ˆ 6 ˆ yz f X,Y x, ydx dy f Y y F X yz dy,

från vilket det följer att f Z z d dz F Zz y f Y yf X yz dy. yf Y yf X yz dy + ˆ yf Y yf X yz dy Vi noterar även att för r > gäller att X P r x P X rx f X/r x rf X rx. Således ges täthetsfunktionerna för V /d och V /d av och f V /d x f V /d y d d / d / Γ d x d/ e dx/, x d d / d / Γ d y d/ e dy/, y, så enligt resultatet ovan för kvoten V /d erhåller vi att V /d f Z z yf V /d yf V /d yz dy d d / d d / z d / d +d / Γ d Γ d y d /+d / e yd +d z/ dy / / u yd + d z variabelbyte: dy d + d z du d d / d d / z d/ d + d z d +d / d +d / Γ d Γ d d d / d d / Γ d +d Γ d Γ d z d / d + d z d +d / u d +d / e u/ du eftersom ˆ d +d / Γ d +d u d +d / e u/ du då detta är integralen av täthetsfunktionen för en stokastisk variabel U χ d + d. Vi kan hyffsa till slutresultatet för f Z z genom att bryta ut d ur d + d z d +d / och använda beta-funktionen: f Z z d d / z d/ d d / + d d +d / d z B d, d vilket är precis vad vi ville visa. d d B d, d d / z d / + d d +d / z, d 7

Sats. Om X Fd, d så är EX d d, d >, och V X d d + d d d d 4, d > 4. Bevis. Välj två oberoende stokastiska variabler V χ d och V χ d. Eftersom vi visade ovan att V /d F d, d följer det att V /d / V /d V EX E och V / oberoende E V /d d d där vi nyttjat att EV d. Vi beräknar E/V : ˆ [ E c x d/ e x/ dx c d / xd / e x/ V d f V x dx d, under förutsättning att d >. Således blir d V d ] E V d V + d d d E, d V x d/ e x/ dx EX d d om d >. När det gäller variansen använder vi ett analogt resonemang: V /d V X V d V E V E V /d d V V / / V och V oberoende d E V E E V E d V V + EV d d E V d d d + d d d E V d eftersom V V d och vi använt resultatet för E/V ovan. Vi partialintegrerar nu för att beräkna E/V : ˆ E c x k/ 3 e x/ dx V [ ] c d / xd / e x/ + x d/ e x/ dx d 4 d 4 E d 4d, om d > 4 och vi nyttjat kalkylen för E/V ovan. Alltså blir V X d d + d d d 4d d d vilket var precis vad vi ville visa. V d d + d d d d 4, V 8

Sats. Om X F d, d så är /X F d, d. Bevis. Låt V /X och antag att v >. Då gäller att F V v P /X v P X /v F X /v f V v v f X/v, så f V v v B d B d, d d, d d d B d, d eftersom Ba, b Bb, a. Således är V F d, d. d d d d / d / + d d +d / v d v d / d /+ d +d / d d v + v d v d d / d +d / v d / + d d v d +d / Sats. Om T tn så är T F, n. Bevis. Låt V T och antag att v. Då gäller att F V v P T v P v T v F T v F T v, så f V v F V v v f T v v f T v v / + v n f T v Γ n+ v v nπ Γ n Γ n + / Γ Γ n v / + v n+/ n n / B, v / + n+/ n n n v, eftersom f T t f T t och Γ/ π. Således är V F, n. n+/ 4. Jämförelse av två varianser Låt X,..., X n och Y,..., Y n vara oberoende slumpmässiga stickprov från Nµ, σ respektive Nµ, σ. Då vet vi att n S σ Det följer då enligt ovan att χ n och n S σ χ n. F S /σ S /σ F n, n. 9

Exempel Betrakta det tidigare exempel igen, där vi hade x i 47.7 55.6 5.3 46. 54.9 y i 9. 47.8 3.9 37.7 7.9 4. 4.5 4.9 Antag att x i är oberoende observationer av Nµ, σ och att y i är oberoende observationer av Nµ, σ. Ange ett 95% konfidensintervall för σ /σ. Lösning. Låt F S /σ. På grund av antagandet följer det att F F 4, 7. Vi söker ett S/σ konfidensintervall med konfidensgrad 95% så vi behöver gränser a och b så att P F < a.5 och P F > b.5. Ur tabell finner vi att a. och b 5.56 i Matlab finv[.5.975], 4, 7. Notera att tabeller oftast endast innehåller värden för sannolikheter.5. Anledning till det är att vi kan använda att F F m, n F n, m. F Konkret för oss just nu blir det således.5 P F < a P a < P F F a Vi försöker nu lösa ut σ /σ : a < S /σ S /σ S S σ σ < b b Vi skattar nu S och S med respektive stickprovsvarians: S S < σ σ s 7.8 och s 49.86. Ett konfidensintervall för σ/σ ges alltså av 7.8 I 5.56 49.86, 7.8.658, 3.999.. 49.86 Vill vi ha ett konfidensintervall för σ /σ tar vi helt enkelt roten ur gränserna: P < a I σ /σ.658, 3.999.566,.865. F.975. a I Matlab kan man använda funktionen vartest för att skapa konfidensintervallet. >> x [47.7 55.6 5.3 46. 54.9 ]; >> y [9. 47.8 3.9 37.7 7.9 4. 4.5 4.9]; >> [H P CI] vartestx,y,.5, both H P.345 CI.658 3.998 Vad H och P representerar kommer vi till på nästa föreläsning. S S.

5 Konfidensintervall via CGS Så vad gör vi om stickprovet inte är från en normalfördelning? 6 Stickprov för andel Exempel Ett företag som sysslar med opinionsanalys väljer slumpmässigt ut 4 vuxna i Sverige och frågar om de har åsikt A. Av dessa svarar 8 ja alla svarar. Bestäm ett approximativt 95% konfidensintervall för andelen av den stora populationen som håller åsikt A. Lösning. Vi låter X vara antalet som svarar ja. Då är egentligen X HypN, 4, p, där N är antalet vuxna i Sverige rimligen ca 8 miljoner. Då 4 8 är det helt rimligt att anta att X appr. Bin4, p. Vi vill skatta den okända andelen p och väljer som skattningsvariabel P X 4 Vi har observerat att p 8/4.. Binomialfördelningen är lite jobbig eftersom den är diskret, så vi försöker oss på en approximation. Eftersom 4 p p 4..8 64 är ordentligt större än är det rimligt att approximera binomialfördelningen med normalfördelning. Alltså, P appr. Np, p p/4. Låt oss bilda Z P p p p/4 appr. N,. Observera att vi ersatt med det skattade värdet på p i kvadratroten men inte i täljaren. Vi nyttjar här alltså medelfelet d, dvs d P p p/4.. Vi kan nu räkna precis som om vi känner standardavvikelsen exakt, så om vi söker ett approximativt 95% K.I. erhåller vi I p..96.,. +.96..6,.4. 7 Jämförelse av två andelar Antag att vi har två maskiner. Vid uppmätning fann man att Maskin producerade defekta enheter av 4, och att Maskin producerade 6 defekta enheter av 6. Modell: Låt X vara antal defekta enheter från Maskin och Y antal defekta enheter från Maskin. Under lämpligt oberoendeantagande vet vi att X Bin4, p och Y Bin6, p där p och p är de verkliga felsannolikheterna. Vi skattar lämpligen med P X 4 och P Y 6.

Vi har observerat att p /4.5 och p 6/6.. Alltså är p p.5. Är detta signifikant? För att svara på frågan behöver vi räkna lite sannolikheter. Eftersom både n p p och n p p är mycket större än är det rimligt att approximera binomialfördelningen med normalfördelning. Alltså, appr. P N p, p p 4 och appr. P N p, p p. 6 Då följer det att Vi bildar nu P P appr. N p p, p p + p p. 4 6 Z P P p p p p /4 + p p /6 appr. N,. Observera att vi ersatt med skattade värden på p och p i kvadratroten men inte i täljaren. Det blir fortfarande approximativt men lite sämre så klart normalfördelat, men underlättar mycket för beräkningar. Vi har p p /4 + p p /6.64. Vi kan nu räkna precis som om vi känner standardavvikelsen exakt, så om vi söker ett approximativt 95% K.I. erhåller vi I p p.5.96.64,.5 +.96.64.8,.. Endast negativa värden, så p < p med hög sannolikhet! Maskin är antagligen sämre.