TAMS65 - Föreläsning 5 Konfidensintervall - Normalapproximation

Relevanta dokument
Januari DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER Januari 2018 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

DN/Ipsos väljarbarometer april 2017 Stockholm, 21 april Kontakt: David Ahlin,

DN/IPSOS VÄLJARBAROMETER

DN/Ipsos väljarbarometer januari 2017 Stockholm, 24 januari Kontakt: David Ahlin,

December DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER December 2017 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

November DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 20 November 2017 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

Februari DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 20 februari 2018 David Ahlin, Björn Benzler, Ipsos

November DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER November 2017 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

DN/Ipsos väljarbarometer februari 2017 Stockholm, 21 februari Kontakt: David Ahlin,

DN/Ipsos väljarbarometer mars 2017 Stockholm, 22 Mars Kontakt: David Ahlin,

DN/Ipsos väljarbarometer december 2016 Stockholm, 19 december Kontakt: David Ahlin,

MARS DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 22 mars 2018 David Ahlin, Björn Benzler, Ipsos

DN/Ipsos väljarbarometer november 2016 Stockholm, 22 november Kontakt: David Ahlin,

Maj DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 22 Maj 2018 David Ahlin, Björn Benzler, Ipsos

Juni DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 19 Juni 2018 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

DN/IPSOS VÄLJARBAROMETER

Oktober DN/IPSOS. Januari. December. VÄLJARBAROMETER 25 oktober 2018 Nicklas Källebring, Björn Benzler, Ipsos

DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen

APRIL DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 25 april 2018 David Ahlin, Björn Benzler, Ipsos

DN/Ipsos Nästa partiledare för Moderaterna

DN/Ipsos temamätning om Nato och Sveriges försvar

DN/IPSOS PARTILEDARFÖRTROENDE

DN/Ipsos: Väljarna om svenska värderingar augusti 2016

DN/Ipsos: Förtroendet för partiledarna

DN/Ipsos Är Sverige tryggt eller otryggt? Ger medier en rättvisande bild?

DN/Ipsos Väljarnas viktigaste frågor och utvecklingen i Sverige

DN/Ipsos: Förtroendet för partiledarna

DN/Ipsos väljarbarometer oktober 2016 Stockholm, 26 oktober Kontakt: David Ahlin,

DN/Ipsos väljarbarometer 24 oktober 2014

DN/Ipsos temaundersökning: Svenskarnas attityder till invandring och integration

DN/IPSOS FÖRSVAR OCH NATO Januari 2018 David Ahlin, Björn Benzler, Ipsos

DN/Ipsos väljarbarometer november 2014 Stockholm, 25/

DN/Ipsos väljarbarometer februari 2015 Stockholm, 24 februari Kontakt:

DN/Ipsos väljarbarometer december 2014 Stockholm, 16/

DN/Ipsos väljarbarometer 7 18 augusti 2014

DN/Ipsos väljarbarometer 22/8 1/9 2014

DN/Ipsos väljarbarometer maj 2014

DN/Ipsos väljarbarometer april 2015 Stockholm, 29 april Kontakt: David Ahlin,

DN/Ipsos väljarbarometer maj 2015 Stockholm, 26 maj Kontakt: David Ahlin,

DN/Ipsos väljarbarometer augusti 2014

DN/Ipsos fördjupning: Väljarna om vinst och valfrihet i välfärden 28 oktober David Ahlin, Björn Benzler, Ipsos

Bankbytare Stockholm, 15 december Ipsos Ipsos.

Förtroendet för polisen. Stockholm, 19 december Ipsos Ipsos.

DN/Ipsos väljarbarometer mars 2016 STOCKHOLM, 21 MARS Kontakt: David Ahlin,

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 6 Hypotesprövning

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Thomas Önskog 28/

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Fortsatt kraftigt fall för socialdemokraterna - Skillnaden mellan blocken halverad sedan juni

Föreläsning 11: Mer om jämförelser och inferens

10. Konfidensintervall vid två oberoende stickprov

Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

DN/Ipsos: Väljarnas betyg på regeringen och oppositionen Stockholm, 19 mars 2015

Matematisk statistik KTH. Formelsamling i matematisk statistik

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Dagens parti: Liberalerna 3 juli 2017

Stockholmarna om tiggeri 24 oktober Ipsos.

F9 Konfidensintervall

TV4/NOVUS VÄLJARBAROMETER

Mer om konfidensintervall + repetition

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

DN/Ipsos: Allmänheten om Nato och Sveriges försvar Stockholm den 22 december

F10 Problemlösning och mer om konfidensintervall

TMS136. Föreläsning 10

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SKOP:s väljarbarometer kommentar av SKOP:s Örjan Hultåker

DN/Ipsos Sakfrågeägarskap i politiken

DN/Ipsos extramätning Vilket regeringsalternativ är bäst för Sverige? Stockholm den 4 december 2014

DN/Ipsos väljarbarometer januari 2015 Stockholm, 28 januari Kontakt:

DN/Ipsos väljarbarometer augusti 2015 Stockholm, 25 augusti Kontakt: David Ahlin,

Föreläsning 11, FMSF45 Konfidensintervall

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Föreläsning 12: Regression

9. Konfidensintervall vid normalfördelning

TAMS65 - Föreläsning 12 Test av fördelning

Dagens parti: Socialdemokraterna 5 juli 2017

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 11, Matematisk statistik Π + E

0 om x < 0, F X (x) = c x. 1 om x 2.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik för B, K, N, BME och Kemister

Föreläsningsanteckningar till kapitel 8, del 2

SF1901 Sannolikhetsteori och statistik I

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Dagens parti: Centerpartiet 4 juli 2017

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Transkript:

TAMS65 - Föreläsning 5 Konfidensintervall - Normalapproximation Martin Singull Matematisk statistik Matematiska institutionen

Innehåll Fö5 Repetition Normalapproximation Binomialfördelning CGS Hypergeometrisk fördelning Simultan konfidensgrad Bootstrap TAMS65 - Fö5 1/39

Sammanfattning av normalfördelningsfallet a) Vi har ett eller flera stickprov från N(µ i, σ) där σ är okänd. Antag att θ är en linjärkombination av µ i som vi är intresserad av. Θ N(θ, D), där D = σ konst. som skattas med d = s konst Θ θ D t(f ), där D = S konst och där f = frihetsgraden för S 2. Vi får intervall I θ = (ˆθ t d). b) Konfidensintervall för σ eller σ 2, använd hjälpvariabeln fs 2 σ 2 χ2 (f ). TAMS65 - Fö5 2/39

Approximativ normalfördelning Vi har observationer från andra fördelningar och en skattningsvariabel Θ som är approx. N(θ, D). Hjälpvariabel: Θ θ D Θ θ D approx. N(0, 1), (D känd) approx. N(0, 1), (D okänd) TAMS65 - Fö5 3/39

Ensidiga respektive tvåsidiga intervall I allmänhet vill man stänga åt båda hållen för en parameter, vilket innebär att man gör ett tvåsidigt intervall. Om man redan innan man ser mätvärdena har en hypotes tex av typen µ > µ 0 som man ville bekräfta, så gör man ett nedåt begränsat intervall för µ, men man får inte kika på mätvärdena för att se tendensen och sedan anpassa intervallet till det man ser. För σ gör man ofta intervall av typen (0, a), dvs uppåt begränsade. Om du är osäker, gör tvåsidigt intervall. TAMS65 - Fö5 4/39

Exempel - Normalapproximation vid binomialfördelning Januari 2018 DN/IPSOS JANUARI POLITISK BAROMETER Januari 2018 David Ahlin, Björn Benzler, Ipsos DECEMBER 1 Källa: https://www.ipsos.com/sv-se/dnipsos-politisk-barometer-januari-2018 TAMS65 - Fö5 5/39

DN/IPSOS VÄLJARBAROMETER JANUARI 2018 Fler tror på M-ledd regering Partisympatier januari DN/Ipsos väljarbarometer med intervjuer 11 22 januari skattar stödet för allianspartierna till drygt 42 procent, det högsta stödet sedan våren 2016 och ca tre procentenheter bättre än valresultatet 2014. Det samlade stödet för de rödgröna partierna skattas till 38 procent, drygt fem procentenheter lägre än valresultatet 2014. Samtidigt mäter vi stödet för både KD och MP till under riksdagsspärren. KD till 3,3 och MP till 3,6. Stödet för Liberalerna skattas i januari till 4,9. Stödet för Moderaterna skattas till 25 procent vilket innebär att stödet för partiet har ökat med omkring tio procentenheter sedan bottennoteringen i maj 2017. Betyget på regeringen 40 procent av väljarna tycker att regeringen gör ett dåligt jobb medan 30 procent ger regeringen godkänt. Väljarnas betyg på regeringen har inte förändrats nämnvärt under det senaste året. Valvinden Allt fler tror att nästa regering leds av Moderaterna. Sedan sommaren 2017 har andelen som tror att nästa regering leds av Moderaterna ökat från 16 procent till 39 procent. 2 TAMS65 - Fö5 6/39

DN/IPSOS VÄLJARBAROMETER JANUARI 2018 Riksdagsvalet 2014 Januari 2017 Oktober 2017 November 2017 December 2017 MODERATERNA 23,33 23 22 21 23 25 +2,6 LIBERALERNA 5,42 7 6 5 5 5 +0,1 CENTERPARTIET 6,11 9 10 11 10 9-1,2 KRISTDEMOKRATERNA 4,57 3 3 3 3 3 +0,7 SOCIALDEMOKRATERNA 31,01 25 30 28 28 28-0,7 VÄNSTERPARTIET 5,72 8 7 8 7 7-0,1 MILJÖPARTIET 6,89 4 4 5 4 4-0,9 SVERIGEDEMOKRATERNA 12,86 16 15 16 16 16 +0,1 FEMINISTISKT INITIATIV 3,12 2 2 2 2 2-0,5 Övriga 0,97 2 1 1 2 1-0,4 Januari 2018 Förändring Osäkra*** - 13 13 17 13 17 +3,8 M, L, C, KD 39,43 42 41 40 40 42 +2,4 S, V, MP 43,72 38 41 41 40 38-1,6 Blockskillnad** -4,29 4 0-1 - 4 Intervjuperiod - 12-22 januari 12-22 oktober 9-19 november 6-14 december 10-21 januari Antal intervjuer - 1652 1609 1614 2029 1640 4 **M+L+C+KD minus S+V+MP *** Andel osäkra beräknas utifrån basen svensk medborgare 18+ och inkluderar både respondenter som angivit något parti och respondenter som uppger att de inte skulle rösta om det vore val idag, rösta blankt, är osäkra eller inte vill svara. TAMS65 - Fö5 7/39

Hur säker information har man då om de verkliga väljarsympatierna vid den aktuella tidpunkten? Det är klart att samtliga procentsiffror bara är approximativa värden för de sanna procentsiffrorna (dessutom avrundade till heltal) för hela populationen. Tur eller otur med urvalet av personer påverkar siffrorna i undersökningen. Som exempel väljer vi att räkna på Kristdemokraterna siffror. I januari 2018 fick Kristdemokraterna 3.3% av rösterna. Låt p vara andelen Kd-väljare bland de röstberättigade. Hur säker information har vi om p? Skulle Kd ramla ur riksdagen? TAMS65 - Fö5 8/39

Man har intervjuat 1640 personer och bland dem var det n = 1366 (16.7% osäkra) som angav något parti. Bland dessa angav x = 1366 0.033 = 45 personer att de skulle rösta på kd. Vi antar att de n = 1366 personerna som angav något parti kan betraktas som slumpmässigt urval bland de röstande (inte självklart sant, eller?). Då gäller att x = 45 är observation av X Hyp(N, n, p) approx. Bin(n, p) då N n, N 6 10 6. TAMS65 - Fö5 9/39

Exempel - Härledning av I p vid binomialfördelning x = 45 är en observation från X Bin(1366, p). Bilda I p. Skatta p med ˆp = x n = 3.3% som är en observation från P = X n. Vidare gäller att X Bin(n, p) N(np, np(1 p)) eftersom n ˆp(1 ˆp) > 10. Detta ger att och P = X n N (p, P p p(1 p) n ) p(1 p) n N(0, 1). TAMS65 - Fö5 10/39

Då vi även har okända parametrar i nämnaren är den här hjälpvariabeln svår att använda. Men, vi har att P p P(1 P) n N(0, 1) eftersom P är en konsistens skattning av p. Stäng in ensidigt eftersom vi är intresserade av ett intervall på formen I p = (0, a), lös ut och ersätt med observationer ger intervallet I p = ( ˆp + z 0.95 ˆp(1 ˆp) n ) = (0 ; 4.1%), där z 0.95 = 1.645. Vi kan inte säga om Kd skulle ramla ur riksdagen. Två sidigt intervall ger I p = (ˆp z 0.975 ˆp(1 ˆp) n ) = (2.4% ; 4.2%) TAMS65 - Fö5 11/39

Vad kan vi säga om förändring för Moderaterna sedan december 2017? jan 2018: x 1 = 1366 0.25 = 343 är observation av X 1 Bin(n 1, p 1 ) där n 1 = 1366. Vi har att ˆp 1 = 25.1%. dec 2017: n 2 = (1 0.13) 2029 = 1765, x 2 = 1765 0.225 = 397 är observation av den s.v. X 2 Bin(n 2, p 2 ). Här är n 2 = 1765 och ˆp 2 = 22.5%. Vi söker I p1 p 2. TAMS65 - Fö5 12/39

Exempel - Härledning av I p1 p 2 vid binomialfördelning Vi har nu punktskattningen för skillnaden ˆp 1 ˆp 2 = x 1 n 1 x 2 n 2 = 25.1% 22.5% = 2.6%. De s.v. P 1 och P 2 är approximativt normalfördelade eftersom n 1 ˆp 1 ˆq 1 > 10 och n 2 ˆp 2 ˆq 2 > 10. Då är även den s.v. P 1 P 2 approximativt normalfördelad P 1 P 2 approx. N (?,?). TAMS65 - Fö5 13/39

Parametrar ges av ( E P1 P ) ( X1 2 = E X ) 2 = 1 E(X 1 ) 1 E(X 2 ) n 1 n 2 n 1 n 2 = 1 n 1 n 1 p 1 1 n 2 n 2 p 2 = p 1 p 2 ( var P1 P ) ( X1 2 = var X ) 2 = 1 n 1 n 2 n1 2 var(x 1 ) + 1 n2 2 var(x 2 ) = n 1p 1 q 1 n 2 1 där q i = 1 p i för i = 1, 2. + n 2p 2 q 2 n 2 2 = p 1q 1 n 1 + p 2q 2 n 2, TAMS65 - Fö5 14/39

Alltså, vi har den s.v. P 1 P 2 approx. N ( p1 q 1 p 1 p 2, + p ) 2q 2 n 1 n 2 och vi har följande hjälpvariabel för konstruktion av I p1 p 2 binomialfördelning vid P 1 P 2 (p 1 p 2 ) P1 Q1 + P 2 Q2 n 1 n 2 approx. N(0, 1), där P i och Q i = 1 P i. Vi kan ersätta p i och q i i nämnaren eftersom P i och därmed Q i är konsistenta skattningar av p i och q i. TAMS65 - Fö5 15/39

Instängning ger I 0.95 p 1 p 2 = d.v.s. 0.4% < p 1 p 2 < 5.6%. ( ˆp1 ˆq 1 ˆp 1 ˆp 2 1.96 n 1 + ˆp 2 ˆq 2 n 2 ) = (2.6% 3.0%) ( 0.4% ; 5.6%) Eftersom noll ingår i intervallet så kan vi inte påvisa någon förändring i väljarstödet för Moderaterna (!?!) Förändringen sedan december 2017 är inte statistiskt säkerställd. TAMS65 - Fö5 16/39

DN/IPSOS VÄLJARBAROMETER JANUARI 2018 Metod Intervjuer Ipsos har under perioden 10 21 januari intervjuat 1640 röstberättigade väljare, varav 609 via telefon och 1031 via digitala intervjuer. Av dessa har 1366 uppgett partisympati. Datainsamling har skett parallellt dels genom telefonintervjuer med ett slumpmässigt individurval, dels genom digitala intervjuer i en slumpmässigt rekryterad respondentpanel. Skattningen av partiernas stöd under intervjuperioden är ett snitt av resultaten från telefonintervjuerna och de digitala intervjuerna enligt principen 1+1/2. Urval Urvalet för telefonintervjuerna är ett individbaserat slumpmässigt urval. Vi söker namngivna individer och säkerställer att vi kommit till rätt person vid uppringning. Urvalet köps in med de telefonnummer som finns registrerade på respektive person och vid sökning av intervjupersoner så använder Ipsos tillgängliga nummer, dvs både mobilnummer och fasta telefonnummer i den utsträckning som dessa finns tillgängliga. Urvalet för de digitala intervjuerna är ett kvoturval ur en slumpmässigt rekryterad respondentpanel. Frågeställning Mätningen visar fördelningen av partisympatierna i väljarkåren om det vore riksdagsval idag. Frågan som ställs är: om det var val till riksdagen idag, vilket parti skulle du då rösta på?. Om respondenten inte uppger ett parti får de följdfrågan: men vilket parti lutar det mest mot för dig?. I redovisningen slås dessa två frågor samman. Publiceringsregler För att ett partis siffror ska särredovisas krävs att partiet ska ha fått stöd av minst 1,5 procent i tre på varandra följande mätningar eller att partiet får minst 3,5 procent i en enskild mätning. För partier som finns representerade i den folkvalda församling som väljarbarometern avser sker redovisning av partiets stöd oavsett dess storlek. Undersökningen publiceras med förstahandsrätt för Dagens Nyheter. Frågor om undersökningen besvaras av David Ahlin, david.ahlin@ipsos.com Heltalsredovisning Ipsos har i samråd med Dagens Nyheter beslutat att gå över till rapportering utan decimalredovisning. Skattningarna av partiernas väljarstöd avrundas till närmaste heltal. Syftet är att minska fokus på mindre förändringar i partiernas stöd månad till månad. Stödet för partierna redovisas som avrundande tal utan decimaler mellan valen. Decimalredovisning används sista tiden före val. Förändringarna från mätning till mätning redovisas även fortsatt som ett decimaltal. Tolkningshjälp Ipsos tillämpar kvoturval för de digitala intervjuerna och kan därför inte beräkna statistisk felmarginal för skattningarna av partiernas väljarstöd. För att ge tolkningshjälp till läsare redovisar vi ett antal jämförelsetal per parti som den aktuella skattningen och förändringen jämfört med föregående månad kan relateras till. 13 TAMS65 - Fö5 17/39

DN/IPSOS VÄLJARBAROMETER JANUARI 2018 Metod 14 Vägning digitala intervjuer 1. Kön och ålder (5 åldersgrupper) 2. Utbildning (Förgymnasial, 2-åring gymnasial, 3-årig gymnasial samt eftergymnasial utbildning) 3. Geografi (Fördelning mellan storstäder inklusive förorter, större städer inklusive förorter samt övriga kommuntyper) 4. Politisk geografi (Indelning av kommunerna utifrån partiblockens genomsnittliga resultat i valen 2006, 2010 och 2014) 5. Politisk nyhetskonsumtion (Mäts med frågan Hur ofta läser, lyssnar eller tittar du på nyheter som rör partier, politik och samhällsutvecklingen? ) 6. Värderingsvägning enligt GAL-TAN- dimensionen (grön, alternativ, libertär vs traditionell, auktoritär, nationalistisk). Dimensionen mäts med fyra frågeställningar som fångar respondenternas syn på : Nationellt självbestämmande kontra globalisering Ska de som avviker från majoritetens normer anpassa sig eller få avvika Gemensam kultur kontra mångkultur Bör brottslingar i första hand vårdas eller straffas Utifrån svaren delas respondenterna in i tre grupper utifrån vilka värderingar man har (GAL-TAN och de med blandade värderingar). 7. Parti i riksdagsvalet 2014 Vägning telefonintervjuer 1. Kön och ålder mot SCB-data 2. Geografi (Fördelning mellan storstäder inklusive förorter, större städer inklusive förorter samt övriga kommuntyper) 3. Parti i riksdagsvalet 2014 Telefon- respektive paneldata bearbetas och vägs separat. TAMS65 - Fö5 18/39

Användning av centrala gränsvärdessatsen Låt x 1,..., x n vara observationer av oberoende och likafördelade s.v. X 1,..., X n, som inte är normalfördelade, där E(X i ) = µ och var(x i ) = σ 2. Vi söker konfidensintervall för µ. Vi har ˆµ = x är observation av X = 1 n n i=1 X i. Enligt centrala gränsvärdessatsen gäller att ( ) σ X approx. N µ, om n ca 30. n TAMS65 - Fö5 19/39

Hjälpvariabel för konstruktion av I µ vid normalapproximation enligt centrala gränsvärdessatsen då n 30: X µ σ/ n approx. N(0, 1) om σ är känd. Om standardavvikelsen σ är okänd ersätts den med en lämplig skattningsvariabel, ˆσ. Kan vara S, men valet av ˆσ beror på vad man vet om fördelningen för de s.v. X i. TAMS65 - Fö5 20/39

Exempel I föreläsning 3 hade vi ett exempel med tider i månader mellan 37 successiva utbrott för vulkanen Mauna Loa. Vi antog att tiderna mellan utbrott var oberoende och exponentialfördelade med väntevärde µ och fick ˆµ = x = 36.722. Vi söker ett 95% konfidensintervall för µ. Centrala gränsvärdessatsen ger att X approx. N ( ) µ µ, 36 eftersom var(x i ) = σ 2 = µ 2 (se F-S) och då är den s.v. X µ µ/ 36 approx. N(0, 1). TAMS65 - Fö5 21/39

Hjälpvariabeln som ger intervallet ( I µ = X µ µ/ 36 x 1 + 1.96, 36 Vi kan också använda hjälpvariabeln approx. N(0, 1) ) x 1 1.96 (27.7, 54.5) 36 X µ X / approx. N(0, 1) 36 ( ) x ger intervallet I µ = x 1.96 36 (24.7, 48.7), vilket är lite sämre än det ovan eftersom vi approximerar lite mer i vår hjälpvariabel. TAMS65 - Fö5 22/39

Exempel - Användning av centrala gränsvärdessatsen De flesta kunder blir irriterade om de behöver stå i kö länge för att betala de varor de köpt på en stormarknad. En effektiv hantering i kassorna kan minska betjäningstiden och därmed kötiden, om bemanningen av kassorna får vara oförändrad. Inom en viss kedja av stormarknader med samma bemanningspolitik har man på stormarknad A en traditionell utformning av kassor och betalningssystem medan man på stormarknad B har en ny förhoppningsvis effektivare utformning av kassorna. Man har mätt 100 oberoende betjäningstider för var och en av de två stormarknaderna och fått de genomsnittliga betjäningstiderna x = 3.65 minuter för A och ȳ = 2.40 minuter för B. Kan man med någon säkerhet påstå att den nya utformningen av kassorna är bättre? Motivera ditt svar med ett lämpligt konfidensintervall med approximativ konfidensgrad 95%. Du får anta att betjäningstiderna är oberoende och exponentialfördelade med väntevärden µ 1 respektive µ 2. TAMS65 - Fö5 23/39

Vi vill veta om µ 2 < µ 1, dvs µ 1 µ 2 > 0. x 1,..., x n obs från X i Exp(µ 1 ) och y 1,..., y m obs från Y j Exp(µ ( 2 ). Skatta µ 1 med ˆµ 1 = x som är en obs. från X N µ 1, µ 1 n ). Skatta µ 2 med ˆµ 2 = ȳ som är en obs. från ( ( ) Ȳ N µ 2, µ 2 µ m ). Bilda X Ȳ N µ 1 µ 2, 2 1 n + µ2 2 m och X hjälpvariabel Ȳ (µ 1 µ 2 ) N (0, 1) X 2 n + Ȳ 2 m Stäng in, lös ut och ersätt med observationer ger intervallet ( ) x 2 I µ1 µ 2 = x ȳ z 0.95 n + ȳ 2 m ; = (0.53 ; ), där z 0.95 = 1.645. B har kortare betjäningstider med stor sannolikhet. TAMS65 - Fö5 24/39

Poissonfördelning Låt x 1,..., x n vara observationer av oberoende s.v. X 1,..., X n, där X i Po(µ). Då har vi ˆµ = x som är observation av M = X = 1 n X i. n Den s.v. n i=1 X i Po(nµ) som är approx. N(nµ, nµ) om vi har att nˆµ > 15. Då följer det att Hjälpvariabel är nu X = 1 n i=1 n X i approx. N i=1 X µ X /n ( µ, approx. N (0, 1). Ibland är n = 1 och det går bra om ˆµ > 15. ) µ. n TAMS65 - Fö5 25/39

Anmärkning Vid binomial- och hypergeometrisk fördelning beror intervallängden på ˆp(1 ˆp). Den kan alltså beräknas först när man har ett värde på ˆp. Ibland behöver man uppskatta intervallängden i förväg och då kan man utnyttja att ˆp(1 ˆp) 1 4 eftersom f (x) = x x 2, där 0 x 1, har f (x) = 1 2x och f (x) = 2 < 0. Då antar f (x) sitt största värde 1/4 för x = 1/2 som är derivatans nollställe. TAMS65 - Fö5 26/39

Hypergeometrisk fördelning Att beräkna ett konfidensintervall för p i en hypergeometrisk fördelning görs på likanande sätt som för en binomialfördelning. Exempel N = 103595 jordbruksföretag. Man väljer slumpmässigt ut n st och finner bland dem x st där arbetsolyckor med personskador förekommit. Vi söker I p med 95% konfidensgrad och intervallängd 0.02. x observation från X Hyp(N, n, p) N ( np, ) N n np(1 p). N 1 TAMS65 - Fö5 27/39

Skatta p med ˆp = x n som är en obs från P = X n med P N ( p, N n N 1 ) p(1 p). n Stäng in, lös ut och ersätt med observationer ger intervallet ( ) N n ˆp(1 ˆp) I p = ˆp 1.96. N 1 n Villkoret I p 0.02 ger för alla ˆp. N n 2 1.96 N 1 ˆp(1 ˆp) n 0.02 TAMS65 - Fö5 28/39

Maximera med avseende på ˆp ger att N n 1 2 1.96 (N 1)n 4 0.02 N n (N 1)n n ( ) 0.02 2 1.96 N 1 + (N 1) ( ) 0.02 2 8790. 1.96 TAMS65 - Fö5 29/39

Simultan konfidensgrad Då man arbetar med flera stickprov och till exempel vill jämföra väntevärden, så konstruerar man ofta ganska många konfidensintervall. Man vill naturligtvis att alla ska täcka in sina parametrar med stor sannolikhet Exempel Låt I 1,..., I 10 vara oberoende konfidensintervall för θ 1,..., θ 10, vart och ett med konfidensgraden 0.95. Då gäller Låg säkerhet! P(θ k I k för k = 1,..., 10) = 0.95 10 0.60 TAMS65 - Fö5 30/39

Allmänna fallet: Låt I 1,..., I m vara konfidensintervall för θ 1,..., θ m, inte nödvändigtvis oberoende, men vart och ett med konfidensgraden 1 α. Då är den simultana konfidensgraden för I 1,..., I m minst 1 mα det vill säga P(θ k I k för k = 1,..., m) 1 mα För att få en bra simultan konfidensgrad behöver man öka de enskilda konfidensgraderna Exempel Om I 1,..., I 5 vart och ett har konfidensgraden 0.99 så blir den simultana minst 1 5 0.01 = 0.95 TAMS65 - Fö5 31/39

EXTRA TAMS65 - Fö5 32/39

Andra metoder för konstruktion av konfidensintervall Vi har diskuterat metoder för att konstruera konfidensintervall vid exakt eller approximativ normalfördelning. Det finns naturligtvis ytterligare metoder som inte ingår i den här kursen. En ganska ny metod är att utnyttja så kallad bootstrapteknik (Efron och Tibshirani, 1993). För att göra sådana analyser bör man ha åtminstone cirka 50 mätvärden. TAMS65 - Fö5 33/39

Bootstrapanalys för vulkanexemplet För att visa tekniken ska vi genomföra en sådan analys för vulkanexemplet där vi har n = 36 observerade värden på tider mellan vulkanutbrott. Med hjälp av bootstrapanalys tar man fram en approximativ fördelning för hjälpvariabeln genom att skapa en stor mängd nya stickprov med 36 observationer. De observerade tiderna mellan vulkan utbrottet har lagts in i x. x = [126 73 3... 50 91 12] ; muhat = mean(x) muhat = 36.7222 TAMS65 - Fö5 34/39

Bootstrapanalys för vulkanexemplet Tilldela varje värde sannolikheten 1/36. Vi skapar sedan 2000 stickprov med 36 observationer genom att dra bland de 36 första observationerna med samma sannolikhet 1/36. N = 2000; n = 36; for i=1:n for j=1:n xbs(i,j) = x(ceil(36*rand)); end end TAMS65 - Fö5 35/39

Bootstrapanalys för vulkanexemplet Vi ska nu beräkna stickprovsmedelvärdena m i för de 2000 olika stickproven och sedan värdet på hjälpvariabeln m i 36.722 m i / 36. xbmean = mean(xbs,2); zbs = (xbmean-muhat)./(xbmean/sqrt(36)); Sorterar värdena i storleksordning och läs av så att 5% hamnar utanför. Vi ska ju skära av 0.025 2000 = 50 i varje svans. zbs = sort(zbs); figure; histfit(zbs) LL = zbs(50) UL = zbs(1951) TAMS65 - Fö5 36/39

Bootstrapanalys för vulkanexemplet Vi får då LL = -2.0692 UL = 1.2870 Vi har skapat 2000 syntetiska skattningar ˆµ i av 36.722. Tanken är att den s.v. M i 36.722 M i / 36 har samma fördelning som X µ X / 36. TAMS65 - Fö5 37/39

Histogram för de syntetiska skattningarna TAMS65 - Fö5 38/39

Bootstrapanalys för vulkanexemplet Då gäller att vilket ger I µ = P ( 2.0692 < X µ X / 36 < 1.2870 ) 0.95, ( x 1.2870 x 6, x + 2.0692 x ) (28.85, 49.39). 6 Jämför med intervallen som vi skulle fått från exponentialfördelning och centralagränsvärdessatsen ( I µ = x 1.96 x 6, x + 1.96 x ) (24.73, 48.72) 6 eller ( ) x x I µ = 1 + 1.96, 6 1 1.96 (27.68, 54.54). 6 TAMS65 - Fö5 39/39

http://courses.mai.liu.se/gu/tams65/