Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Relevanta dokument
Föreläsning G70 Statistik A

Föreläsning G04: Surveymetodik

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

F10 ESTIMATION (NCT )

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Grundläggande matematisk statistik

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

4.2.3 Normalfördelningen

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

Datorövning 2 Fördelningar inom säkerhetsanalys

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

Datorövning 2 Fördelningar inom säkerhetsanalys

θx θ 1 om 0 x 1 f(x) = 0 annars

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

S0005M V18, Föreläsning 10

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Sannolikheter 0 < P < 1. Definition sannolikhet: Definition sannolikhet: En sannolikhet kan anta värden från 0 till 1

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

1. Test av anpassning.

Borel-Cantellis sats och stora talens lag

Föreläsning 2: Punktskattningar

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Formelblad Sannolikhetsteori 1

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

TENTAMEN I MATEMATISK STATISTIK

Genomsnittligt sökdjup i binära sökträd

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

Tentamen i Matematisk statistik för V2 den 28 maj 2010

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

Introduktion till statistik för statsvetare

================================================

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

a) Beräkna E (W ). (2 p)

TMS136: Dataanalys och statistik Tentamen med lösningar

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

Föreläsning G70 Statistik A

Avd. Matematisk statistik

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

SANNOLIKHETER. Exempel. ( Tärningskast) Vi har sex möjliga utfall 1, 2, 3, 4, 5 och 6. Därför är utfallsrummet Ω = {1, 2, 3, 4, 5,6}.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

2. Konfidensintervall för skillnaden mellan två proportioner.

Tentamen i matematisk statistik

b 1 och har för olika värden på den reella konstanten a.

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

95%-igt konfidensintervall för andel kalsongbärare i populationen: Slutsats: Med 95% säkerhet finns andelen kalsongbärare i intervallet 38-48%

Konsoliderad version av. Styrelsens för ackreditering och teknisk kontroll föreskrifter (STAFS 1993:18) om EEG-märkning av färdigförpackade varor

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

Databaser - Design och programmering. Programutveckling. Programdesign, databasdesign. Kravspecifikation. ER-modellen. Begrepps-modellering

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Sannolikheten. met. A 3 = {2, 4, 6 }, 1 av 11

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 5

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Tentamen i Sannolikhetsteori III 13 januari 2000

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

TAMS15: SS1 Markovprocesser

Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Följande begrepp används ofta vid beskrivning av ett statistiskt material:

Statistik för ingenjörer 1MS008

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 3.5hp

Id: statistik.tex :48:29Z joa

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

Lösningar och kommentarer till uppgifter i 1.1

Jag läser kursen på. Halvfart Helfart

Transkript:

Föreläsig 5 73G70, 73G01 Statistik A Föreläsigsuderlage är baserade på uderlag skriva av Karl Wahli

Kapitel 5 Stickprovsteori Sid 15-150

Statistisk iferes Populatio (äve målpopulatio) = de (på logisk väg defiierade) grupp av eheter (ofta idivider) som vi vill dra slutsatser om Urvalsram (äve rampopulatio) = förteckig över ehetera i populatioe, ofta ett register Stickprov = de av ehetera i populatioe som vi faktiskt udersöker Urvalseheter = de eheter som blivit utvalda i stickprovet Koste att dra slutsatser om e populatio baserat på ett stickprov (statistisk iferes eller statistisk slutledig) är e av grudpelara iom statistike! Det är också vad merparte av dea kurs kommer att hadla om. 3

Obudet slumpmässigt urval (OSU) (egelska Simple Radom Sample) Stickprovsdragig på ett sådat sätt att alla eheter i populatioe har samma saolikhet N att bli utvalda. Exempel: Vår populatio är alla studeter i ett klassrum, och vi vill udersöka geomsittsvikte i klasse. Att väga alla skulle ta låg tid, och ma vill därför dra ett stickprov om 0 persoer. Det eklaste sättet att göra ett OSU skulle då vara att skriva ed allas am på lappar, lägga dem i e låda och dra 0 lappar ur låda. Då har slumpe valt ut 0 persoer åt oss och alla har lika stor chas att bli utvalda.

Stratifierat urval (egelska Stratified Radom Sample) När vi vill dra slutsatser om e heteroge populatio (e populatio som ka delas i i udergrupper med avseede på ågo egeskap som vi tror påverkar det som vi vill udersöka). Varje såda grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultate. Stratifierat urval ger, om populatioe är heteroge, ormalt lägre stadardavvikelse ä ett OSU och därmed säkrare slutsatser om populatioe. Exempel (forts): Vi delar upp populatioe i kvior och mä, och lägger seda lappara med am i e låda för kvior och e för mä. Seda drar vi 10 lappar ur varje låda.

Felkällor vid stickprovsudersökigar Övertäckig: är det fis eheter i urvalsrame som egetlige ite tillhör målpopulatioe Exempel: Vid studie av vikter blad studeter i ett klassrum aväds klasslista som urvalsram. Me vissa studeter har hoppat av utbildige seda klasslista trycktes de tillhör ite lägre målpopulatioe uta utgör övertäckig. Udertäckig: är det fis eheter i målpopulatioe som sakas i urvalsrame Exempel: Vissa studeter har påbörjat si utbildig seda klasslista trycktes. De tillhör därför målpopulatioe me har ige chas att bli utvalda och utgör därför udertäckig. 6

Felkällor vid stickprovsudersökigar Bortfall: är eheter ite vill (eller ka) mätas. Skilj på Partiellt bortfall: är ehete har åtts, me vi ite fått all iformatio (exempelvis att ite alla frågor på e ekät besvarats) Totalbortfall: är ige iformatio erhållits alls frå ehete Bortfallet ka delas i ytterligare i Slumpmässigt bortfall Systematiskt bortfall Exempel: Socialstyrelse utsäder e ekät om tobaks- och alkoholvaor. Ma ka då täka sig att ykterister och ickerökare är mer beäga att besvara ekäte ä adra. Slutsatser draga frå ekäte riskerar att bli sedvrida eftersom bortfallet ite är slumpmässigt. 7

Felkällor vid stickprovsudersökigar Replikat Replikat beteckar problemet att samma ehet igår flera gåger i urvalsrame. Detta iebär att saolikhete för att de replikerade ehete ska bli utvald är större ä för övriga eheter. Exempel: Om vi avser att studera e populatio av hushåll, me väljer e urvalsram som består av idivider fis det risk för replikat i och med att flera persoer ka tillhöra samma hushåll. 8

Relatio mella populatio och stickprov Populatiosparametrar: beskrivade mått för populatioe. Okäda, och de som vi öskar dra slutsatser om Stickprovsstatistikor: skattigar av populatiosparametrara baserat på stickprov Medelvärde Varias Adel Populatiosparameter x µ = N σ π = 1 N ( x µ ) Stickprovsstatistika x x = s P 1 = 1 ( x x) Tabelle visar vätevärdesriktiga (egelska ubiased) skattigar av populatiosparametrara. 9

Vätevärdesriktighet Vi studerar u relatioe mella stickprovsstatistikor och populatiosparametrar geom att fokusera på relatioe mella stickprovsmedelvärde och populatiosmedelvärde. Låt X vara e slumpvariabel med vilke fördelig som helst. Ia stickprovet har dragits är de första observatioe vi ska göra, X 1, också e slumpvariabel, med vätevärde E = och varias Samma sak gäller för X, X 3,, X : de har vart och ett vätevärde och varias Var ( X ) = 1 σ ( X ) E( X ) = = E( X ) = µ E... Var = 3 ( X ) Var( X ) = = Var( X ) = = 3... σ ( ) µ X 1 10

Vätevärdesriktighet (forts) Vi utyttjar räkereglera för lijära variabeltrasformatioer: 1 1 1 E X = E X i = E X1 + X +... + X = E X1 + X +... + X i= 1 1 1 ( µ + µ +... + µ ) = µ = µ ( ) ( ) ( ) Vi ser att vätevärdet för stickprovsmedelvärdet är populatiosmedelvärdet! Vi har visat att stickprovsmedelvärdet är e vätevärdesriktig skattig av populatiosmedelvärdet. Iebörde i vätevärdesriktighet är alltså att iga systematiska fel görs är stickprovsstatistika aväds för att uppskatta populatiosparameter. På motsvarade sätt ka det visas att ( S ) = σ E E( P) = π Dock är ite stickprovsstadardavvikelse e vätevärdesriktig skattig av populatiosstadardavvikelse! Felet, som är e systematisk uderskattig, är dock litet och stickprovsstadardavvikelse aväds därför ädå som e skattig av populatiosstadardavvikelse. = 11

Medelfel Vilket fel gör vi i geomsitt är vi aväder e stickprovsstatistika som e uppskattig av populatiosparameter? Återige eligt reglera för lijära variabeltrasformatioer: Var 1 1 1 ( X ) Var X = Var ( X + X +... + X ) = i= 1 i 1 ( Var( X ) + Var( X ) +... + Var( X )) = ( + σ +... + σ ) 1 1 1 σ σ = σ = Härledige visar att är stickprovsstorleke ökar så miskar stickprovsmedelvärdets varias fördelige för stickprovsmedelvärdet blir mer och mer kocetrerad krig µ. σ Medelfel för stickprovsmedelvärdet: σ = X Medelfelet är e uppskattig av de geomsittliga osäkerhete är vi aväder e stickprovsstatistika för att uppskatta populatiosparameter = 1

Egeskaper hos stickprovsstatistikora Stickprovsmedelvärde Stickprovssumma Stickprovsadel Lägesmått Spridig Medelfel E ( X ) = µ Var( X ) = σ E ( X ) = µ Var( X ) = σ E ( P) = π Var( P) σ = X σ X σ = σ ( 1 ) π ( 1 π ) σ P = π π = Eftersom σ respektive π i allmähet är okäda skattas de med s respektive p. Exempel stickprovssumma: Flygbolag räkar med att medelvikte på e passagerare är 80 kg med e stadardavvikelse om 5 kg. E viss flygplastyp rymmer 90 passagerare. Totalvikte blad dessa 90 passagerare är exempel på e stickprovssumma. 13

De stora tales lag Ju större stickprov vi drar, desto mer lika blir stickprovsstatistikora populatiosparametrara 14

Sampligfördelig Hur ofta kommer vårt stickprovsmedelvärde att överesstämma med populatiosmedelvärdet, om vi skulle dra måga OSU ur samma populatio? Exempel: Vi studerar ett företag med 100 aställda, och vi är itresserade av medelikomste blad de aställda. Företagets aställda utgör alltså vår populatio, och med hjälp av företagets ekoomiavdelig ka vi faktiskt plocka fram löeivå för samtliga 100 aställda vid e viss tidpukt. Vi åskådliggör löefördelige vid företaget i ett histogram: 35 30 5 Ur löestatistike bestäms medellöe vid företaget till µ = 465 kr Percet 0 15 10 Histogrammet visar tydligt att populatioe lö för de aställda vid företaget ite ka betraktas som ormalfördelad! 5 0 10 0 30 40 Ikomst (tkr) 50 60 Vilke medellö skulle ett stickprov ge? 15

Sampligfördelig (forts) Låt oss u göra ett teoretiskt experimet: vi drar 50 oberoede stickprov om storleke = 10, beräkar de 50 stickprovsmedelvärdea och åskådliggör stickprovsmedelvärdea i ett histogram. Följade resultat erhålles. x = 4381 kr Notera beteckige för medelvärde av medelvärde 19.5 1.0.5 4.0 5.5 7.0 Medelvärde Ikomst i stickprovet (tkr) (tkr) 8.5 30.0 16

Sampligfördelig (forts) Experimetet upprepas för 50 oberoede stickprov om storleke = 0: x = 434 kr 3 4 Medelvärde Ikomst i stickprovet (tkr) (tkr) 5 6 17

Sampligfördelig (forts) Slutlige upprepas experimetet för 50 oberoede stickprov om storleke = 30: x = 499 kr 1.6.8 4.0 5. Medelvärde Ikomst i stickprovet (tkr) (tkr) 6.4 18

Sampligfördelig (forts) Fördelige för stickprovsmedelvärdea kallas för e urvalsfördelig. Urvalsfördelige är alltså e förteckig över vilka värde vi ka förväta oss få i vårt urval, och hur ofta de ka förvätas förekomma. Vi ka betrakta urvalsfördelige som e uppskattig av de fördelig som skulle fås om vi åskådliggjorde stickprovsmedelvärdea för samtliga möjliga stickprov av e viss storlek ur populatioe, vilket kallas för e sampligfördelig. 19

Cetrala gräsvärdessatse sampligfördelige blir mer och mer lik e ormalfördelig (trots att populatioe som stickprove drogs ur ite alls var ormalfördelad!) är stickprovsstorleke ökar sampligfördeliges medelvärde hamar allt ärmare populatiosmedelvärdet är stickprovsstorleke ökar Cetrala gräsvärdessatse säger Sampligfördelige för summor eller medelvärde av oberoede slumpvariabler med samma fördelig är approximativt ormalfördelad om är tillräckligt stort Valig tumregel: 30 0

Stickprovsstatistikors fördelig Om 30 gäller, tack vare cetrala gräsvärdessatse oavsett vilke fördelig populatioe som stickprovet dragits ur har, att σ Stickprovsmedelvärdet X N µ = µ ; σ = X X Stickprovssumma X N ( ) µ = µ σ = σ X ; X Om < 30 krävs att populatioe som stickprovet dragits ur är ormalfördelad. Då gäller fortfarade ovaståede formler eftersom lijära variabeltrasformatioer av ormalfördelade slumpvariabler också är ormalfördelade. 1

Stickprovsstatistikors fördelig (forts) För e stickprovsadel där X = atalet eheter i stickprovet med studerad egeskap gäller, givet att p(1-p) > 5, att P N µ P = π ; σ P = π ( 1 π ) P = X

Exempel E grossist importerar 500-grams påsar med ris i partier om 10000 påsar. Grossiste kotrollerar de leveraser om 10000 påsar ma mottar geom att kotrollväga ett slumpmässigt urval om 50 påsar ur varje parti. Vid e viss leveras uppmäts geomsittsvikte till 496.7 gram blad 50 slumpmässigt utvalda påsar. Beräka saolikhete att få e geomsittsvikt blad 50 slumpmässigt valda påsar som är 496.7 gram eller lägre, givet att det är sat att geomsittsvikte per påse i hela partiet är 500 gram och stadardavvikelse mella påsar är 10.0 gram, vilket leveratöre hävdar. Vad är saolikhete för att de sammalagda vikte blad de 50 slumpmässigt valda påsara överstiger 5. kg, givet att det är sat att geomsittsvikte per påse i hela partiet är 500 gram och stadardavvikelse mella påsar är 10.0 gram? 3