Introduktion till statistik för statsvetare

Relevanta dokument
Urvalsmetoder: Stratifierat urval (kap 9.5)

Tidigare exempel. Några beteckningar. Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)

Föreläsning 1: Introduktion. Vad är statistik?

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 11: Mer om jämförelser och inferens

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Studietyper, inferens och konfidensintervall

Exempel i stickprovsteori

FÖRELÄSNING 7:

F9 Konfidensintervall

Lektionsanteckningar 11-12: Normalfördelningen

9. Konfidensintervall vid normalfördelning

Laboration 3: Urval och skattningar

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Laboration 3: Urval och skattningar

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 10

Föreläsning 12: Linjär regression

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsningsanteckningar till kapitel 8, del 2

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 4: Konfidensintervall (forts.)

Population. Antal tänder. Urval

Börja med att ladda ner Kommuner2007.xls från kursens hemsida.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: Medelfel, felfortplantning

Föreläsning 11, FMSF45 Konfidensintervall

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F3 Introduktion Stickprov

Uppgift 1. f(x) = 2x om 0 x 1

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Slumpmässiga resp ickeslumpmässiga. urval. Olika feltyper i en undersökning. Förra gången (F6)

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 12: Repetition

Föreläsning 11, Matematisk statistik Π + E

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Lycka till!

Föreläsning G60 Statistiska metoder

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Föreläsning G60 Statistiska metoder

Matematisk statistik för D, I, Π och Fysiker

Introduktion till statistik för statsvetare

10. Konfidensintervall vid två oberoende stickprov

Diskussionsproblem för Statistik för ingenjörer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamen Tillämpad statistik A5 (15hp)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i matematisk statistik (92MA31, STN2) kl 08 12

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Grundläggande matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Mer om konfidensintervall + repetition

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik för D, I, Π och Fysiker

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

F10 Problemlösning och mer om konfidensintervall

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Grundläggande matematisk statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Stockholms Universitet Statistiska institutionen Termeh Shafie

Kurssammanfattning MVE055

MVE051/MSG Föreläsning 7

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

KVANTITATIV FORSKNING

Matematisk statistik KTH. Formelsamling i matematisk statistik

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Föreläsning 12: Regression

Tentamen i Matematisk statistik Kurskod S0001M

Thomas Önskog 28/

Transkript:

och enkäter "Det finns inget så praktiskt som en bra teori" September 2011

och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag eller motsvarande) har vi att göra en undersökning. Denna undersökning kan antingen vara en totalundersökning eller en urvalsundersökning Frågor som måste besvaras för varje sådan undersökning är 1 Vad vill vi mäta? 2 På vilka skall vi mäta? 3 Hur skall vi mäta? 4 Hur många mätningar skall göras? Det vill säga hur skall urval göras, hur skall enkäter konstrueras och hur många skall vi fråga.

och enkäter Inledning Inledning (forts) Vi behöver först införa några gemensamma begrepp Definition En population är den mängd individer, U = {1, 2, 3,..., N}, som vi vill studera med avseende på någon egenskap θ. Definition Ram är en förteckning över populationen. Det följer direkt att vissa individer kan saknas (de är inte noterade) och vissa tillhör inte populationen (dödsfall). Vi talar om undertäckning respektive övertäckning. Vanligtvis är populationen för stor för att en totalundersökning kan göras. Därför börjar vi med att studera hur man gör ett urval ur sin population/ram.

och enkäter Inledning Inledning (forts) Vi behöver några exakta begrepp: 1 U = {1, 2, 3,..., N} 2 A = mängden av alla möjliga delmängder till U 3 A är en sådan delmängd till U och således gäller A A 4 Till varje individ i hör en egenskap x i 5 F= {x 1, x 2, x 3,..., x N } 6 Vi vill skatta X = N i=1 x i eller X = 1 N N i=1 x i. Vi inför även slumpvariabeln { 1 om i är i urvalet I i = 0 annars

och enkäter För ett obundet slumpmässigt urval gäller att varje individ har precis samma sannolikhet som varje annan individ att komma med i urvalet. Om ett urval består utav n individer uttrycks detta formell som att varje urval {x i1, x i2,..., x in } har samma sannolikhet att bli valt. Detta medför speciellt att varje individ har samma sannolikhet, n N, att bli vald. Matematiskt följer detta ur P (I i ) = P (sannolikhet att bli vald) = (1 1 1 )(N n 1 ) ( N n ) = (N 1)! (n 1)!(N n)! N! n!(n n)! = n N Framöver antar vi att N är så stort att centrala gränsvärdessatsen gäller samt att N N 1.

och enkäter (forts) För att skatta X har vi att beräkna X = 1 N N x i i=1 men vi har endast en delmängd {x i1, x i2,..., x in } om n individer och därför endast X n = 1 n n x ij j=1 För denna skattning kan visas att E ( X n ) = θ = 1 N N x i i=1 V ( X n ) = N n N 1 σ2 n (1 n N ) σ 2 där σ 2 skattas som vanligt med s 2. Termen ( 1 n ) Introduktion till statistik N för statsvetare kallas n

och enkäter (forts) En skattning utan sitt konfidensintervall är inte så användbart. Vi beräknar således även konfidensintervallet vilket blir ( X n ± 1.96 1 n ) s 2 N n Med hjälp av konfidensintervallet kan vi bestämma stickprovets storlek n. Först bestämmer vi oss för hur brett konfidensintervallet får vara till en given konfidensgrad 1 α: Säg 2L. Vi har därmed ekvationen λ α/2 ( 1 n N ) s 2 n = L λ α/2 gäller för alla val av α. Om α = 0.05 får vi speciellt 1.96.

och enkäter (forts) Denna ekvation har lösningen n = vilket följer ut likheterna nedan. s 2 ( ) 2 L λ α/2 + s 2 N ( λ α/2 1 n ) s 2 N n = L ( 1 n ) s 2 N n = L2 s 2 n s2 N = n L 2 (λ α/2 ) 2 ( ) L 2 n (λ α/2 ) 2 + s2 = s 2 N

och enkäter används då vi har extra kunskap om populationen. Tex om populationen kan delas in i fattiga och rika områden, i olika familjestorlekar osv. Dylika indelningar kallas strata och om vi har L strata med N j individer i strata j så gäller N = N 1 + N 2 + + N L. Definiera W j = N j N observera att N j förutsätts känd I varje strata räknar vi på samma sätt som vid OSU. Dvs för strata j gäller X j = 1 N j N j x i i=1 Målet med denna procedur är att erhålla större precision på skattningarna dvs en mindre spridning.

och enkäter (forts) och för X j n j kan visas att E V ( ) X j nj = θ j = 1 N j N j x i i=1 ( ) X j nj = N j n j N j 1 σ2 j n j ( 1 n ) j σ 2 j N j n j Den slutliga skattningen för X n viktas sedan ihop på följande sätt X n = L W j X n j j=1

och enkäter (forts) För denna skattning gäller E ( X n ) = V ( X n ) L ( ) W j E X j nj = j=1 L Wj 2 j=1 ( 1 n j N j L j=1 ) σ 2 j n j W j θ j = θ Dahmström innehåller ett exempel som visar på vinsten med stratifiering. Att tänka på vid stratifierat urval Vilka variabler bestämmer stratifieringen? Hur många strata skall konstrueras? Hur många enheter skall vi välja från strata j?

och enkäter (forts) De två första punkterna styrs mycket av den aktuella situationen så här skall endast den sista punkten diskuteras. Hur bestämmer man fördelningen av n k? Det enklaste valet är att ta lika många från varje strata n j = n L Det kräver dock rätt starka bivillkor/önskemål. Tex skall stratas storlek vara ungefär lika och vi skall ha lika variation eller vi önskar skatta stratas eget medelvärde. Ett mer naturligt val är n j = n N j N dvs vi tar lika många som proportionellt finns i stratat. Detta kallas proportionell allokering.

och enkäter (forts) Ett mer intrikat val är att välja n j så att man minimerar den totala variansen. För att göra detta måste man ta fler från de strata där spridningen är stor och vice versa. För att göra ett sådant val har man att lösa ett minimieringsproblem. Svaret blir N j σ j n j = n L k=1 N k σ k och det kallas för optimal allokering. Optimal allokering innehåller ovanstående val som specialfall. Det finns även metoder där man tar hänsyn till kostnaden för att mäta den intressanta egenskapen hos enheten.

och enkäter (forts) För den optimala allokeringen har vi följande specialfall Vi ser att om varianserna är lika så erhåller vi proportionell allokering n j = n N j σ j L = n N j σ k=1 N k σ k L k=1 N k σ = n N j N Om strata är lika stora erhålls (N j = N 0 ) så erhålls N j σ j n j = n L = n N 0σ j k=1 N k σ k L = n σ j k=1 N 0 σ j L k=1 σ j och om σ j = σ 0 erhålls n j = n σ j L = n σ 0 k=1 σ j L = n k=1 σ 0 L vilket var det första valet.

och enkäter Systematiskt och kluster

och enkäter Example Antag att vi på en population vill mäta en egenskap dels med obundet slumpmässigt urval, X n OSU, dels med proportionellt allokerat stratifierat urval, X n PASU, och dels med ett optimalt allokerat urval, X n OASU. Det gäller allmänt ( ) ( ) ( ) V X n OASU V X n PASU V X n OSU

och enkäter (forts) smetod Fördelar Nackdelar OSU Teoretiskt enkelt Kräver ram Kan ge dålig precision Kan ge bra precision Stratifiering ej entydig Bra vid sneda fördelningar Bra vid olika storlekar Systematiskt urval Enkel att göra Risk för periodicitet Kluster urval Kräver ej ram Sämre precision än OSU Spridd population Billigt