Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Introduktion till statistik för statsvetare

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Urvalsmetoder: Stratifierat urval (kap 9.5)

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning 11: Mer om jämförelser och inferens

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)

TMS136. Föreläsning 10

Tidigare exempel. Några beteckningar. Stratifierat urval

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 11-12: Normalfördelningen

F3 Introduktion Stickprov

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 5. Kapitel 6, sid Inferens om en population

F9 Konfidensintervall

F9 SAMPLINGFÖRDELNINGAR (NCT

10. Konfidensintervall vid två oberoende stickprov

Föreläsning G60 Statistiska metoder

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Exempel i stickprovsteori

9. Konfidensintervall vid normalfördelning

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 7. Statistikens grunder.

Föreläsning 4: Konfidensintervall (forts.)

Studietyper, inferens och konfidensintervall

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Till ampad statistik (A5) Förläsning 13: Logistisk regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

FÖRELÄSNING 7:

FÖRELÄSNING 8:

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

MVE051/MSG Föreläsning 7

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning G70 Statistik A

Statistik 1 för biologer, logopeder och psykologer

Tentamen Tillämpad statistik A5 (15hp)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Samplingfördelningar 1

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

TMS136. Föreläsning 7

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

SF1901 Sannolikhetsteori och statistik I

4 Diskret stokastisk variabel

, s a. , s b. personer från Alingsås och n b

Föreläsning 7: Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Laboration 3: Urval och skattningar

Mer om konfidensintervall + repetition

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Grundläggande matematisk statistik

Tillämpad statistik (A5), HT15 Föreläsning 2: Obundet slumpmässigt urval 1

Föreläsning 8: Konfidensintervall

TMS136. Föreläsning 11

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Ytterligare urvalsmetoder och skattningsmetoder

TENTAMEN I STATISTIKENS GRUNDER 2

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Föreläsning G60 Statistiska metoder

F10 Problemlösning och mer om konfidensintervall

Föreläsning G60 Statistiska metoder

2 Dataanalys och beskrivande statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F13 Regression och problemlösning

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

F22, Icke-parametriska metoder.

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Introduktion till kausala effekter

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Tentamen L9MA30, LGMA30

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Repetitionsföreläsning

TMS136. Föreläsning 13

MVE051/MSG Föreläsning 14

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

FACIT: Tentamen L9MA30, LGMA30

2. Test av hypotes rörande medianen i en population.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Tentamen Tillämpad statistik A5 (15hp)

732G01/732G40 Grundläggande statistik (7.5hp)

Transkript:

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11

Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter tillgång till en sram innehållande alla element. I praktiken finns det ofta situationer när detta inte är möjligt. Vi ska därför studera två (med varandra nära besläktade) smetoder:

I många situationer är det praktiskt att välja grupper av objekt, sk kluster. Vi skiljer därför på två typer av undersökningsobjekt: Primära senheter: grupper, kluster Sekundära senheter: individer, element I et väljs grupper, inte individer. Skilj på grupp och stratifierat! Vi drar inom strata men vi drar ett av grupper.

: Skiss Population: 16 grupper med totalt 400 element Urval: 3 grupper med total 75 element

: Skiss Anledningar: Avsaknad av bra sram med information om varje element Elementen är spridda över ett stort område. Om även besöksintervjuer blir spridda över ett stort område blir datainsamlingen tidsödande och resurskrävande. Det kan enklare att administerara en enkät till hela grupper än till individer

Ex1:

: Notation Målet är att skatta µ, τ eller p. N Antal grupper i populationen n Antal grupper i et M Antal element i populationen m i Antal element i en grupp i et

: Notation Population: N = 16 grupper med M = 400 element Urval: n = 3 grupper med m 1 = m 2 = m 3 = 25 dvs n=3 i=1 m i = 75

: Notation N Antal grupper i populationen n Antal grupper i et M Antal element i populationen m i Antal i et Dessutom introducerar vi: x ij värdet för element j i grupp i τ i = m i i=1 x ij totalvärdet i grupp i

: Estimatorer 1, τ Tänk att ett grupp är ett OSU-UÅ där grupperna är element och grupptotalerna är elementvärde. En estimator för τ ges då av n i=1 Estimator: ˆτ vvr = N τ i n Bias: E(ˆτ vvr ) = τ (vvr! vilket vi inte visar här)

: Estimatorer 1, τ ( ) N n σ Precision: V (ˆτ vvr ) = N 2 2 u N 1 n, vilken skattas med ˆV (ˆτ vvr ) = N 2 ( 1 n N ) s 2 u n om ÄK, där σu 2 = ( N i=1 (τ i τ/n) 2 )/N är variansen av totalvärdena i populationen och su 2 = ( n i=1 (τ i n i=1 τ i/n) 2 )/(n 1) är variansen av totalvärdena i stickprovet. Fördelning: ˆτ vvr är approx. N(τ, V (ˆτ)) om n > 20

: Estimatorer 1: µ Estimator: x vvr = N n i=1 τ i = ˆτ vvr ( M ) n M ˆτvvr Bias: E( x vvr ) = E = 1 τ = µ. Vvr! M M ( ) ˆτvvr Precision: V ( x vvr ) = V = 1 M M 2V (ˆτ vvr) = N 2 ( ) N n σ 2 u, vilken skattas med M 2 N 1 n ˆV ( x vvr ) = (1 N2 n ) s 2 u om ÄK. M 2 N n Fördelning: x vvr är approx. N(µ, V ( x vvr )) om n > 20

: Estimatorer 1: p Om målet är att skatta populationsandelen så utgår vi från att variabeln är binär med ettor och nollor. Låt τ i beteckna antalet ettor i grupp i. Estimator: ˆp vvr = N N i=1 τ i = ˆτ vvr M n M Bias: E(ˆp vvr ) = p Vvr! Precision: Utelämnas på kursen Fördelning: Utelämnas på kursen

: Estimatorer 2, µ Om antalet element M är okänd n i=1 Estimator: x kvot = τ i n i=1 m i Bias: E( x kvot ) µ. Har en bias om antalet kluster är litet. Precision: Utelämnas från kursen Fördelning: Utelämnas från kursen

: Estimatorer 2, p Om antalet element M är okänd. Om målet är att skatta populationsandelen så utgår vi från att variabeln är binär med ettor och nollor. Låt τ i beteckna antalet ettor i grupp i. Estimator: x kvot = N i=1 τ i n i=1 m i Bias: E( x kvot ) µ. Har en bias om antalet kluster är litet. Precision: Utelämnas från kursen Fördelning: Utelämnas från kursen

: Estimatorer 2, τ Om antalet element M är känt och vi ändå använder kvot estimator skattas n i=1 Estimator: ˆτ kvot = M τ i n i=1 m i Bias: E(ˆτ kvot ) τ. Har en bias om antalet kluster är litet. Precision: Utelämnas från kursen Fördelning: Utelämnas från kursen

Ex1, skatta µ Mål: Utbildningsnämnden i en stad vill undersöka medvetenheten om omvärlden bland högstadieeleverna. Medvetenheten mäts genom ett kunskapstest och målet är att intervallskatta genomsnittlig poäng µ med konfidensgraden 90%. I staden finns 108 högstadieklasser och 3240 elever. Av praktiska skäl väljs grupp som smetod och 25 klasser väljs att ingå i undersökningen. Estimator: x vvr = N n i=1 τ i. Vi väljer denna M n estimator eftersom vi det totala antalet elever i staden, M är känt. Dessutom varierar klasstorlek inte särskilt mycket.

Ex1, skatta µ Förutsättningar: 1) Ett OSU-UÅ av klasser, vilket gör att E( x vvr ) = µ. 2) Population: N = 108 och M = 3240, n = 25 dvs n/n > 0,1 dvs vi använder ändlighetskorreketion. Således skattas V ( x vvr ) med ˆV ( x vvr ) = (1 N2 n ) s 2 u M 2 N n. 3) Eftersom n > 20 är x vvr approx. Nf.

Ex1, skatta µ Datainsamling: Klassid: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25 Antal elever: 31, 29, 25,35, 15, 31, 22, 27, 25, 19, 30, 18, 21, 40, 38, 28, 17, 22, 41, 32, 35, 19, 29, 18, 31 Totalpoäng: 1590, 1510, 1490, 1610,800, 1720, 1310, 1427, 1290, 860, 1620, 710, 1140, 1980, 1990, 1420, 900, 1080, 2010, 1740, 1750, 890, 1470, 910, 1740 n=25 i=1 τ i = 34957, s 2 u = 155648,1 (Kontrollräkna!)

Ex1, skatta µ Beräkningar: Ett 90% KI för µ ges av N 2 x vvr ± z α/2 (1 n ) s 2 u M 2 N n, där z α/2 = 1,645. Vi får att x vvr = 108 34957 = 46,61. Insättning 3240 25 av värden i intervallet ger 108 2 ( 46,61 ± 1,645 1 25 ) 155648,1 3240 2 108 25 46,61 ± 3,793 alt 90% KI: (42,816 50,402) Svar: Vi kan med 90% säkerhet säga att det genomsnittliga antalet poäng bland eleverna i staden är mellan 42,8 och 50,4 poäng.

Ex2, skatta µ Mål: En nationalekonom är intresserad av veta den genomsnittliga inkomsten en familj får genom försäljning av kakaobönor µ i ett västafrikanskt land. Totalt finns det 780 byar i distriktet. Vi drar slumpmässigt 22 byar och undersöker i dessa byar alla familjer som säljer kakaobönor. n i=1 Estimator: x kvot = τ i n i=1 m. Vi väljer denna i estimator eftersom vi det totala antalet familjer som säljer kakao i distriktet, M, är okänt. Dessutom varierar bystorleken mycket.

Ex2, skatta µ Förutsättningar: 1) Ett OSU-UÅ av byar. Dock är E( x kvot ) µ, men då n är relativt stort ignorerar vi denna bias. 2) Population: N = 780 och M =?, n = 22 Datainsamling: Antal familjer som säljer kakaobönor: 8 7 6 9 4 8 6 7 6 5 8 4 5 10 10 7 4 6 10 8 9 5 Total inkomst per by (enheter): 198.750 188.750 186.250 201.250 100.000 215.000 163.750 178.375 161.250 107.500 202.500 88.750 142.500 247.500 248.750 177.500 112.500 135.000 251.250 217.500 218.750

Ex2, skatta µ Beräkningar: Vi får att n=22 i=1 x kvot = τ i n=22 = 3743,375 152 i=1 m i = 24,62747 Svar: Den genomsnittliga inkomsten från försäljning av kakaobönor per familj skattas till 24,6 enheter.

: Skatta τ med okänt M Om M är okänt ersätts M med ˆM = n i=1 m i n Vi redogör inte för egenskaperna hos estimatorerna när M byts ut mot ˆM.

: Vvr eller kvot? Trots att kvotestimator har en bias så kan den vara mer ett mer lämpligt val i praktiken. Storleken på V ( x kvot ) beror nämligen på om det finns en korrelation mellan klusterstorlek och totalvärden τ i. Är korrelationen stor kan vi göra stora precisionsvinster! Variansuttrycket är dock tämligen komplicerat så det utelämnas på kursen. I övrigt beror valet vvr eller kvot på vilken parameter vi vill skatta och om M är känd eller okänd.

har lägre precision jämfört med OSU-UÅ. Ett av de största misstagen som görs är att analysera grupp som om de vore OSU-UÅ. Kluster är viktiga och ett av de vanligaste problemen som vi stöter på i tillämpningar. Välj så många grupper som möjligt (kostnad är dock som vanligt en restriktion). Att öka antalet grupper ger större ökning av precision än att öka antalet element. Välj små grupper som är så heterogena som möjligt. Välj grupper som är ungefär av samma sstorlek. Ofta finns det naturliga grupper (typ skolklasser, vårdcentraler, hushåll)

: Partisympatiundersökningen (SCB)

Startar på ett slumpmässigt valt ställe i en lista bestående av alla element i populationen. Därefter väljs elementen systematiskt, t ex var tionde. Vi har följande relation mellan populationsstorlek (N), stickprovsstorlek (n) och steglängd (h): N/h = n. Givet en populationsstorlek finns h möjliga stickprov. Viktigt att startpunkten för serien är slumpmässigt vald. Om steglängden går jämnt upp i populationens storlek och om samma ssannolikhet gäller för alla startpunkter har därmed alla element i populationen samma sannolikhet att komma med innan dragningen görs.

: Skiss

Estimation av µ Populationens medelvärde µ skattas med n x i x sys = n. i=1 Stickprovsmedelvärdets varians är V ( x sys ) = σ2 n [1 + (n 1)ICC] där intraklusterkorrelationen (ICC) är ett mått på hur lika elementen i samma systematiska är (jämfört med andra möjliga systematiska ). Om ICC är nära 1 kommer systematiskt att ge en högre varians än OSU. Om ICC är negativ kommer systematiskt ge en lägre varians än OSU.

Ex: Exempel på V ( x sys ) Exempel Anta att populationen är känd, N = 8, med följande värden x 1 = 4, x 2 = 6, x 3 = 8, x 4 = 10, x 5 = 12, x 6 = 14, x 7 = 16, x 8 = 18. Om n = 2 finns 4 möjliga systematiska. s 1 = {x 1, x 5 }, s 2 = {x 2, x 6 }, s 3 = {x 3, x 7 }, s 4 = {x 4, x 8 } och 4 möjliga medelvärden x 1 = 8, x 2 = 10, x 3 = 12, x 4 = 14 Vi vill nu beräkna V ( x sys ) när n = 2.

Exempel Ex: Exempel på V ( x sys ) Den teoretiska variansen för stickprovsmedelvärdet kan (oavsett smetod) skrivas E[( x E( x)) 2 ]. Eftersom E( x sys ) = µ = 11 blir variansen V ( x sys ) = (8 11) 2 + (10 11) 2 + (12 11) 2 + (14 11) 2 = 5 4

Ex: Exempel på V ( x sys ) Exempel Ett sätt att beräkna ICC se på alla möjliga par givet de möjliga systematiska en. Inom varje stickprov kan ett visst antal permutationer göras och i vårt fall erhålls: y 1 = (x 1, x 5, x 2, x 6, x 3, x 7, x 4, x 8 ) y 2 = (x 5, x 1, x 6, x 2, x 7, x 3, x 8, x 4 ) ICC är då korrelationen mellan y 1 och y 2. Om observationerna inom ett stickprov är olika (jämfört med andra stickprov) erhålls en negativ korrelation, men om observationerna inom varje stickprov är lika erhålls en positiv korrelation.

Ex: Exempel på V ( x sys ) och ICC Exempel Vi får i exemplet att ICC = 0,5238. Detta värde säger oss att individerna i de olika systematiska inte skiljer sig särskilt mycket åt. Däremot finns det stora skillnader mellan individerna INOM respektive systematiskt.

Ex: Exempel på V ( x sys ) och ICC Exempel Prova nu räkna ut den teoretiska variansen för stickprovsmedelvärdet vid systematiskt och beräkna ICC med nedanstående population: x 1 = 4, x 2 = 6, x 3 = 8, x 4 = 10, x 5 = 4x 6 = 6, x 7 = 8, x 8 = 12. Svar: V ( x sys ) = 6,6875 och ICC = 0,9279. Vi ser att individerna inom de systematiska en är lika varandra (ett ger låga värden, ett annat höga värden etc.). Däremot finns det stora skillnader mellan de olika en. ICC är positiv (dvs har vi värdet på en individ i ett systematiskt så vet vi att värdena på de andra individerna i samma är lika).

Estimation vid systematiskt Det finns ingen väntevärdesriktig estimator för V ( x sys ). Om ramen kan anses slumpmässigt ordning används därför vid systematiskt samma formel som vid OSU-UÅ, det vill säga V ( x sys ) skattas med: ˆV ( x sys ) = ( 1 n ) s 2 N n.

Fördelar och nackdelar med systematiskt + Enkelt att genomföra ( = mindre kostsamt). + Kan genomföras utan tillgång till en ram. + Effektivare än OSU-UÅ om trend förligger. Sprider stickprovet jämnt över populationen. Riskabelt om det finns en interaktion mellan stickprovet och någon underliggande periodicitet i populationen. trend 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 y z periodicitet 0 10 20 30 40 50 x 0 10 20 30 40 50 x