Proaktiv (övervakad) datainsamling begrepp, teori, exempel. Kurs SU, del 3

Storlek: px
Starta visningen från sidan:

Download "Proaktiv (övervakad) datainsamling begrepp, teori, exempel. Kurs SU, del 3"

Transkript

1 Proaktiv (övervakad) datainsamling begrepp, teori, exempel Kurs SU, del 3 Kurs SU 20/ Peter Lundquist och Carl-Erik Särndal _PL 1

2 Proaktiv (monitored) datainsamling 1. Kontroll av och ingrepp i datainsamlingen Hur administrera kontaktförsöken? Skapa minskad obalans i slutlig svarandemängd Svarsintensitet, definition, dess roll som verktyg Tröskelmetoden, Lika-andel-metoden Samband mellan svarsintensitet och obalans Reducerad obalans: Blir estimatens bias mindre? 2. Experiment med genererade svarsmängder Generera svarsmängder med låg obalans (threshold method) Experimentresultat: Bias och varians för de jämförda estimatorerna 3. Teoretiska resultat om sambandet mellan obalans och bias 4. Experiment med alternativa kontaktstrategier 5. Avslutande kommentarer 2

3 Datainsamling i fler faser Datainsamlingsfas 1, Ursprunglig design Samla in data för nästa fas, Reviderad design Analys av tillgänglig data (Målvariabler, processdata och x-variabler) Revidera designen med hänsyn till bestämda regler Nej Stoppkriteriet uppfyllt? Ja Stopp. Genomför estimationen 3

4 Hur administrera kontaktförsöken? En responsive (adaptiv) design kan variera mycket beroende på vilka prioriteringar man gör i samband med undersökningens datainsamlingsstrategi. Det finns ofta många önskemål att ta hänsyn till i datainsamlingen. Det kan därför blir svårt att optimera datainsamlingsstrategin; viktiga beslut måste fattas. 4

5 Hur administrera kontaktförsöken? Traditionellt tänkande när man vill skräddarsy en undersökning: Man måste ta hänsyn till: kostnader, bias, varians och andra önskemål (som t.ex. hög svarsandel) Olika undersökningar kommer med andra ord att ha olika strategier beroende på vilka faktorer man prioriterar. 5

6 Hur administrera kontaktförsöken? Miska kostnaderna Mindre suburval till bortfallsuppföljningen (Ökad varians) Billigare datainsamlingsmetoder (Blir fel av andra typer än bortfallsfelet större?) Riktar in sig på individer som svarar lättare (Kan öka bortfallsbiasen) Maximera svarsandelen Suburval till bortfallsuppföljningen (Ökad varians) I suburvalet rikta in sig på individer som svarar lättare (Kan öka bortfallsbiasen) 6

7 Hur administrera kontaktförsöken? Minska (risken för) bias Suburval bland bortfallet (Utnyttja dyrare effektivare insamling) Försök få fatt på individer som är underrepresenterade (Kan öka kostnaderna och minska svarsandelen) Minska variansen Försök få tag på individer med hög d k vikt och hög svarsintensitet (Kan förvärra biasen) 7

8 Hur administrera kontaktförsöken? Vi har i vårt arbete framförallt försökt öka balansen för att minska risken för bias. 8

9 Våra metoder och experiment använder begreppet svarsintensitet (eng. response propensity). Den kan beräknas för alla objekten i samplet s och på vilken tidpunkt som helst under datainsamlingen (för vilken svarsmängd r som helst). Tanken bakom: Objekten som har låg svarsintensitet på en given tidpunkt i datainsamlingen (där vi stannar upp och tittar) är de som vi måste koncentrera oss på att få in svar ifrån. De som har hög svarsintensitet har vi redan tillräckligt av. Få in fler av samma sort (även om lättfångade av intervjuarstaben) förbättrar inte balansen. 9

10 Experiment: med hjälp av begreppet svarsintensitet genererar vi experimentella svarsmängder. Svarsintensiteten beräknas relativt en lämpligt vald monitoringvektor (övervakningsvektor) x MV och är baserad på regression (lineär eller logistisk) av I k på x MVk Responsindikator I k = 1 om k svarar, I k = 0 annars. 10

11 Svarsintensiteten PˆMVk definieras här som det predicerade. värdet i lineär regression (över s) av I k på x MVk : Pˆ Iˆ x bx MVk k MVk MV med regressionsvektorn b MVs ( s d k x MVk x MVk ) 1 s d k I k x MVk Eftersom I k är 0/1-variabel kan svarsintensiteten beräknas alternativt med logistisk eller annan ickelinjär regression. Konsekvenserna för våra syften är inte så viktiga. 11

12 Svarsintensiteten för objekt k relativt monitoringvektorn x MV : Pˆ MVk x MVk b MVs b MVs ( s d k x MVk x MVk ) 1 s d k I k x MVk Tolkning: Lineär regression I k på x MVk 12

13 Svarsintensiteten Pˆ MVk x MVk b MVs (beräkningsbar för alla k s) kan visas ha medeltal Pˆ MVs d s k s P ˆ d MVk k r s d d k k P Svarsandelen P = svarsandel uppnådd på den punkten i datainsamlingen 13

14 Svarsintensiteten har (definitionsmässigt) variansen S 1 P 2ˆ d s s k ( PMVk P) 2 d s k ˆ Viktigt resultat: Svarsintensitetens varians = svarsmängdens obalans, som den är på den punkten i datainsamlingen S P 2ˆ s IMB( r, x s) P 2 ( x r x s ) Σ 1 s ( x r x s ) Övning: Kan visas, kom ihåg IMB r, x s = P 2 (x r x s ) 1(x r x s ) s 14

15 Svarsintensitetens varians = obalansen i svarsmängden S P 2ˆ s IMB( r, x s) För praktiken innebär det: Jobba med datainsamlingen på så sätt att variansen i svarsintensiteterna reduceras (dessa kan vi fortlöpande beräkna). Då reduceras obalansen. Vi har använt två metoder för det: Tröskelmetoden och Lika-andelsmetoden (Fler metoder kan konstrueras) 15

16 Tröskelmetoden På i förväg angivna ställen (interventionspunkter) i datainsamlingen, beräkna svarsintensiteteten,, för alla objekt i samplet s och PˆMVk Sätt åt sidan (sluta kontakta) objekt som har svarsintensitet högre än ett tröskelvärde (t.ex. 60%) Datainsamling (kontaktförsök) fortsätter med övriga, ännu inte svarande, för att få upp deras svarsintensitet. 16

17 Tröskelmetoden Vid varje interventionspunkt räknar vi om svarsintensiteten P MVk för alla objekt k s (även de som tidigare satts åt sidan). Ytterligare några kommer då att få P MVk > tröskelvärdet Dessa sätts då också åt sidan. Man fortsätter så genom serien av interventionspunkter. Resultat: Utjämnande av intensiteterna, de får successivt minskande varians, alltså minskad obalans IMB i svarsmängden 17

18 Tröskelvärdet hur sätts det? Ju mindre tröskel, dess mer tvingas intensiteterna bli lika. Och eftersom deras varians är lika med obalansen IMB, så reduceras denna. Vi rekommenderar sätta tröskelvärdet i närheten av den svarsandel man tror sig få i undersökningen. Interventionspunkternas inplacering över datainsamlingsperioden är också en viktig fråga. 18

19 Tröskelmetoden Ju mindre tröskel, dess mer tvingas intensiteterna bli lika. Och eftersom deras varians är lika med obalansen IMB, så reduceras denna under datainsamlingen Som följd därav: Klart att justeringen bör bli mindre och mindre. Vi vill se om samma gäller avvikelsen för CAL justeringen Yˆ Yˆ Nˆ ( x x ) b EXP CAL r s r CAL avvikelsen Y ˆ Y ˆ N ˆ ( b b ) x CAL FUL r s s 19

20 Vi har också räknat på Lika-andelsmetoden En konstant andel sätts åt sidan i varje interventionspunkt. T.ex. om 5 interventionspunkter har fixerats, sätt åt sidan 1/6 av samplet varje gång ; sista sjättedelen fortsätter till slutet. Uppgift : Hitta på fler och smartare metoder för IMB-reducering i datainsamlingen 20

21 Experiment på ULF2009 Monitoringvektorer : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) dim = 14; antal värden = 256 x x MV MV 2 (( Educ Owner Origin) Age) dim = 11 ; antal värden = 8x4 = 32 1 ( Educ Owner Origin) dim = 8 = antal värden 21

22 I ett av experimenten : Monitoringvektorn med dimension 14 : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) Vi jämför Faktiska svarmängden i ULF2009 med tre utifrån denna genererade svarsmängder, Tröskelmetoden; tröskelvärden: 65%, 55%, 50%; fem i förväg valda interventionspunkter Vi vill se hur IMB, Justeringstermen och CAL-avvikelsen beter sig för tre olika y-variabler 22

23 I ett av experimenten : Monitoringvektorn med dimension 14 : x MV 3 (( Educ Owner Origin) Phone Age Civil Gender ) Vi beräknar IMB (Relativa) Justeringen RADJ (Relativa) CAL-avvikelsen RDEV CAL RDAJ = 100 ( Yˆ Yˆ ) / Yˆ EXP CAL CAL RDEV 100 ( Yˆ Yˆ ) / Yˆ CAL CAL FUL FUL 23

24 Resultat: ULF 2009 Verklig svarsmängd och tre genererade. y-variabel: Sysselsatt (0/1 variabel) När obalansen IMB avtar (som följd av stramare interventioner) så ser vi : Relativa justeringen RADJ : Klar reducering Relativa CAL-avvikelsen RDEV CAL : Reducering, men mindre CAL beräknad på x-vektorn = monitoringvektorn x y = Sysselsatt Svarsmängd 100xIMB RADJ RDEV CAL Faktiska Tröskel 65% Tröskel 55% Tröskel 50% (( Educ Owner Origin) Phone Age Civil Gender ) 24

25 Resultat: ULF 2009 Verklig svarsmängd och tre genererade. y-variabler: Ersättning (0/1) ; Inkomst (kontinuerlig) y = Ersättning y = Inkomst Svarsmängd RADJ RDEV CAL RADJ RDEV CAL Faktiska Tröskel 65% Tröskel 55% Tröskel 50% Då IMB avtar, avtagande tendens både i RADJ och RDEV CAL. CAL-vektor = montoringvektor = x (( Educ Owner Origin) Phone Age Civil Gender ) 25

26 Resultat: ULF 2009 Faktisk svarsmängd och tre genererade. För samtliga tre y-variabler har vi sett: Att Relativa justeringen RADJ reduceras när IMB genom interventioner tvingas bli lägre. Det är väntat. Att Relativa CAL-avvikelsen RDEV CAL krymper är «lovande» 26

27 Ett vidare perspektiv: I det faktiska ULF2009 materialet är R-kvadrat = 28% i lineär regression av y = Inkomst på dim(14)-vektorn x (( Educ Owner Origin) Phone Age Civil Gender ) Fråga: Vad är sambandet mellan Förklaringsgrad (R-kvadrat av y på x-vektorn) och IMB-nivå i svarsmängden r? Vi ville veta mer om det och gjorde följande empiriska försök rapporterat i J. Survey Statistics & Methodology (2014) 27

28 Dess storlek påverkas så klart av regressionens styrka : Om CAL-avvikelsen Yˆ Yˆ Nˆ ( b b ) x y x β alla k s, d.v.s. R kvadrat 1 k så är avvikelsen noll. k CAL FUL r s s Om R-kvadrat < 1 men hög, så kan vi vänta att den är liten. Om vi reducerar IMB i datainsamlingen (med t.ex. våra metoder), kan vi då förvänta oss att CAL-avvikelsen avtar? Inte utan vidare klart. Ganska svår matematisk fråga. Empiriskt leds vi att studera samspelet mellan två faktorer : Nivån på R-kvadrat och Nivån på IMB. 28

29 CAL-avvikelsen Yˆ Yˆ Nˆ ( b b ) x CAL FUL r s s I praktiken: IMB-nivån i den slutliga svarsmängden i datainsamlingen, den kan vi manipulera med våra metoder (tröskelmetoden t.ex.) Nivån på R-kvadrat för regr. av y på x-vektorn kan vi inte göra så mycket åt, den är vad den är. Klart vi kan göra den lite högre genom att ta med fler (och bättre ) variabler i x-vektorn.. 29

30 Experiment med data från två SCB-undersökningar ULF2009 och PSU2010 Två faktorer påverkar estimatorerna CAL and EXP : Förklaringsgraden (y på vektor x) och IMB-nivån (hos r-mängden) Hur ändras CAL - FUL (CAL-estimatorns avvikelse) och EXP CAL (justeringens storlek) när de två faktorerna ändras? 30

31 Experiment med data från ULF2009 och PSU2010 Faktorer som påverkar CAL and EXP : Förklaringsgraden (y på vektor x) och IMB-nivån (hos r-mängden) Vi varierade systematiskt de två faktorerna för att se deras effekt på avvikelsen CAL - FUL (primära intresset) på justeringen EXP CAL. 31

32 Två-faktor-experiment IMB-nivån beror på monitoringvektorn och på tröskelvärdet (om vi använder tröskelmetoden). Vi använde tre sådana vektorer ; för var och en, tre olika tröskelvärden. Undersökningsvariabel : y = Inkomst (en registervariabel, känd för hela stickprovet s) 32

33 Två-faktor experiment Vi genererade flera svarsmängder r, med olika IMB, genom interventioner i efterhand i den faktiskt registrerade svarsmängden i ULF2009 Vi genererade också flera y-variabler med olika förklaringsgrad R 2 för regr. av y på x, genom transformationer av den verkliga variabeln y = Inkomst tillgänglig i ULF2009-filen) Hur reagerar RDEV CAL och RADJ på dessa systematiska ändringar i de två faktorerna? 33

34 Vi visar resultat för Monitoringvektorn x MV = Kalibreringsvektorn x CAL = xmv 3 xcal (( Educ Owner Origin) Phone Age Civil Gender) Dimension = 14 ; med antal möjliga värden =

35 Vi får en tablå av följande typ Kolumner : förklaringsgrad = F 2 = 1%, 49%, 81% Rader : IMB-nivåer, Verkliga, och 3 genererade F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ Faktisk % % % 0.43 IMB avtar, som väntat, fast inte här till nära noll Vad blir effekten på RDEV CAL och RADJ? xmv 3 xcal (( Educ Owner Origin) Phone Age Civil Gender) 35

36 Rel. avvikelsen RDEV CAL för y = Income Kolumner (förklaringsgrad): F 2 = 0.01, 0.49, 0.81 Rader (IMB-nivå): Faktisk; 3 genererade. trösklar 65, 55, 50% F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RDEVcal RDEVcal RDEVcal Actual % % % Kolumneffekt : Minskad IMB ger klar, fast ganska blygsam, reduktion av RDEVcal Radeffekt: Högre förklaringsgrad ger (ganska väntat) stor minskning I RDEVcal 36

37 Justeringen RADJ för y = Income Kolumner (förklaringsgrad): F 2 = 0.01, 0.49, 0.81 Rader(IMB-nivå): Faktisk, 3 genererade, trösklar 65, 55, 50% F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RADJ RADJ RADJ Faktisk % % % Kolumneffekt: RADJ sjunker klart för F = 0.7 ; än mer för F = 0.9 OBS: negativ RADJ for F = 0.1 (inte helt oväntat) Radeffekt: (Väntade) ökningen i RADJ mest påfallande för Faktisk 37

38 Kommentar om bortfallsjusteringen RADJ : Vi vet att RADJ = 0 när IMB = 0 (ingen justering av inträffar ; EXP och CAL identiska) Här i experimentet kommer vi inte ner till IMB = 0, så i sista raden är RADJ inte nära noll F = 0.1 F = 0.7 F = 0.9 svar 100 IMB RADJ RADJ RADJ Actual % % %

39 Sammanfattning RDEVcal and RADJ y = Income med tre nivåer på förklaringsgrad F 2 Response; Faktisk, och 3 genererede med trösklar, thresholds 65, 55, 50 % F = 0.1 F = 0.7 F = 0.9 svar RDEVcal RADJ RDEVcal RADJ RDEVcal RADJ Actual % % % x-vektor för CAL-estimatorn är xcal (( Educ Owner Origin) Phone Age Civil Gender) 39

40 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s är inte så lätta att ta fram, för problemet har ganska komplex inramning. Många faktorer inverkar. 40

41 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s Egenskaper (medelvärde och varians) hos r för given IMB-nivå för det enkla fallet OSU, n från N ; x är gruppvektor ; andel svar p = m/n : mean( r xr, m, s ) 0 S 2 2 var( x y, gr r r, m, s ) S IMB (1 p ) 2 m p Särndal, Lumiste och Traat (2014) ett samarbete med Univ. i Tartu, Estland 41

42 Teoretiska resultat om CAL-avvikelsen Yˆ Yˆ Nˆ CAL FUL r där Δ ( b b ) x r r s s S S 2 S ygr 1 1 m m n 2 2 ygr p m IMB (1 ) 2 p 2 (1 p) ( ) Sygr varians vid slumpmässigt bortfall S 2 ygr m IMB ytterligare varians när obalans IMB 0 2 p 42

43 Relativa varianstillägget för CAL-estimatorns avvikelse på grund av obalans :. IMB / (1 p) 2 p Till exempel, obalans IMB = 0,04; p = 50% svar : ger relativa varianstillägget = 32% 43

44 Experiment på ULF I samband med att studier görs för att förbättra kvaliteten i datainsamlingen behöver man bestämma vilken typ av mått som är centralt för att kunna tala om att den nya datainsamlingsstrategin (metoden) ger en förbättring. Nedan redovisas experiment på ULF genomförda 2011 och Syfte: Att försöka förbättra balansen i svarsmängden; att få en bättra kontroll av kostnader och intervjuresurser. Centrala mått att studera: Indikatorer 44

45 Experimentet 2011: I CATI-gruppen testades en ny kontaktstrategi på höstens delurval i ULF. (Läs mer i R&D rapporten 2013) Experimentet 2012: Genomfördes bland fältintervjuarna under höstens delurval i ULF. Ett test av möjligheten att prioritera de kvarvarande urvalsobjekten i bortfallsuppföljningen. (Lundquist 2013) Tanken var att båda stegen skulle genomföras under 2011 års undersökning, men p.g.a. dålig svarsandel i det ordinarie urvalet 2011 valde vi att skjuta den senare delen ett år. Redovisningen ska ses som ett försök att arbeta med en adaptiv design i ULF som man med fördel kan arbeta vidare med. 45

46 Experiment 2011: Ny kontaktstrategi Grupper Kontroll Experiment Hög risk för övertäckning [2%] Alla åldrar, född utrikes utan fastighet [14%] Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv 65+ år med fastighet [21%] Svarsandel Kontaktförsök mv Upp till 64 år, född inrikes med fastighet [23%] Upp till 64 år, kvarvarande blandad grupp [39%] Totalt Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv Svarsandel Kontaktförsök mv 33% % % % % % % % % % % % 8.2 Urvalsstorlek: n Kontroll =1055 och n Experiment =1053 individer 46

47 Experiment 2011: Vägd svarsandel och Indikatorer Fas i datainsamlingen Svar BI dist EXP urvalet Ordinarie datainsamling 50.3% Efter bortfallsuppföljning 61.4% Kontroll urvalet Ordinarie datainsamling 42.7% Efter bortfallsuppföljning 54.5% Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön 47

48 Experiment 2011: Resultat Den nya kontaktstrategin Gav högre andel svar (vägt), 61.4% vs. 54.5% Producerade inte bättre balans eller lägre distans i svarsmängden (inga signifikanta skillnader) Är inte praktiskt realiserbar som den genomfördes. Den påminner om hur fältintervjuarna genomför sitt arbete Det visade sig att tidpunkten för första kontakt var en förklarade faktor för skillnaden i svar mellan experiment och kontrollgrupp 48

49 Experiment 2012: Stopprocedur Definiera för k s svarsintensiteten vid den aktuella tidpunkten i undersökningen: Pˆ k ( 1 d s kikxk ) ( d s kxkxk ) xk (regression av I k på x k ) Efter den ordinarie datainsamlingen beräkna Pˆk för alla objekt k; stoppa de med en svarsintensitet högre än ett i förväg bestämt värde. Alternativt kan logistisk regression användas för att ta fram svarsintensiteterna. 49

50 Experiment 2012: Stopprocedur testad på Exp Sample 2011 Stoppregel 1: 60% svarsintensitet Fältarbete 100 P BI dist r nr Antal kontaktförsök Reduktion i % Ordinarie datainsamling Intervention: Slutligt resultat Stoppregel 2: 48.67% [median] svarsintensitet Fältarbete 100 P BI dist r nr Antal kontaktförsök Reduktion i % Ordinarie datainsamling Intervention: Slutligt resultat Hjälpvektor: 5 grupper + Hög utbildning + Gift + Kön Notera: Data från experimenturvalet 2011 används för att designa stopproceduren i ULF 2012 experimentet 50

51 Experiment 2012: Realisering För EXP stickprovet beräknades svarsintensiteterna med hjälp av följande monitoringvektor (ej samma som i experimentet 2011) : Ålder, Kön, Gift, Hög utbildning, Anställd, Storstad Objekten i stickprovet med de högsta svarsintensiteterna uteslöts, de n/4 största Pˆk. Omgång # borttagna Gränsvärde för svarsintensiteten C09 47 C10 38 C11 32 ˆ P k ˆ P k ˆ P k 117 individer ej avslutade objekt uteslöts ur bortfallsuppföljningen med denna stopprocedur, p.g.a. en hög svarsintensitet för gruppen. 51

52 Experiment 2012: Vägd svarsandel och indikatorer Urval 100 P BI dist R-ind LB-R UB-R mv Kf Kontroll (n=2,304) Ordinarie datainsamling Efter bortfallsuppföljning Experiment (n=1,648) Ordinarie datainsamling Efter bortfallsuppföljning Hjälpvektor: Ålder + Kön + Gift + Hög utbildning + Anställd + Storstad Inga signifikanta skillnader på 5%-sign. nivå 52

53 Experiment 2012: Resultat Stopproceduren visade att Det är tekniskt möjligt att styra datainsamlingen till grupper med låg svarsintensitet, Den vägda svarsandelen minskar endast marginellt, balansen, distansen går i rätt riktning och antalet kontaktförsök minskar (ej signifikant), Besparingen, det minskade antalet kontaktförsök, kan användas för att sätta in åtgärder i andra grupper såsom yngre personer och invandrare. 53

54 Avslutande kommentarer Vi har nu beskrivit mått som gör att man fortlöpande kan mäta kvaliteten i datainsamlingen och analysarbetet genom nya indikatorer Avstånd, Balans, R-indikator och RDEV. Detta har medfört förbättrad struktur och metodik i studiet av bortfallet och dess effekter. Idag används dessa och andra indikatorer av minst ett 20-tal statistiska institut (både akademi och statistikproducenter). 54

55 Avslutande kommentarer Vi har sett att en viss förbättring av CAL-estimatorns tillförlitlighet (reducering av dess avvikelse från unbiased skattning) kan förväntas genom att reducera obalansen (IMB) i svarsmängden. Det finns andra skäl till att använda IMB eller liknande mått i datainsamlingen. De tjänar till att kontinuerligt följa gången i datainsamlingen, att undvika duplikat av typer av enheter som redan finns väl representerade i svarsmängden och som även om svar erhölls skulle ha negligerbar inverkan på skattningarna. 55

56 Referenser Bethlehem, J., F. Cobben, and B. Schouten (2011). Handbook of Nonresponse in Households Surveys, New York: Wiley. Groves, R. (2006), Research Synthesis: Nonresponse Rates and Nonresponse Error in Household Surveys, Public Opinion Quarterly, 70, Groves, R. M., and S. G. Heeringa (2006). Responsive Design for household surveys: Tools for actively controlling survey errors and costs. Journal of the Royal Statistical Society: Series A, 169, Little, R.J.A. and Rubin, D.B. (2002). Statistical analysis with missing data, 2 nd ed, New York: Wiley Lundquist, P. and Särndal, C.E. (2012). Aspects of responsive design for the Swedish Living Conditions Survey. R&D report 2012:1, Statistics Sweden, Lundquist, P. and Särndal, C.E. (2013). Responsive design, Phase II Indicators and measures. R&D report 2013:1, Statistics Sweden, Lundquist, P. (2013). Building a final survey response set. [Experiment på ULF presenterat vid ESRA konferensen i Ljubljana, Slovenien.] Lundquist, P., and C. E. Särndal (2013), Aspects of Responsive Design With Applications to the Swedish Living Conditions Survey, Journal of Official Statistics, 29,

57 Schouten, B., F. Cobben, and J. Bethlehem (2009). Indicators for the representativeness of survey response. Survey Methodology, 35, Särndal, C.E. and Lundström, S. (2005). Estimations in Surveys with Nonresponse. New York: Wiley. Särndal, C. E., and S. Lundström (2010), Design for Estimation: Identifying Auxiliary Vectors to Reduce Nonresponse Bias, Survey Methodology, 36, Särndal, C. E. (2011). Dealing with survey nonresponse in data collection, in Estimation. Journal of Official Statistics, 27, Särndal, C.E., and P. Lundquist (2014). Accuracy in estimation with nonresponse: A function of degree of imbalance and degree of explanation. Journal of Survey Statistics and Methodology, 2, Särndal, C.E. and Lundquist, P. (2014). Balancing the response and adjusting estimates for nonresponse bias: Complementary activities. Journal de la Société Française de Statistique, 155(4), Särndal, C.E., K. Lumiste and I. Traat. (2014). Reducing the response imbalance: Is the accuracy of the estimates improved? Submitted for publication. 57

Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet

Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015 Peter Lundquist och Carl-Erik Särndal SCB och Stockholms universitet Version 2015-04-18

Läs mer

SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar

SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar Jan Hörngren jan.horngren@scb.se Surveyföreningen 27 maj 2011 Vad är bortfall? Bortfall uppstår när värden

Läs mer

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Konsekvenser av Bortfall Introduktion Illustration av hur bortfall påverkar resultaten i en statistisk

Läs mer

Bortfallsproblematik ur ett metodperspektiv

Bortfallsproblematik ur ett metodperspektiv Bortfallsproblematik ur ett metodperspektiv Daniel Thorburn Surveyföreningen 2011-05-27 Olika metodaspekter Bortfall versus andra fel Psykologi varför svarar man? (inte?) Åtgärder vid insamling (förebygg!)

Läs mer

Ekonomisk statistik 2 Economic statistics 2. Imputering

Ekonomisk statistik 2 Economic statistics 2. Imputering Ekonomisk statistik 2 Economic statistics 2 Imputering Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet Ekonomisk statistik Höstterminen 2008 Stockholms Universitet Saknade värden Totalt

Läs mer

Inträdet på arbetsmarknaden efter gymnasieskolan

Inträdet på arbetsmarknaden efter gymnasieskolan Bortfallsanalys Inträdet på arbetsmarknaden efter gymnasieskolan Förord Bortfallsanalys Inträdet på arbetsmarknaden efter gymnasieskolan SCB, Stockholm 08-506 940 00 SCB, Örebro 019-17 60 00 www.scb.se

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989 Från trycket April 1989 Producent Statistiska centralbyrån, Utvecklingsavdelningen Ansvarig utgivare Staffan Wahlström Förfrågningar Lennart Nordberg, tel. 019-17 60 12 1989, Statistiska centralbyrån ISSN

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1. En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar

Läs mer

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken Urvalsökningar Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken En urvalsökning från 21000 till 29500 individer borde då resultera i förbättring med ca 15% Eller? 1

Läs mer

Laboration 3: Urval och skattningar

Laboration 3: Urval och skattningar S0004M Statistik 1 Undersökningsmetodik. Laboration 3: Urval och skattningar Denna laboration handlar om slumpmässiga urval. Dessa urval ska användas för att uppskatta egenskaper hos en population. Statistiska

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Bortfallsmönster i Undersökningarna av barns levnadsförhållanden

Bortfallsmönster i Undersökningarna av barns levnadsförhållanden Bortfallsmönster i Undersökningarna av barns levnadsförhållanden 2010-2017 2019 Bortfallsmönster i Undersökningarna av barns levnadsförhållanden 2010-2017 Producent Förfrågningar SCB, Befolkning och välfärd

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden

R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden

Läs mer

Höftledsdysplasi hos dansk-svensk gårdshund

Höftledsdysplasi hos dansk-svensk gårdshund Höftledsdysplasi hos dansk-svensk gårdshund Sjö A Sjö B Förekomst av parasitdrabbad öring i olika sjöar Sjö C Jämföra medelvärden hos kopplade stickprov Tio elitlöpare springer samma sträcka i en för dem

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Kalibreringsrapport. Utländska doktorander

Kalibreringsrapport. Utländska doktorander Kalibreringsrapport Utlänska oktoraner Inlening I en urvalsunersökning är allti skattningarna beäftae me urvalsfel beroene på att enast en elmäng (urval) av populationen stueras. Ett annat fel uppkommer

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Kvalitetsstandarder inom statistikproduktionen. 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se

Kvalitetsstandarder inom statistikproduktionen. 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se Kvalitetsstandarder inom statistikproduktionen 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se 1 Inledning Vad är kvalitet? Vilka ramverk finns? Några exempel från SCB:s kvalitetsarbete

Läs mer

Hyror i bostadslägenheter (HiB)

Hyror i bostadslägenheter (HiB) Statistiska centralbyrån SCBDOK 3.2 1 (17) Hyror i bostadslägenheter (HiB) 2014 BO0406 Innehåll 0 Allmänna uppgifter... 2 0.1 Ämnesområde... 2 0.2 Statistikområde... 2 0.3 SOS-klassificering... 2 0.4 Statistikansvarig...

Läs mer

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Propensity Scores. Bodil Svennblad UCR 16 september 2014 Propensity Scores Bodil Svennblad UCR 16 september 2014 Jämföra två behandlingar Randomiserad studie A B Inte alltid etiskt försvarbart Dyrt Restriktioner på studiepopulationen (generaliserbart?) Real

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Urvalsundersökningar vetenskapliga aspekter och internationella utblickar

Urvalsundersökningar vetenskapliga aspekter och internationella utblickar Urvalsundersökningar vetenskapliga aspekter och internationella utblickar Jörgen Brewitz Processansvarig Utforma och utvärdera Surveyföreningen, februari 2016 2016-02-18 1 Inferensperspektiv Inferens att

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Examinationsuppgifter del 2

Examinationsuppgifter del 2 UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk statistisk Statistik för ingenjörer, poäng, Anders Lundquist 7-- Examinationsuppgifter del Redovisas muntligt den / (Ö-vik) samt / (Lycksele).

Läs mer

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Population. Antal tänder. Urval

Population. Antal tänder. Urval Population ID Antal tänder 1 12 2 14 3 15 4 28 5 16 6 11 7 24 8 19 9 23 10 21 Urval ID Antal tänder 2 14 4 28 8 19 10 21 Urvalsmetoder Population Urval Urval Urvalsmetoder Definitioner: Populationen består

Läs mer

STATISTISKA CENTRALBYRÅN

STATISTISKA CENTRALBYRÅN STATISTISKA CENTRALBYRÅN 2013-04-12 1(7) Kalibreringsrapport 1 Inlening I en urvalsunersöning är allti sattningarna behäftae me urvalsfel beroene på att enast en elmäng (urval) av populationen stueras.

Läs mer

Checklista för systematiska litteraturstudier 3

Checklista för systematiska litteraturstudier 3 Bilaga 1 Checklista för systematiska litteraturstudier 3 A. Syftet med studien? B. Litteraturval I vilka databaser har sökningen genomförts? Vilka sökord har använts? Har författaren gjort en heltäckande

Läs mer

Marika Wenemark. Centrum för verksamhetsstöd och utveckling Region Östergötland

Marika Wenemark. Centrum för verksamhetsstöd och utveckling Region Östergötland Marika Wenemark marika.wenemark@liu.se Centrum för verksamhetsstöd och utveckling Region Östergötland Samhällsmedicin Institutionen för medicin och hälsa Linköpings universitet Marika Wenemark Behövs det

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

2. Lära sig beskriva en variabel numeriskt med proc univariate 4. Lära sig rita diagram med avseende på en annan variabel Datorövning 1 Statistikens Grunder 2 Syfte 1. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med "proc univariate" 3. Lära sig rita histogram 4. Lära sig rita diagram

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

FORSKNINGSMETODIK, KVANTITATIV DEL

FORSKNINGSMETODIK, KVANTITATIV DEL FORSKNINGSMETODIK, KVANTITATIV DEL Jan Saarela http://www.vasa.abo.fi/users/jsaarela/ ANSATS Hantering av numerisk information Hur förstå, tolka och bearbeta sifferserier i matrisform CENTRALA BEGREPP

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

STATISTISKA CENTRALBYRÅN

STATISTISKA CENTRALBYRÅN STATISTISKA CENTRALBYRÅN 1(18) Hyror i bostadslägenheter (HiB) 2013 BO0406 Innehåll 0 Allmänna uppgifter SCBDOK 3.1 1 Innehållsöversikt 0.1 Ämnesområde 0.2 Statistikområde 0.3 SOS-klassificering 0.4 Statistikansvarig

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel

Läs mer

F11. Kvantitativa prognostekniker

F11. Kvantitativa prognostekniker F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer

Läs mer

Laboration 3: Urval och skattningar

Laboration 3: Urval och skattningar S0004M Statistik 1 Undersökningsmetodik. Laboration 3: Urval och skattningar Denna laboration handlar om slumpmässiga urval. Dessa urval ska användas för att uppskatta egenskaper hos en population. Statistiska

Läs mer

Teknisk Rapport En beskrivning av genomförande och metoder

Teknisk Rapport En beskrivning av genomförande och metoder Teknisk Rapport En beskrivning av genomförande och metoder Attityder till skolan Föräldrar 2012-09-10 Inledning Enheten för Utbildning och arbete vid Statistiska centralbyrån (SCB) genomförde under våren

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Bootstrapping i fall-/kontrollstudier av genetiska markörer Bootstrapping i fall-/kontrollstudier av genetiska markörer Håkan Lövkvist RSKC 2011-03-09 Vad är bootstrapping? Bootstrap = stövelstropp Annan översättning: Ta sig i kragen, vara självbärande Litterär

Läs mer

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018 Kvantitativa metoder en introduktion Mikael Nygård, Åbo Akademi, vt 2018 Vad är kvantitativ metod? Kvantitativa (siffermässiga) analyser av verkligheten: beskrivning och förklaringar av fenomen i fokus!

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Skrivning i ekonometri lördagen den 25 augusti 2007

Skrivning i ekonometri lördagen den 25 augusti 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

SCB:s Partisympatiundersökning

SCB:s Partisympatiundersökning SCB:s Partisympatiundersökning - en transparent undersökning Mikaela Järnbert facebook.com/statistiskacentralbyranscb @SCB_nyheter statistiska_centralbyran_scb www.linkedin.com/company/scb Kort om Partisympatiundersökningen

Läs mer

Slumpmässiga urval med Minitab LWn /

Slumpmässiga urval med Minitab LWn / Statistiska institutionen Slumpmässiga urval med Minitab LWn / 2006-03-01 1 OSU, obundet slumpmässigt urval I Minitab har vi lagt upp ett register med våra tjugo bästa kompisar. Nu ska vi göra ett OSU

Läs mer

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp) Uppsala universitet Statistiska institutionen A5 2014-08-26 Tentamen Tillämpad statistik A5 (15hp) 2014-08-26 UPPLYSNINGAR A. Tillåtna hjälpmedel: Miniräknare Formelsamlingar: A4/A8 Tabell- och formelsamling

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar

SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar SCB:s paraplyprojekt för åtgärder att minska bortfallet i individ- och hushållsundersökningar Jan Hörngren jan.horngren@scb.se SCB:s forskardag 2011 Vad är bortfall? Bortfall uppstår när värden på en eller

Läs mer

Checklista för systematiska litteraturstudier*

Checklista för systematiska litteraturstudier* Bilaga 1 Checklista för systematiska litteraturstudier* A. Syftet med studien? B. Litteraturval I vilka databaser har sökningen genomförts? Vilka sökord har använts? Har författaren gjort en heltäckande

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag

Läs mer

Metodologier Forskningsdesign

Metodologier Forskningsdesign Metodologier Forskningsdesign 1 Vetenskapsideal Paradigm Ansats Forskningsperspek6v Metodologi Metodik, även metod används Creswell Worldviews Postposi'vist Construc'vist Transforma've Pragma'c Research

Läs mer

Försök att skriva svaren inom det utrymme på sidan som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar.

Försök att skriva svaren inom det utrymme på sidan som finns. Skriv tydligt! Svara sammanhängande och med enkla, tydliga meningar. KOD: Kurskod: PC1307, PC1546 Kursnamn: Samhällsvetenskaplig forskningsmetodik, Forskningsmetodik och fördjupningsarbete Provmoment: Forskningsmetodik Ansvarig lärare: Uta Sailer (Tel.: 786 1700) Tentamensdatum:

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 11 & 12 Johan Lindström 2 & 9 oktober 217 Johan Lindström - johanl@maths.lth.se FMSF7/MSB2 F11 1/32 Repetition Multipel linjär regression

Läs mer

Kodbarometern för allmänheten 2010

Kodbarometern för allmänheten 2010 Kodbarometern för allmänheten 2010 Rapport av Hallvarsson & Halvarsson för Kollegiet för svensk bolagsstyrning den 13 december 2010 November 2010 HALLVARSSON & HALVARSSON SVEAVÄGEN 20 P.O. BOX 3666 SE-103

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1 Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β

Läs mer

Hur måttsätta osäkerheter?

Hur måttsätta osäkerheter? Geotekniska osäkerheter och deras hantering Hur måttsätta osäkerheter? Lars Olsson Geostatistik AB 11-04-07 Hur måttsätta osäkerheter _LO 1 Sannolikheter Vi måste kunna sätta mått på osäkerheterna för

Läs mer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018 Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

Läs mer

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så

Läs mer

Bortfall i longitudinella undersökningar

Bortfall i longitudinella undersökningar Bortfall i longitudinella Silke Burestam, doktorand Statistiska institutionen Stockholms Universitet Projekt: Moderna statistiska undersökningsmetoder ett nätverkn Finansieras av Hemsida: Riksbankens http://www.statistics.su.se/

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner

Läs mer

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3

Läs mer

Uppföljning av KY-utbildning

Uppföljning av KY-utbildning STATISTISKA CENTRALBYRÅN 2010-11-11 1(15) Uppföljning av KY-utbildning Inledning Enheten för statistik om utbildning och arbete vid Statistiska centralbyrån (SCB) genomförde under perioden augusti oktober

Läs mer

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet. PM315 HT016 Emma äck Formelsamling Centralmått Typvärde T Median Md ritmetiska medelvärdet Det mest frekventa värdet Det mittersta värdet i en rangordnad fördelning = n Spridningsmått Variationsvidd (Range)

Läs mer

INLEDNING. R & D report : research, methods, development, U/STM / Statistics Sweden. Stockholm : Statistiska centralbyrån, Nr

INLEDNING. R & D report : research, methods, development, U/STM / Statistics Sweden. Stockholm : Statistiska centralbyrån, Nr INLEDNING TILL R & D report : research, methods, development, U/STM / Statistics Sweden. Stockholm : Statistiska centralbyrån, 1987. Nr 29-41. Föregångare: Promemorior från U/STM / Statistiska centralbyrån.

Läs mer

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Statistiska analyser C2 Bivariat analys. Wieland Wermke + Statistiska analyser C2 Bivariat analys Wieland Wermke + Bivariat analys n Mål: Vi vill veta något om ett samband mellan två fenomen n à inom kvantitativa strategier kan man undersöka detta genom att

Läs mer

Invandrare och pensioner

Invandrare och pensioner Invandrare och pensioner Ålderpension för invandrare från länder utanför OECD-området, Lennart Flood & Andrea Mitrut, SOU 2010:105 http://www.sou.gov.se/socialaradet/rapporter.htm Umeå 19 januari 2012

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 22 februari STOCKHOLMS UIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 februari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

Är SD Sveriges största parti? Jakob Bergman & Björn Holmquist Statistiska institutionen, Lunds universitet

Är SD Sveriges största parti? Jakob Bergman & Björn Holmquist Statistiska institutionen, Lunds universitet Är SD Sveriges största parti? Jakob Bergman & Börn Holmquist Statistiska institutionen, Lunds universitet Sammanfattning Den augusti 5 hävdade dagstidningen Metro att Sverigedemokraterna var Sveriges största

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer