INLEDNING TILL. U/ADB / Statistics Sweden. Stockholm : Statistiska centralbyrån, Nr E24- E26

Relevanta dokument
Kalibreringsrapport studiecirkeldeltagare 65+

Kalibreringsrapport. Föräldraundersökningen 2012, 1 5 år

STATISTISKA CENTRALBYRÅN

Kalibreringsrapport. Bilaga 1(6)

Kalibreringsrapport Elevpaneler - enkätundersökning

Kalibreringsrapport. Bilaga 1(6)

STATISTISKA CENTRALBYRÅN

STATISTIKENS FRAMSTÄLLNING

Folkhälsoenkät i Stockholms län 2002 dokumentation av viktberäkningar

Uppföljning av Ky- och Yh-utbildning 2011

STATISTIKENS FRAMSTÄLLNING

Europaparlamentsval, valdeltagandeundersökningen

STATISTIKENS FRAMSTÄLLNING

STATISTISKA CENTRALBYRÅN

Ungdomar utan fullföljd gymnasieutbildning en undersökning med många utmaningar

Inträdet på arbetsmarknaden bland gymnasieavgångna 2006 UF0512

Uppföljningsundersökning. Elever. Teknisk rapport

Inträdet på arbetsmarknaden bland gymnasieavgångna 2012 UF0512. Innehållsförteckning

Allmänna valen, valdeltagandeundersökningen

Kalibreringsrapport. Utländska doktorander

Europaparlamentsval, valdeltagandeundersökningen 2009

Om register och imputering av binära variabler. Preliminär version:

Inträdet på arbetsmarknaden efter gymnasieskolan

Arbetsutvecklingsrapport

Bortfallsanalys och kalibreringsrapport. Riksmaten ungdom

STATISTIKENS FRAMSTÄLLNING

Teknisk Rapport En beskrivning av genomförande och metoder

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

Uppföljning av KY-utbildning

Gymnasieungdomars studieintresse Läsåret 2002/03

Utgivna publikationer från 2001 i serien Bakgrundsfakta till Befolknings- och välfärdsstatistik

Allmänna val, valdeltagandeundersökningen

Nybörjare i komvux. A. Allmänna uppgifter UF0523

Inträdet på arbetsmarknaden Gymnasieavgångna 2008

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken

Inträdet på arbetsmarknaden Högskoleexaminerade 2008

Elevpaneler för longitudinella studier 2005 UF0501 Innehåll

Elevpaneler för longitudinella studier 2007 UF0501 Innehåll

Forskarexaminerades arbetsmarknad 2003

Hushållens ekonomi (HEK)

Fördjupad dokumentation av statistiken

Gymnasieungdomars studieintresse Läsåret 2001/02

Inträdet på arbetsmarknaden bland gymnasieavgångna

Uppgifter övning I8: Uppgift nr 1 Sealine AB

Inträdet på arbetsmarknaden bland gymnasieavgångna

Teknisk Rapport En beskrivning av genomförande och metoder. Lärares tidsanvändning Vt 2012

Hushållens icke-vinstdrivande organisationer 2005

Högutbildade utrikes födda

Teknisk rapport Hur tycker du skolan fungerar?

Deltagare i svenskundervisning för invandrare (sfi) 2008

Identification Label. Student ID: Student Name: Elevenkät Fysik. Skolverket Bo Palaszewski, Projektledare Stockholm

Hushållens ekonomi (HEK)

Kursens mål är, förutom faktakunskaper om kursinnehållet, att ge:

Hushållens ekonomi (HEK)

Teknisk Rapport En beskrivning av genomförande och metoder

Vuxnas lärande A. Allmänna uppgifter UF0518

Jämförande skogsvärderingar för områdesskydd

Undersökning av levnadsförhållanden 2010

STATISTIKENS FRAMSTÄLLNING

1 Jag själv lärde om detta av en kollega som, kanske, heter Joel Andersson

Hur kan ny kunskap komma till bättre användning i skolan. Del 2 Bilagor

Teknisk Rapport En beskrivning av genomförande och metoder

Intolerans Enkätundersökning bland gymnasieelever i årskurserna 1 och 3 år 2009/2010 Uppdragsgivare: Forum för levande historia

Hyror i bostadslägenheter (HiB)

ARBETSMARKNAD OCH UTBILDNING BAKGRUNDSFAKTA 2017:1. Analys av bortfallsbias avseende Arbetskraftsundersökningarna

Faktorer som påverkar aktiefondsparandet

STATISTISKA CENTRALBYRÅN

INLEDNING TILL. U/ADB / Statistics Sweden. Stockholm : Statistiska centralbyrån, Nr E24- E26

Översyn av undersökningen. Inrikes och utrikes trafik med svenska lastbilar

Teknisk Rapport En beskrivning av genomförande och metoder

Teknisk Rapport En beskrivning av genomförande och metoder

Följande uttryck används ofta i olika problem som leder till differentialekvationer: Formell beskrivning det finns ett tal k så att A=kB

Översikt. Effektiva algoritmer. En telefonlista. Algoritm

Teknisk Rapport En beskrivning av genomförande och metoder

L HOSPITALS REGEL OCH MACLAURINSERIER.

Gymnasieungdomars studieintresse

1 Föreläsning IV; Stokastisk variabel

STATISTIKENS FRAMSTÄLLNING

Undersökningarna av levnadsförhållanden (ULF/SILC)

DEL I. Matematiska Institutionen KTH

Högskolestuderandes levnadsvillkor

EN 1990 Eurokod: Grundläggande dimensioneringsregler för bärande konstruktioner Elisabeth Helsing, Boverket

IV. Ekvationslösning och inversa funktioner

Tjänsteföretagens förbrukning (TFF)

Ungdomar utan fullföljd gymnasieutbildning

Arbetsmarknaden för högutbildade utrikes födda 2009 UF0529

Statistik RAPPORT. Bodil Mortensson Lena Otterskog Gunnel W ahlstedt. Statistiska centralbyrån Statistics Sweden Potatis konsumtion och fritidsodling

TEMARAPPORT 2016:2 UTBILDNING

Högutbildade utrikes födda

Bortfallsmönster i Undersökningarna av barns levnadsförhållanden

Lönestrukturstatistik, privat sektor (SLP) 2006 AM0103

Tjänsteföretagens förbrukning (TFF)

Variansjämförelse av excess-of-loss-kontrakt med och utan aggregerat självbehåll

TEMARAPPORT 2013:3 UTBILDNING. Inträdet på arbetsmarknaden för universitets- och högskolestuderande. Nybörjare 2005/06

Kalibrering av vikter - beskrivning av tekniken och de SCB-fall den prövats i

Fakta om undersökningen

Centrala gränsvärdessatsen (CGS). Approximationer

Teknisk beskrivning av undersökning av deltagare i Jobb- och utvecklingsgarantins Fas3. Maj-juni 2011.

Teknisk Rapport En beskrivning av genomförande och metoder

Resultat från ämnesproven i biologi, fysik och kemi i årskurs 9 vårterminen 2009

Transkript:

INLEDNING TILL R & D report : researc, metods, development / Statistics Sweden. Stocolm : Statistisa centralbyrån, 1988-2004. Nr. 1988:1-2004:2. Häri ingår Abstracts : sammanfattningar av metodrapporter från SCB med egen numrering. Föregångare: Metodinformation : preliminär rapport från Statistisa centralbyrån. Stocolm : Statistisa centralbyrån. 1984-1986. Nr 1984:1-1986:8. U/ADB / Statistics Sweden. Stocolm : Statistisa centralbyrån, 1986-1987. Nr E24- E26 R & D report : researc, metods, development, U/STM / Statistics Sweden. Stocolm : Statistisa centralbyrån, 1987. Nr 29-41. Efterföljare: Researc and development : metodology reports from Statistics Sweden. Stocolm : Statistisa centralbyrån. 2006-. Nr 2006:1-. R & D Report 2003:2. Estimation vid föreomst av bortfall oc rambrister i undersöningen Gymnasieungdomars studieintresse / Henri Gustafsson, Sixten Lundström. Digitalt sapad fil, anpassad efter de digitaliserade delarna i serien. Statistisa centralbyrån (SCB) 2016. urn:nbn:se:scb-2003-x101op0302

R&D Report 2003:2 Researc Metods Development Estimation vid föreomst av bortfall oc rambrister i undersöningen Gymnasieungdomars studieintresse Henri Gustafsson Sixten Lundström

R&D Report 2003:2 Researc - Metods - Development Estimation in Presence of Nonresponse and Frame Imperfections in te survey Transition from Upper Secondary Scool to Higer Education Från trycet Otober 2003 Producent Statistisa centralbyrån, Statistics Sweden, metodeneten Box 24300, SE-104 51 STOCKHOLM Förfrågningar Henri Gustafsson enri.gustafsson@scb.se Telefon 019-17 65 36 Sixten Lundström sixten.lundstrom@scb.se Telefon 019-17 64 96 2003, Statistisa centralbyrån ISSN 0283-8680 Printed in Sweden SCB-Tryc, Örebro 2003

Abstract Tis report describes a wor carried out witin te Nonresponse project (Bortfallsprojetet). Te aim of te wor is to demonstrate ow errors, caused by sample, nonresponse and frame imperfections, can be andled in te estimation stage. In order to convince staff at Statistics Sweden tat effective metods are available we wanted to sow a concrete example. For tat reason we carried out te wor witin a real survey, namely Te transition from upper secondary scool to iger education (Övergång gymnasiesola ögsola). Bot over- and undercoverage were present, since te target population consisted of pupils in te tird (final) year in te upper secondary scool and te sampling frame consisted of pupils in te second year. Moreover, about 25.5 percent of te pupils did not respond in te data collection stage. Te wor is based on Statistics Sweden s andboo Estimation in te Presence of Nonresponse and Frame Imperfections. Te andboo describes two main metods, namely weigting and imputation. In tis case we used te former metod. Te weigts were derived by use of te general tecnique calibration of weigts. Tis report sows tat all tree types of errors are reduced. Te main explanation for tat is tat we used strong auxiliary information in te calibration stage. Wen te estimation procedure started te register on pupils in te tird (final) year was (almost) finised, so te coverage errors could be almost eliminated. Moreover, to tis register we also added many auxiliary variables from oter registers in order to reduce te sampling error and te nonresponse error. Some of te variables were caracteristics of teir parents. Abstract 04-02-02 15.10

Inneållsförtecning 1. Syfte...1 2. Betecningar...2 3. Besrivning av undersöningen Gymnasieungdomars studieintresse.4 3.1. Inledning...4 3.2. Population oc urvalsdesign...4 3.3. Parametertyper oc redovisningsgrupper...5 3.4. Redovisning av osäeretsmått...5 3.5. Tenis besrivning av undersöningen...5 3.6. Brister i statistien...7 4. Kalibrering av viter...8 4.1. Kalibreringsestimatorn...8 4.2. Hjälpvariabler...10 4.2.1. Inledning...10 4.2.2. Presumtiva jälpvariabler...10 4.2.3. Samvarierar med svarsbenägeneten...11 4.2.4. Samvarierar med målvariabler...14 4.2.5. Avgränsar redovisningsgrupper...20 4.2.6. Slutligt val av jälpvetor...20 5. Varianssattningar...20 6. Resultat...21 6.1. Inledning...21 6.2. Redution av bortfallsbiasen...21 6.3. Redution av variansen...25 6.4. Redution av täcningsfelen...28 6.5. Förbättrad onsistens mellan sattningar oc registerdata...30 7. Slutsatser...30 Referenser...31 Bilaga A: Variansestimator för alibreringsestimatorn...31

1. Syfte Problemet med bortfall är fortsatt stort i statistisa undersöningar. Särsilt gäller det individ- oc usållsundersöningar, där bortfallsandelen t.o.m. uppvisar en stigande trend. I ett försö att förbättra situationen ar Bortfallsprojetet startats. Projetet syftar till att utvecla oc implementera effetiva metoder för att reducera bortfallsandelarna i SCB:s undersöningar. Liaså sa projetet utvecla oc implementera effetiva metoder för att reducera bortfallseveten när väl bortfall uppommit. Föreliggande studie ingår i den andra delen. Två CBM ar srivits inom området, där det första, Minsa bortfallet, är en andledning i ur man minsar bortfallsandelarna oc det andra, Estimation in te Presence of Nonresponse and Frame Imperfections, beandlar ur man reducerar bortfallsbiasen. Det senare CBMet beandlar de två uvudåtgärderna vitning oc imputering. Vitningen föreslås utföras med den generella alibreringstenien. Bortfallsprojetet menar att det är vitigt att demonstrera ur goda metoder an användas. Arbetet baom denna rapport baserar sig (nästan) enbart på besrivningen i nämnda CBM oc beräningarna är utförda med CLAN97. Arbetet avser en särsild undersöning, men vertygen passar de flesta undersöningarna. Vi besriver ur alibreringstenien an användas i undersöningen Gymnasieungdomars studieintresse - läsåret 2002/2003. Vi vill med den försöa reducera felen som beror på urvalet, bortfallet oc täcningsbrister. Dessutom vi vill vi minsa problemet med bristande onsistens. Vi ville att arbetet sulle utföras i sådan tat att den nya puntestimatorn oc motsvarande variansestimator unde användas i årets undersöning. Så ar ocså sett. Arbetet, besrivet i avsnitten 4-5, gjordes under star tidspress, medan resten av arbetet unde utföras under lugnare omständigeter. Innan vi går in på arbetet med denna specifia undersöning introducerar vi de betecningar som beövs för att besriva en generell urvalsundersöning som, lit vår undersöning, lider av såväl bortfalls- som täcningsproblem.

2. Betecningar Antag att vi vill satta totalen Y y (2.1) U = U där y är värdet på målvariabeln, y, för objet i målpopulationen U = { 1,...,,..., N}. Vi antar ocså att vi ar både över- oc undertäcning, d.v.s. att målpopulationen inte elt överensstämmer med rampopulationen. Situationen illustreras i figur 2.1. Låt s F betecna urvalet av storleen n F draget från rampopulationen U F (av storleen N F ) med sannolieten ps ( F ). Inlusionssannolieterna, ända för alla U F, är då π = sf p ( sf ) oc designviten för objet är d = 1/π. Urval: s F Storle: n F o \ p r \ p Rampopulation: U F Storle: N F o p r p Målpopulation: U Storle: N Figur 2.1 Figur 2.1 illustrerar en situation där både undertäcning oc övertäcning föreommer. Med övertäcningsmängd menas U ( U U ) undertäcningsmängd U ( U ) U F F oc med. Mängden av objet som svarar oc F

tillör målpopulationen benämns r p oc dess storle m p. Det gäller att rp sf. Indexet p används är för att indiera objet som är var i målpopulationen oc indexet \ p avser objet som tillör övertäcningen. Vi använder notationen r \ p för mängden objet som svarar oc tillör övertäcningen. Storleen på r \ p benämner vi m \ p. Bortfallsmängden är o p o\ p, där o p är den del som tillör målpopulationen oc o \ p den del som tillör övertäcningen. Urvalet s F är unionen av de fyra disjunta mängderna r p, r \ p, o p and o \ p. Vi antar att varje svarsobjet, rp r \ p, an änföras till antingen r p eller r \ p. Detta är vanligtvis enelt. Mycet mer problematis är det att i pratien dela upp bortfallet i dess två delmängder, o p and o \ p. Förutom totaler för ela målpopulationen sattas vanligtvis ocså totaler för redovisningsgrupper. Låt oss benämna redovisningsgrupper med U,..., U,..., 1 d U oc deras storle D N 1,..., N d,..., N D. Antag att vi vill satta totalen för variabeln y för var oc en av redovisningsgrupperna. Målet för estimationen är då de D storeterna Y,..., Y,..., 1 d Y, där D Y d = U y d, d = 1,..., D, med y d y = 0 för för U U d d Även andra typer av parametrar är efterfrågade, som t.ex. medelvärdet i Yd redovisningsgrupp d, Y d =. Parametrarna utgör i regel funtioner av N d totaler oc vid estimationen sattas varje total för sig.

3. Besrivning av undersöningen Gymnasieungdomars studieintresse 3.1. Inledning Syftet med undersöningen är att belysa ur stort intresset för att börja läsa på ögsolan är bland gymnasieelever, vilen inritning på ögsolestudierna som är mest locande oc ur intresset för ögsoleutbildning förändras över tiden. Undersöningen genomförs en gång per år. Uppgifterna samlas in fr.o.m. första vecan i otober t.o.m. sista vecan i november via postenäter till elever i årsurs tre i gymnasiesolan. Datainsamlingen görs via postenät med tre sriftliga påminnelser. Svarsandelen för undersöningen avseende läsåret 2002/2003 är 74.5 %. I avsnitten 3.2-3.6 besriver vi undersöningen ortfattat. Mer information finns i UF 36 SM 0301. 3.2. Population oc urvalsdesign Rampopulationen, U F, ämtas från Solverets elevregister. Eftersom registret över elever i årsurs tre för atuellt läsår inte är färdigt när urvalet till undersöningen sa dras, måste föregående läsårs register över elever i årsurs två användas som ram. I undersöningen avseende läsåret 2002/2003 stratifierades rampopulationen efter risområde, programgrupp (studieförberedande/yresförberedande) samt ön. Urvalet alloerades med syfte att erålla bra sattningar för vitiga redovisningsgrupper. Dessutom drogs på uppdrag tilläggsurval. Data från tilläggsurvalen används ocså i sattningarna, vilet totalt ger urvalet s F av storleen nf = 9023. Det slutliga urvalet beandlas i den ordinarie estimationen som stratifierat obundet slumpmässigt urval. Tilläggsurvalen alloerades på ett sådant sätt att i många strata ingår samtliga elever.

3.3. Parametertyper oc redovisningsgrupper De flesta parametrarna utgörs av procentuella andelen elever inom en redovisningsgrupp som ar en viss egensap. Egensapen an t.ex. vara att planera att börja läsa på universitet eller ögsola inom tre år eller att läsa inom ett visst ämnesområde eller att läsa vid ett visst universitet eller en viss ögsola. Redovisningsgrupperna avgränsas antingen med jälp av en registervariabel (från urvalsramen) eller utifrån svaret på en fråga. Vanliga registervariabler som används i detta syfte är program, ön oc risområde. En vanlig redovisningsgrupp av den andra typen är de som planerar att börja läsa på universitet eller ögsola inom tre år oc bland dessa an egensapen vara t.ex. ämnesområde. Förutom procenttal sattas ocså antalet elever med olia egensaper. I SMet utgör dessa totaler vanligtvis storleen på redovisningsgrupper. I Sveriges Statistisa Databaser (SSD) sattas enbart totaler (antal). 3.4. Redovisning av osäeretsmått I SMet presenteras 95-procentiga onfidensintervall för de flesta sattningarna av procenttal, men däremot inte för sattningar av totaler. I SSD finns inga onfidensintervall. Några andra mått på osäereten anges inte, men däremot ommenteras andra fel t.ex. täcningsbrister. 3.5. Tenis besrivning av undersöningen I undersöningen utgörs övertäcningen U ( U U ) F F av de elever som avbrutit eller gjort uppeåll i sina studier under eller efter årsurs två oc undertäcningen U ( U U F ) av de elever som inte fanns med i årsurstvå-registret, t.ex. på grund av studieuppeåll men som innevarande läsår går i årsurs tre. Rampopulationen U F är indelad i strata, U F, = 1,..., H, oc urvalet s F dras från U F med obundet slumpmässigt urval. (När det är nödvändigt att identifiera ett stratum lägger vi till index till betecningarna angivna i figur 2.1.) Designviten är då d = N F / nf for U F. I undersöningen sattas Y U med följande estimator:

N Yˆ = y (3.1) HT H F = 1 m p + m\ p rp Anm.: Vi allar denna estimator för HT-estimator, en förortning av Horvitz-Tompson-estimator, även om den inte ritigt är en sådan estimator. Låt oss disutera olia överväganden ring svarssannolieten oc täcningsbrister för att förstå rimligeten i att estimator (3.1) används. Vi antar två olia fall, nämligen där (i) svarssannolieten är lia stor (inom varje stratum) för elever som tillör målpopulationen som för de som tillör övertäcningen resp. (ii) svarssannolieten är lia med noll för de som tillör övertäcningen. I fall (i) utgör svarsmängden inom varje stratum ett (approximativt) obundet slumpmässigt urval från U F. Då är det lätt att inse att vi sattar totalen i domänen U U F (se figur 2.1). Alltså får man i detta fall en (förväntad) undersattning av totalen för målpopulationen Y U. Det är troligt att svarssannolieten är lägre bland de personer som tillör övertäcningen än bland andra. Många av dessa elever an vara på utlandsstudier oc inte nåbara oc andra an tyca att frågorna är irrelevanta. Låt oss anta att det går så långt att ingen svarar i den gruppen (fall (ii)), vilet innebär att m 0 (jmf. estimator (4.3)). Det är lätt att se att om vi utnyttjar \ p = den estimatorn för att satta storleen på populationen får vi YˆHT = N F. Om över- oc undertäcningsmängderna är lia stora, d.v.s. N= N F, så erålles rätt dimension på viterna. I denna undersöning är det troligt att övertäcningen är betydligt större än undertäcningen oc därmed sulle en raftig översattning erållas. Vi ser alltså att fall (i) ger en undersattning oc fall (ii) en översattning. Svarssannolieten i övertäcningen bör alltså vara mindre än bland övriga, men inte noll för att vitningen i estimator (3.1) sa fungera.

3.6. Brister i statistien Sattningarna i undersöningen är beäftade med fel som består av flera omponenter. De felomponenter vi sa studera är (i) bortfallsfelet (bortfallsbias), (ii) urvalsfelet (varians) samt (iii) täcningsproblem. Dessutom vill vi ocså studera möjligeten att reducera (iv) bristande onsistens mellan sattningar oc registerdata. Bortfallsbias Bortfall ar en snedvridande effet på sattningarna om de som svarar ar andra egensaper än de som inte svarar. Detta får vi aldrig veta med säeret, men däremot an vi för registervariabler jämföra gruppen svarande med bortfallet. Om registervariablerna är (start) orrelerade med målvariablerna ger jämförelsen en indiation på bortfallsfelet. I denna undersöning indierar bortfallsanalysen (avsnitt 4.2.3) att bortfallet orsaar bias. Varians I en statistis undersöning utgör stratifieringen oc alloeringen av urvalet på strata, lisom urvalsstorleen (egentligen antalet svarande) vitiga bestämningsfatorer för variansen. Sattningar som avser ela populationen ar i regel liten varians, men däremot an variansen vara stor i vissa redovisningsgrupper. I denna undersöning utgör risområde, program oc ön vitiga redovisningsgrupper. Stratifieringen (i grundurvalet) oc alloeringen ar gjorts med syfte att få så liten varians som möjligt i dessa redovisningsgrupper. Det är doc inte möjligt att a alltför många strata när urvalet inte är större. Därför fic man begränsa sig till programgrupper i stället för program oc reducerade därmed antalet strata från 272 till 32. Därför ar man större varians för vissa program än vad som är önsvärt. Tilläggsurvalen syftade till att öa precisionen för vissa specifia grupper.

En minsning av variansen är naturligtvis välommet för de sattningar som nu publiceras. En minsning an ocså göra det möjligt att publicera sattningar, som man tidigare fått utelämna p.g.a. dålig valitet. Täcningsproblem I inledningen av avsnitt 3.5 förlarar vi varför både övertäcning oc undertäcning föreommer, d.v.s. att båda mängderna U F ( U UF) oc U ( U U F ) inneåller elever. Vi visar senare i rapporten att dessa brister i stort sett elimineras genom att utnyttja atuell jälpinformation. Bristande onsistens mellan sattningar oc registerdata Resultaten från undersöningen publiceras en ort tid innan resultaten från årsurs-tre-registret publiceras. Många av uppgifterna sa överensstämma men gör det inte. Vid sattningar av, t.ex. antalet elever i olia program, erålles olia resultat. Denna bristande onsistens är naturligtvis störande. I föreliggande arbete visar vi ur dessa brister an reduceras genom att utnyttja jälpinformation i en alibreringsestimator. 4. Kalibrering av viter 4.1. Kalibreringsestimatorn Både variansen oc bortfallsbiasen an reduceras genom att utnyttja star jälpinformation i en alibreringsestimator. Även täcningsbrister an reduceras om det finns jälpinformation som väl speglar målpopulationen (Lundström and Särndal, 2001, C. 11). Viss jälpinformation utnyttjas vanligtvis även före estimationen, t.ex. för bildande av stratifierade urvalsdesigner. I studerade undersöning används, som tidigare påpeats, stratifieringsvariablerna risområde, ön oc programgrupp. Det an doc finnas ytterligare jälpinformation som är effetiv i estimationen. Innan vi går in på den specifia undersöningen sa vi besriva alibreringsestimatorn oc visa dess flexibilitet vad gäller utnyttjande av jälpinformation. Hjälpinformation består av två delar, nämligen (i) en jälpvetor för varje svarande objet oc (ii) en populationstotal för jälpvetorn. Hjälpvetorn = x 1,..., x j,..., xj benämnes x, oc dess värden för objet med ( ) x, en

olumnvetor med J omponenter, där j:e jälpvariabeln. Populationstotalen för jälpvetorn är alltså U x j är dess värde, för objet, för x. När vi ar täcningsproblem an det vara svårt att erålla ett exat värde på x. I det fallet ar vi föroppningsvis en god approximation, är U benämnd X ~. Vid sattning av Y y ar alibreringsestimatorn följande utseende: U = U Yˆ UW = w y (4.1) där w rp = d v oc v ~ 1 ( X d x ) ( d x x ) x = 1+ for r p (4.2) r p r p Kalibreringsviterna w ar den önsade alibreringsegensapen att de ~ återsapar de ända totalerna, d.v.s. w x = X. Vi ommer att använda den generella alibreringsestimatorn (4.1) i detta arbete. Det an doc vara intressant att veta att de flesta ända estimatorer utgör specialfall från alibreringsestimatorn; ett exempel visas nedan. r p EXEMPEL: En vanlig estimator av Antag att s F dras med stratifierat obundet slumpmässigt urval som besrivs i avsnitt 3.5. En estimator av Y U som är vanlig på SCB är = H N F Yˆ U r y p (4.3) = 1 m p I Lundström and Särndal (2001, Example 11.3.1) visas att estimator (4.3) är ett specialfall av (4.1). Det inträffar när x får identifiera ~ X N,..., N,..., N. Y U = F1 F FH tillöriget till strata oc ( ) I studerade undersöning (avseende läsåret 2002/2003) fanns en preliminär version av årsurs-tre-registret vid estimationstillfället. Detta register

bedömdes vara relativt väl överensstämmande med det slutliga registret, som i sin tur ar mycet ög valitet. Därför ämtade vi X ~ från den preliminära versionen. Det vi besriver längre fram i rapporten, särsilt i avsnitten 6.4 oc 6.5, ar vi unnat göra först när årsurs-tre-registret var lart (april). Då an vi studera i vilen mån täcningsbristerna ar reducerats med jälp av denna teni. Dessutom an vi se den verliga sillnaden mellan den preliminära oc den slutliga versionen av årsurs-tre-registret. Det centrala arbetet för att erålla en god valitet på sattningarna är att använda star jälpinformation. I nästa avsnitt besriver vi detta arbete för vår undersöning. 4.2. Hjälpvariabler 4.2.1. Inledning Vid val av jälpvariabler är det tre riterier som sa beatas. Det första riteriet är att variabeln samvarierar väl med svarsbenägeneten (- sannolieten). Det är det vitigaste riteriet eftersom det leder till en minsning av bortfallsbiasen för alla sattningar. Det andra riteriet är att variabeln samvarierar väl med (vitiga) målvariabler. Om så är fallet minsar bortfallsbiasen för de sattningar som byggs upp av dessa målvariabler. Även variansen minsar för dessa sattningar. Det tredje riteriet är att variabeln avgränsar (vitiga) redovisningsgrupper. Det leder framför allt till minsad varians i sattningar för dessa redovisningsgrupper. Vår erfarenet är att uppsättningen variabler som uppfyller första riteriet är vanligtvis relativt lia i olia undersöningar. Kriterium (ii) är doc mer undersöningsspecifi. Även vila redovisningsgrupper som studeras varierar mellan undersöningar. 4.2.2. Presumtiva jälpvariabler Populationen i denna undersöning är sådan att vissa registervariabler inte är användbara. Eftersom alla är (ungefär) lia gamla, alla ar samma utbildning oc ingen förvärvsarbetar ger inte registervariablerna ålder, utbildning oc inomst någon information. Däremot är det rimligt att utnyttja en del av

föräldrarnas ( vårdnadsavarens ) variabler. T.ex. vet vi från andra studier att om föräldrarna är ögutbildade så är det troligt att barnet väljer en längre aademis utbildning. Dessa uppgifter ämtas från registret över totalbefolningen (RTB) oc utbildningsregistret. Elevernas egna variabler ämtar vi från den preliminära versionen av årsurs-tre-registret. Dessutom tror vi att elevens slutbetyg i grundsolan an vara intressant oc utnyttjar därför det registret. Vi gör ocså vissa opslagningar av ategorier baserat på unsaper från tidigare alibreringar. I tabell 4.1 visas de presumtiva jälpvariablerna. Tabell 4.1. Presumtiva jälpvariabler Variabel Kategorier (benämning) Kön Man ; vinna Risområde (NUTS) 8 områden Födelseland Födda i Sverige; Europa utom Sverige; övriga Storstad Boende i storstad; övriga Program 17 ategorier Vårdnadsavarens Födda i Sverige; Europa utom Sverige; övriga födelseland Vårdnadsavarens Förgymnasial; gymnasial; eftergymnasial utbildningsnivå Vårdnadsavarens utbildningsinritning Vårdnadsavarens civilstånd Slutbetyg i årsurs 9 Huvudman (1)Allmän utbildning; (2) pedagogi, lärarutbildning, umaniora oc onst; (3) samällsvetensap, juridi, andel, adm.; (4) naturvetensap, matemati oc data, teni oc tillverning, lant- oc sogsbru oc djursjuvård; (5) älso- oc sjuvård, social omsorg; (6) tjänster Gift oc registrerat partnersap; övriga 4 ategorier Kommunal; landsting; fristående I det följande analyserar vi variablerna i tabell 4.1 för att slutligen bestämma en jälpvetor. 4.2.3. Samvarierar med svarsbenägeneten I detta avsnitt sattar vi procentuella andelen svarande i olia redovisningsgrupper i populationen U U F. Redovisningsgrupperna avgränsas med jälp av de presumtiva jälpvariablerna.

Sattningarna görs med följande estimator: r d r I p Pˆ =, d I p + o p där I 1om elev tillör studerade redovisningsgrupp = 0 för övrigt Tabell 4.2. Sattad procentuell andel svarande fördelat på ön. Kön Man Kvinna Svarsandel (%) 68.6 80.7 Tabell 4.3. Sattad procentuell andel svarande fördelat på risområden (NUTS). NUTS 1 2 3 4 5 6 7 8 Svarsandel (%) 70.2 74.0 73.6 74.6 79.5 75.2 74.6 71.7 Tabell 4.4. Sattad procentuell andel svarande fördelat på födelseland. Födelseland Sverige Europa utom Övriga Sverige Svarsandel (%) 75.3 66.5 68.5 Tabell 4.5. Sattad procentuell andel svarande fördelat på storstad/ice storstad. Storstad Boende i storstad Övriga Svarsandel (%) 74.3 74.6

Tabell 4.6. Sattad procentuell andel svarande fördelat på program (oderna för programmen är förlarade i tabell 6.1). Program 77 81 83 84 85 86 87 88 Svarsandel (%) 74.2 66.9 60.3 69.3 72.9 64.6 79.5 72.8 Program 89 90 91 92 93 94 95 96 97 Svarsandel (%) 74.0 69.6 73.0 78.4 74.4 73.8 80.7 76.8 76.1 Tabell 4.7. Sattad procentuell andel svarande fördelat på vårdnadsavarens födelseland. Vårdnadsavarens Sverige Europa utom Övriga födelseland Sverige Svarsandel (%) 75.1 72.9 68.4 Tabell 4.8. Sattad procentuell andel svarande fördelat på vårdnadsavarens utbildningsnivå. Vårdnadsavarens Förgymnasial Gymnasial Eftergymnasial utbildningsnivå Svarsandel (%) 70.9 75.3 79.1 Tabell 4.9. Sattad procentuell andel svarande fördelat på vårdnadsavarens utbildningsinritning (oderna är förlarade i tabell 4.1). Vårdnadsavarens 1 2 3 4 5 6 utbildningsinritning Svarsandel (%) 72.6 78.4 76.8 74.0 74.9 66.9 Tabell 4.10. Sattad procentuell andel svarande fördelat på vårdnadsavarens civilstånd. Vårdnadsavarens Gift eller registrerat partnersap Övriga civilstånd Svarsandel (%) 77.4 68.8

Tabell 4.11. Sattad procentuell andel svarande fördelat på slutbetyg i årsurs 9. Slutbetyg i 0-160 161-200 201-240 241-320 årsurs 9 Svarsandel (%) 63.8 68.1 76.9 84.6 Tabell 4.12. Sattad procentuell andel svarande fördelat på uvudman Huvudman Kommunal Landsting Fristående Svarsandel (%) 74.6 70.8 76.2 Tabellerna 4.2-4.12 visar att de stara jälpvariablerna (beträffande riterium (i)) är framför allt ön, elevens slutbetyg i årsurs 9, vårdnadsavarens utbildningsnivå oc civilstånd. Även variabeln vårdnadsavarens födelseland är relativt star (födda i Europa sulle doc unna bilda en grupp). Svarsbenägeneten varierar ocså en el del mellan olia program. T.ex. är andelen svarande inom elprogrammet (od 83) 60.3 % oc inom vårdprogrammet (od 95) 80.7 %. Sillnaden mellan storstad oc övriga landet är däremot (ovanligt!) litet. Vårdnadsavarens utbildningsinritning är inte särsilt star. Innan vi utesluter någon variabel undersöer vi i vilen mån riterium (ii) uppfylls för olia variabler. 4.2.4. Samvarierar med målvariabler Vi ar plocat ut 7 vitiga målvariabler oc från dessa bildat diotoma variabler. Dessa onstruerade variabler är förlarade i tabell 4.13.

Tabell 4.13. Konstruerade målvariabler Målvariabel Förlaring (se även frågeformuläret) Till universitet Fr 1; 1=Ja Fast program Fr 3; 1=Ett fast program som ger en bestämd utb. Studietid Fr 4; 1= Mer än 4 år Visst universitet Fr 5; 1=Vitigast att omma till visst universitet Teni/natur Fr 6; 1= 10+11 Studier utomlands Fr 11; 1= Ja, det an jag täna mig att göra Studentandbo Fr 12A; 1 = Mycet I nedanstående tabeller sattar vi procentuella andelen inom olia redovisningsgrupper som ar en viss egensap (se tabell 4.13). Den population vi begränsar oss till är den del av U U F som sulle a svarat om en totalundersöning ade genomförts med samma metod (oc resurser) som i undersöningen. Denna population benämns ibland svarsstratum. Estimatorn är rp d I y Pˆ y =, d I rp där y 1om elev ar studerade egensap = 0 för övrigt Frågan Har du planer på att börja på universitet eller ögsola inom de närmaste åren? ställs till alla i urvalet oc alltså avser vår onstruerade variabel Till universitet ela svarsstratum. De övriga variablerna begränsar sig till elever som ar sådana planer. I tabellerna 4.14 4.24 redovisas resultaten fördelade efter de presumtiva jälpvariablernas ategorier.

Tabell 4.14. Kön Målvariabel Man Kvinna Till universitet 45.4 56.5 Fast program 52.4 61.4 Studietid 22.1 28.1 Visst universitet 18.4 12.5 Teni/natur 45.6 14.2 Studier utomlands 42.2 55.3 Studentandbo 3.0 11.2 Tabell 4.15. Risområden (NUTS) Målvariabel NUTS 1 2 3 4 5 6 7 8 Till universitet 60.8 51.6 48.5 50.9 49.3 48.0 47.5 46.1 Fast program 55.2 50.9 67.8 57.4 60.0 59.2 61.5 54.6 Studietid 27.0 23.4 19.8 32.2 28.5 20.0 24.8 17.5 Visst universitet 17.9 13.2 9.1 18.5 16.4 12.6 13.5 9.7 Teni/natur 25.9 25.0 23.1 29.3 32.9 21.8 27.4 27.1 Studier utomlands 56.6 43.5 48.9 46.6 55.1 44.8 48.7 45.8 Studentandbo 5.8 4.9 7.7 10.8 9.5 7.4 7.8 8.8 Tabell 4.16. Födelseland Målvariabel Födelseland Sverige Europa utom Övriga Sverige Till universitet 50.2 65.0 61.4 Fast program 56.3 68.3 69.6 Studietid 24.5 29.1 37.3 Visst universitet 13.1 24.8 33.5 Teni/natur 27.5 27.5 23.5 Studier utomlands 48.5 59.2 63.3 Studentandbo 7.6 3.0 12.3

Tabell 4.17. Storstad/övriga Målvariabel Storstad/övriga Boende i storstad Övriga Till universitet 59.3 48.1 Fast program 55.0 59.0 Studietid 31.0 22.9 Visst universitet 17.8 13.6 Teni/natur 26.6 27.5 Studier utomlands 56.5 46.7 Studentandbo 8.1 7.6 Tabell 4.18 Program (oderna för programmen är förlarade i tabell 6.1) Målvariabel Program 77 81 83 84 85 86 87 88 Till universitet 65.6 32.8 3.9 21.9 6.8 4.4 47.0 29.2 Fast program 53.2 77.8 96.9 56.0 96.4 73.1 47.0 53.9 Studietid 23.9 12.2 3.1 11.9 7.9 15.7 14.3 4.1 Visst universitet 17.5 13.5 0.0 18.2 81.2 4.8 5.7 29.4 Teni/natur 76.8 0.2 50.5 80.1 100.0 89.5 2.8 5.5 Studier utomlands 33.1 28.1 46.4 22.5 7.3 50.2 61.8 60.7 Studentandbo 5.8 1.3 0.0 0.4 0.0 0.0 7.2 9.5 Målvariabel Program (forts.) 89 90 91 92 93 94 95 96 97 Till universitet 17.0 11.2 9.3 34.4 35.9 22.2 84.8 51.4 64.8 Fast program 54.7 52.4 37.9 61.1 52.6 66.6 57.0 88.0 56.8 Studietid 0.4 4.6 0.0 0.0 13.0 11.3 42.3 28.3 19.0 Visst universitet 15.3 12.1 4.8 2.8 10.9 0.5 12.9 26.5 16.0 Teni/natur 0.0 0.0 34.3 0.0 1.2 36.4 49.5 2.4 3.0 Studier utomlands 54.9 64.5 62.1 58.3 49.8 37.7 52.9 32.9 53.9 Studentandbo 3.4 0.0 0.0 0.0 4.3 6.4 6.6 12.2 10.6

Tabell 4.19 Vårdnadsavarens födelseland Målvariabel Vårdnadsavarens födelseland Sverige Europa utom Övriga Sverige Till universitet 50.1 53.3 67.2 Fast program 56.0 68.0 68.4 Studietid 24.0 33.0 37.9 Visst universitet 12.6 23.4 34.0 Teni/natur 27.8 27.2 21.5 Studier utomlands 47.8 61.0 64.0 Studentandbo 7.6 4.2 12.0 Tabell 4.20. Vårdnadsavarens utbildningsnivå Målvariabel Vårdnadsavarens utbildningsnivå Förgymnasial Gymnasial Eftergymnasial Till universitet 38.0 52.5 67.2 Fast program 58.7 59.6 55.2 Studietid 17.5 23.7 33.3 Visst universitet 18.4 16.0 11.4 Teni/natur 23.8 27.3 29.8 Studier utomlands 44.0 49.3 54.8 Studentandbo 7.6 7.6 8.1 Tabell 4.21. Vårdnadsavarens utbildningsinritning (oderna är förlarade i tabell 4.1). Målvariabel Vårdnadsavarens utbildningsinritning 1 2 3 4 5 6 Till universitet 44.2 59.2 54.2 52.4 52.9 34.7 Fast program 62.6 60.6 53.4 54.3 58.5 56.3 Studietid 26.2 27.4 23.2 27.8 24.6 22.7 Visst universitet 22.2 11.2 15.0 14.1 13.4 17.3 Teni/natur 27.4 26.4 23.8 32.6 27.1 22.9 Studier utomlands 44.4 55.2 52.6 47.0 49.4 50.5 Studentandbo 7.9 9.9 5.3 6.8 8.6 8.6

Tabell 4.22. Vårdnadsavarens civilstånd Målvariabel Vårdnadsavarens civilstånd Gift eller registrerat partnersap Övriga Till universitet 53.5 46.1 Fast program 58.0 56.9 Studietid 26.1 24.2 Visst universitet 15.1 14.5 Teni/natur 26.9 28.1 Studier utomlands 49.6 50.6 Studentandbo 7.8 7.6 Tabell 4.23. Slutbetyg i årsurs 9 Målvariabel Slutbetyg i årsurs 9 0-160 161-200 201-240 241-320 Till universitet 23.7 27.9 55.9 78.2 Fast program 58.0 55.2 55.8 59.6 Studietid 18.4 12.8 16.8 36.0 Visst universitet 24.1 20.9 13.4 13.0 Teni/natur 20.1 23.0 25.3 30.6 Studier utomlands 53.7 48.3 39.9 56.2 Studentandbo 5.9 5.6 7.1 9.1 Tabell 4.24. Huvudman Målvariabel Huvudman Kommunal Landsting Fristående Till universitet 51.2 23.1 68.5 Fast program 58.0 71.1 49.6 Studietid 25.5 5.0 30.8 Visst universitet 15.0 0.4 16.4 Teni/natur 27.2 33.5 26.0 Studier utomlands 48.9 38.7 69.5 Studentandbo 7.8 0.5 7.8 De variabler som särsilt förlarar svarsbenägeneten, ön, vårdnadsavarens utbildningsnivå, vårdnadsavarens civilstånd oc elevens slutbetyg i årsurs 9 är ocså stara variabler för riterium (ii). Även

vårdnadsavarens födelseland är relativt star. Variabeln storstad stärer är sin ställning. 4.2.5. Avgränsar redovisningsgrupper Det är vitigt att använda variablerna risområde, ön oc program eftersom de avgränsar redovisningsgrupper. 4.2.6. Slutligt val av jälpvetor Det är värdefullt om jälpvetorn är stabil över tiden oc således an användas i de ommande årens undersöningar. Erfarenetsmässigt fungerar jälpvariabler valda utifrån de tre riterierna bra över tiden. Det man bör ontrollera är att inte någon grupp får alltför få observationer. Av de ensilda variablerna är program den mest änsliga. I årets urval finns det endast 18 elever i ett program. Trots detta anser vi, att program bör ingå i jälpvetorn eftersom den avgränsar vitiga redovisningsgrupper. Vi undvier ocså att orstabulera jälpvariabler för att inte få alltför små celler. Efter en sammanvägning av analysen ring de tre riterierna samt efter ontroll av viternas fördelning föreslår vi följande jälpvetor: Kön+NUTS+program+vårdnadsavarens födelseland+ vårdnadsavarens utbildningsnivå+vårdnadsavarens civilstånd+slutbetyg i årsurs 9 Den genomsnittliga storleen på v -viten (4.2) är 1.45 oc det minsta värdet är 0.71 oc det största är 2.35. Dessa värden åller sig inom de i litteraturen redovisade reommendationerna över variationsvidden för viterna. 5. Varianssattningar Produten redovisar onfidensintervall i anslutning till de flesta puntsattningarna i SMet (se avsnitt 3.4). Vid beräningen av varianssattningarna används CLAN97. Det är naturligtvis vitigt att onfidensintervall an beränas även när KAL-estimatorn används. I många av SCB:s undersöningar är täcningsproblemen obetydliga oc därför an mer onventionella tenier användas. De beandlas i Lundström oc Särndal (2001), apitel 1-10. I föreliggande undersöning ar vi stora täcningsproblem oc därmed befinner vi oss i den situation som besrivs i apitel 11 i samma CBM. Vi ar en mycet god approximation av jälptotalerna i målpopulationen oc dessutom an vi identifiera mängden

o p vilet gör att variansestimator (11.3.6) med viten (11.2.11) i nämnda CBM an användas. Även i detta oonventionella fall beränar CLAN97 varianssattningar. Variansestimator utgör summan av samplingsvariansen oc bortfallsvariansen. CLAN97 beränar summan utan att särredovisa de två termerna. Vi vill gärna få en uppfattning om ur stora termerna är oc därför ar vi gjort ett eget program för detta. Det beandlar doc bara varianssattningar för totalsattningar. I bilaga A redovisas utseendet på de två termerna. 6. Resultat 6.1. Inledning Sattningar baserade på alibreringsestimatorn ar använts i årets (2002/2003) undersöning. Estimatorn utnyttjar den jälpinformation som anges i avsnitt 4.2.6. Kan vi säert säga att alibreringsestimatorn ar gett bättre sattningar än den gamla estimatorn som inte utnyttjar jälpinformation? Oc vad menas i så fall med bättre? Som vi påpeat i avsnitt 3.4 menar vi att bytet av estimator an reducera fyra olia brister i statistien, nämligen bortfallsbias, varians, täcningsproblem samt bristande onsistens. I det följande försöer vi bedöma om så är fallet. 6.2. Redution av bortfallsbiasen Det är inte möjligt att mäta bortfallsbiasen annat än i onstruerade fall. Det rävs nämligen att man änner svarssannolieten, vilet man aldrig gör i verligeten. Ett vanligt sätt att studera effeten av bortfall är att genomföra simuleringar inom olia populationer oc med olia svarsmodeller. I Lundström (1997) redovisas en mängd simuleringsstudier oc en slutsats är att bortfallsbiasen an reduceras raftigt om star jälpinformationen används i en alibreringsestimator. I föreliggande arbete ar vi ett enda urval för vilet vi an beräna två värden för varje tabellcell, nämligen sattning med (i) HT-estimatorn (tidigare utnyttjad metod) oc med (ii) KAL-estimatorn. Som vi tidigare påpeat så ar alibreringsestimatorn den goda egensapen att den reducerar bortfallsbiasen. Men vi an inte utifrån ett urval satta bortfallsbiasen. Däremot tror vi att sillnaden mellan värde (i) oc (ii) antyder storleen på

förbättringen eller, uttryct på annat sätt, reduceringen av bortfallsfelet. Vi försöer ocså samtidigt reducera täcningsfelen oc effeten av detta går inte att särsilja från bortfallsfelet. Vi vet inte eller ur stort det resterande bortfallsfelet är. Vi väljer att begränsa jämförelsen till den första tabellen i SM:et, som är en av de vitigaste. Den inneåller två typer av parametrar. I den första delen sattas procentuella andelen som ar olia planer på att börja läsa på universitet/ögsola oc i den andra delen sattas antalet årsurs-tre-elever i de olia programmen. Låt oss först jämföra sattningar av procenttalen. HT-estimatorn för totaler är besriven i uttryc (3.1) oc motsvarande KAL-estimator i (4.1). Vid sattning av procenttal används respetive estimator i både täljare oc nämnare.

Tabell 6.1. Jämförelse mellan sattningar av procenttal baserade på HTestimatorn oc KAL-estimatorn Program (Inom parentes Planer på att börja läsa på universitet/ögsola? Differens anges oder för HT KAL HT-KAL programmen) Inte Inte Inte Ja best. Nej Ja best. Nej Ja best. Nej Samtl pgm 49.1 25.6 25.3 49.0 25.5 25.6 0.1 0.1-0.3 Kvinnor 54.7 28.8 16.5 54.9 28.9 16.2-0.2-0.1 0.3 Män 43.8 22.5 33.7 43.3 22.2 34.6 0.5 0.3-0.9 Barn- oc fritid (77) 31.5 44.9 23.6 31.3 43.9 24.8 0.2 1.0-1.2 Bygg (81) 4.2 11.9 83.9 3.4 12.1 84.5 0.8-0.2-0.6 El (83) 22.6 27.8 49.6 21.5 28.5 50.0 1.1-0.7-0.4 Energi (84) 6.3 30.5 63.2 7.5 29.6 62.8-1.2 0.9 0.4 Estetisa (85) 44.7 41.5 13.8 46.4 39.9 13.7-1.7 1.6 0.1 Fordon (86) 5.3 8.7 86.0 4.9 8.3 86.8 0.4 0.4-0.8 Handel (87) 27.9 38.4 33.7 29.1 37.9 32.9-1.2 0.5 0.8 Hantver (88) 18.3 27.3 54.3 16.9 27.7 55.4 1.4-0.4-1.1 Hotell (89) 12.1 41.0 46.9 10.9 41.6 47.4 1.2-0.6-0.5 Industri (90) 8.0 23.3 68.7 8.7 21.6 69.7-0.7 1.7-1.0 Livsmedel (91) 28.3 23.9 47.8 33.4 19.3 47.4-5.1 4.6 0.4 Medie (92) 35.1 41.7 23.2 34.4 44.1 21.5 0.7-2.4 1.7 Naturbru (93) 21.3 25.9 52.8 21.3 24.5 54.2 0.0 1.4-1.4 Naturvetens (94) 84.4 11.2 4.4 84.8 11.1 4.1-0.4 0.1 0.3 Kvinnor 84.6 12.2 3.3 85.0 12.3 2.7-0.4-0.1 0.6 Män 84.3 10.5 5.3 84.7 10.2 5.1-0.4 0.3 0.2 Omvårdnad (95) 50.9 34.3 14.8 48.1 35.9 15.9 2.8-1.6-1.1 Sam.vetens (96) 62.7 24.8 12.4 63.6 24.1 12.3-0.9 0.7 0.1 Kvinnor 66.6 23.0 10.3 67.7 22.3 10.0-1.1 0.7 0.3 Män 55.8 28.0 16.2 56.2 27.5 16.4-0.4 0.5-0.2 Teni (97) 64.1 18.6 17.4 63.3 18.8 17.8 0.8-0.2-0.4 Förändringen beränad i procenteneter är inte särsilt stor för de flesta sattningarna. För elever som exempelvis går på programmet för livsmedel (liten grupp) ser vi doc en raftig förändring av sattningarna ( ja resp. inte best ). För omvårdnadsprogrammet ser vi en relativt stor översattning av de som ar planer på att börja läsa på universitet/ögsola enligt HTestimatorn. Är möjligen biasredutionen stor relativt medelfelet? För att få en uppfattning om biasredutionen (bortfallsfelet) är stor eller liten jämför vi

den med medelfelet. Antag att KAL-estimatorn är unbiased oc att differenserna HT-KAL visar biasen för HT-estimatorn. Vi följer Cocran (1963) oc bildar voten mellan biasen oc medelfelet där an visar ur onfidensgraden påveras av en öande vot. Om den är mindre än 0.1 ar den ingen betydelse för onfidensgraden, men ar den ett värde på 1.0 ar vi en verlig onfidensgrad som är en elt annan än den angivna (t.ex. 95 %). Vi ar beränat voterna för varje cell i studerade tabell oc funnit att 80 % av voterna ligger under 0.4, att ingen vot är över 1.0 oc det ögsta värdet är 0.7. Man an alltså inte säga att biasredutionen vid sattning av procenttalen är särsilt betydande. Låt oss därefter jämföra sattningarna av totaler (antal). Resultatet presenteras i tabell 6.2. KAL-sattningarna i tabellerna överensstämmer elt med sattningarna baserade på registret (se även avsnitt 6.4, utom sattningarna i de celler som avser vinnor oc män inom naturvetensap resp. samällsvetensap. Det beror på att vi använt jälptotaler från årsurs-tre-registret för samtliga celler med undantag för de nämnda. HT-estimatorn är stratifierad efter risområde, programgrupp oc ön oc därför är de tre första sattningarna, Samtliga, Kvinnor, Män, ämtade från årsurs-två-registret. Sillnaden mellan sattningarna för dessa besriver alltså enbart täcningsfelet i HT-estimatorn. Övriga sillnader, utom sattningarna i de celler som avser vinnor oc män inom naturvetensap resp. samällsvetensap, visar totalfelet, d.v.s. den sammanlagda effeten av urvalsfel, bortfallsfel oc täcningsfel i HTestimatet.

Tabell 6.2. Jämförelse mellan sattningar baserade på HT-estimatorn oc KAL-estimatorn vid sattning av antal elever i olia program. Program Differens HT KAL HT-KAL Samtl pgm 84854 80494 4360 Kvinnor 41330 39359 1971 Män 43525 41135 2390 Barn- oc fritid 3032 3507-475 Bygg 2597 2553 44 El 4805 4019 786 Energi 622 555 67 Estetisa 5093 4475 618 Fordon 2653 3074-421 Handel 4295 3816 479 Hantver 1896 1397 499 Hotell 4245 4180 65 Industri 1388 1283 105 Livsmedel 368 425-57 Medie 3922 3787 135 Naturbru 2488 2071 417 Naturvetensap 15643 13768 1875 Kvinnor 6956 5963 993 Män 8687 7805 882 Omvårdnad 3154 2913 241 Samällsvetensap 22252 22663-411 Kvinnor 14270 14619-349 Män 7983 8044-61 Teni 6401 6008 393 Differensen mellan sattningarna i de celler som avser vinnor oc män inom naturvetensap resp. samällsvetensap beror på totalfelet i HT-estimatet, men an delvis bero på varvarande fel i KAL-estimatet. 6.3. Redution av variansen Det är inte möjligt att beräna variansen för olia sattningar utan endast sattningar av variansen. Variansestimatorn för HT-estimatorn utnyttjar (implicit) en mycet enel modell för svarsbenägeneten medan variansestimatorn för KAL-estimatorn baserar sig på en betydligt mer avancerad svarsmodell. Därför är det rimligt att tro att den senare

variansestimatorn ger särare sattningar än den förra. Det är därför svårt att dra sära slutsatser av jämförelsen mellan sattningar presenterade i tabell 3 oc 4. Tabell 6.3. Jämförelse mellan alva 95%-iga onfidensintervallets bredd för sattningar av procenttal baserade på HT-estimatorn oc KAL-estimatorn Program Ja Planer på att börja läsa på universitet/ögsola? Differens HT KAL HT-KAL Inte best. Nej Ja Inte best. Nej Ja Inte best. Samtl pgm 1.7 1.6 1.5 1.6 1.6 1.4 0.1 0.0 0.1 Kvinnor 2.4 2.3 1.9 2.4 2.3 1.9 0.0 0.0 0.0 Män 2.4 2.3 2.4 2.3 2.3 2.3 0.1 0.0 0.1 Barn- oc fritid 9.4 10.4 8.8 8.6 9.7 8.5 0.8 0.7 0.3 Bygg 5.3 8.0 9.2 5.0 9.0 10.0 0.3-1.0-0.8 El 7.7 7.6 8.9 8.2 8.7 9.9-0.5-1.1-1.0 Energi 9.5 20.0 20.9 11.5 19.7 21.3-2.0 0.3-0.4 Estetisa 7.5 7.6 4.9 7.3 7.4 4.7 0.2 0.2 0.2 Fordon 4.5 5.5 6.9 3.6 4.5 5.6 0.9 1.0 1.3 Handel 8.1 8.3 8.5 8.7 8.8 8.9-0.6-0.5-0.4 Hantver 10.1 11.2 12.7 12.7 14.8 16.8-2.6-3.6-4.1 Hotell 5.4 8.8 8.8 5.2 9.0 9.0 0.2-0.2-0.2 Industri 7.5 13.5 14.6 7.3 12.2 13.5 0.2 1.3 1.1 Livsmedel 28.1 20.5 27.9 22.1 13.8 21.4 6.0 6.7 6.5 Medie 8.0 8.7 7.4 7.3 8.1 6.9 0.7 0.6 0.5 Naturbru 9.3 9.9 11.7 10.7 10.8 13.2-1.4-0.9-1.5 Naturvetensap 3.1 2.7 1.8 3.2 2.8 1.8-0.1-0.1 0.0 Kvinnor 4.6 4.2 2.1 4.8 4.5 2.1-0.2-0.3 0.0 Män 4.3 3.5 2.8 4.3 3.4 2.8 0.0 0.1 0.0 Omvårdnad 10.1 9.8 6.8 10.3 10.2 7.3-0.2-0.4-0.5 Samällsvetensap 3.5 3.1 2.4 3.3 3.0 2.4 0.2 0.1 0.0 Kvinnor 4.1 3.6 2.7 4.0 3.4 2.7 0.1 0.2 0.0 Män 6.4 5.9 4.7 6.1 5.6 4.6 0.3 0.3 0.1 Teni 6.6 5.2 5.2 6.4 5.1 5.1 0.2 0.1 0.1 För de flesta cellsattningarna ser vi en minsning av det sattade medelfelet även om storleen på minsningen är obetydlig. Nej

Tabell 6.4. Jämförelse mellan alva 95%-iga onfidensintervallets bredd för sattningar baserade på HT-estimatorn oc KAL-estimatorn vid sattning av antal elever i olia program. Program Differens HT KAL HT-KAL Samtl pgm 281 0 281 Kvinnor 219 0 219 Män 176 0 176 Barn- oc fritid 595 0 595 Bygg 593 0 593 El 738 0 738 Energi 278 0 278 Estetisa 726 0 726 Fordon 555 0 555 Handel 717 0 717 Hantver 466 0 466 Hotell 705 0 705 Industri 441 0 441 Livsmedel 205 0 205 Medie 646 0 646 Naturbru 568 0 568 Naturvetensap 1109 0 1109 Kvinnor 730 517 213 Män 835 517 318 Omvårdnad 598 0 598 Samällsvetensap 1115 0 1115 Kvinnor 750 582 168 Män 825 582 243 Teni 788 0 788 Den stora redutionen av medelfel visas alltså i sattningen av totala antalet elever på olia program. I själva veret ar vi inget urvalsfel för de sattningar som ocså används som jälptotaler. Däremot är medelfelen större än noll vid sattning av antalet män resp. vinnor inom ett specifit program. Det beror på att vi inte använt jälptotaler från orstabellen ön*program utan endast marginalsummorna. Sälet till att vi inte använt den informationen är att antalet observationer blev för litet i vissa celler. (Det bör doc vara möjligt att inför nästa undersöning göra en mer ingående analys av tabellplanen. Det sulle unna leda till att t.ex. endast programmen naturvetensap oc samällsvetensap delas upp på ön i jälpinformationen.)

I de fall medelfelen är större än noll för KAL-estimatorn ar vi beränat omponenterna i variansen. För naturvetensap, vinnor (lia för män) utgör bortfallsvariansen 22.7 % av den totala variansen oc för samällsvetensap, vinnor (lia för män) är motsvarande siffra 32.2 %. 6.4. Redution av täcningsfelen Som vi ar påpeat tidigare så bestod urvalsramen av årsurs-två-registret oc vi ar i estimationen använt en preliminär version av årsurs-treregistret. Nu finns det slutliga registret som vi an göra jämförelser med. Det slutliga registret utgör en mycet god besrivning av målpopulationen. Vi antog, efter ontater med den produtansvarige för registret, att den preliminära versionen av årsurs-tre-registret var tillräcligt bra för att unna användas i estimationen (i slutet av januari). Låt oss titta på i vilen mån vårt antagande var ritigt. Den slutliga versionen inneåller 80379 elever oc 40 av dessa finns inte i den preliminära versionen. Dessutom inneöll den preliminära versionen 155 elever som inte sa vara med. Det är alltså en mycet god överensstämmelse. Särsilt tydligt blir detta när vi jämför med urvalsramen. Den gemensamma delen mellan urvalsramen oc den slutliga versionen är 77 814 elever. Antalet elever som tillör övertäcningen är 7784 oc antalet i undertäcningen är 2565. Låt oss ocså titta på ur sillnaden mellan den preliminära versionen oc den slutliga fördelar sig på program.

Tabell 6.5. Sillnaden mellan den preliminära oc den slutliga versionen fördelad på program. Program Preliminär Slutlig Differens Barn- oc fritid 3507 3499 8 Bygg 2553 2554-1 El 4019 4027-8 Energi 555 555 0 Estetisa 4475 4477-2 Fordon 3074 3075-1 Handel 3816 3807 9 Hantver 4180 4170 10 Hotell 1397 1382 15 Industri 1283 1287-4 Livsmedel 425 425 0 Medie 3787 3787 0 Naturbru 2071 2058 13 Naturvetensap 13768 13751 17 Omvårdnad 2913 2910 3 Samällsvetensap 22663 22612 51 Teni 6008 6003 5 Även tabell 6.5 visar att alibrering av viter med anpassning mot totaler i den preliminära versionen ger nästan perfeta sattningar av totalerna. Vid bedömning av täcningsfelens storle vid totalsattningar ger alltså tabell 6.2 tillförlitlig information. Undantag utgör uppgiften om antalet män oc vinnor som ingår i programmen naturvetensap oc samällsvetensap. De uppgifterna är ocså beäftade med urvalsfel. Tabell 6.2 visar att HT-estimatorn ger en översattning på 4360 elever. Om det inte vore någon sillnad i svarsbenägenet (inom varje stratum) mellan elever tillörande målpopulationen oc övertäcningen sulle HT-estimatorn (3.1) ge en undersattning motsvarande storleen på undertäcningen (2565). Nu är inte svarsbenägeneten lia stor; av de som tillör målpopulationen svarar 82.8 % (ovitat) oc av de som tillör övertäcningen 44.6 % (ovitat). En annan förlaring till översattningen är att övertäcningen är betydligt större än undertäcningen. Den raftigaste översattningen erålls när ingen svarar i övertäcningen, d.v.s. m \ p = 0. Då ommer antalet elever att sattas till 85598.

6.5. Förbättrad onsistens mellan sattningar oc registerdata Tidigare år ar HT-sattningar presenterats i mars oc uppgifter från årsurstre-registret ett par månader senare. HT-sattningarna av antal elever i t.ex. varje program ar då inte överensstämt med uppgifterna från registret. Användningen av KAL-estimatorn eliminerar denna inonsistens för de flesta jämförbara storeter. En viss liten sillnad erålls visserligen p.g.a. att vi endast ar tillgång till en preliminär version av årsurs-tre-registret. Föroppningsvis är det möjligt att ommande år ytterligare minsa sillnaden mellan den version som finns vid estimationstillfället oc den slutliga versionen. 7. Slutsatser Objetsbortfallet i undersöningen är ca 26 % oc bortfallsanalysen indierar att bortfallet är snedvridande. I analysen ar vi tagit med både jälpvariabler som anger en diret egensap os gymnasieungdomar samt några av vårdnadsavarens egensaper. Till den första gruppen variabler ör ön, bostadsort, programtillöriget oc slutbetyg i årsurs 9. Till den senare gruppen ör födelseland, utbildningsnivå oc inritning samt civilstånd. Vi onstaterar att framför allt ön, vårdnadsavarens utbildningsnivå, vårdnadsavarens civilstånd oc elevens slutbetyg i årsurs 9 är variabler som är vitiga för att besriva variationen i svarsbenägeneten. Det är särsilt vitigt att itta stara sådana variabler eftersom det reducerar bortfallsbiasen för alla sattningar. I våra försö att itta variabler som förlarar variationen i vitiga målvariabler onstaterar vi att de variabler som förlarar svarsbenägeneten ocså är vitiga är. Dessutom stärer variabeln vårdnadsavarens födelseland sin position att ingå i den slutliga jälpvetorn. Variablerna risområde, ön oc program sa användas för uppdelning av redovisningsgrupper oc bör därför vara med i jälpvetorn. Detta tredje riterium ledde till att ocså ta med risområde oc program. I undersöningen presenteras sattningar av både procenttal oc antal. I SMet utgör uvuddelen procenttal oc i SSD är det enbart antal. Den tidigare använda estimatorn översattar antalet elever i årsurs tre med 5.4 %, vilet naturligtvis ocså i varierande grad gäller övriga antalssattningar. Översattningen beror på att övertäcningen är mycet större än undertäcningen oc att svarsbenägeneten är mycet lägre bland elever som tillör övertäcningen än de som tillör målpopulationen.

Kalibreringsestimatorn ger exata sattningar för många antalsparametrar. För andra antalsparametrar an man räna med att urvalsfelet, bortfallsfelet oc täcningsfelet ar reducerats. Kalibreringsestimatorn reducerar ocså problemet med att sattningarna i undersöningen inte överensstämmer med statisti baserad på årsurs-treregistret. Sattningar av voter, t.ex. procenttal, påveras inte i lia ög grad av nämnda svaget, eftersom felen finns både i täljare oc nämnare oc det fatum att felen vanligtvis går åt samma åll. Därför blir det ofta mindre sillnad mellan metoder vid sattning av voter än vid sattning av totaler (antal). Det syns ocså i denna undersöning. Kalibreringsestimatorn reducerar ocså variansen mer för antalssattningar är för votsattningar. I denna undersöning är det inte ens troligt att det blir någon minsning av variansen för den senare parametertypen. Referenser Cocran (1963). Sampling Tecniques. Wiley & Sons. UF 36 SM 0301. Övergång gymnasiesola-ögsola. Lundström, S. (1997). Calibration as a standard metod for treatment of nonresponse. Stocolm University. Lundström, S. and Särndal, C.E. (1999). Calibration as a standard metod for treatment of nonresponse. Journal of Official Statistics, 15, 305-327. Lundström, S. and Särndal, C.E. (2001). Estimation in te Presence of Nonresponse and Frame Imperfections. Statistics Sweden. Bilaga A: Variansestimator för alibreringsestimatorn Vi anpassar variansestimator (11.3.6) i Lundström oc Särndal (2001) till designen STOSU oc med uppdelning på termerna Vˆ oc Vˆ : SAM NR