Kalibreringsrapport Utlänska oktoraner
Inlening I en urvalsunersökning är allti skattningarna beäftae me urvalsfel beroene på att enast en elmäng (urval) av populationen stueras. Ett annat fel uppkommer om vi inte lyckas få svar från alla personer (bortfall) oc om e avviker från e svarane me avseene på unersökningsvariablerna. Detta fel kallas för bortfallsfel I en totalunersökning uppkommer fel om vi inte lyckas få svar från alla personer (bortfall) oc om e avviker från e svarane me avseene på unersökningsvariablerna (bortfallsfel). För att unerlätta använningen av statistiken är et värefullt om storleken på felen kan uppskattas. Av nämna feltyper är et enast storleken på urvalsfelet som kan skattas me jälp av urvalsinformation. Kunskap om bortfallsfelet kan i regel bara fås på ett inirekt oc approximativt sätt genom att utnyttja registervariabler. Båe urvalsfel oc bortfallsfel kan reuceras genom att använa ett effektivt uppräkningsförfarane. I följane avsnitt reovisas ur et görs i enna unersökning. Parametrar För samtliga frågor kommer en procentuella anelen personer me viss egenskap, t ex procentuella anelen me examen från ögskola i Sverige, samt uppräknat antal personer att reovisas. Resultaten kommer att reovisas per kön, åler, Antal terminer, forskarämnesområe, lärosäte, meborgraskapslan, föelselan samt totalen. Hjälpinformation Viss jälpinformation utnyttjas vanligtvis även före estimationen, t.ex. för bilane av stratifierae urvalsesigner. Denna unersökning är båe en totalunersökning oc en urvalsunersökning, ärför ar stratifiering gjorts. Normalt görs ingen stratifierng vi totalunersökningar. I stuerae unersökning använs stratifieringsvariablerna antal terminer, kön oc forskarämnesområe. Det kan ock finnas ytterligare jälpinformation som är effektiv i estimationen. 2
Det centrala arbetet för att få go kvalitet på skattningarna, å kalibreringsestimatorn använs, är att använa stark jälpinformation. I följane avsnitt beskrivs etta arbete för enna unersökning. Tänkbara jälpvariabler Vi val av jälpvariabler är et tre kriterier som ska beaktas (se Lunström oc Särnal 2001): Det första kriteriet är att variabeln samvarierar väl me svarsbenägeneten (-sannoliketen). Det är et viktigaste kriteriet eftersom et leer till en minskning av bortfallsskeveten för alla skattningar. Det anra kriteriet är att variabeln samvarierar väl me (viktiga) målvariabler. Om så är fallet minskar bortfallsbiasen för e skattningar som byggs upp av essa målvariabler. Även variansen minskar för essa skattningar. Det treje kriteriet är att variabeln avgränsar (viktiga) reovisningsgrupper. Det leer framförallt till minska varians i skattningar för essa reovisningsgrupper. Tänkbara jälpvariabler, et vill säga variabler som tros uppfylla e ovan uppsatta kriterierna, ämtaes ifrån RTB (Registret över totalbefolkningen) oc Universitets- oc ögskolesregistret. En genomgång av variablerna i essa två register resulterae i att 8 variabler vales ut. Exempelvis vet vi från tiigare unersökningar att svarsfrekvensen brukar skilja sig åt mellan män oc kvinnor, essutom brukar svarsfrekvensen bero av civilstån oc bostasregion. Båe kön oc åler är viktiga reovisningsgrupper oc tas ärför me i analysen. Anra viktiga reovisningsvariabler är antal terminer, forskningsämnesområe, lärosäte oc föelselan så även essa tas me. De sammanslagningar av kategorier som gjorts baseras på kunskaper från tiigare kalibreringar. Dessutom ar änsyn tagits till ur e reovisningsgrupper som sean ska använas är avgränsae. Hjälpvariablerna är efinierae enligt tabell 1. Tabell 1 Tänkbara jälpvariabler Variabel (benämning) Kategorier (koer) KÖN 1 = Man 2 = Kvinna 3
ÅLDER (Åler: år) 1 = 25 2 = 26 30 3 = 31 35 4 = 36 40 5 = 41 CIVILSTÅND 1 = Gift+registrerat partnerskap 2 = Övriga FÖDELSELAND 1 = Föa i Asien 2 = Föa i Ocianien, Noramerika oc Europa utom Sverige 3 = Föa i Sverige 4 = Övriga STORSTAD 1 = Boene i Storstockolm 2 = Boene i Storgöteborg 3 = Boene i Stormalmö 4 = Övriga ANTAL TERMINER 1 = 1 2 2 = 3 4 3 = 5 6 4 = 7 8 5 = 9 10 6 = 11 20 FORKNINGSÄMNESOMRÅDE 1 = Naturvetenskap 2 = Teknik 3 = Meicin oc älsovår 4 = Övriga LÄROSÄTE 1 = Universitet me läkarutbilning + KI - ORU 2 = Övriga universitet + KTH 3 = Övriga ögskolor 4
I följane avsnitt analyserar vi variablerna i tabell 1 för att slutligen bestämma en jälpvektor. Analys av jälpinformation Kriterium 1: Variabeln samvarierar me svarsbenägeneten För att se uruvia jälpvariablerna uppfyller et första kriteriet, stueras sambanet mellan en ikotoma variabeln svarane/bortfall oc jälpvariablerna. Det görs genom att beräkna skatta anel svarane i olika grupper, bestäma av respektive jälpvariabel. Vi skattningen använs esignvikten (vi stratifierat OSU: N/n). Vi stora skillnaer mellan svarsanelarna utgör variabeln en stark kaniat till jälpvariabel. Tabell 2 Skatta procentuell anel svarane förelat på kön Kön Man Kvinna Svarsanel (%) Inresane 58.1 57.7 Kontrollgrupp 65.1 72.3 Tabell 3 Skatta procentuell anel svarane förelat på åler Åler Svarsanel (%) 25 år eller yngre 26 till 30 år 31 till 35 år 36 till 40 år Älre än 40 år Inresane 61.1 60.1 56.0 54.1 48.9 Kontrollgrupp 60.2 74.1 65.5 62.9 69.3 Tabell 4 Skatta procentuell anel svarane förelat på kön Civilstån Gifta, registrerat partnerskap Övriga Svarsanel (%) Inresane 57.9 57.9 Kontrollgrupp 69.4 67.7 5
Tabell 5 Skatta procentuell anel svarane förelat på föelselan Föelselan Asien Ocianien, Noramerika Europa Svarsanel (%) Sverige Övriga Inresane 55.7 60.9 56.3 Kontrollgrupp 47.9 59.8 71.0 50.7 Tabell 6 Skatta procentuell anel svarane förelat på bostasregion Bostasregion Storstockolm Storgötebotg Stormalmö Övriga Svarsanel (%) Inresane 55.4 59.4 56.8 60.8 Kontrollgrupp 67.8 65.0 67.0 70.5 Tabell 7 Skatta procentuell anel svarane förelat på antal terminer Antal terminer 1 till 2 3 till 4 5 till 6 7 till 8 9 till 10 11 till 20 Svarsanel (%) Inresane 63.2 62.6 56.7 55.7 49.3 34.5 Kontrollgrupp 68.7 75.9 71.2 69.3 67.4 55.0 Tabell 8 Skatta procentuell anel svarane förelat på forskningsämnesområe Forskningsämnesområe Naturvetenskap Teknik Meicin oc älsovår Övriga Svarsanel (%) Inresane 58.1 59.0 53.1 62.6 Kontrollgrupp 68.3 69.7 65.4 71.6 6
Tabell 9 Skatta procentuell anel svarane förelat på lärosäte Lärosäte Universitet me Övriga universitet Övriga ögskolor läkarutb. Svarsanel (%) Inresane 57.3 61.5 54.9 Kontrollgrupp 68.2 70.2 65.7 Tabellerna 3,5 oc 7 visar att e starka jälpvariablerna (beträffane kriterium 1) et är åler, föelselan oc antal terminer. Även variabeln kön, bostasregion, forskningsämnesområe oc lärosäte är relativt stark (för inresane är et små variationer i svarsfrekvens för variabeln kön). Skillnaen mellan gifta eller registrerae patner oc övriga är äremot liten. Innan någon variabel utesluts unersöks i vilken mån et anra kriteriet uppfylls för e tänkbara jälpvariablerna. Kriterium 3: Variabeln avgränsar (viktiga) reovisningsgrupper Om jälpvariabeln avgränsar viktiga reovisningsgrupper kan kvaliteten bli bättre i essa grupper. Framförallt blir skattningarna säkrare om jälpvariabeln väl avgränsar reovisningsgruppen. Kalibreringsestimatorn ger konsistenta skattningar i en meningen att estimatorn ger exakta skattningar för utnyttjae registertotaler. Det är ärför viktigt att vi val av jälpvariabler funera på vilka skattningar man vill få konsistenta. Variablerna kön, åler, antal terminer, forskningsämnesområe oc lärosäte avgränsar reovisningsgrupper oc bör ärför vara me i jälpvektorn. Dessutom använs variablerna föelselan som reovisningsvariabel för inresane. Slutligt val av jälpvektor Från kriterium 1 är et framförallt variablerna åler, föelselna oc antal terminer som bör ingå oc alternativa variabler är kön, bostasregion, forskningsämnesområe oc lärosäte. Från kriterium 3 är et framförallt variablerna kön, åler, antal terminer, forskningsämnesområe oc lärosäte som bör ingå. Variablerna åler oc antal terminer visar till viss el samma sak. När ett antal terminer är avklarae ar även minst en viss åler uppnåtts. Åler ar på grun av att et genererar stora vikter exkluerats från jälpvektorn, men et kompenseras till en el av att antal terminer tas me. Några forskningsämnesområen är knutna till olika lärosäten, å 7
anra sian finns et några lärosäten som ar fler av forskningsämnesområena. Så även om et finns en viss samvariation mellan lärosäte oc forskningsämnesområe är en inte så stor. Pågrun av att forskningsämnesområe ger stora onormalt stora vikter ar variabeln inte kunnats tagits me för att skapa jälpvektorn. Efter en sammanvägning av analysen kring e tre kriterierna samt efter kontroll av vikternas förelning använs följane jälpvektor: Kön+ föelselan+ antal terminer+lärosäte+bostasregion Teknisk beskrivning av urval oc estimation Vi ar en population U beståene av N personer. De parametrar vi är intresserae av är vanligtvis funktioner av två totaler Y y oc Z U z k, är y k är väret på variabel y för person k oc z k väret på en annan variabel för samma person. Vanligtvis är y (oc även z) en ikotom variabel,.v.s. U k 1 om person k ar stuerae egenskap y k (4.1) 0 för övrigt Vanligtvis är vi också intresserae av parametrar för reovisningsgrupper. Låt oss benämna essa U,..., U,..., 1 U, är U U D. Totalen för reovisningsgrupp kan skrivas D 1 Y U y (4.2) k är yk för k U y k. 0 för övrigt. Z bilas på likartat sätt. En generell parameter för reovisningsgrupp ( kan också avse ela populationen) kan skrivas Y C, är C är en konstant. Z 8
Den vanligaste parametern är en procentuell anel, som erålles när C 100 oc z 1 för alla k, oc y är efiniera enligt (4.1). Om vi låter k N vara antalet personer i reovisningsgrupp, å kan parametern skrivas P U 100 k (4.3) N y Vi rar ett obunet slumpmässigt urval s av storleken n från stratum ( 1,..., H ), men p.g.a. övertäckning oc bortfall ar vi enast svarsmängen r av storleken ger vi beteckningen m att utföra beräkningarna på. Storleken på stratum N. Den konventionella estimatorn (för Y ), ar följane form: H N Yˆ y r k (4.4) m 1 I estimator (4.4) använs ingen ytterligare jälpinformation än stratifieringsinformationen. I syfte att erålla en estimator me minre urvalsfel oc bortfallsskevet än estimator (4.4) utnyttjar vi jälpinformation också i estimationen. Vi bilar en jälpvektor x k, som anger till vilka kategorier av Kön+ föelselan+ antal terminer+lärosäte+bostasregion som person k ör. Från RTB oc Universitets- oc ögskolesregistret framställer vi jälptotalerna x U k. Vi utnyttjar enna jälpinformation i en kalibreringsestimator. Kalibreringsestimatorn för totalen Y ar följane utseene: Ŷ w r k vk yk (4.5) är / k r k N n för 9
oc v k 1 k x k x x k 1 ( (4.6) x U k r k x k ) r k Y Vi skattning av en parameter av typen C skattas respektive total Z me jälp av kalibreringsvikterna k vk. Denna kalibreringsvikt uppfyller kalibreringsvillkoret: r w x x k k U k, vilket innebär att om vikterna läggs på variabler som ingår i jälpvektorn summeras essa upp till e jälptotaler vi ämtat från registren. Referenser: Lunström S. oc Särnal C.-E. (2001). Estimation in te Presence of Nonresponce an Frame Imperfection. Stockolm: Statistics Sween 10