Örebro Universitet Handelshögsolan Statisti avancerad nivå, HT 2009 Magisteruppsats 5 högsolepoäng Handledare: Thomas Laitila En studie av sambandet mellan varstående bias och ostnad vid seletiv gransning i undersöningen Kortperiodis Sysselsättningsstatisti Analys av parameterval i vertyget SELEKT Författare: Chandra Adolfsson Alexandra Håansson
Förord Ett stort tac till Lennart Nordberg vid Statistisa Centralbyrån för stöd och synpunter under arbetets gång. Vi vill ocså taca Anders Norberg vid Statistisa Centralbyrån som sapade datamaterialet, vilet användes vid resultatframställningen. /Chandra Adolfsson & Alexandra Håansson
Sammanfattning Det har pågått ett intensivt utveclingsarbete på Statistisa Centralbyrån (SCB) under de senaste åren i syfte att standardisera och effetivisera statistiprodutionsprocessen. I detta utveclingsarbete har fous främst ritats mot processerna insamling och gransning. Ett flertal studier har visat att det finns potential att reducera gransningens omfattning samtidigt som den övergripande valiteten i undersöningarna bibehålls. För att uppnå detta rävs att nya arbetssätt, metoder och vertyg utveclas och implementeras. Den traditionella ansatsen på SCB har varit att i gransningsprocessen försöa hitta och rätta alla databearbetnings- och mätfel. Ingen sillnad har gjorts mellan stora och små fel eller om felen har någon effet på statistien eller inte. Detta är en ineffetiv ansats där stora resurser åtgår till att rätta fel som inte påverar den statistisa redovisningen nämnvärt. I mer moderna ansatser betonas viten av att hitta betydelsefulla fel som har stor påveran på parametersattningarna och att fel som inte ger någon påveran bör lämnas som de är eller åtgärdas via imputering. Detta, att inte gransa allt, allas för seletiv gransning. SCB har beslutat att införa metoden seletiv gransning med poängfuntioner. Metoden fordrar att poängberäningar görs, dessa utförs i vertyget SELEKT. Vertyget ingår i den framtida vertygslådan för gransning som är under utvecling vid SCB och är uppbyggt av ett stort antal parametrar. För att uppnå så effetiv gransning som möjligt måste de mest lämpliga parametervärdena söas för att sedan implementeras i SELEKT. I denna studie har ett datamaterial från undersöningen Kortperiodis Sysselsättningsstatisti, privat setor (KSP) använts för att studera sambanden mellan statistiens valitet och valet av parametrar i SELEKT. Valet av datamaterial motiveras främst av att SELEKT sa implementeras i KSP under år 200. De parametrar som har behandlats i studien allas för KAPPA, TAU och LAMBDA samt variablerna RPB_20 och Kostnad. Logistis regression har använts för att undersöa vilen påveran parametrarna har på den bias (allad RPB) som införs i sattningarna vid seletiv gransning. En ansats valdes där sambandet mellan responsvariabeln RPB_20 och förlaringsvariablerna KAPPA, TAU och Kostnad studerades separat för olia värden på LAMBDA. Vid resultatframställningen indierades tidigt att valet av värde på LAMBDA inte verade ha någon nämnvärd betydelse för modellen och i de fortsatta analyserna stärtes denna misstane och om att omfatta även KAPPA och TAU. Det var redan från början änt att Kostnad är en vitig variabel att ta hänsyn till och för att undersöa detta närmare onstruerades en modell bestående av ett fjärdegradspolynom med enbart variabeln Kostnad. Modellen lycades fånga upp huvuddragen av variationen i RPB_20. Det går inte att dra generella slutsatser från den studie som här har genomförts. Resultaten visar doc att en modell utan KAPPA, TAU och LAMBDA fungerar för att besriva variationen i RPB_20. Valet av värden på KAPPA, TAU och LAMBDA i SELEKT är av mindre betydelse. I implementeringsarbetet av SELEKT i KSP reommenderas därför att, förutom RPB, fousera på variabeln Kostnad för att hitta den mest lämpliga ombinationen av parameterinställningar.
Innehållsförtecning INLEDNING.... SYFTE... 2.2 AVGRÄNSNING... 2 2 BESKRIVNING AV KORTPERIODISK SYSSELSÄTTNINGSSTATISTIK, PRIVAT SEKTOR (KSP)... 3 2. UNDERSÖKNINGENS SYFTE... 3 2.2 2.3 OBJEKT OCH POPULATION... 3 URVAL... 3 2.4 2.5 MÄTVARIABLER... 3 INSAMLING OCH GRANSKNING... 4 2.6 2.7 SVARSBORTFALL... 4 STATISTISKA MÅTT, REDOVISNING OCH ANVÄNDARE AV STATISTIKEN... 4 3 GRANSKNING... 5 3. ALLMÄNT OM GRANSKNING... 5 3.2 3.3 GRANSKNING PÅ SCB... 6 GRANSKNING AV DATAMATERIALET I KSP... 7 3.4 SELEKTIV GRANSKNING MED POÄNGFUNKTIONER... 0 3.4. 3.4.2 Uppenbara och misstänta fel... 0 Diotomt misstanemått... 2 3.4.3 Kontinuerligt misstanemått... 2 3.4.4 Effet... 5 3.4.5 Flera lassificeringar i den statistisa redovisningen... 7 3.4.6 Poängfuntion... 7 3.5 3.6 RELATIV PSEUDO BIAS (RPB)... 9 VERKTYGET SELEKT... 2 4 PROBLEMFORMULERING... 23 4. FRÅGESTÄLLNINGAR... 24 4.2 DATAMATERIAL... 24 4.2. Besrivning av det KSP-datamaterial som använts i denna studie... 24 4.2.2 Gransningsontroller i KSP som varit atuella i denna studie... 25 4.2.3 Konstrution av prediterade värden i denna studie... 25 4.2.4 Besrivning av datafilen som använts till resultatframställning... 26 4.2.5 Definition av variabeln RPB_20... 26 5 METOD... 28 5. LOGISTISK (LOGIT) REGRESSION... 28 5.. Förlaring av modellen... 28 5..2 Estimation och anpassning av modellen... 29 5..3 Oddsvoter... 33 5..4 Över- och underspridning... 34 5.2 RESPONSYTOR... 35 5.3 BACKWARD ELIMINATION... 36 5.4 TOLKNING AV MOTIV FÖR TILLÄMPNING AV LOGISTISK REGRESSION... 36 5.5 RESIDUALER... 37 5.6 DATABEARBETNING... 38 6 RESULTAT... 39 6. DESKRIPTION AV DATA... 39 6.2 6.3 STUDIERESULTAT... 42 ANALYS OCH DISKUSSION AV STUDIERESULTAT... 54 7 AVSLUTANDE DISKUSSION... 57 8 SLUTSATS... 59 9 REFERENSER... 60 APPENDIX APPENDIX 2 APPENDIX 3
Inledning Sedan många år tillbaa är det änt att statistiproducerande institut och centralbyråer runt om i världen lägger mellan 30-40 procent av sin budget på momentet gransning, detta gäller ocså för Statistisa Centralbyrån (SCB). SCB har under de senaste åren undersöt möjligheten att minsa gransningens omfattning och därigenom uppnå effetivisering av statistiprodutionsprocessen och ostnadsreduceringar. Olia projet på SCB inom området gransning har haft till uppgift att utvärdera den befintliga gransningen, undersöa behov, utvecla nya metoder och bygga nya generella vertyg. Fallstudieprojetet, vilet var ett av dessa projet, utvärderade den befintliga produtionsgransningen i sju gransningstunga undersöningar samt testade metoden seletiv gransning med poängfuntioner. I projetets slutrapport redovisades att den testade metoden möjliggör för SCB att minsa produtionsgransningens omfattning. I rapporten står ocså att läsa att valiteten i de undersöningar som implementerar metoden inte försämras nämnvärt vad gäller de vitigaste tabellerna. [] Till följd av resultaten från de olia projeten fattades beslutet att utvecla en vertygslåda för gransning. Vertygslådan ommer att bestå av ett litet antal vertyg som är så pass generellt byggda att de sa unna nyttjas av flertalet statistiproduter på SCB. När metoden seletiv gransning med poängfuntioner används fordras att poängberäningar utförs, dessa utförs i vertyget SELEKT. Vertyget ingår i den framtida vertygslådan för gransning och är uppbyggt av ett stort antal parametrar, både disreta och ontinuerliga. För att uppnå så effetiv gransning som möjligt måste de mest lämpliga parametervärdena söas för att sedan implementeras i SELEKT. För närvarande håller SCB på att utvecla ytterligare ett vertyg, LABBET, i vilet de mest lämpliga parametervärdena sa laboreras fram. I syfte att finna de mest lämpliga parameterinställningarna sapas en datafil där varje rad representerar en uni ombination av parameterinställningar i LABBET. En sådan ombination består av de parametrar som sa användas i den seletiva gransningen avseende en specifi undersöning. I och med att de flesta parametrar an sättas till ett flertal olia värden erhålls ofta ett stort antal ombinationer av olia parameterinställningar. När datafilen är sapad appliceras sedan varje ombination av parametervärden på en orstabell uppbyggd av mätvariabler och redovisningsgrupper. Varje ombination av mätvariabel och redovisningsgrupp utgör en tabellcell. För varje cell beränas måttet Relativ Pseudo Bias (RPB). RPB är ett mått på den sevhet som introduceras i parametersattningarna på grund av att inte hela datamaterialet gransas när seletiv gransning med poängfuntioner tillämpas, till sillnad från när traditionell gransning används då datamaterialet intensivgransas. Att hitta den mest lämpliga ombinationen av parameterinställningar an vara ett både omplicerat och omfattande arbete då det ofta är ett mycet stort antal tabellceller som sa analyseras med avseende på RPB-värdena. SCB har ännu inte undersöt om det är nödvändigt att laborera med alla parametrar i SELEKT eller om vissa parametrar är av mindre betydelse och om meningsfulla defaultvärden i så fall an anges för dessa. Än så länge finns det heller inga reommendationer för hur resultaten från LABBET sa analyseras. I denna studie behandlas problemet med val av parametervärden i SELEKT. Ett datamaterial från undersöningen Kortperiodis Sysselsättningsstatisti, privat setor (KSP) appliceras i en prototyp av LABBET. Erhållna RPB-värden relateras till motsvarande Ett vertyg definieras som ett redsap för bearbetning av material enligt Svensa Aademiens ordlista. Med vertyg avses här hjälpmedel för bearbetning av datamaterial.
parametervärden i en analys baserad på logistis regression. Via analysen erhålls en besrivning av hur RPB påveras av olia värden på de parametrar som ingår i denna studie. Att studien valts att utföras på just datamaterial från undersöningen KSP beror på att beslut har fattats att införa metoden seletiv gransning med poängfuntioner i denna undersöning under år 200. Fler undersöningar på SCB står på tur att införa den nya gransningsmetoden. Det är således angeläget att inom ort få fram underlag som förhoppningsvis medverar till att vertyget LABBET färdigställs och att arbetet i detta vertyg effetiviseras så mycet som möjligt.. Syfte Kärnan i seletiv gransning med poängfuntioner är ett mått på misstane respetive effet. Med effet avses här den inveran ett inommet datavärde har på de parametersattningar som det ingår i. Dessa mått definieras av ett antal olia parametrar vars mest lämpliga värden sa hittas och ställas in. Det har inte tidigare utförts några studier på hur dessa parametrar bör ställas in eller om det finns parametrar som är vitigare än andra. I denna studie undersös två av de parametrar som ingår i misstanemåttet, dessutom studeras variabeln Kostnad och en parameter som används i aggregeringen av loala poäng. Det finns flera olia frågeställningar inom området seletiv gransning med poängfuntioner som sulle vara intressanta att utreda, i denna studie ommer doc fous oncentreras till att undersöa följande: Hur påveras RPB av värdena på de studerade parametrarna? Är någon eller några parametrar mer betydelsefulla än övriga?.2 Avgränsning I LABBET ommer det att finnas ett 30-tal parametrar vars värden är möjliga att variera, denna studie avgränsas till att endast behandla ett fåtal av dessa. Kortperiodis Sysselsättningsstatisti omfattar både privat och offentlig setor, i denna studie är endast datamaterial avseende privat setor inluderat. Undersöningen KSP består av totalt 25 mätvariabler. I dagsläget publiceras emellertid inte statisti om antal versamma företagare och av den anledningen har de tre mätvariabler som behandlar versamma företagare uteslutits ur studien. Datamaterialet från undersöningen KSP, vilet används i denna studie, har till viss del lagts till rätta för att tid inte sa åtgå till sådant som egentligen inte är av vit vid utredning av de atuella frågeställningarna. Som tidigare nämnts har data avseende offentlig setor uteslutits, även data som avser specialfall av något slag har exluderats. Det finns objet i KSP som undersös varje månad, dessa har doc endast inluderats en gång i det atuella datamaterialet. Datamaterialet omfattar mätperioden vartal 4 år 2007 och vartal år 2008. 2
2 Besrivning av Kortperiodis Sysselsättningsstatisti, privat setor (KSP) Kortperiodis Sysselsättningsstatisti, privat setor (KSP) är en anslagsfinansierad, återommande urvalsundersöning som produceras av SCB. Följande besrivning av undersöningen bygger i huvudsa på den doumentation av produten som finns publicerad på SCB:s webbplats. 2. Undersöningens syfte Det främsta syftet med undersöningen Kortperiodis Sysselsättningsstatisti är att snabbt indiera förändringar av antalet anställda på detaljerad näringsgrensnivå. Ett annat syfte är att redovisa sysselsättningsuppgifter avseende hela arbetsmarnaden fördelat på län. I undersöningen mäts även variabler som frånvaro och personalomsättning. [2,3] 2.2 Objet och population Målpopulationen för KSP utgörs av de arbetsställen i Sverige som bedriver versamhet och har anställda. Ett arbetsställe definieras som varje adress, fastighet eller grupp av närliggande fastigheter där ett företag bedriver versamhet. Alla företag har minst ett arbetsställe. Kortperiodis Sysselsättningsstatisti är en urvalsundersöning där urvalsramen sapas från SCB:s Företagsdatabas (FDB) [4]. Rampopulationen utgörs av de arbetsställen inom privat setor som har någon anställd enligt FDB vid urvalstillfället. Med privat setor avses ensilda firmor, enla bolag, handelsbolag, ommanditbolag, atiebolag, eonomisa- och ideella föreningar samt stiftelser. Offentligt ägda atiebolag, affärsveren och Risbanen förs ocså hit. Urvals- och målobjet i undersöningen är arbetsställe och uppgiftslämnarplit föreligger för alla arbetsställen som ingår i urvalet. [2,3] 2.3 Urval Urvalsmetoden som används i undersöningen är obundet slumpmässigt urval (OSU) inom strata. Rampopulationen stratifieras efter storleslass och näringsgren och antalet strata uppgår totalt till drygt 30 stycen. Två gånger per år dras ett nytt urval, dels till mätmånaden april och dels till mätmånaden otober. Urvalsstorleen för privat setor uppgår normalt till cira 9 000 arbetsställen. Samtliga arbetsställen som vid urvalstillfället har 00 anställda eller fler enligt FDB undersös varje månad. I det nu atuella urvalet, det vill säga det som avser fjärde vartalet år 2009 och första vartalet år 200, uppgår antalet totalundersöta arbetsställen till cira 3 250 stycen. Arbetsställen med färre än 00 anställda fördelas slumpvis inom varje stratum i tre delar, varje tredjedel svarar sedan för en månad vardera i vartalet. [2,3] 2.4 Mätvariabler Mätvariablerna i undersöningen KSP är antal versamma företagare, antal anställda, antal frånvarande samt personalomsättning. Variabeln Totalt antal versamma företagare samlas in per ön, statisti avseende versamma företagare publiceras doc inte i dagsläget. Variabeln Totalt antal anställda an brytas ned på anställningsform 3
(tillsvidareanställda och visstidsanställda) och ön. Frånvaron redovisas efter tre olia frånvaroorsaer: sjudom, semester och övrig orsa. I övrig orsa inluderas exempelvis ledighet med havandesaps- eller föräldrapenning, ledighet för viss utbildning enligt studiestödslagen och permittering. Även frånvaron an brytas ned på ön. Personalomsättningen utgörs av variablerna Totalt antal nyanställda och Totalt antal avgångna och an delas upp på anställningsform och ön. [2,3] Frågeformuläret som används i KSP finns i flera olia varianter i syfte att hålla nere uppgiftslämnarbördan. I appendix återfinns den blanettyp vars data använts i denna studie. 2.5 Insamling och gransning För de utvalda arbetsställena samlas uppgifter in avseende en angiven arbetsdag i mätmånaden. Den angivna arbetsdagen är alltid den mittersta onsdagen i mätmånaden. Uppgifterna samlas in främst genom pappers- och webblanetter, men ocså via textfil, fax och telefon. De inomna uppgifterna genomgår ett ontrollprogram och vid behov ontatas uppgiftslämnaren för eventuell upprättning av uppgifterna. När de flesta av mätmånadens uppgifter är inomna och gransade på mironivå, det vill säga på finaste nivå, utförs ocså en grafis gransning av datamaterialet för att upptäca eventuella extremvärden (outliers). [2,3] 2.6 Svarsbortfall Målsättningen är att svarsbortfallet för ett mätvartal sa uppgå till max åtta procent i privat setor vid publicering. SCB arbetar ständigt för att minsa bortfallet, exempelvis används så allade tac- och påminnelseort, påminnelsebrev samt telefonpåminnelser i detta syfte. Ra uppräning per stratum används för att ompensera för svarsbortfallet. Ra uppräning bygger på antagandet att bortfallet an betratas som helt slumpmässigt inom respetive stratum. Om detta inte stämmer finns det ris för att sattningarna innehåller sevheter, vilet i sin tur bland annat medför att intervallsattningarnas onfidensgrad minsar. [2,3] 2.7 Statistisa mått, redovisning och användare av statistien Statistien utgörs av sattade värden på totaler och andelar. Sattningarna redovisas för olia gruppindelningar. Gruppindelningarna definieras av arbetsställets setortillhörighet, näringsgren enligt Standard för svens näringsgrensindelning (SNI), storleslass och län. Flera av resultaten bryts ocså ned på ön och anställningsform. Undersöningen genomförs varje månad, men resultaten publiceras vartalsvis. Publicering ser cira sex vecor efter mätvartalets utgång. De främsta användarna av statistien är Närings- och Finansdepartementet, Konjunturinstitutet, Risbanen, Sveriges Kommuner och Landsting (SKL) samt Arbetsmarnadsstyrelsen. Statistien utgör även underlag för beräningar i nationalräensaperna, vila utförs av SCB:s enhet för Nationalräensaper, och för Eurostat. [2,3] 4
3 Gransning 3. Allmänt om gransning I insamlingsprocessen samlas data in som sedan gransas. Gransning av insamlade data är nödvändigt vid framställning av statisti. Syftet med att utföra gransning är, förutom att hitta och åtgärda fel och extremvärden, att identifiera felällor i undersöningen för åtgärd i de efterföljande stegen i statistiprodutionsprocessen. Med felällor avses här atuella felorsaer. Särsilt vitigt är att genom gransningen hitta eventuella problem för uppgiftslämnarna att besvara de ställda frågorna. Genom att utföra gransning an undersöningen förbättras och valiteten öas i både in- och utgående data. Gransning an ocså bidra till valitetsbedömningar av statistien. [5] Om en fråga i blanetten ofta missförstås och detta identifieras i gransningen och åtgärdas har gransningen uppfyllt ett vitigt syfte. Detta genom att den misstolade frågan identifieras och omformuleras för att förhindra att samma fel görs i efterföljande undersöningsomgångar. I denna studie ommer gransning att identifieras som åtgärdande av fel och extremvärden. Data gransas ofta i olia seenden under statistiprodutionsprocessen. Den gransning som utförs an delas in i fem olia typer: Uppgiftslämnargransning: Den allra första gransningen som ser utförs av uppgiftslämnaren och denna typ av gransning påbörjas vid besvarandet av de ställda frågorna. Uppgiftslämnaren an på eget initiativ exempelvis ontrollera att en delpost är mindre än summaposten eller att angivna datavärden är rimliga jämfört med vad som angavs månaden innan. Manuell förgransning: En manuell process som tar vid när data har inommit. Om inomna pappersblanetter sannas ontrolleras exempelvis att svaren är ifyllda med en färg som sanningsapparaten larar av att läsa. Den manuella förgransningen bör minimeras. Principen är att denna typ av gransning inte sa ta mycet tid i ansprå, det sa räca med att snabbt ontrollera att det är meningsfullt att sica blanetten vidare i processen. Dataregistreringsgransning: Denna typ av gransning är endast atuell för undersöningar som använder sig av manuell registrering och syftar främst till att ontrollera att uppgifterna har registrerats orret. Produtionsgransning: Med produtionsgransning avses den gransning som utförs när data väl har inommit. När data inommer via något medium (exempelvis via post, fil eller manuell registrering) laddas uppgifterna in i en produtionsdatabas. Därefter örs ett masinellt gransningsprogram vilet består av gransningsontroller som identifierar både uppenbara fel och sådana datavärden som anses vara misstänta. Dessa gransningsontroller benämns fortsättningsvis traditionella gransningsontroller. Begreppen uppenbara fel och misstänta fel definieras och förlaras i avsnitt 3.4.. Vissa typer av uppenbara fel åtgärdas automatist utifrån på förhand bestämda regler. Gransningspersonal utreder sedan de objet som fastnat i minst en gransningsontroll. Till hjälp i utredningen av felsignalerade objet nyttjas både externa och interna stöduppgifter. Ett exempel på interna stöduppgifter är uppgifter från urvalsramen medan externa stöduppgifter an utgöras av exempelvis årsredovisningar och olia sidor på Internet. Produtionsgransning utförs oftast ontinuerligt under hela produtionsomgången i tat med att uppgifter inommer. Detta är den mest resursrävande gransningstypen. 5
Outputgransning: Syftet med outputgransningen är att ontrollera att inga allvarliga fel har sluppit igenom de tidigare gransningsstegen. Vanligtvis utförs outputgransning när det mesta av datamaterialet har inommit och då i första hand på aggregerade data. Det första steget i outputgransningen är att identifiera misstänta tabellceller. Misstänta tabellceller identifieras genom jämförelser med tidigare resultat, med andra celler eller med motsvarande aggregat från andra undersöningar. När detta är gjort sa de misstänta objeten inom respetive misstänt tabellcell identifieras, i detta steg an det vara nödvändigt att återontata uppgiftslämnaren. En typ av outputgransning som utförs diret på mirodata är så allad grafis slutgransning, denna an utföras i exempelvis programvaran SAS/Insight. [5] Manuell förgransning, dataregistreringsgransning och produtionsgransning allas ibland med ett gemensamt ord för mirogransning. 3.2 Gransning på SCB SCB genomförde år 2004 en artläggning av gransningsprocessen i 62 undersöningar med företag och organisationer som uppgiftslämnare. Kartläggningen visade på att gransning (inlusive uppgiftslämnarservice) upptar drygt en tredjedel av resurserna. Storleen på ostnaden är inte uni för SCB utan har visat sig stämma väl överens med hur det ser ut på andra institut och statistibyråer runt om i världen. [6] Det är önsvärt att minsa denna ostnad samtidigt som valiteten i undersöningarna inte får påveras alltför negativt. I december 2006 startade ett tremånadersprojet på SCB där nio gransningstunga undersöningar ingic. Projetet lycades utföra fallstudier i gransning på sju av de utvalda undersöningarna. I fallstudierna ingic att utvärdera den befintliga gransningsmetoden i respetive undersöning samt att testa metoden seletiv gransning med poängfuntioner. Denna metod ommer att förlaras mer ingående i avsnitt 3.4. Ett av fallstudieprojetets vitigaste resultat var att metoden an användas på många av SCB:s återommande företagsundersöningar. Resultatet visade ocså att det finns en stor potential att minsa omfattningen av produtionsgransningen genom införandet av seletiv gransning med poängfuntioner. Beslut har därefter fattats att metoden sa införas i de undersöningar på SCB där det är möjligt. Metoden ommer antagligen att vara införbar i de flesta av SCB:s företagsundersöningar, men passar bäst att implementera i återommande undersöningar. Seletiv gransning med poängfuntioner ommer främst att minsa omfattningen av den gransningstyp som benämns produtionsgransning i de undersöningar där metoden implementeras. SCB har i dagsläget cira 300 egenutveclade IT-produtionssystem som bland annat hanterar gransning [7], dessa är personberoende samt dyra att vidareutvecla och underhålla. Det är angeläget att minsa IT-underhållsostnaderna på SCB och detta fatum sammantaget med resultaten från fallstudieprojetet har resulterat i att SCB nu bland annat försöer bygga en vertygslåda för gransning. Denna vertygslåda sa innehålla ett litet antal generella vertyg som sa unna nyttjas i många av SCB:s statistiproduter i framtiden. I dagsläget är det tänt att denna vertygslåda sa bestå av vertygen SELEKT, EDIT samt ett vertyg för processdata. Dessa vertyg ommer att besrivas närmare i avsnitt 3.6. 6
3.3 Gransning av datamaterialet i KSP Uppgiftslämnarna i KSP an välja att lämna in de efterfrågade uppgifterna via papperseller webblanett, textfil, FTP-överföring, fax eller telefon. Flest uppgifter inommer via pappers- och webblanetter. Inomna pappersblanetter sannas och endast de blanetter som av någon anledning inte går att sanna samt uppgifter som mottas via telefon registreras manuellt. Manuell registrering av uppgifter föreommer således i ytterst liten sala. I denna undersöning föreommer inte någon dataregistreringsgransning och den manuella förgransningen är minimerad. När en uppgift inommer eller ändras örs ett gransningsprogram som ligger i produtionsdatabasen. Fördelen med detta är att oavsett via vilet medium uppgifterna inommit gransas uppgifterna automatist, detta ser även när en inommen uppgift ändras. På detta sätt möjliggörs snabba återontater med uppgiftslämnarna, vilet är önsvärt eftersom det är troligare att de an orrigera eventuella felatigheter nära i tiden från inlämningstillfället. Gransningsprogrammet avseende KSP är uppbyggt av 2 på förhand bestämda gransningsontroller, varav sex stycen har varit atuella i den här studien. Det finns även ett antal gransningsontroller inlagda i webbformuläret, dessa ontroller är enla i sin uppbyggnad och ontrollerar endast uppenbara fel. Produtionsgransningen är den typ av gransning som upptar mest resurser i KSP. Den ser dagligen i tat med att uppgifter inommer. Uppgiftslämnaren behöver inte alltid ontatas när en uppgift faller ut i någon gransningsontroll. Gransningspersonalen an nämligen ofta rätta upp felatiga uppgifter med hjälp av tidigare inlämnade uppgifter, doumenterade ommentarer om arbetsstället i fråga, stöduppgifter från urvalsramen och med hjälp av uppgifter i FDB. En statusod för det inomna objetet sätts per automati efter att objetet genomlöpt gransningsprogrammet. Om inga variabelvärden inom objetet fastnat i någon gransningsontroll, får objetet statusen Godänd, men om minst ett variabelvärde fastnat i någon gransningsontroll ges objetet istället statusen Ice godänd. Gransningspersonalen behöver på detta sätt inte titta på samtliga inomna objet, utan an fousera på att utreda de objet som enligt gransningsprogrammet inte är godända. Dessa objet presenteras för gransaren tillsammans med atuella feloder och tillhörande förlarande felodstexter. En fullständig förtecning över feloderna i KSP ges i appendix 2. Processdata över hur omfattande produtionsgransningen är i KSP och vila feloder som är mest freventa ges i appendix 3. Outputgransning av mätvariabeln Totalt antal anställda ser när inflödet för en specifi mätmånad börjar närma sig 90 procent. Gransningen utförs genom grafis gransning på branschgruppsnivå. Figur 2 visar hur ett av formulären för outputgransningen ser ut i produtionssystemet KS/KV, vilet används i undersöningen. Först väljs vilen mätperiod som sa gransas, därefter presenteras förändringen mellan det nu atuella antalet anställda och antalet anställda i jämförelsevartalet på branschgruppsnivå. Pilar och färgmareringar tydliggör vila branschgrupper som uppvisar störst förändring och således bör prioriteras i outputgransningen. Om en öning på mellan 5 0 procent har sett visas en uppåtpeande pil i ombination med gul färgmarering, om öningen är större än 0 procent visas istället en uppåtpeande pil i ombination med röd färgmarering. Har det sett en minsning på mellan 5 0 procent visas en nedåtpeande pil i ombination 2 Med medgivande av ansvarig från undersöningen Kortperiodis Sysselsättningsstatisti. 7
med grön färgmarering och om minsningen överstiger 0 procent visas en nedåtpeande pil i ombination med blå färgmarering. Figur. Formuläret Grafis gransning tabell från produtionssystemet KS/KV, vilet används i undersöningen Kortperiodis Sysselsättningsstatisti (KSP). I detta formulär väljs vilet vartal och månad som sa outputgransas. Här visas förändringen för respetive branschgrupp i form av färger och pilar. Gransning av en specifi branschgrupp utförs genom att dubbellica på atuell rad i tabellen som visas i Figur. Efter dubbellic öppnas den grafisa outputgransningen i det formulär som visas i Figur 2 3. 3 Med medgivande av ansvarig från undersöningen Kortperiodis Sysselsättningsstatisti. 8
Figur 2. Formuläret Grafis gransning graf från produtionssystemet KS/KV, vilet används i undersöningen Kortperiodis Sysselsättningsstatisti (KSP). I detta formulär visas de arbetsställen som ingår i den branschgrupp som valts att gransas i form av pricar i olia färger. Här representeras varje arbetsställe inom den valda branschgruppen av en pric, pricarna an anta tre olia färger. Gula pricar innebär att det inomna variabelvärdet har jämförts med antalet anställda i FDB vid urvalstillfället. Om det finns uppgifter att tillgå avseende föregående mätperiod har jämförelse istället gjorts mellan det nu inomna datavärdet och denna uppgift, dessa pricar är röda. Genom att dubbellica på en pric (gul eller röd) ommer gransaren automatist in i produtionssystemets blanettbild. Här utreds objetet med hjälp av tillgängliga stöduppgifter och eventuell återontat med uppgiftslämnaren. När gransaren har utrett objetet färgas arbetsställets pric grön. Den gröna färgen gör det enelt att hålla reda på vila arbetsställen som är utredda och inte. Vid enellic på en pric presenteras uppgifter om det specifia arbetsstället. Det framgår exempelvis vilet det atuella datavärdet är på mätvariabeln Totalt antal anställda lisom vilen uppgift det har jämförts med, uppräningsfatorn och hur mycet det atuella datavärdet har ränats upp med samt hur mycet jämförelsevärdet är uppränat till. Arbetsställen vars atuella datavärde avvier väsentligt från jämförelsevärdet hamnar långt från referenslinjen, dessa arbetsställen utreds och det gör även avviande arbetsställen med mycet hög uppräningsfator. När seletiv gransning med poängfuntioner införs förväntas omfattningen av produtionsgransningen att minsa i KSP. Det är doc inte orimligt att även outputgransningen an minsa till följd av införandet av den nya gransningsmetoden. Beroende på hur parametrarna ställs in i SELEKT sulle misstänta fel som det befintliga gransningsprogrammet inte hittar unna identifieras och tas om hand redan i produtionsgransningen och på så sätt effetivisera hela gransningsprocessen i undersöningen. 9
3.4 Seletiv gransning med poängfuntioner Statisti är behäftat med många olia typer av fel, exempelvis databearbetningsfel, ramfel, mätfel och urvalsfel. Den traditionella ansatsen på SCB och andra statistiproducerande institut har varit att i gransningsprocessen försöa hitta och rätta alla databearbetnings- och mätfel. Detta är en ineffetiv ansats eftersom det då finns en ris att väsentliga fel sliner igenom och att stora resurser åtgår till att rätta fel som inte påverar den statistisa redovisningen nämnvärt. Traditionell gransning är ostsamt och leder ofta till omotiverat hög arbetsbörda för både gransningspersonal och uppgiftslämnare. I mer moderna ansatser betonas viten av att hitta betydelsefulla fel som har stor påveran på parametersattningarna och att fel som inte ger någon påveran bör lämnas som de är eller åtgärdas via imputering. Detta, att inte gransa allt, allas för seletiv gransning. Flera artilar har srivits på området seletiv gransning, bland annat av Latouche och Berthelot (992), Lawrence och McDavitt (994), Lawrence och McKenzie (2000) och av Farwell och Raine (2000). Ett omfattande utveclingsarbete har bedrivits på SCB under de senaste åren för att införa metoden seletiv gransning med poängfuntioner. Metoden ännetecnas av att hänsyn inte enbart tas till om ett datavärde är misstänt felatigt utan även till dess effet på den statistisa redovisningen. Detta siljer sig från traditionell gransning där enbart misstänta datavärden sös för åtgärd. [8] 3.4. Uppenbara och misstänta fel Fel i gransningen bruar delas in i två huvudgrupper, uppenbara fel och misstänta fel. Uppenbara fel allas ibland för ice statistisa fel eller logisa fel och misstänta fel an ocså allas för statistisa fel. Uppenbara fel lassificeras som: Partiellt bortfall Ett eller flera uteblivna variabelvärden inom ett objet. Ice valida värden Ogiltiga värden, exempelvis ice existerande yresoder. Relationsfel Definitionsmässiga samband mellan variabler uppfylls inte, exempelvis att svaret på en variabelsumma inte överensstämmer med summan av delarna. Misstänta fel lassificeras som: Avvielsefel Variabelvärdet ryms inte inom det på förhand bestämda acceptansintervallet. Med acceptansintervall avses här området mellan två på förhand bestämda värden varemellan ett variabelvärde accepteras och således inte anses behöva genomgå ytterligare gransning. Definitionsfel (inliers) En fråga missuppfattas på liartat, men felatigt, sätt av många uppgiftslämnare. Detta är en typ av systematist mätfel. [5,8] För att hitta fel onstrueras mjua ontroller för de misstänta felen och hårda ontroller för de uppenbara felen. De fel som fastnar i en hård ontroll måste rättas upp antingen via manuell utredning eller via imputering. Om summafel inte rättas upp, även om dessa inte har någon större påveran på sattningarna, sulle detta unna leda till att statistianvändare tappar förtroende för SCB. Ett typist uppenbart fel som an uppstå i KSP är när uppgiftslämnaren angivit fler frånvarande personer än totalt antal anställda personer. Om däremot fler nyanställda personer än totalt antal anställda personer har angivits är det inte helt säert att 0
uppgiften är felatig även om den verar vara orimlig. Det sistnämnda är ett exempel på ett av de misstänta fel som an uppstå i undersöningen. [9] För att onstruera de mjua och hårda ontrollerna används så allade testvariabler. En testvariabel är ett aritmetist uttryc, vilet baseras på mätvariablerna och i normalfallet ocså på data från tidigare produtionsomgångar. Testvariabeln är alltså en funtion av ogransade datavärden och andra variabler. Den an vara enel i sin uppbyggnad, exempelvis an den utgöras av endast en variabel eller av sillnaden mellan två variabler, men den an ocså vara omplext uppbyggd. Testvariabeln betecnas: t r där r anger vilen testvariabel som avses, där r, 2,, R står för objet, vilet i undersöningen KSP utgörs av arbetsställe För att åsådliggöra hur en godtyclig testvariabel t sapas, låt c utgöra summan av delarna a och b, detta ger testvariabeln: t c a b Den hårda ontrollen blir då: t 0 för observation. Om t 0, det vill säga om den hårda ontrollen slår till, blir alla involverade datavärden (a, b och c) misstänta. I KSP finns ett flertal hårda ontroller av den här typen. Ett exempel är att för ett specifit arbetsställe i undersöningen sa summan av mätvariablerna Antal tillsvidareanställda män, Antal tillsvidareanställda vinnor, Antal visstidsanställda män och Antal visstidsanställda vinnor utgöra Totalt antal anställda. När summan av delarna inte överensstämmer med den angivna summan slår felod 0 till (en förtecning över de feloder som ingår i denna studie ges i avsnitt 4.2.2). Feloden presenteras för gransaren med tillhörande förlarande felodstext i produtionssystemet. Om uppgifterna har ommit in via pappersblanett och blivit insannade har gransaren möjlighet att ta upp den sannade bilden på särmen för att utesluta möjligheten att feloden slagit till på grund av ett sanningsfel. Nästa steg i utredningsarbetet är att jämföra de atuella uppgifterna med vad som redovisades föregående mätperiod. Om det varen utifrån den sannade bilden eller tidigare inlämnade uppgifter går att utläsa orsaen till summafelet ontatas uppgiftslämnaren för eventuell orrigering. Ett misstänt fel faller ut i en mju ontroll, en sådan ontroll onstrueras vanligtvis som: ~ t L r t r ~ t U r där ~ L t r betecnar den undre acceptansgränsen och ~ U t r den övre. Om testvariabelns värde faller utanför acceptansgränserna misstäns alla y j -värden som är involverade i testvariabeln t r, där y j betecnar det inomna ogransade datavärdet av mätvariabel y j för arbetsställe. [8] Ett exempel på ett misstänt fel i
KSP är då det angivna antalet anställda (Totalt antal anställda) siljer sig marant från den uppgift som redovisades föregående mätperiod eller från den antalsuppgift som fanns i FDB vid urvalstillfället för det atuella arbetsstället. [9] 3.4.2 Diotomt misstanemått Seletiv gransning med poängfuntioner har hittills implementerats i fyra av SCB:s företagsundersöningar och i en av dessa används det så allade diotoma misstanemåttet. De traditionella gransningsontrollerna ligger till grund för detta misstanemått. Ett datavärde y anses misstänt om det ingår i en hård ontroll som j slagit till eller om det ingår i en testvariabel för en mju ontroll där testvariabeln fallit utanför acceptansområdet. Detta innebär att datavärdet y antingen blir misstänt eller inte misstänt alls, vilet betyder att misstanegraden är noll eller ett. Med acceptansområde menas här området mellan den undre och den övre acceptansgränsen. Det an finnas invändningar mot att endast använda misstanegrad noll eller ett. En sådan sulle unna vara att en testvariabel i en mju ontroll som ligger längre från sitt acceptansområde för ett visst objet, än för ett annat objet, borde få en högre grad av misstane. Misstanemåttet borde med detta resonemang ligga längs en ontinuerlig sala, förslagsvis mellan noll och ett. [8] j 3.4.3 Kontinuerligt misstanemått Det ontinuerliga misstanemåttet används i de mjua ontrollerna och antar ett värde mellan noll och ett. För att ta fram misstanen för varje datavärde först misstanen för respetive testvariabel, Ett datavärde, y j y j t r Susp., vilen betecnas y Susp j, beränas, an ingå i flera olia testvariabler, exempelvis an det ingå i en ontroll av det ensilda variabelvärdet, men ocså i en relationsontroll. Av denna tr anledning an y vara opplad till flera Susp -värden. För att erhålla ett enda j tr misstanevärde för y måste Susp -värdena aggregeras på något sätt. Denna j y j tr aggregering görs genom att Susp ges av det maximala Susp -värdet. Observera att y j vid uppenbara fel är alltid Susp för varje y j -värde som ingår i den hårda ontrollen. 2
Misstanen för testvariabel t r och objet betecnas: Ratio t r Susp r (3.) TAU Ratior där TAU > 0 och Ratio r är det ontinuerliga misstanemåttet vilet definieras enligt: Ratio r 0 om misstanen = 0, detta infaller när ~ ~ ~ L ~ ~ U tr KAPPA tr tr tr tr KAPPA tr ~ ~ ~ L ~ Ratior tr KAPPA tr tr tr max tr ~ ~ ~ L tr tr KAPPA tr tr där DELTA 0 ~ ~ U ~ ~ Ratior tr tr KAPPA tr tr max tr ~ ~ U ~ t t KAPPA t t r r r r U U ~ tr ~ t L r ~ t L r där KAPPA 0 ~, DELTA t om, DELTA ~ där t r representerar det prediterade värdet på testvariabeln när y j har ersatts av det prediterade värdet, ~ y~. Eftersom avståndet mellan U j t r och ~ L t r r ~ t r an vara noll behöver en parameter, DELTA, införas för att undvia division med noll vid beräning av det ontinuerliga misstanemåttet. Empiris erfarenhet har visat att det är lämpligt att sätta DELTA till 0,05. KAPPA är en av de parametrar som ställs in i SELEKT när det ontinuerliga misstanemåttet sa användas. Denna parameter sätts till ett värde 0 och reglerar längden på acceptansintervallet, det vill säga hur stor del av urvalet som får misstane noll. Parametern TAU sätts till ett värde 0, denna bestämmer misstanefuntionens form. Om TAU sätts till ett mycet litet tal, exempelvis 0,00, och KAPPA = erhålls det diotoma misstanemåttet, vilet följatligen är ett specialfall av det ontinuerliga misstanemåttet. Figur 3 7 visar exempel på hur KAPPA och TAU påverar acceptansområdet. [8] ~ När KAPPA = 0 och värdet på en testvariabel siljer sig från det prediterade värdet t r blir misstanen större än noll, vilet visas i Figur 3. om Figur 3. Illustration av funtionen t r Susp (3.) då parametern KAPPA = 0 och TAU = 0,0. Figur 4 illustrerar hur misstanefuntionen förändras när värdet på TAU höjs. 3
Figur 4. Illustration av funtionen t r Susp (3.) då parametern KAPPA = 0 och TAU =. Som åsådliggörs i Figur 5 öar acceptansintervallets bredd när KAPPA sätts till ett högre värde, i detta fall är KAPPA =. För testvariabelvärden som ligger mellan den undre och den övre acceptansgränsen blir misstanen noll. Figur 5. Illustration av funtionen t r Susp (3.) då parametern KAPPA = och TAU = 2. Högre värden på KAPPA gör att acceptansintervallet, inom vilet misstanen är noll, blir bredare. Detta illustreras i Figur 6. Figur 6. Illustration av funtionen t r Susp (3.) då parametern KAPPA =,5 och TAU = 0,2. Ett högre värde på KAPPA leder alltså till att fler datavärden accepteras. Sätts KAPPA till ett mycet litet tal blir nästan alla datavärden misstänta. [8] Vid jämförelse mellan Figur 5 och Figur 6 visualiseras hur acceptansintervallet förändras vid olia värden på 4
parametrarna KAPPA och TAU. Exempelvis framgår det tydligt att när en testvariabels värde ligger utanför acceptansintervallet och TAU är satt till ett lågt värde är misstanen nära ett. [0] Inställningarna i Figur 7 på KAPPA och TAU ger det diotoma misstanemåttet vilet, som tidigare nämnts, är ett specialfall av det ontinuerliga misstanemåttet. Figur 7. Illustration av funtionen t r Susp (3.) då parametern KAPPA = och TAU = 0,00. Beroende på hur de olia parametrarna ställs in sulle objet som inte faller ut med de traditionella gransningsontrollerna unna felsignaleras vid användning av det ontinuerliga misstanemåttet. Om istället det diotoma misstanemåttet används, under förutsättning att samma gränser som nyttjades i de traditionella gransningsontrollerna tillämpas, ommer istället de objet som faller ut endast att utgöra en delmängd av de objet som sulle ha felsignalerats med traditionell gransning. Detta beror på att det diotoma misstanemåttet i den här situationen motsvarar de traditionella gransningsontrollerna om ingen hänsyn tas till effeten på statistien. [8] 3.4.4 Effet Vid traditionell gransning hanteras alla misstänta datavärden manuellt, ingen sillnad görs mellan stora och små fel eller om felen har någon nämnvärd effet på statistien eller inte. Vid seletiv gransning ignoreras däremot misstänta fel som inte anses ha tillräcligt stor effet på parametersattningarna. Som tidigare onstaterats är gransning ett nödvändigt moment och en indiation på detta ges av att sillnaden mellan en parametersattning på helt ogransade data ofta siljer sig mycet från en parametersattning gjord på gransade data. 5
Låt de nämnda parametersattningarna betecnas: Tˆ w y respetive j j Tˆ w y där e j e j w är uppräningsfatorn för objet e y j representerar det gransade datavärdet av mätvariabel y j för objet Tˆ j är en parametersattning baserad på helt ogransat datamaterial e Tˆ j är motsvarande parametersattning baserat på samma, men helt gransade, datamaterial För att mäta den inveran ett helt ogransat datavärde, y j, har på e Tˆ j används måttet: y IMP j w y j y e j (3.2) y Betecningen j y IMP ommer från engelsans impact. IMP j an endast beränas e efter att gransning utförts, det vill säga när datavärdet y j finns tillgängligt. Eftersom effet är ett av nycelorden inom seletiv gransning och effeten av ett inommet ogransat datavärde således är nödvändig att beräna måste y ersättas med det prediterade värdet, y~ j. [] Prediterade värden an sapas på flera olia sätt. Exempelvis an det prediterade värdet i en månadsundersöning utgöras av förra månadens inomna gransade datavärde, det an även vara ett prognostiserat och säsongsjusterat tidsserievärde eller ett prognostiserat värde från regressionsanalys. När seletiv gransning med poängfuntioner implementeras i KSP ommer de prediterade värdena att utgöras av tidigare inlämnade uppgifter i de fall där sådana finns att tillgå. Om arbetsstället är nytt i urvalet eller utgjorde bortfall under föregående mätperiod ommer de prediterade värdena för arbetsstället att bildas av medelvärdet för respetive mätvariabel avseende den homogena grupp som arbetsstället tillhör. Med homogen grupp avses en grupp av arbetsställen som utifrån ett antal egensaper linar det atuella arbetsstället i hög grad. Det an exempelvis röra sig om arbetsställen inom samma stratum som är belägna inom samma region med liartat antal anställda. y I och med att IMP j inte går att beräna på förhand införs den så allade potentiella effeten vilen betecnas: e j y Potimp w y ~ j y (3.3) j j 6
Vid seletiv gransning är det väsentligt att ta hänsyn till både misstane och effet, därför införs måttet anticipierad effet vilen betecnas: Antimp y j Susp y j Potimp y j (3.4) De mått som har besrivits i detta avsnitt an användas oavsett urvalsdesign. Genom tillägg av index l i de formeluttryc som angivits an effet även beränas för seundärobjet, vila an föreomma vid lusterurval. Tillägg av index för lassificering (c) och redovisningsgrupp (d) är ocså möjligt. För ice linjära estimatorer, som voter, används Taylor-utvecling för att erhålla linjära uttryc. Mer detaljerad information om hur uttrycen förändras vid exempelvis föreomst av seundärobjet eller votvariabler ges av Norberg, A. et al. (2009). [8] 3.4.5 Flera lassificeringar i den statistisa redovisningen Det är vanligt föreommande i statistisammanhang att ett datavärde ingår i fler än en tabell i den statistisa redovisningen, datavärdet har följatligen effet på samtliga parametersattningar som det ingår i. För att ta hänsyn till detta sapas en loal poäng för varje inommet variabelvärde i ombination med redovisningsgrupp. I KSP an det inomna y -värdet ingå i flera tabellceller, som minst tillhör det tre olia j redovisningsgrupper, nämligen: Marginalerna för region (län) och bransch Totalen En besrivning av vilen eller vila som är de mest betydelsefulla tabellerna tillför vitig information vid inställning av de så allade vitighetsparametrarna i seletiv gransning med poängfuntioner. Genom att ställa in dessa parametrar i vertyget SELEKT ges möjlighet att styra gransningen till att gransa vad som är vitigast i undersöningen mer intensivt, detta med avseende på tabellceller, redovisningsgrupper och mätvariabler. Av denna anledning är det nödvändigt att en person som är väl insatt i den atuella undersöningen är involverad i implementeringsarbetet. Genom att ställa in parametrarna så att större vit läggs vid att gransa variabelvärden som ingår i de vitigaste tabellerna används de tillgängliga resurserna på bästa sätt. Utredning och återontater an då utföras där det bäst behövs. [8] Mätvariablerna om antalet versamma företagare i KSP publiceras inte och behöver således inte uppnå samma höga valitet som de vitiga mätvariablerna om antalet anställda. Användarna av KSP är mest intresserade av resultat uppdelade på branschgrupp och region, således är det vitigt att valiteten är god vad gäller dessa redovisningsgrupper. 3.4.6 Poängfuntion I seletiv gransning med poängfuntioner beränas loala och globala poäng. Poängen används till att avgöra om ett objet sa utredas manuellt av gransningspersonal eller inte. Varje inommet variabelvärde i ombination med redovisningsgrupp ges en loal poäng. Den loala poängen utgörs av produten av ett misstanemått och effetmåttet satt i relation till exempelvis den sattade totalen eller det tillhörande medelfelet. 7
Den loala poängen definieras här enligt: LScore y j d Susp y j w SE Tˆ y e dj dj ~ y dj Antimp SE Tˆ e dj y j d (3.5) e där SE T ˆ e dj betecnar medelfelet för parametersattningen Tˆ j avseende redovisningsgrupp d. De loala poängen aggregeras sedan genom någon funtion till en poäng på objetsnivå, för objet benämns denna poäng global poäng, betecnas GScore. Härnäst följer uttryc för de loala poängen i mer generella termer och en mer utförlig besrivning av hur aggregeringen från finaste nivå till primärobjetsnivå går till. Den globala poängen som gäller för hela objetet fås genom att aggregera bort nivå för nivå. Först aggregeras den finaste nivån bort, det vill säga redovisningsgrupp (d), därefter görs aggregeringen över mätvariabler (j) och om seundärobjet existerar i undersöningen görs aggregeringen därefter över denna nivå. Aggregeringsstegen i KSP betecnas: L2Score y j d max 0, LScore y d j Tr LAMBDA LAMBDA (3.6) GScore j max 0, L2Score y j Tr 2 LAMBDA2 LAMBDA2 (3.7) Loala tröselvärden representeras av Tr och Tr 2. Tröseln för den globala poängen benämns globalt tröselvärde och betecnas TrGlobal. En reommendation är att defaultvärdet för Tr sätts = 0. Däremot finns inget defaultvärde för Tr 2, det mest lämpliga värdet bör istället laboreras fram. Parametern LAMBDA gör poängfuntionen flexibel. I KSP är LAMBDA = LAMBDA2 och av denna anledning ommer dessa parametrar vidare benämnas enbart LAMBDA. Tre specialfall av LAMBDA är särsilt intressanta för denna studie: Om loal trösel = 0 och LAMBDA = beränas poängfuntionen genom summering. Om loal trösel = 0 och LAMBDA = 2 beränas poängfuntionen genom roten ur vadratsumman (allas för det eulidisa avståndet). Om loal trösel = 0 och LAMBDA 0 beränas poängfuntionen genom maxfuntionen. [8,2] I SCB:s situation, där omfattningen av gransningen alltid begränsas av en fast budget, förordar Hedlin (2008) användandet av den eulidisa poängfuntionen, det vill säga då loal trösel = 0 och LAMBDA = 2, för att nå den globala poängen. [2] 8
Den globala tröseln avgör vila objet som sa utredas manuellt av gransningspersonalen, vila som sa åtgärdas via imputering och vila som sa lämnas därhän. Objet med GScore TrGlobal ommer således att hanteras manuellt av gransningspersonal medan objet med GScore < TrGlobal ommer att rättas upp via imputering eller behålla sina ursprungliga datavärden. Många gransningsmetoder räver att det mesta av datamaterialet har inommit innan gransning och utredning an påbörjas. En fördel med metoden seletiv gransning med poängfuntioner är att den globala tröseln diret avgör om ett objet sa utredas eller inte. [8] 3.5 Relativ Pseudo Bias (RPB) När metoden seletiv gransning med poängfuntioner används uppstår en bias. Ett mått på denna sevhet, vilen uppommer på grund av att datamaterialet inte har intensivgransats (gransats traditionellt), är så allad Relativ Pseudo Bias (RPB). [3] När metoden för poängberäning sa ställas in eller justeras tas detta mått fram för att ontrollera att de parameterinställningar som slutligen sa användas inte försämrar den övergripande valiteten i undersöningen. För beräning av måttet rävs tillgång till ett intensivgransat datamaterial, dessutom nyttjas både ogransade och gransade data. Ett RPB-värde beränas för varje ombination av mätvariabel och redovisningsgrupp enligt (index borttagna): RPB Q Tˆ Q Tˆ SE Tˆ Q 00 Q 00 (3.8) där T ˆQ 00 är sattningen av en total, T, då intensivgransning genomförts på hela materialet. I nämnaren återfinns dess tillhörande sattade medelfel. I täljaren beränas differensen av Tˆ Q och T ˆQ 00. Index Q anger hur stor andel av objeten som har erhållit gransade datavärden. [8,4] I täljaren återfinns alltså avvielsen mellan totalsattningen då de objet med högst global poäng, Q procent av det totala antalet objet, utsatts för gransning och motsvarande sattning när intensivgransning har utförts. Då Q varieras erhålls olia sattningar av Tˆ Q med olia RPB-värden som följd. Det Q-värde som eftersträvas är det som ger tillräcligt låga RPB-värden i alla tabellceller. En grov tumregel är att RPB-värdet inte bör överstiga 20 procent av medelfelet i de flesta tabellcellerna, detta för att inte täcningsgraden sa påveras nämnvärt. [4,5] Endast i undantagsfall bör RPB tillåtas att överstiga 50 eller 00 procent. Det totala antalet RPB-värden som måste beränas uppgår till antalet tabellceller i en undersöning. I pratien är det därför inte ovanligt att erhålla en matris innehållande tusentals värden. I KSP ger antalet tabellceller upphov till 2 000 RPB-värden beränat utifrån 59 branschgrupper, 2 län och 25 mätvariabler. Denna studie är doc begränsad till att endast låta 45 branschgrupper och sju mätvariabler bidra till RPB, vilet ger totalt 9
35 RPB-värden. Att antalet branschgrupper siljer sig åt beror på att SNI 2002 4 har använts i denna studie, men i undersöningen nyttjas normalt SNI 2007. För varje justering som görs i beräningarna av de globala poängen måste en ny uppsättning RPB-värden beränas. De inställningar som leder till lägst Q-värden med acceptabel RPB an betratas som den bästa uppsättningen. Vid implementering av seletiv gransning med poängfuntioner måste doc även hänsyn tas till ostnaden. Den uppsättning som är mest lämplig med avseende på RPB an resultera i alltför hög ostnad, därför an en uppsättning med högre RPB-värden vara det enda möjliga alternativet. Då ett lämpligt Q-värde väl har hittats är ocså det globala tröselvärdet funnet. Detta används sedan i den löpande produtionen för att avgöra om ett objet sa gå till manuell utredning eller passera utan åtgärd. När de, utifrån förutsättningarna, bästa parameterinställningarna har ställts in och satts i bru ommer de att användas till dess att en ny utvärdering görs. En ny utvärdering bör göras då genomgripande förändringar i undersöningen ser eller åtminstone vart tredje år. Det finns ännu inget generellt vertyg utveclat för att ta fram lämpliga parameterinställningar, vila ger acceptabla RPB-värden. SCB är doc i uppbyggnadsfasen av ett sådant vertyg, detta vertyg allas för LABBET. LABBET är ett av vertygen i SELEKT, vilet i sin tur är ett av totalt tre generella vertyg som tillsammans sa underlätta och effetivisera införandet av metoden seletiv gransning med poängfuntioner på SCB. 4 Se förlaring i avsnitt 2.7. 20
3.6 Vertyget SELEKT Vertyget SELEKT utgör tillsammans med EDIT och ett vertyg för processdata SCB:s framtida vertygslåda för gransning. I Figur 8 visas en översit av den tänta vertygslådan. Figur 8. Den framtida vertygslådan för gransning på SCB innehåller SELEKT, EDIT och ett vertyg för processdata. Vertyget EDIT är det generella användargränssnittet som är tänt att gransningspersonalen sa arbeta i. EDIT sa tillhandahålla allt stöd som en gransare behöver vid återontat med uppgiftslämnare och vid orrigering (upprättning) av felatiga uppgifter. Vertyget byggs generellt för att rymma så många undersöningar som möjligt, men ommer ändå att vara så flexibelt att gränssnitt och information an anpassas efter en specifi undersönings behov. En första version av EDIT sa enligt plan släppas första februari år 200. Utvecling av vertyget för processdata har ännu inte påbörjats. Vertyget sa möjliggöra uttag av data för analys av gransningens effetivitet och således bidra till förbättring av statistiprodutionsprocessen. I vertyget SELEKT utförs alla poängberäningar. När poängberäningarna har utförts avgör det globala tröselvärdet vila objet som sa utredas manuellt alternativt åtgärdas via imputering eller lämnas därhän. De objet som sa utredas manuellt av gransningspersonal märs med statusen Till manuell utredning och sicas därefter vidare till EDIT. SELEKT består av tre olia moduler LABBET, PRE-SELEKT och AUTO- SELEKT. Innan SELEKT implementeras i en undersöning måste först den befintliga gransningen utvärderas. Denna utvärdering utförs i LABBET och syftar till att ta reda på hur effetiv den befintliga gransningsmetoden är. Utöver detta tas ocså de mest lämpliga 2
parametervärdena samt det globala tröselvärdet för en atuell undersöning fram i LABBET. Detta arbete är både omplicerat och tidsrävande eftersom metoden nyttjar ett stort antal parametrar. För att LABBET sa unna användas rävs tillgång till både ogransade och gransade data avseende samma tidsperiod. Efter att implementering av seletiv gransning genomförts används LABBET för att utvärdera de valda parameterinställningarna. Detta görs ungefär vart tredje år eller inför en stor förändring av undersöningen. Inför en ny utvärdering av de valda parameterinställningarna bör urval under tröseln dras som omplement till de objet som ligger ovanför det globala tröselvärdet. Detta för att få tillgång till ett datamaterial som är mer intensivt gransat än vad som erhålls när seletiv gransning tillämpas. Utöningen av gransningen inför en utvärdering är nödvändig för att unna utvärdera de valda parameterinställningarna. Metoder för att utöa gransningen på lämpligt sätt presenteras av Norberg, A. et al. (2009). De valda parameterinställningarna, det globala tröselvärdet och undersöningsspecifia bagrundsvariabler förs in och används i PRE-SELEKT. Inför varje ny undersöningsomgång örs PRE-SELEKT och här beränas prediterade värden samt en enhetsoberoende parameter, vilen möjliggör prioritering av specifia tabeller, mätvariabler eller tabellceller som är vitigare än andra. Den enhetsoberoende parametern beränas bland annat utifrån värdena på de tidigare nämnda vitighetsparametrarna. I vertyget AUTO-SELEKT används parameterinställningarna i PRE-SELEKT för beräning av loala och globala poäng. Det är i AUTO-SELEKT som alla inomna objet ges någon av följande statusar: Godänd, Till imputering eller Till manuell utredning. Tillsammans med information om relevanta poäng sicas de objet som sa utredas manuellt vidare till EDIT och tas där omhand av gransningspersonal. [8] 22
4 Problemformulering SCB håller i dagsläget på att utvecla vertyget LABBET vilet sa användas till att söa fram de parameterinställningar som, givet en viss ostnad, ger tillräcligt låga RPBvärden vid implementering av seletiv gransning med poängfuntioner i en undersöning. I LABBET prövas ett stort antal olia värden på ett 30-tal parametrar, där de mest lämpliga parameterinställningarna sedan används i PRE-SELEKT och AUTO- SELEKT. De flesta av dessa parametrar används till att bestämma hur prediterade värden sa beränas. På grund av det stora antalet parametrar ommer arbetet i LABBET att vara både omplext och tidsrävande. Det är därför intressant att undersöa möjligheten att reducera antalet parametrar alternativt att sätta defaultvärden på en del av dem. Vissa parametrar används vid modellering av effet medan andra används vid modellering av misstane. I den här studien studeras tre parametrar samt variabeln Kostnad. Parametrarna KAPPA och TAU ingår i det ontinuerliga misstanemåttet och LAMBDA i aggregeringsstegen av poängfuntionerna. Dessa parametrar är ontinuerliga, men har av pratisa säl begränsats till ett fåtal värden. I Tabell redovisas de för studien atuella parametervärdena: Tabell. De för studien valda parametervärdena på KAPPA, TAU och LAMBDA. Parameter Värde KAPPA,0,5 2,0 2,5 3,0 TAU 0,00 0, 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 0,0 5,0 20,0 LAMBDA,0 2,0 20,0 Inledningsvis undersötes ett större antal värden på KAPPA och TAU. Det minsta värdet på KAPPA som undersötes var noll och det största var 20, motsvarande värden på TAU var 0,00 och 00. Eftersom KAPPA = 0 medför att i stort sett alla objet misstäns, vilet inte är en rimlig ansats i pratien, har värden < uteslutits ur denna studie. I traditionell gransning används ett på förhand bestämt acceptansintervall, vilet motsvarar att KAPPA =. Inomna värden som ligger inom acceptansintervallet utreds inte och detta medför att y e j y j, således lämnar dessa objet inget bidrag till RPB oavsett hur relationen ser ut mellan det inomna ogransade värdet och motsvarande gransade datavärde. Värden på KAPPA då 0 KAPPA an således inte utvärderas. Det är intressant att låta KAPPA = och TAU vara ett mycet litet tal (här valt till 0,00) i och med att denna ombination ger det diotoma misstanemåttet. Av denna anledning har det minsta värdet på KAPPA och TAU valts till respetive 0,00. Det största värdet på KAPPA är 3, större värden än så är inte intressant i pratien eftersom detta sulle leda till att i stort sett alla datavärden accepteras. Större värden på TAU ger en mindre lutning på misstanefuntionen, se Figur 3 7. Störst förändring av lutningen ser vid låga värden på TAU och genom att inludera några högre värden bör effeten av TAU återspeglas, således har värden då TAU > 20 23
uteslutits från datamaterialet. Övriga värden har valts för att undersöa vad som händer mellan yttervärdena för respetive parameter. För parametern LAMBDA finns endast tre tolningsbara värden; LAMBDA = innebär att summafuntionen används i poängberäningen, LAMBDA = 2 medför att den eulidisa poängfuntionen används och LAMBDA = 20 att maxfuntionen nyttjas. Variabeln Kostnad mäts i antal utredningsfall, denna variabel varierar mellan 8 och 28. Med utredningsfall avses de objet som sa utredas manuellt av gransningspersonal. Det är inte diret möjligt att styra variabeln Kostnad i LABBET. Denna variabel styrs indiret av parametrarna och för givna värden på KAPPA, TAU och LAMBDA bestäms Kostnad av det globala tröselvärdet, TrGlobal. TrGlobal har varierats för att generera olia nivåer på variabeln Kostnad. 4. Frågeställningar I denna studie ommer följande frågeställningar att undersöas: Hur påveras RPB av värdena på parametrarna KAPPA, TAU och LAMBDA? Är någon av dessa parametrar mer eller mindre betydelsefull? 4.2 Datamaterial 4.2. Besrivning av det KSP-datamaterial som använts i denna studie Datamaterialet som ligger till grund för analyserna i denna studie består av mirodata från undersöningen Kortperiodis Sysselsättningsstatisti avseende mätperioden otober 2007 till och med mars 2008. Datamaterialet för det fjärde vartalet 2007 har använts till att sapa prediterade värden, y~, medan datamaterialet avseende det första vartalet 2008 har använts som inomna ogransade datavärden, inomna gransade datavärden, e y j j y j, samt som. Endast data tillhörande privat setor ingår i materialet. Totalundersöta arbetsställen, det vill säga arbetsställen med fler än 99 anställda enligt FDB vid urvalstillfället, är endast medränade en gång per vartal. Uppgifterna som används avser den första månaden som arbetsstället inom med uppgifter för det atuella vartalet. Endast arbetsställen som mottagit blanettypen KSP_Lång 5 och deltagit i undersöningen samt variabelvärden avseende följande mätvariabler är inluderade: Antal tillsvidareanställda män Antal tillsvidareanställda vinnor Antal visstidsanställda män Antal visstidsanställda vinnor Totalt antal anställda Antal frånvarande män på grund av sjudom Antal frånvarande vinnor på grund av sjudom Antal frånvarande män på grund av semester Antal frånvarande vinnor på grund av semester Antal frånvarande män på grund av övrig orsa 5 En insannad bild av blanettypen KSP_Lång återfinns i appendix. 24
Antal frånvarande vinnor på grund av övrig orsa Totalt antal frånvarande Antal nya tillsvidareanställda män Antal nya tillsvidareanställda vinnor Antal nya visstidsanställda män Antal nya visstidsanställda vinnor Totalt antal nyanställda Antal avgångna tillsvidareanställda män Antal avgångna tillsvidareanställda vinnor Antal avgångna visstidsanställda män Antal avgångna visstidsanställda vinnor Totalt antal avgångna 4.2.2 Gransningsontroller i KSP som varit atuella i denna studie Det finns totalt 2 traditionella gransningsontroller i KSP, av dessa har sex valts ut att ingå i studien. Dessa sex svarar mot misstänta fel i undersöningen och redovisas i Tabell 2. Tabell 2. Förtecning över de gransningsontroller, feloder och tillhörande felodstexter, som ingått i denna studie. Felod Gransningsontroll och lartext 09 Totala antalet anställda siljer sig jämfört med AnstAE 3 Sjufrånvaron överstiger 30 procent av antal tillsvidareanställda och antal tillsvidareanställda överstiger 20 stycen 5 Sjufrånvaro sanas, antal tillsvidareanställda överstiger 50 stycen 8 Antalet nyanställda är fler än sex och mer än 25 procent av de anställda 9 Antalet avgångna är fler än sex och mer än 25 procent av de anställda 20 Personalomsättning sanas och antalet tillsvidareanställda är fler än 200 Antal anställda i FDB vid urvalstillfället benämns i undersöningen KSP AnstAE. 4.2.3 Konstrution av prediterade värden i denna studie I denna studie har prediterade värden y~ j sapats på följande sätt: a) För ett arbetsställe som föregående vartal redovisat datavärdet y j används dess gransade uppgift som prediterat värde för det atuella vartalet. b) För ett arbetsställe som på grund av bortfall sanar uppgifter avseende föregående vartal har följande förfarande använts: 25
Om y är Totalt antal anställda vid arbetsställe har antal anställda enligt FDB använts som prediterat värde ~ y. Övriga mätvariabler y j, där j, utgör andelar av y (exempelvis Antalet tillsvidareanställda vinnor). Dessa andelar har sattats per stratum från samtliga arbetsställen som lämnat in uppgifter föregående vartal. Låt qˆ vara en sådan andel för mätvariabel j i stratum h. Förfarandet an sammanfattas på följande sätt: h j i) ii) ~ FDB y y ~ y j qˆ h j ~ y, där j för h (4.) (4.2) Alternativ a) användes för drygt 90 procent av arbetsställena medan alternativ b) tillämpades för övriga nappt 0 procent av arbetsställena i det atuella datamaterialet. 4.2.4 Besrivning av datafilen som använts till resultatframställning Datafilen som används till resultatframställningen i denna studie har genererats från datamaterialet som besrivs i avsnitt 4.2.. Totalt består datamaterialet som har använts till resultatframställning av 29 370 unia ombinationer av parameterinställningar, varje ombination utgör en rad i datafilen. Följande olumner i datafilen har använts i studien: RPB_20 Kostnad (i tusental utredningsfall) KAPPA TAU LAMBDA 4.2.5 Definition av variabeln RPB_20 Som tidigare nämnts uppstår en bias, RPB, på grund av att datamaterialet inte intensivgransas vid tillämpning av seletiv gransning med poängfuntioner. De statistisa resultaten får inte påveras alltför mycet av den nya gransningsmetoden, det är således vitigt att hålla RPB tillräcligt liten i alla tabellceller. Resultat från LABBET består av tabeller i vila RPB för alla ombinationer av redovisningsgrupp och mätvariabel framgår. En tabell för varje uni ombination av parameterinställningar erhålls. För undersöningar med många mätvariabler och omfattande statistis redovisning uppstår ett stort antal ombinationer av parametervärden, vila i sin tur resulterar i ett stort antal olia tabeller att analysera. En tabell för en specifi ombination av parameterinställningar ges i Tabell 3. 26
Tabell 3. Illustration av output från prototypen av LABBET. För en specifi ombination av parameterinställningar erhålls en orstabell innehållande RPB för alla mätvariabler och redovisningsgrupper. Var Var j Var J RedGrp RPB RPB j RPB J RedGrp d RPB d RPB dj RPB dj RedGrp D RPB D RPB Dj RPB DJ Eftersom RPB helst inte sa överstiga 20 procent av medelfelet i de flesta tabellcellerna har variabeln RPB_20 sapats. Denna variabel anger antalet tabellceller med RPB större än 20 procent. När den bästa ombinationen av parameterinställningar sa väljas avgör RPB tillsammans med ostnaden valet, därför är RPB_20 en mycet vitig variabel. För beräning av RPB_20 bestäms värdet för en specifi tabellcell till ett om RPB överstiger 20 procent och noll om RPB understiger 20 procent. Variabeln an således betratas som en summa av binära utfall. I Tabell 4 illustreras hur RPB_20 är uppbyggd. Tabell 4. Illustration av onstrutionen av variabeln RPB_20, vilen ger antalet tabellceller med en RPB överstigande 20 procent av cellernas medelfel. Var Var j Var J RedGrp 0 0 RedGrp d 0 RedGrp D 0 RPB_20 I denna studie analyseras variationen i RPB_20 med avseende på KAPPA, TAU och LAMBDA. 27
5 Metod I denna studie är RPB_20 responsvariabel och parametrarna KAPPA, TAU och LAMBDA samt variabeln Kostnad utgör förlaringsvariabler. En logistis regressionsmodell innehållande de angivna variablerna används i syfte att besriva sambandet mellan RPB_20 och parametrarna KAPPA, TAU och LAMBDA samt variabeln Kostnad. 5. Logistis (logit) regression Ett syfte med regressionsanalys är att hitta en modell som besriver sambandet mellan en responsvariabel och en eller flera förlaringsvariabler. Regressionsanalys an ocså användas vid exempelvis framställning av prognoser. Det finns flera olia benämningar för uttrycen respons- respetive förlaringsvariabel, till exempel an responsvariabeln ocså allas för beroende variabel eller utfallsvariabel och förlaringsvariabeln för oberoende variabel eller preditor. [6] I logistis regression är responsvariabeln binär och an således endast anta två olia värden, ett eller noll. Responsvariabeln antar värdet ett när en viss händelse inträffar och noll när den inte inträffar. De förlaringsvariabler som ingår i modellen an, beroende på deras natur, doc anta alla reella tal. Eftersom responsvariabeln antar värdena ett eller noll följer det av definitionen för dess väntevärde att detta alltid ligger mellan noll och ett. I logistis regression utgör således väntevärdet för responsvariabeln även sannoliheten att responsvariabeln antar värdet ett, P Y. I modellen srivs sannoliheten P Y som en funtion av förlaringsvariablerna. [6,7] 5.. Förlaring av modellen Regressionsmodellen är baserad på den umulativa standardlogistisa fördelningsfuntionen, vilen betecnas F. Den logistisa modellen, där Y står för den binära responsvariabeln, betecnas: P Y 0x0 x p x p e x0, x,, x p F 0 x0 x p x p (5.) 0x0 x px p e där x i representerar förlaringsvariabel i i 0,,, p med x 0 och i betecnar oefficienten för respetive förlaringsvariabel. Uttrycet representerar den betingade sannoliheten för att en händelse inträffar, P Y x, vilet även an betecnas x, där av x x, x,, x. Detta medför att den betingade sannoliheten för att Y 0 ges 0 p x. I logistis regression ger uttrycet i (5.) även väntevärdet för Y, Som an utläsas av uttrycet ligger utfallet mellan noll och ett. 28 E Y x. Den logistisa urvan är s-formad, vilet innebär att om en förlaringsvariabel antar stora negativa värden och motsvarande regressionsoefficient är positiv går urvan mot noll och då variabeln antar stora positiva värden går den istället mot ett. Om en förlaringsvariabel med positiv oefficient öar medför det en öning av sannoliheten för att en händelse sa inträffa. Om oefficienten däremot är negativ minsar
sannoliheten för att händelsen sa inträffa när värdet på förlaringsvariabeln öar. Ju större absolutvärde på regressionsoefficienten desto större inveran har förlaringsvariabeln på sannoliheten för händelsen. Ett begrepp inom logistis regression är logittransformationen av definieras enligt: x, vilen g x ln x x (5.2) Funtionen g x allas för länfuntion eftersom den länar väntevärdet för responsvariabeln till ett linjärt uttryc av förlaringsvariabler: g x ln x x ln e 0 e x px p 0 x px p e 0 x px p x x 0 p p ln e x x [6,9] 0 p p Funtionen g x är linjär i dess parametrar, an vara ontinuerlig och anta alla reella tal (beroende på vila värden x antar). [6] 5..2 Estimation och anpassning av modellen Det första steget vid logistis regressionsanalys är att formulera en lämplig modell för datamaterialet samt att satta dess parametrar. Det finns sedan olia sätt att ontrollera hur väl anpassad modellen är till datamaterialet. I följande avsnitt ommer den, för den här studien, atuella sattningsmetoden och valda anpassningsmått att presenteras. Sattning av parametrar med maximumlielihood (ML) För sattning av parametrarna i logistis regression används vanligtvis maximumlielihoodmetoden, i vilen maximumlielihoodestimatorn (MLE) nyttjas. Estimatorn är onsistent och approximativt normalfördelad i stora sticprov. Med MLE erhålls värden på de oända parametrarna så att sannoliheten för de observerade värdena är så stor som möjligt. Eftersom datamaterialet redan är genererat används begreppet lielihood istället för sannolihet. Vid tillämpning av metoden måste lielihoodfuntionen formuleras, vilen definieras av datamaterialets simultana sannolihetsfördelning. [6,8] 29
Om observationerna är oberoende an lielihoodfuntionen uttrycas enligt: L β n i x i yi x i yi (5.3) där β,, 0, p och i x 0i, x i,, x pi x, där x. [6,9] Eftersom lielihoodfuntionen utgörs av en produt är den algebraist omplicerad. Genom att logaritmera lielihoodfuntionen erhålls istället en funtion som är en summa, vilet förenlar matematisa operationer på funtionen. Maximum för loglielihoodfuntionen är detsamma som för lielihoodfuntionen, varför den an användas för att bestämma MLE. Loglielihoodfuntionen betecnas: 0i ln L β n i y i ln x i y i ln x i n i y i ln x i x i ln x i n i y i 0 x p x p ln x i En definition av MLE ges av de värden på β 0, β,, βn som uppfyller första ordningsvilloret. Differentieras loglielihoodfuntionen med avseende på respetive oefficient erhålls: ln L β n i y i x i x i då 0,,, p MLE definieras som de värden på β vila medför att derivatorna blir noll, det vill säga att ML-sattningen fås av evationen: [6,9] ln L β β β βˆ ML 0 30
Om funtionen differentieras ytterligare en gång erhålls andraderivatorna för loglielihoodfuntionen. Matrisen av andraderivatorna allas för Hessianmatrisen och betecnas: 2 ln L β 2 2 ln L β 2 2 ln L β p H β 2 ln L β 2 2 ln L β 2 2 2 ln L β 2 p (5.4) 2 ln L β p 2 ln L β p 2 2 ln L β 2 p Fishers informationsmatris definieras som I β E H β där väntevärdet beränas med avseende på fördelningen för responsvariabeln, givet förlaringsvariablerna. Vid logistis regression är H en funtion av förlaringsvariabler och parametrarna i β, vilet innebär att I β H β. Fishers informationsmatris är i sin tur relaterad till ovariansmatrisen för MLE. En sattning av ovariansmatrisen erhålls genom substitution av de sattade parametrarna i den inverterade informationsmatrisen, V βˆ ML Ι βˆ ML. [6,7,20] Varianssattningarna i ovariansmatrisen an användas för beräning av t-statistian. För att testa nollhypotesen att en parameter är noll an ett test utföras där teststatistian t definieras enligt: t ˆ i 0 SE( ˆ ) i (5.5) där ˆ står för ML-sattningen av och i SE ( ˆ ) i i betecnar dess tillhörande medelfel. I denna studie an t-statistian antas vara approximativt standardnormalfördelad under nollhypotesen. Approximationen an göras i och med att MLE är asymptotist normalfördelad i stora sticprov. Nollhypotesen förastas då t z, där z betecnar normalfördelningen och α den valda signifiansnivån. Walds teststatistia erhålls genom vadrering av teststatistian t. [8,9] 3
Lielihoodvottest För att dra slutsatser om en modell som innehåller fler parametrar är bättre än en enlare modell an Lielihoodvottestet användas. Testet an användas för att undersöa betydelsen av ensilda parametrar eller grupper av parametrar. Teststatistian för Lielihoodvottestet betecnas: 2ln( L l l 0 L ) 2 ln L0 ln L 2 0 (5.6) där L 0 står för det maximerade lielihoodvärdet för modellen med färre parametrar och L representerar det maximerade lielihoodvärdet för den modell som innehåller fler parametrar. Låt θ vara den vetor som innehåller de extra parametrar som ingår i den utöade modellen. Den nollhypotes som undersös samt motsvarande alternativhypotes betecnas: H 0 : θ 0 H A : θ 0 Vid stora urvalsstorlear är teststatistian approximativt χ 2 -fördelad under nollhypotesen med frihetsgrader. Antalet frihetsgrader df beränas som differensen mellan antalet parametrar i modellen under L och antalet parametrar under L 0. [7,20] Anpassningsmått För att undersöa hur väl anpassad den logistisa regressionsmodellen som används i den här studien är till datamaterialet ommer anpassningsmåttet pseudo-r 2 att användas. Detta mått baseras på lielihoodfuntionen. Pseudo-R 2 bygger på en jämförelse mellan det maximerade lielihoodvärdet för den atuella modellen (L p ) och det maximerade lielihoodvärdet för den modell som bara innehåller en parameter (L 0 ). Den sistnämnda modellen sanar alltså förlaringsvariabler och allas för nollmodellen. Pseudo-R 2 beränas enligt: [6,8] Pseudo R 2 ln L ln L p 0 (5.7) Deviansen, D, är ett mått på hur mycet information som går förlorad vid användande av den atuella modellen jämfört med motsvarande mättade (fulla) modell. Med den mättade modellen avses den modell som förlarar de observerade värdena exat, det vill säga att de prediterade värdena är lia med de observerade. 32
Deviansen definieras enligt: D 2 l y, ; y l ˆ, ; y (5.8) där l ˆ, ; y betecnar loglielihoodvärdet för den atuella modellen och l y, ; y är loglielihoodvärdet för den mättade modellen. Parametrarna och ˆ representerar fördelningens spridningsparameter respetive fördelningens förväntade värde. Spridningsparametern används till att orrigera variansen för en atuell parametersattning då den felatigt antagits för stor eller för liten. I den mättade modellen ingår n parametrar, en för varje observation och således är ˆ y. När en fördelnings spridningsparameter inte är lia med ett används den salade deviansen, D* D. Deviansen an användas i syfte att jämföra två modeller. Differensen av de två modellernas devians, G D 2 D, är χ 2 -fördelad med df 2 df frihetsgrader. Teststatistian G ger samma resultat som lielihoodvottestet. [7,8] 5..3 Oddsvoter Resultatet i logistis regression uttrycs vanligtvis i form av oddsvoter. Länfuntionen g x, som tidigare besrivits, an ocså allas för logoddset (logiten). Om länfuntionen antilogaritmeras erhålls oddset och då en händelse inträffar med sannoliheten x betecnas detta: [7] x Oddset (5.9) x Oddsvoten (OR) används för att jämföra oddset för två olia grupper eller händelser, voten beränas enligt: OR 2 x x 2 x x (5.0) Om en händelse inträffar med större sannolihet i den första gruppen än i den andra ommer oddsvoten att bli större än ett. Om en händelse inträffar lia ofta i två olia grupper, det vill säga om x 2 x, resulterar detta i en oddsvot lia med ett. En oddsvot an även beränas med logistis regression. För att illustrera hur oddsvoten an erhållas på detta sätt antag att endast en förlaringsvariabel ingår i modellen och att denna är binär. 33
Länfuntionen betecnas då: [6,7] x g x ln 0 x x Om x i den första gruppen och x 0 i den andra gruppen beränas oddsvoten enligt: OR 0 0 e e 0 0 e 0 e 0 e 0 e 0 e e 0 0 e 0 e 0 e e 0 0 e e 0 0 e e 0 0 e Detta innebär att oddsvoten i detta fall an erhållas diret genom att upphöja basen för den naturliga logaritmen till oefficienten för förlaringsvariabeln. [6] 5.2 Över- och underspridning Fenomenen över- och underspridning uppstår om variansen är större respetive mindre än den förväntas vara avseende ett specifit datamaterial. En så allad spridningsparameter betecnas och då datamaterialet är binomialfördelat förväntas 2 Var (Y ) där och 2 np p. Överspridning upptäcs genom att bättre besriver datamaterialets varians. Om bättre besriver datamaterialets varians är detta ett tecen på underspridning. Överspridning föreommer doc betydligt oftare i pratien än vad underspridning gör. Det an finnas flera olia orsaer till varför överspridning uppstår, men huvudorsaen är heterosedasticitet. Innan överspridning an påvisas bör andra tänbara orsaer till stor varians uteslutas. Stor varians an, förutom av överspridning, även orsaas av: Felatigt val av länfuntion Felatigt valda eller uteblivna förlaringsvariabler Att outliers existerar i datamaterialet Att datamaterialet består av för få observationer [7,20,2] Ett sätt att upptäca överspridning är om värdet på deviansen, D, är betydligt större än antalet frihetsgrader, det vill säga: D df där antalet frihetsgrader, df, är differensen mellan antalet observationer och antalet sattade parametrar i den atuella modellen. 34
Det finns inget entydigt sätt att påvisa överspridning, men en indiation ges av att den nämnda voten är mycet större än ett. Underspridning an upptäcas på samma sätt, men den nämnda voten är då istället betydligt mindre än ett. McCullagh och Nelder (989) sriver att om det inte finns mycet stara argument för att hålla fast vid de antaganden som görs då en binomialfördelning ligger till grund för analyserna av data, bör föreomst av överspridning alltid antas. Detta an sägas gälla även för underspridning. [20,2] Korrigering för över- och underspridning görs genom att använda spridningsparametern. Då är oänd måste den sattas, den inveran ˆ har på parameter- och varianssattningarna redovisas härnäst: Parametersattningarna förblir oförändrade Sattade varianser och ovarianser (ovariansmatrisen) multipliceras med ˆ Deviansen divideras med ˆ, vilet ger den salade deviansen Konfidensintervallens (Wald) bredd blir ˆ gånger större/mindre [20,2] Det finns en ris att överspridning föreommer i det datamaterial där ett RPB-värde för respetive tabellcell återfinns. Risen beror på föreomsten av orrelation mellan tabellcellernas binära utfall, vila ligger till grund för RPB_20 samt att sannoliheten att en cell bidrar till RPB_20 varierar mellan olia celler. [22] Tillgång till detta datamaterial sanas doc och av denna anledning har inte hänsyn till den eventuella överspridningen unnat tas. I datamaterialet för resultatframställning finns det istället en ris för underspridning. Varje ombination av parameterinställningar an betratas som ett separat försö och underspridningen an uppomma till följd av att de olia ombinationerna av parameterinställningar baseras på ett och samma datamaterial. Försöen an således inte betratas som oberoende av varandra, men notera att MLE även fungerar vid både överoch underspridning. [20] Om underspridning existerar ommer spridningsparametern vara mindre än ett och för att ta hänsyn till detta ommer den salade deviansen att användas för framställning av resultaten. 5.3 Responsytor Experimentell design används vid planering och design av försö och experiment. Syftet med att utföra experiment är att besriva om och i så fall hur olia fatorer inverar på ett resultat. I en industriell versamhet an det exempelvis vara av intresse att göra en process mindre änslig mot yttre fatorer eller att hitta den optimala ombinationen av nivåer och värden på fatorer och variabler som ger högsta möjliga valitet i produtionsprocessen. Ibland an doc en budgetrestrition göra det omöjligt att använda de optimala process- eller parameterinställningarna, det är då önsvärt att finna inställningar som ändoc förbättrar resultatet och samtidigt håller sig inom de eonomisa ramarna. [23] I försö att förbättra produtionsprocessen är det intressant att ta reda på hur sambandet mellan responsvariabel och fatorer ser ut, detta görs genom att använda designer för sattning av så allade responsytor. För att undersöa formen hos olia responsytor används responsytemetodi (RSM). [24] Responsytan modelleras av ett polynom och ytan gör det möjligt att undersöa fatorernas inveran på resultatet. 35
Antalet försö som an göras i ett experiment bestäms ofta av en fast budget, detta gör att antalet försö som an utföras är begränsat. En ansats är att genomföra ett initialt antal försö i syfte att hitta ett område på responsytan vari optimum ligger. Därefter genomförs ytterligare experiment inom området och sambandet mellan responsvariabel och fatorer modelleras med polynom av lägre grad, exempelvis första- och andragradspolynom. [23] Låt väntevärdet av en responsvariabel, y, vara en funtion av förlaringsvariabler, vila representerar de vantitativa fatornivåerna. En modell av första ordningen med två fatorer srivs: y 0 x 2x2 (5.) En modell av andra ordningen med två fatorer betecnas: y 2 2 0 x 2x2 x 22x2 2xx2 (5.2) En mer utförlig behandling av RSM ges av Kuehl (2000). Industriella experiment begränsas ofta av både ostnad, tid och att undersöningsobjetet förbruas. I denna studie har det doc varit möjligt att utföra i princip ett oändligt antal försö, endast tidsramen har begränsat experimentet. Då ingen ostnad är förnippad med antalet utförda försö har det varit möjligt att testa alla parameterombinationer av intresse. Eftersom det atuella datamaterialet består av ett stort antal observationer och endast tidsramen begränsar antalet möjliga försö har det inte varit nödvändigt att använda någon algoritm i syfte att isolera områden vari de mest lämpliga ombinationerna av parameterinställningar an tänas ligga. Här nyttjas ansatsen med responsytefuntioner där polynom används för att relatera respons till fatorer (parametervärden). 5.4 Bacward Elimination I metoden Bacward Elimination reduceras en större modell steg för steg för att erhålla en mindre slutlig modell. I Steg sattas den större modellen. I Steg 2 ontrolleras vila förlaringsvariabler som enligt en jämförelse mellan värdet på t-statistian och den på förhand bestämda signifiansnivån inte förlarar responsvariabeln i nämnvärd utsträcning. I Steg 3 sattas modellen återigen, men utan de förlaringsvariabler som i föregående steg inte ansågs vara nödvändiga, därefter upprepas Steg 2. Proceduren upprepas tills den slutliga modellen erhålls, i vilen alla inluderade förlaringsvariabler förlarar responsvariabeln. [7,20,25] 5.5 Tolning av motiv för tillämpning av logistis regression I denna studie ommer logistis regressionsanalys att användas för att besriva hur parametrarna KAPPA, TAU och LAMBDA samt variabeln Kostnad inverar på variationen i RPB. Det är omplicerat att tola variationen i RPB för olia 36
parametervärden som stoastis, då den enda stoastisa ällan i denna studie är urvalet vilet datamaterialet baseras på. Sulle en ansats väljas där variationen i RPB tolas som stoastis måste fördelningen av RPB härledas från urvalsdesignen, detta är svårt att utföra i pratien. I denna studie baseras analysen betingat på det insamlade datamaterialet och således är RPB-värdena inte slumpmässiga. Med anledning av detta ommer statistisa test och anpassningsmått att användas för att välja en modell som på ett bra sätt besriver variationen i det atuella KSP-datamaterialet. Detta siljer sig från den mer vanliga ansatsen vid regressionsanalys då en modell väljs för att besriva variationen i en population. Eftersom RPB-värdena är onstanta givet det insamlade datamaterialet och de givna parametervärdena an inte parametrarnas betydelse uttrycas i termer av signifians. Resultaten från analysen ommer istället att ge en indiation på om en parameter är mer betydelsefull än en annan. I studien sulle en linjär regressionsmodell med y log p p ha unnat användas, men då logistis regression gör det enlare att både satta och jämföra olia modeller, har en sådan ansats istället valts. I föreliggande studie studeras antal tabellceller med RPB > 20 procent. En alternativ ansats är att välja ut en eller flera ensilda celler varvid responsvariabeln blir diotom. Samma modelleringsansats som används här an användas för detta fall. 5.6 Residualer Andelen tabellceller, p, som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet definieras enligt: p RPB_ 20 Antal redovisningsceller (5.3) Det totala antalet tabellceller uppgår till 35 stycen. En residual definieras här som avvielsen mellan den fatisa andelen tabellceller med ett RPB-värde större än 20 procent och motsvarande sattade andel, pˆ : p _ residual p pˆ (5.4) När en modell har tagits fram an dess lämplighet undersöas genom att studera dess residualer. Om residualerna följer ett systematist mönster ger detta en indiation på att termer sanas i modellen, om den sattade modellen är lämplig sa residualerna vara slumpmässiga. [25] För att lättare upptäca eventuella mönster i residualerna har länfuntionen, g, använts. Funtionen bildar, som tidigare nämnts, ett linjärt uttryc av förlaringsvariabler. Länfuntionen underlättar således vid ursiljning av eventuella mönster. Sattade g-värden definieras enligt: pˆ gˆ ln (5.5) pˆ 37
En g-residual definieras här som: g _ residual g gˆ (5.6) Om residualerna bildar ett urvmönster, antyder detta att termer av andra ordningen eller termer av högre ordning borde ingå i modellen. Bildar residualerna ett trattformat mönster indierar detta att antagandet som görs i linjär regression om onstant varians inte är uppfyllt. Om modellen är felatigt specificerad eller om interceptet felatigt uteslutits från modellen bildar residualerna ett linjärt band. [7,25] 5.7 Databearbetning KSP-datamaterialet är lagrat i en SQL-databas. Alla bearbetningar av data som rävts för att ta fram den grundfil som har använts i denna studie har gjorts i vertyget SAS 9.. Processdata och förtecningarna över de traditionella gransningsontrollerna har tagits fram med hjälp av Query Analyzer. Produtionssystemet som undersöningen KSP nyttjar är programmerat i Visual Basic.NET. Detta produtionssystem har använts till att ontrollera viss processdata samt till att ta fram figurerna som visar blanetten KSP_Lång, vila återfinns i appendix. Figur och Figur 2 har tagits fram i undersöningens gamla produtionssystem, vilet är programmerat i Visual Basic 6.0. Resultat har genererats i SAS 9. och diagram har sapats med hjälp av SAS/Insight. För redigering av diagrammen har därefter programmet Paint använts. För sapande av figurer i uppsatsen har programmet Microsoft PowerPoint 2007 nyttjats. Microsoft Excel 2007 har använts i samband med framställandet av processdata och Microsoft Word 2007 till att sammanställa uppsatsen samt för att ta fram lämpliga tabeller för presentation av resultatet. 38
6 Resultat Detta apitel inleds med en besrivning av datamaterialet, därefter följer de för studien atuella och relevanta resultaten. Kapitlet avslutas med en analys av de presenterade resultaten. 6. Besrivning av data Inom ramarna för denna studie har bland annat variablerna Kostnad och RPB_20 studerats. Variabeln Kostnad definieras som antal utredningsfall. För att åsådliggöra dessa variablers strutur illustreras variablernas respetive fördelning i Diagram 2. Diagram. Histogram över variabeln Kostnad för olia ombinationer av parameterinställningar. Variabeln definieras som antal utredningsfall och anges i tusental. I Diagram visas fördelningen av värden för variabeln Kostnad, angivet i tusental, för olia ombinationer av parameterinställningar. Diagrammet visar att frevensfördelningen av variabeln Kostnad är ojämn, som nämnts i apitel 4 ommer sig detta av att variabeln styrs av flera parametrar och ges indiret av dessa. 39
Diagram 2. Histogram över variabeln RPB_20 för olia ombinationer av parameterinställningar. I Diagram 2 redovisas fördelningen av variabeln RPB_20 för olia ombinationer av parameterinställningar. De många låga värdena på RPB_20 motsvaras av de många höga värdena på Kostnad i Diagram. I datamaterialet för resultatframställning antar variabeln RPB_20 värden mellan 36 56. Värdet på RPB_20 hänger samman med variabeln p som utgörs av RPB_20 dividerat med det totala antalet tabellceller. Antalet tabellceller uppgår till 35 stycen. Om RPB_20 exempelvis antar värdet 58 innebär det att cira 8 procent av tabellcellerna har en RPB överstigande 20 procent av det sattade medelfelet. För att undersöa betydelsen av parametern LAMBDA delades datamaterialet för resultatframställning upp i tre delar efter värdena på parametern och därefter sapades diagram utifrån respetive värde. Detta motiveras av att LAMBDA har en central roll för beräning av poängfuntionerna samt att det endast finns tre tolningsbara värden på LAMBDA; maximum, summa och det eulidisa avståndet. I Diagram 3 redovisas tre plottar, en för respetive värde på LAMBDA; LAMBDA = (retanglar), LAMBDA = 2 (ryss) och LAMBDA = 20 (trianglar). I detta diagram antar KAPPA och TAU alla, för den här studien, möjliga värden. 40
Diagram 3. Variabeln p plottad mot variabeln Kostnad för tre olia värden på parametern LAMBDA; LAMBDA = (retanglar), LAMBDA = 2 (ryss) och LAMBDA = 20 (trianglar). Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet. Parametrarna KAPPA och TAU antar alla, för den här studien, möjliga värden. Diagrammet visar att andelen tabellceller med ett RPB-värde högre än 20 procent av det sattade medelfelet, p, är högre när variabeln Kostnad är låg och avtar när variabeln Kostnad öar. De tre urvorna i diagrammet sammanfaller i det närmaste, vilet antyder att värdet på LAMBDA inte inverar väsentligt på p och då inte heller på RPB_20. Att KAPPA och TAU an anta så många olia värden ger upphov till ett stort antal observationer, vilet i sin tur leder till att specifia värden är svåra att ursilja i diagrammet. I Diagram 4 redovisas plottar av variabeln p mot variabeln Kostnad för tre olia värden på LAMBDA då KAPPA = 2 och TAU =. Diagram 4. Variabeln p plottad mot variabeln Kostnad för tre olia värden på parametern LAMBDA; LAMBDA = (retanglar), LAMBDA = 2 (ryss) och LAMBDA = 20 (trianglar). Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet. Parametern KAPPA = 2 och TAU =. 4
Precis som Diagram 3 visar detta diagram att p antar höga värden när variabeln Kostnad antar låga värden samt att p minsar med öad Kostnad. I detta diagram är det lättare att ursilja specifia värden på LAMBDA och att parametern inte ser ut att ha någon diret inveran på RPB_20. Det går inte att ursilja av Diagram 3 4 att plottarna av variabeln p mot variabeln Kostnad ligger på olia nivåer för olia värden på parametern LAMBDA. Motsvarande diagram för andra värden på KAPPA och TAU ser livärdiga ut. 6.2 Studieresultat Som besrevs i avsnitt 6. sapades tre datamaterial utifrån värdena på parametern LAMBDA, därefter sattades separata modeller för respetive värde. Ansatsen var att analysera sambandet mellan RPB_20 och TAU, KAPPA och Kostnad separat för olia värden på LAMBDA och undersöa om de olia sambanden går att sammanföra till en gemensam modell. I detta avsnitt presenteras endast resultat där LAMBDA = 20, alla analyser utfördes doc för samtliga värden på LAMBDA. Här presenteras de diagram och tabeller som har legat till grund för arbetet med att finna en modell som besriver datamaterialet väl. För att få en indiation på om den slutliga modellen bör innehålla högre ordningstermer sattades först en modell med få parametrar. Denna modell, fortsättningsvis allad den enla modellen, innehåller endast första ordningens termer samt interationstermerna för dessa. Den modell som sattades är: ln p p 0 KAPPA 2 TAU 3 Kostnad 4 KAPPA TAU 5 KAPPA Kostnad 6 TAU Kostnad 7 KAPPA TAU Kostnad Sattningen av modellen återges i Tabell 5. I syfte att utvärdera anpassningen av den enla modellen plottades sattade andelar pˆ mot fatisa andelar p, resultatet av detta ges i Diagram 5. 42
Diagram 5. Variabeln pˆ plottad mot variabeln p för den enla modellen. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. Om modellen lycas med att fånga upp struturen i datamaterialet bör ett linjärt samband mellan de sattade andelarna, pˆ, och de fatisa andelarna, p, erhållas. I Diagram 5 åsådliggörs doc att den enla modellen ständigt översattar p. För att undersöa om den enla modellen sa utveclas med högre ordningstermer plottades g- residualerna mot variabeln Kostnad, detta visas i Diagram 6. Diagram 6. G-residualerna plottade mot variabeln Kostnad för den enla modellen. G-residualerna baseras på sillnaden mellan gˆ log pˆ pˆ och g log p p. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. Diagrammet visar ett positivt samband mellan g-residualerna och låga värden på variabeln Kostnad. Kurvan når sitt maximum vid Kostnad 0,4 och avtar därefter för högre värden på variabeln. Utifrån Diagram 5 och Diagram 6 är det motiverat att inludera termer av högre ordning i modellen. 43
Termer av ordning ett till fyra av variabeln Kostnad inluderades i modellen, för parametrarna KAPPA och TAU samt interationstermer inluderades termer upp till tredje ordningen. Denna modell ommer vidare benämnas den stora modellen. Sattningen av den stora modellen återges i Tabell 5. För att erhålla den slutliga modellen reducerades den stora modellen i två steg. KAPPA 2 TAU, KAPPA 2 och KAPPA visade sig vara av mindre betydelse för att förlara responsvariabeln vid jämförelse av regressionsoefficienter med tillhörande medelfel (se Tabell 5). I första steget exluderades KAPPA 2 TAU, därefter genomfördes en ny sattning av modellen och KAPPA 2 eliminerades. För att undersöa om den reducerade modellen ger en bra anpassning plottades variabeln pˆ mot variabeln p, detta visas i Diagram 7. Diagram 7. Variabeln pˆ plottad mot variabeln p för den slutliga modellen. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. I diagrammet uppvisas ett linjärt samband mellan pˆ och p, vilet indierar att den sattade slutliga modellen ger en bra anpassning till datamaterialet för resultatframställning. För att vidare undersöa residualerna för den slutliga modellen sapades Diagram 8 i vilet p-residualerna är plottade mot variabeln Kostnad. 44
Diagram 8. P-residualerna plottade mot variabeln Kostnad för den slutliga modellen. En p-residual baseras på sillnaden mellan andelen tabellceller, p, som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och motsvarande sattade andel, pˆ. För högre värden på variabeln Kostnad syns ett visst mönster, men detta behöver inte betyda att modellen är otillräclig. Diagram 9 återger g-residualerna plottade mot variabeln Kostnad respetive parametrarna KAPPA och TAU. Diagram 9. G-residualerna plottade mot variabeln Kostnad för den slutliga modellen. En g-residual baseras på sillnaden mellan gˆ log pˆ pˆ och g log p p. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. 45
Diagram 0. G-residualerna plottade mot parametern KAPPA för den slutliga modellen. En g-residual baseras på sillnaden mellan gˆ log pˆ pˆ och g log p p. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. Diagram. G-residualerna plottade mot parametern TAU för den slutliga modellen. En g-residual baseras på sillnaden mellan gˆ log pˆ pˆ och g log p p. Betecningen p står för andelen tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet och betecningen pˆ står för motsvarande sattade andel. Diagrammen visar inte på några stora systematisa sillnader i fördelningen av g- residualerna över värden på Kostnad, KAPPA och TAU. Plotten av g-residualer mot Kostnad i Diagram 9 tyder på att termer av högre ordning an bidra till en bättre anpassning. För att inte omplicera modellen ytterligare behålls den reducerade modellen som den slutliga modellen. Sattningen av den slutliga modellen återges i Tabell 5. 46
Tabell 5. Sattade regressionsoefficienter med tillhörande medelfel för samtliga förlaringsvariabler i den enla modellen, den stora modellen samt i den slutgiltiga modellen då LAMBDA = 20. Förlaringsvariabel Enel modell Stor modell KAPPA 0,002 (0,009) -0,007 (0,03) Slutgiltig modell -0,027 (0,002) TAU -0,00 (0,003) Kostnad -,695 (0,026) KAPPA TAU 0-2 0,023 (0,28) KAPPA Kostnad -0,024 (0,02) TAU Kostnad -0,00 (0,004) -0,0 (0,00) -,4 (0,02) 0,52 (0,045) 0,033 (0,007) 0,02 (0,00) -0,0 (0,00) -,4 (0,02) 0,26 (0,09) 0,034 (0,007) 0,02 (0,00) KAPPA 2-0,0 (0,006) TAU 2 0-3 0,520 (0,050) Kostnad 2 23,86 (0,076) KAPPA 2 Kostnad -0,0 (0,00) TAU 2 Kostnad 0-2 -0,024 (0,002) 0,520 (0,050) 23,86 (0,076) -0,0 (0,00) -0,024 (0,002) KAPPA 2 TAU 0-2 -0,006 (0,00) KAPPA TAU Kostnad 0-2 0,03 (0,83) -0,0 (0,04) -0,0 (0,04) Kostnad 3-24,05 (0,5) KAPPA Kostnad 2 0,036 (0,004) KAPPA 3 0-3 0,268 (0,05) TAU 3 0-3 0,00 (0,002) KAPPA TAU 2 0-2 -0,003 (0,00) TAU Kostnad 2-0,002 (0,00) Kostnad 4 9,02 (0,056) -24,05 (0,5) 0,036 (0,004) 0,086 (0,05) -0,00 (0,002) -0,003 (0,00) -0,002 (0,00) 9,09 (0,056) Intercept -0,426 (0,08) 0,24 (0,008) 0,225 (0,003) 47
I Tabell 6 redovisas måttet pseudo-r 2 och deviansen för de tre olia modellerna. Dessutom redovisas orrelationen mellan p och de med respetive modell sattade andelarna, pˆ. Tabell 6. Måtten pseudo-r 2 och devians för den enla modellen, den stora modellen samt för den slutliga modellen. Därutöver redovisas orrelationen mellan p och pˆ, där pˆ är sattad med respetive modell. Enel modell Stor modell Slutgiltig modell Pseudo-R 2 0,07497 0,08602 0,08602 Devians 3 824, 96,69 96,76 Korrelation mellan p och pˆ 0.9290 0.9996 0.9996 Deviansen har använts för att beräna lielihoodvoten. Resultatet av Lielihoodvottestet sammantaget med att orrelationen mellan p och pˆ är högre för de båda större modellerna indierar att dessa är bättre än den enla modellen. Det framgår ocså av tabellen att pseudo-r 2 är högre för både den stora modellen och den slutliga modellen än för den enla modellen, vilet beräftar att de två större modellerna ger en bättre anpassning än den enla modellen. Lielihoodvottestet baserat på den stora modellen och den slutliga modellen ger ingen antydan om att den stora modellen är bättre än den slutliga. För att undersöa den inveran parametrarna KAPPA och TAU har på RPB_20 onstruerades Diagram 2. I diagrammet plottas pˆ mot Kostnad för tre olia värden på KAPPA; KAPPA = (retanglar), KAPPA = 2 (ryss) och KAPPA = 3 (trianglar). I diagrammet är TAU låst till värdet. Diagram 2. Redovisning av tre olia värden på parametern KAPPA. KAPPA = ges av retanglar, KAPPA = 2 av ryss och KAPPA = 3 av trianglar. Parametern TAU =. På y-axeln avläses variabeln pˆ och på x-axeln variabeln Kostnad. 48
I diagrammet an utläsas att pˆ är hög för låga värden på Kostnad och minsar med öad ostnad, detta samband har redan tidigare onstaterats. Det visas även att de tre urvorna för olia värden på KAPPA sammanfaller, vilet indierar att parametervärdets inveran på p är liten. Diagram 3 redovisar motsvarande plottar för tre olia värden på parametern TAU; TAU = 0,00 (retanglar), TAU = (ryss) och TAU = 5 (trianglar). I detta diagram är KAPPA låst till värdet 2. Diagram 3. Redovisning av tre olia värden på parametern TAU. TAU = 0,00 ges av retanglar, TAU = av ryss och TAU = 5 av trianglar. Parametern KAPPA = 2. På y-axeln avläses variabeln pˆ och på x-axeln variabeln Kostnad. I diagrammet an utläsas att urvorna för de olia värdena på TAU sammanfaller, detta ger en antydan om att även värdet på TAU har en liten inveran på p. Samma mönster som uppvisas i Diagram 2 och Diagram 3 ges även av övriga värden på parametrarna KAPPA respetive TAU. För att undersöa betydelsen av parametrarna KAPPA respetive TAU har en modell innehållande endast variabeln Kostnad av olia ordningstermer onstruerats, denna med sattade regressionsoefficienter och tillhörande medelfel presenteras i Tabell 7. Den nämnda modellen ommer vidare att benämnas Kostnadsmodellen. 49
Tabell 7. Sattade regressionsoefficienter med tillhörande medelfel för samtliga förlaringsvariabler i en modell som enbart innehåller variabeln Kostnad av olia ordningstermer. I modellen är LAMBDA = 20. Förlaringsvariabel Regressionsoefficient (Medelfel) Kostnad -0,98 (0,09) Kostnad 2 23,35 (0,083) Kostnad 3-23, (0,23) Kostnad 4 8,535 (0,059) Intercept 0,57 (0,00) Diagram 4 visar pˆ för Kostnadsmodellen, modellen, p ˆ _ S. p ˆ _ K, plottad mot pˆ för den slutliga Diagram 4. Variabeln p ˆ _ K plottad mot variabeln p ˆ _ S då LAMBDA = 20. Betecningen p ˆ _ K står för andelen sattade tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet i en modell som endast innehåller variabeln Kostnad av första till fjärde ordningen, p ˆ _ S utgörs av motsvarande sattade andel för den slutliga modellen. Ett tydligt linjärt samband mellan p ˆ _ K och p ˆ _ S åsådliggörs i diagrammet, vilet indierar att Kostnadsmodellen ger en livärdig anpassning till datamaterialet för resultatframställning som den slutliga modellen. Notera doc att linjen är något bredare vid höga värden på de sattade andelarna. 50
För att undersöa hur Kostnadsmodellen står sig mot den slutliga modellen när variabeln Kostnad tas i beatande onstruerades variabeln Diff som betecnar differensen mellan p ˆ _ K och p ˆ _ S. I Diagram 5 är variabeln Diff, vilen redovisas i procent, plottad mot variabeln Kostnad. Diagram 5. Variabeln Diff plottad mot variabeln Kostnad då LAMBDA = 20. Diff utgörs av differensen mellan p ˆ _ K och p ˆ _ S och redovisas i procent. Betecningen p ˆ _ K står för andelen sattade tabellceller som uppvisar ett RPB-värde större än 20 procent av det sattade medelfelet i en modell som endast innehåller variabeln Kostnad av första till fjärde ordningen, p ˆ _ S utgörs av motsvarande sattade andel för den slutliga modellen. Vid låga värden på Kostnad uppvisas en större variation i differensen mellan p ˆ _ K och p ˆ _ S än vid högre värden. Det är vitigt att ha i åtane när diagrammet avläses att variabeln Diff redovisas i procent. Variationen är större för låga värden på Kostnad, men den är således ändå liten. Eftersom det totala antalet tabellceller uppgår till 35 stycen motsvarar en procent endast cira tre celler. Kostnadsmodellen uppvisar ett mindre livärdigt resultat med den slutliga modellen för låga värden på Kostnad, men sillnaderna i pˆ blir doc mindre när ostnaden öar. För övriga värden på LAMBDA är samtliga diagram livärdiga med diagrammen för LAMBDA = 20. Sattningarna på regressionsoefficienterna siljer sig doc något åt, resultatet redovisas i Tabell 8. 5
Tabell 8. Sattade regressionsoefficienter med tillhörande medelfel för samtliga förlaringsvariabler i den slutliga modellen då LAMBDA =, LAMBDA = 2 samt då LAMBDA = 20. Förlaringsvariabel LAMBDA = LAMBDA = 2 LAMBDA = 20 KAPPA -0,020 (0,003) TAU -0,009 (0,00) Kostnad -9,79 (0,032) KAPPA TAU 0-2 0,067 (0,05) KAPPA Kostnad 0,020 (0,00) TAU Kostnad 0,00 (0,00) -0,03 (0,004) -0,009 (0,00) -9,692 (0,024) 0,3 (0,022) 0,025 (0,008) 0,00 (0,00) -0,027 (0,002) -0,0 (0,00) -,4 (0,02) 0,26 (0,09) 0,034 (0,007) 0,02 (0,00) KAPPA 2 0,004 (0,00) TAU 2 0-3 0,468 (0,064) Kostnad 2 9,24 (0,4) KAPPA 2 Kostnad -0,005 (0,002) TAU 2 Kostnad 0-2 -0,022 (0,002) KAPPA 2 TAU 0,463 (0,056) 8,75 (0,087) -0,007 (0,00) -0,020 (0,002) 0,520 (0,050) 23,86 (0,076) -0,0 (0,00) -0,024 (0,002) KAPPA TAU Kostnad 0-2 -0,07 (0,020) Kostnad 3-8,02 (0,68) KAPPA Kostnad 2 0,06 (0,006) KAPPA 3 0-2 0,056 (0,022) TAU 3 0-3 0,00 (0,002) -0,080 (0,06) -7,4 (0,3) 0,022 (0,005) 0,009 (0,002) -0,0 (0,04) -24,05 (0,5) 0,036 (0,004) 0,086 (0,05) -0,00 (0,002) KAPPA TAU 2 0-2 -0,002 (0,00) -0,003 (0,00) TAU Kostnad 2-0,002 (0,00) Kostnad 4 6,370 (0,08) Intercept 0,34 (0,005) -0,002 (0,00) 6,60 (0,063) 0,35 (0,004) -0,002 (0,00) 9,09 (0,056) 0,225 (0,003) 52
Vissa regressionsoefficienter som redovisas i Tabell 8 är väldigt lia mellan de olia modellerna, sillnaden mellan andra oefficienter är större. När oefficienterna gransas närmare an det ursiljas att variabeln Kostnad ingår i flera av de termer där oefficienterna siljer sig åt mellan modellerna, detta gäller både termer som enbart innehåller Kostnad samt interationstermer där variabeln ingår. Sillnaderna i de sattade regressionsoefficienterna mellan modellerna leder till att dessa inte an sammanföras till en, detta indierar att parametrarna KAPPA, TAU och variabeln Kostnad påverar LAMBDA i olia utsträcning. I LABBET sa de mest lämpliga ombinationerna av parameterinställningar söas och den slutliga modellen sulle unna vara till hjälp i detta arbete. Om RPB_20 minimeras erhålls den mest lämpliga ombinationen med avseende på tillförd bias, men då en undersöning styrs av en budget måste hänsyn ocså tas till ostnaden. Ett förslag på tillvägagångssätt när de mest lämpliga ombinationerna sa hittas är att onstanthålla ostnaden och låta variera KAPPA, TAU och eventuellt LAMBDA. Denna procedur ommer inte att utföras i sin helhet i denna studie, men för att illustrera tillvägagångssättet har RPB_20 beränats för några olia ombinationer av KAPPA och TAU för ett givet värde på variabeln Kostnad, detta visas i Tabell 9. Tabellen baseras på modellen då LAMBDA = 20 och således har även LAMBDA hållits onstant. Tabell 9. De med den slutliga modellen sattade andelarna, pˆ, och motsvarande värden på variabeln RPB_20 för olia värden på variabeln Kostnad. LAMBDA = 20 och värdena på KAPPA och TAU varieras. Kostnad = 0,5 Kostnad =,0 pˆ RPB_20 pˆ RPB_20 KAPPA =, TAU = 0,00 0,38 43,57 0,4 35,77 KAPPA = 2, TAU = 0,36 42,99 0,5 36,24 KAPPA = 3, TAU = 5 0,34 42,33 0,5 36,38 KAPPA =, TAU = 5 0,37 43,0 0,3 35,75 KAPPA = 2, TAU = 0,00 0,37 43,2 0,5 36,26 I tabellen an utläsas att högre värden på variabeln Kostnad ger lägre värden på pˆ respetive RPB_20. Det framgår även att Kostnad påverar dessa variabler betydligt mer än vad värdena på parametrarna KAPPA och TAU gör. Resultatet i tabellen tyder på att då Kostnad = 0,5 fungerar KAPPA = 3 och TAU = 5 bäst och då Kostnad =,0 är KAPPA = och TAU = 5 bäst. 53
6.3 Analys och disussion av studieresultat I Diagram 2 visas att frevensen är högre för låga värden på variabeln RPB_20 än för höga och att det alltså är få tabellceller som har mycet höga RPB-värden. Inför en implementering av SELEKT beränas RPB-värden i LABBET, vila studeras i syfte att hitta rätt nivå på det globala tröselvärdet, TrGlobal, med hänsyn tagen till en given ostnad. I LABBET används ett historist datamaterial innehållande dels inomna ogransade datavärden, men ocså motsvarande gransade datavärden. För att beräna RPB vid ett specifit tröselvärde ersätts de ogransade datavärdena med gransade för de objet som ligger ovanför tröselvärdet. De objet som ligger under tröselvärdet behåller sina ogransade datavärden. Syftet med seletiv gransning är att minsa gransningsomfattningen. Med seletiv gransning är det en relativt sett liten mängd objet som utreds och dessa objet bidrar alltså inte till RPB. Det finns följatligen många objet under det globala tröselvärdet och många av dessa bidrar till RPB. De enda objet som ligger under tröselvärdet, men inte bidrar till RPB är de objet vars inomna ogransade datavärden helt överensstämmer med dess gransade datavärden. De få mycet höga RPB-värdena i diagrammet uppstår till följd av att en hög global trösel har valts. Ett högt värde på TrGlobal ger i sin tur en låg ostnad. I Diagram 3 och Diagram 4, vila återfinns i avsnitt 6., sammanfaller i det närmaste de tre plottarna av variabeln p mot variabeln Kostnad för de olia värdena på parametern LAMBDA. Att samtliga tre värden på LAMBDA ger livärdiga resultat framom även då den datafil som har använts till resultatframställning delades upp i olia delar utifrån värdena på LAMBDA och varje del nyttjades till att ta fram separata diagram, vila påvisade detta. Med hänvisning till detta har endast diagram för ett värde på LAMBDA presenterats i avsnitt 6.2. Det är intressant med anledning av Hedlins artiel (2008) att det i denna studie har visat sig att valet av LAMBDA inte spelar någon större roll. Med hänvisning till de silda resultaten sulle ytterligare studier av parametern vara intressanta. Kostnaden är en avgörande fator för valet av parametersinställningsombination och därför har det varit intressant att ta fram diagram där variabeln Kostnad an utläsas. Parametrarna KAPPA och TAU tilläts endast anta ett fåtal värden i denna studie och detta sammantaget med att de inte är av samma dignitet i detta sammanhang som Kostnad gör att diagram med dessa inte är lia informativa och lättolade. Diagram 5 tydliggör att den enla modellen inte räcer till för att besriva datamaterialet för resultatframställning. En tydlig urva uppvisas i Diagram 6 och detta ger en indiation på att termer av högre ordning bör ingå i modellen. Vid sattningar av olia modeller där högre ordningstermer inluderades visade sig även andragradstermer vara otillräcligt. Slutligen inluderades termer upp till ordning fyra av variabeln Kostnad och för övriga parametrar och interationstermer inluderades termer upp till ordning tre. Beslutet att inludera en fjärdegradsterm av variabeln Kostnad visade sig vara ett ritigt beslut, detta styrs av att en plott av residualerna mot den atuella variabeln uppvisar ett mer slumpmässigt mönster med termen än utan den. I diagrammen som visar p- och g-residualerna för den slutliga modellen an doc ett visst mönster ursiljas. Detta innebär att om ännu högre ordningstermer inluderades är det möjligt att en modell som bättre besriver datamaterialet sulle erhållas, men här har valet gjorts att begränsa modellen för att inte tillföra ytterligare omplexitet. Beslutet stöds av det linjära sambandet som visas i Diagram 7. 54
För att undersöa om valet av värde på KAPPA och TAU är av betydelse har Diagram 2 och Diagram 3 tagits fram. Diagrammen tyder på att med denna studies förutsättningar, det vill säga att med KSP-datamaterialet som grund och då KAPPA och TAU endast an anta de värden som anges i Tabell, verar inte heller värdet på KAPPA och TAU vara av särsild betydelse. Om dessa parametrar sulle tillåtas anta andra värden, sulle doc resultatet unna bli annorlunda. En oprövad hypotes är att andra resultat sulle erhållas om parametern KAPPA tilläts anta värdet noll. Då KAPPA = 0 misstäns i stort sett alla inomna datavärden i någon grad, denna ansats ger upphov till en mycet speciell situation och används inte i pratien på SCB. Eftersom LAMBDA inte visade sig ha någon stor betydelse i modellen och Diagram 2 och Diagram 3 antyder att värdena på KAPPA och TAU ocså är av mindre betydelse uppstod en misstane ring huruvida dessa parametrar är vitiga att inludera i modellen eller inte. Då det är änt att variabeln Kostnad är en avgörande fator onstruerades en modell endast innehållande denna variabel av ordning ett till fyra, se Tabell 7. Diagram 4 visar ett tydligt linjärt samband mellan pˆ för Kostnadsmodellen och pˆ för den slutliga modellen. Diagrammet indierar således att Kostnadsmodellen, precis som den slutliga modellen, fångar upp huvuddragen i datamaterialet. För höga värden på pˆ, det vill säga för låga värden på Kostnad, är variationen doc större. I Diagram 4 visas detta genom att linjen är bredare för höga värden på p ˆ _ K och p ˆ _ S. Denna variation framommer mycet tydligt i Diagram 5, den är ändoc liten med hänvisning till att värdena på y-axeln är angivna i procentenheter. I pratien är inte de ritigt låga värdena på Kostnad tillämpliga, då dessa medför att RPB blir alltför hög. Kostnadsmodellen är inte perfet, men utifrån dessa resultat och datamaterialet som ligger till grund för denna studie bör ändå en modell utan KAPPA, TAU och LAMBDA fungera för KSP. Det visade sig vid framställandet av Tabell 9 att den slutliga modellen endast fungerar för interpolation. Vid närmare eftertane hänger detta antagligen samman med att funtionen för Kostnad besrivs bättre av en annan funtionsform än av den valda länfuntionen. Resultaten visar på att större hänsyn borde ha tagits i modellbyggnadsprocessen till hur funtionen för variabeln Kostnad ser ut. Utifrån studieresultaten är det nämligen tydligt att sambandet mellan p och Kostnad borde utgöra ärnan i modellen. Funtionen för Kostnad borde onstrueras så att RPB_20 går mot noll då ostnaden öar, doc rävs att p regleras så att den ligger mellan noll och ett. I avsnitt 5..4 nämns att över- och underspridning alltid bör antas om inga stara argument föreligger för att avstå från detta. Av den anledningen har detta ontrollerats för vid framställning av alla resultat. I datamaterialet för resultatframställning visade det sig att den sattade spridningsparametern var väsentligt mindre än ett, vilet innebär att underspridning föreommer. En trolig orsa till varför underspridning föreommer är att resultaten från de olia ombinationerna av parameterinställningar inte är oberoende av varandra. Varför underspridning föreommer i datamaterialet för resultatframställning largörs här genom följande resonemang: RPB _ 20 ~ Bin 35, i p i Då RPB_20 i är binomialfördelad betecnas väntevärdet och variansen: E RPB _ 20 i 35 p i i V RPB _ 20 35 p i i p i 55
Sattningen av p i betecnas: p ˆ ˆ 35 i i Datafilen som har använts till resultatframställning då LAMBDA = 20 innehåller 9 790 rader. Varje rad motsvarar en uni ombination av parameterinställningar med tillhörande värde på RPB_20. Den, med den slutliga modellen, sattade genomsnittliga variansen för datamaterialet erhålls enligt: V ˆ MOD 9790 9790 i 35 pˆ i pˆ i Den empirisa genomsnittliga variansen för datamaterialet betecnas: V ˆ 9790 EMP y i 9790 i ˆ i 2 Om varen över- eller underspridning föreommer är V ˆ ˆ EMP V ˆ spridningsparametern är ungefär lia med ett. I detta datamaterial är V ˆ EMP 0,028 V ˆ MOD. Valet att använda logistis regression motiveras främst av argumentet att studien handlar om urvanpassning samt att responsvariabeln är binär. Det var redan från början änt att alla antaganden som bör vara uppfyllda vid tillämpning av logistis regression och MLE inte var det, beroende på att datamaterialet är fixt. Detta utgör doc inte ett problem eftersom studiens syfte inte var att satta en modell att dra generella slutsatser från. Om en modell är väl anpassad till ett datamaterial sa den reproducera de proportioner som finns i datamaterialet och detta talar för den logistisa regressionsansatsen i den här studien eftersom de sattade andelarna, pˆ, ger en mycet bra besrivning av de fatisa andelarna, p. MOD, där 56
7 Avslutande disussion Både ämnet i sig och datamaterialet är mycet omfattande och omplext och under arbetets gång har nya omständigheter, frågor och infallsvinlar dyt upp. Flera av dessa sulle ha varit intressanta att gå vidare med, men detta har inte rymts inom tidsramen för denna studie. Här disuteras vila ytterligare studier det finns behov av att utföra framöver. I den här studien visade sig valet av LAMBDA inte ha någon nämnvärd betydelse, detta siljer sig från Hedlins (2008) resultat och väcer frågan hur mycet det ursprungliga datamaterialet från KSP-undersöningen har påverat resultatet i denna studie? Gäller de resultat som framommit i denna studie endast för det datamaterial som har legat till grund för studien? Samma fråga gäller avseende parametrarna KAPPA och TAU, vila heller inte verar vara av någon större betydelse för att förlara variationen i pˆ. När seletiv gransning med poängfuntioner sa implementeras i KSP är det då nödvändigt att laborera med KAPPA, TAU och LAMBDA eller räcer det att studera variablerna RPB_20 och Kostnad? Tidsramen för denna studie gjorde det nödvändigt att förenla de i pratien rådande förhållandena och således är datamaterialet från undersöningen KSP till viss del tillrättalagt. Det går inte att dra några generella slutsatser från de resultat som tagits fram i denna studie, eftersom dessa baseras på en tillämpning. Av denna anledning vore det intressant att applicera resultaten både på datamaterial från andra företagsundersöningar, men ocså på ett omplett datamaterial från KSP, för att se om dessa resultat antyder detsamma. Om resultaten an upprepas för andra datamaterial stöder det resultaten i denna studie. För att återgå till att disutera betydelsen av parametern LAMBDA finns det åtminstone två intressanta frågeställningar att gå vidare med: KSP består totalt av 25 stycen mätvariabler och för denna undersöning verar parametern LAMBDA vara av underordnad betydelse, men gäller detta resultat även för undersöningar innehållande betydligt fler mätvariabler? Det an argumenteras att LAMBDA = 20 är mer onservativ än exempelvis summafuntionen, det vill säga att betydande avvielser inte löper samma ris att slina igenom då LAMBDA = 20. Finns det situationer där olia värden på LAMBDA i de olia aggregeringsstegen till primärobjetsnivå sulle vara att föredra? I undersöningar där seundärobjet föreommer sulle denna frågeställning unna bli mer atuell. Om olia värden sa användas vore det intressant att se om det går att finna meningsfulla defaultvärden för dessa, så att omfattningen av arbetet i LABBET an reduceras. Då resultaten i denna studie antyder att vila värden som sätts på parametrarna KAPPA, TAU och LAMBDA inte har någon större påveran i den slutliga modellen har det inte prioriterats att försöa finna de optimala parameterinställningarna för KSP. Om de nämnda parametrarna sulle tillåtas anta andra värden än vad som varit atuellt här och vid analys av datamaterial från andra undersöningar sulle detta antagligen vara en mycet vitig fråga att besvara. I denna studie ges istället en illustration av hur de optimala parameterinställningarna sulle unna söas fram i en fatis implementeringssituation (se Tabell 9). Seletiv gransning med poängfuntioner har redan införts i några undersöningar på SCB och ommer att införas i ännu fler framöver, det vore då intressant att utreda om de inställningar på KAPPA, TAU och LAMBDA som anses vara de optimala för en undersöning ocså är det för andra 57
undersöningar. Metoden är ännu inte implementerad i KSP, men sa så bli under år 200. Följande frågeställningar har dyt upp under studiens gång och föreslås för vidare utredning, dessa sulle med fördel unna utredas dels i samband med implementeringen och dels i en utvärdering av implementeringsomgången i KSP: När det efter arbetet i LABBET varstår säg fem eller tio lämpliga ombinationer av parameterinställningar att välja bland förelås att undersöa om samma arbetsställen räver manuell utredning enligt SELEKT med de olia ombinationerna av parameterinställningar. Vila misstänta fel i KSP behöver utredas manuellt enligt SELEKT? Är det någon/några typer av fel som med SELEKT inte behöver utredas i lia stor utsträcning som enligt den traditionella gransningen? Som tidigare nämnts har antalet värden som KAPPA, TAU och LAMBDA tillåtits anta reglerats. Initiala försö indierade doc att andra värden, än de för studien utvalda, an ge resultat som siljer sig från de som påvisas här. Det finns exempelvis en misstane om att andra resultat an uppnås om KAPPA tillåts anta värdet noll och just detta specifia exempel sulle unna utredas närmare. Att så inte gjordes inom ramen för denna studie beror dels på tidsbegränsningen och dels på omplexiteten som detta sulle ha medfört. Det går dessutom inte att utvärdera KAPPA = 0 i dagsläget eftersom ingen undersöning på SCB misstäner alla inomna datavärden. Om det finns intresse att undersöa parametern KAPPA närmare sulle detta istället unna utföras på ett simulerat datamaterial. I avsnitt 4.2.3 besrivs hur prediterade värden har sapats i denna studie. Prediterade värden an sapas på flera olia sätt och i en framtida implementeringssituation i undersöningen KSP borde dessa antagligen sapas på ett annat sätt än vad som har gjorts här. Detta an motiveras med följande resonemang. Undersöningen har löpt under många år och majoriteten av de utvalda arbetsställena ingår i urvalet under lång tid. Detta gör att det finns mycet data tillgängligt, i många fall finns det till och med en flerårig tidsserie av data att tillgå och detta sulle unna utnyttjas i sapandet av prediterade värden. Det prediterade värdet sulle unna utgöras av medelvärdet av ett antal av de tidigare inomna uppgifterna avseende samma variabelvärde och objet. Dessutom sulle avvielsen mellan det inomna ogransade datavärdet och det prediterade värdet unna relateras till arbetsställets egna variation (baserat på tidsseriedata avseende det specifia objetet). Det prediterade värdet för ett arbetsställe som undersös varje månad borde anse utgöras av föregående månads inomna datavärde om ett sådant finns att tillgå? Prediterade värden för de arbetsställen som sanar ett tidigare inommet gransat datavärde har i denna studie sapats genom förfarandet som besrivs i punt b) i avsnitt 4.2.3. Värdet på mätvariabeln Totalt antal anställda har i detta fall jämförts med det atuella datavärdet för antalet anställda på arbetsstället i FDB. När implementering av seletiv gransning med poängfuntioner ser i KSP borde förmodligen antalet anställda på arbetsstället enligt FDB vid urvalstillfället användas istället. Detta för att i slutändan få bättre förändringstal och parametersattningar. 58
8 Slutsats I denna studie har samband mellan variabeln RPB_20 och KAPPA, TAU och LAMBDA samt variabeln Kostnad undersöts. Att Kostnad är en mycet vitig variabel var änt redan från början och studien både beräftar och förstärer detta. Den logistisa regressionsmodell som användes ger en bra anpassning till datamaterialet, doc indierar resultaten att funtionen för Kostnad borde ha haft en mer central roll i modellbyggnadsprocessen. De erhållna studieresultaten är inte allmängiltiga, men ommer ändoc att unna utgöra vitigt underlag både vid utvecling av LABBET och i framtida implementeringssituationer av SELEKT. Resultaten visar att en modell utan KAPPA, TAU och LAMBDA fungerar för datamaterialet som användes och förmodligen ocså för undersöningen Kortperiodis Sysselsättningsstatisti. Detta innebär att valet av värden på dessa parametrar har marginell betydelse och således an defaultvärden användas. 59
9 Referenser. SCB (2007). Lotta P2 Gransning Fallstudier (Niolaus). Stencil, SCB, Örebro. 2. SCB (2008). Besrivning av statistien. (092) <http://www.scb.se/pages/productdocumentations 892.aspx> 3. SCB (2009a). Kortperiodis Sysselsättningsstatisti. (092) <http://www.scb.se/pages/product 7820.aspx> 4. SCB (2009b). Företagsdatabasen. <http://www.scb.se/pages/list 259750.aspx> (092) 5. SCB (2002). Guide till gransning. CBM 2002:, SCB, Örebro. 6. SCB (2005). Rapport från undersöningen om gransningen i SCB:s statistiprodution. Stencil, SCB, Örebro. 7. Sjöström, H. (2009). PCA/IT, SCB. Muntlig älla. 8. Norberg, A., Adolfsson, C., Arvidson, G., Gidlund, P., Nordberg, L. (2009). A General Methodology for Selective Data Editing Preliminary version 003. Stencil, SCB, Örebro. 9. Adolfsson, C. (2007). Utvärdering av gransningssystem för SCB:s undersöningar Kortperiodis Sysselsättningsstatisti och Konjunturstatisti över Vaanser. C-uppsats, Örebro Universitet, Örebro. 0. Norberg, Anders. (2009). Editing at Statistics Sweden Yesterday, today and tomorrow. Proceedings of MSP2009 Modernisation of Statistics Production 2009. <http://www.scb.se/grupp/produter_tjanster/kurser/modernisationworshop/final_p apers/b_3_qa_systems_norberg_final.pdf> (0925). Stencil, SCB, Stocholm.. Farwell, K. and Raine, M. (2000). Some Current Approaches to Editing in the ABS. Proceedings of the Second International Conference on Establishment Surveys, American Statistical Association, 529-538, Washington. 2. Hedlin, D. (2008). Local and Global Score Functions in Selective Editing. Conference of European Statisticians, Wor Session on Statistical Data Editing. Vienna, United Nations statistical commission Economic Commission for Europe: 8. 3. Lawrence, D. and McDavitt, C. (994). Significance Editing in the Australian Survey of Average Weely Earnings. Journal of Official Statistics, Vol. 0. No. 4, 437-447. 4. Lawrence, D. and McKenzie, R. (2000). The General Application of Significance Editing. Journal of Official Statistics, Vol. 6, No. 3, 243-253. 5. Särndal, C. E., Swensson, B., Wretman, J. (992). Model Assisted Survey Sampling. Springer-Verlag New Yor, Inc., New Yor. 60
6. Hosmer D. W. and Lemeshow S. (2000). Applied Logistic Regression. Second edition, John Wiley and Sons, Inc., New Yor. 7. Olsson U. (2002). Generalized Linear Models - An applied approach. Studentlitteratur, Lund. 8. Stoc J. H. and Watson M. W. (2007). Introduction To Econometrics. Second edition, Pearson Education, Inc., Boston. 9. Wacerly D. D., Mendenhall III W. and Scheaffer R. L. (2008). Mathematical Statistics with Applications. Seventh edition. Thomson Broos/Cole, Belmont. 20. McCullagh, P. and Nelder, J. A. (989). Generalized Linear Models. Second edition, Chapman and Hall Ltd, Cambridge. 2. SAS Institute (999). SAS/STAT User s Guide, Version 8. SAS Institute Inc., North Carolina. 22. Czado, C. (2004). Lecture 5: Overdispersion in logistic regression. <http://www-m4.ma.tum.de/courses/glm/lec5.pdf> (0926). 23. Kuehl, R. O. (2000). Design of Experiments: Statistical Principles of Research Design and Analysis. Second edition, Duxbury Press, Pacific Grove. 24. MiC Quality. Response Surface Methods. <http://www.micquality.com/six_sigma_glossary/response_surface_designs.htm> (09228). 25. Draper, N. and Smith, H. (98). Applied Regression Analysis. Second edition, John Wiley and Sons, Inc., New Yor. 6
Appendix Här visas blanetten KSP_Lång i sin helhet, denna har legat till grund för datamaterialet i den här studien. Figur A.. KSP_Lång, den blanettvariant som ligger till grund för de data som använts i denna studie, sid /2.