Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho

Storlek: px
Starta visningen från sidan:

Download "Kandidatuppsats. Nr 2014:1. Prediktorer i imputeringsmodellen. Statistiska institutionen. Anna-Karin Oscarsson och Anni Jonsson Juho"

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2014:1 Prediktorer i imputeringsmodellen Predictors in the imputation model Anna-Karin Oscarsson och Anni Jonsson Juho Självständigt arbete 15 högskolepoäng inom Statistik III, VT2014 Handledare: Nicklas Pettersson

2

3 Sammanfattning Denna uppsats belyser betydelsen av olika typer av prediktorer och deras samband. Detta görs med utgångspunkt i verkliga data för att försöka fånga in realism, istället för att simulera såsom gjorts i tidigare studier. Uppsatsens syfte är att undersöka konsekvenserna av att utelämna vissa prediktorer i modellen för multipel imputering vid skattning av ett medelvärde. De valda prediktorerna representerar varierande korrelationer. Dels undersöker vi korrelationen till bortfallet dels korrelationen till studievariabeln. Dessutom beaktas prediktorer som ingår i analysmodellen. En bra imputeringsmodell bör inkludera prediktorer med hänsyn till samtliga aspekter ovan. Fallet som undersöks är imputering av kategoriska variabler. Imputeringsmetoden som används är monoton logistisk regression som finns tillgänglig i SAS 9.3. Som referensmetod avvänder vi analys av kompletta fall. Resultatet följer teorin. Prediktorerna påverkar bias och varians enligt teorin, men effekten är i vissa fall liten. Troligen till följd av att prediktorerna fångar upp brus i form av andra korrelationer som vi inte kunnat kontrollera. En sådan situation bör vara vanlig även i verklig kontext och slutsatsen blir därför att det är mycket viktigt att välja prediktorer på så vis att dessa representerar korrelationer med samtliga aspekter ovan. Den önskade minskningen av bias och varians kan annars utebli vid imputeringen. Nyckelord: Multipel imputering, prediktorer, imputering av kategoriska variabler. Förord Vi vill tacka två personer som betytt mycket för uppsatsens färdigställande. Först och främst vill vi tacka vår handledare Nicklas Pettersson för det fina engagemanget och en lärorik handledning. Vi vill också rikta ett stort tack till Jari Juho som arbetar med SASprogrammering på SCB, och som på sin fritid hjälpt oss när vi skrivit macron till vår kod. När det gäller arbetsfördelningen har båda författarna arbetat med SAS-koden i samma utsträckning. Anna-Karin har varit något mer involverad i analyserna med Excel medan Anni har varit något mer involverad i att skriva texten. Detta är en indikation på huvudansvarsområden och inte menat att uppfattas som en arbetsfördelning. Författarna har satt sig in i det arbete medförfattaren utfört och gett förbättringsförslag till den andres arbetsinsatser. Båda författarna står således bakom hela innehållet i uppsatsen. Det slutliga resultatet är att betrakta som ett gemensamt resultat och författarna bör bedömmas på samma grunder.

4 Innehållsförteckning 1 INTRODUKTION Inledning Syfte Metod Avgränsningar Disposition TEORETISK REFERENSRAM Bortfall Betydelsen av bortfallsmekanismen Imputering Multipel imputering MI med hjälp av SAS Valet av prediktorer Konklusion av litteraturstudien EMPIRI Introduktion Material och metoder Data Så skapade vi ett facit ur grunddata Så skapade vi bortfall Val av studievariabel Valet av prediktorer Beräkning av egenskaper hos våra estimatorer Resultat Steg 1 inkludering av en prediktor Steg 2 inkludering av två prediktorer Steg 3 inkludering av tre prediktorer Konklusion SLUTDISKUSSION Referenser Bilaga A: Rubins regler för MI A.1 Att kombinera resultat från multipelt imputerade dataset Bilaga B: Logistisk regression, LR B.1 Några ord om logistisk regression Bilaga C: Prediktorernas associationer C.1 Associationer med responsindikatorn (R) C.2 Associationer med studievariabeln (Y) Bilaga D: SAS-KOD D.1 Kod till macro, simuleringar av bortfall D.2 Kod till macro, andelar för R i tabell

5 Figurförteckning Figur 1: De olika bortfallsmekanismerna Figur 2: Multipel imputering illustrerad Figur 3: Objektsbortfall i Trafiksäkerhetsenkäten över tid Tabell 1: Prediktorernas inverkan på bias och varians givet olika korrelationer Tabell 2: Fördelningen av Y för kvinnor respektive män i facit Tabell 3: Variabler i imputeringsmodellerna Tabell 4: Förväntade effekter av valda prediktorer Tabell 5: Associationer mellan prediktorer Tabell 6: Andelar nej-svar för Y och förväntad andel bortfall Tabell 7: Resultat av simulering, andelen totalt som inte kände till nollvisionen Tabell 8: Resultat av simulering, andelen kvinnor som inte kände till nollvisionen Tabell 9: Resultat av simulering, andelen män som inte kände till nollvisionen

6 Förkortningar CCA LR MAR MCAR MI ML MNAR SI Complete Case Analysis Logistisk Regression Missing at random Missing completely at random Multipel imputering Maximum Likelihood Missing not at random Simpel imputering

7 1 INTRODUKTION 1.1 Inledning Svarsfrekvensen i urvalsundersökningar blir allt lägre (de Leeuw & de Heer 2002). Detta är problematiskt på flera sätt. För det första kräver de statistiska standardmetoderna kompletta data, för det andra blir de statistiska skattningarna mindre precisa till följd av förlorad information, och för det tredje kan resultaten bli missvisande om bortfallet inte är slumpmässigt. Bortfallsproblematiken kan hanteras förebyggande genom ansträngningar att reducera bortfallsfrekvensen samt korrigerande genom att hantera återstående bortfall (Japec et al. 2000). Även om stora ansträngningar görs i designstadiet för att underlätta en insamling av ett så komplett data som möjligt så kommer visst bortfall alltid att kvarstå (Särndal & Lundström 2005, s. 29). Imputering är en metod som möjliggör användande av standardmetoder genom att fylla i de saknade värdena (Schafer & Olsen 1998; Schafer 1999). För att hitta rimliga värden att fylla igen bortfallet med är så kallade hjälpvariabler viktiga. Dessa bör vara goda prediktorer. Hur väl en imputeringsmetod fungerar för ett dataset med bortfall är avhängigt bland annat av sambandet mellan de variabler som används för att prediktera svarsbenägenheten samt variablerna med bortfall. Ett generellt råd har varit att inkludera så många prediktorer som möjligt i modellen för imputering (Schafer 1999), men med många potentiella prediktorer har van Buuren, Boshuizen & Knook (1999) istället föreslagit en strukturerad approach där korrelationer mellan prediktorer och analysmodell, prediktorer och svarsbenägenhet, samt prediktorer och studievariabeln är vägledande i valet av några få nyckelvariabler. 1.2 Syfte Syftet med denna uppsats är att undersöka betydelsen av olika prediktorer vid multipel imputering av kategoriska variabler. Närmare bestämt ska vi belysa konsekvenserna av att låta bli att inkludera olika typer av prediktorer i imputeringsmodellen. Detta relaterar till den strukturerade approach som föreslås av van Buuren et al. (1999) där vikt läggs vid att prediktorerna ska korrelera med studievariabeln och bortfallsmekanismen, samt ingå i analysmodellen. 1.3 Metod För att uppnå uppsatsens syfte har vi genomfört en litteraturstudie samt en empirisk undersökning. Vi valde att fokusera på bortfall avseende en kategorisk utfallsvariabel då denna typ av variabler är vanliga i surveyundersökningar. För att kunna generalisera våra slutsatser gjorde vi en Monte Carlo simulering. Imputeringarna skedde enligt monoton logistisk regression som finns tillgänglig i SAS 9.3. Denna metod valdes eftersom den lämpar sig för kategoriska variabler. Strategin för att testa våra imputeringsmetoder var att först skapa ett facit med utgångspunkt i verklig surveydata, sedan modellera en bortfallsmekanism med verklig data som förebild, och därefter skapa ett bortfall i vår population genom att applicera denna bortfallsmekanism på facit. På så vis har vi 7

8 kunnat jämföra hur pass nära det sanna värdet olika strategier för val av prediktorer leder, och förhoppningsvis fångat in realism i imputeringen. Som referensmetod använder vi Complete Case Analysis (CCA) som innebär att en analys utförs på de svar man har fått in, utan några justeringar. I datahanteringen använde vi oss av SAS 9.3 samt Excel. 1.4 Avgränsningar Vi avgränsar oss till imputering av saknade värden på en kategorisk variabel. 1.5 Disposition Upplägget för resterande uppsats ser ut enligt följande: I kapitel 2 presenterar vi resultatet från litteraturstudien. Vi ger en kort teoretisk bakgrund till multipel imputering och diskuterar imputering med tonvikt på multipel imputering. I kapitel 3 redogör vi för den empiriska undersökningen och diskuterar resultatet. Kapitel 4 är det sista kapitlet som innehåller slutdiskussion, slutsatser och förslag på områden för vidare forskning. Då flera termer inom forskningen på bortfallsområdet inte har någon etablerad svensk översättning till kommer vi att använda vissa engelska uttryck i uppsatsen. 8

9 2 TEORETISK REFERENSRAM Bortfall har studerats från många olika infallsvinklar sedan 1940-talet och forskningsvolymen är mycket stor. I denna uppsats presenterar vi en kortfattad teoretisk bakgrund för MI, sedan diskuterar vi metoder för imputering med tonvikt på multipel imputering. 2.1 Bortfall Bortfall uppstår då vi misslyckas med att samla in komplett data, vilket är mycket vanligt. Olika typer av bortfall ger upphov till olika typer av bortfallsmönster. I surveysammanhang innebär unit nonresponse, objektsbortfall, att en respondent inte gått att anträffa (Schafer & Graham 2002, s.149). Item nonrespons, eller så kallat partiellt bortfall, innebär att data är ofullständigt till exempel som följd av att respondenter har hopppat över enstaka frågor i ett frågeformulär (Little & An 2004). I en survey där endast en variabel är av intresse är objektsbortfall detsamma som partiellt bortfall (Rubin 1983, s. 141) vilket är fallet vi diskuterar i uppsatsen. En möjlig konsekvens av bortfall är bias. Bias är en produkt av storleken på bortfallet och existerande skillnader mellan respondenter och icke-respondenter, med avseende på variabeln med bortfall. Det klassiska sättet att uttrycka bias för en skattning av medelvärdet är Bias(y r ) = E m s n s (Y r Y m ) (1) där Bias(y r ) representerar bortfallsfelet, m s n s är svarsfrekvensen och (Y r Y m ) är skillnaden mellan medelvärden för respondenter och icke-respondenter (Groves 1989 i Peytchev 2013). Bortfall påverkar även variansen eftersom antalet observationer inte blir lika stort som planerat. Varians och bias utgör tillsammans medelkvadratfelet MSE = bias 2 + varians. (2) En så låg MSE som möjligt eftersträvas. Vid bortfall är risken större för en hög bias än att variansen blir hög (Biemer & Lyberg 2003, s. 59). 2.2 Betydelsen av bortfallsmekanismen För att kunna hantera bortfall på ett lämpligt sätt är det viktigt att förstå den så kallade bortfallsmekanismen som Rubin definierar i sin banbrytande artikel från Bortfallsmekanismen har att göra med varför data fattas (Little & An, 2004). Rubin beskriver, enkelt uttryckt, under vilka omständigheter det är i sin ordning att ignorera orsaken till bortfall ( the weakest simple conditions on the process that causes missing data such that it is always appropriate to ignore this process when making inference, ibid. s. 582). De tre bortfallsmekanismerna är (Little & Rubin 1987): 1) MAR, missing at random 2) MCAR, missing completely at random 3) MNAR, missing not at random. 9

10 Dessa bortfallsmekanismer kan beskrivas som relationen mellan studievariabeln och variabler som förklarar bortfallet, och dikterar hur väl olika metoder för bortfallshantering kan fungera (Baraldi & Enders 2010). Enligt Rubin (1976) själv är dessa intuitiva, men typologin som utvecklats beskrivs av andra som förvirrande (Enders 2010, s. 5; Collins et al. 2001) samt beskrivs som vida citerad men mindre vida förstådd (Schafer & Graham 2002, s. 151, egen översättning). Vi gör i det följande vårt bästa för att leverera en begriplig presentation av konceptet. Den underliggande statistiska teorin bakom MI är Bayes teorem. Till skillnad från det frekventistiska synsättet betraktas parametrar som stokastiska variabler inom det bayesianska paradigmet (Enders 2010, s. 185). Rubins idé utgår ifrån att bortfall (missingness) är en variabel med sannolikhetsfördelning, och att ett komplett dataset existerar åtminstone hypotetiskt sett (ibid., s. 9). Denna kompletta datamängd skrivs Y com, och Y com = Y obs + Y mis, där Y obs representerar observerad data och Y mis representerar bortfall. Missingness beskrivs av den binära indikatorvariabeln R som antar värdet (R = 1) om Y observeras, det vill säga vid respons, och värdet (R = 0) vid bortfall (Schafer & Graham 2002). Schafer och Graham (2002) reflekterar kring att en möjlig källa till förvirring angående bortfallsmekanismen är att R kallas just bortfallsmekanism (eller svarsmekanism) vilket kan ge felaktiga associationer till kausalitet när det som beskrivs av R är sannolikheten för bortfall och inte ett orsakssammanhang. I nedan beskrivning av bortfallsmekanismerna kommer det bli tydligt hur även namngivningen av mekanismerna kan ha bidragit till att skapa förvirring (Enders 2010), s.6). Nedan redogör vi för de tre bortfallsmekanismerna MAR, MCAR och MNAR. (Observera att vi använder M istället för R eftersom vi senare använder R = 1 för bortfall.) Bortfallsmekanismen missing at random (MAR) är trots sitt namn inte slumpmässig utan avser en situation då ett systematiskt samband existerar mellan en eller flera undersökningsvariabler och sannolikheten för bortfall (Enders 2010, s. 6). Data är MAR om sannolikheten att ett värde fattas beror enbart på Y obs och inte på Y mis (Little & Rubin, 1987), det vill säga P(M Y com ) = P(M Y obs ). (2) Detta innebär att orsaken till bortfall är av betydelse, vilket vi tydliggör med exempel längre fram. I de fall bortfallet inte är planerat som en del i surveydesignen är MAR endast ett antagande, eftersom det inte går att testa om data är MAR (Schafer & Graham 2002). Missing completely at random (MCAR) är ett specialfall av MAR som beskriver situationen när sannolikhetsfördelningen för bortfallet på Y är oberoende av värdet på Y själv eller andra variabler i datamängden och skrivs P(M Y com ) = P(M). (3) När detta antagande är uppfyllt för alla variabler, kan uppsättningen av individer med kompletta uppgifter betraktas som ett obundet slumpmässigt delurval från den ursprungliga uppsättningen observationer (Allison 2002). Detta är ett starkt antagande som, om 10

11 det uppfylls, möjliggör enklare typer av bortfallshantering vid skattning av medelvärde som att helt enkelt radera ofullständiga objekt. Missing not at random, (MNAR) uppstår när antaganden om MAR, och följaktligen MCAR som är ett specialfall av MAR, inte håller. Det vill säga när sannolikheten att det uppstår bortfall beror på själva värdet på icke-observerade värden av de undersökta variablerna P(M Y com ) = P(M Y obs, Y mis ). (4) I situationen ovan krävs en gemensam modell för både Y och M för att kunna göra giltiga slutledningar. Bortfallsmekanismerna kan beskrivas grafiskt på följande sätt: X Z X Z X Z Y M Y M Y M (a) MCAR (b) MAR (c) MNAR Figur 1: De olika bortfallsmekanismerna Grafisk representation av (a) missing completely at random (b) missing at random och (c) missing not at random i ett univariat bortfallsmönster. X är variabler som är fullständigt observerade, Y är en variabel som delvis fattas, Z representerar den komponent av missingness som är orelaterad till X och Y, och M är missingness. Källa: Schafer & Graham 2002, s. 152, egen bearbetning. Ovanstående figur kan konkretiseras med ett exempel lånat från Buhi et al. (2008). Låt säga att en persons vikt (Y) ska modelleras som en funktion av kön (X) och att data samlas in med hjälp av en enkät. Antag vidare att det uppstår bortfall på Y vissa respondenter har valt att inte angett sin vikt. De tre bortfallsmekanismerna, det vill säga orsakerna till bortfallet, kan se ut på följande vis: (a) Det finns ingen speciell orsak till att vissa har angett sin vikt och andra inte. Sannolikheten att Y inte anges är helt orelaterad till både respondentens vikt och respondentens könstillhörighet. Data är MCAR. (b) Sannolikheten att fylla i sin vikt beror på variabeln kön, låt säga att sannolikheten är lägre att en kvinna uppger sin vikt. Om sannolikheten för bortfall enbart har att göra med om respondenter är kvinna eller man är data MAR. (c) Överviktiga personer är mindre benägna att ange sin vikt. Sannolikheten att det uppstår bortfall på Y har alltså att göra med det icke-observerade värdet på Y. Data är MNAR. Rubins (1976) teori involverar ocksåtvå olika grupper av parametrar: de parametrar som skulle ha estimerats om inga bortfall existerat, samt de parametrar som beskriver sannolikheten för bortfall (Enders 2010, s. 13). Dessa behövs för att beskriva när data är ignorable. Ignorable består av två antaganden; 1) att data är MAR (MCAR inkluderat) 11

12 2) att parametrarna i analysmodellen och parametrarna i bortfallsmodellen är oberoende (Allison 2002). Om de underliggande antagandena inte uppfylls uppstår risk för bias. Eftersom ett värde som fattas för en variabel per definition är okänt, finns ingen möjlighet att testa om det existerar systematiska skillnader mellan observerade och icke-observerade värden för variabeln i fråga (ibid.); ett klassiskt fall av moment 22 som de Leeuw et al. (2003) konstaterar. 2.3 Imputering Imputering går ut på att fylla i existerande bortfall i ett datamaterial. Dessa värden fås fram antingen enligt någon statistisk regel eller genom värden som observerats för andra enheter som liknar icke-respondenter (Lundström & Särndal, 2001). Den första kategorin innebär ofta regressionsimputering, och den senare att en donatorpool nyttjas. När saknade värden fyllts i kan statistiska standardmetoder tillämpas på materialet (Schafer 1999). När det gäller imputering finns flertalet metoder. Enklare metoder, såsom simpel imputering (SI), kan ge unbiased skattning av medelvärdet men ger för låg variansskattning. Detta betyder att konfidensintervallen blir snävare än i verkligheten (ibid.) Detta kan kompenseras för genom att använda multipel imputering. Viktigt i valet av imputeringsmetod är att beakta om variablerna som ska imputeras, samt prediktorerna, är kategoriska eller kontinuerliga. Detta eftersom olika slags data kräver olika imputeringsmodeller. Imputering är inte den enda metoden för justering av bortfall, goda skattningar kan i vissa fall erhållas genom viktning (Schafer 1999) Multipel imputering Multipel imputering (MI) (Rubin 1987) är en Monte Carlo -teknik som går ut på att upprepade gånger simulera fram värden att fylla i bortfallet med, idén är att värdena genom simuleringen blir approximativt riktiga. MI innebär med andra ord att bortfallet representeras med ett slumpmässigt urval av saknade värden. Detta betyder att standarfel, p-värden och så vidare som erhållits genom MI generellt sett är giltiga, eftersom de införlivar den osäkerhet som uppstår på grund av bortfallet (Schafer & Olsen 1998; Schafer 1999; Yuan 2011). När imputering sker enligt MI kan därför även variansskattningen bli unbiased, men även MI kan göras rätt eller fel så det finns inga garantier för att variansskattningen blir rätt. Multipel imputering består av följande steg (Yuan 2011; Schafer 1999): 1. Saknade värden imputeras m > 1 gånger för att generera m fullständiga dataset. 2. De m kompletta datamängderna analyseras med hjälp av statistiska standardmetoder. 3. Resultaten från de m kompletta dataseten kombineras för slutledning (se Bilaga A, Rubins regler). 12

13 Steg 1 ovan kan tydliggöras med följande bild: Datamängd med bortfall? Imputeringar 1 2 m??? Figur 2: Multipel imputering illustrerad. Figuren visar en multivariat datamatris med bortfall samt associerad multipel imputering. Källa: Schafer och Olsen 1998, s. 547 och Schafer och Graham 2002, s Figur 2 illustrerar hur det för varje bortfall ges ett förslag på m stycken lämpliga värden att fylla igen bortfallet med. Ett fåtal imputeringar krävs, 3-5 är tillräckligt enligt Rubin (1996) samt Schafer och Olsen (1998), men med dagens datorer är det i regel inga problem att öka antalet imputeringar. Eftersom MI handlar om att approximera är fler imputeringar bättre än färre. En viktig aspekt av MI är att hanteringen av bortfallet och analysen av data kan delas in i två skilda faser (Schafer 1999). Bortfallshanteringen kan därför överlämnas till dem som sköter imputeringen, medan användarna av data kan koncentrera sig på själva analysen (Meng 1994). Denna flexibilitet är en av fördelarna med MI (Zhang 2003). Men som Meng (1994) påpekar är denna flexibilitet inte helt oproblematiskt eftersom den som sköter imputeringen måste förutse vilka analyser som kommer göras i framtiden MI med hjälp av SAS De flesta procedurer i SAS exkluderar observationer med saknade variabelvärden från analysen (Yuan 2011). Detta innebär att information går förlorad, dessutom kan det som tidigare diskuterats finnas systematiska skillnaden mellan fullständiga fall och bortfall som gör att analysens slutsatser inte gäller för populationen. MI strävar efter att lösa det problemet. SAS -procedurerna MI och MIANALYZE är utvecklade för att hantera imputering i multivariat data och för att analysera data från multipelt imputerade dataset. Multipel imputering i SAS bygger på antagandet att bortfallet är ignorerbart enligt Rubins (1987) definition. Det vill säga bortfallsmekanismen antas vara MAR (Berglund 2010; Yuan 2011) och modellens parametrar antas inte kunna ge information om parametern med bortfall och vise versa (Yuan 2011). Flera imputeringsmetoder är tillgängliga i SAS 9.3, både för kontinuerlig och kategorisk data och för olika typer av bortfallsmönster. Eftersom uppsatsen behandlar imputering med hjälp av monoton logistisk regression presenterar vi logistisk regression närmare i Bilaga B. 13

14 2.4 Valet av prediktorer Oavsett vilken imputeringsmetod som tillämpas är så kallade prediktorer viktiga, det vill säga variablerna som inkluderas i imputeringsmodellen. Dessa prediktorer kan t ex finnas som svarsvariabler i enkäten eller komma i form av hjälpvariabler. Hjälpvariabler är typiskt sett registerdata som finns tillgänglig för samtliga i urvalet, det vill säga svaret är känt även för icke-respondenter. Genom att utnyttja dessa är det möjligt att bilda sig en uppfattning om individerna i bortfallet ser ut att skilja sig från respondenterna på ett systematiskt sätt. Ett realistiskt mål är att välja hjälpvariabler på så vis att bias reduceras; att helt bli av med bias är orealistiskt (Särndal 2011). Enligt Rubin (1996) samt Collins et al. (2001) är det en fördel att inkludera så många prediktorer som möjligt, även sådana med blygsam korrelation. Van Buuren et al. (1999) förordar dock att det sällan behövs mer än variabler för att täcka det viktigaste. Little och An (2004) förklarar hur den reducering av bias och varians som prediktorer kan åstadkomma ser olika ut beroende på hur associationerna mellan responsindikatorvariabel, prediktor och bortfall ser ut vid skattning av medelvärde. Låt Y 1 vara en prediktor, Y 2 en studievariabel med bortfall, R responsindikatorvariabeln (som Little och An kallar M). 2 representerar samvariationen mellan Y 1 och R, ρ 2 representerar samvariationen mellan Y 1 och Y 2 : 2, samvariation mellan prediktorn och responsindikatorn Låg Hög ρ 2, samvariation mellan prediktorn och studievariabeln Låg biasförändring: 0 variansförändring: 0 biasförändring: 0 variansförändring: Hög biasförändring: 0 variansförändring: biasförändring: variansförändring: Tabell 1: Prediktorernas inverkan på bias och varians givet olika korrelationer. Källa: Baserat på Little & An 2004, s Som synes i Tabell 1 ovan riskerar vi att i värsta fall öka variansen genom att introdusera en olämplig prediktor, detta sker då associationen mellan studievariabeln och prediktorn är hög samtidigt som associationen mellan prediktorn och responsindikatorn är låg. Bias påverkas inte även om prediktorn skulle vara felvald. Det är först då både 2 och ρ 2 är höga som en substantiell effekt uppnås. (Se Little och An 2004 för en matematisk förklaring av dessa samband). Med andra ord bör prediktorn korrelera både med svarsbenägenheten samt studievariabeln, det vill säga variabeln med bortfall. Van Buuren et al. (1999) har föreslagit en strategi för val av lämpliga prediktorer. Författarna diskuterar fallet då det finns många variabler att välja mellan, men angreppssättet kan ses som en utgångspunkt för variabelselektion så som vi gör i uppsatsen: 14

15 1. Inkludera alla variabler som ska vara med i analysmodellen. Om någon variabel som ska ingå i analysmodellen utesluts finns risk för bias; analysen kan ge snedvridna resultat. 2. Inkludera variabler som påverkar bortfallet. Andra variabler av intresse är de för vilka fördelning skiljer mellan respondenter och icke-respondenter. Ett sätt att hitta variablerna är att titta på korrelationer mellan studievariabeln och responsindikatorn. Om storleken på denna korrelation överstiger en viss nivå, då bör variabeln ingå. 3. Inkludera variabler som förklarar betydande del av variansen gällande målvariabeln, vilket bidra till att minska osäkerheten i imputeringarna. De kan identifieras med hjälp av att de korrelerar med målvariabeln. 4. Ta bort från de variabler som valts i steg 2 och 3 som har för stort bortfall. Övervägandena ovan kan sammanfattas i tre aspekter att ta hänsyn till: a) Variabler i analysmodellen för Y. b) Variabler som korrelerar med R. c) Variabler som korrelerar med Y. Vi åskådliggör med hjälp av viktexemplet som vi lånade av Buhi (2008) tidigare. Gällande a) variabler för analysmodellen för Y gäller att om kön ingår i analysmodellen och kön antas korrelera med vikt och kvinnor svarar i lägre omfattning så blir imputeringen sämre om inte kön finns med i imputeringsmodellen. När det gäller b) variabler som korrelerar med R gäller det att inkludera variabler som korrelerar med sannolikheten att respondenten inte svarar. I viktexemplet skulle det kunna vara vikten självt (men då har vi problem med MNAR). Avseende c) variabler som korrelerar med Y skulle längd kunna vara en variabel som korrelerar med vikt. Frågor om längd kan antas var mindre känsliga och därför mer troligt att få svar på än frågor om vikt. Val av prediktorer är betydande för imputeringsmodellen och har implikationer på hur data med bortfall som reparerats genom imputering kan analyseras i ett senare skede. Schafer (1998) diskuterar hur MI förutsätter att den modell som används för att analysera imputerad data (analysmodellen) ska överensstämma med den modell som används för att imputera bortfallen (imputeringsmodellen) och förklarar hur imputeringar som skapades under det felaktiga antagandet kan leda till att analysmodellens skattningar blir skeva. Se Schafer (1998) för en mer ingående beskrivning Schafer rekommenderar därför att så många variabler som möjligt inkluderas i imputeringsmodellen. Detta rekommenderar även Collin et al. (2001) som genomfört en simuleringsstudie där de kunde påvisa att en inkluderande strategi är att föredra; viss precision går förlorad när ovidkommande prediktorer tas med i modellen, men slutsatserna blir giltiga. Schafer och Olsen (1998, s. 551) skriver In general, any association that may prove important in subsequent analyses should be present in the imputation model. 15

16 2.5 Konklusion av litteraturstudien När det gäller valet av prediktorer som väljs till imputeringsmodellen bör dessa ha starka korrelationer med responsindikatorn samt studievariabeln (Little och An 2004). För att uppnå optimal reduktion av bias och varians bör också de prediktorer som inkluderas i imputeringsmodellen väljas med avseende på korrelation med R och korrelation med Y, samt ingå i analysmodellen för Y (van Buuren 1999). Det vi intresserar oss för i den empiriska delen är att undersöka hur utfallet blir om man inte tar hänsyn till dessa överväganden. I mer generalla ordalag blir det tydligt i litteraturgenomgången att det finns många olika nivåer där olika hänsyn bör beaktas när det gäller imputering. Dels har vi nivån med grunddata, det vill säga surveyundersökningen där det uppstått bortfall, på denna nivå har vi en bortfallsmekanism som styr vilka metoder för imputering som kan användas på materialet. Den mjukvara som används för att utföra MI gör vissa antaganden, varför det bör finnas förståelse för vilken bortfallsmekanism som kan ha orsakat bortfallet. SAS gör exempelvis ett antagande om MAR (Berglund 2010; Yuan 2011). Dels har vi nivån där en imputeringsmodell modelleras, på denna nivå avgör variabelvalen vilka analyser som senare blir lämpliga att utföra på materialet. Val av variabler till imputeringsmodellen beror på vilka analyser som ska genomföras med det imputerade data setet (Meng 1994). Dels har vi nivån med analysmodell, där de imputerade värdena analyseras. Om det uppstått ett glapp mellan analysmodell och imputeringsmodell så att dessa inte är kompatibla kan slutsatserna leda fel. Det är därför viktigt att den som utför analysen har kunskap om vilka antaganden som gjorts i imputeringsfasen. 16

17 3 EMPIRI I detta avsnitt redovisar vi den empiriska undersökningen och våra resultat. I det följande använder vi R = 1 för bortfall, vi kallar även R för responsindikator. 3.1 Introduktion Vi har använt grunddata från Trafiksäkerhetsenkäten 2012 som utgångspunkt för våra analyser. Många av variablerna var kategoriska med fler än två svarsalternativ, dessa har vi omkodat till dummyvariabler. I vissa fall då svarsalternativen har bestått av olika graderingar av ja eller nej har vi valt att slå samman till en dikotom variabel. Ja, mycket samt Ja, delvis har exempelvis slagits samman till ett enkelt Ja. På detta vis går tyvärr viss del information förlorad, men analyserna blir lättare att tolka vilket vi ansåg vara en klar fördel. Som nämnts tidigare har vi använt SAS 9.3, närmare bestämt PROC MI, för att utföra imputeringar och PROC MIANALYZE för att analysera imputerade dataset. För att kunna uttala oss mer generellt om våra resultat har vi valt att använda Monte Carlo -simulering där vi loopar våra imputeringsmodeller tusen gånger. Detta möjliggör att undersöka egenskaperna hos våra medelvärdesestimatorer eftersom vi skapat bortfallet ur en komplett matris. Tack vare det kan vi uttala oss om hur strategierna för val av prediktorer har fungerat mer generellt; utan simulering vet vi bara hur strategierna fungerat för vårt aktuella dataset. I stora drag har vi gjort följande: Valt ut en neutral studievariabel för att rimliggöra att verkliga data är MAR. Skapat komplett data som får representera vår population, ett facit. Modellerat en bortfallsmekanism med inspiration av den bortfallsmekanism vi kunde se i grunddata. Genererat 1000 datamatriser med olika bortfall med hjälp av vår bortfallsmekanism samt en slumpvariabel. Skapat sju olika modeller för imputering enligt varierande strategier för val av prediktorer. Utfört imputeringar med våra sju modeller i de 1000 olika bortfallen. Jämfört facit och resultaten av de sex olika modellerna och referensmetoden CCA. Tanken var att även göra fler urval men på grund av en miss drogs bara ett urval. Responsmodellen (våra bortfall) simulerades dock olika i dataseten och eftersom vårt program var ganska trögkört valde vi att nöja oss med varierande bortfallsmekanismer. Detta innebär att vi skapade tusen olika bortfall i ett enda draget urval som vi sedan testat våra sju imputeringsmodeller på. Vi utförde 25 imputeringar per modell. 3.2 Material och metoder Data Skälet till att vi valde Trafiksäkerhetsenkäten 2012 (SND ) för vårt ändamål att testa olika metoder för bortfallshantering är flera. För det första var grunddata tillgäng- 17

18 ligt genom beställning från Svensk Nationell Dataservice (SND) (vårt första val av data en upphandlad enkätundersökning med telefonuppföljning visade sig bli otillgänglig på grund av juridiska orsaker). För det andra valdes enkäten för året 2012 eftersom fler variabler från registerdata användes detta år jämfört med föregående enkäter. Detta var en fördel eftersom dessa kan användas som prediktorer. Trafiksäkerhetsenkäten är en årligen återkommande undersökning om trafiksäkerhet. År 2012 utfördes undersökningen av Statistiska Centralbyrån på uppdrag av Trafikverket. Urvalsförfarandet är stratifierat OSU. Urvalet är stratifierat efter ålder, kön och region och målpopulationen är Sveriges befolkning i åldersspannet år. Svarsfrekvensen för det studerade året var 52 procent och urvalet bestod av 8423 slumpmässigt utvalda personer. Bilden av det ökande bortfall som ges i forskningen (de Leeuw & de Heer 2002) återspeglas i Trafiksäkerhetsenkäten: Bortfall, procent Årtal Figur 3: Objektsbortfall i Trafiksäkerhetsenkäten över tid. Enkäten genomfördes ej Uppgift om bortfall saknas för åren 1983, 1989 och Källa: SND, egen bearbetning. Grafen ovan illustrerar hur bortfallet ökat från omkring 20 procent 1981 till 54 procent år Så skapade vi ett facit ur grunddata För att kunna utvärdera egenskaperna hos medelvärdesestimator baserat på våra imputeringsmodeller hade vi behov av ett facit att jämföra våra resultat emot, vi behövde därför skapa en komplett datamatris ur vårt material. Grunddatat, som bestod av 4364 observationer och 106 variabler, hade bortfall på flertalet variabler. Vi valde ut en av variablerna med bortfall Känner du till nollvisionen? för imputering. (Orsakerna till valet av just denna studievariabel ges i stycke 3.2.2). Vi skapade vårt facit genom att avlägsna alla de variabler som inte behövdes för våra analyser. Därefter avlägsnades övriga observationer med bortfall så att vi hade en komplett matris om 4046 observationer. Ur denna matris gjordes ett slumpmässigt stratifierat urval utan återläggning om 1000 kvinnor och 1000 män, detta är vårt facit. Fördelningen kvinnor respektive mäns kännedom om nollvisionen såg ut på följande sätt i vårt facit: 18

19 Känner du till nollvisionen? (%) Kvinnor Män Nej 24,8 15,5 Ja 75,2 84,5 Tabell 2: Fördelningen av Y för kvinnor respektive män i facit. Som nämndes i introduktionen var vår tanke att använda flera olika urval, men på grund av beräkningsproblem i SAS valde vi att begränsa oss till ett enda urval för att begränsa slumpvariationen. Om mer slump hade förts in genom det tänkt urvalsdragningen hade vi också behövt fler körningar för att få lika stabila resultat Så skapade vi bortfall När det gäller modellingen av bortfallsmekanismen har vi att göra med en dikotom kategorisk variabel som responsvariabel (bortfall/ej bortfall) varför logistisk regression är en lämplig metod att använda. De möjliga förklaringsvariablerna är både kontinuerliga och kategoriska vilket lämpar sig väl för logistisk regression. Även imputeringsmodellerna, där vi har responsvariabeln ja, känner till nollvisionen / nej, känner inte till nollvisionen kräver en logistisk regression i imputeringen. (För en kortare redogörelse av logistisk regression, se Bilaga B.) Vi utförde stepwise selection med bortfallet för variabeln Känner du till nollvisionen? som responsvariabel på våra grunddata med SAS 9.3 för att finna ut vilka variabler som hade god prediktionsförmåga för det faktiska bortfallet. Syftet var att efter bästa förmåga efterlikna den verkliga bortfallsmekanismen i grunddatat. Tre variabler med p- värden under 0.05 som föreslogs genom stepwise selection (högsta p-värdet var ) inkluderades i vår bortfallsmekanism. Dessa var dummyvariablerna hemmavarande barn, ålderskategori år och utbildningsnivå 3. Vi utförde en logistisk regression med bortfall som responsvariabel och dessa variabler som förklaringsvariabler och fick då vår bortfallsmekanism. Den första bortfallsmekanismen vi provade genererade ett bortfall på endast omkring 5 procent. När bortfallet är lågt kan ofta en enkel metod som listwise deletion fungera väl (Schafer 1999), därför manipulerade vi vår bortfallsmekanism för att uppnå ett större bortfall. Vi uppnådde ett bortfall på omkring 37 procent genom att justera nivån på effekten de inkluderade variablerna gav. Ursprungligen hade vi barn ar utb3. Modellen som vi slutligen använde för att generera bortfall på studievariabeln kan skrivas Logit (P(Bortfall = 1)) = barn ar utb3 (5) vilket ger p = exp( barn ar utb3) 1+exp( barn ar4. (6) 0.02 utb3) Vi genererade 1000 bortfall i vårt urval om 2000 observationer. Detta gjordes genom att för varje observation jämföra skattade p mot värdet från en uniform slumpvariabel u, 19

20 vilken kunde anta värden inom intervallet 0 till 1. Då p > u raderades observationen på studievariabeln Val av studievariabel Flera av frågorna i enkäten kan betecknas som känsliga, exempelvis frågor om respondenten kört bil onykter. Ursprungligen valde vi en fråga av känsligare karaktär, men bytte under resans gång till den mer neutrala frågan Känner du till Nollvisionen? Det gjorde vi på grund av att vi inte ville blanda in en variabel där bortfallet på frågan kan misstänkas bero på själva svaret. Variabeln Känner du till nollvisionen var kategorisk med de tre svarsalternativen (1) ja, mycket (2) ja, delvis (3) nej, men vi valde att koda om den till binär genom att samla alla jakande alternativ i en kategori som tidigare beskrivet. Frågan ställs tidigt i enkäten vilket kan höja svarsnivån jämfört med om den hade legat senare. Den valda frågan lämnades obesvarad av närmare 5 procent av urvalet, detta är jämförbar med storleken på det bortfall som vår ursprungliga bortfallsmekanism gav. För att hantera en justering av bortfallet optimalt behöver vi förstå om individer i urvalet valt att inte svara på grund av själva värdet på variabeln (Little & Rubin, 1987). Vi gjorde bedömningen att svaret på frågan troligen inte är av så känslig karaktär att respondenter väljer att inte svara, varför vi valde att göra ett antagande om MAR. Med andra ord bedömer vi att det finns en chans att vi hittat en realistisk bortfallsmekanism Valet av prediktorer Till skillnad från van Buuren et al. (1999) använder vi några få variabler som representerar effekterna vi vill visa. De tillgängliga prediktorerna var kön, urbaniseringsgrad, bostadsregion, ålder, civilstatus, utbildningsnivå, yrke, körkortsinnehav och barn i hushållet. Dessa fanns tillgängliga i grunddata i form av registervariabler samt som svar i enkäten. Inkluderingen av prediktorer till imputeringsmodellerna skedde enligt hur dessa korrelerade med Y (Känner du till nollvisionen?) och med R (missingness). Eftersom våra variabler var kategoriska använde vi frekvenstabeller för test av association mellan variablerna. Vi använde Pearson chi2-test som ges av PROC FREQ. Detta gav oss p-värden som visade om associationerna var signifikanta, samt Cramer s V som visade styrkan på associationerna. Cramer s V är härledd ur Pearsons Chi-2 test och antar värden i spannet 1 V 1 för 2 x 2 tabeller (SAS Institute 2011, s. 2336). Värdet noll innebär att ingen association finns. Cramer s V anses vara svag vid V < 0.1. Enligt SAS Institute är V omkring 0.5 en indikation på en relativt stark association (SAS Institute 2012, s. 5-27). Variabler med de starkaste associationerna valdes som prediktorer, utom för X R där den näst starkaste valdes. (Detta förklasas närmare i stycke 3.6). Vi valde designvariabeln kön som analysvariabel, eftersom vår analysmodell skulle beskriva andelen kvinnors respektive mäns kännedom om nollvisionen. Följande variabler valdes som prediktorer: 20

21 Inkluderade prediktorer Notation Association Variabel X R association med R ålderskategori år X Y association med Y körkort X A variabel i analysmodell kön X R,Y association med Roch Y ålderskategori år, körkort X R,A association med Roch analysmodell ålderskategori år, kön X Y,A associationer med Y och analysmodell körkort, kön X R,Y,A variabel i analysmodell + association med Y och R kön, ålderskategori år, körkort Tabell 3: Variabler i imputeringsmodellerna. De förväntade effekterna av att inkludera de valda prediktorerna i imuteringsmodellen: Förväntade effekter av valda prediktorer X R Minskad bias X Y Minskad varians X A Minskad bias X R,A Minskad bias X R,Y Minskad bias och varians X Y,A Minskad bias och varians Minskad bias och varians X R,Y,A Tabell 4: Förväntade effekter av valda prediktorer. Den förväntade effekten som redovisas i tabell 4 påverkas av styrkan i associationerna mellan variablerna. Vi har följande relationer, uttryckt i Cramer s V (Se Bilaga C för samtliga signifikanta associationer): Relationer mellan variablerna X A X R X Y Y * * R * Tabell 5: Associationer mellan prediktorer. Måttenheten är Cramer s V. Prediktorerna är valda med hänsyn till de korrelationer som markeras med (*). Som synes i Tabell 5 är variabeln som ingår i analysmodellen svagt korrelerad med studievariabeln. Eftersom samvariationen är ganska låg mellan X A och Y kan vi förvänta oss ganska liten påverkan av X A på både varians och bias om vi beaktar Little och An (2004), se Figur 3. Vi har dock förhållandevis stark association mellan X Y och Y vilket bör sänka variansen då denna variabel inkluderas i modellen. Prediktorn X Y bör dock inte ensam kunna påverka biasen. Prediktorn X R som korrelerar med R bör minska biasen men inte påverka variansen. I våra data hade vi endast två möjliga prediktorer med signifikant korrelation med R, varav den valda prediktorn gav det bättre resultatet. Orsaken är att denna är förstärkt i bortfallsmekanismen. Kombinationen prediktorer som föreslås av van Buuren et al. (1999), X R,Y,A, förväntas kunna minska både biasen och variansen. I Tabell 6 redovisas de valda prediktorerna och deras fördelning med avseende på studievariabeln och det associerade förväntade bortfallet: 21

22 (%) X R X R X Y X Y (tillhör år) (tillhör ej år) (har körkort) (har ej körkort) Total X A Kvinna Man Kvinna Man Kvinna Man Kvinna Man Kvinna Man Y=nej 12,5* 6,2 26,5 17,1 10,9 6,2 53,4 45,4 24,8 15,5 R=1 54,1** 61,7 33,8 33,6 37,1 38,7 34,6 34,4 36,3 37,7 * Andel kvinnor som inte känner till nollvisionen i vårt facit. ** Förväntad bortfallsandel bland kvinnor 25-54, baserat på 1000 simuleringar. R=0 innebär ej respons, d.v.s. bortfall Tabell 6: Andelar nej-svar för Y och förväntad andel bortfall. Andelen nej-svar på frågan Känner du till nollvisionen respektive förväntad andel bortfall fördelat på kvinnor och män. Vi kan se att prediktorerna för R har en förhållandevis hög förväntad andel bortfall, vilket är önskvärt eftersom vi skruvade upp denna i vår bortfallsmekanism. När det gäller studievariabeln Y är det förväntade bortfallet mer jämt fördelat vilket indikerar att det är mindre risk för bias vid bortfall på denna variabel. Vidare är det exempelvis 10,9 procent av kvinnorna i vårt facit som har körkort som svarat att de inte känner till nollvisionen. Det medför att 89,1 procent av kvinnorna som har körkort har svarat ja på frågan. Denna fördelning skiljer sig från hur fördelningen ser ut i gällande kvinnor som ej har körkort. Fördelningen skiljer sig också i jämförelse med totala andelen kvinnor som svarat nej. Att inneha körkort är med andra ord relaterat till respondentens kännedom om Y. Nämnas bör att Cramer s V som Tabell 5 redovisar utgår från ett av de tusen simulerade bortfallen, medan den förväntade bortfallsandelen i Tabell 6 baseras på 1000 körningar vilket medför att resultatet i Tabell 6 kan betraktas som säkrare Beräkning av egenskaper hos våra estimatorer Medelkvadratfelet beräknade vi enligt formeln MSE = (θ g θ) 2 g=1 (7) där 1000 θ g = θ b,g g=1 (8) är det skattade medelvärdet för θ b,g. I ord uttryckt har vi medelvärdet av medelvärdet för de skattade andelana, det vill säga medelvärdet från de tusen simuleringarna. I uppsatsen använder vi RMSE = MSE. Biasen gavs av BIAS = (θ g θ) g=1 (9) 22

23 vilket i ord uttryckt är de skattade andelarna från simulationen minus den faktiska andelen i vårt facit summerade och sedan dividerat med antalet körningar. Variansen beräknades enligt VAR = (θ g θ f g=1 f=1 som i ord är det summerade skattade medelvärdet för andelarna minus medelvärdet av medelvärdet för de skattade andelarna från våra simuleringar upphöjt till två, samt dividerat med antalet körningar. 3.3 Resultat Tabell 2 visar andelen kvinnor respektive mäns kännedom om nollvisionen, så som fördelningen såg ut i vårt facit. Nedan redovisas resultaten av de tusen simuleringarna för de skattade andelarna som inte kände till nollvisionen. Andelen totalt som inte känner till nollvisionen Prediktorer Modell Skattad andel Bias Var RMSE CCA 20,83 0,68 0,65 0,94 1a X R Modell 1 20,35 0,20 0,64 0,67 1b X Y Modell 2 20,42 0,27 0,56 0,62 1c X A Modell 3 20,75 0,60 0,64 0,88 X R,Y Modell 4 20,45 0,30 0,56 0,63 X R,A Modell 5 20,38 0,23 0,63 0,66 X Y,A Modell 6 20,43 0,28 0,56 0,63 X R,Y,A Modell 7 20,44 0,29 0,56 0,63 Tabell 7: Resultat av simulering, andelen totalt som inte kände till nollvisionen. ) 2 (10) Andelen kvinnor som inte känner till nollvisionen Skattad Prediktorer Modell andel Bias Var RMSE CCA 25,47 0,67 0,96 1,17 X R Modell 1 23,40-1,40 0,81 1,62 X Y Modell 2 24,04-0,76 0,73 1,06 1c X A Modell 3 25,35 0,55 0,97 1,11 X R,Y Modell 4 24,07-0,73 0,72 1,03 2a X R,A Modell 5 25,04 0,24 0,95 0,98 2b X Y,A Modell 6 25,08 0,28 0,86 0,90 3 X R,Y,A Modell 7 25,06 0,26 0,86 0,89 Tabell 8: Resultat av simulering, andelen kvinnor som inte kände till nollvisionen. 23

24 Andelen män som inte känner till nollvisionen Skattad Prediktorer Modell Bias Var RMSE andel CCA 16,20 0,70 0,82 1,08 X R Modell 1 17,30 1,80 0,70 1,93 X Y Modell 2 16,80 1,30 0,59 1,43 1c X A Modell 3 16,15 0,65 0,81 1,04 X R,Y Modell 4 16,84 1,34 0,60 1,47 2a X R,A Modell 5 15,72 0,22 0,78 0,81 2b X Y,A Modell 6 15,79 0,29 0,71 0,76 3 X R,Y,A Modell 7 15,83 0,33 0,71 0,78 Tabell 9: Resultat av simulering, andelen män som inte kände till nollvisionen. Noteringarna 1a, 1b, 1c, 2a, 2b och 3 till vänster om Tabell 7-9 indikerar olika steg i analysen. Vi börjar analysen i steg 1 i tabell 7 som gäller på total nivå. I steg 2 flyttas fokus till Tabell 8 och 9 och uppdelningen i grupperna kvinnor och män. Vilka effekter prediktorerna förväntas ge visas i Tabell 4 tidigare i uppsatsen Steg 1 inkludering av en prediktor Vi utgår från CCA som referensmodell. I steg 1 imputerar vi med en prediktor. I Tabell 7 där resultatet beskrivs totalt sett ser vi att samtliga modeller i steg 1 presterar bättre än CCA. Steg 1a: Prediktorn som tar hänsyn till korrelationen med responsindikatorn (X R ) ger lägst bias. Steg 1b: Prediktorn (X Y ) ger bäst effekt på variansen och på RMSE. Steg 1c: Prediktorn som ingår i analysmodellen ger sämre resultat än prediktorer som tar hänsyn till korrelationen med Y och prediktorn som tar hänsyn till korrelation med R. Detta är som väntat (se Tabell 4). (X R ) och (X A ) ska båda påverka bias, och eftersom prediktorn (X R ) i steg 1a har den starkare korrelationen med bortfallsindikatorn av de två prediktorerna så ger den en större effekt på bias. Det är endast (X Y ) av de tre prediktorerna som förväntas påverkar variansen, detta återspeglas i steg 1b. Steg 1c då endast analysmodellens variabel inkluderas i imputeringsmodellen ger ett sämre resultat än de två föregående prediktorerna. Dock ses att bias reduceras i båda tabell 8 och 9, vilka är uppdelade just efter kön, i förhållande till CCA. Även reduktionen här är dock måttlig. Detta avspeglar att det är viktigt att ta hänsyn till korrelationerna vilket teorin säger Steg 2 inkludering av två prediktorer I steg 1c provade vi att imputera endast med prediktorn som inkluderades i analysmodellen, det vill säga kön. Från detta steg lägger vi nu till en prediktor som valts med hänseende till korrelationen med antingen R eller Y. När detta sker ser vi att både varians och bias förbättras, så som förväntat. 24

25 Steg 2a: Vi har variabeln i analysmodellen samt lägger till en prediktor som korrelerar med bortfallsindikatorn. Vi ser att biasen sänks avsevärt. För kvinnor sänks biasen från 0,55 med endast X A inkluderad till 0,24 i steg 2a (se Tabell 8). För männen är reduceringen av bias ännu större, från 0,65 till 0,22. Detta beror troligtvis på att vi har ett större förväntat bortfall på män än på kvinnor som tillhör ålderskategorin år (X R )(se Tabell 6). Då prediktorn korrelerar med R ser vi att imputeringen ger störst effekt i den kategori som har det största förväntade bortfallet. Gällande variansen är reduceringen liten för både gruppen kvinnor och gruppen män. Minskingen av RMSE som kan observeras i detta steg kan alltså främst relateras till den minskade biasen. Prediktorn som korrelerar med bortfallet ger en större effekt på bias än prediktorn som korrelerar med studievariabeln. Bortfall kan inverka negativt på bias varför en imputering med hänsyn till bortfallsindikatorn ger den bättre effekten. Steg 2b: Vi ser att biasen reduceras även här för både kvinnor och män, men inte riktigt lika mycket som i föregående steg. Effekten på variansen är större; för gruppen kvinnor minskar variansen från 0,97 till 0,86 och för gruppen män från 0,81 till 0,71. Detta är väntat då prediktorerna i Modell 6 (X Y,A ) korrelerar med studievariabeln samt inkluderar variabeln i analysmodellen. Det är studievariabeln som relaterar till variansen, varför det är naturligt att prediktorn som korrelerar med studievariabeln ger bäst effekt på variansen. Den minskning av RMSE som ses i steg 2b beror därför främst på reduceringen av variansen Steg 3 inkludering av tre prediktorer I steg 3 inkluderas alla tre prediktorer, såsom van Buuren et al. (1999) rekommenderar (Modell 7). I våra simuleringar är Modell 7 bäst och näst bäst. Resultatet följer de förväntade egenskaperna på så vis att bias, MSE och varians blir lägre jämfört med CCA. För gruppen kvinnor är variansen nu lägre jämfört med steg 2a då bara korrelationen med studievariabeln tillsammans med variabeln i analysmodellen beaktades. Variansen har minskat från 0,95 till 0,86. Biasen försämras dock jämfört med 2a medan den förbättras jämfört med 2b. För gruppen kvinnor ser vi en liten förbättring med avseende på en lägre RMSE. Eftersom vi har få simuleringar kan siffrorna vara lite osäkra vid små skillnader. För gruppen män är RMSE förbättrad bara jämfört med steg 2a. Biasen är större jämfört med både steg 2a och steg 2b. Variansen har förbättras jämfört med 2a men är oförändrad jämfört med 2b Konklusion Som väntat fungerar CCA sämst och ger störst bias, MSE, och varians totalt sett. Enligt Little och An (2004) bör samvariationen mellan prediktorerna och R respektive Y vara starka för att se både minskad varians och minskad bias. Trots att inga av associationerna mellan våra variabler var särskilt stark (samtliga hade Cramer s V < 0.5 ) så uppstår den effekt som van Buuren et al. (1999) talar om. Tittar vi i Tabell 6 med fördelningar ser sambanden dock inte så svagt ut. Gränserna för vad som anses starkt gällande Cramer s V kan skilja sig åt, i vår undersökning kanske gränsen som nämns av Sas Institute inte är träffande. Väntat var att X R,Y,A skulle leda till lägre bias, MSE och varians jäm- 25

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial? MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.

Läs mer

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21 Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21 Inledning Saknat data finns alltid, åtminstone i stora registerstudier. Ett problem som måste hanteras på något sätt.

Läs mer

Ekonomisk statistik 2 Economic statistics 2. Imputering

Ekonomisk statistik 2 Economic statistics 2. Imputering Ekonomisk statistik 2 Economic statistics 2 Imputering Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet Ekonomisk statistik Höstterminen 2008 Stockholms Universitet Saknade värden Totalt

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag

Läs mer

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen F1 Introduktion. Statistisk undersökning. Leif Ruckman och Christina Andersson Avdelningen för Nationalekonomi och Statistik Karlstads universitet Vad är statistik? 1. Statistiska uppgifter. T ex som underlag

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval Urval F3 Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap 9.1-9.4) Ursprung: Linda Wänström Anta att vi ska göra en urvalsunderökning och samla in primärdata Totalundersökning ofta

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap ) F3 Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap 9.1-9.4) Urval Anta att vi ska göra en urvalsunderökning och samla in primärdata Totalundersökning ofta inte möjlig För dyrt Tar

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 4. Kapitel 5, sid Stickprovsteori Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:

Läs mer

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade HT 2011 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas in senast 29/9 kl 16.30.

Läs mer

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan) Statistiska institutionen VT 2012 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Bortfallshantering. En illustrerande studie med metoderna viktning och imputation

Bortfallshantering. En illustrerande studie med metoderna viktning och imputation Örebro universitet Handelshögskolan Statistik C, Uppsats Handledare: Nicklas Petterson Examinator: Niklas Karlsson VT15/2015-06-04 Bortfallshantering En illustrerande studie med metoderna viktning och

Läs mer

Vad beror benägenheten att återvinna på? Annett Persson

Vad beror benägenheten att återvinna på? Annett Persson Vad beror benägenheten att återvinna på? Annett Persson 12 mars 2011 Innehåll 1 Inledning 2 1.1 Bakgrund............................... 2 1.2 Syfte.................................. 2 1.3 Metod.................................

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Konsekvenser av Bortfall Introduktion Illustration av hur bortfall påverkar resultaten i en statistisk

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar bilaga till granskningsrapport dnr: 31-2013-0722 rir 2014:27 Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar Arbetsförmedlingens arbete vid varsel Ett bidrag till effektiva omställningsinsatser?

Läs mer

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989 Från trycket April 1989 Producent Statistiska centralbyrån, Utvecklingsavdelningen Ansvarig utgivare Staffan Wahlström Förfrågningar Lennart Nordberg, tel. 019-17 60 12 1989, Statistiska centralbyrån ISSN

Läs mer

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i

Läs mer

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till

Läs mer

Hushållens icke-vinstdrivande organisationer 2005

Hushållens icke-vinstdrivande organisationer 2005 STATISTISKA CENTRALBYRÅN 1(8) Hushållens icke-vinstdrivande organisationer 2005 1 Inledning Emma-projektet, eller paraplyprojektet för förbättring av den ekonomiska statistiken, omfattar i huvudsak förbättringsförslagen

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat?

2. Finns samband mellan individbundna faktorer och kontextuella faktorer och skolresultat? 1 Teknisk bilaga till rapport 2018:10 Det är i det lokala man finner komplexiteten - Betydelsen av migrationsbakgrund och socioekonomiska faktorer för skolmisslyckanden 1 Bakgrund Denna rapport är en teknisk

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Vad tycker de närstående om omvårdnaden på särskilt boende?

Vad tycker de närstående om omvårdnaden på särskilt boende? Omvårdnad Gävle Vad tycker de närstående om omvårdnaden på särskilt boende? November 2017 Markör AB 1 (15) Uppdrag: Beställare: Närstående särskilt boende Omvårdnad Gävle Kontaktperson beställaren: Patrik

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Bilaga Unga med attityd 2019 Arbete och arbetsmarknad

Bilaga Unga med attityd 2019 Arbete och arbetsmarknad Bilaga Unga med attityd 2019 Arbete och arbetsmarknad Det här är bilagan till den andra delrapport som Myndigheten för ungdoms- och civilsamhällesfrågor (MUCF) har tagit fram inom ramen för regeringsuppdraget

Läs mer

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för

Läs mer

Bortfallsproblematik ur ett metodperspektiv

Bortfallsproblematik ur ett metodperspektiv Bortfallsproblematik ur ett metodperspektiv Daniel Thorburn Surveyföreningen 2011-05-27 Olika metodaspekter Bortfall versus andra fel Psykologi varför svarar man? (inte?) Åtgärder vid insamling (förebygg!)

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

Föreläsning 1: Introduktion. Vad är statistik?

Föreläsning 1: Introduktion. Vad är statistik? Föreläsning 1: Introduktion Vad är statistik? 1 Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att

Läs mer

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet 1 Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet För att bli godkänd på inlämningsuppgiften krävs att man utför uppgiften om

Läs mer

Uppföljningsundersökning. Lärare. Teknisk rapport

Uppföljningsundersökning. Lärare. Teknisk rapport Uppföljningsundersökning Lärare Teknisk rapport Inledning Enheten för statistik om utbildning och arbete vid Statistiska centralbyrån (SCB) genomförde under perioden mars - juni 2011 en postenkät på uppdrag

Läs mer

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning Attityder kring SBU:s arbete Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning Hösten 2010 Innehållsförteckning INNEHÅLLSFÖRTECKNING ANALYSRAPPORT Sammanfattning... 1 Inledning...

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT007 Laboration Simulering Grupp A: 007-11-1, 8.15-.00 Grupp B: 007-11-1, 13.15-15.00 Introduktion Syftet

Läs mer

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

STATISTISK POWER OCH STICKPROVSDIMENSIONERING STATISTISK POWER OCH STICKPROVSDIMENSIONERING Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018 Kvantitativa metoder en introduktion Mikael Nygård, Åbo Akademi, vt 2018 Vad är kvantitativ metod? Kvantitativa (siffermässiga) analyser av verkligheten: beskrivning och förklaringar av fenomen i fokus!

Läs mer

Hur går en statistisk undersökning till?

Hur går en statistisk undersökning till? Hur går en statistisk undersökning till? Gången i en statistisk undersökning framgår av bilden och är i stort sett densamma i en verklig undersökning, t ex folk- och bostadsräkningen, som i en miniundersökning.

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Bortfall i longitudinella undersökningar

Bortfall i longitudinella undersökningar Bortfall i longitudinella Silke Burestam, doktorand Statistiska institutionen Stockholms Universitet Projekt: Moderna statistiska undersökningsmetoder ett nätverkn Finansieras av Hemsida: Riksbankens http://www.statistics.su.se/

Läs mer

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) 5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

DATORÖVNING 2: STATISTISK INFERENS.

DATORÖVNING 2: STATISTISK INFERENS. DATORÖVNING 2: STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Frågor för bedömning av utvärdering av projekt

Frågor för bedömning av utvärdering av projekt Sida 1 (11) Projekt: Projektledare: : Frågor för bedömning av utvärdering av projekt Alla projekt som genomförs bör utvärderas för att säkerställa att vi lär oss så mycket som möjligt av de insatser som

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

InStat Exempel 4 Korrelation och Regression

InStat Exempel 4 Korrelation och Regression InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Bootstrapping i fall-/kontrollstudier av genetiska markörer Bootstrapping i fall-/kontrollstudier av genetiska markörer Håkan Lövkvist RSKC 2011-03-09 Vad är bootstrapping? Bootstrap = stövelstropp Annan översättning: Ta sig i kragen, vara självbärande Litterär

Läs mer

Teknisk Rapport En beskrivning av genomförande och metoder

Teknisk Rapport En beskrivning av genomförande och metoder Teknisk Rapport En beskrivning av genomförande och metoder Attityder till skolan Föräldrar 2012-09-10 Inledning Enheten för Utbildning och arbete vid Statistiska centralbyrån (SCB) genomförde under våren

Läs mer

Laboration 3: Urval och skattningar

Laboration 3: Urval och skattningar S0004M Statistik 1 Undersökningsmetodik. Laboration 3: Urval och skattningar Denna laboration handlar om slumpmässiga urval. Dessa urval ska användas för att uppskatta egenskaper hos en population. Statistiska

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Hyror i bostadslägenheter (HiB)

Hyror i bostadslägenheter (HiB) Statistiska centralbyrån SCBDOK 3.2 1 (17) Hyror i bostadslägenheter (HiB) 2014 BO0406 Innehåll 0 Allmänna uppgifter... 2 0.1 Ämnesområde... 2 0.2 Statistikområde... 2 0.3 SOS-klassificering... 2 0.4 Statistikansvarig...

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

Innehåll. Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4

Innehåll. Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4 Del 22 Riskbedömning Innehåll Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4 Vid investeringar i finansiella instrument följer vanligen en mängd olika

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson 1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys I (SDA l), 3 högskolepoäng ingående i kursen Undersökningsmetodik och statistisk

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Bilaga 1. Kvantitativ analys

Bilaga 1. Kvantitativ analys bilaga till granskningsrapport dnr: 31-2013-0200 rir 2014:11 Bilaga 1. Kvantitativ analys Att tillvarata och utveckla nyanländas kompetens rätt insats i rätt tid? (RiR 2014:11) Bilaga 1 Kvantitativ analys

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Föreläsning 7. Statistikens grunder.

Föreläsning 7. Statistikens grunder. Föreläsning 7. Statistikens grunder. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper.ryden@math.uu.se 1MS008, 1MS777 vt 2016 Föreläsningens innehåll Översikt, dagens föreläsning: Inledande

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Börja med att ladda ner Kommuner2007.xls från kursens hemsida.

Börja med att ladda ner Kommuner2007.xls från kursens hemsida. STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh Obligatorisk examinationsuppgift SDA II, 3 högskolepoäng. Olika urvalsmetoder punkt- och intervallskattningar Börja med att

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer