Ieållsföreckig FÖRORD.- - SAMMANFATTNING...- - INLEDNING.... SYFTE.... METOD....3 AVGRÄNSNING....4 DISPOSITION... SRVEY OCH ANALYS AV SRVEYDATA...3. INTRODKTION TILL OCH SYFTE MED SRVEY...3. POPLATION OCH PARAMETER...4.3 RVALSMEKANISM, DESIGNVIKT OCH BORTFALL...6.4 INFERENS...8.4. Modell- oc desigbasera sysä...9.4. Igorable oc iformaiv desig....4.3 Desigäsy oc val av sysä....5 ESTIMATION...4.5. Replikerig oc lijäriserig...5.5. Exempel på esimaorer...6 3 BINÄR LOGISTISK REGRESSION...8 3. FÖRTSÄTTNINGAR, ANTAGANDEN OCH MODELLBESKRIVNING...8 3. SKATTNING OCH TOLKNING AV KOEFFICIENTER... 3.3 METODER FÖR PPBYGGNAD AV MODELL...3 3.4 KOEFFICIENT- OCH MODELLTEST...5 3.4. Likelioodbaserade es...5 3.4. Wald es...5 3.4.3 Score-es...6 3.5 GOODNESS-OF-FIT...6 3.5. Hosmer oc Lemesow-es...6 3.5. Klassificerigsförmåga...7 3.5.3 Yerligare må...9 3.6 TILLÄMPNING VID SRVEYDATA...3 3.6. Modellbasera sysä...3 3.6. Desigbasera sysä...3 4 ILLSTRATION STDIEN LIV & HÄLSA () I ÖREBRO LÄN...33 4. STDIEDESIGN OCH VARIABLER...33 4. MODELL, METOD OCH RESLTAT...35 4.. Modellbasera sysä (MOD)...36 4.. Desigbasera sysä (DES)...37 4.3 DISKSSION OM TEST, STRATIFIERINGSHÄNSYN, SAMT KOMMENTARER...38 5 SAMMANFATTNING OCH SLTLIGA KOMMENTARER...4 REFERENSER...44 BILAGA MATRISALGEBRA...47 BILAGA MAXIMM LIKELIHOOD METODEN...49 BILAGA 3 VARIABELBESKRIVNING - LIV & HÄLSA ()...5 BILAGA 4 TILLGÄNGLIGT FÖR BINÄR LOGISTISK REGRESSION I SAS 9....5 BILAGA 5 TEST I LIV & HÄLSA ()...5
Iledig Vid aalys av surveydaa görs e disikio mella deskripiva oc aalyiska urvalsudersökigar, är beäm som survey. Korfaa ka deskripiva surveys sägas syfa ill a besvara frågor om ur e begräsad populaio ser u geom skaig av målparamerar såsom medelvärde oc adelar, oc aalyiska syfa surveys ill a besvara fråga varför de ser u som de gör i e oädlig populaio geom skaig av målparamerar såsom regressiokoefficieer. Då logisisk regressio är e meod som ka aväds för a udersöka sambade mella e beroede kaegorisk variabel oc e eller flera oberoede variabler, med måle a predikera, klassificera eller a fassälla associaioer, är meode således illämplig på aalyiska survey. Logisisk regressio är e populär meod efersom de ej ieåller ågo aagade om ormalfördelig. De är också flexibel efersom de oberoede variablera ka vara såväl diskrea som koiuerliga. Meode aväds ofa i kliiska oc epidemiologiska sudier, såsom populaiosbaserade älsoudersökigar, där daa ka a iämas frå e survey. Kor oc Graubard (999) beskriver e aal fakorer vid dea yp av sudier som är mer valiga med surveydaa ä vid icke-surveydaa. rvalssorlekara är ofa väldig sora då daa ärrör frå observaioer sarare ä experime. Borfall är också valig, vilke allid måse aeras. Ofa aväds också förfiade urval i syfe a represeera komplexa uderliggade populaiossrukurer. E exempel är kluserurval, vilke dock ka ge uppov ill korrelaio mella observaioer oc ärigeom riskerar a uderskaa variaser. Sraifierade urval är också valig, ill exempel då iresse fis för a kua udersöka olika delpopulaioer. Populaioe delas då upp i olika sraa, varigeom saolikee a komma med i urvale blir lika iom e sraum me ka skilja sig mella sraa. Om sambad mella variabler skiljer sig mella sraa skulle dea dock kua påverka slusasera av e logisisk regressio. Ofa aas a sraifierig ie ar ågo påverka, äve om de är möjlig a a äsy ill de. Iom survey fis desigbasera oc modellbasera sysä, vilka i sia rea former ar olika sy på ur sraifierige ska as äsy ill. Vale av sysä ka få kosekveser för slusasera, äve om sysäe i prakike ka ses som kompleme.. Syfe Syfe är a ge e allmä beskrivig av biär logisisk regressio sam a beskriva illämpig av meode på sraifierade surveydaa.. Meod E lieraursudie geomförs iom akuella område. Vidare illusreras biär logisisk regressio med sudie Liv & Hälsa ()..3 Avgräsig I dea uppsas avgräsas ill biär logisisk regressio. Övriga avgräsigar ges i exe..4 Disposiio Kapiel beskriver surveydaa i allmäe oc sraifierig i syere. I kapiel 3 iroduceras biär logisisk regressio i allmäe, sam de förusäigar som gäller vid aalys uifrå modell- respekive desigbasera sysä då urvale är sraifiera. E illusraio ges seda i kapiel 4 av logisisk regressio uifrå de vå sysäe. I kapiel 5 sammafaas oc dras slusaser, sam ges sypuker på framida forskig.
Survey oc aalys av surveydaa I dea kapiel ges e geomgåg av survey oc aalys av surveydaa. I avsi. ges e irodukio ill oc syfe med survey, liksom vissa begrepp. Avsi. fokuserar seda på defiiio av populaioe oc målparamerar. I avsi.3 berörs urvalsmekaismer, desigvik oc aerig av borfall. Iferes frå surveydaa as seda upp i avsi.4, oc i.5 preseeras esimaio. E irodukio ill algebra med mariser oc vekorer ges i bilaga. I uppsase aväds i regel skalär algebra (gemeer), me marisalgebra (versaler) förekommer vid vissa mulivariaa modeller, se bilaga för e irodukio ill marisalgebra.. Irodukio ill oc syfe med survey Biemer oc Lyberg (3) preseerar sju krav som Daleius (985) aser måse vara uppfyllda för a e sudie ska kallas för e survey.. A survey cocers a se of objecs comprisig a populaio.. Te populaio uder sudy as oe or more measurable properies. 3. Te goal of e projec is o describe e populaio by oe or more parameers defied i erms of e measurable properies. 4. To ge observaioal access o e populaio, a frame is eeded (i.e., a operaioal represeaio of e populaio uis, suc as a lis of all objecs i e populaio uder sudy or a map of a geograpical area.) 5. A sample of objecs is seleced from e frame i accordace wi a samplig desig a specifies a probabiliy mecaism ad a sample size. 6. Observaios are made o e sample i accordace wi a measureme process (i.e., a measureme meod ad a prescripio as o is use). 7. Based o e measuremes, a esimaio process is applied o compue esimaes of e parameers we makig iferece from e sample o e populaio. Frå abell. i Biemer oc Lyberg (3), sida 4, vilke är baserad på Daleius (985). Surveyprocesse ka således sägas beså av a besämma syfe oc målpopulaio, sam välja daaisamligsmeod oc urvalsdesig. rvalsdesige beskriver är urvalsrame, de aväda meode för urvalsdragig vilke äve beäms som urvalsmekaism, sam urvalssorleke. E urvalsmekaism med plaerad slump kallas saolikesurval. De objek som igår i e populaio kallas för eeer. Måle med e survey är därefer a kua dra iferes om målpopulaioe. Iferes beskrivs av Särdal (985, sida 5) som a saeme made abou a ukow populaio quaiy, i erms o of fully ceraiy bu of probabiliy.. För a miska osäkere i iferes bör skaig av målparamerara ske med effekiva esimaorer ua bias. Krave på avsakad av bias ersäs iblad med de svagare krave kosises, efersom krave ka bli för srik vid icke-lijära esimaorer såsom variaser. Kosises iebär avsakad av bias i sora urval, oc brukar berakas som e ödvädig villkor för e esimaor. E valig krierium är därefer a välja de esimaor som ar misa kvadrerade fele (MSE; eg. mea squared error). MSE kombierar egeskapara effekivie oc bias geom a addera varias oc MSE ˆ θ = E ˆ θ θ = Var ˆ θ + B ˆ θ. kvadrerad bias för e esimaor: ( ) ( ) ( ) [ ( )] E delmål med e survey är a mäa värdea på udersökigsvariablera för alla eeer som igår i urvale. Iblad aväds begreppe observaiosprocess för de process varigeom värdea på udersökigsvariablera rasformeras ill e daase. Dea ikluderar således urvalsmekaisme såväl som borfalls- oc mäprocesse. 3
I dea uppsas avgräsas ill surveys där varje ee i urvale edas observeras vid e illfälle, e så kallad värsissudie. Dea yp av sudie syfar ormal ill a beskriva udersökigsvariablera iom populaioe, eller a suderar associaioer mella udersökigsvariablera, oc beäms därför som deskripiva respekive aalyiska survey. Skier, Hol oc Smi (989) framåller J. Neyma som de som lag grude ill eori för deskripiva survey, oc P. F. Lazarsfield ill aalyiska survey. På sida beskriver de vidare syfe med deskripiva survey som direced a esimaio of summary measures of e populaio, suc as meas ad frequecies., meda Demig (95, sida 49), cierad i Kalo (), beskriver syfe med aalyisk survey som direced a e uderlyig causes a ave made e frequecies of various classes of e populaio wa ey are, ad will gover e frequecies of ese classes i ime o come. Aalyiska survey ka därför sägas syfa ill a gå bakom de beskrivade måe för a söka förklara sambad. Korfaa ka således e deskripiv syfe sägas vara a besvara fråga ur måga? oc e aalyisk syfe a besvara fråga varför?. Kedall ad Lazarsfield (95) beskriver kausala sambad mella ädelsera A oc B som a A causes B if (a) A precedes B i ime, (b) variaios i A ave correspodig variaios i B, (c) oer variables fail o accou for e associaio bewee A ad B. De är således ie möjlig i e värsissudie a påvisa uruvida associaioer är kausala eller ej då mäig edas sker vid e illfälle. Associaioer ka dock avädas som ypoeiska sambad mella orsak oc verka. Variabler äka som orsaks- oc verka beäms ormal som oberoede oc beroede variabler. Diskussioe om uruvida de över uvud age är möjlig a påvisa kausalie i e sudie lämas därvid. Surveys aväds iom flera olika område. Iom älsoområde ka survey avädas för a karlägga sjukdomar oc älsorelaerade variabler i sora populaioer. Exemple i dea uppsas berör uvudsaklige dea yp av surveys. Dea mosäer aurligvis ie möjligee a geeralisera slusaser äve ill adra område. Kor oc Graubard (999) framåller e fleral fördelar med älsosurveys i jämförelse med adra yper av observaiosdaa. Ofa ka målpopulaioe läare defiieras ä i ypiska epidemiologiska oc kliiska sudier. Härigeom uppsår midre problem med vem frågora berör, sam a vissa yper av bias ka miimeras. Tros de ormal se sora variabiliee i älsodaa är de ädå ofa möjlig a fassälla veeskaplig meigsfulla effeker, ack vare a sora urval ofa aväds. Äve om udersökigara ka vara mycke resurskrävade, iebär god dokumeaioe dock a de ofa är ekel äve för uomsåede a säa sig i i oc aväda maeriale i eferad. Give e sor aal variabler är de också möjlig a udersöka e uppsjö av associaioer. Dessa beöver dock ie vara beroede, ua ka uppkomma på grud av e aa variabel som är relaerad ill både de beroede oc oberoede variabel, e så kallad cofouder. Sora sickprov möjliggör a a äsy ill cofouders. Med sora sickprov ka dock äve e lie sambad bli sigifika äve om de ie är iressa ur veeskaplig syvikel. Rekommedaioe de ger för a udvika felolkigar är därför a oga udersöka sambade geom ill exempel kofidesiervall. Ierakio iebär a e sambad mella de beroede oc e oberoede variabel ka se olika u beroede av ivå på e aa variabel. Äve dea ka beöva prövas i e modell.. Populaio oc parameer Elig Cambers oc Skier (3) ärrör målparameer ormal vid deskripiva survey ill e ädlig populaio, oc iferes görs därefer om dea ädliga populaiosparameer. E =,...,,..., N, där sorleke på ädlig populaio besår av N eeer idexerade med, { } 4
N aas vara käd. Dessa är valigvis idivider som e uppsäig udersökigsvariabler mäs på. dersökigsvariablera besår är av beroede variabler Y sam oberoede variabler X. För ekele i oaioe aväds ills vidare Y som e sammafaade vekor för både Y oc X, meda skiljs seda å med börja i slue av avsi.4.3. Då avgräsige är är ill värsissudier ka aas vara kosa, ill skillad frå exempelvis logiudiella sudier där vilka eeer som igår i populaioe ka förädras över ide. E urval s av sorleke är då e delmägd av. Om vekor θ av sorleke θˆ s. k ieåller målparamerara, ka således e esima basera på urvale skrivas som ( ) Vekor av värdea som igår i Y för ee skrivs som y. Marise för alla populaiosvärde beeckas då med y, oc radera i dea skrivs som y,..., y N. Observaiosprocesse i e survey syfar då ill a mäa värdea på Y för alla eeer som igår i s, för a seda rasformera dessa ill e daase. De variabler som är illgägliga i urvalsrame oc är käda för alla eeer kallas för jälpvariabler. Dessa beeckas med Z, oc är ofa regioala, demografiska eller socioekoomiska variabler. Vekor av värde för ee beeckas då som z oc marise för alla populaiosvärde z,..., z N beeckas som z. Ee Variabler =,,, N X Y Z x y z x y z x y z N x N y N z N Figur. Vekorvärde för populaiosvariablera (med X oc Y skiljda) Vid deskripiva survey besår målparameer θ av ämlige ekla fukioer f ( y,..., y N, z,..., z N ) av populaiosvärdea, oc refereras därför ill som ädliga populaiosparameer. E uförlig beskrivig av iferes vid deskripiva survey ges ill exempel av Cocra (977). Efersom aalyiska survey ar fokus på ur bakomliggade processer ger uppov ill olika sambad sarare ä de begräsade populaioes useede, bör målparameer θ är elig Cambers oc Skier (3) defiieras i förållade ill e obegräsad populaio. Valigvis aas därför e superpopulaiosmodell, vilke syrs av e begräsa aal paramerar i θ. Fokus är därför a dra iferes om dea superpopulaiosparameer. Målparameer θ ka ill exempel vara koefficieer i e regressiomodell. Om värdea på Y ses som e realiserig av e slumpmaris Y vars fördelig syrs av parameervekor θ, så ka e superpopulaiosmodell då uryckas som f ( y ; θ ). Dea är då e äesfukio som ager fördelige för udersökigsvariablera Y syrda av parameer θ. Dea fördelig brukar äve beämas -fördelige. 5
Elig Kalo () skulle e urval frå e superpopulaiosperspekiv kua berakas i vå seg. I de försa sege dras förs e urval frå e oädlig populaio som får ugöra de begräsade populaioe som fakisk ka observeras. E urval dras seda frå dea begräsade populaio. De ädliga populaioes värde y,..., y N ka således ses som e slumpmässig realiserig av e modell som geerera de ädliga populaioe, där modelle är jus superpopulaiosmodelle. Dea möjliggör också avädade av deskripiva esimaorer för a dra iferes om e superpopulaio. Regressioparamerar ka skaas som sammasäigar av olika populaiosoaler, se ill exempel Särdal, Swesso oc Wrema (993) för e ärmare beskrivig. E regressiosparameer baserad på e ädlig populaio kallas då för e cesusparameer, oc beäms som θ. Give e modell som är rä specificerad så går de i måga fall a visa a θ kommer a befia sig ära superpopulaiosparameer θ. De är äve allid möjlig a olka θ då dea ärrör ill de ädliga populaioe. Cesusparameer ka således sägas ugöra e läk mella de esimaorer som aväds iom deskripiva oc aalyiska survey. Elig Cambers oc Skier (3) är de dock sälla rimlig a e modell sämmer exak. Give a θ befier sig ära θ så a modelle är olkigsbar ka dock modelle berakas som robus. Med robuse avses i allmäe a draga slusaser är okäsliga mo förädrigar i aagadea, se Särdal (985). Vid aalyiska survey brukar de umeriska skillade mella populaios- oc superpopulaiosparamerar i regel också miska vid sora populaioer elig Skier m fl (989)..3 rvalsmekaism, desigvik oc borfall De meod som aväds för a dra e urval frå e populaio kallas för urvalsmekaism. E urvalsmekaism med plaerad slump kallas för e saolikesurval. Vid saolikesurval kommer urvalsmekaisme således a vara de fukio som illdelar vardera av alla möjliga sickprov e käd saolike p ( s). Dea beäms därför äve som p-fördelige. alla s För urvalsmekaisme måse gälla a ( s) = p, sam a varje eleme =,..., N som igår i ar e posiiv oc käd iklusiossaolike π a komma med vid urvalsdragige. Geom a represeera urvale med e slumpvekor I ka de realiserade om s värdea berakas som e beroullifördelad iklusiosidikaorvariabel, i =, där om s =,..., N. De N värdea i,...,in ugör således elemee i vekor i, vilke ar sorleke N. rvalsmekaisme ka därför uryckas som e fukio f ( i ) av i, vilke ager N saolikee för a erålla ågo av de möjliga urvale frå populaioe, se Cambers oc Skier (3). De grudläggade ype av urval iom survey är e obude slumpmässig urval ua åerläggig (OS). Här ar varje s av de besämda sorleke samma saolike a dras, 6
N / om s = meda alla s med s ges saolikee oll, p( s) =. rvalsdragig aars sker är geom a eleme dras frå N. Iklusiossaolikee beräkas seda för varje eleme som igår i som π =, oc iverse av iklusiossaolikee kallas för N elemees desigvik, = w. Desigvike ka således likas vid de aal eeer i π populaioe som varje vald ee represeerar. Adele draga eleme av möjliga beäms äve som urvalsfrakioe f =. Baserad på a varje eleme =,..., N som N igår i ar e posiiv oc käd iklusiossaolike π med OS, är e esimaor av e populaiosoal T som är fri frå bias de välkäda Horviz-Tompso esimaor N y y Tˆ = i = = w y, se Lor (999). π π = = = Några adra exempel på urval ä OS är beroulliurval, sysemaisk urval, poissourval, proporioella urval, oc kluserurval. Dessa beskrivs dock ie är, ua ävisig görs ill Särdal m fl (99). Här beskrivs däremo sraifiera urval. Sraifierig sker geom a populaioes samliga eleme delas i i H olika delpopulaioer (,...,,..., H ) basera på e eller flera jälpvariabler. Varje eleme ska ärigeom igå i e oc edas e sraum. De jälpvariabler Z som aväds för a defiiera sraa kallas desigvariabler. Vid sraifierig dras ofa e OS iom respekive sraum oberoede av varadra, äve om de är möjlig a aväda olika meoder för urvalsdragig i olika sraum. Härigeom erålls e sraifiera OS (STOS). Aale eleme i sraum beeckas då som N, oc urvalssorleke i varje sraum som. Varje eleme iom samma sraum =,..., H kommer då a a samma iklusiossaolike oc desigvik π = w =, äve om de N ka skilja mella sraa. När alla eeer i ela urvale ar samma iklusiossaolike beäms urvale som självvika. E OS är således allid självvika, liksom e proporioell STOS där för varje sraum =,..., H gäller a w N =. N = Syfe med a aväda e STOS isälle för e OS ka vara a vilja illförsäkra sig observaioer frå vissa delpopulaioer eller a erålla illräcklig precisio iom dessa geom a välja illräcklig sora. Vidare ka borfalls- oc mäproblem skilja mella olika sraa, eller re admiisraiva geografiska ideligar moivera e specifik idelig i sraa. E aa vikig aledig a aväda STOS är variasredukio. Kor oc Graubard (999) beskriver dea som a om eeera iom respekive sraum är omogea blir variase iom varje sraum lie. De poolade variase mella sraa kommer då a vara midre ä variase frå e OS med mosvarade urvalssorlek. Variasredukioe ka påverkas på vå sä. Förs ka illgäglig iformaio avädas för a välja sraa så a de blir omogea. Dea iformaio ka äve avädas för a miska variase geom possraifierig, se ill exempel Lor (999) för e beskrivig av 7
possraifierig. De adra säe ugår frå a välja så a de poolade sraumvariase miimeras. Dea förusäer kuskap om N sam variasera S iom sraa. Give kuskap om dessa sam om kosade för sraifierige beskriver Cocra (977) ur e opimal sraiferigspla ka uformas. Vid jämförelse mella e vald desig oc e OS med samma urvalssorlek ka effekivie varvald desig ( ˆ) θ os e parameerskaig θˆ mäas geom desigeffeke, deff =. Skier varos ( ˆ) θ m fl (989) argumeerar dock för a dea edas är lämplig för vale av desig uder desigsadie. I aalyssadie då e desig reda är realiserad argumeerar de därför för a isälle sudera effeke av e desig uifrå möjliga variasesimaorer, vilke de beämer som misspecificerigseffek (meff), se Skier m fl (989) för e uförligare beskrivig. Borfall är e valig problem med surveydaa, oc måse allid aeras på ågo sä. Skillad görs ormal mella ees-/svarsborfall oc pariell borfall. Ee klassas ormal som eesborfall då y ej är observerad, äve om z är illgäglig. Dea är ill exempel falle då e perso avså frå a besvara e ekä, me där regiserdaa fis illgägliga. Pariell borfall föreligger då e eller flera värde i vekor y sakas för ee, ill exempel då e perso avså frå eller missa a fylla i e eller flera frågor i e ekä. I dea uppsas aeras eesborfalle geom a aa a de uppkommi slumpmässig (MCAR, eg. missig compleely a radom) iom urvale. Vid äsy ill sraifierig aas a urvale är MCAR iom respekive sraum. Dea iebär således a de illgägliga eeera iom e sraum aas vara e slumpmässig urval av de draga eeera iom sraume. Efersom z aas käd ka dea äve uryckas som eesborfalle är (MAR, eg. missig a radom). Pariell borfall aeras är geom a ueslua eee el oc därefer beraka äve dea ee som e del av eesborfalle. Svarsadel r i sraum beräkas då som aale illgägliga av aale draga eeer i sraume. E ees desigvik ka därefer juseras med äsy ill r som för borfall, se Lile oc Rubi ()..4 Iferes N w =. För e mer eläckade beskrivig av juserig r Vid iferes om målparameer θ i populaioe bör skaig av θ ske med effekiva oc kosisea esimaorer. Vid survey baseras skaige på de observerade värdea av y frå udersökigsvariablera Y, me iferes rör populaioe som ele. Give e observera urval i frå I krävs därför a relaioe mella de observerade ( y i = ) oc ickeobserverade eeera ( y i = ) ka specificeras. Om ( Y, I ) berakas som e slumpmaris, iebär dea i prakike a ge e beskrivig av de möjliga ufalle frå de simulaa fördelige y, i ). ( 8
Som ova oeras ager urvalsmekaisme f ( i ) saolikee för de möjliga ufalle i på I, sam f ( y ; θ ) fördelige för udersökigsvariablera Y syrda av parameer θ. E beskrivig av de möjliga ufalle för de simulaa fördelige y, i ) skulle då ( iebära e specificerig av de simulaa fukioe f y ; θ ) f ( i ). För a dea ska vara ( möjlig krävs dock a specificera ur f ( y ; θ ) oc f ( i ) ka aas oberoede. I aa fall är riske a esimaorer ie blir kosisea oc effekiva, oc iferese därigeom felakig. I avsi.4. preseeras vå uvudsakliga sysä på ur oberoede mella f ( ; θ ) oc f ( i ) ka berakas. Avsi.4. fördjupar seda diskussio av vad som krävs för a specificera f y ; θ ) f ( i ), oc i.4.3 diskueras vale mella sysäe.4.. (.4. Modell- oc desigbasera sysä De vå sysäe för iferes med surveydaa brukar beämas som desig- respekive modellbasera sysä. Elig Särdal (985) omfaa begreppe sysä vale oc geomförade av e urvalsdesig, vale av esimaor iklusive vale av variasesimaor, sam iferes om e eller flera paramerar. Desigbasera sysä beskrivs blad aa i Cocra (977), oc e modellbasera sysä ias av blad aa Vallia, Dorfma oc Royall (). Elig Smi (994) var debaklimae uder e lägre id ård mella förerädare för de vå sysäe. der de sease åriodea ar dock i ögre grad präglas av kosesus, där de båda sysäe mer kommi a berakas som kompleerade varadra. Smi framåller blad aa ur sraifierig förordas uifrå desigbasera sysä, oc beräffade modellbasera sysä skriver a a Mos workers i is area ave come o e coclusio a e mos useful class of models wi some guaraee of robusess over a wide rage of aleraives is e class of sraificaio models. Smi (994, sida 9) Äve Skier m fl (989) beoar a sysäe framförall bör berakas som kompleerade varadra. Därför är gräse mella dem ie uppebar. Som exempel ka ämas de desigbaserade modellassiserade sysäe som beskrivs av Särdal m fl (99). Dea är dock i uvudsak e desigbasera sysä. Kalo () ar upp a de ka vara möjlig a vika mella desig- oc e modellbaserade esima. Dea görs av Lile (99) uifrå bayesiask sysä, oc är således främs är a beraka som e modellbasera sysä. Lile (3) vidareuvecklar äve dea idé i e pågåede arbee. För a udersöka skilladera mella sysäe görs dock i dea uppsas e uppdelig mella desig- oc modellbasera sysä vid klassisk iferes basera på asympoisk eori, där sora urval iebär a cerala gräsvärdessase är illämplig. Särdal (985) aväder e cia av Smi (978) för a påvisa de grudläggade förusäige för iferes uifrå respekive sysä. For survey aalysis we ca disiguis wo pricipal coeders. Tese are (i) ifereces based o e p-disribuio geeraed by e radomisaio i e desig ad (ii) ifereces based o e -disribuio, a ypoeical disribuio of errors associaed wi a socasic model wic is assumed o uderlie e daa.. Smi (978) cierad i Särdal (985), sida 5. Elig ova ka p-fördelige respekive -fördelige uryckas med fukioera f i ) respekive f ( ; θ ) y. ifrå e desigbasera sysä aas elig Lor (999) a värdea y y ( 9
på udersökigsvariablera är okäda me fixa värde. Således ka f ( y ; θ ) berakas som e okäd kosa oc därför ej avädas för a beskriva relaioe mella de observerade eeera oc populaioe som ele. Däremo aas a urvalsmekaisme f ( i ) är käd. Relaioe mella eeera i urvale oc eeera uaför urvale ka således beskrivas som a de seare ade kua väljas om e aa i erållis vid urvalsdragige. Saolikee a observera e viss ufall på e variabel kommer därför edas a bero av saolikee för de möjliga urvale av eeer, vilke besäms av f i ). rvalsmekaisme f ( i ) fugerar således som de käda slumpvariabel vilke avgör vilka eeer som ska igå i urvale. E förusäig för desigbaserad aalys är således a saolikesurval aväs, så a f ( i ) är käd för alla möjliga värde på i. För a korrek represeera urvale krävs därför a äsy as ill iklusiossaolikeera π. Då f ( y ; θ ) aas me kosa beövs därför iga aagade om udersökigsvariablera Y:s fördelig i θ. Ige mosäger dock a fukioe fakisk beskriver ur daa geereras. E desigbasera sysä ka därför sägas ugöra e icke-paramerisk väg ill iferes. ifrå e modellbasera sysä aas isälle a urvalsmekaisme f ( i ) är okäd me fix, oc därför ka berakas som e kosa. Däremo berakas udersökigsvariablera Y som slumpvariabler vilka geereras frå e superpopulaiosmodell med parameer θ. Härigeom kommer fördelige för udersökigsvariablera f ( y ; θ ) a ugöra e läk mella de eeer som åerfis i urvale oc eeera uaför urvale, där aagade är a modelle ka förklara samliga dessa. Efersom f ( y ; θ ) iebär e aagade om θ så ka modellbaserad iferes sägas vara paramerisk. Dea är e sarkare aagade ä vid desigbasera sysä, efersom iferes edas kommer a vara gilig give a de aaga modelle är korrek specificerad. Modellbasera sysä förusäer således ie saolikesurval. Här aas isälle a desigiformaio ka as äsy ill vid specificerig av de akuella modelle. Dea mosäger dock ie avädade av saolikesurval. Klassisk iferes är möjlig oavse vilke av de vå sysäe som ias. ifrå modellbasera sysä är de äve möjlig a aväda bayesiask iferes geom a e priorfördelig p Y = p( Y θ ) p( θ ) d( θ specificeras för populaiosvärdea, se Lile (3). Modell- oc ( ) ) desigbasera sysä leder dock elig Lor (999) ie sälla ill samma resula äve om iebörde av olkigara skiljer sig å. E desigbasera kofidesiervall för e populaiosmedelvärde uifrå klassisk iferes olkas är som a om kofidesiervall med kofidesgrade α bildas för e medelvärde i alla möjliga oberoede slumpmässiga urval (OS) av sorleke frå e begräsad populaio av sorleke N, så ska α av dessa äcka de saa populaiosparameervärde. Tolkige ugår således frå urvale i vilka erållis geom repeerade dragigar frå slumpvekor I. E modellbaserad kofidesiervall olkas däremo give de valda modelle f ( y ; θ ), där de övre oc de udre gräse i kofidesiervalle ses som slumpvariabler. Äve är ka e repeiiv olkig göras geom a aa a värdea för e populaio ka geereras frå f ( y ; θ ) i pricip i all oädlige, samidig som kofidesiervall med kofidesgrade α bildas för varje urval. Av alla möjliga urval som (
ka geereras av modelle, så kommer de förväade adele vilka äcker de saa populaiosmedelvärde då a vara α..4. Igorable oc iformaiv desig Oavse vilke av sysäe som aas kommer giligee av slusasera vara avägig av om f ( y ; θ ) oc f ( i ) är oberoede eller ej. Dea aagade beäms som a urvalsdesige är igorable. Bider oc Robers () ger e geerell defiiio av begreppe: Esseially, a sample is said o be igorable for a variable of ieres if e iferece based o all e kow iformaio, icludig e sample desig iformaio, is equivale o e iferece based o e same iformaio, excludig e oucomes of e radom variables correspodig o weer eac ui is i e sample. Bider oc Robers () sida. De beskriver också e regressiosmodell där äsy agis ill desige: Here, ere is o iformaio coaied i e model abou e sample desig beyod wa is explicily specified i e model. We oe a e defiiio of a igorable sample allows for desig variables, suc as sraum ideifiers i e case of sraified sample, o be par of e model specificaio. Terefore, if all e releva feaures of e sample desig are correcly icorporaed io e model, e desig is igorable. If, o e oer ad, ere are feaures of e desig wic would make e regressio model ivalid for a leas some observaios, e desig may be o-igorable.. Bider oc Robers () sida. Närliggade är begreppe ickeiformaiv, vilke ie berör iferes ua variablera. E desig är ickeiformaiv om de erålla urvale ar e saolikesfördelig som överessämmer med de valda modelles. I aa fall är desige iformaiv. E desig som är ickeiformaiv kommer allid a vara igorable, me däremo beöver e igorable desig ie vara ickeiformaiv. Således räcker de a visa a e desig är ickeiformaiv för a de också ska vara igorable. Avgörade vid desigbasera sysä är uruvida de geomförda urvale fakisk överessämmer med de avsedda. E korrek geomförd urvalsdesig ua borfall eller adra urvalsfel, e korrek esimaor ieållade desigviker, sam e illräcklig sor urval, leder är ill gilig iferes. Aagade a desige är igorable ka således uppfyllas geom a ikludera desigvikera. Vid modellbasera sysä krävs dock a iferes ie påverkas av ågo iformaio i f i ). I aa fall krävs a äsy as ill dea iformaio geom ( modellerig av f ( ; θ ), vilke ka vara komplicera. y Cambers oc Skier (3) aväder e fall-koroll-sudie som exempel på e iformaiv desig. falle av e dikoom variabel y ager är uruvida ee illör gruppe fall eller koroll. Dessa vå grupper ka således sägas bilda varsi sraum, oc urvale görs ormal som e OS iom respekive sraum. Give a fall- oc korollgruppe fakisk skiljer sig å med avseede på udersökigsvariablera, så kommer urvalsmekaisme f i ) a bero av värdea på y oc således vara iformaiv. För a kua dra iferes om de simulaa fördelige för y, i ) krävs dock a desige är ickeiformaiv. Dea ka uppås geom ( a f ( i ) beigas på värde av y, så a de simulaa fördelige ka skrivas som f ( i Y = y ) f ( y ; θ ). För a modelle ska gälla för samliga eeer i populaioe krävs (
därför uöver a specificera modelle f ( y ; θ ) för Y äve a modellera urvalsdesige f ( i Y ) så a de gäller för aleraiva ufall för Y aa ä bara y. E aa exempel på e iformaiv desig som Cambers oc Skier (3) ar upp är då desigvariabler aväds för a defiiera sraa. Elig ova ka z är ses som e ufall på slumpmarise Z. För a visa på urvalsdesiges beroede av z ka f ( i ) då skrivas som f ( i Z = z ). Give a värdea på Z ålls kosaa vid z är urvalsmekaisme specificeras, måse dessa också ållas kosaa är de simulaa fördelige för Y oc I specificeras. Fördelige för Y med Z kosa vid z ka därför skrivas som f ( y Z = z ; φ). Aledige a parameervekor φ aväds isälle för θ är a de beigade fördeligara ka äkas skilja sig frå de ursprugliga f ( y θ ). Beigige iebär således a θ bys u mo φ. Give a de ie förkommer ågo aa direk beroede mella f ( i ) oc y så ka de simulaa fördelige för Y oc I då uryckas som f ( I Z = z ) f ( Y Z = z ; φ). Här aas allså a Y oc I blir oberoede beiga på z, oc således a desige blir ickeiformaiv. Cambers oc Skier aser a beigig på z edas bör göras om olika värde på z fakisk represeerar relevaa delgrupper av e populaio där fördelige för ufallsvariablera Y skiljer sig å mella sraa. Dea ka göras geom a z ikluderas som e oberoede variabel i modelle, eveuell med ierakioseffeker. De aser dock ie a de vid besämmade av fördelige för Y är ödvädig a beiga på de desigvariabler i z som är av admiisraiv karakär. Dea moiveras med a de i allmäe ie är lämplig om urvalsmeode är drivade i specificerige av målparamerara, då modelle för Y ädras frå f ( y θ ) ill f ( y Z = z ; φ), där θ ka skilja sig frå φ..4.3 Desigäsy oc val av sysä Elig Skier m fl (989) är re äsy ill desige os e survey akuella vid iferes. Dessa är defiiioe av målparameer θ, vale av pukesimaor θˆ, sam vale av sadardfelsesimaor s. eˆ.( ˆ θ ). De sisa är ekvivale med vale av variasesimaor V ar ˆ ( ˆ θ ). Dessa puker åerkommer i diskussioe eda, sam i avsi.5 om esimaio. Deskripiva survey ugår valigvis frå e desigbasera sysä vid iferes om ädliga populaiosparamerar. Modellbasera sysä förekommer dock elig Kalo () vid väldig skeva fördeligar. Vid aalyiska survey besäms målparameer ofa geom e ieraiv process då e exak modell i regel ie fis besämd på förad. Här är de valigare a ugå frå e modellbasera sysä efersom superpopulaiosparamerar skaas. E desigbasera sysä ka dock ias geom a ugå frå e ädlig cesusparameer θ. Som idigare äms kommer de re umeriska skillade mella populaios- oc superpopulaiosparamerar vid aalyiska survey i regel också a miska vid sora populaioer. Oavse vilke målparameer som är akuell beäms dea i de seare exe som θ, oc aas om ige aa ages a vara väldefiierad. Avädade av desigviker är allmä accepera vid deskripiva survey, se ill exempel Kis (99). Beräffade aalyiska survey går dock åsikera mer isär elig Pfefferma
(993). I prakike besår skillade mella e desigbasera oc e modellbasera sysä ofa av a de idigare ar äsy ill desigvikera, äve om de ie fis ågo som mosäger a desigviker äve ka avädas vid modellbasera sysä, vilke Pfefferma ger e översik över ur de ka göras. Syfe är är dock a åskilja sysäe, varför är aas a desigviker edas aväds vid desigbasera sysä. Som idigare äms berakas sysäe i prakike dock främs som kompleerade varadra. Då desigbasera sysä aväder sig av desigvikera är de ärigeom läare a erålla kosisea esimaorer. Eklas ses dea geom a beraka skaig av e medelvärde. Om urvale är drage som e oproporioell STOS där medelvärde mella sraa skiljer sig å, så kommer desigvikera a kompesera för dea skillad. Dea riskerar dock e modellbaserad esimaor a missa om de ugår frå a urvale är OS. Avädade av desigviker ka således sägas skydda mo iformaiva urval. Om urvale isälle vari proporioell STOS oc således självvika, skulle esimae dock a vari kosise. Om modelle är felakig riskerar således modellbaserade esimaorer a ie vara kosisea. Desigbaserade esimaorer är dock kosisea oavse om modelle är korrek eller ej. I falle vid e felspecificerad modell, ill exempel vid uelämade variabler eller fel fukioell form, kommer dock desigbaserade esimaorer edas a vara kosisea för de ädliga populaiosparameer de fakisk esimerar elig modelle. Ågärder vid e modell som är felspecificerad aa ä i förållade ill desige diskueras ej är ua de iresserade ävisas ill exempelvis Sock oc Waso (3). A däremo allid a äsy ill desigvikera riskerar dock a vara ieffekiv. Om urvale i exemple ova gjors av admiisraiva skäl där variase iom de olika sraa ej skiljer sig ämvär å så kommer desigbaserad sysä med desigviker leda ill e överskaig av populaiosvariase för medelvärde. Skaig av variase uifrå modellbasera sysä kommer då a vara mer effekiv. Give e ickeiformaiv desig kommer således avädade av desigviker a leda ill e effekiviesförlus. Ju mer desigvikera varierar deso sörre kommer också dea förlus a vara, se Kor oc Graubard (999). Om däremo desige är iformaiv är riske sor a variasesimae vid e modellbasera sysä blir felakiga såvida ie dea as äsy ill i modelle. Äve om modelle är felspecificerad vid desigbasera sysä me variase skaas för e cesusparameer där de deskripiva måe är korreka, så kommer dock variase är a skaas korrek. Give a e modell är korrek specificerad är således e avgörade fråga för vale av sysä uruvida desige är iformaiv eller ej. Om så är falle så kommer desigvikera vid e desigbasera sysä direk a jusera för skillade mella populaioe oc urvale, oc ärigeom garaera a skaigara är approximaiv kosisea. Vid e ickeiformaiv desig riskerar däremo e desigbasera sysä a leda ill e effekiviesförlus. E modellbasera sysä är a föredra om e modell är korrek specificerad, efersom variasskaigara då ka aas vara mer effekiva ä vid desigbaserad sysä där desigviker aväds. Om modelle däremo är felakig så ka e desigbasera sysä vara a föredra då sysäe delvis ka sägas skydda mo e felspecificerad modell i populaioe. Dea ses geom a desigvikade esima relaiv se påverkas midre av a ill exempel e eller flera oberoede variabler sakas i e modell. Vale av variabler är ju också begräsa ill dem som fakisk observeras, se Lor (999). 3
Lor (999) diskuerar vilke sysä som är lämplig vid regressiosaalys. Vid e eoreisk välkä sambad är modellbasera de aurliga sysäe. Fördelara med modellbasera sysä framålls som måga då de överessämmer med samällsveeskapliga eorier, är kosise med adra delar iom saisik, möjliggör äsy ill borfall, sam ger e ramverk för a jämföra eorier om srukurella sambad. Modellbasera sysä möjliggör också esimaio vid små eller icke-saolikesbaserade urval. Som framållis ka dock e felspecificerad modell såsom uelämade variabler vara e problem vid modellbasera sysä, i syere om dessa är relaerade ill desige. Då aagade är a e modell äve aas passa samliga observaioer i populaioe oc ie bara dem som igår i urvale poägeras dock vike av a udersöka aagadea, ill exempel om de sämmer för olika delgrupper. Med ugågspuk frå syfe med regressiosaalys ger Lor (999) följade råd om är desigviker bör avädas eller ej, vilke är implicerar vale mella sysä: Vid beslusuderlag baserad på officiell saisikprodukio för esimaio av paramerar där iferes dras uifrå desige. Om desigviker aväds deskripiv oc syfe äve är aalyisk bör ma vara kosise oc äve aväda dem i de seare falle. Ej vid icke-saolikesurval eller små urval då modellbasera sysä bör väljas. Ej om idigare eori oc kuskap alar för e viss modell efersom dea alar för e modellbasera sysä. Elig Cambers, Dorfma oc Sverckov (3) fis idag ige sä a defiiiv besämma om e urval är drage via e iformaiv urvalsmeod. De beskriver praxis som a ebar aväda desigviker om de leder ill a resulae skiljer sig frå meoder som geomförs ua desigviker. Dea sker geom a förs beräka vikade oc ovikade skaigar för målparamerara sam beräka desig- oc modellbaserade variaser för de vikade esimae. Om urvale är ickeiformaiv kommer esimae oc variasera a vara ära varadra. Om däremo esimae är olika ka urvale vara iformaiv, oc om esimae är lika me variasera är olika är urvale iformaiv. De beskriver olika sä ur dea skulle kua esas. De försa bygger på e Wald-saisiska, vilke dock kräver e jackkife simulerig av e kovariasmaris. Jackkife beskrivs blad aa av Lor (999). Dea es syes dock elig förfaara a fugera sämre vid eeroskedasicie. Yerligare e es basera på e mulivaria ormalfördelig syes a samma bekymmer. E redje es de föreslår baseras på aagade om oberoede mella iklusiosidikaorvariabel I sam variabel Y beiga på X. Tese är dock beroede av urvalssorleke sam aale grupperigar som görs av X. Dessa diskueras därför ie vidare är ua de iresserade ävisas ill Cambers m fl (3)..5 Esimaio Såsom beskrivis ova är efersrävasvärda egeskaper os e esimaor a de är fri frå bias sam är effekiv. Som omäms brukar krave på avsakad av bias ersäas med de svagare krave a esimaor ska vara kosise. Dea gäller ill exempel vid icke-lijära esimaorer såsom variaser eller regressioskoefficieer valiga vid aalyiska survey. Give kosises bör vale av esimaor därefer ugå frå effekivie, med måle a miimera MSE. E disikio mella modell- oc desigbaserad kosises, varias, oc MSE, görs uifrå a måe baseras på p-fördelige respekive -fördelige. Som kommeeras ova leder dock modell- oc desigbasera sysä med klassisk iferes basera på cerala 4
gräsvärdessase ofa ill samma resula äve om iebörde skiljer sig å. I båda falle är e esimaor kosise om differese mella de saa värde oc de förväade värde av sampligfördelige för esimaor går mo oll är urvalssorleke går mo oädligee. Sampligfördelige ka dock se olika u i de båda falle. För e vidare diskussio ävisas ill Skier m fl (989). Oavse vilke sysä som ias är de ofa möjlig a explici beräka esimaorer för deskripiva pukesima oc variasesima. Desamma gäller lijära pukesima såsom ekla lijära regressioskoefficieer. Dessa skaas ormal medels misa-kvadra-meode (OLS; eg. ordiary leas squares), me äve maximum likeliood (ML) esimaio är möjlig. I bilaga ges e kor irodukio ill ML..5. Replikerig oc lijäriserig Icke-lijära esima såsom variaser ka dock vara mer problemaiska a skaa. E aleraiv är då a approximera esimae med jälp av replikerigsmeoder eller lijäriserig. Replikerig förekommer i e fleral olika variaer såsom radom groups, balaced repeaed replicaio (BRR), jackkife, oc boosrap. Samliga baseras dock på e grudläggade pricip där de illgägliga urvale aeras som e y populaio varifrå ya urval ka dras. Därefer beräkas de esima ma är iresserad uifrå de ya urvale, oc variabilie i dessa ya esima aväds därefer för a beräka de efersöka variasesimae. Replikerigsekiker beskrivs av blad aa Lor (999). Lijäriserig sker i regel geom expasio av Taylorserier, ugåedes frå Taylors formel, se Persso oc Böiers (). Taylors formel säger a fukioe f (x) i e omgivig av puke x = a ka approximeras geom a uvecklig av e alföljd elig formel ( ) ( + ) f ( a) f ( a) f ( b) ( ) ( ) ( )... ( ) ( ) ( ) ( + f x = f a + x a + + x a + x a ), där b är e al mella!! +! a oc x. Högerlede beäms är som Taylorpolyome av ordig, där de sisa erme är e reserm vilke ager fele i approximaioe av f (x). Ju sörre som väljs deso midre blir dea erm oc deso ärmare kommer approximaio de saa fukiosvärde f (x). Efersom e varias ka uryckas som Var[ f x) ] E f ( x) [ ] E f ( x) [ ] ( = så ka variase för fukioe f (x) ärigeom approximeras med Taylorpolyome av försa ordige geom a a bys u mo E (x) i Taylors formel så a följade erålls: Var [ f x) ] f ( E ( x) ) + f [ E ( x) ][ x E ( x) ] = f [ E ( x) ] Var [ x E ( x) ] (. Give a Var [ x E( x) ] = Var[ x] är käd sam a försa derivaa av f (x) exiserar ka således variase för f (x) ärigeom approximeras. På samma sä ka fukioer av flera variabler expaderas för a erålla variasapproximaioer, förusa a fukioe är deriverbar så a pariella derivaor exiserar, se Lee, Forofer oc Lorimor (989). Pricipe som aväds vid lijäriserig är a urycka de parameer θ som öskas skaas som e fukio av eklare paramerar med käda variasuryck, ill exempel θ = f T,..., T ) där j =,..., k är populaiosoalera T j med käda variasuryck Var ( T j ). ( k Därefer aväds skaigara Tˆ j i Taylorpolyome av försa ordige för a erålla e V aˆr θˆ. approximaio θˆ, varefer variasurycke ( ) T j Var ˆ uyjas för beräkig av ( ) 5
Elig Lor (999) så är dea approximaio i regel god då reserme i ormala fall är relaiv lie. Fördelar som framålls är a eori bakom Taylorserier är väluvecklad, sam give a pariella derivaor exiserar så ger meode allid e variasesima. Nackdele är dock a beräkigara ka bli röriga efersom flera variasuryck av olika yp ka krävas. Meode ka också vara svår a illämpa vid komplexa fukioer med viker. Exempelvis ka ej eller media eller adra kvariler uryckas som fukioer av populaiosoalera T j. Skier m fl (989) beskriver e problem som ka uppså vid esimaio av kovariasmariser vid aalyiska survey, orsaka av små urvalssorlekar eller måga skaade paramerar. Om aale friesgrader är färre ä dimesioe av kovariasmarise, så kommer esimaor av dea a bli sigulär. Således fis ige eydig lösig ill ekvaiossyseme. Om aale friesgrader edas är ågo fler ä dimesioe av marise riskerar esimae också a a e egaiv bias oc vara isabila. De skulle dock kua lösas geom a modellera variase geom ujämig eller geom lijära sambad mella delesimae oc dess variaser. För e beskrivig av dea ävisas dock ill Woler (985)..5. Exempel på esimaorer I exemple eda preseeras puk- oc variasesima uifrå desig- oc modellbasera sysä. Dessa esima ka avädas för ypoeses eller för a bilda kofidesiervall. Exemple eda berör skaig av e populaiosmedelvärde, sam regressioskoefficieer β vid ekel oc mulipel lijär regressio med illörade variasesima. I kapiel 3 byggs dessa på ill a omfaa regressioskoefficieer vid logisisk regressio. gågspuke är a e STOS av sorleke med H sraum geomförs. Vid desigbasera sysä aas är a sraifierig ka vara iformaiv vilke as äsy ill geom desigviker. Vidare aas a urvale är drage frå e begräsad populaio, vilke iebär a e korrekiosfakor beräkad som e mius urvalsfrakioe aväds vid variasesimaio. ifrå modellbaserade sysä aas däremo a sraifierige är ickeiformaiv oc därför ka borses ifrå. Då populaioe är aas vara drage frå e superpopulaio där N är oädlig sor, kommer korrekiosfakor är a vara lika med e varför dea ka borses ifrå vid variasesimaio, se Kor oc Graubard (999). Som esimaor för e populaiosmedelvärde för variabel Y aväds vid modellbasera sysä urvalsmedelvärde y = y vilke är samma esimaor som aväds vid självvikade urval = med e desigbasera sysä. I prakike iebär dea allså a urvale är berakas som de vore drage geom e OS. Variase för populaiosmedelvärde skaas då som s Var ˆ ( y) =, där s = ( y y). ifrå e desigbasera sysä är mosvarade esimaor y = N som Var( y) sraum. H = N y = = H = = N w s y. Variase för populaiosmedelvärde skaas då H = ˆ N där s = ( y y ) N = = är urvalsvariase i 6
Vid lijär regressio ka observaioera uifrå e modellbasera sysä modelleras som y β + x + e, give ormala regressio aagade, se ill exempel Sock oc Waso = β (3). OLS-esima ka då erållas som = = ( y y)( x x) ( x x) = ˆβ oc ˆ β = ˆ β x. Vid y aagade a variase ( σ e ) för e är omoskedasisk ka dea skaas som se = [ y ( ˆ + ˆ se β βx )], oc variase för ˆβ som Var ˆ ( ˆ) β =. = x x ( ) Vid mulipel lijär regressio skrivs modelle ormal som y = β + βx, +... + β x, + e, vilke med marisoaio ka urycks som y = Xβ + e. k k OLS-esimae för parameorvekor β ka då skrivas som β = ( X ' X ) X ' y = ˆ. Aagade omoskedasisk varias ges kovariasesimaor för βˆ av Cov( β = se ( X ' X ) X ' y s = e r k = oc r y ( ˆ + ˆ β x +... + ˆ β x ) =, k, k β är residualera. ˆ ˆ) E desigbasera sysä vid aalyiska survey kräver dock a målparamerara defiieras i förållade ill e superpopulaio ros a ugågspuke är är e ädlig populaio. Dea görs då geom a aa a målparamerara ses som ädliga cesusparamerar vilka ärmar sig superpopulaiosparamerara, såsom beskrivis i avsi.. Därför aväds är samma parameerbeeckigar som vid modellbasera sysä. Vid ekel lijär regressio erålls OLS-esimae som x = = x oc y = = y ˆβ = H = = H w = =, där ( y y )( x x ) w ( x x ), där är medelvärde iom sraa. Vid mulipel lijär regressio ˆ skrivs de vikade OLS-esimaor för β som = ( X ' WX ) X ' Wy sorleke med vikera w i diagoale. β där W är e maris av Kovariasmarise skrivs då som ( ) Cov ˆ ( ˆ) β = X ' WX s( X ' WX ), där = s s är de sraum-poolade urvalsvariase oc s är urvalsvariase i = N sraum. Kovariasmarise ka skaas som ova, me eklas är a skaa medels lijäriserig. Härigeom släpps äve krave på a felermera ska vara omoskedasiska, se Kor oc Graubard (999). När aagade om omoskedasiska felermer ej är uppfyll, är e aleraiv ill OLS a aväda esimaiosmeode maximum likeliood (ML), se beskrivig i bilaga. Give a 7
sraifierige är igorable så kommer skaig medels ML uifrå e modellbasera sysä ie a skilja sig frå beskrivige i bilaga. Om ma däremo vill aväda sig av e desigbasera sysä me forfarade vill dra iferes om superpopulaiosparameer, så ka ma aväda sig av vad som Skier m fl (989) beämer som pseudo-ml (PML). I pricip går PML u på a låa desigvikera försora upp urvale så a de mosvarar ela populaioe. Härigeom kommer likelioodfukioe a omfaa e fikiv populaio, ros a dea edas är baserad på de illgägliga observaioera. Dea skiljer sig frå ML som förusäer a likelioodfukioe baseras på observeraioer, oc är således aledige ill a begreppe pseudo aväds. Målparameer ka vid PML defiieras på flera sä, me elig Skier m fl (989) ger alla lösige ill score-ekvaioera, se bilaga. Efersom målparameer är är cesusparameer är som idigare oeras skaigara i pricip av deskripiv karakär, se Cambers oc Skier (3). Bider (3) visar dock a PML esimaorer ka räfärdigas asympoisk äve vid aalyiska survey. Bider (983) visar också ur lijäriserig vid komplexa surveys ka avädas äve är θ är lösige ill ekvaioe f ( θ, T,..., ) = me θ ie ka uryckas som e explici fukio av populaiosoalera T,...,Tk, jämför med avsi.5.. Dea ka ill exempel vara falle är PML aväds vid logisisk regressio. T k 3 Biär logisisk regressio I dea kapiel preseeras logisisk regressio. Beskrivige avgräsar sig ill biär logisisk regressio. För e beskrivig av muliomial logisisk regressio, se Hosmer oc Lemesow (). I försa ad beskrivs de es vid logisisk regressio som fis illgägliga i SAS versio 9.. Två område som edas diskueras perifer är är ploar i allmäe, liksom residualgraskig. Aledige ill dea är dels av urymmesskäl, dels a dessa ej är illgägliga i ågo sörre omfaig i programvara SAS 9. som aväds i kapiel 4 för a illusrera ur äsy ka as ill surveydaa. Vike av dessa delar ka dock ie og udersrykas. Beskrivige i avsi 3.-3.5 ugår frå e modellbasera sysä där surveydaa ej as äsy ill. Iledigsvis i avsi 3. preseeras geeraliserade lijära modeller följ av förusäigar oc aagade för logisisk regressio. Därefer preseeras logisisk regressio sam jämförs med ekel lijär regressio oc diskrimiaaalys. Avsi 3. beskriver skaig oc olkig av koefficieer, meda avsi 3.3 beskriver grudläggade priciper för modellbygge. I avsi 3.4 beskrivs es för komplea modeller oc eskilda koefficieer. Vidare beskrivs es för ur bra modelle skaar ufalle i de beroede variabel i avsi 3.5. ifrå e modell- respekive desigbasera sysä diskueras seda i avsi 3.6 ur äsy ka as vid illämpig på sraifierade surveydaa. 3. Förusäigar, aagade oc modellbeskrivig Logisisk regressiosaalys går främs u på a beskriva sambade mella e dikoom beroede variabel oc e eller flera oberoede variabler. Syfe ka också vara a klassificera objek (idivider) i ågo av vå grupper, eller a skaa saolikee för e ufall (predikio). 8
Logisisk regressio igår i e grupp saisisk modeller beämda geeraliserade lijära modeller (GLM). Såsom ame ayder är dea e sammafaade meod för a aera modeller som är lijära i paramerara. De saisiska modeller som igår i GLM ar e aal likade egeskaper vilke gör de möjlig a kaegorisera dessa modeller i e gemesam grupp. McCullag oc Nelder (989) ger exempel på modeller som igår i GLM, lijär regressio, variasaalys, logi- oc probimodeller, loglijära modeller, muliomiala resposmodeller oc vissa modeller för överlevadsdaa. McCullag oc Nelder (989) beskriver ur modellera i GLM baseras på re kompoeer. De försa är e slumpmässig kompoe vilke ieåller de beroede variabler Y där observaioera aas vara oberoede oc likafördelade med kosa varias. De adra är e sysemaisk kompoe ieållade de oberoede variablera i X, vilka aas ge e lijär skaig. De redje kompoee ugörs av läke mella de slumpmässiga oc de sysemaiska kompoee, läkfukioe g(.). I abell 3. visas ur kompoeera är sammasaa för ågra exempel av modeller iom GLM. Tabell 3. Exempel på saisiska modeller iom GLM Fördelig Modell Läkfukio Väevärde Normal Ideie X β = µ µ = Xβ Expoeial Ivers X β = µ µ = ( X β ) Gamma Poisso Log X β = l(µ ) µ = exp( Xβ ) Biomial Logi µ exp( Xβ ) Muliomial X β = l µ = µ exp( Xβ ) Logi i GLM är desamma som logisisk regressio. De forsaa beskrivige av logisisk regressio baseras på de begreppsflora som aväds av Hosmer oc Lemesow () sarare ä de GLM-ermiologi som aväds av McCullag oc Nelder (989). Sarma (996) framåller a logisisk regressio ar måga likeer med diskrimiaaalys. Vid diskrimiaaalys aas a de oberoede variablera är koiuerliga oc följer e mulivaria ormalfördelig. Dea aagade kommer ej a vara uppfyll om de oberoede variablera är diskrea. E lösig är då a aväda logisisk regressio, vilke ej aar e mulivaria ormalfördelig. Sarma (996) visar också a logisisk regressio med ebar e kaegorisk oberoede variabel ka reduceras ill aalys av e korsabell. Hosmer oc Lemesow () gör e pedagogisk poäg i a jämföra lijär oc logisisk regressio med e oberoede variabel, där de visar på de grudläggade skilladera i aagade. Vid lijär regressio aas a förållade är lijär oc ka uryckas som E( Y x) = β + βx, se ideiesmodelle i GLM, abell 3.. Ekvaioe förusäer a E ( Y x) ka aa alla värde på de reella allije, < E ( Y x) < +. Vid e dikoom beroede variabel är dock E ( Y x) begräsad ill e saolikesiervall för de biära ufalle, E ( Y x). Förädrige i E ( Y x) då x förädras e ee är skarp avagade då E ( Y x) ärmar sig eller, vilke ger uppov ill e S- kurva. Dea beäms äve som de logisiska kurva, se figur 3.. 9