Matrismodellen vs Two-part regressionsmodeller -effekter på Region Skånes resursfördelning-

Statstska nsttutonen Matrsmodellen vs Two-part regressonsmodeller -effekter på Regon Skånes resursfördelnng- Av: Jennfer Ercsson Uppsats Statstk 15 hp Nvå 61-90 poäng September 2007 Handledare: Mats Hagnell Bhandledare: Juan Merlo

ABSTRACT An mportant task for Regon Skåne s to allocate resources to the health care dstrcts. From 1999 to 2002 Regon Skåne used needs-based resource allocaton as a model for allocatng resources. In a needs-based resource allocaton ndvduals wth the same socoeconomc and demographc characterstcs are assumed to have the same level of need and are therefore allocated the same amount of resources. Durng the perod of needs-based resource allocaton a matrx model was used as a method. In the matrx model ndvduals were dvded nto cells after each combnaton of the socoeconomc and demographc varables. Mean costs n each cell were then calculated and summed for each health care dstrct. An alternatve to the matrx model s to use regresson analyss. However, the dependent varable health care cost s characterzed by a large fracton of ndvduals wth zero costs and few ndvduals wth very hgh costs; hence health care cost has a hghly skewed dstrbuton. Health care cost s therefore assumed to have a mxed dstrbuton;.e. t s both dscrete and contnuous. Two-part models are specally developed for ths type of dstrbuton. By applyng a two-part model a more precse resource allocaton s assumed to be accomplshed. In ths thess the matrx model s compared to two dfferent specfcatons of the two-part model but also wth an ordnary multple regresson model. The focus s on how the dfferent models affect the resource allocaton. The result shows that the two-part models allocate fewer resources n total than the other models. The concluson s that the advantage of applyng a two-part model s low. Ths s due to the fact that the analyss of the two-part model s complcated, both theoretcally and practcally.

INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 1.1 BAKGRUND... 1 1.2 SYFTE... 1 1.3 AVGRÄNSNINGAR... 2 1.4 DISPOSITION... 2 2. DATA... 3 2.1 VARIABLER OCH POPULATION... 3 2.2 KORSVALIDERING... 5 3. MATRISMODELLEN... 6 3.1 FÖRDELNING AV RESURSER EFTER BEHOV... 6 3.2 MATRISMODELLEN I REGION SKÅNE... 6 3.3 BERÄKNINGSMETOD... 7 4 MULTIPEL LINJÄR REGRESSION... 8 4.1 ANALYS AV SJUKVÅRDSKOSTNADER... 8 4.2 MULTIPEL LINJÄR REGRESSION - MODELLEN... 9 4.3 VALIDERING... 9 5 TWO-PART MODELLEN... 10 5.1 TWO-PART MODELLENS FÖRDELNING... 10 5.2 DEL ETT... 11 5.3 DEL TVÅ... 12 5.3.1 MULTIPEL LINJÄR REGRESSION MED LOGARITMERAD BEROENDE VARIABEL... 12 5.3.1.1 VALIDERING... 13 5.3.2 GENERALISERAD LINJÄR MODELL (GLM)... 13 5.3.2.1 MAXIMUM LIKELIHOOD SKATTNING... 16 5.3.2.2 VALIDERING... 16 6. JÄMFÖRELSE AV MODELLERNA... 18 6.1 JÄMFÖRELSE AV REGRESSIONSMODELLER OCH ANPASSNING TILL MATERIALET... 18 6.2 JÄMFÖRELSE AV EFFEKTER PÅ RESURSFÖRDELNINGEN... 20 7. DISKUSSION... 21 8. KÄLLFÖRTECKNING... 23 SAMMANFATTNING... 25 BILAGA 1; VANLIG MULTIPEL LINJÄR REGRESSION... 26 BILAGA 2; TWO-PART MODELLEN DEL 1... 27 BILAGA 3; TWO-PART MODELLEN OLS... 28 BILAGA 4; TWO-PART MODELLEN GLM... 29 BILAGA 5; SAS-KODER... 30

1. Inlednng 1.1 Bakgrund Regon Skåne har som en del sn verksamhet att fördela resurser tll sjukvården. Det fnns dock flera olka metoder för att fördela resurser tll sjukvården. Ett sätt är ersättnng genom att resurser fördelas med en gven summa per ndvd oavsett hur mycket vård som faktskt utförs. Ersättnngen tll sjukvårdsdstrkt för varje ndvd skulle då kunna utgöras av den genomsnttlga kostnaden för alla ndvder Skåne. Denna metod tar dock ngen hänsyn tll att ndvder kan ha olka behov av sjukvård. Ett alternatv är stället att anta att ndvder med samma socoekonomska och demografska karakterstker har samma behov. Resurser fördelas därmed stället efter genomsnttlga kostnader för ndvder med samma karakterstker. Denna metod kallas behovsbaserad resursfördelnng. Ett problem är dock att det nte är möjlgt att fullt ut tllgodose ndvders exakta behov. Målet med den behovsbaserade resursfördelnngen är således att ndvder med samma behov ska ges tllgång tll lka vård gvet sjukvårdens begränsade resurser. Gvet att en behovsbaserad resursfördelnng används, behövs en modell för att fördela resurserna. I Regon Skåne användes under åren 1999 tll 2002 en behovsbaserad resursfördelnngsmodell, där resurser fördelades med en så kallad matrsmodell. I matrsmodellen beräknas genomsnttlga kostnader för ndvder med samma kombnaton av karakterstker. Den genomsnttlga kostnaden multplceras sedan med antalet personer varje sjukvårdsdstrkt med den gvna kombnatonen av karakterstker. Istället för att använda en matrsmodell för att beräkna genomsnttlga kostnader för ndvder med samma karakterstker skulle en regressonsmodell kunna användas. Sjukvårdskostnader karakterseras dock ofta av en stor andel ndvder med noll kostnader och ett fåtal ndvder med mycket höga kostnader vlket ger en starkt skev fördelnng. Dessutom förekommer ofta heteroskedaststet, det vll säga cke-konstant resdualvarans. Detta gör att en regressonsanalys av sjukvårdskostnader blr komplcerad. För att komma tll rätta med problem som skev fördelnng och heteroskedaststet vd analys av sjukvårdskostnader kan en så kallad two-part modell användas. I en two-part modell sker analysen två steg. Den första delen modellerar sannolkheten att en ndvd har kostnader och den andra delen storleken på dessa. I den första delen används oftast en logstsk regresson medan en multpel regresson med logartmerad beroende varabel är vanlgast den andra delen. Det kan hävdas att en twopart modell stämmer bättre överrens med sjukvårdskostnaders underlggande fördelnng vlket sådana fall skulle leda tll bättre skattnng av kostnader. 1.2 Syfte Att modellera behov, det vll säga använda de varabler som bäst förklarar skllnader behov, på ett korrekt sätt är väsentlgt för att en behovsbaserad resursfördelnng ska fungera. Denna uppsats utgår dock från Regon Skånes modellerng av behov och syftar nte tll att utvärdera huruvda denna kombnaton av varabler är korrekt eller ej. Istället behandlar denna uppsats effekter av olka modeller för en behovsbaserad resursfördelnng. Syftet med denna uppsats är således att jämföra en matrsmodell med two-part regressonsmodeller avseende effekter på resursfördelnngen. 1

1.3 Avgränsnngar I denna stude används endast data från år 1999. Materalet består endast av ndvder mellan 45 och 64 år då det var detta materal som stod tll förfogande. 1.4 Dsposton I kaptel två beskrvs populatonen samt varablerna som används de olka modellerna. Kaptel tre tll fem ger en ngående beskrvnng av matrsmodellen, multpel lnjär regresson vd analys av sjukvårdskostnader samt two-part modellen samtdgt som det respektve kaptel utvecklas modeller. De tre olka typerna av modeller jämförs kaptel sex för att sammanfattas en dskusson kaptel sju. 2

2. Data 2.1 Varabler och populaton I denna stude har Regon Skånes regster för resursfördelnng från år 1999 använts. Detta regster består av uppgfter, från Statstska Centralbyrån, om socodemografska och socoekonomska varabler på ndvdnvå. I regstret fnns antalet personer boende Regon Skåne 1999-12-31, vlket ger totalt 1 153 633 ndvder. På grund av materalets storlek analyseras denna uppsats endast ndvder mellan 45-64 år, vlket ger totalt 285 431 ndvder. För varje ndvd fnns regstret uppgfter om kostnader för sjukvård. Kostnaden för varje ndvd nkluderar både öppen och sluten vård, men exkluderar läkemedelskostnader (som fördelas va en separat budget). I tabell 1 fnns beskrvande statstk för sjukvårdskostnader. Sjukvårdskostnader har en lång högersvans vlket hstogrammet fgur 1 vsar. Även toppgheten är hög vlket nnebär högre sannolkhet för extrema värden än om varabeln skulle vara normalfördelad. Varabeln sjukvårdskostnader används som beroende varabel regressonsmodellerna. 25 20 15 P e r c e n t 10 5 0 0 3000 6000 9000 12000 15000 18000 21000 24000 27000 30000 33000 36000 39000 42000 45000 48000 kr onor Fgur 1 Hstogram över sjukvårdskostnader Varabel Medelvärde Summa Mn Max Skevhet Toppghet Sjukvårdskostnader 9320 1 2660229234 0 3106236 17.6 633 N=285431 Tabell 1 Beskrvande statstk för varabeln sjukvårdskostnader, kronor De socoekonomska och socodemografska uppgfterna för varje ndvd som regstret nnehåller används som förklarande varabler. De socoekonomska varablerna är sysselsättnng, nkomst, boendetyp och utbldnngsnvå och de socodemografska är ålder, kön och cvlstånd. Från de ursprunglga uppgfterna Statstska Centralbyråns regster har sammanslagnngar olka grupper gjorts. I tabell 2 fnns ndelnngen av varabler som används matrsmodellen. Då varablerna utbldnngsnvå och nkomstgrupp nnehåller tre kategorer bldas regressonsmodellerna två dummyvarabler för varje varabel. Tabell 3 vsar varablerna som används regressonsmodellerna. 1 Medelkostnaden för hela Skåne år 1999 var 8979 kr (Lthman, 2001) 3

Varabel Värden Ålder 45-54, 55-64 Kön man, kvnna Cvlstånd gft/regstrerad partner, ogft/skld/änka/änklng Sysselsättnng sysselsatta med kontrolluppgft, personer med kontrolluppgft ej sysselsatta Inkomstgrupp nollnkomsttagare, under medannkomst, över eller lka med medannkomst Boendetyp småhus och jordbruksfastghet, övrga fastghetstyper Utbldnngsnvå folkskola/grundskola/uppgft saknas, gymnaseskola, högskola/forskarutbldnng Tabell 2 Varabler matrsmodellen Varabel Typ Värden Andel Ålder Dkotom 1 = 55-64 år 55,1 0 = 45-54 år 44,9 Kön Dkotom 1 = Man 49,9 0 = Kvnna 50,1 Cvlstånd Dkotom 1 = Ogft, skld, änka, änklng 35,5 0 = Gft, regstrerad partner 64,5 Sysselsättnng Dkotom 1 = Ej förvärvsarbetande 5,4 0 = Förvärvarbetande 94,7 Inkomst1 Dkotom 1 = Under medannkomst 29,5 0 = Annars 70,6 Inkomst2 Dkotom 1 = Över eller lka med medannkomst 66,6 0 = Annars 33,4 Boendetyp Dkotom 1 = Småhus, jordbruksfastghet 66,5 0 = Övrga fastghetstyper 33,5 Utbldnng1 Dkotom 1 = Högskola, forskarutbldnng 26,4 0 = Annars 73,7 Utbldnng2 Dkotom 1 = Gymnaseutbldnng 40,5 0 = Annars 59,5 Vårdtung dagnos Dkotom 1 = Vårdtung dagnos 6,5 0 = Ej vårdtung dagnos 93,5 Tabell 3 Förklarande varabler regressonsmodellerna I materalet fnns även uppgfter om ndvden har någon vårdtung dagnos. Vårdtunga dagnoser består av grupper av dagnoser som anses kostsamma för samhället. De vårdtunga dagnoserna med ICD-10 koder 2 fnns tabell 4 och följer ndelnngen från Behov och resurser vården (SOU 1996:163). Två vårdtunga dagnoser, avldna under året samt astma och kronsk obstruktv lungsjukdom, har exkluderats på grund av att de nte fanns med materalet. Tre dagnosgrupper har lagts tll, dessa fnns beskrvna tabell 5. Andelen ndvder mellan 45-64 år med någon av de vårdtunga dagnoserna beskrvna tabell 4 och 5 är 6,6 procent. Denna grupp av ndvder står för 47 procent av de totala kostnaderna. Vårdtung grupp Artros Cancer Cerebrovaskulär sjukdom Dabetes Höftfraktur Inflammatorsk ledsjukdom Ischemsk hjärtsjukdom ICD-10 M15-M19 C00-C97 I60-I69, G45 E10-E14 S720-S722 M05 I20-I22, I50 Schzofren och övrga psykoser F00-F09, F10-F19, F20- F39, F40-F48 Tabell 4 Vårdtunga dagnoser 2 ICD-10 koder är ett klassfcerngssystem för sjukdomar och symptom 4

Dagnos Dalys Grå starr Övrga skador Tabell 5 Övrga dagnoser ICD-10 Z49 H25 S00-T98 exkl. S720-S722 Fördelnngen av resurser sker tll de fem sjukvårdsdstrkten 3 som kommunerna Skåne är uppdelade. Tabell 6 vsar den relatva fördelnngen av ndvder per sjukvårdsdstrkt materalet. Sjukvårdsdstrkt Frekvens Procent Mellersta 72 047 25.2 Nordvästra 62 772 22.0 Nordöstra 43 640 15.3 Sydvästra 83 323 29.2 Ystad-Österlen 23 649 8.3 Totalt 285 431 100 Tabell 6 Sjukvårdsdstrkt Regon Skånes regster för resursfördelnng har av Statstska Centralbyrån godkänts för användnng vd analys vd resursfördelnng. Regstret nnehåller nga personnummer och alla analyser har utförts så att anonymteten för ndvderna bevarats. För beskrvande statstk och matrsmodellen har SPSS verson 14.0 använts medan alla regressonsmodeller har analyserats SAS verson 9.1, huvudsaklgen Proc REG, Proc GENMOD samt Proc LOGISTIC. 2.2 Korsvalderng För att kunna utvärdera och jämföra regressonsmodellerna med varandra och med matrsmodellen delas materalet en skattnngsdel och en valderngsdel. I skattnngsdelen skattas regressonsmodellerna. De skattade koeffcenterna från regressonsmodellerna används för att predktera kostnader för ndvder valderngsdelen. En matrsmodell anpassas tll valderngsdelen då det nte är praktskt genomförbart, eller ntressant, att utforma denna modell två steg. Skattnngsdelen består av ett stratferat urval efter sjukvårdsdstrkt på 2,1 procent. Detta ger totalt 6000 ndvder vlket nnebär 279 431 ndvder valderngsdelen. 3 Uppdelnngen fem sjukvårdsdstrkt försvann år 2007 5

3. Matrsmodellen 3.1 Fördelnng av resurser efter behov Fördelnng av resurser efter behov grundas på att behov ndrekt mäts av olka socoekonomska och demografska varabler. Dessa varabler förklarar dock endast en lten andel av skllnader vårdkostnader. Då behov modelleras fnns därmed en stor rsk att varabler som ytterlgare förklarar vårdbehov utelämnas, men det går nte heller att bortse från att behov av sjukvård karakterseras av en stor del slumpmässghet (Smth, Rce & Carr-Hll, 2001). Detta medför svårgheter att på ett systematskt sätt fördela resurser efter behov. Vd en behovsbaserad resursfördelnng måste behov uppskattas. Det fnns dock nget drekt mått på behov, utan snarare fnns flera olka metoder att uppskatta behov med. En metod är att ndrekt mäta vårdbehov genom olka demografska och socoekonomska varabler. Genom tllgång tll ndvddata kan dessa demografska och socoekonomska varabler kopplas tll vårdkostnader, varvd ett monetärt mått på behov erhålls. Det ska dock poängteras att varatoner faktorer som ålder, kön, etnctet, cvlstånd, utbldnng och yrke endast förklarar några få procent av varatonen mellan ndvder (Ljung m.fl, 2001). Om uppgfter om tdgare sjukdomar och vård nkluderas kan andelen förklarad varans höjas, men sällan tll mer än 20 procent. Resterande varaton beror på slumpen och andra delvs okända bologska samt ärftlga faktorer. Behov modelleras på olka sätt de länder behovsbaserad resursfördelnng används. I flera länder saknas data på ndvdnvå varvd modeller baserade på aggregerade data används. De statstska metoder som används för att fördela resurser efter behov skljer sg åt mellan länder. Rce och Smth (1999) genomgång av ersättnngssystem efter behov 19 länder vsar att både matrsmodeller och regressonsmodeller används. Modellernas omfattnng är varerande, vssa länder grundar sna modeller på endast ålder och kön medan andra länder har flera andra förklarande varabler med. Resursfördelnngsmodellen bygger på ett antagande om att skllnader vårdutnyttjande mellan olka grupper avspeglar lka stora skllnader vårdbehov. Detta är ett starkt antagande som nte tycks stämma fullt ut. Studer vsar att lågnkomsttagare och arbetslösa tenderar att underutnyttja den öppna vården förhållande tll sn självrapporterade ohälsa (Walander & Burström, 2005). Det fnns också andra grupper som tycks ha ett lägre vårdutnyttjande. Utomnordska nvandrare har vsat sg ha ett lågt utnyttjande av den psykatrska vården, utan att det kan påvsas att de har ett lägre behov av psykatrsk vård (Dderchsen & Varde, 1996). Den behovsbaserade resursfördelnngen tlldelar varje ndvd en vss summa. Det är dock nte rmlgt att anta att varje ndvd kommer att ta exakt de resurser som tlldelats anspråk. Resurser som fördelas efter behov bör därför ses som en förväntad kostnad, en vss varaton kommer således alltd att fnnas. 3.2 Matrsmodellen Regon Skåne Regon Skåne bldades år 1998 och nnebar att de forna länen Krstanstads län och Malmöhus län fck en gemensam organsaton. Den första resursfördelnngen på regonnvå gjordes år 1999, då resurser fördelades efter behov med en matrsmodell. Denna modell användes fram tll år 2002 då Regon Skåne övergck tll anslagsfnanserng. Matrsmodellen används dock fortfarande som metod för kommunalekonomsk utjämnng. 6

Behov Regon Skånes resursfördelnng skattas enlgt varabler beskrvna tabell 2. Dessa varabler har vd en utvärderng med hjälp av regressonsanalys ansetts ge den högsta förklarngen av skllnader behov. En möjlg förklarng tll skllnader sjukvårdskostnader mellan ndvder är lokalt vårdutbud och närhet tll sjukvård. För att reducera nverkan av vårdutbud och andra lokala påverkansfaktorer beräknas därför genomsnttskostnaderna på hela Regon Skåne. 3.3 Beräknngsmetod Befolknngen delas först upp celler efter varje kombnaton av varablerna tabell 2. I varje cell beräknas därefter en genomsnttlg kostnad. Den genomsnttlga kostnaden baseras således på ndvder hela Regon Skåne. Därefter beräknas antalet personer varje cell matrsen för varje sjukvårdsdstrkt. Antalet personer cellen uppdelat på varje sjukvårdsdstrkt multplceras med genomsnttskostnaden för cellen. De totala kostnaderna för varje sjukvårdsdstrkt erhålls genom att summera kostnadscellerna för respektve sjukvårdsdstrkt. Vd resursfördelnngen år 1999-2002 då matrsmodellen användes gjordes en separat beräknng för vssa vårdtunga ndvder. Tll dessa ndvder räknades avldna under året och ndvder med dagnos cancer. För att ytterlgare kontrollera för vårdtunga grupper görs denna uppsats en separat beräknng för alla dagnoser från tabell 3 och 4. En separat beräknng görs således också för alla ndvder utan vårdtung dagnos. Då matrsmodellen användes Regon Skåne gjordes även en framskrvnng för efterföljande år. Kostnader för befolknngen per kommun, ålder och kön multplcerades med kvoten av befolknngen år 2000 genom befolknngen år 1999 nom dessa tre varabler. En sådan framskrvnng kommer dock nte att göras denna uppsats då syftet är att jämföra hur väl matrsmodellen skattar kostnaderna materalet jämfört med regressonsmodeller. 7

4 Multpel lnjär regresson 4.1 Analys av sjukvårdskostnader Regressonsanalys bygger på att ett antal antaganden är uppfyllda. Särsklt ska resdualerna vara oberoende och homoskedastska. För att test av koeffcenter ska vara gltga krävs även att resdualerna är normalfördelade. Vd analys av sjukvårdskostnader uppfylls dock sällan dessa antaganden. Vanlgtvs uppstår nedan beskrvna problem. Sjukvårdskostnader karakterseras av en hög andel ndvder som nte uppsökt läkarvård och därmed har noll kostnader. Den kumulatva fördelnngen av kostnader har därför en spets vd nollpunkten. Därav följer kostnader en så kallad mxad fördelnng, det vll säga en fördelnng som både är dskret och kontnuerlg. En mxad fördelnng defneras av att det vssa punkter fnns postv sannolkhet samtdgt som sannolkheten för övrga värden är ett ntervall (där sannolkheten varje punkt följaktlgen är lka med noll). För sjukvårdskostnader fnns alltså en postv sannolkhet vd nollpunkten, för övrga värden är fördelnngen kontnuerlg. Vd regressonsanalys kan sjukvårdskostnaders mxade fördelnng gnoreras och en vanlg multpel lnjär regressonsmodell användas. Alternatvt kan en twopart modell anpassas som grundas på den mxade fördelnngen. Sjukvårdskostnader är, enlgt beskrvnng ovan, sällan normalfördelade. Stora avvkelser från normaltet av den beroende varabeln, synnerhet om fördelnngen är starkt skev, medför att koeffcenterna nte heller blr normalfördelade och därmed kommer t-testen ge felaktga sgnfkanstest. Koeffcenterna är dock asymptotskt normalfördelade även om den beroende varabeln avvker starkt från normaltet. En beroende varabel som nte är normalfördelad ger också resdualer som nte heller är normalfördelade, vlket nnebär att antagandet om normalfördelade resdualer ej uppfylls. Antagandet om normalfördelade resdualer påverkar dock endast test och konfdensntervall för koeffcenter, det vll säga koeffcenterna kommer att vara Best Lnear Unbased Estmator (BLUE) även om resdualerna nte är normalfördelade. För att åstadkomma en mer symmetrsk fördelnng logartmeras vanlgen kostnader. De logartmerade kostnaderna följer en normalfördelnng, vlken kan defneras som fördelnngen av en slumpvarabel vars logartm är normalfördelad. Alternatvt kan en generalserad lnjär modell anpassas vlket nnebär att den beroende varabeln nte behöver transformeras. Ett antagande regressonsmodellen är att resdualvaransen är konstant, det vll säga homoskedastsk. Det är trolgt att detta antagande nte uppfylls då sjukvårdskostnader analyseras. Effekten av heteroskedaststet är att OLS-skattnngarna nte längre är BLUE och effektva. Koeffcenterna och predktoner baserade på dessa är dock fortfarande utan systematska avvkelser och konsstenta. Koeffcenternas standardfel kommer dock att ha systematska avvkelser och vara cke-konsstenta vlket nnebär att hypotestest nte är gltga. Flera studer (Blough mfl, 1999; Dehr mfl, 1999; Blough & Ramsey, 2000) har observerat att standardavvkelsen är högre för grupper av ndvder där medelvärdet också är högre, det vll säga sjukvårdkostnader tenderar att varera mer för höga kostnader än för låga. För att komma tll rätta med detta problem kan logartmen av kostnader användas, alternatvt kan en generalserad modell anpassas där en lämplg varansfunkton specfceras. 8

4.2 Multpel lnjär regresson - modellen I den multpla lnjära regressonsmodellen gnoreras sjukvårdskostnaders mxade fördelnng. Regressonen ger en modell som är addtv, där koeffcenterna tolkas som den genomsnttlga förändrngen Y då en gven oberoende varabel ökar med en enhet, gvet att övrga varabler är konstanta. Detta ger följande regressonsmodell; sjukvårdskostnad ålder kön cvlstånd sysselsättnng nkomst1 0 1 2 3 4 5 nkomst 2 boen det yp utbldnng1 utbldnng2 vårdtungdagnos 6 7 8 9 10 där ε är Nf (0,σ 2 ) 4.3 Valderng En resdualanalys utförs syfte att kontrollera modellens antaganden. Fgur 2 där resdualerna plottas mot predkterade kostnader vsar att varansen ökar kraftgt för högre predkterade kostnader. Ett Breusch-Pagan test utförs därmed för att formellt kontrollera om heteroskedaststet förelgger. Resultatet av testet vsar att så är fallet. Fgur 3 vsar ett normal kvartl dagram där det kan utläsas att resdualerna avvker från normaltet genom en lång högersvans. Antagandet om homoskedaststet och normaltet är därmed nte uppfyllt vlket nnebär att OLS-skattnngarna nte är effektva och BLUE samt att test nte är gltga. kr t ot = 5549. 4 +1905. 6 vl der sgr upp - 2033. 7 kon +103. 64 al one +2619. 7 ej ar bet - 1460. 2 Boendet yp - 238. 41 Ut bdummy1-402. 95 Ut bdummy2 +2713. 7 I nkdummy1 +322. 31 I nkdummy2 +61984 sj ukdom kr t ot = 5549. 4 +1905. 6 vl der sgr upp - 2033. 7 kon +103. 64 al one +2619. 7 ej ar bet - 1460. 2 Boendet yp - 238. 41 Ut bdummy1-402. 95 Ut bdummy2 +2713. 7 I nkdummy1 +322. 31 I nkdummy2 +61984 sj ukdom 600000 N 6000 600000 N 6000 Rsq 0. 2326 Rsq 0. 2326 500000 Adj Rsq 0. 2313 RMSE 28377 500000 Adj Rsq 0. 2313 RMSE 28377 400000 400000 300000 300000 200000 200000 100000 100000 0 0-100000 0 10000 20000 30000 40000 50000 60000 70000 80000-100000 Pr ed ct ed Val ue Fgur 2 Resdualplott, vanlg multpel lnjär regresson -3-2 -1 0 1 2 3 Nor mal Quant l e Fgur 3 Normal-kvartl dagram 9

5 Two-part modellen Resultatet av den vanlga multpla lnjära modellen vsar att modellen ger en dålg anpassnng tll materalet. I detta avsntt applceras därför en two-part modell. 5.1 Two-part modellens fördelnng Two-part modellen utvecklades för att hantera den mängd nollvärden som materal, från skftande dscplner, kan medföra. Inom sjukvården användes modellen först för att modellera efterfrågan på sjukvård (Duan mfl, 1983). Därefter har modellen blvt en populär metod för att predktera sjukvårdskostnader. Den första delen skattas med logstsk regresson medan den andra delen tradtonellt skattats med mnsta-kvadrat metoden och logartmerad beroende varabel. På senare år har dock generalserade lnjära modeller större utsträcknng börjat användas eftersom systematska avvkelser vd en tllbakatransformerng på så sätt undvks (Blough & Ramsey, 2000; Mannng & Mullahy, 2001). Two-part modellen består av två ekvatoner. Den första delen är en logstsk regresson för det dkotoma utfallet att en ndvd har eller nte har sjukvårdskostnader. I = X β + ε (5.1) där X är en vektor av kovarat, β en vektor av parametrar, ε en vektor av resdualer och 1 I 0 då Y då Y 0 0 (5.2) Den andra delen utgörs av en multpel regresson som kan specfceras på olka sätt. Som exempel används en vanlg multpel regresson. Y I=1 = X β + ε där ε är Nf (0,σ 2 ) (5.3) Täthetsfunktonen för two-part modellen är; P I 0 x då y 0 fy y, β x fy y, I 1, x P I 1 x då y 0 (5.4) 0 då y 0 Maxmum lkelhoodfunktonen av 5.4 kan bestämmas på följande sätt. Gvet n observatoner I 1, x1, y1, I 2, x2, y2,, I n, xn, yn, där materalet är sorterat så att de första n 1 observatonerna har y 0 (och I 0) och de återstående n- n 1 observatonerna har y 0 (och I 1), är lkelhoodfunktonen för β; 10

n n 1 fy y; β x PI 0 x fy y, β I 1, x PI 1 x 1 1 n 1 n n1 nn1 PI 0 x PI 1x fy y I x, β 1, n1 1 = (Lkelhood för del 1) (Lkelhood för del 2) n 1 (5.5) Lkelhoodfunktonen delas alltså n två delar. Parametrarna den första delen beror endast på parametrarna 5.1 och parametrarna del två beror endast på parametrarna 5.3. Detta gör de två delarna oberoende och kan därmed separeras och maxmeras var för sg. Del ett tolkas som sannolkheten att en ndvd har sjukvårdskostnader och del två storleken på dessa sjukvårdskostnader. Den totala kostnaden för en ndvd predkteras genom att först skatta sannolkheten att ndvden har kostnader och därefter, gvet att ndvden har kostnader, skatta nvån på dessa. Fördelen med att använda en two-part modell är att dess fördelnng stämmer bättre överrens med sjukvårdskostnaders fördelnng än en vanlg modell. En twopart modell borde därmed ge mer precsa skattnngar av en ndvds sjukvårdskostnader. De totala sjukvårdskostnaderna predkteras alltså genom att multplcera hop sannolkheten för del ett med predkterad kostnad del två. Sätt p = skattad sannolkhet från del ett och sätt μ = skattad medelkostnad från del två, gvet att ndvden har kostnader. Detta ger; y pˆ ˆ (5.6) den totala predkterade kostnaden för ndvd. Eftersom de två delarna är oberoende ger two-part modellen ett standardfel för varje del. Genom att kombnera standardfelen för de två delarna erhålls standardfelet för den totala skattnngen. Standardfelet för skattnngen av totala sjukvårdskostnader är roten ur; 2 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ Var y Var p p Var Var p (5.7) 5.2 Del ett Del ett av two-part modellen skattar sannolkheten för en ndvd att ha kostnader. Då den beroende varabeln är bnär, det vll säga antngen har en ndvd kostnader eller nte, används logstsk regresson 4. Låt Y vara en Bernoullfördelad varabel. Sannolkhetsfördelnngen blr då 1 med sannolkheten p Y (5.8) 0med sannolkheten1 p Sannolkheten att ha kostnader ser ut som följer; 4 En probt modell skulle också kunna användas. Vanlgtvs ger de båda modellerna samma resultat, vlket nnebär att det nte spelar någon roll vlken modell som används. 11

exp 0 j X j Pr y 0 x (5.9) 1 exp X I denna modell tas alla varabler från tabell 3 med förutom varabeln vårdtung dagnos. Varabeln vårdtung dagnos utesluts då den nte kan anses vara en förklarande varabel för om en ndvd kostar eller ej. 0 j j 5.3 Del två I den andra delen av two-part modellen skattas kostnader, för de ndvder som har kostnader, med multpel lnjär regresson och generalserad lnjär regresson. 5.3.1 Multpel lnjär regresson med logartmerad beroende varabel För att komma tll rätta med problem som cke normalfördelade varabler och heteroskedaststet kan den beroende varabeln transformeras. Flera olka transformatoner är möjlga; Box-Cox transformerng, kvadratrotstransformerng och logartmerng. I denna uppsats logartmeras den beroende varabeln sjukvårdskostnader på grundval av att denna transformerng, vd analys av sjukvårdsdata, är den särklass vanlgaste transformerngen (Mannng & Mullahy, 2001). Detta ger följande modell; 0 1 2 3 4 5 ln sjukvårdskostnad ålder kön cvlstånd sysselsättnng nkomst1 6nkomst 2 7boen det yp 8utbldnng1 9utbldnng2 10vårdtungdagnos där ε är Nf (0,σ 2 ) En regressonsmodell med logartmerad beroende varabel ger en multplkatv modell. Koeffcenterna tolkas som den relatva förändrngen Y då en gven oberoende varabel ökar med en enhet, gvet att övrga varabler hålls konstanta. Då det för beslutsfattare nte är ntressant att fördela logartmerade kostnader måste modellen transformeras tllbaka tll ursprunglg skala. Det är dock nte möjlgt att endast E exp xβ den exponentera modellen och därefter predktera kostnader eftersom lognormala fördelnngen ger medanen stället för det artmetska medelvärdet. Det förväntade värdet för en lognormal varabel är stället 2 2 E y x exp x 0.5 då ε är, N (5.10) 2 Detta nnebär att 0.5 måste skattas för att undvka att systematska avvkelser, som underskattar predktoner, uppstår vd en transformerng tllbaka tll normal skala. Ett 2 alternatv är att skatta 0.5 (normalteorskattnng), vlket dock förutsätter att resdualerna är normalfördelade. Alternatvt kan en ckeparametrsk metod kallad Duan s smearngfaktor användas, vlken förutsätter att resdualerna är oberoende och dentskt fördelade (Duan, 1983). Smearngfaktorn är medelvärdet av de exponenterade resdualerna 0 12

S 1 N N 1 exp e där e y x ln (5.11) Normalteorskattnngarna är betydlgt mer effektva än smearngfaktorn då resdualerna är normalfördelade men är samtdgt känslga för avvkelser från normaltet. Vdare kommer smearngfaktorn endast att ge cke-skeva skattnngar då resdualerna är homoskedastska (Mannng, 1998). Om resdualerna är heteroskedastska, det vll säga om resdualvaransen beror på xβ, bör detta modelleras för att undvka systematska avvkelser. Heteroskedastctet kan medföra att en modell med en smearngfaktor under- eller överskattar skattade kostnader vssa ntervall. Uppvsar resdualerna heteroskedastctet bör därför olka smearngfaktorer, baserade på de grupper av ndvder för vlka resdualvaransen skljer, användas. En smearngfaktor används på grund av att det nte är trolgt att resdualerna är perfekt normalfördelade. Den skattade kostnaden för ndvd blr då; E y x y 0 x Ey x, y 0 S Pr (5.12) 5.3.1.1 Valderng För att kontrollera om det fnns avvkelser från modellens grundläggande antaganden utförs en resdualanalys. Resdualerna plottas mot predkterade värden fgur 4. Inga tecken på avvkelser från antagandet om homoskedaststet kan avläsas, vlket även bekräftas av Breusch-Pagan testet. Normaltet kontrolleras med ett normal-kvartldagram fgur 5, vlket vsar tecken på tjocka svansar. Jämfört med den vanlga multpla lnjära modellen erhålls här en regresson med homoskedatska och bättre normalfördelade resdualer. l nkr t ot = 7. 8841 +0. 1313 vl der sgr upp - 0. 1574 kon +0. 1162 al one +0. 1612 ej ar bet - 0. 124 Boendet yp - 0. 0822 Ut bdummy1-0. 0714 Ut bdummy2 +0. 2783 I nkdummy1 +0. 0478 I nkdummy2 +2. 3588 sj ukdom l nkr t ot = 7. 8841 +0. 1313 vl der sgr upp - 0. 1574 kon +0. 1162 al one +0. 1612 ej ar bet - 0. 124 Boendet yp - 0. 0822 Ut bdummy1-0. 0714 Ut bdummy2 +0. 2783 I nkdummy1 +0. 0478 I nkdummy2 +2. 3588 sj ukdom 6 N 4641 6 N 4641 Rsq 0. 2209 Rsq 0. 2209 Adj Rsq 0. 2193 Adj Rsq 0. 2193 4 RMSE 1. 3198 4 RMSE 1. 3198 2 2 0 0-2 -2-4 -4-6 -6 7. 5 8. 0 8. 5 9. 0 9. 5 10. 0 10. 5 11. 0-3 -2-1 0 1 2 3 Pr ed ct ed Val ue Nor mal Quant l e Fgur 4 Resdualplott, 2-part OLS Fgur 5 Normal-kvartl dagram 5.3.2 Generalserad lnjär modell (GLM) Ett antagande den klassska lnjära modellen är att den beroende varabeln Y är oberoende normalfördelad med konstant varans. En generalserad lnjär modell är en utvdgnng av den klassska lnjära modellen på så sätt att Y kan tllhöra vlken fördelnng som helst nom den exponentella famljen (Olsson, 2002). Denna famlj av fördelnngar kan skrvas som 13

a, b och b y f y;, exp cy, (5.13) a där c är funktoner. Tll denna famlj av fördelnngar tllhör bland andra normal-, Posson-, bnomal- och gammafördelnngen. Den klassska lnjära modellen är y = Xβ + e, där η = Xβ kallas den lnjära komponenten. Det förväntade värdet den klassska lnjära modellen är Ey. I den generalserade lnjära modellen (GLM) är stället det förväntade värdet en funkton av den lnjära komponenten x, så att g X. Funktonen g kallas länkfunkton och länkar alltså det förväntade värdet av Y tll de förklarande varablerna X 1 X n. Skllnaden mellan länkfunktonen den klassska lnjära modellen och länkfunktonen en GLM är att den senare modelleras länken mellan de förklarande varablerna och det förväntade värdet av Y cke-lnjärt. Länkfunktonen erhålls genom att dervera Maxmum Lkelhood skattnngarna av parametrarna. För att underlätta beräknngar beräknas log lkelhood funktonen av 5.13, så l, ; y log f y;, y b a c y,. Detta ger; att l y b a (5.14) där b betecknar förstadervatan av b med avseende på θ. Genom att ta förväntat värde av 5.14 och sätta denna tll noll erhålls länkfunktonen; l E E y b a 0 (5.15) Länkfunktonen blr; E Y b Vssa länkfunktoner är naturlga för en gven fördelnng på så sätt att g. Dessa kallas kanonska länkar. Det fnns dock ngen garant för att de kanonska länkarna alltd ger den bästa anpassnngen tll materalet. Vssa materal har särsklda egenskaper så att en annan länkfunkton än den kanonska är mest lämplg. Tll exempel används ofta log-länken log g med gammafördelnngen vd sjukvårdskostnader. Varansen av Y erhålls genom andradervatan av den logartmerade lkelhoood funktonen 5.13 samt genom att utnyttja att enlgt lkelhood teor är 2 l 2 l E E 2 0. Andradervatan blr; 2 l b a 2 (5.16) Detta ger; b Var Y 0 (5.17) 2 a a vlket ger Var Y a b Parametern kallas dspersonsparametern och Varansfunktonen skrvs ofta V b b kallas varansfunktonen. och vsar hur varansen beror på medelvärdet μ 14

fördelnngen, där μ sn tur är en funkton av θ. Tabell 7 vsar några vanlga exponentella fördelnngar och deras respektve länkfunkton och varansfunkton. Fördelnng Kanonsk länkfunkton Varansfunkton Normal η=μ 1 Posson η=log(μ) μ Gamma η=1 / μ μ 2 Inverse Gaussan η=1 / μ 2 μ 3 Tabell 7 Länk- och varansfunktoner för exponentella fördelnngar Vd modellerng av en generalserad lnjär modell behöver alltså en fördelnng, en länkfunkton och en varansfunkton specfceras. För att undersöka vlken typ av fördelnng som bör anpassas studeras varansfunktonen. För de fördelnngar som har en varansfunkton upphöjd tll ett vsst värde, λ, kan varansen generalseras och skrvas; Var(y x) = k(μ(xβ)) λ (5.18) där λ måste vara ändlg och cke-negatv. Då λ = 0 får v en vanlg cke-lnjär mnsta-kvadrat skattnng med konstant varans. Om λ = 1 får v en Posson fördelnng där varansen är proportonell mot medelvärdet. Om λ = 2 erhålls gamma, homoskedastsk lognormal, Webull och Ch-två fördelnngar där standardavvkelsen är proportonell mot medelvärdet och om λ = 3 fås en nverse Gaussan fördelnng. Mannng och Mullahy (2001) föreslår en utvdgnng av Park s test 5 för specfcerng av varansfunktonen. För att utföra testet behövs resdualer från en GLM eller logartmerad OLS. Därefter utförs en regresson med resdualerna kvadrat som beroende varabel och logartmerade skattade värden som oberoende varabel. Detta ger; där ˆ y är ˆ 2 exp x 0.5 ˆ ( x) ln 2 y yˆ ln yˆ 0 1 (5.19) från OLS-modellen. Värdet på λ 1 avgör vlken GLM modell som bör användas. Regressonen ger λ 1 =1,85 vlket lgger närmast en gammafördelnng. Som länkfunkton väljs en log-länk. Detta motveras med att det är denna länkfunkton som vanlgen väljs då sjukvårdskostnader modelleras (Buntn & Zaslavsky, 2004). Med denna länkfunkton ger en förändrng en förklarande varabel en multplkatv effekt på sjukvårdskostnader. Modellen blr; log 0 1 2 3 4 log E sjukvårdskostnad ålder kön cvlstånd sysselsättnng nkomst1 nkomst 2 boen det yp utbldnng1 utbldnng2 vårdtungdagnos 5 6 7 8 9 10 Kostnader modelleras på den ursprunglga skalan, vlket nnebär att modellen nte behöver transformeras tllbaka. För den generalserade modellen blr den skattade kostnaden för en ndvd; y x Pry 0 x Ey x, y 0 E (5.20) 5 Park s test användes ursprunglgen för att testa heteroskedaststet (Park, 1966). 15

5.3.2.1 Maxmum lkelhood skattnng Parametrarna den generalserade lnjära modellen skattas med Maxmum Lkelhood metoden (Olsson, 2002). Skattnngen av parametrarna är de värden som maxmerar log lkelhoodfunktonen, som för en enskld observaton kan skrvas som; b y l logl y;, cy, (5.21) a Parametrarna modellen är en vektor av regressonskoeffcenter β som sn tur är en funkton av θ. Kedjeregeln används då l derveras med avseende på β. Detta ger; l j l d d d d j (5.22) V har att b och b V, varansfunktonen. Då är V. Den lnjära komponenten är x j j, vlket ger x j. Detta ger; j j l y 1 a j d W d x j y x j V d a d (5.23) där W d d 2 1 V Genom att summera över alla observatoner erhålls maxmum lkelhood skattnngen för en parameter β j. W y d xj 0 (5.24) a d 5.3.2.2 Valderng För att utvärdera modellens anpassnng tll materalet plottas devance resdualer mot de skattade värdena. Plotten, fgur 6, vsar att resdualerna har konstant varans men att det fnns ett antal utelggare för ndvder med låga predkterade värden. Normal-kvartl dagrammet fgur 7 vsar att resdualerna nte är normalfördelade. Ett mått på hur väl anpassad modellen är tll materalet är scaled devance-resdualer delat med sna frhetsgrader, vars kvot ej bör vara större än ett. Kvoten modellen är 1,22 vlket ndkerar någon form av msspecfcerng. Detta kan vara ett resultat av felaktg länkfunkton, utelggare eller felaktgt val av förklarande varabler. Exempelvs skulle modellen kunna behöva fler varabler, nteraktonstermer eller cke-lnjära varabler. 16

Dev ance Res dual 11 12. 5 10 9 10. 0 8 7 7. 5 6 5 4 D e v a 5. 0 n c e 3 2 R e s 2. 5 d u a l 1 0 0-1 -2-2. 5-3 -4-5. 0 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 110000 120000 Pr ed ct ed Val ue Fgur 6 Resdualplott, 2-part GLM -4-2 0 2 4 Nor mal Quant l es Fgur 7 Normal-kvartl dagram 17

6. Jämförelse av modellerna Enlgt beskrvnng avsntt 2.2 skattas regressonsmodellerna skattnngsdelen. De skattade koeffcenterna används därefter för att predktera kostnader valderngsdelen. Nedan följer en jämförelse mellan regressonsmodellerna och matrsmodellen avseende effekter på resursfördelnng och anpassnng tll materalet. 6.1 Jämförelse av regressonsmodeller och anpassnng tll materalet I tabell 8 fnns de skattade koeffcenterna från skattnngsdelen. Varabel Vanlg lnjär regresson Two-part Del 1, logstsk regresson 18 2-part del 2, OLS 2-part del 2, GLM Koeffcent (p-värde) Koeffcent (p-värde) Koeffcent (p-värde) Koeffcent (p-värde) Intercept 5549.39 (0.0136) 1.0474 (<.0001) 7.8841 (<.0001) 9.0891 (<.0001) Åldersgrupp 1905.59 (0.0106) 0.3122 (<.0001) 0.1313 (0.0008) 0.2007 (<.0001) Kön -2033.74 (0.0067) 0.0669 (<.0001) -0.1574 (<.0001) -0.1014 (0.0061) Cvlstånd 103.64 (0.8988) 0.0696 (0.0009) 0.11623 (0.0075) 0.0737 (0.0662) Sysselsättnng 2619.72 (0.1528) 0.0412 (0.7951) 0.16115 (0.0980) 0.0605 (0.5108) Inkomst1 2713.73 (0.1939) 1.0087 (<.0001) 0.27833 (0.0213) 0.0811 (0.4740) Inkomst2 322.31 (0.8780) 0.1628 (<.0001) 0.04777 (0.6956) -0.1700 (0.1368) Boendetyp -1460.19 (0.0834) 0.0738 (0.0076) -0.12404 (0.0052) -0.1355 (0.0009) Utbldnng1-238.41 (0.8096) -0.1397 (0.0982) -0.08219 (0.1184) -0.2901 (<.0001) Utbldnng2-402.95 (0.6433) -0.0204 (0.7879) -0.07137 (0.1197) -0.2020 (<.0001) Vårdtung dagnos 61984 (<.0001) 2.35883 (<.0001) 2.2085 (<.0001) Tabell 8 Koeffcenter från regressonsmodellerna De tre modellerna vsar genomgående samma tecken. Skllnad fnns för GLM-modellen och övrga modeller varabeln Inkomst2. Denna varabel är dock nte sgnfkant någon av modellerna vlket kan vara anlednngen tll att olka tecken erhålls. Det är dock svårt att göra en jämförelse mellan modellerna avseende varablers effekter på sjukvårdskostnader, dels på grund av att de modelleras med olka länkfunkton dels på grund av att two-part modellen består av två delar. De tre modellerna vsar stora skllnader vad gäller sgnfkanta varabler. Den vanlga lnjära modellen har flest cke-sgnfkanta varabler medan two-part GLM modellen uppvsar flest sgnfkanta varabler. Det är endast varablerna åldersgrupp, kön, boendetyp och vårdtung dagnos som är sgnfkanta för alla modeller. Alla varabler tabell 8 har dock av Regon Skåne ansetts nödvändga för att förklara behov vlket nnebär att nga varabler utesluts ur analysen. Sjukvårdskostnader nnefattar ofta ndvder med extrema värden, vlka kan påverka de skattade koeffcenterna drastskt. Genom att logartmera den beroende varabeln och använda GLM-modellen med log-länk mnskas dock nflytandet av utelggande observatoner eftersom logartmerng ger en lägre toppghet. En undersöknng av resdualerna vsar att den vanlga

regressonsmodellens resdualer är kraftgt skeva och kurtotska. Logartmerngen den OLS baserade two-part modellen ger resdualer som nte är skeva eller kurtotska medan resdualerna GLM modellen fortfarande är något skeva och kurtotska. För GLM modellen nnebär skevheten och toppgheten resdualerna att effektvteten mnskar och skattnngar av koeffcenter blr mndre precsa (Mannng och Mullahy, 2001). De skattade koeffcenterna från estmerngsdelen anpassas tll valderngsdelen och matrsmodellen anpassas tll valderngsdelen. För att utvärdera modellernas förmåga att predktera kostnader används följande mått Mean squared predcton error MSPE = 1 n k Y k Y k 2 Mean absolute predcton error MAPE = 1 n k Y k Y k Höga värden på dessa mått ndkerar en dålg förmåga att predktera kostnader. Tabell 9 vsar att jämförelsemåtten nte ger ett entydgt resultat. Matrsmodellen predkterar kostnader bäst enlgt MSPE medan de båda two-part modellerna är bättre enlgt MAPE. Modell MSPE MAPE Matrsmodell 1 077 021 124 9 748 Vanlg regresson 1 101 642 481 9 904 2-part OLS 1 101 244 225 8 609 2-part GLM 1 111 355 569 8 519 Tabell 9 Jämförelsemått Fgur 8 vsar predkterad kostnad per decl för alla modeller och för faktsk kostnad. Matrsmodellen och den vanlga regressonsmodellen överpredkterar kostnader upp tll den åttonde declen och underpredkterar kostnader den nonde och tonde declen. Two-part modellerna överpredkterar kostnader från den andra tll den åttonde declen och underpredkterar därefter. Från den tredje declen och uppåt ger dock alla modeller ungefär samma resultat. Fgur 8 Predkterad kostnad per decl ( MATLAB verson 7.3) 19

6.2 Jämförelse av effekter på resursfördelnngen För varje modell valderngsdelen summeras predktoner per sjukvårdsdstrkt. Resultatet av denna resursfördelnng fnns tabell 10. Alla modeller fördelar procentuellt sett lka mycket resurser tll varje dstrkt. Den stora skllnaden mellan modellerna består av storleken på de totala predkterade kostnaderna, då de två two-part modellerna fördelar totalt sett mndre resurser än matrsmodellen och den vanlga regressonsmodellen. Matrs % Vanlg % 2-part % 2-part % Faktsk % OLS GLM Mellersta 649 24,9 661 25 547 24,7 515 24,4 629 24,1 Nordvästra 554 21,3 561 21,2 473 21,3 454 21,5 563 21,6 Nordöstra 396 15,2 404 15,3 338 15,3 325 15,4 413 15,9 Sydvästra 785 30,1 794 30 666 30 636 30 788 30,2 Ystad- 221 8,5 229 8,6 192 8,7 184 8,7 212 8,1 Österlen Summa, kr 2 605 2 649 2 216 2 114 2 605 Tabell 10 Resursfördelnng, mljontals kronor För att undersöka hur modellerna predkterar kostnader för vårdtunga grupper görs en fördelnng endast för vårdtunga grupper, vlken fnns tabell 11. Resultatet vsar att two-part GLM modellen fördelar mnst resurser av modellerna tll sjukvårdsdstrkten. Även two-part OLS modellen fördelar mndre resurser än de faktska kostnaderna. För regressonsmodeller kan det vara ett problem att skatta höga kostnader då det nte fnns tllräcklgt många ndvder med höga värden för att ge en bra skattnng. Den vanlga lnjära modellen skattar dock höga kostnader men har som tdgare beskrvts nte förutsättnngarna för regressonsanalys uppfyllda. Matrs % Vanlg % 2-part % 2-part % Faktsk % OLS GLM Mellersta 309 25,4 325 25,7 285 25,2 254 25 331 27,2 Nordvästra 246 20,2 255 20,2 230 20,3 207 20,4 241 19,8 Nordöstra 189 15,6 201 16 179 15,8 161 15,8 187 15,4 Sydvästra 362 29,8 363 28,7 333 29,4 299 29,4 357 29,4 Ystad- 110 9,0 119 9,4 105 9,3 95 9,4 99 8,1 Österlen Summa, kr 1 216 1 263 1 132 1 016 1 215 Tabell 11 Resursfördelnng endast vårdtunga dagnoser, mljontals kronor 20

7. Dskusson Syftet med denna uppsats var att blda regressonsmodeller för en behovsbaserad resursfördelnng och jämföra dessa med matrsmodellen avseende effekter på resursfördelnng. Resultatet vsar att det är främst storleken på resurserna som påverkas. Vdare är det svårt att avgöra vlken modell som ger den bästa anpassnngen tll materalet. I denna uppsats har regressonsmodellerna baserats på ett urval av 6000 ndvder. Montez-Rath mfl (2006) vsar genom sn stude, där olka stora urval från totalt 525 620 ndvder undersökts, att storleken på urvalet påverkar vlken modell som bäst predkterar kostnader då urvalet är relatvt sett ltet. En generalserng av resultatet från denna stude är därmed nte möjlg. Ett större urval ger mer precsa skattnngar av populatonens parametrar samtdgt som det också skattar höga kostnader bättre. Ett problem med two-part modellen kontexten resursfördelnng är att alla ndvder som har noll kostnader också tlldelas noll kronor vd resursfördelnngen. Ett grundläggande antagande en behovsbaserad resursfördelnng är dock att ndvder med samma karakterstker har samma behov av vård. Utfrån perspektvet behov görs därmed ett mplct antagande en two-part modell att ndvder med samma karakterstker, men som har respektve nte har några sjukvårdskostnader, har olka behov av sjukvård. Detta nnebär att ndvder med samma karaktärstker kan komma att tlldelas olka resurser beroende på om de har kostnader eller nte. Detta mplcta antagande motsäger syftet med en behovsbaserad resursfördelnng och nnebär att det blr problematskt att använda two-part modellen vd resursfördelnng. För att utvärdera hur väl modellerna är anpassade tll materalet, det vll säga hur väl de predkterar kostnader, användes korsvalderng. Jämförelsemåtten MSPE och MAPE gav dock nte ett entydgt resultat. Det är därför svårt att på grundval av dessa mått avgöra vlken av modellerna som predkterar kostnader bäst. Ett alternatv för att få konsekventa resultat hade vart att använda sg av bootstrappng, det vll säga göra flera urval och beräkna måtten för varje urval. Vdare vsar fgur 7 att alla modeller ger ungefär samma predktoner för varje decl. Modellerna predkterar dock sntt högre kostnader än de faktska förutom för de allra högsta kostnaderna vlka grovt underpredkteras. Brsten på samt det tvetydga resultatet gör det därmed svårt att avgöra hur bra modellerna är anpassade tll materalet. Fördelen med korsvalderng är att den gör det möjlgt att utvärdera och jämföra modeller avseende predktoner vlket annars är svårt då two-part modeller används, eftersom det nte går att använda sg av tradtonella mått såsom R 2 måttet. Metoden skulle dock kunna användas av Regon Skåne för att undvka att blda en regressonsmodell för hela populatonen. En potentell nackdel är dock att det kan vara praktskt komplcerat att utföra. I denna uppsats har regressonsmodellerna gjorts lka matrsmodellen vad gäller val av varabler. Det är dock möjlgt att regressonsmodellerna hade behövts utvecklas för att ge en bättre anpassnng tll materalet, exempelvs genom att nkludera kvadratska termer och/eller nteraktonstermer. Fördelen med att använda regressonsanalys som metod är just denna flexbltet utformnng av modeller jämförelse med matrsmodellen. Syftet med att använda en two-part modell stället för en matrsmodell eller vanlg multpel regresson är att sjukvårdskostnader har en mxad fördelnng. Det faktum att sjukvårdskostnader har en starkt skev fördelnng korrgeras för genom att logartmera samt att använda gammafördelnngen. Resultatet vsar att en mer symmetrsk fördelnng uppnås då dessa korrgerngar används. Det är dock trolgt att det fnns utelggare som eventuellt påverkar regressonskoeffcenterna, något som nte har kontrollerats på grund av det stora antalet ndvder. 21

Resultatet vsar att resursfördelnngen påverkas beroende på vlken modell som används. Procentuellt sätt fördelar alla modeller stort sätt lka men skllnad fnns för storleken på resurserna. De båda two-part modellerna fördelar mndre resurser medan resursfördelnngen med den vanlga multpla regressonsmodellen och matrsmodellen stort sätt är lka. Genom att fördela resurser tll sjukvårdsdstrkten exakt efter föregående års förbruknng rskeras faktorer som nvanda förbruknngsmönster och utbud bevaras, vlket leder tll svaga nctament tll kostnadskontroll. Att fördela resurser tll sjukvårdsdstrkt exakt efter de totala faktska kostnaderna är därmed nte att eftersträva. Genomsnttskostnaderna matrsmodellen samt koeffcenterna regressonsmodellerna är dock baserade på hela populatonen vlket borde mnska effekterna av sjukvårdsdstrktens lokala utbud. Matrsmodellen fördelar dock totala resurser nära de totala faktska kostnaderna. En närmare stude över huruvda utbud påverkar resursfördelnng med matrsmodellen borde därmed genomföras. Denna uppsats vsar att regressonsanalys vd en behovsbaserad resursfördelnng blr komplcerad. En vanlg multpel regresson ger en modell som avvker starkt från de grundläggande antagandena. Two-part modellen är bättre anpassad efter de förutsättnngar som sjukvårdskostnader har men vsar sg vara konceptuellt problematsk då ndvder med samma karakterstker tlldelas olka resurser. Baserat på de modeller som har jämförts denna uppsats tycks därmed matrsmodellen vara den modell som är bäst lämpad att använda, på grund av dess enkelhet, teoretskt och praktskt. 22

8. Källförtecknng Blough K. Davd, Madden W. Carolyn, Hornbrook C. Mark (1999). Modelng rsk usng generalzed lnear models. Journal of Health Economcs 18:2 s. 153-171 Blough K. Davd, Ramsey D. Scott (2000). Usng Generalzed Lnear Models to Assess Medcal Care Costs. Health Servces & Outcomes Research Methodology. 1:2 s. 185-202 Buntn Beeuwkes Melnda, Zaslavsky M. Alan (2004). Too much ado about two-part models and transformaton? Comparng methods of modellng Medcare expendtures. Journal of Health Economcs 23:3 s. 525-542 Dderchsen Fnn, Varde Eva (1996). Konsten att fördela resurser efter behov. Stockholmsmodellens krterer. Läkartdnngen nr 42 s. 3677-83 Der P, Yanez D, Ash A, Hornbrook M, Ln D. Y (1999). Methods for analyzng health care utlzaton and costs. Annual Revew of Publc Health. 20:1 s. 125-144 Duan Nahua, Mannng G. Wllard, Morrs N. Carl, Newhouse P. Joseph. (1983). A comparson of alternatve models for the demand for health care. RAND Health Insurance Experment Seres http://www.rand.org/pubs/reports/2006/r2754.pdf Duan Nahua (1983). Smearng Estmate: a nonparametrc retransformaton method. Journal of the Amercan Statstcal Assocaton 78:383 s. 605-610 Lthman Thor (2001). Underlag för resursfördelnng för hälso- och sjukvård 2002. Regon Skåne; Regonkontoret. Kompetenscentrum Hälso- och sjukvård Ljung Rckard, Wkström Max, Lundberg Mchael, Ponce de Leon Antono, Dderchsen Fnn (2001). Förslag tll behovsndex för sjukvårdsområden 2002-2004. Enheten för Socalmedcn. (PM). Mannng G. Wllard (1998). The logged dependent varable, heteroscedastcty, and the retransformaton problem. Journal of Health Economcs 17:3 s. 283-295 Mannng G. Wllard, Mullahy John (2001). Estmatng log models: to transform or not to transform?. Journal of Health Economcs 20:4 s. 461-494 Montez-Rath M., Chrstansen C., Ettner S., Loveland S., Rosen A (2006). Performance of statstcal models to predct mental health and substance abuse cost. BMC Medcal Research Methodology 6:53 http://www.bomedcentral.com/1471-2288/6/53 Olsson Ulf (2002). Generalzed Lnear Models. An appled Approach. Lund: Studentltteratur Rce Ngel, Smth Peter (1999). Approaches to captaton and rsk adjustment n health care: an nternatonal survey. The Unversty of York; Centre of Health Economcs. http://www.york.ac.uk/nst/che/pdf/op38.pdf 23