Riskbedömning och abonnemangstandvård

Relevanta dokument
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

F19, (Multipel linjär regression forts) och F20, Chi-två test.

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Lösningar till SPSS-övning: Analytisk statistik

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

InStat Exempel 4 Korrelation och Regression

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Medicinsk statistik II

F3 Introduktion Stickprov

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Linjär regressionsanalys. Wieland Wermke

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

7.5 Experiment with a single factor having more than two levels

Sänkningen av parasitnivåerna i blodet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Föreläsning 12: Regression

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Statistisk analys av komplexa data

Multipel Regressionsmodellen

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Statistisk analys av komplexa data

Analys av köpviljan avseende försäkring med logistisk regression och bootstrap

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 4. Kap 5,1-5,3

Statistisk analys av komplexa data

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Resursfördelningsmodellen

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Regressions- och Tidsserieanalys - F4

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tandhälsodata Landstinget Gävleborg

Tentamen i matematisk statistik

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MSG830 Statistisk analys och experimentplanering

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Regressionsanalys av huspriser i Vaxholm

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F1

Exempel på tentamensuppgifter

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

OBS! Vi har nya rutiner.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Uppgift 1. Produktmomentkorrelationskoefficienten

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

STATISTISK ANALYS AV KOMPLEXA DATA

Regressions- och Tidsserieanalys - F1

Gamla tentor (forts) ( x. x ) ) 2 x1

FACIT (korrekta svar i röd fetstil)

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Skrivning i ekonometri lördagen den 29 mars 2008

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

PROGRAMFÖRKLARING III

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Metod och teori. Statistik för naturvetare Umeå universitet

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Dekomponering av löneskillnader

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Höftledsdysplasi hos dansk-svensk gårdshund

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

F11. Kvantitativa prognostekniker

Statistiska metoder för säkerhetsanalys

Repetitionsföreläsning

Bilaga 1. Kvantitativ analys

Statistik och epidemiologi T5

ORDINALA LOGITMODELLER FÖR KUNDNÖJDHET. En bransch- och kundgruppsjämförelse

FÖRELÄSNING 8:

Stokastiska vektorer och multivariat normalfördelning

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Uppgift 1. Deskripitiv statistik. Lön

Grundläggande matematisk statistik

Transkript:

Anders Jonsson Riskbedömning och abonnemangstandvård Risk assessment and contract dental care Statistik C-uppsats Datum/Termin: Juni 008/VT 08 Handledare: Christian Tallberg Examinator: Abdullah Almasri Karlstads universitet 651 88 Karlstad Tfn 054-700 10 00 Fax 054-700 14 60 Information@kau.se www.kau.se

Sammanfattning I Sverige finns en betalningsform för tandvård som kallas Abonnemangstandvård som innebär att du som patient har möjlighet att ingå ett avtal om tandvård till ett fast pris. I Värmland var man tidigt ute med denna modell och kallar den för frisktandvård för att belysa att man inte enbart ser det som en betalningsform utan även som ett sätt att bedriva vård. Tandläkaren genomför en initial riskbedömning inom fyra olika huvudområden och för respektive område allmän risk, teknisk risk, karies risk samt parodontal risk sätts en siffra 0-4 för att representera olika risknivåer. Ett sammanfattande mått leder i sin tur leder fram till en abonnemangsklass för patienten. Syftet med denna undersökning är att studera om de som tecknat ett abonnemang har riskbedömts annorlunda än övriga. Eftersom det inte är slumpmässigt vilka patienter som väljer att teckna abonnemang måste hänsyn tas till de två gruppernas olikheter. Olikheter dels i form av ålder och kön, dels i form av tandhälsa. Totalt innefattar denna studie drygt 7 000 patienter varav cirka 10 % har abonnemang. För att analysera datamaterialet har ordinal regression använts och resultatet visar att patienter med abonnemang har lägre riskvärden inom alla fyra områden. Ett faktum som kvarstår även efter att hänsyn har tagits till ålder, kön och patientens tandstatus. Abstract In Sweden there is a form of payment for dental treatment called "Contract care" which means that you as a patient have the opportunity to enter into a contract for dental care at a fixed price. The county of Värmland early adopted this model calling it Healty dental care to illustrate that they not only sees it as a form of payment but also as a way of providing care. The dentist will perform an initial risk assessment in four main areas and for each area, general risk, technological risk, risk of caries and paradontal risk, enter a digit from 0 to 4 to indicate the risk. A summary measure in turn leads to a subscription class for the patient. The purpose of this study is to examine whether those who signed a subscription has been assessed differently than the other. Since it is not random which patients who choose to subscribe we must consider the differences between the two groups. Differences both in terms of age and gender, as well as dental health. Totally this study includes over 7000 patients of which about 10 % has subscriptions. Ordinal regression was used to analyze the dataset and the results show that patients with subscriptions have lower risk values in all four areas. A fact that remains even after adjustment for age and gender, and the patient's dental health.

INNEHÅLLSFÖRTECKNING Sammanfattning... Abstract... INNEHÅLLSFÖRTECKNING... 3 1. INLEDNING... 4 1.1 Bakgrund... 4 1. Syfte... 5 1.3 Disposition... 5. BESKRIVNING AV DATAMATERIALET... 6.1 Variablerna... 6. Förväntat resultat... 9 3. METOD... 10 3.1 Ordinal regression... 10 3. Ordinal regression i SPSS... 1 4. RESULTAT... 16 4.1 Allmän risk... 16 4. Teknisk risk... 18 4.3 Kariesrisk... 0 4.4 Parodontal risk... 1 5. DISKUSSION... 3 5.1 Slutsatser... 3 5.5 Fortsatt arbete... 4 Referenser... 5 3

1. INLEDNING 1.1 Bakgrund Folktandvården i Värmland gör sedan flera år tillbaka riskbedömningar av alla vuxna patienter som undersöks i verksamheten. En patient bedöms avseende fyra riskvariabler, allmän risk (A), teknisk risk (T), kariesrisk (K) och parodontal risk (P). Det finns flera olika syften till varför det görs riskbedömningar. Riskbedömningar ger möjlighet att följa och prognostisera sjukdoms-och hälsoutveckling i länet för de patienter som finns i folktandvården. De innebär ett underlag för att bedöma patienters framtida behov av behandling, behov som i sin tur ger bättre möjligheter till vårdplanering. Informationen ger även förutsättningar till att i efterhand avgöra och värdera effekten av insatta åtgärder på individ-och gruppnivå. Hos folktandvården i Värmland finns en vårdmodell som kallas för Frisktandvård vilken innebär att man ger sina patienter möjlighet att teckna abonnemang. Ett abonnemang är ett kontrakt mellan patienten och vårdgivaren där patienten betalar ett fast pris under två år för sin tandvård. Systemet med abonnemangstandvård går att likna vid en försäkringslösning för patienten. Riskbedömning är i detta sammanhang en helt nödvändig komponent för att modellen ska fungera. Det egentliga syftet med abonnemangstandvård är dock inte riskspridning utan att styra verksamhet och patient till att bli mer proaktiva. Det vill säga att ge patienten bra förutsättningar genom till exempel överenskommelser om förebyggandebesök hos tandhygienist. Alla patienter, med eller utan abonnemang, har visserligen möjlighet att besöka tandhygienist och får rekommendationer om att göra så. Idén och tron är dock den att genom att på förhand veta sin kostnad och vårdplan kommer abonnemangspatienter att vara mer motiverade att följa sin vårdplan. För även om patienter som inte har abonnemang har bokat en tid med en tandhygienist, om t ex 6 månader, så har dessa patienter lättare att dra sig ur då besöket är direkt kopplat till en kostnad. De fyra riskvariablerna kan anta ett av värdena 0, 1,, 3 där 0 är ingen risk. Vilket värde som ges till respektive riskvariabel baseras på ett antal riskindikatorer som är knutna till riskområdet. De olika riskindikatorerna kan även de anta ett av värdena 0, 1,, 3. Tandläkaren gör en manuell besiktning av riskindikatorerna och sätter ett värde på riskvariabeln. När alla riskvariabler har fått ett värde summeras sedan riskvariablerna samman till en riskklass med hjälp av formeln: Riskklass = allmän risk + (* teknisk risk) + karies risk + parodontal risk Variabeln riskklass kan alltså anta 16 olika värden, 0, 1,,,15. Den riskklass som patienten får motsvarar också den avgiftsklass som patienten hamnar i om denne väljer att teckna abonnemang i frisktandvård. 4

Tandläkaren har dock möjlighet att glida en avgiftsklass i bägge riktningarna i det fall hon eller han inte anser att den framräknade klassen är korrekt. Det finns många goda intentioner med ett system som abonnemangstandvård men det finns samtidigt viss problematik och oönskade effekter förknippade med det. Som t ex att beteenden kan ändras hos patienter när de har tecknat en försäkring eller att det är vissa typer av individer som köper försäkring, dels de som vet att de har en relativt hög risk, dels försiktiga individer som har en låg risk. (Grönqvist, 004) Någon komplett utvärdering av modellen med frisktandvård i Värmland har ännu inte gjorts vilket kan vara en av orsakerna till att det finns en osäkerhet bland tandläkare i Värmland om frisktandvård är en bra modell. En sådan utvärdering bör förutom att beskriva de ekonomiska konsekvenserna även belysa hälsoeffekter. Eftersom riskbedömningar görs av olika individer finns även en risk att olika praxis utvecklas. Kalibreringsövningar i form av övningsfall med syfte att olika tandläkare ska göra samma bedömning är ett kontinuerligt nödvändigt inslag i verksamheten för att dessa modeller ska fungera långsiktigt. 1. Syfte Syftet med denna studie är att undersöka om patienter som tecknat abonnemang har riskbedömts annorlunda än övriga. Det finns en tro hos vissa vårdgivare att patienter som tecknar abonnemang blir snällare bedömda i riskbedömningen än övriga. En anledning till den snällare bedömningen skulle vara att dessa patienter direkt får sin framtida kostnad presenterad i mötet med vårdgivaren och att det skulle påverka vårdgivaren. Vårdgivaren hamnar inte i samma situation när det gäller patienter som betalar vid varje tillfälle. En annan anledning i samma härad kan vara att vårdgivaren helt enkelt vill vara snäll mot vissa individer, till exempel patienter som den känt länge och är det genom en låg riskbedömning med ett för billigt abonnemang till följd. Eftersom det inte är slumpmässigt vilka patienter som väljer att teckna abonnemang måste hänsyn tas till de två gruppernas olikheter med avseende på till exempel kön och ålder. 1.3 Disposition I kommande avsnitt tas följande upp: Kapitel beskriver det datamaterial som ingår i undersökningen, kapitel 3 behandlar vald metod, analysresultaten presenteras i kapitel 4 och i kapitel 5 förs en avslutande diskussion om slutsatser från studien samt förslag till fortsatt arbete. 5

Riskvärde. BESKRIVNING AV DATAMATERIALET Data till denna studie har hämtats från Folktandvården i Värmlands datalager. Datalagret är speciellt anpassat för analys och innehåller uppgifter som kontinuerligt förs över från klinikernas journalsystem. Data kommer från tre olika områden Riskbedömningar, epidemiologiska index och abonnemang. Alla tre källorna innehåller personidentitet och det går därför enkelt att samanvända informationen. Riskbedömningar innehåller personidentitet, tidpunkt för bedömningen samt värden för de fyra riskvariablerna. Epidemiologiska index beskriver det faktiska tillståndet avseende ett antal parametrar till exempel antal tänder, kariesangrepp och fyllningar. Tabellen innehåller personidentitet, tidpunkt för tillståndet samt värden för de olika indexen. Abonnemangstabellen innehåller personidentitet, abonnemangets starttidpunkt och sluttidpunkt. Eftersom abonnemang endast erbjuds vuxna patienter (barn har fri tandvård i Sverige) och väldigt sällan erbjuds till patienter över 65 år blir det styrande för vilka patienter som ska tas med i studien. De epidemiologiska indexen blev först tillgängliga i datalagret från 008-01-01 varför urvalet i tid bestäms av detta faktum. Det finns inga skäl att misstänka att urvalet i tid innebär några systematiska fel. För att få riskbedömningar som matchar tillståndet togs endast de patienter med som hade en dokumenterad riskbedömning som var gjord inom samma månad som patientens epidemiologiska index. Sista steget blev att koppla på information om abonnemang vilket resulterade i tre indikatorer. En för om patienten vid tidpunkten för tillståndbedömningen hade ett abonnemang, en för om patienten hade haft ett abonnemang tidigare men inte nu samt en för om patienten nu eller någon gång tidigare haft ett abonnemang. Inklusionskriterierna ovan innebar att 7 346 patienter är föremål för vidare analys..1 Variablerna I tabell 1 nedan presenteras patienterna uppdelat på kategorier för respektive responsvariabel. Riskvariabel Allmän Teknisk Karies Parodontal 0 3 387 494 708 1 996 1 3 143 805 4 341 4 15 713 3 189 046 1 075 3 103 858 51 150 Summa 7 346 7 346 7 346 7 346 Tabell 1. Fördelning av patienter över riskvariabler och riskvärden 6

Medelålder för patienterna var 41,8 år (median 4 år) och fördelning över åldersgrupper och kön visas i tabell nedan. Åldersgrupp Kvinnor Män Total 0-4 år 407 48 835 5-9 år 35 343 695 30-34 år 338 390 78 35-39 år 464 43 887 40-44 år 486 5 1 008 45-49 år 503 474 977 50-54 år 445 376 81 55-59 år 333 381 714 60-64 år 3 359 681 Total 3 650 3 696 7 346 (49,7%) (50,3%) Tabell. Fördelning av patienter över ålder och kön 10 % av patienterna (75 stycken) har aktiva abonemang. 14 % av patienterna (1 034 stycken) har haft abonnemang tidigare medan 75% av patienterna (5 587 stycken) aldrig har haft något friskvårdsabonnemang (tabell 3). Vidare skapades en ny variabel för med värdet ett om patienten har eller har haft abonnemang och värdet noll om patienten aldrig har haft abonnemang. Det är denna variabel som ingår i den senare analysen. Abonnemang Riskvariabel Riskvärde Har nu Haft tidigare Aldrig haft Allmän 0 53 705 159 1 186 303 654 16 1 676 3-5 98 Teknisk 0 103 16 65 1 359 500 1 946 35 368 586 3 8 40 790 Karies 0 93 143 47 1 457 67 3 1 166 07 1 673 3 9 1 30 Parodontal 0 36 407 1 63 1 340 58 3 57 57 94 94 3 5 143 Tabell 3. Abonnemangsvariabeln 7

I tabell 4 visas de olika epidemiologiska indexen som finns tillgängliga för analysen. Det finns en stor inbördes korrelation mellan flera av de epidemiologiska indexen. Det är i och för sig inte så konstigt eftersom de till stora delar baseras på samma grunddata och delvis beskriver samma sak fast ur något olika synvinklar. Eftersom studiens syfte är att utreda eventuella skillnader i riskbedömning avseende abonnemang och inte att utreda de olika indexens effekt är det lämpligt att reduceras dessa variabler med hjälp av en principal komponent analys. Metoden går ut på att skapa komponenter, som är linjärkombinationer av ursprungsvariablerna, på ett sådant sätt att komponenterna är okorrelerade med varandra. Samtidigt skapas de så att komponent ett står för den största delen av variationen i ursprungsvariablerna, komponent två för den näst största variationen och så vidare. Förhoppningen är att en stor del av variationen går att beskriva med ett fåtal komponenter och att övriga komponenter står för en så liten del att de kan bortses ifrån. Egenskapen att komponenterna är okorrelerade innebär att de beskriver olika dimensioner av det data som ingår. (Manly, 1991) Resultatet från principal komponent analysen kan studeras i tabell 4 nedan. Tabellen visar, med så kallade laddningar, hur olika ursprungsvariabler påverkar olika komponenter. Laddningarna kan variera mellan -1 och +1. När man ska förstå vad en komponent i huvudsak beskriver undersöks stora respektive små laddningar. Det finns ingen klar gräns för vad som är stort och smått men ofta används <-0,5 samt >+0,5 för att ha något att utgå ifrån. I tabellen har dessa markerats med fetstil och understruken text. Med fem komponenter kan en stor del (96 %) av variationen som finns i de 17 indexen beskrivas. Det är dessa 5 principal komponenter (epi-index komponent 1-5) som används i den kommande analysen. Komponent Index Beskrivning Medel Min Max 1 3 4 5 ATIndex Antal tänder 8 4 3-0,56 0,15 0,77 0,00-0,01 DFSAIndex Karierad fylld yta approximalt 10 0 5 0,90-0,1 0,30 0,06 0,00 DFSIndex Karierad fylld yta 0 101 0,9-0,14 0,3 0,06 0,00 DFTIndex Karierade fyllda tänder 10 0 9 0,88-0,1 0,40 0,11 0,0 DMFSIndex Karierad saknad fylld yta 40 0 160 0,96-0,18-0,0 0,05 0,01 DMFTIndex Karierade saknade fyllda tänder 14 0 3 0,96-0,17 0,03 0,09 0,0 DSD3Idx Karierade yta (d3) 0 0 16 0,13 0,83-0,06 0,49-0,10 DSIndex Karierad yta 1 0 38 0,34 0,87-0,07-0,03-0,13 DSSEKIdx Karierade yta (sek) 0 0 1 0,41 0,55 0,0-0,70-0,07 DTD3Idx Karierade tänder (d3) 0 0 11 0,1 0,8-0,04 0,5-0,08 DTIndex Karierade tänder 1 0 13 0,33 0,9-0,0 0,04-0,10 DTSEKIdx Karierade tänder (sek) 0 0 9 0,43 0,54 0,04-0,69-0,07 FSIdx Fyllda ytor 0 101 0,91-0,19 0,3 0,04 0,01 FTIdx Fyllda tänder 10 0 9 0,87-0,18 0,40 0,07 0,0 KIndex Kariesindex 0 0 3 0,08 0,54 0,00-0,01 0,84 MSIdx Saknade ytor 18 0 140 0,63-0,16-0,75 0,0 0,01 MTIdx Saknade tänder 4 0 8 0,63-0,16-0,75 0,0 0,01 % av varians 45 4 14 9 4 Ackumulerad % 45 69 83 9 96 Tabell 4. Epidemiologiska index, principal komponent analys 8

. Förväntat resultat I diagram 1 till diagram 4 visas den observerade ackumulerade procenten uppdelat på abonnemangsvariabeln för respektive riskvariabel. Ack % Ack % 100 100 80 80 60 60 40 40 0 Abonnemang=Ja Abonnemang=Nej 0 Abonnemang=Ja Abonnemang=Nej - - 0 1 3 Riskvärde 0 1 3 Riskvärde Diagram 1. Observerad ackumulerad procent, Allmän risk Diagram. Observerad ackumulerad procent, Teknisk risk Ack % 100 Ack % 100 80 80 60 60 40 40 0 Abonnemang=Ja Abonnemang=Nej 0 Abonnemang=Ja Abonnemang=Nej - - 0 1 3 Riskvärde 0 1 3 Riskvärde Diagram 3. Observerad ackumulerad procent, Karies risk Diagram 4. Observerad ackumulerad procent, Parodontal risk Eftersom patienter med abonnemang, den streckade kurvan, ligger ovanför övriga patienter så skulle vi, i en modell med enbart abonnemangsvariabeln som förklaring, förvänta oss ett samband som säger att patienter med abonnemang har lägre risk än patienter utan abonnemang. 9

3. METOD 3.1 Ordinal regression När man är intresserad av sambandet mellan förklarande variabler och responsvariabler är regressionsmetoder ett bra angreppssätt. I många situationer vill man studera hur en ordnad responsvariabel beror av ett antal andra variabler. Om responsvariabeln är kodad med till exempel 0, 1,, eller 3, kommer vanlig linjär regression att behandla avståndet mellan en 3:a och en :a lika som det mellan en :a och en 1:a vilket oftast inte lämpligt. För att modellera med hjälp av en logistisk regression, där responsvariabeln är binär, måste de fyra utfallsklasserna dikotomiseras på något sätt. Dikotomiseringen innebär dels att information förloras, dels att resultatet av analysen blir beroende av hur uppdelningen skett vilket ibland är godtyckligt. Ett alternativ för att slippa dikotomiseringen är att använda en multinominal logistisk regression som tar hänsyn till att det är flera diskreta kategorier. Denna metod lyckas dock inte ta hänsyn till den information som ordnade data ger. För att klara detta har speciella typer av regression utvecklats. (McCullagh, 1980, Agresti, 00, Green, 008) Vi vill undersöka hur en variabel Y, som kan anta ett av j diskreta ordnade utfall, beror av en eller flera förklarande faktorer eller kovariat. Ett vanligt tillvägagångssätt är att anta att vi har en icke observerbar kontinuerlig variabel * Y som beror på de förklarande variablerna via en linjär regressionsmodell. En sådan icke observerbar variabel benämns latent variabel och regressionsmodellen för latent regression. Det vill säga, * Y zβ Där z z, z,, är en vektor med K förklarande variabler och,,, 1 z K med regressionskoefficienter. β är en vektor 1 K Vi observerar, Y 0 om Y * 0 Y 1 om 0 Y * 1 Y om Y 1 * Y J om J-1 Y * 10

Där i är okända parametrar, så kallade cut-points, som skattas tillsammans med regressionskoefficienterna, β. Detta betyder att Y hamnar i kategori j när den latenta variablen sig i intervallet mellan motsvarande cut-points. * Y befinner Beroende på vilken fördelningsfunktions som antas för feltermen kommer den fortsatta modellspecifikationen att se olika ut. De två vanligaste antagandena, om, är en logistisk fördelningen eller en normalfördelningen och i praktiken ger de två fördelningarna liknande resultat. I specialfallet med endast två utfallsvärden, 0 respektive 1 är modellen densamma som binär logistisk regression alternativt binär probit regression. Här kommer fallet med antagandet då följer den logistiska fördelningen att beskrivas. I den logistiska regressionen är det logaritmen av oddset som modelleras. Logaritmen av oddset benämns logit, därav namnet logitmodeller. Den mest populära logitmodellen som tar hänsyn till fallet där utfallsvariabelns kategorier är ordnade är den kumulativa logitmodellen som modellerar med hjälp av kumulativa sannolikheter. z z, j 1,,. P( Y j z) 1 j J Där j z beskriver sannolikheten att hamna i kategori j. De kumulativa logitarna definieras som, logit P( Y j z) P( Y j z) log 1 P( Y j z) 1 log j1 z z j z z J j 1,, J. Proportionella odds modellen är en modell som samtidigt använder alla kumulativa logitar för att skatta en gemensam effekt för regressionskoefficienterna β. Att ha samma effekt för respektive logit är motiverat av grundantagandet om att det existerar en latent icke observerbar variabel. Eftersom vi antagit att följer en standard logistisk fördelning med cdf Lt P t förhållande mellan en logit och koefficienterna β. t t exp har vi efter logaritmering ett linjärt 1 exp P( Y j z) zβ j 1,, J 1. logit j Varje kumulativ logit har alltså sitt eget intercept (cut-point) som ökar med j men regressionskoefficienterna är samma. 11

3. Ordinal regression i SPSS Analysen i denna studie sker i SPSS 15.0. I SPSS PLUM-procedur (Polytomous Universal Model) kan man specificera fem olika länkfunktioner. (Norušis, 008) Funktion Form Vanlig användning Logit Prob(event) ln 1 Prob(event) Jämt fördelade kategorier Complementary log-log ln( ln(1 Prob(event ))) Höga kategorier mer sannolika Negativ log-log ln(ln(prob(event ))) Låga kategorier mer sannolika Probit φ 1 (Prob(event )) Normalfördelad latent variabel Cauchit (inverse Cauchy) tan 0,5 Tabell 5. Länkfunktioner vid ordinal regression i SPSS 15.0 Många extrema värden Vi kan modellera en riskvariabel som kan anta fyra olika värden med de olika oddsen beskrivna nedan. Oddset att en händelse inträffar är kvoten mellan sannoliketen att händelsen inträffar och sannolikheten att den inte inträffar. Eftersom de bägge sannolikheterna har samma nämnare (totala antalet) kan oddset enklast beskrivas som antal som upplever händelsen dividerat med antal som inte upplever händelsen. θ 1 θ θ 3 Prob(att få Prob(att få Prob(att få Prob(att få Prob(att få Prob(att få risk 0) risk störreän 0) risk 0 eller 1) risk störreän 1) risk 0,1eller ) risk störreän ) Den sista kategorin har inget odds eftersom sannolikheten att få ett värde där den sista kategorin är inkluderad är lika med 1. Generellt ges oddset av, θ j Prob(att få risk 1- Prob(att få j) risk j) j 1,, Antal kategorier 1 Och som visades i föregående avsnitt beskrivs den linjära modellen genom att logaritmera oddset, log θ zβ j 1,, J 1. j j 1

Regressionskoefficienterna ( β ) i den logistiska regressionsmodellen talar om hur mycket logaritmen av oddset förändras av de förklarande variablerna. Logaritmen av oddset benämns logit. För en binär förklarande variabel betyder en positiv koefficient att den första kategorin har större sannolikhet att ha högre värde på riskvariabeln. En negativ koefficient betyder att lägre värden är mer sannolika. För en kontinuerlig variabel betyder en positiv koefficient att när variabeln ökar så ökar sannolikheten att få högre riskvärden. Tolkning av regressionskoefficienter vid en ordinal logistisk regression sker på likartat sätt som vid binär logistisk regression. Regressionskoefficienten mäter alltså effekten av en enhets förändring i en oberoende variabel på logaritmen av oddset. Att logaritmen av oddset ökar eller minskar är svårtolkat och det är vanligt att använda e som beskrivning av effekten. Exponentieringen gör att vi får ett värde på oddskvoten. Om vi till exempel får i =, för en oberoende dikotom variabeln, exempelvis kön, så betyder det att log-oddset ökar med när den oberoende variabeln går från 0 till 1. Uttryckt i termer av oddskvot blir det att oddset ökar med ungefär en faktor 7 ( e 7, 4 ) när den oberoende variabeln går från 0 till 1. Det är ofta detta exponentiella värde som används vid presentation av resultat i olika studier. Ibland används ordet risk, till exempel, risken är 7 gånger större att bli sjuk om man är man. I detta sammanhang är det dock viktigt att inte förväxla risk med sannolikhet. Logistisk regression är inte linjär i sannolikheten, den är linjär i log-oddset, och för att svara på frågan hur mycket sannolikheten förändras måste man veta det ursprungliga oddset. Sambandet mellan sannlikhet och odds ges i följande formel, Sannolikhet =odds/(1-odds). Har vi ett lågt initialt odds, till exempel 1 till 100, kommer sannolikheten fortsatt att vara låg även efter att oddset har ökat. Har vi däremot ett relativt högt initialt odds, till exempel 1 till 1, så kommer sannolikheten, om vi tittar på procentenheter, att bli avsevärt högre efter att oddset har ökat. Initialt odds Initial sannolikhet Nytt odds Ny sannolikhet 1 till 100 0,01 7 till 100 0,06 1 till 50 0,0 7 till 50 0,1 1 till 1 0,50 7 till 1 0,88 Tabell 7. Exempel på sambandet mellan odds och sannolikhet när oddskvoten är lika med 7 Skillnaden vid ordinal logistisk regression jämfört med binär logistisk regression är att oddskvoten förutsätts vara den samma för alla stegvisa förändringar av utfallsvariabeln. 13

Varje kumulativ logit har sitt eget intercept j. Interceptet, kallas threshold (tröskelvärde), i SPSS). Eftersom mitt syfte med modellen är att se om det finns samband mellan ett antal oberoende variabler och riskvariabeln finns ingen egentlig nytta med de olika skattningarna av intercept. Däremot används dessa i de fall man har som syfte att göra en prognos för responsvariabeln med hjälp av de oberoende variablerna. Modellen använder samma effekt regressionskoefficient β för varje kumulativ logit. Detta är ett antagande som man måste kontrolleras mot sitt data. Antagandet innebär att koefficienterna som beskriver sambandet mellan, t ex den lägsta kategorin och alla högre kategorier av responsvariabeln är samma som de som beskriver sambandet mellan den näst lägsta kategorin och alla högre kategorier etcetera. Testet, som i SPSS kallas test av parallella linjer, har dock begränsningar och det finns flera invändningar mot det. Den första invändningen är att om en förklarande variabel har tomma celler för responsvariabelns innervärden kan resultera i höga chi-värden i testet. Liknande problem kan uppstå när man har lite data som är glest eller när en kategori för responsvariabeln står för en väldigt liten andel av det totala stickprovet, speciellt om det är få kategorier. Invändning nummer två är att testet är ett globalt test som inte skiljer på den variabeln som ska undersökas och övriga förklaringsvariabler. För att minimera bägge dessa problem kan testet genomföras utan de övriga förklaringsvariablerna. Invändning nummer tre är att testet är känsligt för stora stickprov på så sätt att stora stickprov kan producera statistiskt signifikanta p värden trots att det är liten praktisk skillnad mellan de binära logistiska oddskvoterna för respektive cutpoint. I frånvaron av ett mer robust test är en rekommendation att grafiskt visa de binära logistiska oddskvoterna med konfidensintervall för respektive cut-point och sedan visuellt bedöma om de skiljer sig åt, det vill säga om det går att dra en linje utan lutning inom konfidensintervallen. (Scott et al, 1997) I vanlig linjär regression har vi determinationskoefficienten, R, som beskriver hur stor del av variationen i utfallsvariabeln som de oberoende variablerna kan förklara. I logistisk regression finns inte detta mått men flera försök har gjorts att ta fram R -liknande mått för sambandets styrka. Måtten kallas för pseudo R. Tolkningen av dessa mått är inte enkel och de bör användas med försiktighet. I SPSS ges tre olika pseudo mått för R, där L βˆ är log-likelihood funktionen för modellen med de skattade parametrarna (0) och Lβ log-likelihood funktionen med enbart intercepten (för cut-points) med. Det är bra med höga värden på pseudo R. (1) Cox and Snell L R cs 1 β L (0) βˆ R n () Nagelkerke s R cs R R N (0) 1 Lβ n (3) McFadden s R M L 1 Lβ R βˆ (0) 14

Ett sätt att se om den skattade modellen passar vårt data är att jämföra observerade värden (O) med de enligt modellen förväntade (E). SPSS har två mått, Pearson s chi-två test och Deviance, som beräknas för att ge en uppfattning om goodness-of-fit. Dessa mått går dock endast att lita på för modeller med hyfsat stort förväntat värde i respektive cell. För modeller med kontinuerliga förklaringsvariabler är måtten inte tillförlitliga. (1) Pearson () Deviance (O ij E ij) E ij D * O ij O ln E ij ij SPSS ger även ett test av hela modellen. Testet jämför -log-likelihood för en modell med endast intercept med en modell med alla förklaringsvariabler. Förändringen log-likelihood är -fördelad. Om skillnaden har ett p-värde som är litet innebär det att det går att förkasta nollhypotesen att en modell utan förklaringsvariabler är lika bra som en med, det vill säga vi har att åtminstone en regressionskoefficient skild från noll. 15

4. RESULTAT Resultatredovisningen sker för en riskvariabel i taget. Huvudfokus är koefficientern kring abonnemang men även andra resultat, sidoresultat, kommer att presenteras. Modellens passning och kontroll av modellantaganden tas också upp. 4.1 Allmän risk Oddskvoten för abonnemang är +3,45. Referensvärdet för abonnemangsvariabeln är 1, det vill säga abonnemang. Det är alltså drygt 3 gånger större odds att ha högre värden på responsvariabeln allmän risk om man inte har abonnemang jämfört med om man har abonnemang. Övriga förklaringsvariabler hålls konstanta. Ingen statistiskt signifikant effekt kan påvisas för kön eller epi-index komponent 4. Ålder visar en positiv effekt. Effekten är relativt liten men eftersom det är en kontinuerlig variabel som beskriver patientens ålder i år så blir effekterna över till exempel en 10-års period stor. I tabell 7 visas parameterskattningar för de oberoende variablerna. β Nedre gräns Övre Gräns exp(β) Nedre gräns Övre Gräns Abonnemang 1,4** 1,1 1,36 3,45 3,07 3,88 Kön -0,01-0,10 0,09 1,00 0,91 1,09 Ålder 0,0** 0,0 0,03 1,0 1,0 1,03 Epi-index komponent 1 0,38** 0,31 0,45 1,46 1,36 1,57 Epi-index komponent 0,14** 0,09 0,19 1,15 1,10 1,1 Epi-index komponent 3-0,** -0,6-0,17 0,81 0,77 0,84 Epi-index komponent 4 0,03-0,01 0,08 1,04 0,99 1,08 Epi-index komponent 5 0,07** 0,0 0,11 1,07 1,0 1,1 **Signifikant på 1% nivå, *Signifikant på 5% nivå Tabell 7. Parameterskattning, Allmän risk 95% Konfidensintervall 95% Konfidensintervall Modellinformationen, se tabell 8, visar att pseudo måtten för R är hyfsade. Pearson och Deviance måtten för goodness-of-fit kan vi bortse från eftersom vi har flera kontinuerliga förklaringsvariabler. När det gäller testet av hela modellen, model-fit, ser vi att vi kan förkasta nollhypotesen att en modell utan förklaringsvariabler är lika bra som en med. Vi har minst en förklaringsvariabel som är skild från noll. 16

Pseudo R-Square Pseudo R-Square Cox and Snell 0,167 Nagelkerke 0,193 McFadden 0,091 Goodness of fit Chi-Square df Sig. Pearson 0658 1616 1,000 Deviance 133 1616 1,000 - Log Model-fit Likelihood Chi-Square df Sig. Endast intercept 1467 Slutlig modell 1337 1345 8 0,000 - Log Parallella linjer Likelihood Chi-Square df Sig. Parallella linjer 1337 Generell 1371 57 16 0,000 Tabell 8. Modellinformation, Allmän risk Testet av antagandet om proportionellt odds visar nollhypotesen med parallella linjer måste förkastas. Fortsatt undersökning sker i två steg för att se hur allvarligt problemet är. Först görs testet om med en ordinal regression med enbart abonnemangsvariabeln. -värdet för den nya modellen är 16, alltså förkastas nollhypotesen fortfarande. Nästa kontroll är att titta på hur de cut-point specifika oddskvoterna ser ut för just abonnemangsvariabeln. (Scott et al, 1997) Tabell 9 visar hur riskvärdena kategoriseras för respektive cut-point. Grupp 1 Grupp cut-point 1 0 1,,3 cut-point 0,1,3 cut-point 3 0,1, 3 Tabell 9. Cut-points vid proportionella oddsmetoden I diagram 5 nedan visas de olika oddskvoterna med 95%-iga konfidensintervall från de binära logistiska regressionerna när alla förklaringsvariablerna är med i modellen. Det går inte att dra någon vågrät linje som går igenom alla konfidensintervallen varför man bör ifrågasätta om förutsättningen om proportionellt odds verkligen är uppfyllt. Visuellt ser man att det trots allt inte är ett orimligt antagande 17