Artikel Mats Anderberg Mikael Dahlberg Interbedömarreliabilitet ett tillförlitligt mått på standardiserade intervjuer? En studie av DOK-intervjun Inledning Det finns en aktuell diskussion om användningen av standardiserade intervjumetoder inom det sociala arbetets praktik. I Sverige börjar metoder eller instrument såsom t.ex. ASI, DOK, ADAD och BBiC 1 bli vanligt förekommande. De strukturerade intervjuerna innehåller subjektiva inslag i form av frågor som besvaras med olika bedömningar eller skattningar. Ibland är det klienten som uppskattar sin oro för ett problem inom ett specifikt livsområde med hjälp av en skala, ibland är det intervjuaren som får bedöma till vilken kategori ett svar från en klient ska höra. Om svaren ska ligga till grund för beslut kring olika interventioner eller för utvärdering av behandling är det av stor betydelse att metoderna uppvisar en hög grad av tillförlitlighet. Därför blir det viktigt att undersöka intervjumetodens reliabilitet i olika avseenden (Alling m.fl. 2006; Socialstyrelsen 2004). Reliabilitet eller reproducerbarhet avseende intervjuinstrument handlar om i vilken utsträckning samma eller liknande resultat uppnås oberoende av tidsskillnader, olika bedömare eller olika instrument som mäter samma sak. Det talas här ofta om fyra olika A B S T R A C T M. Anderberg & M. Dahlberg: Inter-rater reliability a reliable measure for standardised interviews? A case study on the DOK interview Aims Inter-rater reliability studies are unusual as regards the standardised interview instruments used in the Swedish treatment care system for substance abusers. This article presents the results of a study intended to establish the inter-rater reliability of DOK interviews, through identification of question areas and items with high or low correspondence, and through analysis of how ratings differ between different interviewers. Methods & Data In total 41 practitioners participated in this study, with various experiences and from six different treatment units of the Swedish treatment care system for substance abusers. Participants gave their ratings and completed the DOK questionnaire based on a video-taped interview. Calculation and analysis of the correspondences were carried out for each individual question area and also each individual item by using appropriate statistical methods. Differences between the various assessors are presented. Results The results of the study show that the percentage agreement for the question areas and the items is generally high, with the exception of a few isolated questions. NORDISK ALKOHOL- & NARKOTIKATIDSKRIFT V O L. 24. 2007. 1 45
Conclusions Among the many possible different explanations for a lack of correspondence is that the questions could be ambiguously constructed and defined or the interview guidelines do not offer satisfactory guidance, or some questions could be too detailed. In addition, a few of the raters may lack sufficient training or experience when it comes to conducting interviews based on DOK. The combined results of the study show that there is a high level of inter-rater reliability, which indicates that in practice it is possible to utilise structured interviews such as DOK. Keywords Reliability, inter-rater reliability, assessment instrument. typer av reliabilitet: intern konsistens, test-retest-, parallelloch interbedömarreliabilitet (Hellevik 1993). Den första typen syftar till att undersöka hur väl olika frågor som avser belysa samma begrepp i ett intervjuformulär uppvisar konsistens och den andra undersöker graden av samstämmighet mellan två olika mättillfällen. Den tredje reliabilitetsformen studerar överensstämmelsen mellan två olika intervjuinstrument som avser att mäta samma fenomen. Den fjärde och sista typen, interbedömarreliabilitet som är i fokus för den här studien är den aspekt av tillförlitlighet som särskilt fokuserar på intervjuares bedömningar och graden av överensstämmelse mellan olika intervjuare, d.v.s. om olika bedömare uppfattar klientens berättelse och lämnar uppgifter på samma sätt. Vikten av att undersöka denna aspekt när det gäller standardiserade intervjumetoder betonas särskilt i arbetet med nationella riktlinjer för missbrukarvården. Av betydelse för interbedömarreliabiliteten är bl.a. hur utbildad och erfaren intervjuaren är, men också hur väldefinierade de olika variablerna är i intervjuformulär och manual (Alling m.fl. 2006). DOK är ett dokumentationssystem för verksamheter inom missbrukarvården i Sverige och används inom både tvångsvården och den s.k. frivilliga missbrukarvården. DOK-systemet är ett sammanfattande begrepp för ett nätverk av behandlingsenheter vars gemensamma syfte är kvalitetsutveckling av missbrukarvården i Sverige. Med hjälp av intervjuformulär och en databas kan enheter samla in och bearbeta information som utgör underlag för verksamhetsbeskrivning, självutvärdering och kvalitetsutveckling. För klienten kan dokumentationen utgöra underlag för behandlingsplanering och uppföljning. På nationell nivå kan dokumentationen bidra till allmän kunskapsutveckling och ge grundläggande epidemiologisk information för t.ex. forskning (Jenner & Segraeus 1996; 2005; IKM 1999). Någon särskild prövning av interbedömarreliabiliteten har dock inte gjorts när det gäller DOK som intervjumetod. Jenner & Segraeus (2005) nämner beträffande interbedömarreliabiliteten faktorer som utformning av manualer, utbildning av användare samt olika kontrollstationer när man överför uppgifter från formulär till dataprogram. Men samtidigt konstaterar författarna att dessa är otillräckliga och att det finns behov av metodologiska studier av intervjuformulären om de ska kunna utgöra grund för forskning. 46 NORDISK ALKOHOL- & NARKOTIKATIDSKRIFT VOL. 24. 2007. 1
Syfte Syftet med artikeln är att beskriva och analysera interbedömarreliabiliteten för DOK:s inskrivningsintervju. Det innebär även en metodologisk diskussion om studier av interbedömarreliabilitet angående DOK eller andra liknande intervjuinstrument. Mer specifikt är det följande frågeställningar som besvaras: Vilka frågeområden respektive enskilda frågor i DOK-intervjun uppvisar högst respektive lägst överensstämmelse? Hur skiljer sig bedömningar åt mellan olika intervjuare/bedömare? Tidigare forskning Vid en genomgång av tidigare forskning med avseende på strukturerade intervjuers interbedömarreliabilitet konstaterades att det hos flera i Sverige förekommande intervjuinstrument, som exempelvis AD- DIS och MAPS 2, helt saknades prövning av interbedömarreliabiliteten (Alling m.fl. 2006; Sandahl 1998; Socialstyrelsen 2004). En förklaring tycks vara att det i flera internationella instrumentsammanställningar endast är test-retest reliabilitet eller intern konsistens som efterfrågas (Allen & Columbus 2003; Dawe & Mattick 1997). Men en intervjumetod är inte bara själva intervjuformuläret, den innefattar också intervjuaren eller den som ska tolka klientens svar. Ett annat problem är att det i många fall saknas svenska studier, trots att det visat sig viktigt med tillförlitlighet och validitet vid översättning till andra språk och vid användning i en annan kultur än den ursprungligen tänkta (Socialstyrelsen 2004; Room m.fl. 1996). Eftersom huvudsyftet med strukturerade intervjuer är just att nedbringa de subjektiva inslagen är prövning av interbedömarreliabiliteten en viktig ingrediens vid konstruktion av ett nytt intervjuformulär eller i samband med översättning av ett befintligt. I tabell 1 redovisas några studier av interbedömarreliabiliteten för intervjuinstrument som förekommer inom den svenska missbrukarvården, deras resultat och de statistiska metoder som använts för att värdera interbedömarreliabiliteten. Studierna har valts utifrån kriteriet att de standardiserade intervjuerna ska ha svensk översättning och svensk manual samt vara jämförbara med DOK-intervjun gällande syfte, omfattning och innehåll. Sammanställningen är inte heltäckande utan avser främst belysa likheter och skillnader mellan olika tillvägagångssätt när studier av interbedömarreliabiliteten har utförts. En liknande sammanställning har gjorts för GAF 3 -instrumentet som används inom den psykiatriska vården (se Söderberg m.fl. 2004). I tabellens första kolumn återfinns de intervjuinstrument och de studier som refererats. Den andra och tredje kolumnen redovisar vilka och hur många bedömare som deltagit. De påföljande tre kolumnerna redogör för klientgrupp, vilka klientdata som bedömts och antal fallbeskrivningar. Den sista kolumnen visar studiernas resultat och den statistiska metod som använts för analysen av interbedömarreliabiliteten. För ASI (Addiction Severity Index) kan noteras att nämnda studie endast avser intervjuarskattningar och inte övriga ingående variabler som utgör merparten av själva intervjuinstrumentet. Vidare påpekas att det i den svenska studien, som refereras i ASI-manualen, saknas relevanta uppgifter. Studierna om ADAD (Adolescent Drug Abuse Diagnosis) har en mot- N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 47
Tabell 1. En beskrivning av studier beträffande interbedömarreliabiliteten för intervjuinstrument som förekommer inom den svenska missbrukarvården. Intervju-instrument och studie ASI (McLellan et al. 1980) ASI (Andréasson et al. 2003) ADAD (Friedman & Utada 1989) AVI (Månsson et al. 1993) Bedömare 1. Forskar-studerande 2. dito (efter två månader) 3. dito (efter fyra månader) Relativt otränade bedömare 1. Erfaren psykolog och forskare vs. forskarstuderande 2. Intervjuare m. en tim. utbildning vs. intervjuare m. två tim. utbildning Psykiatristuderande vs. erfaren psykiatrisjuksköterska Antal bedömare 4 4 4 Klientgrupp Klientdata Antal fall Manliga krigsveteranpatienter dito dito Intervjuarskattningar dito dito 2 Info. saknas Intervjuarskattningar 2 (1+1) 26 (7+19) 2 (1+1) Ungdomar med missbruksproblem dito Patienter med alkoholproblem Intervjuarskattningar Intervjuarskattningar (inom ett skalsteg i endera riktning) Alkoholmissbruk skalsummor 16 3 6 Statistisk metod 1 0.85 0.92 (Spearman Brown) 0.86 0.92 (dito) 0.86 0.92 (dito) 20 0.25 0.92 (Info. saknas) 18 2 (1+1) 0.85 0.97 (Pearson) 0.69 0.96 (PA) 37 0.88 (Pearson) SCID (Martin et al. 2000) Tränade intervjuare 2 Ungdomar med missbruksproblem Symptom- och diagnosskattningar 71 0.915 1.0 (PA) 0.84 1.0 (k) 1) De olika statistiska metoder med vilken reliabiliteten studerats. PA står för Percentage Agreement, k för Cohen s kappa medan Spearman Brown och Pearson är olika korrelationskoefficienter. svarande metodologisk design och även här är det endast intervjuarskattningar som prövats. När det gäller AVI (Alkoholvaneinventoriet/Alcohol use inventory) och SCID (the Structured Clinical Interview for DSM-III-R Personality Disorder) har båda studierna endast två bedömare men många fallbeskrivningar. Sammantaget beskriver tabell 1 val av metod och resultat för respektive studie. Som tidigare har påpekats saknas svenska studier om interbedömarreliabilitet; materialet består ofta av enbart intervjuarskattningar eller skalsummor och den statistiska analysen har utförts på flera olika sätt. Vi återkommer i diskussionen till de olika studiernas relevans. Metod Figur 1 illustrerar den typ av bedömningar som sker när den strukturerade klientintervjun DOK används. Eftersom DOK som intervjuinstrument inte innehåller några former av sammanfattande mått utgörs själva bedömningen av det som sker när intervjuaren ställer frågor och intervjupersonen svarar samt den bedömning och kodning intervjuaren gör i formuläret. Det inringade området markerar vad vår studie specifikt undersöker. Tanken är att informationen från DOK-intervjun därefter, tillsammans med annan väsentlig information om klienten, ska utgöra underlag för behandlingsplanering, klientbedömningar och utredningar. Ett annat sätt 48 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1
Intervjufrågan ställs och ett svar ges Svaret kodas i formuläret, enligt manual Underlag för behandlingsplanering, utredning och bedömning samt uppföljning Figur 1. En illustration av den bedömning som sker när DOK-intervjun används. att beskriva vad vi undersöker är att det handlar om i vilken utsträckning ett antal professionella behandlare med hjälp av DOK-instrumentet kan ta emot informationen i en klientberättelse och dokumentera den på ett likartat sätt. Val av metod För att mäta och kontrollera graden av överensstämmelse mellan flera bedömare kan olika metoder användas, t.ex. kan ytterligare en person närvarar vid intervju och registrera svaren parallellt. Ibland används även skriftligt material som analyseras och bedöms av flera personer. Ett alternativt tillvägagångssätt är att använda sig av en videoinspelad intervju där registrering i efterhand sker av flera bedömare samtidigt och där resultaten sedan jämförs med varandra. Vi har i den här studien valt den sistnämnda metodiken och låtit praktiker från olika behandlingsenheter se en dvd-film med en inskrivningsintervju som, främst i utbildningssyfte, tagits fram av Statens institutionsstyrelse. Studien har gjorts ute på enheterna i sin naturliga miljö i motsats till det betydligt vanligare sättet att låta erfarna och för ändamålet utbildade intervjuare använda den standardiserade intervjun i en kontrollerad miljö eller i ett utbildningssammanhang (Peters m.fl. 1999). Urval Totalt har sex olika behandlingsenheter som medverkar i DOK-systemet deltagit i studien. Två av enheterna lyder under Statens Institutionsstyrelse (SiS) och bedriver LVM-vård medan de övriga fyra tillhör den frivilliga missbrukarvården. Samtliga behandlingsenheter har en lång erfarenhet av dokumentation av klienter med DOK som grund. I den här typen av studier är det vanligt att relativt få personer gör bedömningarna, ibland är det bara två (se tabell 1). Risken är då att felkällor knutna till en enskild bedömare kan få stort genomslag och att resultaten därmed kan bli missvisande. För att undvika det har vi valt att låta ett större antal bedömare medverka i studien. Sammanlagt deltog 41 yrkesverksamma praktiker (som vanligen brukar genomföra klientintervjuer med DOK) i studien. Personalen vid behandlingsenheter som använder DOK får en obligatorisk genomgång av formulär och manualer. Vanligtvis ansvarar och ombesörjer en av enhetens anställda för det kontinuerliga och vardagliga dokumentationsarbetet med DOK. Kontaktpersonen kan vidare delta på nätverksträffar och en årlig konferens (www. ikmdok.se). N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 49
Genomförande Studiens syfte presenterades för, och instruktioner om tillvägagångssättet gavs till, de medverkande praktikerna. Därefter visades filmen och informanterna genomförde självständigt inkodningar i DOK:s inskrivningsformulär. Intervjufilmen varar i ca en timme och innehåller drygt 370 frågor som samtliga ställs ordagrant av intervjuaren, enligt DOK-formuläret. Den fiktiva klienten är en medelålders kvinna med alkoholmissbruk intagen för tvångsvård som intervjuas av en manlig behandlare. Berättelsen som ligger grund för filmen är framtagen av behandlare inom SiS och avsikten med filmen är att den ska uppfattas som så verklighetstrogen som möjligt. Samtliga medverkande praktiker uppfattade intervjun på filmen som trovärdig och den fiktiva klientens problematik som betecknande för de verksamheter de arbetar inom. Några ansåg att den åskådliggjorde en intervju med en genomsnittsklient och därför var relativt okomplicerad till sin karaktär. Andra menade att det fanns svårigheter att hinna med under vissa delar av intervjun. Alla formulär samlades in och registrerades i DOK:s databas. De registrerade uppgifterna överfördes sedan till SPSS och bearbetades statistiskt. Statistisk bearbetning och analys Den filmade intervjun innehåller totalt 434 variabler som kräver någon form av registrering (se tabell 2). Områdena Administrativa uppgifter, Sociodemografisk information, Behandlingskontakt, Öppna frågor och Kommentar till intervjusituationen är exkluderade i studien p.g.a. variablernas administrativa karaktär. De områden som undersöks är därmed identiska för SiS-DOK och IKM-DOK (förutom frågor om fritid, som även de är borttagna). Ytterligare några frågor i filmen har tagits bort i studien, eftersom reliabiliteten för deras del inte har beräknats. Det finns två skäl till detta uppgiften som ska kodas framgår inte av intervjufilmen alternativt att uppgiften blir självklar genom ett specifikt svar på en tidigare fråga, t.ex. Inkomster av kriminalitet senaste 6 månaderna. Tabell 2. Beskrivning av frågeområden, antal möjliga kodningar i DOK:s inskrivningsintervju samt antal undersökta kodningar. Frågeområden Antal möjliga kodningar Antal undersökta kodningar Boende- och levnadsform 17 14 Familj och umgänge 60 35 Uppväxtmiljö 8 8 Utbildning och försörjning 21 15 Sysselsättning 11 9 Drogrelaterad information 150 41 Behandlingshistoria 41 19 Fysisk hälsa 23 22 Psykisk hälsa 73 31 Kriminalitet 30 15 Totalt 434 209 50 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1
Är svaret nej på denna fråga blir den påföljande frågan om Inkomster av kriminalitet de senaste 30 dagarna automatiskt ej relevant (denna typ av s.k. checkpoints stöds i den tillhörande databasen och många intervjuare är så vana att koda att de troligen har införlivat de automatiska funktionerna). Av tabell 2 framgår att 209 av totalt 434 möjliga kodningar har analyserats liksom hur de fördelar sig inom respektive frågeområde. Vid studier av interbedömarreliabiliteten undersöks överensstämmelsen mellan de olika intervjuarnas bedömningar. Den grundläggande och bäst lämpade statistiska metoden är i detta fall PA 4, eller Percentage Agreement (Altman 1991; Svensson 2001b). I det här fallet har beräkning av PA gjorts i förhållande till det korrekta värdet. Cohen s kappa (K), som anses justera för slumpmässig enighet mellan bedömare, är inte lämpligt här eftersom antal bedömare är så pass stort (Shrout m. fl. 1987). Vi har valt att betrakta det interna bortfallet (uteblivna kodningar som följer på en redan tidigare besvarad och kodad fråga) som felaktiga kodningar, även om bedömarna sannolikt har uppfattat det som onödigt att fylla i alla fält. Resultat Studien omfattar således en fallbeskrivning som har bedömts och kodats av 41 bedömare. De har tagit ställning till 209 kodningar varvid resultaten är beräknade på sammantaget 8 569 kodningar. Vi kommer här inledningsvis att beskriva resultaten för respektive frågeområde. Därefter redovisas resultat för området drogrelaterad information, där samtliga undersökta Tabell 3. Beskrivning av frågeområden och procentuell överensstämmelse, N=41. Frågeområde variabler beskrivs. Slutligen ges en beskrivning av de olika bedömarnas kodningar vilket ger ytterligare en aspekt av överensstämmelsens variabilitet. Uppmätt överensstämmelse måste ställas i relation till användningsområde och sammanhang, vilket innebär att värderingen av den ofta varierar, men en procentuell överensstämmelse på ca 70 % betraktas vanligtvis som acceptabel (Bordens & Abbott 2005). PA Boende- och levnadsform 0,78 1,00 Familj och umgänge 0,73 1,00 Uppväxtmiljö 0,93 1,00 Utbildning och försörjning 0,85 1,00 Sysselsättning och fritid 0,95 1,00 Drogrelaterad information 0,61 1,00 Behandlingshistoria 0,85 1,00 Fysisk hälsa 0,73 1,00 Psykisk hälsa 0,80 1,00 Kriminalitet 0,88 1,00 I frågeområdet Boende- och levnadsform har 14 frågor undersökts, 13 av dessa har en PA på 0,90 eller högre. Den variabel som har ett PA-värde på 0,78 är Huvudsaklig boendeform senaste 30 dagarna och i det här fallet har fem bedömare kodat alternativet Annan boendeform (vilket är felaktigt) och därefter angivit den korrekta boendeformen i ett öppet svar. Familj och umgänge innefattar 35 studerade variabler. För 33 av variablerna är överensstämmelsen från 0,88 1,00. Det återfinns två värden med lägre överensstämmelse, Är arbetskamrater ett stöd för dig och Förekomst av allvarliga konflikter med arbetskamrater senaste 30 dagarna, 0,76 respektive 0,73. Här har 10 bedömare N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 51
i båda fallen kodat N, d.v.s. att frågan inte är relevant. För området Uppväxtmiljö varierar PA mellan 0,93 1,00 för de åtta granskade variablerna. För nästa område Utbildning och försörjning är PA mellan 0,98 1,00 för 14 av 15 variabler. Det något lägre värdet, 0,85, gäller frågan om Högsta fullföljda utbildningsnivå. Variabiliteten för området Sysselsättning och fritid är mellan 0,95 1,00. När det gäller Drogrelaterad information studerades 41 variabler. Sammantaget har 34 av variablerna en överensstämmelse som varierar mellan 0,90 1,00. För Behandlingshistoria är variabiliteten mellan 0,85 1,00. Fyra av de studerade frågorna har en överensstämmelse som är lägre än 0,90: Tidigare missbruksvård inom öppenvård senaste 6 månaderna, Tidigare missbruksvård inom slutenvård, Tidigare missbruksvård inom slutenvård ålder första tillfället samt Tidigare tvångsvård enligt LVM ålder första tillfället. Området Fysisk hälsa varierar mellan 0,73 1,00, där 21 av 22 studerade variabler har ett PA-värde som är 0,95 eller högre. Här är det frågan Vilket eller vilka läkemedel som ordinerats för starka smärtor de senaste 30 dagarna som har den lägsta (0,73) överensstämmelsen. För området Psykisk hälsa är den procentuella överensstämmelsen 0,80 1,00. En variabel av 31 undersökta har ett PAvärde som är lägre än 0,90 och det är frågan Period av allvarlig depression, även utan drogbruk (0,80). Beträffande Kriminalitet är variabiliteten 0,88 1,00. Tabell 4 beskriver samtliga 41 studerade variabler i området Drogrelaterad information. Detta område är centralt i DOKintervjun och innehåller en relativt omfat- Tabell 4. Beskrivning av studerade variabler i området drogrelaterad information och PA, N=41. Variabler/intervjufrågor PA Primär drog 0,95 Primär drog, frekvens senaste 30 dagarna 0,85 Primär drog, debutålder 0,90 Förekomst av injektionsmissbruk 0,88 Alkohol, frekvens senaste 30 dagarna 0,90 Alkohol, frekvens senaste 6 månaderna 0,88 Alkohol, regelbunden användning totalt i livet 0,98 Alkohol, första gången berusad 0,98 Alkohol, missbruk i perioder 0,98 Heroin, bruk någon gång i livet 1,00 Metadon, bruk någon gång i livet 1,00 Andra opiater, bruk någon gång i livet 1,00 Kokain, bruk någon gång i livet 1,00 Crack, bruk någon gång i livet 1,00 Amfetamin, bruk någon gång i livet 1,00 MDMMA/Ecstacy och andra derivat av stimulantia, bruk någon gång i livet 1,00 LSD, bruk någon gång i livet 1,00 Andra hallucinogener, bruk någon gång i livet 1,00 Hasch, bruk någon gång i livet 1,00 Hasch, debutålder 1,00 Hasch, regelbunden användning totalt i livet 0,76 Hasch, frekvens senaste 6 månaderna 0,68 Marijuana, bruk någon gång i livet 0,98 Lösningsmedel, bruk någon gång i livet 1,00 Lösningsmedel, debutålder 0,95 Lösningsmedel, regelbunden användning totalt i livet Lösningsmedel, frekvens senaste 6 månaderna 0,61 0,83 GHB, bruk någon gång i livet 1,00 Anabola steroider, bruk någon gång i livet 1,00 Andra medel, bruk någon gång i livet 1,00 Barbiturater, bruk någon gång i livet 1,00 Bensodiazepiner, bruk någon gång i livet 1,00 Andra dämpande mediciner, bruk någon gång i livet Smärtstillande preparat av opiattyp, bruk någon gång i livet Användning av flera medel per dag, senaste 30 dagarna Oro för problem med alkohol, senaste 30 dagarna 1,00 1,00 1,00 0,95 Något att förändra som rör drogbruk 1,00 Viktigast att förändra 0,98 Möjlighet att förändra drogbruk själv 1,00 Behövs behandlingsenhetens hjälp med förändringen 1,00 Målsättning gällande alkoholbruk 1,00 52 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1
Tabell 5. Beskrivning av antal felkodningar och bedömare, N=41. Medianen är 5,5 och medelvärdet 8,4. Antal felkodningar Antal tande inventering där intervjupersonens användning av 20 olika droger eller preparat kartläggs; från alkohol till smärtstillande medel av opiattyp. Totalt innehåller DOK-formuläret 150 möjliga kodningar inom området, men om en intervjuperson endast har använt ett fåtal droger blir de nödvändiga kodningarna färre. Variationen för 34 av variablerna inom området drogrelaterad information är 0,90 1,00. Sju av variablerna har en överensstämmelse mellan 0,61 0,88 och har markerats med fet stil. Den lägsta överensstämmelsen återfinns för de två frågorna Hasch, frekvens senaste 6 månaderna och Lösningsmedel, regelbunden användning totalt i livet, PA var här 0,68 respektive 0,61. Procent 0 5 21 51 6 10 9 22 11 15 6 15 16 20 1 2 21 eller fler 4 10 För att åskådliggöra hur resultaten fördelar sig mellan de enskilda bedömarna undersöktes diskrepansen mellan dem genom beräkning och summering av antal gjorda felkodningar. Vid analysen av bedömarna som medverkade i studien framträder nedanstående bild (se tabell 5). Som tidigare nämnts har de 41 bedömarna utfört sammantaget 8 569 kodningar och av dessa var 334 felkodningar. Av felkodningarna var 199 s.k. icke-kodningar, d.v.s. bedömaren utförde inte eller avstod från kodningen. Totalt har 9 av 10 bedömare en felprocent som varierar mellan 0 20 felkodningar, vilket innebär att 9 av 10 bedömare svarade rätt på minst 90 procent av samtliga studerade variabler/intervjufrågor. Noterbart är också att något mer än hälften av bedömarna svarade fel på 0 5 variabler, en överensstämmelse på 0,98. För att kunna belysa ytterligare en aspekt av skillnader mellan bedömarna studerades också variationen och fördelningen mellan de olika behandlingsenheterna. Nedanstående tabell beskriver antal felkodningar vid de sex medverkande enheterna. Som framgår av tabell 6 är finns det en viss variation inom respektive enhet och deltagande personer med hög felprocent är utspridda på flera enheter. Tabell 6. Beskrivning av felkodningar vid de medverkande behandlingsenheterna, N=41ю Antal Felkodningar Enhet A Enhet B Enhet C Enhet D Enhet E Enhet F 0 5 3 2 2 4 2 8 6 10 3 2 3 1 11 15 1 3 2 16 20 1 21 eller fler 1 2 1 Antal deltagande Personer 6 6 8 8 4 9 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 53
Diskussion I och med att olika strukturerade intervjumetoder antingen importerade eller konstruerade i Sverige allt oftare kommit till användning i det sociala arbetet vill vi genom den här studien understryka vikten av att också pröva de här metodernas tillförlitlighet och giltighet i olika avseenden. Inledningsvis diskuteras några väsentliga aspekter vid studier av interbedömarreliabilitet och därefter utvecklas studiens resultat. Något förvånande kan det konstateras att studier av interbedömarreliabiliteten är ovanligt förekommande, detta trots att expertis på området särskilt framhåller vikten av den aspekten av tillförlitlighet när det gäller standardiserade intervjumetoder (Alling m.fl. 2006). Det framgår även av tabell 1 att ett flertal olika statistiska metoder använts vid beräkning av interbedömmarreliabiliteten. I flera fall används olika typer av korrelation, vilket ofta sammanblandas med överensstämmelse. Detta är emellertid förenat med flera problem som vi i ett tidigare sammanhang redogjort för, bl.a. kan hög korrelation uppnås, trots att låg överensstämmelse föreligger (Anderberg & Dahlberg 2006). Ibland används även sammansatta mått vid prövning. Ett problem med att använda sammansatta mått innehållande flera variabler är att extremvärden kan bidra till att utjämna variationen, vilket i sin tur kan leda till felaktiga slutsatser (Jansson 2001; Svensson 2001a). Det går då inte heller att identifiera vilka variabler som är särskilt problematiska eller osäkra. Därför bör samtliga variabler undersökas och prövas var för sig för att åskådliggöra var i den strukturerade intervjun bristerna uppstår. Ytterligare ett aber är att den statistiska bearbetningen och analysen ofta sker utifrån metoder som behandlar data från skalor och skattningar, d.v.s. ordinaldata, såsom kvantitativ data. En annan iakttagelse är att det i flera fall endast är intervjuarskattningarna som testats, trots att det i de här intervjuformulären finns ett flertal frågor som kräver någon form av övervägande eller bedömning innan kodning sker. Särskilt intervjuarskattningar har konstaterats ha sämre tillförlitlighet än andra uppgifter i strukturerade intervjuer (Mäkelä 2004). Att använda subjektiva bedömningar som underlag i forskning är därför något som avråds ifrån: Intervjuarens skattning av problemens svårighetsgrad är subjektiva bedömningar av klientens situation. Dessa skattningar är därför mindre lämpliga för utvärdering av förändring över tid då man upprepar ASI-intervjun i uppföljningsundersökningar. Detta gäller särskilt i utvärderings- och forskningssammanhang där behoven av mätnogrannhet (reliabilitet) och relevans (validitet) är mycket höga (Andréasson 2003, s. 65). Av samma skäl planeras intervjuarskattningarna att strykas i den kommande versionen av ASI (McLellan et al. 2004). Under konstruktionen och utvecklingen av DOK uppmärksammades problemet med intervjuarskattningar och de har därför aldrig funnits med i intervjuformulären. Den här artikeln presenterar en metod för att utvärdera interbedömarreliabilitet hos DOK eller andra liknande intervjuinstrument och vår första frågeställning rör vilka enskilda frågor eller frågeområden som uppvisar störst respektive lägst överensstämmelse. En övervägande del 54 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1
av de undersökta domänerna och variablerna i DOK visar på en tillfredsställande eller hög nivå när det gäller interbedömarreliabiliteten (Bordens & Abbott 2005). Resultaten avseende livsområdena Uppväxtmiljö och Sysselsättning påvisar en hög överensstämmelse hos de olika bedömarna, från 0,93 1,00 till 0,95 1,00. Andra livsområden uppvisar en något större variation, t.ex. Familj och umgänge, med ett PA på 0,73 1,00 och Drogrelaterad information där PA varierar mellan 0,61 1,00. Tre områden har en lägre överensstämmelse på mer än en enskild variabel och det gäller åter områdena Familj och umgänge, Drogrelaterad information och Behandlingshistoria. Också inom respektive område framträder vissa skillnader. Flera variabler har en fullständig överensstämmelse medan några enskilda variabler uppvisar lägre värden och därmed lägre tillförlitlighet. Totalt sett har 189 av 209 studerade variabler en överensstämmelse som är 0,90 eller högre. Ett antal aspekter kan förklara varför vissa specifika frågor har en lägre överensstämmelse och därmed en lägre reliabilitet: Frågan är otydligt konstruerad eller definierad. Detta gäller exempelvis frågan om Högsta fullföljda utbildningsnivå. Felkodningar uppstår då bedömarna sannolikt inte uppmärksammat att frågan avser fullföljd utbildning. I nämnda exempel kunde begreppet avslutad utbildning användas istället eller så kunde ordet fullföljd understrykas i formuläret. Manual och formulär ger ingen eller otillräcklig vägledning om hur ett specifikt svar ska tolkas och kodas. Detta gäller bl.a. frågan om Arbetskamrater är ett stöd i området Familj och umgänge. Det saknas tydliga anvisningar i formulär och manual om hur själva kodningen ska utföras, vilket även visar sig i vårt material där 10 bedömare kodar N (= ej relevant). Att N kodas tolkar vi som att bedömarna menar att intervjufilmens huvudperson, som inte hade arbetat under en längre period, för närvarande inte hade några arbetskamrater. Med tydligare anvisningar skulle överensstämmelsen för nämnda variabel kunna bli 0,98, eftersom 40 av 41 bedömare kodar ett svar. Följdfrågor som åtföljer en huvudfråga. Avsikten är att kartlägga t.ex. tidigare missbrukarvård i området Behandlingshistoria mer detaljerat. Detta framgår av frågan Tidigare missbruksvård inom öppenvård, senaste 6 månaderna där de direkt föregående frågorna har hög överensstämmelse men nämnda har en lägre (0,85). Situationen är den samma inom området Drogrelaterad information där följdfrågor på respektive preparat uppvisar en lägre överensstämmelse. Försöket att uppnå högsta möjliga detaljeringsgrad i intervjuformuläret påverkar troligen tillförlitligheten negativt eftersom den önskade informationen blir alltför specifik. Bedömare är ovana vid att göra intervjuer eller saknar tillräcklig utbildning. Något som bl.a. visar sig i området Fysisk hälsa, där en enskild variabel har lägre överensstämmelse (0,73): Ordinerade läkemedel de senaste 30 dagarna för starka smärtor. I intervjufilmens fallbeskrivning berättas om två preparat, Ibumetin och Citodon och det korrekta ska således vara att båda preparaten anges. Här kan dock noteras att 40 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 55
av de 41 bedömarna kodade endast det preparat som fordrar förskrivning Citodon. Vilket troligen innebär att ordinerade läkemedel tolkas synonymt med förskrivna läkemedel. Studien ger således vägledning om hur interbedömarreliabiliteten beträffande också DOK-intervjun kan förbättras. Ansvariga för dokumentationssystemet bör se över inskrivningsintervjun och revidera de variabler i formuläret som uppvisar lägst tillförlitlighet. Därefter kan en ny studie genomföras för att på så sätt säkerställa att genomförda ändringar får önskvärd effekt och att reliabiliteten därigenom stärks. Förbättring och prövning av interbedömarreliabiliteten bör vara en ständigt pågående process, dels i form av återkommande utbildningsinsatser och dels via upprepade studier i samband med revidering av intervjuformuläret (Alling m.fl. 2006; Jenner & Segraeus 2005). Vår andra frågeställning avser belysa hur bedömningarna skiljer sig åt mellan olika intervjuare/bedömare. Resultaten påvisar en mindre systematisk skillnad mellan bedömarna genom att en övervägande del av bedömarna har en försumbar felprocent, medan ett litet antal bedömare står för den största variationen. Det framgår av studien att 37 av 41 bedömare svarar rätt på nio av tio frågor och att mer än hälften har fem eller färre felaktiga kodningar. Variansen mellan de olika behandlingsenheterna är så pass marginell att kulturella eller organisatoriska skillnader troligen inte är avgörande. Inför kommande studier av interbedömarreliabiliteten kan vi konstatera att det är viktigt att hos bedömarna också kartlägga bakgrundsvariabler som utbildning, erfarenhet och engagemang avseende strukturerade intervjuer som DOK, då sådana faktorer visat sig kunna utgöra tänkbara förklaringar till systematiska skillnader vid användning av strukturerade intervjuer (Söderberg m.fl. 2004). Bristande kompetens eller ovana vid intervjumetoden framträder troligen i resultaten, dock främst i form av utebliven kodning. De flesta av dessa fel upptäcks och kan ibland redigeras i samband med inkodning av formulären i databasen, genom att det finns inbyggda spärrar i dataprogrammet mot ologiska kodningar. Grundläggande utbildning och återkommande träning för den personal som genomför DOK-intervjuer är följaktligen också av stor betydelse för att komma till rätta med den systematiska avvikelse som iakttogs hos några enskilda individer. Det ska dock tas i betraktande att en fråga kan ställas på nytt och ett förtydligande ges i en verklig intervjusituation. En av studiens viktigaste slutsatser är att det överlag är små skillnader mellan de olika bedömarna. Men det faktum att meningsfulla svar ges på enkla frågor betyder inte nödvändigtvis att bedömarna på grundval av det kan ställa rätt diagnos. Nästa steg att göra en samlad behovsbedömning med stöd av klientens uppgifter är en betydligt mer komplicerad process, där interbedömarreliabilitet avseende DOK-intervjun endast är en viktig ingående faktor. Många faktorer har, som visats, betydelse för resultatet och en strukturerad intervju utgör endast en del av det samlade underlag som ligger till grund för professionella bedömningar om adekvat behandling: Acceptable agreement depends upon circumstances. There is no value of Kappa that can be regarded universally 56 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1
as indicating good agreement statistics cannot provide a simple substitute for clinical judgement (Altman 1991, 409). Avslutningsvis visar denna studie att DOK:s inskrivningsintervju sammantaget uppvisar en hög grad av interbedömarreliabilitet, med undantag för ett antal enskilda variabler med lägre värden, samt att dessa med små medel troligen kan förbättras ytterligare. Resultat och slutsatser ska dock ses i skenet av att detta är en enskild studie varför resultaten bör prövas i nya undersökningar. Mats Anderberg, doktorand IVOSA (Institutionen för vårdvetenskap och socialt arbete) Växjö Universitet 351 95 Växjö E-post: mats.anderberg@vxu.se Mikael Dahlberg, doktorand IVOSA (Institutionen för vårdvetenskap och socialt arbete) Växjö Universitet 351 95 Växjö E-post: mikael.dahlberg@lundby.goteborg.se Noter 1) Förkortningarna står för: Addiction Severity Index, Dokumentation av klienter, Adolescent Drug Abuse Diagnosis och Barns Behov I Centrum. 2) Förkortningarna betyder: Alkohol Drog Diagnos Instrument och Monitoring Area and Phase System. 3) GAF (Global Assessment of Functioning) är ett instrument som används inom psykiatrin för att mäta och bedöma psykisk ohälsa. 4) PA är en engelsk förkortning för procentuell överensstämmelse och avser i detta sammanhang relationen mellan antalet korrekta kodningar och antalet bedömare som kodar respektive fråga. När 41 bedömare avger korrekt uppgift blir PA 1,00 för den enskilda frågan. REFERENSER Allen, J.P. & Columbus, M. (2003): Assessing Alcohol Problems: A Guide for Clinicians and Researchers. Rockville: NIAAA (National Institute on Alcohol Abuse and Alcoholism) Alling, C. & Beck, O. & Bergman, H. & Helander, A.& Jenner, H.& Nyström, S. & Wennberg, P. (2006): Markörer och diagnostiska Test. I Faktaunderlag till Nationella riktlinjer för missbruks- och beroendevård. Stockholm: Socialstyrelsen Altman, D.G. (1991): Practical statistics for medical research. Florida, Chapman and Hall/CRC Anderberg, M. & Dahlberg, M. (submitted): Om strukturerade frågor och tillförlitliga svar i missbrukarvården en reliabilitetsstudie av DOK-intervjun Andréasson, S. (2003): ASI: en strukturerad intervjumetod för bedömning av alkohol- och narkotikarelaterade problem. Stockholm, Centrum för utvärdering av socialt arbete (CUS) Socialstyrelsen: Socialstyrelsens kundtjänst distributör Bordens, K.S. & Abbott, B.B. (2005): Research, design and methods: a process approach. 6th edition. New York: McGraw Hill Higher Education Dawe, S. & Mattick, R.P. (1997): Review of diagnostic screening instruments for alcohol and other drug use and other psychiatric disorders. Sydney: National Drug and Alcohol Centre Hellevik, O. (1993): Forskningsmetode i sosiologi och statsvitenskap. Oslo: Universitetsförlaget IKM (1999): Årsrapport IKM-DOK 1997 1998. Statistik från DOK-systemet inom den frivilliga missbrukarvården. Växjö: IKM, N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 24. 2007. 1 57
Växjö universitet Jansson, I. (2001): Problem i sammanfattande mått i ASI. Stockholm: Statens Institutionsstyrelse (SiS) Jenner, H. & V. Segraeus (1996): Att utveckla missbrukarvård genom dokumentation: beskrivning av DOK-projektet. Stockholm: Statens institutionsstyrelse (SiS) Jenner, H. & V. Segraeus (2005): The Swedish DOC system an attempt to combine documentation and self-evaluation. European Addiction Research 11: 186 192 McLellan, A.T. & Cacciola, J.S. & Alterman, A.I. (2004): The ASI as a still developing instrument: Response to Mäkelä. Addiction 99: 411 412 Mäkelä, K. (2004): Studies of the reliability and validity of the Addiction Severity Index. Addiction 99: 398 410 Peters, C.P. & Friedman, N. & Jacobs, S.S. & Jones, B.J. & Kelley, J.M. & Nazar, K.L. (1999): The use of client surrogates in determing the reliability of a standardized assessment instrument in multiple, diverse settings. Evaluation and Program Planning 22: 429 437 Room, R. & Janca, A. & Bennett, L.A., & Schmidt, L. & Sartorius, N. (1996): WHO cross-cultural applicability research on diagnosis and assessment of substance use disorders: an overview of methods and selected results. Addiction 91 (2): 199 220 Sandahl, C. (1998): BIB 1998: bedömningsinstrument inom behandling och forskning. Stockholm, Statens institutionsstyrelse (SiS) Shrout, P.E. & Spitzer, R.L. & Fleiss, J.L. (1987): Quantification of Agreement in Psychiatric Diagnosis Revisited. Archives of General Psychiatry 44: 172 177 Socialstyrelsen (2004): Systematisk bedömning inom socialtjänsten. Stockholm, Socialstyrelsen Svensson, E. (2001a): Construction of a single global scale for multi-item assessments of the same variable. Statistics in medicine 20: 3831 3846 Svensson, E. (2001b): Guidelines to Statistical Evaluation of Data from Rating Scales and Questionnaires. Journal of Rehabilitation Medicine 33: 47 48 Söderberg, P. & Tungström, S. & Armelius, B- Å. (2004): GAF-skalans reliabilitet i kliniskt arbete. Forskningsrapport. Institutionen för psykologi, Umeå Universitet: Umeå. www.ikmdok.se 58 N O R D I S K A L K O H O L - & N A R K O T I K A T I D S K R I F T V O L. 2 4. 2 0 0 7. 1