Terminologihantering i medicinska loggfiler Terminology management in medical log files DIMITRIOS KOKKINAKIS Språkbanken, inst. för svenska språket CLT: Centre for Language Technology Göteborgs universitet dimitrios.kokkinakis@svenska.gu.se
Översikt Motivering / Syfte Bakgrund: 1177 Vårdguidens sökloggar Sökloggarnas anatomi Medicinska närsynonymer och termvariation Terminologihantering++ SNOMED CT; NPL; NER; Kvar? Resultat Sammanfattning
Motivering / Syfte Växande behov av koppling mellan fack- och allmänspråk för praktiska (medicinskt orienterade) tillämpningar, t.ex. underlätta förståelse av lekmans ordförråd Använda terminologin som stöd för t.ex. informations- och kunskapsutvinning Brist på täckande medicinska (elektroniska) termlistor med integrerad utförlig språklig & medicinsk information för lekmän Applikationer med indata som innehåller både fackspråk och allmänspråk Hur ställer man frågor till en hälsoportal? Blir man påverkad av Google-liknande sätt att ställa frågor? Kan man få en överblick över vilka begrepp finns i loggar? Kan SNOMED CT och andra terminologiska resurser fånga termanvändningen i dessa loggar?
Data: 1177 Vårdguidens sökloggar Loggfil: en fil som registrerar alla aktiviteter när man interagerar med en webbplats, en portal eller ett datorsystem. Loggfilerna kan användas för att förstå aktiviteten i sådana miljöer och kan ge viktig information över användarnas beteende, sökfrågor, behov, intressen, sidor man besöker mm.
1177 Vårdguidens Loggar: Loggarnas anatomi 84 052 967 sökfrågor fr. 20101001 till 20130926 1 706 168 normaliserade sökfrågor (dvs. tokeniserade; alla i gemener; unika förekomster) 80 100 sökfrågor/månad 1,56 ord/sökfråga Mest frekventa sökfrågor: % av antal ord i sökfrågor: # Sökfråga 1843597 akutmottagning 1081907 vårdcentral 711429 sex och samlevnad 679887 säsongsinfluensan vaccination 505902 tandvård 405306 barnavårdscentral 375886 barnmorskemottagning #ord # % 1* 45820736 54.4% 1 23882445 28.4% 2 8247032 9.8% 3 4366991 5.2% 4 862127 1.02% 5 450245 0.53% 6 200932 0.24%
1177 Vårdguidens Loggar: Loggarnas innehåll Q FC1557981DFE4A6E63FCE7C2607FC5 1289860412 Värk rygg huvud bäcken hidden:(meta:category:pagetype;article AND meta:category: PageType;Mobile ) = 8 1 -N - sv = = =
1177 Vårdguidens Loggar: Loggarnas termer Systematized Nomenclature Of Medicine Clinical Terms (SNOMED CT) ca 250,000 termer + 230,000 varianter Nationellt Produktregister för Läkemedel (NPL) ca 11,246 termer Namnentitets igenkänning olika kategorier (person, plats, organization, tid ) Vad finns det kvar???
Närsynonymer och termvariation Termvariation: alternativa namn för ett begrepp. T. ex., lumbago, ryggskott eller ländryggssmärta är varianter (av synonymtyp) kan användas omväxlande Inom samma text kan en term uppvisa stor variation en stötesten för många tillämpningar variantformer måste identifieras och länkas till etablerade terminologiska eller ontologiska resurser Utveckla rutiner för att hantera/fånga termvariation är ett nödvändigt steg för ett flertal mer avancerade tillämpningar inom språkteknologi
Närsynonymer och termvariation 1/7 morfologisk variation böjnings- och avledningssuffix hjärtsjukdom => hjärtsjukdomar; ödem => ödematösa strukturell variation: NP:er från sammansättningar mikroalbuminurimätning => mätning av mikroalbuminuri strukturell variation: sammansättningar från NP:er undersökning av fot => fotundersökning strukturell variation: (vissa typer av) koordineringar hjärt- och njursvikt => hjärtsvikt och njur svikt partiell matchning mha sammansättningssegmentering abstinenskramper => <abstinens><kramper> stressinkontinens => <stress><inkontinens> utmattningsdepressioner => <utmattnings><depressioner>
Närsynonymer och termvariation 2/7 vissa typer av akronymer och förkortningar apolipoprotein b-a1 => apob/apoa1 vissa typer av ellipsis och andra typer av koordineringar supraventrikulär och ventrikulär takykardi NYHA-klass III eller IV modifieringar & ersättningar: sifferomvandling; utelämning/tillägg av bindestreck; utelämning av vissa funktionsord och/eller skiljetecken NYHA typ 2 => NYHA typ II Romano-Wards syndrom => Romano Wards syndrom diabetes mellitus typ 1 => diabetes typ 1 nya termvarianter: felstavningar trokanterit; trochanterit; throkanterit
Närsynonymer och termvariation 3/7 nya termer i SNOMED läkemedelsnamn via aktivsubstans (FASS) P :.. eh lugnande, jag tar bara Lyrica innan jag sover 415159003 SNOMED överföring av en del av MeSH-synonymer 267982002 smärta i ländryggen MeSH SNOMED
Närsynonymer och termvariation 4/7 Ur Stomiboken, 2010, ConvaTec Carpa: förening som vänder sig till patienter med hormonproducerande tumörer <www.carpapatient.se> Nätverk för Insamling och sammanställning av kunskap om prostatit <home.swipnet.se/isop/>
Ur svensk ordbok Närsynonymer och termvariation 5/7 Stavfel: mäta avståndet mellan två strängar (Levenshteinavståndet) testat endast avstånd 1 och 2 + posteditering! 779 trokanterit 638 trochanterit 77 Trochanterit 65 Trokanterit 15 throkanterit 11 trokanter Mönstermatchning i korpora t ex ur Läkartidningen: parentetisk info.
Närsynonymer och Termvariation 6/7 Vektorrymdsmodell: sökfrågor representeras som vektorer; algoritmer hittar ord som förekommer i liknande kontext Mikolov T., Chen K., Corrado G., and Dean J. 2013. Efficient Estimation of Word Representations in Vector Space. Proc of ICLR.
Terminologihantering: steg 1 SNOMED CT # SNOMED CT Loggvarianter 325242 influensa influenza; influnsa; influenssa; influ 165078 utslag uslag; prikor; prikar 129145 vattkoppor vattenkoppor 100846 sjukdom i mag-tarmkanal mag-tarmkanalssjukdom 95644 tonsillit halsfluss; vita prickar i hals 95003 infektionssjukdom i urinvägar urinväxtinfektion; urininfenktion 83829 pneumoni luninflamation; lugninflammastjon 81289 allergi allregin; allergiska symtom 78089 impetigo svinkoppa; svinkoppar 75045 förkylning förkyldning; förkyld 73021 kräkning kräkts; vomera; kräkn.; krekning
Terminologihantering: steg 1 SNOMED CT Juli, 2011 Jan. 2011 Juli, 2012 Juli, 2013 Jan. 2012 Jan. 2013
Terminologihantering: steg 1 SNOMED CT
Terminologihantering: steg 2 NPL 453876 # Produkt 32584 laktos V04CX 16272 alvedon N02BE01 13966 waran B01AA03 10947 kåvepenin J01CE02 10555 gardasil J07BM01 7561 ipren M01AE01#M02AA1 6971 kalcium A12AA 6142 levaxin H03AA01 5644 magnesium A12CC 5203 folsyra B03BB01 5135 diklofenak M01AB05 # ATC-koder i 1177 Vårdguiden 98913 N Nervsystemet 52319 J Infektionssjukdomar 46385 A - Matsmältningsorgan och ämnesomsättning 33746 B - Blod och blodbildande organ 31304 V Varia 30903 M Rörelseapparaten 28497 R Andningsorganen 24183 C -Hjärta och kretslopp 22666 G - Urin- och könsorgan samt könshormoner 12746 D -Hud
Terminologihantering: steg 2 NPL A - Matsmältningsorgan och ämnesomsättning B - Blod och blodbildande organ J Infektionssjukdomar
Terminologihantering: steg 3 NER 5775768 # Entitetstyp Exempel 1841962 PERSON-ENT claes Granstrand; barbara flur 1312735 PLACE-ENT järfälla; Årsta; SÖDERMALM 1019684 FUNCT-ENT dalens vårdcentral; BVC Björken 392821 GROUP-ENT unga vuxna; diabetiker; kvinnor 317948 ORGZ-ENT Carema; AB S:t Erik vård 300200 DRUG-ENT antidepressiva; gardasil; trombyl 74651 FUNCT-ENT+PLACE-ENT Ortho Center Stockholm 62248 PERSON-ENT+PLACE-ENT Bodil Hofvander Kungsholmen 56605 TIME-ENT på morgonen; nu; 5 maj; flera veckor 50157 ORGZ-ENT+PLACE-ENT Bräcke Diakoni Mösseberg
Terminologihantering steg 4 Vad finns det kvar? Vårdkontaktstermer Administrationstermer Akronymer Förkortningar
Terminologihantering steg 4 # Toppen på omatchade poster 1895553 akutmottagning 1380659 vårdcentral 695894 sex och samlevnad 481838 tandvård 477789 barnavårdscentral 441946 barnmorskemottagning 285368 närakut 175223 hälsocentral 120889 cancer 110307 sjukhus 107626 mödravård min hälsoplan oroliga ben cirkulations organ coca cola spyr skum själmord försök shaken baby (71) spyfärdig oroligmage spykiatri (36) ofostrig gravidite alkohollist periodare ccp läcccccccccccccccccckage Pcd
Sammanfattning Datorbaserad, semantisk bearbetning av stora textmaterialet blir allt mer eftertraktade av forskare inom olika discipliner särskilt semantiskt förädlade korpora utgör en resurs som bidrar till utveckling inte minst i flervetenskapliga sammanhang Utfört olika korpusbaserade studier för att få en bild på sökloggarnas terminologiinnehåll Lyft fram några frågor som kräver ytterligare utredning, t.ex. hur vi kan bäst hantera termvariation Trots att stora medicinska termresurser finns tillgängliga, automatiska korpusbaserade metoder behövs som ett viktigt komplement till allt som erbjuds Olika typer av textdata verkar använda olika sätt att uttrycka termer svårt att skapa en modell för att täcka all texttyper Tydlig påverkan av Google-typ av sökningar