Talbaserade multimodala dialogsystem för medicinsk rådgivning Daniel Höglind (hoeglind@kth.se) & Paulina Modlitba (paulina@kth.se) Den här artikeln beskriver ett talbaserat multimodalt dialogsystem som används särskilt för medicinsk rådgivning. Genom att beskriva systemets uppbyggnad och tillämpning ur olika aspekter vill vi med denna text framhålla de fördelar ett multimodalt dialogsystem kan tillföra kommunikationen mellan människa och system i en medicinsk kontext. Även om idén om talbaserade dialogsystem på intet sätt är ny, är det först på senare år som system för talbehandling har blivit tillräckligt sofistikerade för att möjliggöra mer dynamisk interaktion baserat på naturligt språk. Därmed har det också blivit möjligt att introducera denna typ av system i kommersiella sammanhang och miljöer. Hittills har dialogsystem främst använts för relativt enkla och lättkontrollerade tjänster såsom automatisk biljettbokning och vägbeskrivning. Tack vare den tekniska utvecklingen har det idag blivit möjligt att integrera systemen i mer komplexa och kritiska dialogkontexter. Medicinsk rådgivning är ett sådant exempel. Dialogsystem för medicinsk rådgivning ställer höga krav på att kommunikationen mellan användare och system fungerar problemfritt. I de följande avsnitten kommer vi att behandla de faktorer som måste beaktas i detta sammanhang, både ur ett rent systemtekniskt och ur ett mer användaranpassat perspektiv. Alla centrala delar av dialogsystemet, såsom taligenkänning (ASR), dialoghantering, felhantering, talsyntes och utmatning beskrivs och diskuteras. 1. Vad är ett talbaserat dialogsystem? Ett talbaserat dialogsystem kan enklast beskrivas som ett systemgränssnitt som möjliggör mer eller mindre naturliga konversationer mellan människa och system. De flesta dialogsystem används för någon typ av problemlösning, såsom exempelvis vägbeskrivning eller biljettbokning. Genom att ställa frågor och göra yttranden hjälps användaren och systemet åt att lösa det aktuella problemet. Det finns idag tre huvudgrupper av dialogsystem. I tillståndsbaserade 1 system, som är den enklaste dialogmodellen, är dialogen och dess tillstånd explicit definierade. Det är således systemet som tar initiativet och styr dialogen. Ram- eller formulärbaserade 2 system är något mer avancerade i den mening att dialogen och de olika informationstillstånden är separata. Systemet vet vilken information som måste tillföras av användaren, men kan själv hålla reda på vad som har sagts hittills och vilken information som saknas. De mest avancerade dialogsystemen kallas agentbaserade 3. Det är denna typ av dialogsystem vi i huvudsak kommer att beröra i denna artikel. Agentbaserade system tillämpar statistik och AI för att beräkna modeller av intentioner, mål och föreställningar hos både användare och system. Detta tillvägagångssätt är helt överlägset i situationer där dialogen baseras på naturligt tal och systemet inte kan förutsätta användarens yttranden och intentioner. De huvudsakliga delarna i ett talbaserat dialogsystem presenteras nedan. Systemet måste omfatta både automatisk taligenkänning och talsyntes. Användarens yttranden tas in i form 1 Fri översättning av eng. finite-state based 2 Fri översättning av eng. frame based 3 Fri översättning av eng. agent based Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 1(11)
av ljudsignaler och tranformeras därefter om till någon form av lexikal representation genom fonetisk behandling och grammatisk jämförelse. Utifrån kunskap om användarens intentioner, det slutgiltiga målet, domänen och andra centrala aspekter formar systemet därefter svar och frågor. Utmatning av information eller frågor sker i form av grafik, akustisk och visuell talsyntes (exempelvis talande ansikte) eller i form av inspelat ljud. McTear beskriver komponenterna i sin text om talbaserade dialogsystem: speech recognition, language understanding, dialogue management, communication with external system, respons generation, speech output. Grundidén är idag fortfarande densamma; dock har metoderna för taligenkänning och talsyntes blivit mer sofistikerade. 2. Dialogsystem för medicinsk kommunikation Vi har valt att i denna artikel beskriva och diskutera ett talbaserat multimodalt dialogsystem för användning inom medicinsk rådgivning. Denna typ av dialogsystem har till uppgift att övervaka, stödja och informera användare inom olika former av sjuk- och friskvård. Att vårt fokus fallit på just det medicinska området har sin förklaring i att vi anser att det där finns ett antal mycket intressanta och viktiga aspekter kring dialogsystem som är värda att ta upp till diskussion. Den medicinska kontexten, i vilken dialogsystemet används, ger nämligen upphov till flera unika krav och problem som måste beaktas för att systemet ska kunna användas på ett tillfredställande sätt. Kring flera av dessa problem sker idag en intensiv forskning för att finna nya och bättre lösningar. En annan viktig orsak till vårt val av ämne är också att ett väl fungerande dialogsystem inom det medicinska området gör en enorm samhällsnytta och att det därför är viktigt att denna typ av system förs fram och belyses. I den situation som sjukvården befinner sig i idag räcker inte befintliga resurser till. Personer i behov av medicinsk vård får stå i långa köer för att få hjälp och när vård väl ta emot kan den i många fall vara otillräcklig eller rent av bristfällig. Detta är ofta en direkt konsekvens av att vårdpersonalen är överbelastad och därför inte har tid och ork att ge varje patient den tid och uppmärksamhet som behövs. Genom att med hjälp av dialogsystem erbjuda patienter en personlig och naturlig kontakt med sjukvården skulle deras behov av exempelvis stöd eller information dock kunna tillgodoses och sjukvårdspersonalen skulle kunna avlastas. 2.1 Viktiga aspekter av dialogsystem för sjukvård Som nämnts ovan finns det ett antal speciella faktorer som ett dialogsystem för användning inom medicinsk kommunikation måste ta särskild hänsyn till. Vilka är då dessa? Vad är det som är unikt för dialogsystem inom sjuk- och friskvården och vad skiljer dem från andra typer av dialogsystem? i 2.1.1 Livsviktighet Det är svårt att tänka sig ett mer kritiskt användningsområde för dialogsystem än just inom sjuk- och friskvården. Om ett dialogsystem för exempelvis tidtabellupplysning begår ett fel kan detta förvisso göra användaren irriterad, men dennes liv sätts aldrig i någon direkt fara. I en medicinsk kontext, till exempel på en akutmottagning, kan förhållandena dock vara helt annorlunda. Om ett fel uppstår kan detta ske på bekostnad av användarens liv och det finns således inget utrymme för misstag i interaktionen med systemet. Kraven på robusthet och pålitlighet för denna typ av system och dess komponenter är därför särskilt höga. 2.1.2 Säkerhet En stor och viktig del av medicinsk kommunikation handlar om hantering av olika former av känslig information, i form av exempelvis personuppgifter och uppgifter om medicinska tillstånd. Denna hantering ställer i första hand krav på att det dialogsystem som utnyttjas har en hög säkerhet mot intrång och att de uppgifter som lagras i systemet och tillhörande databaser endast är åtkomliga för personer med särskild behörighet. Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 2(11)
Eftersom uppgifterna som systemet matar ut kan vara av en mycket känslig natur är det också av stor vikt att systemet sköter utmatningen av information till användaren på ett korrekt sätt. Systemet bör därför ha funktioner för att känna av användarens omgivning och anpassa innehållet i systemets utmatning och även åtkomsten av känsliga uppgifter efter denna omgivning. Detta innebär till exempel att systemet bör utforma interaktionen med användaren annorlunda i de fall då användaren befinner sig i avskildhet i sitt hem, där risken för att någon obehörig person finns i närheten är liten, än om användaren befinner sig på sin arbetsplats omgiven av andra människor. 2.1.3 Kontinuitet Beroende på användningsområde kan ett dialogsystem inom sjuk- och friskvården komma att utnyttjas av samma användare över lång tidsperiod. Det kan till exempel handla om system för kosthållning eller för övervakning av användarens blodvärden. Varje interaktion som patienten har med dialogsystemet kan i dessa fall inte ses som en isolerad händelse utan den hör i hög grad ihop med tidigare interaktioner och påverkar även de nästkommande. Detta kan jämföras med ett enklare dialogsystem, exempelvis för biljettbokning, där systemet inte behöver minnas något om tidigare bokningar för att kunna genomföra en ny specifik bokning. För att användaren ska uppleva en återkommande interaktion som naturlig och kontinuerlig och i förlängningen bygga upp ett förtroende och en tillit till systemet krävs det att dialogsystemet kan hantera och lagra information om användaren och dessutom förändra sin dialog med användaren över tid. Forskning på området visar nämligen att i interaktionen mellan två deltagare tenderar dialog kring specifika uppgifter som måste utföras att minska med tiden, medan social dialog bli allt viktigare vartefter deltagarnas relation fördjupas. Utöver detta krävs det också att systemets språk förändras över tid så att inte användaren upplever systemet som monotont och tjatigt och till slut tappar intresset för det. 2.1.4 Ömsesidighet När man diskuterar dialogsystem så är sättet på vilket interaktionen mellan användaren och systemet äger rum en viktig aspekt. Som tidigare nämnts finns det tre typer av dialogsystem och vilket system som används påverkar i hög grad hur användaren upplever systemet och sin roll i förhållande till det. Denna fråga har visat sig vara särskilt viktig i dialogsystem för medicinsk kommunikation. Forskning kring kontakten mellan läkare och patient har visat att om interaktionen är mixed-initiative, det vill säga om läkare och patient aktivt diskuterar, ifrågasätter, förhandlar och arbetar tillsammans med att komma fram till en lämplig vård för patienten, så är chanserna större att patienten följer de föreskrifter och mål som sätts upp. Detta betyder alltså att ett dialogsystem utvecklat för användning inom sjukvård bör ha en funktionalitet som stöder en ömsesidig kommunikation mellan systemet och användaren. 2.1.5 Social relation Det är inte bara den konkreta hjälpen som patienten får genom medicinsk rådgivning i en sjukvårdssituation som gör att denne känner att dess behov har tillgodosetts. Även det personliga bemötande från sjukvårdspersonalen spelar en viktig roll för vad utgången för patienten blir, exempelvis tillfrisknande. Den sociala aspekten av ett dialogsystem har därför en framträdande roll inom medicinsk kommunikation. Ett system som utför sina uppgifter felfritt och effektivt är förvisso bra, men om inte systemet har en personlighet som tilltalar användaren kan resultatet ändå bli bristfälligt. Dialogsystemet måste alltså ständigt arbeta med att bygga upp och bevara ett långvarigt personligt förhållande med användaren. Detta ställer omfattande krav på att systemet har en väl fungerande modell över användaren och funktioner för att känna av användarens behov och önskningar. Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 3(11)
2.2 Befintliga dialogsystem och aktuell forskning Det pågår idag en intensiv och alltmer expanderande forskning kring dialogsystem inom flera olika områden av sjuk- och friskvård. En del av denna forskning har lett fram till färdigutvecklade prototyper och system, medan annan forskning huvudsakligen fokuserat på att belysa och formulera de särskilda krav, behov och problem som den medicinska miljön medför. Flera av de idag befintliga dialogsystemen för medicinsk kommunikation använder sig av någon form av grafiskt användargränssnitt och multimodal kommunikation. Det rör sig dock oftast om enklare webbgränssnitt, formulär och grafik med huvudsakligt syfte att underlätta informationsinsamling och presentation. Eftersom en av grundidéerna för all form av medicinsk kommunikation är den direkta och personliga kommunikationen, ansikte mot ansikte, mellan sjukvårdspersonal och patient går dock utvecklingen mot allt mer grafisk avancerade dialogsystem, vilka försöker återskapa den mänskliga kommunikationens naturlighet och visuella aspekter. Som en viktig del av denna utveckling har skapandet och användningen av talande ansikten växt fram. Genom att ge dialogsystemet ett ansikte kan många av de visuella utryck som människan använder sig av i naturlig dialog utnyttjas och man kan på detta sätt, på ett mer naturtroget sätt, simulera verklig interaktion. För att ge en bild av hur långt forskningen inom det medicinska området har kommit ges nedan två exempel på dialogsystem som utvecklats eller är under utveckling för olika ändamål inom medicinsk kommunikation. Homey. Detta EU-finansierade forskningsprojekt inom telemedicin var ett intelligent dialogsystem för att, via telefon, övervaka och ta hand om patienter med den kroniska sjukdomen hypertoni (högt blodtryck). Systemet byggde på att patienten använde sin hemtelefon för att vid vissa tidpunkter ringa upp systemet och svara på frågor om sina aktuella blodtrycksvärden. ii Triage Information Agent (TIA). Detta agentbaserade dialogsystem är fortfarande under utveckling. Systemet är skapat för att användas på en akutmottagning för att minska vårdköerna och antalet felbehandlingar och tanken är att det ska fungera som en första kontakt mellan sjukvården och patienten. Dialogsystemet för en naturlig dialog med patienten och samlar in fakta om patientens tillstånd. Utifrån dessa uppgifter görs sedan en bedömning av vilka åtgärder som bör vidtas och vilken avdelning patienten bör hänvisas vidare till. iii 3. Dialogsystemets beståndsdelar och funktionalitet Som nämndes i det inledande avsnittet av denna artikel är det framförallt det agentbaserade dialogsystemet som är lämpligast att använda i den typ av interaktion som medicinsk kommunikation innebär. Agentbaserade system möjliggör genom sina dynamiska och flexibla funktioner komplex kommunikation mellan användare och system. Genom att under samtalets gång utveckla modeller för dialog, kontext och användare kan dessa system bidra med en robust taligenkänning, dialogkontroll och felhantering. Utifrån de olika modellerna samt kunskapsdatabaser kan systemet nämligen beräkna och anta vad användaren har sagt och vill åstadkomma. Behovet av att ställa delfrågor och be användaren upprepa yttrandet minskar därmed, vilket leder till färre störmoment och en mer naturlig och sammanhängande dialog. Det som kännetecknar denna typ av dynamiska dialoger är att ingen av de inblandade agenterna (system och användare) har tillräcklig kunskap för att enskilda nå det slutgiltiga målet. Ofta saknar användaren kunskap om vilken information som egentligen behövs för att lösa problemet. Dessutom kan det vara svårt för användaren att veta hur han kan få tag i den nödvändiga informationen. Detta är en av de främsta fördelarna med agentbaserade Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 4(11)
dialogsystem. De lyckas leda användaren till det han söker efter utan att kräva att användaren i detalj ska veta vad som ska sägas. Agentbaserade system baseras ofta på något slags målträd som dynamiskt representerar lösningar till olika problem som uppstår under dialogens gång. iv 3.1 Taligenkänning (ASR) Taligenkänningen är den komponent i dialogsystemet som har till uppgift att omvandla den akustiska, kontinuerliga signalen (användarens yttrande) till en sekvens av diskreta enheter, i form av exempelvis fonem eller ord. Denna process kan ofta vara mycket komplicerad eftersom det finns ett antal variabler som försvårar taligenkänningen. iv Lingvistisk variabilitet variabilitet i signalen orsakad av lingvistiska fenomen, exempelvis koartikulation, det vill säga att ett specifikt fonem uttalas olika beroende på i vilken kontext det är placerat. Talarvariabilitet variabilitet i signalen beroende på skillnader mellan olika talare. Denna variabilitet har sitt ursprung i varje talares specifika fysiologi, ålder, regionala ursprung, kön samt känslo- och hälsotillstånd. Talarvariabiliteten kan vara särskilt stor i en medicinsk situation och detta ställer krav på att taligenkännaren måste kunna hantera ett stort urval av användare samt de effekter som olika sjukdomstillstånd kan tänkas ha på deras tal och känslotillstånd. Kanalvariabilitet variabilitet i signalen orsakad av olika former av bakgrundsbrus från den omgivande miljön samt av transmissionskanalen såsom mikrofonen. Talaroberoende för att ett dialogsystem ska kunna användas för exempelvis medicinsk rådgivning krävs det att systemet klarar av att hantera och känna igen tal från alla de användare som kan tänkas utnyttja systemet. Eftersom användargruppen för ett sådant system kan vara mycket stor och heterogen räcker det följaktligen inte att träna taligenkänningen på några få specifika individer utan hänsyn måste tas till alla tänkbara användare i användargruppen. Vokabulärstorlek storleken på ett dialogsystems vokabulär varierar avsevärt beroende på vilken typ av system det handlar om. I ett system med en relativt styrd dialog kan vokabulärens storlek hållas relativt liten, medan den i system, exempelvis för medicinsk rådgivning, där det är tänkt att användaren ska kunna föra en relativt fri och naturlig dialog med systemet kan bestå av flera tusen ord. Kontinuerligt tal i ett dialogsystem för medicinsk kommunikation är det önskvärt att användaren kan föra en naturlig kontinuerligt dialog med systemet. Det kontinuerliga talet kan dock orsaka problem för taligenkännaren, eftersom det kan vara svårt att detektera var ett visst ord slutar och vad nästföljande ord börjar. Spontant tal även spontant, ledigt tal bör kunna hanteras av ett dialogsystem för medicinsk kommunikation. Detta innebär att systemet måste kunna hantera alla de ovidkommande ljud och ord, exempelvis stakningar, omstarter, instopp, som kan tänkas förekomma i dialogen och endast extrahera det väsentliga budskapet i varje yttrande. Genom initial träning av dialogsystemet byggs ett antal modeller för taligenkänning upp, vilka kan representera ord eller enskilda fonem. När en talsignal, i form av ett yttrande, når taligenkännaren tillämpas först akustiska modeller, vilka genererar ett antal förslag på möjliga ord som kan ha yttrats. Vanligen utgörs dessa modeller av statistiska Hidden Markov-modeller (HMM), men i dagsläget har det även blivit vanligare att HMM kombineras med artificiell intelligens, exempelvis artificiella neurala nätverk (ANN) för att ytterligare förbättra igenkänningen av ord och fonem. Därefter tar en språkmodell vid och använder de framtagna orden för att med hjälp av sannolikhetsberäkningar ta reda på vilken den troligaste ordsekvensen är. Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 5(11)
3.2 Språkförståelse Språkförståelsekomponentens uppgift i ett dialogsystem är att analysera och extrahera den bakomliggande meningen och betydelsen hos de ordsekvenser som taligenkänningen identifierar. Som grund för denna analys ligger kunskaper om teoretisk lingvistik, psykologi och datalingvistik. Exakt hur språkförståelsekomponenten är uppbyggd bestäms dels av den typ av information som komponenten tar emot från talarigenkänningen och dels av de krav som dialogkontrollen ställer på informationen som lämnar komponenten. Analys av språkförståelse involverar vanligen dels en syntaktisk analys, där ordsekvensens sammansättning undersöks, och en semantisk analys, där sekvensens bakomliggande mening utreds. Dessa analyser kan antingen hållas åtskilda eller integreras i systemet. Ett av problem i språkförståelsesteget är att talad naturlig dialog i regel inte innehåller helt grammatiskt korrekta meningar. Dessutom tenderar denna typ av dialog att innehålla mycket upprepningar, stackningar, instopp och andra oönskade extraljud, vilka ytterligare kan försvåra förståelsen av vad som yttrats. Dessa problem kan till viss del avhjälpas genom till exempel tillägg av regler till komponentens befintliga grammatik. Vad som kan vara viktigt att tillägga är också att taligenkänningen och språkförståelsekomponenten inte nödvändigtvis måste vara seriekopplade med varandra i ett dialogsystem. Möjligheten finns att integrera dessa båda komponenter på ett sådant sätt att språkförståelsens kunskaper om semantik och syntax kan utnyttjas redan vid taligenkänningen för att begränsa den mängd möjliga ordsekvenser som identifieras där. 3.3 Dialogkontroll och modellering Dialogkontrollen behövs främst för att övervaka och styra flödet i dialogen mellan användare och system. Enligt McTear iv innebär detta följande uppgifter: Avgöra om tillräcklig och relevant information har inhämtats från användaren Kommunicera med externa system, exempelvis databaser Sända information tillbaka till användaren Dialogmodellens utformning är central eftersom den avgör dialogens flexibilitet och ställer krav på de tekniska komponenter som implementeras i systemet för taligenkänning och felhantering. Sofistikerade dialogsystem ställer höga krav på dialoghantering. Det som kännetecknar dessa system är att de måste kunna hantera och jobba mot flera olika mål under dialogens fortskridande. Ett system som används för medicinsk rådgivning ska utöver de mer självklara målen att ge användaren rätt information och tillsammans med denna komma fram till en lösning också arbeta mot mer sociala målsättningar. Det är ytterst angeläget att systemet ger användaren ett seriöst och pålitligt intryck. Samtidigt är i de flesta fall fördelaktigt att systemet också förevisar mänskliga kvalitéer, framför allt för att användaren ska uppleva dialogen som mer naturlig. Samtliga aspekter gör det möjligt att utveckla och etablera en relation mellan användare och system. Ett sofistikerat dialogsystem tar hänsyn till att målen i sig samt deras relevans varierar dynamiskt under konversationens gång. Många mer avancerade mål i medicinska dialogsystem kännetecknas av att de på ett eller annat sätt är kopplade till upprätthållande. Det kan exempelvis handla om att upprätthålla användarens förtroende, aktivitet eller engagemang. Andra tänkbara mål är att se till att användaren följer preskriptionen. Av dessa målsättningar är vissa explicita, det vill säga de delges användaren. Andra, såsom exempelvis uppbyggandet av tillit, är outsagda. En viktig förutsättning för att systemet ska kunna etablera en relation till användaren är att systemet kan identifiera och modellera användarens intentioner, preferenser och kvaliteter. Dessa användarmodeller kan till viss del implementeras i systemet om systemet utvecklas för en specifik användare. Vanligast är dock att modelleringen sker dynamiskt utifrån den information som inhämtas från användaren och andra externa källor samt utifrån själva dialogen, exempelvis fel som uppstår. Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 6(11)
3.4 Felhantering En väl fungerande felhantering är av yttersta betydelse i alla typer av dialogsystem. Ett opålitligt system som ofta begår misstag skapar irritation hos användaren och kan leda till att systemet i fortsättningen undviks. Om dialogsystemet dessutom används i ett sammanhang där användarens liv kan hänga på att interaktionen med systemet fungerar effektivt och felfritt blir felhanteringen en ännu viktigare aspekt. Det finns idag ett antal olika strategier för hur felhantering kan implementeras i ett dialogsystem och vilken taktik som väljs beror i stor utsträckning på vilken typ av system som används. I ett enklare tillståndsbaserat dialogsystem sker oftast felhanteringen genom att systemet kort och gott meddelar användaren att det inte förstått eller uppfattat dennes yttrande och ber om ett nytt försök. Denna vädjan fortsätter att upprepas fram till dess att användaren ger ifrån sig ett yttrande som systemets taligenkänning och språkförståelse slutligen kan tolka. En variant på denna felhantering är att låta systemet informera användaren att det uppstått problem med förståelsen, men att systemet sedan försöker anpassa dialogen för att komma till rätta med problemet. Det kan till exempel handla om att systemet delar upp dialogen i mindre delar och systematiskt lotsar användaren igenom dessa. Båda dessa strategier är dock inte tillräckligt flexibla för att användas i ett dialogsystem för medicinsk kommunikation. Det som krävs i ett dialogsystem för medicinsk rådgivning är en intelligentare och mer flexibel typ av felhantering. Denna felhantering bygger på att dialogsystemet i de situationer ett fel uppstår försöker att utnyttja den kunskap som systemet har om användaren, sig själv och situationen för att försöka kringgå problemet och hitta lösningar på annat sätt. Det kan till exempel handla om att systemet formulerar helt nya frågor utifrån den givna kontexten och på detta sätt uppmuntrar användaren att omformulera sitt yttrande och ge mer information som kan hjälpa systemet att, trots det initiala felet, ändå komma till rätt slutsats om användarens önskemål eller problem. För att anknyta till en verklig situation skulle ovanstående strategi motsvara att en läkare, som fått alla symptom presenterade för sig men ändå inte kunnat ställa en diagnos, börjar ställa nya frågor om andra tänkbara symptom för att hitta nya lösningar och försöka bena ut problemet. Detta är ett beteende som de flesta förväntar sig av en läkare och det är då naturligt att ett motsvarande dialogsystem beter sig på ett liknande sätt. En annan viktig del av felhanteringen i ett dialogsystem är att återkommande verifiera och bekräfta den information som framkommer i interaktionen. Denna återkoppling har två huvudsakliga syften. Dels fungerar den som en slags försäkran till användaren om att systemet har registrerat den information som tidigare utväxlats och dels fungerar den som en säkerhetskontroll för systemet att den information som registrerats är korrekt uppfattad. Systemets återkoppling kan implementeras på olika sätt. I det enklaste fallet kan systemet explicit be om en bekräftelse varje gång ny information presenteras eller registreras. Sådan återkoppling kan emellertid vara tröttande i längden för användaren och uppfattas som onaturlig och ineffektiv. Ett mer effektivt sätt är att väva in bekräftelser och verifieringar från systemet i den pågående dialogen. Ett yttrande med inkluderad bekräftelse skulle kunna se ut enligt följande: Har du några andra symptom förutom utslagen på högerfoten? Här bekräftar systemet att den uppfattat att användaren har utslag på högerfoten samtidigt som systemet för dialogen framåt genom att fråga efter fler symptom. Denna typ av dialog upplevs också som den mest naturliga av användaren. 3.5 Extern kommunikation Oftast inträffar det vid flera tillfällen under dialogens gång att systemet måste kommunicera med externa system. Oftast handlar det om att hämta data från en databas, såsom tider, pris eller destinationer vid reseplanering. I samband med mer sofistikerad kommunikation som i agentbaserade system kan det också vara aktuellt för systemet att kommunicera med någon Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 7(11)
typ av kunskapsbas eller planeringssystem som stödjer dialoghanteringen på ett högre plan. En kunskapsbas behövs i de fall dialogsystemet hjälper användaren att lösa något slags problem. Basen består av flera olika delar. Till att börja med behöver systemet ha kunskap om den aktuella domänen. I exemplet med medicinsk rådgivning behövs en domänprocessor som innehåller specifik kunskap om människokroppen, sjukdomar, medicinska samband, mediciner med mera. Domänprocessorn är med andra ord bunden till applikationen och det ändamål applikationen är designad för. Vidare behövs det en systemmodul för mer generellt resonerande som hanterar målsättningar. Denna modul bedömer om ett mål är uppfyllt eller inte och meddelar den modul som sköter dialogen om något ännu saknas för att målet ska kunna uppnås. Modulen för generellt resonerande är oberoende av användningsområde och applikation. Den sista modulen hanterar den generella kunskap som behövs vid mer målinriktade dialoger, inklusive kunskap om användaren och dialog. Den generella kunskap som det externa systemet har är dynamisk och uppdateras således under dialogens förlopp. En viktig aspekt i detta sammanhang är att användaren förändras och utvecklas under den tid han använder systemet. Den tredje typ av externa system som kan komma till användning i dessa sammanhang är ett planeringssystem som innehåller mer explicit information om systemets och användarens mål och intentioner. Planeringssystemets huvudsakliga uppgift är att identifiera användarens planer och intentioner utifrån de yttranden som han gör. 3.6 Generering av svar När systemet ska generera svar och frågor måste den ta flera olika aspekter i beaktande. Dels måste systemet ta ställning till vilken information som måste inkluderas i svaret, dels hur svaret ska presenteras. Svarets struktur och form påverkar inte bara användarens förståelse utan även den fortsatta dialogen. Korta och koncisa svar eller frågor leder ofta till korta svar från användaren. Vidare är det viktigt att tänka på att de olika svaren och frågorna i dialogen ofta hör ihop genom att de refererar och anknyter till varandra. Det är därför av betydelse att systemet kan föra protokoll (dialoghistoria) över vad som har nämnts och behandlats tidigare i dialogen. I fallet med medicinska rådgivare är det ytterst viktigt att systemets språk anpassas till användaren. Det interna läkarspråket är oförståeligt för de flesta som inte arbetar inom detta område. De medicinska termer och beskrivningar som tillämpas måste omformas och anpassas till användarens kunskapsnivå och tidigare erfarenhet. Dessutom måste själva informationens innehåll, exempelvis vid en beskrivning av en särskild sjukdom och dess förlopp, anpassas till användare och dialog (tidigare yttranden). I detta skede kan det vara aktuellt att ta ställning till om informationen bör presenteras i annan form än muntligt, till exempel i form av grafer eller bilder (mer om detta i avsnittet om multimodala system). 3.7 Utmatning Utmatning går ut på att omvandla det skapade yttrandet till ljud, rörelse eller grafik. Eftersom vi i denna text behandlar talbaserade dialogsystem kommer vi i första hand att beskriva utmatning av ljud (talsignal), det vill säga (text-till-)talsyntes. Talsyntes kan realiseras på många mer eller mindre sofistikerade sätt. Den enklaste varianten går ut på att foga samman små lagrade enheter av förinspelade ord och yttranden, exempelvis unit selection. Denna typ av talsyntes är dock inte lämplig när informationen som ska matas ut varierar kraftigt eller är omfattande. En mer flexibel och framgångsrik metod är formantsyntes, som går ut på att modellera den akustiska signalen. Talsyntes består av två huvudsakliga steg; textanalys och talgenerering. Textanalys går, som namnet antyder, ut på att analysera den text eller lexikala representation som ska transformeras till talsignal. Detta sker i sin tur oftast i två steg: text-till-fonem och fonemtill-tal. För att detta ska vara genomförbart måste texten inledningsvis segmenteras på olika Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 8(11)
språkliga nivåer (morfologiskt, grammatiskt etcetera) samt taggas utifrån lexikon och ordkorpus. I ett system som ger medicinsk rådgivning är viktigt att ta hänsyn till dialogens karaktär. Om systemet har till uppgift att utifrån ett begränsat antal uppgifter från användaren försöka komma fram till vilken sjukdom användaren lider av är användarens yttranden relativt oförutsägbara och antalet möjliga lösningar många. I detta fall är det näst intill omöjligt att använda sig av förinspelat, sammanlänkat tal. I denna situation krävs snarare dynamisk fonemanalys. Man kan dock tänka sig att systemet har till uppgift att informera användaren hur ofta och vid vilka tider som han ska inta en viss medicin. I detta fall är svaren relativt förutsägbara och enformiga, varför mindre flexibla metoder för talsyntes såsom unit selection är tänkbara. 4. Multimodala aspekter Det har i många skilda sammanhang kunnat visas att multimodala system, där flera olika inoch utmatningskanaler används, är mer robust än de system i vilka endast en modalitet nyttjas. I de fall de olika modaliteterna kan synkroniseras och särskiljas på ett tillfredsställande sätt, såsom i mänsklig kommunikation och perception, leder multimodalitet till ökad informationsmängd och därmed till en starkare och tydligare perception. I multimodala dialogsystem kombineras visuella och verbala signaler på olika sätt och för olika ändamål. Grundidén är att komplettera och förstärka de auditiva signalerna med visuella ledtrådar och representationer. Ett talande ansikte kan exempelvis underlätta talförståelsen och konversationen genom att tydliggöra intonation, tillföra känslor eller turtagning. Vi har tidigare i denna text framhållit betydelsen av den sociala och affektiva aspekten i kommunikationen mellan användare och system. För att dialogsystemet ska kunna bygga upp och vidmakthålla en relation till användaren krävs att den på ett eller annat sätt kan ge uttryck för känslor. Det är här idén om att implementera ett talande ansikte i systemet kommer in. Vidare kan man tänka sig att en medicinsk rådgivare i vissa situationer måste presentera en ansenlig mängd information till användaren. Det kan exempelvis vara information om en sjukdom eller information om hur en viss medicin ska intas. Denna typ av omfattande och kritisk information kan vara svår att ta till sig och minnas om den endast presenteras i form av ljud. Om man kompletterar den auditiva informationen med grafik blir den ofta lättare att uppfatta. I detta sammanhang är det viktigt att påpeka att talande ansikten och annan grafik inte är ett självändamål i detta sammanhang. Som tidigare har nämnts är det viktigt att utreda vilka fördelar visuella representationer kan ha i det aktuella dialogsystemet. Studier visar tydligt att dåligt samordnade, motsägelsefulla och otydliga visuella signaler ofta försvårar kommunikation och förståelse mellan system och användare. I ett dialogsystem för medicinsk rådgivning är många olika visuella representationer tänkbara beroende på situation. Här måste hänsyn tas till bland annat användarens vana vid systemet och förståelse av den egna sjukdomsbilden. Om användaren använder systemet för att ta reda på vilken sjukdom han kan tänkas lida av skulle det kunna vara praktiskt att under dialogens gång presentera bilder av människokroppen för att användaren enkelt ska kunna peka på olika kroppsdelar. Denna typ av grafik kan på motsvarande sätt användas av systemet vid presentation av information för att underlätta förståelsen för användaren. Ett medicinskt dialogsystem som har till uppgift att hjälpa användaren med medicinering kan tänkas använda olika typer av grafer och scheman för att tydliggöra intagandet av läkemedel. Talande ansikten och avatarer blir allt vanligare i och med att dialogsystemen gör intrång på den kommersiella marknaden. Idag hittar man talande ansikten hos flera företag och myndigheter. Fördelen med talande ansikten är som tidigare har poängterats att den naturliga dialogen då förtydligas. Sett ur användarens perspektiv blir det oftast enklare att förstå systemets intentioner och ambitioner. Dessutom finns flertalet underordnade Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 9(11)
effekter, såsom att konversationen kan kännas mer intressant och i vissa fall också underhållande. I fallet med medicinska rådgivare är underhållning sannolikt inget som systemet bör eftersträva. Däremot kan ett talande ansikte vara till hjälp i arbetet att vinna användarens förtroende och respekt. Genom gester och miner blir det möjligt för systemet att uttrycka centrala känslolägen som empati, förvirring, allvar och lyhördhet. Miner kan också användas för att förtydliga turtagning. Vi har tidigare nämnt att en framgångsrik medicinsk rådgivningssession bygger på kontinuerligt samarbete och ömsesidig uppmärksamhet (mixed-initiative). Genom att använda gester och miner som förstärker prosodiska signaler blir det lättare för respektive agent att förstå när den andra avser att lämna över ordet. Vanliga signaler för turtagning är höjning och sänkning av ögonbryn, nickningar och ögonrörelser. 5. Sammanfattning I denna artikel har ett talbaserat multimodalt dialogsystem för medicinsk rådgivning skildrats och diskuterats. De aspekter som är särskilt viktiga att ta hänsyn till då man utvecklar dialogsystem för medicinsk kommunikation har beskrivits och en inblick i hur långt forskningen på området har kommit har också givits. Texten innehåller även en genomgång av de olika beståndsdelarna i ett dialogsystem för användning inom medicinsk rådgivning. Särskild vikt har lagts vid systemets felhantering och multimodala aspekter, vilka är extra betydelsefulla i ett system med syfte att stödja naturlig och spontan interaktion mellan användare och system. Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 10(11)
6. Källförteckning i Bickmore, Timothy & Toni Giorgino. Some Novel Aspects of Health Communication from Dialogue Systems Perspective. (http://www.misu.bmc.org/~bickmore/dshc/bickmore.pdf) [2005-03-27] ii Azzini, Ivano; Falavigna, Daniele; Giorgino, Toni; Gretter, Roberto, Quaglini, Silvana; Rognoni, Carla & Mario Stefanelli. Automated Spoken Dialog System for Home Care and Data Acquisition from Chronic Patients. (http://www.labmedinfo.org/download/lmi211.pdf) [2005-03-27] iii Franklin, Stan & Dan Jones. A Triage Information Agent (TIA) based on the IDA Technology. Position Paper AAAI Fall Symposium on Dialogue Systems for Health Communication October 22-24 2004, Washington. (http://www.misu.bmc.org/~bickmore/dshc/franklin.pdf) [2005-03-27] iv McTear, Michel F. Spoken dialogue technology: enabling the conversational interface. ACM Computing Surveys, Volume 34, Issue 1 (March 2002) Talteknologi VT05 Talbaserade multimodala dialogsystem för medicinsk rådgivning 11(11)