Question answering system

LINKÖPINGS UNIVERSITET Question answering system Artificiell Intelligens II

Sammanfattning Detta arbete handlar om question answering (QA) system, om hur QA- system fungerar och hur de går till väga för att söka efter information. QA- system är ett system som en människa på ett naturligt språk kan ställa en fråga och få svar på. QA- system genom tiderna har sett lite annorlunda ut och har under de senaste åren utvecklats mycket. Utvecklingen beror till viss del på att man infört en konferens där QA- system har möjlighet att utvecklas. Denna konferens kallas TREC. Det finns open- och closed- domain QA- system och det är open domain QA- system som man fokuserat mest på senaste tiden eftersom de lämpar sig bäst till dagens informations sökning. Resurserna man kan söka ifrån kan variera beroende på vilken typ av fråga frågar, man kan söka information ifrån ostrukturerad data (till exempel Websidor, bloggar), semi- strukturerad data (ex. Wikipedia) eller helt strukturerad data (fakta och uppgifter från webben eller existerande databaser). 1 1 IBM Research Report 1

Innehåll 1. Inledning 2. Syfte 3. Allmänt om QA 4. TREC 5. QA- arkitektur 5.1. Analysering av frågor 5.2. Förbehandling av de insamlade dokumenten 5.3. Svarssökning utifrån de valda dokumenten 5.4. Analysering av de valda dokumenten 5.5. Extrahering av svar 5.6. Generering av svar 5.6.1. MRR- algoritmen 5.6.2 AnSel- algoritmen 6. Diskussion 7. Referenser 4 4 5 6 7 7 9 9 10 10 11 11 12 14 15 3

1. Inledning Question Answering (QA) är ett användningsområde inom datorvetenskap där man försöker bygga ett mjukvarusystem för att en dator ska kunna besvara frågor. Det går ut på att en mänsklig användare ställer en fråga på ett naturligt språk (till exempel svenska eller engelska) och sedan ska mjukvarusystemet kunna ge exakta och användbara svar till de ställda frågorna. 2 Sedan behovet av att söka information på internet blivit så stort, har man upptäckt att det även finns ett behov av ett automatiskt question answering system (QA- system). Man behövde ett system som kunde ge snabba, kortfattade och korrekta svar på frågor ställda på det vardagliga språket. För att kunna svara på frågor behöver QA- systemet först kunna analysera frågan som ställs, den måste hitta ett eller fler svar på frågan, och den måste presentera svaret till användaren på ett lämpligt sätt, 3 detta kan ske i sex olika steg. Olika QAsystem klarar av olika frågor, vissa system klarar av avancerade kunskapsfrågor som kräver resonemang och andra system klarar endast av enkla ja/nej frågor. 2. Syfte Syftet med detta projekt är att få en större kunskap och förståelse för question answering system. Det är ett mycket intressant forskningsområde och något som man i viss utsträckning använder i stort sett dagligen när man vill söka information på internet. 2 IBM Research Raport 3 Natural Language question answering: the view from here 4

3. Allmänt om QA Det finns olika slags QA- system, expertsystem, IE- system och IR- system. Expertsystem är ett system som ofta kan hantera avancerade och svåra kunskapsfrågor, dessa frågor brukar oftast kunna ställas på naturligt språk. Expertsystemen hanterar ofta en kunskapsdomän. IEsystemen (Information Extraction system) är ett enklare QA- system. IE- systemet saknar ofta förmågan att tolka naturligt språk, förmågan att resonera kring frågor och använder ofta nyckelord för att hitta svar. Systemet kan däremot ofta hantera större kunskapsdomäner än expertsystem. IR- system (Information Retrieval system), till exempel Google, är bra när man behöver ha information i form av dokument och artiklar. Dessa system ger inga exakta svar på en fråga utan användaren får ofta leta efter svaret själv. Det första question answering systemet, QA1, baserades på ett minne med strukturerade listor där informationen för data sorteras tillsammans med annan liknande eller relaterad information. Varje data innehåller generell fakta om den specifika data samt fakta om hur olika data är relaterade till varann. Ett annat question answering system kallat QA2 och baserades på en formell teknik för att kunna bevisa teorem. I detta system representeras fakta i kalkyler. 4 Open-domain question answering system använder sig av stora dokumentsamlingar, till exempel på internet (www.) när de söker svar på frågor. På senaste tiden har man fokuserat mest på open domain question answering system. Closed- domain question answering system är system som endast använder sig av en dokumentsamling och ofta eller alltid inriktar sig på ett specifikt ämne. 5 Några exempel på closed-domain question answering system är BASEBALL (1961) som är designad för att svara på frågor om baseball, till exempel vilka matcher som spelats i American league under en specifik säsong. LUNAR (1973), designad för att en geolog ska kunna jämföra, utvärdera och komma åt information om kemiska analysmetoder för berg och jord, LUNAR kom som en följd av Apollos månfärd. 4 5 Research on intelligent question-answering system Improving the Precision of a Closed-Domain Question-Answering System with Semantic Information 5

4. TREC TREC startade 1992 och hade som syfte hjälpa forskningen inom informationssökning framåt. Man hjälpte forskningen framåt genom att bland annat skapa metoder med den infrastrukturen som krävs för att hantera storskaliga textsamlingar. Detta skedde i form av workshops där det huvudsakliga syftet var att: (1) främja forskning inom informationssökning när det gäller stora datasamlingar, (2) skapa ett öppet forum så att kommunikationen angående forskningsidéer mellan industri, den akademiska världen och staten blir större, (3) kunna visa förbättringar i metoder för hämtning av teknik och (4) öka och utveckla de existerande utvärderingsteknikerna så att de blir mer lämpade för användning inom den akademiska världen och i industrin. 6 Grupper med open- domain- QA- system har deltagit i TREC sedan år 1999 och sedan dess utvecklingen av dessa system gått framåt. Första året var det sjutton grupper som deltog med en eller två system, alla med blandad kvalité där vissa system var mycket bra och andra mindre bra. Majoriteten av systemen som deltog i tidiga TREC använde en form av ett så kallat fönsterbaserat poängsystem som ska finna svaret medhjälp av ett fönster som flyttar sig på datorskärmen. Dessa system kunde svara på ungefär 30 % av TREC- frågorna och var begränsade när det gäller att söka i längden, så på grund av detta har fler och fler system i TREC implementerat semantiska metoder för att finna svar i texter. De nuvarande systemen som använder sig av factoid - frågor kan svara på upp till 70 % av TREC- frågorna. 7 6 http://trec.nist.gov/overview.html 7 Open domain question answering 6

5. QA's arkitektur Det finns lite olika arkitekturer för hur QA- system fungerar när de svarar på en fråga och här nedan följer sex steg som vissa system använder och även vissa exempel på hur Guru- QA fungerar: 5.1. Analysering av frågan Olika system kan behandla olika typer av frågor, så för att kunna analysera frågan måste man först veta lite om de olika frågetyperna. Inom ramverket för QA finns det ett antal olika frågetyper, till exempel factoid - och definitionsfrågor och de används inom Text Retrieval Conference (TREC). Factoid -frågor är frågor där svaret är ett fakta, till exempel: När föddes Kronprinsessan Viktoria? eller Hur högt är Mount Everest?. Det har sedan år 1999 varit den vanligaste frågetypen inom QA. Anledningen till detta är att factoid -frågor har varit en vanlig frågetyp under TREC sedan dess. Sedan 2004 har man i state-of-the-art - QA kunnat svara på som mest 80 % av factoid - frågorna. En annan frågetyp är definitionsfrågor, de kräver till skillnad ifrån factoid - frågor ett mer komplext svar, vanligtvis ifrån flera olika källdokument. Svaren bör kortfattat beskriva den efterfrågade saken (till exempel personer, organisationer, objekt) i korta paragrafer, så att den som frågar efter kan få en sammanfattad beskrivning om det personen söker efter. Även dessa typer av frågor har använts i TREC QA- forskning på senare tid och har då refererats som berätta något intressant om något - frågor. 8 Det kan finnas begränsningar i frågan, till exempel att språket som frågan ställs på är begränsat. Det kan för systemet finnas oklarheter i frågan, det kan till exempel finnas olika betydelse för ett och samma ord, eller så kan frågan vara en anafor av något. Detta gör det extra viktigt för QA- system att analysera frågan för att på bästa möjliga sätt kunna besvara frågan korrekt. För att kunna genomföra en question answering process måste frågan först analyseras. Systemet måste förstå vad frågan innebär, vad som frågas efter och hur frågan ska processas. Frågan klassificeras, vilket innebär att antingen analyseras hela meningar, delar av meningar 8 Open domain question answering 7

eller bara enstaka ord. 9 Den kan till exempel med ett så kallade QA Tokens, göra så att meningarna och orden får semantiska kategorimärken. 10 Exempel på mening: Typ av fråga: Kategorimärke (QA- token): På eftermiddagen När?/ when? TID$, TIME$ 1958 Vilket år?/ what year? ÅR $, YEAR$ föddes Michael Jackson Vem?/ Who? PERSON$ i Indiana Var?/ Where? DELSTAT$, PLATS$, PLACE$ Figur 1: Exempel på en mening med kategorimärken. Man sätter kategorimärkena på orden genom att mönstermatcha. Till exempel orden i Indiana skulle klassas som en var? Eller where?- fråga och skulle få kategorimärket DELSTAT$ eller PLATS$ och Michael Jackson skulle klassas som den Vem? Eller Who?- fråga och skulle få kategorimärket PERSON$. Guru- QA är ett sökningssystem som hanterar factoid -frågor. Systemet är baserat på observationer gjorda på faktabaserade frågor. Under observationen fann man bland annat att, och Guru- QA använder sig av kategorimärken för att kategorisera sina typer av frågor och svar och på detta sett blir frågorna klassificerade utifrån vilket svar som söks. 11 9 Building Watson: an overview of the DeepQA project 10 Ranking suspected answers to natural language 11 Question-Answering by Predictive Annotation 8

5.2. Förbehandling av de insamlade dokumenten Det kan vara bra om QA- systemen gör en förbehandling av dokumenten offline. Detta för att systemen ska kunna vara så effektiva som möjligt och kunna arbeta i realtid. När man förbehandlar de insamlade dokumenten delar man upp meningar och ord och utför så kallad ordklasstaggning (part of speech (POS) tagging). Ordklasstaggning betyder att man delar meningar och på så sätt kan man identifiera grupper av ordklasser till exempel verb, substantiv och adjektiv. 12 På detta sätt kan man koppla samman hela meningar eller delar av meningar i en text som är relaterade till varandra. Figur 2: Ordklasstaggning 13 5.3. Svarssökning utifrån de valda dokumenten När man söker efter information finns det olika typer av resurser som kan användas. Resurserna kan variera efter vilken typ av fråga, man kan söka information ifrån ostrukturerad data (till exempel Websidor, bloggar), semi- strukturerad data (ex. Wikipedia) eller helt strukturerad data (fakta och uppgifter från webben eller existerande databaser). 14 De flesta QA- system som deltagit i TREC använder någon form av IR- (Information Retrieval-) sökmotor för att genomföra svarssökningen i de valda och användbara dokumenten i en stor textsamling. Denna används för att minska samlingen med dokument 12 Open domain question answering 13 Part of speech tagging 14 IBM Research Report 9

genom att sålla bort delar. Innan man sålla bort måste man först ta reda på om man använda en boolesk sökning eller ett rankningssystem som sökmotor. I boolesk sökning är det en operator som använder sig av boolesk algebra och söklogik. Man sammanfogar ord med orden AND och OR och om man säger att det inte gäller för en viss typ skriver man NOT. 15 När det gäller arbetet med QA- systemen i TREC anses det bättre med en boolesk sökning, för att det underlättar sökningen eftersom om ett rankningssystem används måste man bestämma ett sökdjup i dokumentsamlingen, alltså hur långt sökmotorn ska söka. 5.4. Analysering av de valda dokumenten När dokumenten valts ut så behöver de ibland analyseras och processas igen ifall de inte gjorts tillräckligt i tidigare steg. Det är vanligt att system analyserar dokumenten genom att de identifierar enheter i dokumenten, såsom namn, företag, platser och så vidare. Ofta tenderar dessa identifieringar att minimera dokumenten som söks i och är aktuella för resultatet men i andra fall blir sökningarna större då de enheter som funnits i dokumenten expanderas till namn på företag, produkter, adresser etc. Det är också vanligt att man även i detta steg av arkitekturen använder någon typ av Natural language - teknik till exempel, ordklasstaggar. 5.5. Extrahering av svar I detta steg av QA- arkitekturen jämför och matchar man dokumenten med svaren man fick ut när man i tidigare steg sökte efter svaren i de valda dokumenten och sedan analyserade man svaren i de valda dokumenten. Detta görs för att man senare ska kunna jämför svaren som producerades under rankningsprocessen och se hur stor sannolikheten är för att dessa svar stämmer. 15 http://librishelp.libris.kb.se/help/search_boolean_swe.jsp 10

5.6. Generering av svar De flesta systemen från TREC genererar en rankad lista med den fem mest troliga svaren. Svaren skrivs ut som textsträngar som är genererade från dokumentsamlingen. 16 De flesta QAsystemen använder någon slags algoritm för att ranka svaren, två exempel på algoritmer följer nedan. 5.6.1. MRR En av dessa algoritmer är mean reciprocal rank (MRR). MRR är ett av de ursprungliga bedömningsmåtten som använder under TREC 8 och 9 för att spåra rätt svar och ranka dem. Det är ett slags poängsystem som rangordnar de konkurrerande svaren i inbördes ordning på varje fråga. Figur 3: Q i formeln är frågesamlingen och ri den rankade platsen för det första korrekta svaret till frågan i eller 0 ifall det inte finns något korrekt svar på frågan. MRR- algoritmen var användbar i tidiga TREC. Några nackdelar med MRR är att systemet inte ger någon respons ifall systemen klarar av att hämta flera korrekta svar än ett. Systemet kräver att det måste hittas minst ett svar på varje fråga, men om systemet inte vet svaret eller inte lyckas hitta något lämpligt svar på frågan finns ingen funktion som säger att den inte hittat något svar alls. Ett sätt som MRR systemet kunde förbättras på var genom att finna ett sätt att säga att den inte hittat något svar, detta genom att returnera NIL. Denna funktion introducerades först i TREC 10. 17 Det krävdes ett nytt utvärderingsmått så algoritmen utvecklades eftersom då 16 Ranking suspected answers to natural language 17 http://nlp.shef.ac.uk/completed_phd_projects/greenwood2006.pdf 11

man insett att det var mer användbart och eftertraktat med ett system som kunde svara på en fråga istället för att ge flera svar. Denna algoritm som är ett annat slags rankingsystem rankar svaren efter trovärdighet och säkerhet infördes först i TREC 11 (2002). 5.6.2. AnSel- algoritmen Guru- QA använder sig av en algoritm som kallas AnSel (en förkortning av ANswer SELection). Det man får ut ifrån denna algoritm, alltså algoritmens output, är de fem troligaste svaren, rankade i ordning efter hur sannolika de är att vara det korrekta svaret på den ställda frågan. Svaren hos Guru- QA är ofta i form av fraser. Man har tränat AnSel- algoritmen för att den ska kunna prestera så bra som möjligt. I träningen har man använt sig av TREC- korpusar, (alltså de korpusar som använts i TREC) som innehåller ca 2 GB med artiklar ifrån fyra olika nyhetsbyråer. Träningsalgoritmen (översatt till svenska) som AnSel använder sig av för att lära sig vikten eller påverkan av användningen av formeln ser ut så här: För varje <fråga, span> tupel i ett träningsset: 1. Beräkna varje span s kännetecknen 2. Beräkna TOTAL(A) poänget för varje span genom att använda set of weights Repetera 3. Beräkna prestandan av träningssetet 4. Justera weight, wi, genom logistic regression Fortsätt tills prestandan > tröskeln Figur 4: AnSel- algoritmen. Det TOTAL(A) poänget för ett givet potentiellt svar är uträknat som en linjär kombination av de sju olika funktionerna (visas nedan), w står får weight och f står gör feature eller funktion. 12

AnSel är en linjär kombination som använder ett set av sju funktioner utvecklade för att påverka/väga en machine-learning - algoritm genom att använda sig av logistic regression. De sju funktionerna som används i AnSel- algoritmen är: 1. Number : den sekventiella positionen av de namngivna enheterna som blir returnerade, 2. Rspanno : den sekventiella positionen av de namngivna enheterna returnerade i samma passage, 3. Count : antal namngivna enheter i passage, 4. Notinq : antal ord i enheten som inte finns i frågan, 5. Type : Positionen av enhetens kategorimärke, till exempel: en enhet kan få typnummer 1 för att den är placerad först i den så kallade SYN- klassen (syntax- klassen). 6. Avgdst : (the average distance) det genomsnittliga avståndet mellan orden i början av enheten och frågans ord som båda dyker upp i passage 18 7. Sscore : den så kallade passage - relevansen som är uträknad av Guru- QA. 18 Question-Answering by Predictive Annotation 13

6. Diskussion QA- systemens utveckling går hela tiden framåt. År 2011 kom IBM med en robot som de valt att kalla Watson. Watson är en informationssökande robot som har vunnit i Jeopardy mot mänskliga motståndare. Den får frågor och söker igenom sin kunskapsbas för att med hjälp av bland annat rankingsystem komma fram till ett svar som sedan Watson berättar. I Watson har man valt att utveckla QA- system till ett så kallat Deep- QA. Här tycker jag man kan se en tydlig utveckling sedan de tidiga QA- systemen som till exempel SHRDLU. Istället för att människor ska leta igenom massor av dokument som skulle kunna ta en hel evighet så kan QA- systemen ge snabba och exakt korrekta svar på frågor som man vill ha svar på. QA- systemens utveckling har alltså underlättat det mycket för människan i och med teknikens framgång. 14

7. Referenser Artiklar Cordell Green. C, Raphael. B, Research on intelligent question-answering system. Stanford Research Institute California,1967 Doan-Nguyen. H. and Kosseim. L. Improving the Precision of a Closed-Domain Question-Answering System with Semantic Information. Concordia University Montreal, Canada. Ferrucci. D, Nyberg. E, Allan. J et al., IBM Research Raport - Towards the Open Advancement of Question Answering Systems. 2009 Ferrucci. D, Brown. E, Chu- Carroll. J, Fan. J et al., Building Watson: an overview of the DeepQA project, AI Magazine Fall, 2010. Greenwood. M. A, Open-Domain Question Answering. Department of Computer Science University of Sheffield, UK. 2005 Hirschman. L, Gaizauskas. R, Natural Language question answering: the view from here. Natural Language Engineering 7 (4): 274-300, Camebridge University Press 2001 Prager. J, Brown. E, Coden. A, Ravey. D, Question-Answering by Predictive Annotation. IBM T.J. Watson Research Center and University of Michigan Radev. D R, Prager. J, Samn. V, Ranking suspected answers to natural languge questions using predictive annotation, University of Michigan, IMB Research Division, Columbia University. Länkar Booleska operatorer - Libris (http://librishelp.libris.kb.se/help/search_boolean_swe.jsp) National Library of Sweden Overview TREC - http://trec.nist.gov/overview.html. Skapad av NIST, National Institute of Standards and Technology 2000-08-01. Senast uppdaterad 2010-08-10. Information hämtad 2012-09-06 Question Answering Wikipedia (http://en.wikipedia.org/wiki/question_answering), Senast uppsaterad 2012-08-10. Information hämtad 2012-09-06. Powerpoint Part of speech (POS) tagging - http://www.cs.umd.edu/~nau/cmsc421/part-of-speech-tagging.pdf. Information hämtad 2012-09-10 15