Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se

Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som jag förkortar QA-system. Jag vill förklara på ett förståeligt sätt hur dessa system fungerar genom att gå in på hur sökning efter information går till samt dess beräkningar och hur man utvärderar systemet.

1 Innehåll Sammanfattning... 2 Bakgrund... 4 2 Hur fungerar en QA process?... 4 2.1 Tillämpning... 4 2.2 Användare... 5 2.3 Frågetyper... 5 2.4 Svarstyper... 5 2.5 Utvärdering... 6 2.6 Presentation av svaret... 6 3 QA- arkitekturen... 6 3.1 Analys av frågan... 8 3.2 Förbehandling av dokumentsamling... 9 3.3 Val av svars dokument... 9 3.3.1 Booleska Modellen... 9 3.3.2 Vektor Modellen... 10 3.3.3 Probabilistiska modellen... 10 3.4 Analys av valda svarsdokument... 10 3.5 Svars extraktion... 11 3.6 Svars genering... 11 4 Utvärdering av systemet... 12 5 Diskussion... 15 Källor:... 16

Bakgrund Genom att fler och fler söker information på internet ökar kravet efter ett system som är bra på att svara på frågor som människor ställer. Ett sådant system är QA- system. Genom att ställa en fråga med ett vardagligt språk vill vi ha svar på våra frågor. Dessa system används mer och mer som support för olika företag på deras hemsidor på internet. Detta pågrund av att behovet av information blir större i det samhälle som vi lever i och att resultaten av systemens nivå blir bättre och bättre. Varje år så anordnas TEC som är en löpande konferens där målet är att förbättra kunskapen kring informationsåtkoms (I). Denna konferens har gjort så att forskningen kring området har förbättras i snabb fart, sedan år 2000 har QA varit en del av denna konferens vilket har bidragit med att tekniken har utvecklats inom detta fält. Bland annat så utvärderas olika QA- system vid TEC. 2 Hur fungerar en QA process? För att svara på en fråga måste systemet kunna analysera frågan oftast inom den kontext som frågan ställs. Systemet ska hitta minst ett svar på frågan genom att använda sig av någon typ av resurs som finns tillgängligt, det ska sedan ge ett svar som är passade och förståeligt för användaren och eventuellt kunna ge något typ av feedback till frågeställaren varför just det svaret gavs. Här nedan presenterar jag några viktiga punkter som är viktiga att tänka på när det gäller att utforma ett bra QA-system (Hirshman, Gaizauskas, 2001): Tillämpning Användare Frågetyp Svarstyp Utvärdering Presentation av data 2.1 Tillämpning Hur tillämpningen av QA- system används baseras på vad för typ av källa svaret ska komma ifrån. Källorna kan delas upp som i strukturerad data(databaser), semi- strukturerad data (som

exempel, kommentarer i en databas) eller fri text. Källor som även kan användas som svar kan även sökas fram genom internet eller genom någon form av samling av text så som en korpus eller en bok. QA tillämpningar kan även särskilja mellan öppna områdes QA-system som har som uppgift att svara på det mesta när det kommer till kunskap och stängda områdes QA- system som är nischade för att svara på frågor om en viss kunskap, exempelvis ett QA system på en telefonoperatörs hemsida kan svara på frågor om abonnemang och avgifter gällande telefoner. 2.2 Användare En användare av QA- system kan vara en första användare eller en vardagsanvändare eller en expert användare som använder ett visst system för att söka svar gång på gång. Beroende på vilken typ av användare som använder QA- systemets funktioner kräver olika typer av gränssnitt. För en första gångens användare kan det vara smart att förklara systemets begränsningar så att användaren förstår vad han kan fråga och få för svar. Exempelvis vid IKEAS QA -system, om man frågar om oväsentliga saker återkommer Anna(som är namnet på den Avatar som representerar deras QA- system) att jag ska fråga om IKEA. Detta för att göra det förstått att Anna inte är till eller har kunskap för att svara på något annat än information som rör IKEA. För expert användare kan det vara bra om systemet känner igen användarens sökningar så systemet vet om användarens intressen för att lättare kunna hitta svara som passar till användarens tidigare historik. 2.3 Frågetyper Vad för typer av frågor som kan ställas till ett QA- system beror på vad för typ av svarstyper ett system kan ge. Det finns fakta svar, åsikts svar eller summerings svar. Frågor kan delas upp ja eller nej frågor, exempel finns det vatten på jorden? Ja! Eller v frågor som vad, vem, var. Exempel var ligger Kiruna? I norra Sverige. Kommanderings frågor är även det en fråga,exempel lista alla Sveriges Statsministrar. Sedan finns det även mer avancerade frågor som kräver mer avancerade mekanismer för att räkna ut ett svar (Burger, 2001) 2.4 Svarstyper Svar kan vara korta eller långa, de kan vara listade eller berättande. De varierar beroende på vilken typ av användning som ska avses och typ av användare. Det finns olika typer av metoder för att konstruera ett svar. De kan extraheras från dokumentet som sökningen går i genom att klippa och klistra ihop ett svar eller genom att genera ett svar. är svaret kommer från flera meningar eller dokument krävs det att sammanställningen reduceras genom genering så att sammanhanget i svaret faller på plats till en förstådd helhet.

2.5 Utvärdering För att veta om systemet fungerar väl krävs det att det utvärderas detta kan göra med olika matematiska formler som jag återkommer med senare. 2.6 Presentation av svaret För att svaret ska vara tillfredställande ska det vara av god grammatisk struktur. Det ska även visas upp på ett tydligt sätt så att användare förstår vad systemet menar med svaret. Mer om detta tar jag upp senare mer detaljerat. 3 QA- arkitekturen För ett QA-system ska fungera väl krävs det någon for av arkitektur över systemet. Denna modell visar på hur en arkitektur över hur ett QA system kan fungera (Hirshman, Gaizauskas, 2001). Först kommer jag beskriva i korta drag hur varje steg fungerar för att sedan återkomma mer detaljerat hur det fungerar. Det sex stegen är: 1. Analys av frågan Inputen från frågan kommer här analyseras för att kunna gå vidare. Frågan kan tolkas som i en kontext av en helhets dialog och efter historiken systemet har på användaren. Här kan systemet kräva att frågan förenklas eller klargörs för att systemet ska kunna gå vidare till nästa steg. 2. Förbehandling av dokumentsamling Om vi antar att systemet har tillgång till en stor samling av dokument så som en kunskapsbas för att svara på frågan kan det krävas att dokumentsamlingen behandlas så att den transformeras till en form som passar till att svara på en fråga i real tid. 3. Val av möjliga dokument Här väljs möjliga dokument i dokumentsamlingen till frågan. 4. Analys av valda möjliga dokument. Här analyseras de möjliga dokumenten mer detaljerat.

5. Svars extraktion Med hjälp av en lämplig representation av frågan och av varje möjligt dokument extraheras möjliga svar från dokumenten beroende på sannolikhet till rätt svar. 6. Svars genering Slutligen generas ett svar till användaren. Svaret kan variera beroende på dialogens kontext och användares historik, svaret kan sedan leda till att kontexten och användarhistoriken uppdateras.

3.1 Analys av frågan Inom detta steg ska frågan analyseras. Om det är antaget att frågan är av ett naturligt språklig karaktär kan det krävas att det fortfarande klargörs med olika medel. Det kan krävas att frågan begränsas så att systemet förstår den. Gränssnittet för QA-systemet på vissa sidor är designad så att man endast kan skriva i vissa typer av frågor så att det ska bli lättare för systemet att kunna tolka frågan. Förutom att bara ta hänsyn till själva frågan i sig när det kommer till text kan även systemet vara tvungen att tolka kontexten som frågan ställs i och ta till hänsyn till användarhistoriken. Outputen som kommer från detta steg kommer skapa en eller flera representationer av frågan som systemet tar med sig till nästa steg. Detta beroende för att systemet ska veta vad för typ av dokument den ska titta i för möjliga svar. De representationer som systemet väljer att tolka frågan som, kommer troligtvis inte vara tillräckligt för att kunna ta ut exakt rätt svarssträngar från de dokument som systemet tar ut. För att kunna göra det krävs det att en mer detaljerad analys av frågan som oftast består av två steg: 1. Identifiera semantiken som frågan innehåller (exempel om det är datum, en person eller ett företag etc.) 2. Bestämma ytterliga begränsningar i svarsenheten genom att tillexempel: (a) Identifiera nyckelord i frågan som sedan kan matchas för möjliga svarsmeningar. (b) Identifiera relationer, antingen genom att bedöma syntaxen eller semantiken. är man letar upp nyckelord kan det vara mer eller mindre svårt för systemet beroende på vad det är för typ av ord i meningen. Om det är var vet man att svaret ska ge en plats, när en tid eller vem en person. Problemet blir när frågan innehåller nyckelord som vad, vilket. Dessa exempel innehåller inte själva tillräckligt med semantisk information för att göra det lätt för systemet. Därför har somliga QA-system herakier på olika frågetyper baserat på vilken typ av svar som sökes och försöker sedan placerade frågan som användaren ställer till rätt kategori i herakin. är sedan de främsta nyckelorden har blivit identifierade i sin helhet är resterande del av analysen att plocka ut de sekundära nyckelorden och se om de också passar in på

helhetsbilden. är sedan nyckelorden har blivit uttagna kan de sedan morfologiskt analyseras så att systemet förstår frågan rätt genom att se så att grammatiken verkar lämplig. 3.2 Förbehandling av dokumentsamling För att system ska kunna svara på frågor i realtid kan det vara lämpligt att systemet förbehandlar sin dokumentsamling i offline läge för att snabbt kunna svara. Exempel på vad system gör för att förbehandla sin dokumentsamling är att ordklasstaggning, hitta namn och diskurser som korefererar till dessa och chunkar dvs. dela upp meningar och se hur ordklasser i meningarna står i relation till varandra. 3.3 Val av svars dokument För att välja ut möjliga dokument krävs det någon form att informationsutvinning av dessa dokument för att avgöra om de är rätt till frågan. För att kunna göra det behövs det någon typ av matematisk uträkning för att veta om ett dokument passar till frågan. Där använder man sig av I-system (information retrieval) för att kunna ta ut rätt dokument. Här kan man använda sig av de tre klassiska modellerna som är den Booleska, vektormodellen eller den probalistiska modellen. De använder sig av rankingalgoritmer för att bestämma vilka dokument som passar bäst till frågan eller meningen som användaren ställer. I modeller kan beskriva som ett objekt som består av komponenterna D, Q, F, (qi, dj), nedan beskriver jag vad varje komponent gör (Baeza-Yates & ibeiro-eto, 1999): (1) D är mängden av dokumentrepresentationer (2) Q är en mängd av representationer av användares informationsbehov. (3) F är ett ramverk för modellering av dokumentrepresentationer, informationsbehovet och deras relationer. (4) (qi, dj) är en rankningsfunktion som associerar ett reellt tal med informationsbehov qi i Q och en dokumentrepresentation dj i D. 3.3.1 Booleska Modellen Den Booleska modellen är uppbyggd kring termer och satslogik. är frågan ställs så analyserar I-modellen dokumentet med de booleska operatörerna AD,O och OT som den sedan rankar med hur många träffar den får i de dokument den söker i och ger dem en viss ranking. Problemet med denna modell att den är väldigt binär och simpel antingen är dokumentet relevant eller icke-relevant till sökningen. Dess fördel är just det att den är väldigt simpel och enkel.

3.3.2 Vektor Modellen I vektormodeller så representeras varje dokument och behovet som söks som en vektor. Denna modell är uppbyggd och baseras av algebra. För att kunna se likheten mellan fråga och dokument görs dessa om till vektor som sedan mäts mot varandra. Termerna i dokumentet och i frågan tilldelas numeriska vikter som ska spegla termernas betydelse. är man ska dela upp och tilldela vikter använder man sig av faktorerna tf factor och idf factor. Med tf factor mäter man hur många gånger en term uppkommer i ett dokument. Med idf factor får man fram resultatet av den inversa frekvensen av en term i de dokument man söker i. Detta för att på så sätt kunna skapa en bättre balans mellan hur viktigt det är att ett visst ord förekommer i en dokument samling och ord som inte förekommer så ofta men ändå är av större relevans till informationssökningen. Exempel att användaren frågar Vilken är Frankrikes huvudstad?, då kommer är få många utslag efter som det förekommer i många meningar medans Frankrikes kanske inte nämns så ofta men det kanske nämns väldigt mycket i ett dokument som handlar om just Frankrike. är ett visst dokument innehåller en term som man söker efter återvinns detta dokument och samlas tillsammans med andra dokument som också har just den här termen. Tillsammans återvinns de och samlas i en fallande ordning utifrån graden av likhet med den term av information man söker efter. är dokumenten är återvunna i sorteringen så vet därför systemet vart den ska titta nästa gång den letar efter en liknande term( Baeza- Yates & ibeiro-eto, 1999). 3.3.3 Probabilistiska modellen Den probabilistiska modellen tar för givet en fråga q och dokument dj i dokumentsamlingen, genom att göra detta försöker modellen se sannolikheten om de dokument dj som den hittar passar bra till den information som söks. Modellen antar också att det finns en delmängd i samtliga dokument som fungerar som svarsmängd för frågan. Den svarsmängd som antas betecknas som och maximerar då sannolikheten för att svarsmängden är relevant till användaren. De dokument som placeras i räknas då som relevanta och de som placeras utanför som icke relevanta. Dokumenten rankordnas då efter sin relevans (Baeza- Yates & ibeiro-eto, 1999 ). 3.4 Analys av valda svarsdokument ästa steg i kedjan är att analysera de dokument som har tagits fram ännu mera. Detta kan ibland ej behöva göras ifall de tidigare redan har förbehandlats. Annars kommer de utvalda dokumenten bli scannade efter namnigenkänning så som namn, företag eller platser etc. I

detta steg kan även systemet försöka dela up meningar, ordklasstagga och chunka texter efter vilken grupp de tillhör. Detta för att lättare kunna finna semantiken och syntaxen i dokumenten och se om den stämmer överens med frågan. 3.5 Svars extraktion I detta steg matchas fråge- texten mot svars- texten för att kunna hitta vilka som passar och få fram några slutgiltiga kandidater som sedan rankas beroende på vilket dokument som passar bäst. Efter att frågan har bearbetas och analyserats så förstår nu förhoppningsvis systemet frågans semantik och försöker på så sätt hitta en delmängd i svarstexterna som har givits som förslag för att se om semantiken matchar ett svar som skulle passa till semantiken som finns i frågan. är ett antal svar har hittats som verkar lämpligt behövs det ytterliga begränsningar för att hitta det rätta svaret. Begränsningarna sätts beroende vilken typ av system som används. 3.6 Svars genering Här generas ett svar till användaren. Svaret kan variera beroende på dialogens kontext och användares historik, svaret kan sedan leda till att kontexten och användarhistoriken uppdateras. Det är viktigt att svaret är bra dvs. stämmer väl överens med grammatiken så att den blir bra förstådd av användaren och att det. Hirschman och Gaizauskas(2000) listar några punkter över vad som ska vara med i ett svar: elevans: svaret ska vara en respons på frågan Korrekt: svaret ska vara korrekt rent faktamässigt Konsist: svaret ska inte innehålla onödig information som inte behövs Komplett: svaret ska vara komplett Sammanhang: svaret ska vara sammanhängande så det är lätt att förstå Motivering: svaret ska innehålla tillräckligt med material så att läsare kan förstår motiveringen varför just detta svar valdes

4 Utvärdering av systemet Det vanligaste sättet för att utvärdera ett systems I är att använda sig av precision och recall(jurafsky, Martin, 2009). Dessa två begrepp kan beräknas genom att använda sig av två formler: Precison kan i detta fall förklaras med att står för antal relevanta dokument som systemet har givit och T står för det totala antalet dokument som har givits tillbaks. ecall kan förklaras med som står för antalet relevanta dokument som systemet har givit och U står för dokument som är relevanta till just denna efterfrågan. Problemet med det här är att det inte är tillräckligt för att mäta förmågan på ett system som rankar dokument som returneras. För att bestämma rankingen på ett systems relevans så behövs en matris som visar på hur de är rankande. För at kunna göra det krävs det att värdena manipuleras och beräknas på något sätt genom att använda andra metoder än bara ta precision och recall och ranka dokumenten efter det. De två metoder som man istället använder sig av för att ranka dokument och dess relevans går ut på att göra en graf där man sätter ut punkter på precision/recall och att ta medelvärdet av precision värdet på olika sätt.

ank 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Bedömning Precision 1.0.50.50.60.57.63.55.50.55.50.46.43.47.44.44.44.42.40.38.36.35.33.36 ecall.11.11.22.22.33.44.44.55.55.55.77.77.77.88.88.88.88.88.88.88 1.0 Om tabellen ovan studeras ser vi om ett dokument är relevant så förändras recall- värdet från gång till gång men om det inte är relevant så förändras det inte. är man tittar närmare på precision så ser man att det hoppar upp och ner mer oregelbundet. Den ökar när relevanta dokument hittas men hoppar oftare ner när den inte gör det. Ett sätt att hantera den här typen av data är att markera ut precision mot recall på en graf som är samlade ifrån ett set av informationsbehov. För att göra detta behövs det ett sätt som sätter ett medelvärde på recall och precision genom ett set av informationsbehov. Standarsättet att göra detta är att sätta ut medelvärdet av precision på 11 fasta nivåer av recall (från 0 till 100, i steg av tio). Men som vi ser i tabellen så är det inte ofta man har exakt jämna steg. Istället använder man sig av Interpolated Precision, som jag härefter kommer kalla för IP. Här används IP på de 11 recall värden vi har. Detta kan göras genom att välja det maximerade precision värdet vid varje uppskattad nivå av recall eller steget över den vi kalkylerar. Detta visas med formen:

Denna IP-form bidrar inte bara möjlighet att räkna ut genomsnitts resultat över viss uppsättning av informationsbehov, det innebär även att jämna ut oregelbundna precision värden som finns i datan. Så här ser vår data ut efter att den blivit utjämnad: IP 1.0 1.0.63.55.47.44.36.36 ecall 0.0.10.20.30.40.50.60.70.80.90 1.0 Genom att ta dessa värden får man fram en kurva och på sådant sätt kan man jämföra olika system och se hur bra systemet är på att ta fram information som är relevant. Kurvorna som bildas i en graf kan sedan jämföras med varandra från olika system för att hitta det system som är bäst.

5 Diskussion I och med att med starten av TEC 1992 så har informationsutvinning förbättrats explosionsartat. Genom att människor kan samlas och prova sina olika system så har det lett till en förbättrad förståelse över hur de fungerar. QA, som jag nämnde i början av min uppsats har varit del av TEC sedan år 2000. u har QA kommit en bit på vägen men tror att det finns otroligt mycket kvar att göra inom området. ästa steg för QA- system är att förstå själva användaren mycket bättre så att varje sökning blir än mer unik för varje användare i QA- systemet. Problemet som jag ser det här är att vi måste bestämma hur mycket vi är beredda att betala för att få fram information genom sådana system. För att systemet ska kunna känna igen dig och veta om dina beteende mönster så är din data tvungen att lagras på något sätt. Därför tror jag att QA:s begränsningar i framtiden kommer att sättas av människors vilja till kotroll av sin integritet än av teknik.

Källor: Baeza-Yates,. & ibiero-eto, (1999) Modern Information retrieval. ew York, ACM. Hirschman, L. & Gaizauskas,. (2001) atural Language Question Answering. The View from Here. atural Language Engineering (2001), 7:4:275-300 Cambridge University Press. Jurafsky,D & Martin H, J.(2009) Speech and Language Processing: An Introduction to atural Language Processing, Computational Lingguistics, and Speech ecognition. ew Jersey, Pearson Education Inc.