- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1

Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter... 8 Sammanfattning... 9 Litteraturförteckning... Fel! Bokmärket är inte definierat. 2

Introduktion asked! är ett fråga-svarsystem, ett så kallat QA-system, som finns att tillgå på internet på hemsidan http://asked.jp. Där kan man skriva in en faktafråga och systemet ställer då upp fem svar rankade efter hur stor sannolikhet att vara rätt svar som systemet anser att de har. Svaren består av ett eller några få ord, men genom att hålla musen över ett av svaren blir den mening som svaret finns i synlig. För att få ännu mer information kan man klicka på svaren och då kommer man till den hemsida där svaren har hittats. Skaparna av asked! anser att deras metod är väsentligt annorlunda än de vanliga metoderna att lösa QA-problem (Whittaker, Furui, Klakow, & Chatain, 2005). Idén med asked! är att det ska gå snabbt och lätt att bygga QA-system för olika språk, utan att avancerade lingvistiska moduler ska behöva användas. Istället för lingvistisk information använder sig asked! av en stor mängd tokens och webbaserad data. Med denna typ av information behandlas frågebesvaring som ett klassifikationsproblem och löses med ett statistiskt tillvägagångssätt. Eftersom det är ett statistiskt QA-system går principerna lätt att överföra till andra språk genom att ändra träningsdatan. Systemet finns nu på engelska, japanska, kinesiska, ryska och svenska (Whittaker, Furui, & Klakow, 2005). Andra fördelar med ett statistiskt system är att det är mindre känsligt för brusig (noisy) data och kan enkelt utökas till andra domäner (Whittaker, Furui, Klakow, & Chatain, 2005). Detta QA-system använder sig av statistik över n-gram hämtad från en stor samling med exempelfrågor med tillhörande svar och hittar svaren i stora mängder av textdata (Whittaker, Hamonic, & Furui, 2005). Även för träning av systemet används stora mängder av data (Whittaker, Furui, Klakow, & Chatain, 2005). Det använder sig inte av WordNet (en databas med olika betydelser och synonymer till engelska ord (Jurafsky & Martin, 2009)), extraktion av namn, information från semantisk analys eller parsning (att skapa en lingvistisk eller grammatisk struktur för ord (Jurafsky & Martin, 2009)). De enda särdrag som används är tokens omskrivna till versaler (Whittaker, Hamonic, & Furui, 2005). Svar till frågor beror egentligen inte bara på frågan i sig utan även på många andra faktorer som till exempel vem som ställer frågan, vilken situation frågan ställs i och vilken bakgrundsinformation som finns. Detta tas dock inte hänsyn till i asked! på grund av att det är svårt att modellera (Whittaker, Hamonic, & Furui, 2005). Om hänsyn skulle tas till sådana faktorer skulle inte heller systemet kunna överföras mellan olika språk så lätt som det görs utan sådan information. Hur asked! presterar är jämförbart med många andra QA-system som används, men det är sämre än de bästa system som finns (Whittaker, Hamonic, & Furui, 2005). År 2005 kom skaparna av asked! på elfte plats av tjugo i TREC, Text Retrieval Conference, vilket är en årlig tävling för informationsutvinning, med deras system (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). 1

Grundprinciper för asked! asked! använder det sig av stora mängder data som det beräknar statistiska sannolikheter på, och på så sätt räknar det ut vilket svar som enligt systemet passar bäst till frågan, det vill säga, vilket svar som har den största sannolikheten att vara det lämpligaste svaret på den ställda frågan. En stor mängd data används både för att träna systemet och för att utvinna svar till frågor. I asked! används en matematisk modell vilken gör ad-hocvikter och andra parametrar onödiga (Whittaker, Furui, & Klakow, 2005). Till att börja med, för att kunna göra en statistisk beräkning, antas svaret A på en fråga Q vara beroende av endast Q. Både Q och A består av varsin sträng med de ord som bygger upp frågan respektive svaret så att Q = och A =, där och är längden på strängarna. Q består av två delar; en del som visar vilken frågetyp det är och en informationsbärande del som är vad frågan handlar om. Dessa betecknas W och X så att W = W(Q) och X = X(Q). I frågan Hur många sjöar finns det i Finland? skulle Hur många höra till W och sjöar i Finland skulle höra till X. Att A är beroende av Q ger att A är beroende av W och X. Systemet ska hitta det svar som har störst sannolikhet att vara ett korrekt svar, givet de två delarna av en fråga. Detta gör det genom att söka igenom alla möjliga svar. För att förenkla uträkningen används Bayes regel för att skriva om ekvationen. Bayes regel tillåter att en ekvation för en sannolikhet skrivs om till ett set med andra sannolikheter som är enklare att räkna ut men ger samma svar, enligt följande: Den största sannolikheten för ett svar blir med Bayes regel omskriven till: Eftersom frågan, och därmed W och X, alltid är samma påverkar inte nämnaren P(W,X) jämförelser mellan sannolikheter för olika svar och kan därför tas bort ur beräkningen. För att ytterligare förenkla uträkningen antas X vara villkorligt oberoende av W givet A. Detta ger: Genom att återigen använda Bayes regel, den här gången åt omvänt håll, fås den slutgiltiga ekvationen. 2

Den slutliga ekvationen delas in i två delar som får namnen retrieval model och filter model. Retrieval model räknar ut sannolikheten för ett svar givet den informationsbärande delen av frågan, det vill säga X och filter model räknar ut sannolikheten för en frågetyp, det vill säga W, givet ett svar. Retreival model får fram en lista med möjliga svar, grundat på den informationsbärande delen i frågan. Filter model rangordnar sedan dessa utifrån hur svaren passar ihop med frågeorden i frågan genom att sätta samman sätt att ställa frågor på, med svar som passar ihop med dessa. Till exempel sätts frågor som innehåller ordet när ihop med svar som innehåller datum, veckodagar, år och så vidare. (Whittaker, Furui, Klakow, & Chatain, 2005). 3

Retrieval model För att räkna ut sannolikheten P(A X) används den så kallade retrieval model. Den räknar ut likheten mellan ett svar A och den informationsbärande delen X av frågan Q. A är en ordsekvens bestående av a 1,,a la och X = X(Q) vilket betyder att X genererar ord ur frågan Q. Genereras gör endast de ord som inte finns med i en stopplista, vilket är en lista bestående av ungefär 50 ofta förekommande ord. Den aktiva uppsättningen av särdrag x 1,,x la betecknas med X i, sådant att X i = x 1 * δ(d 1 ), x 2 * δ(d 2 ), x lx * δ(d lx ), där δ(.) är en diskret indikator som blir 1 om dess argument är sant och 0 om dess argument är falskt..x i består på så sätt av en lista med särdrag som är sanna, det vill säga de ord som finns som särdrag i frågan men som inte finns med i stopplistan. Sannolikheten för P(A X) räknas ut genom följande formel: där λ xi = 1/2 lx för alla i, P(A X 0 ) är ett nollgram och P(A X i ) är sannolikheten för A givet X i. Detta räknas ut med hjälp av MLE (maximum likelihood estimation) genom att dela antalet gånger A och X i förekommer i samma mening i korpusen S med hur många gånger X i förekommer i en mening i samma korpus S. V är den totala uppsättningen av unika ord som förekommer i korpusen. Formeln för att räkna ut N(A, X i ) modifieras på så sätt att påverkan från om A förekommer i föregående och/eller efterkommande mening läggs till genom λ adj, vilket oftast har ett värde 1. Ingen smoothing används eftersom det ger en mycket liten effekt på resultatet. Detta är delvis på grund av att det sker en automatisk smoothingeffekt vid interpolering av den totala 4

fördelningen och att det inte finns någon anledning för smoothing då ord som inte finns med i korpusen aldrig kan väljas som svar. En brist med retrieval model är att man använder samma vikter oavsett hur distributionen ser ut, det vill säga hur många särdrag som ingår i frågan, och detta borde påverka hur många gånger X i förekommer i korpusen N(X i ). Dock är inga pålitliga sådana relationer fastställda (Whittaker, Furui, Klakow, & Chatain, 2005). 5

Filter model För att räkna ut sannolikheten P(W A) så används den så kallade filter model. Den rangordnar de svar som retrieval model har fått fram efter hur bra de passar ihop med den typ av fråga som är ställd. Från frågan Q tas frågefraser W ut som läggs in i n-tupler genom mappningsfunktionen W(Q). Exempel på sådana frågefraser är Hur, Hur många och När var. De ord som extraheras som frågefraser är de som finns med i ett set med V W = 2522 ord. Dessa är hämtade ur frågor som varit med i TREC. Exempel på ord som används är när, var, vem, hur, många, djup, lång och så vidare. Det är ett komplicerat förhållande mellan W och A och därför införs en mellanliggande variabel c e, som representerar klasser av exempel på frågor med tillhörande svar. e visar vilken klass det är och är en siffra mellan 1 och C E, där C E är ett set bestående av alla c e. För att förenkla modelleringen antas W vara villkorligt oberoende av A. Sannolikheten P(W A) räknas ut genom att kolla om W och A förekommer i samma klass med frågor och tillhörande svar. E är ett set bestående av exempel på frågor med tillhörande svar, där ett exempel betecknas t j för j = 1 E. t j består av orden i exempelfrågan följt av orden i det tillhörande svaret så att t j = (. E är alltså ett set med exempelfrågor och svar och C E är ett set med klasser med exempelfrågor och svar. Genom att ange E kan en mappningsfunktion definieras som f : E C E genom f(t j ) = e. Funktionen lägger in setet med exempelfrågor och svar, E, i setet med klasser med exempelfrågor och svar, C E, genom att sätta ett nummer, e, på en exempelfråga med svar, t j, så att den hamnar i en klass. Formeln gör så att varje klass består av frågeorden, som finns i exempelfrågorna, i klassen ifråga tillsammans med orden i de tillhörande svaren. Detta ger att c e = (. Med denna definition av c e kan sannolikheten P(W A) skrivas om så att: vilket ger: 6

Genom två antaganden fås en ny formel för sannolikheten P(W A) fram. Det första antagandet är att svarsorden i en klass c e är villkorligt oberoende av A och det andra antagandet är att nummer j av svarsorden,, i klassen c e endast beror på det j:de svarsordet i svaret A. Den nya formeln blir: Eftersom setet med exempel på frågor med svar, E, inte täcker alla möjliga svar till frågor som kan ställas till systemet introduceras ett set C A som innehåller klasser med svar, c a. Med dessa kan man beräkna sannolikheten för att orden i ett exempelsvar är med i samma svarsklass som orden på samma position i det verkliga svaret. Med denna formel antas det att orden i exempelsvaret är villkorligt oberoende av svarsklassen c a givet orden i det verkliga svaret a j. Detta antagande leder till att svar med flera ord får en undervärderad sannolikhet. För att undvika detta normaliseras sannolikheten P(W A) med det geometriska medelvärdet av längden på svaret (Whittaker, Furui, Klakow, & Chatain, 2005). 7

Komponenter För att skapa ett QA-system så som asked! är uppbyggt behövs fyra komponenter: En samling med exempel på frågor med tillhörande svar. De behöver inte vara rätt svar till frågan men det måste vara rätt typ av svar till frågan (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). Denna samling används för att ange vilken typ av svar det är och betecknas E (i beskrivningen av filter model). Ett klassifikationssystem innehållandes klasser med olika typer av ord, till exempel klasser med namn på länder, personnamn, nummer och så vidare (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). Denna klassifikation används för att kunna generalisera olika svar till samma typ av svar och betecknas C A (i beskrivningen av filter model). En lista med frågeord så som vem, var, när och så vidare (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). Denna lista används för att få ut frågefrasen ur en fråga, det vill säga W (i beskrivningen av filter model). En stopplista med vanliga ord, vilka ska ignoreras av retrieval model (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). Exempel på frågor med tillhörande svar kan hittas på internet eller i frågesportsprogramvara som finns att köpa (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). Till asked! användes frågor med svar som förekommit i TREC (Whittaker, Furui, Klakow, & Chatain, 2005). För att skapa klasser med olika typer av ord används en snabb automatisk grupperingsalgoritm (automatic clustering algorithm), beskriven i E. Whittakers Statistial Language Modelling for Automatic Speech Recognition of Russian and English, 2000. För att utföra algoritmen behövs en stor mängd träningstext T ur vilken ett vokabulär med unika tokens tas ut. Dessa tokens grupperas sedan i klasser. Listan med frågeord fås fram genom att använda de oftast förekommande termerna i exempelfrågorna i E. Stopplistan består av de cirka 50 ord som oftast förekommer i träningstexten T. En stopplista används för att undvika att stora likheter mellan fråga och svar ska uppkomma i retrieval model på grund av att de innehåller många likadana vanligt förekommande ord, som och, en, men och liknande (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). asked! använder sig av sökmotorn Google för att hitta dokument som kan innehålla svaret på frågan som ställs. Frågan skickas vidare till Google efter att eventuella ord som finns med i stopplistan tagits bort. De 100 första dokumenten från Googles sökning laddas ner i sin helhet. HTML-taggar tas bort och alla bokstäver görs om till versaler i dokumenten. Dessa dokument söks sedan igenom för att hitta svaret med mest likhet med frågan (retrieval model) och som passar ihop med vilken typ av fråga det är (filter model). Undersökningar har visat att ju fler dokument som används desto bättre resultat blir det utan att några försämringar har upptäckts. Ända upp till 1000 dokument visar på dessa tendenser (Whittaker E., Hamonic, Klingberg, Yang, & Furui, 2006). 8

Sammanfattning asked! är ett QA-system som använder sig av statistiska beräkningar för att generera ett svar A till en fråga Q som, enligt systemet, har den högsta sannolikheten att vara rätt svar. Det använder sig inte av någon lingvistisk information, utan ser det som ett klassifikationsproblem, vilket innebär att frågor och svar delas in i klasser med vilken typ av fråga det är och vilken typ av svar som passar ihop med den. Systemet tar inte hänsyn till vem som ställer frågan, tidigare ställda frågor, vilken situation frågan ställs i och så vidare, dock är skaparna medvetna om att detta påverkar vilka svar som borde genereras. För att generera ett svar räknar systemet ut sannolikheten för ett svar givet en fråga. Frågan delas dock upp i två delar, en informationsbärande del X, som är vad frågan handlar om, och en frågetypsdel W, som är vilken typ av fråga det rör sig om. Till exempel i frågan Vad heter Håkan Hellströms första album? så hör Vad heter till W och Håkan Hellströms första album till X. Vilka ord som hör till W är de ord som oftast förekommer i ett set med exempelfrågor. Genom att anta ett antal villkorliga oberoenden, bland andra att X är villkorligt oberoende av W, och genom att använda Bayes regel fås en formel fram som räknar ut vilket svar som har störst sannolikhet att vara korrekt, nämligen: Denna formel är uppdelad i två delar, retreival model och filter model. Retrieval model räknar ut sannolikheten för ett svar A givet den informationsbärande delen X av frågan och filter model räknar ut sannolikheten för vilken frågetyp W det är givet svaret A. För att räkna ut hur stor sannolikhet för A givet X kollar retrieval model på hur lika A och X är varandra. Ju mer lika de är desto högre sannolikhet får A. De vanligaste orden i det språk som används tas dock bort ur frågan och ingår alltså inte i jämförelsen. Ett sådant ord kan vara och på svenska. Dessa ord tas bort för att de kan göra att ett svar med många sådana ord, men utan lika informationsbärande ord, får en hög sannolikhet. Vilka ord som ska tas bort fås fram genom att kolla vilka ord som oftast förekommer i en träningstext. Retrieval model kollar hur många gånger som X och A finns med i samma mening i den korpus där svaret ska hittas och jämför på så sätt likheten mellan dem. Filter model räknar ut sannolikheten för W givet A genom att kolla om de tillhör samma klass. Detta gör den genom att ha ett set med exempel på frågor med tillhörande svar som indelas i klasser. Ett sådant set kan fås från internet eller går att köpa. Med klassificeringen av exempelfrågorna med svar kan filter model undersöka om ett svar hör till samma klass som W. Eftersom inte alla tänkbara svar finns med bland exempelfrågorna med svar används även ett annat set som innehåller klasser med svar. Då kan sannolikheterna räknas ut utifrån om W passar ihop med den svarsklass som svaret är med i, istället för om det passar ihop med det specifika svaret. Vilken klass svaret tillhör får man fram genom att använda en grupperingsalgoritm på en träningstext. Retrieval model får fram svar som till innehållet passar ihop med frågan. Filter model används sedan för att rangordna svaren från retrieval model efter hur bra de passar ihop med vilken frågetyp det är på frågan. För att systemet ska hitta ett svar krävs en korpus i vilken det kan söka efter svaret. asked! använder sig av sökmotorn Google. Frågan Q skickas som den är till Google, dock utan orden 9

som är med i stopplistan och de 100 första dokumenten som fås fram genom sökningen letas igenom efter svaret. 10

Litteraturförteckning Jurafsky, D., & Martin, J. H. (2009). Speech and Language Processing. New Jersey: Pearson Education, Inc. Whittaker, E., Furui, S., & Klakow, D. (2005). A Statistical Classification Approach to Question Answering using Web Data. Washington DC: IEEE Computer Society. Whittaker, E., Furui, S., Klakow, D., & Chatain, P. (2005). TREC2005 Question Answering Experiments at Tokyo Institute of Technology. Proceedings of the Fourteenth Text Retrieval Conference (TREC). Whittaker, E., Hamonic, J., & Furui, S. (2005). A Unified Approach to Japanese and English Question Answering. Proceedings of the 5th NTCIR Workshop. Whittaker, E., Hamonic, J., Klingberg, T., Yang, D., & Furui, S. (2006). Rapid Development of Web-based Monolingual Question Answering Systems. Proceedings of the 28th European Conference on Information Retrieval. 11