TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system
Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system klassificering av svarstyp identifiering av textutdrag svarsextraktion och rangordning lingvistiska bearbetningar Systemexempel: AskMSR Watson
Frågebesvarande system (QA-system) Frågebesvarande system (QA-system) är system som söker i dokument efter svar på frågor. QA-system skiljer sig från IE-system i hur informationsbehovet är formulerat. IE-system: strukturerade mallar QA-system: frågor i naturligt språk
System som svarar på frågor Databasgränssnitt / Dialogsystem gränssnitt i naturligt språk mot databas automatiska taltjänster Interaktiva guider / agenter gränssnitt mot FAQ och/eller webbsidor Frågebesvarande system (QA-system) svar hittas på webben eller i annan dokumentdatabas kombinerar dokumentsökning med svarsextraktion IBM's Watson (Deep QA)
Virtuella agenter / Interaktiva guider Fråga Hanna (www.forsakringskassan.se) Fråga Kattis (www.agria.se)
En enkel teknik för interaktiva guider Idé: indexera frågorna i en (utvidgad) FAQ Samla in kundfrågor (epost, kundtjänst, webb,...) Frågor och svar i FAQ:n indexeras med begrepp/termer från en ontologi Varje begrepp associeras (1) med en mängd ord, utifrån ord som förekommer i FAQ:n och (2) med ett fixt svar. FAQ-fråga: När ska deklarationen lämnas in? FAQ-svar: Inkomstdeklarationen för inkomståret 2013 ska du ha lämnat senast 5 maj. Ordmängd: { när, lämnas, när+ska, sista+dag, senast, inlämning,..}
En enkel teknik för interaktiva guider En given fråga genererar också en mängd av ord och bigram. Exempel: När ska jag lämna in deklarationen? {när, när ska, jag, lämna, lämna in, deklarationen} Ordmängden jämförs med ordmängden för varje begrepp och störst skärning vinner. Svaret som är definierat för vinnande begrepp visas. Alternativ matchning?
Start: ett QA-system på webben Start ( http://start.csail.mit.edu/ )
Enkla faktafrågor När föddes Winston Churchill? Vem uppfann glödlampan? Hur många sidor har en tetraeder? Här kan svaret ges i ett ord eller en kort fras: 1874 Thomas Edison fyra
Öppna frågor Vem var Winston Churchill? Vad är en tetraeder? Hur tar man bort skokrämsfläckar? Här krävs ett svar som omfattar en eller flera meningar och som kan variera i innehåll. (jmf. sammanfattningar)
Öppna och slutna domäner Sluten domän betyder att frågorna begränsas till ett givet ämnesområde, Öppen domän betyder att användaren kan fråga om vad som helst.
Utvärdering i TREC (Text Retrieval Conferences) Systemen får generera fem rangordnade alternativa svar Systemsvar jämförs med svar i ett facit Det högst rankade korrekta svaret ger poäng Ett systemsvar bedöms som korrekt om det innehåller hela det korrekta svaret i en extraherad textsnutt. Om New York Times är ett korrekt svar bedöms readers of New York Times som 'korrekt' York Times is the biggest som 'inkorrekt'
Utvärdering av ordnade svar med MRR Mean reciprocal rank (MRR) är ett medelvärde av det bästa svarets (inverterade) ordning i en lista av rangordnade svar: Σ 1/ranki Exempel Fråga 1: rank 4 ger poängen 1/4 = 0,25 Fråga 2: - ger poängen 0 Fråga 3: rank 1 ger poängen 1/1 = 1 Medelvärde: (0,25 + 0 + 1)/3 = 1,25/3 0,42
Textutdrag från Google, när föddes... Sir Winston Leonard Spencer-Churchill, född 30 november 1874 på Blenheim Palace, död 24 januari 1965 i London, var en brittisk politiker, författare och officer (wikipedia.org) Winston Churchill var född in i den brittiska högaristokratin. Hans far, Randolph Churchill, var andre son till den sjunde hertigen av (popularhistoria.se) Winstons fader, Lord Randolph Churchill föddes den 13de februari år 1849 på Blenheim Palace. År 1874 blev han partiledamot och år 1880 (mimersbrunn.se)
Textutdrag från Google, var i kroppen sitter månbenet... Var på kroppen sitter månbenet? 1. Handen X. Foten 2. Örat. 6. Barack Obama är född på Hawaii och är USA:s 44:e president. Vilket år är han (matteolsson.se) handlovsben, karpalben (ossa carpi) är i människans kropp en grupp på åtta... Till de proximala benen hör båtbenet (scaphoideum), månbenet (lunatum), (wikipedia.org) De flesta rovdjur har en starkt byggd, rörlig kropp med ett kraftigt skelett.... Båtbenet och månbenet är sammanvuxna med de centrala benen och bildar ett enda (de5stora.com)...
Moduler i ett frågebesvarande system fråga Frågeanalys Dokument IR-system relevanta dokument Extraktion av utdrag textutdrag klassificering svarstyp extraktion av sökord Svarsextraktion svar
Olika angreppsmetoder Ytliga metoder (eng. shallow) nyckelord, svarskategorier, närhetsheuristiker Med lingvistisk analys (eng. deep) frågan och/eller dokumenten analyseras med språkteknologiska verktyg för ordklasstaggning, chunkning, parsning,
Svarstyper Antalet svarstyper kan variera från 5-6 upp till ett hundratal. Grova kategorier (jmf. namnigenkänning): Person Tid Plats Numeriskt värde Förkortning Beskrivning Definition...
Svarstyper ordnas ofta hierarkiskt PLATS LAND STAD HUVUDSTAD ÖVRIG PLATS ANNAN STAD
Klassificering av frågor Frågeord identifierar ibland den svarstyp som förväntas mer eller mindre entydigt: vem: PERSON eller BESKRIVNING när: hur många: ANTAL TIDSANGIVELSE Med andra frågeord krävs mer information: vilket år: TIDSANGIVELSE ÅR vilket företag: OBJEKT FÖRETAG vad är en...: vad heter företaget som...: OBJEKT - FÖRETAG DEFINITION / BESKRIVNING
Extraktion av textutdrag Givet ett relevant dokument vill man hitta de ställen i texten där ett svar kan finnas. Detta kan hanteras som ett IR-problem eller med indikatorer som kvantifieras och sätts samman till ett värde: förekomsten av namn av rätt svarstyp, förekomsten av sökord från frågan, förekomsten av ord-ngram från frågan (ev efter omformulering), närheten mellan ovanstående uttryck, dokumentets rangordning t.ex. enligt tf-idf Textutdragens storlek kan variera: en mening, en sekvens av meningar, ett stycke
Extraktion av textutdrag Exempel: Vem uppfann glödlampan? söktermer + sökfras Hur tar man bort skokrämsfläckar?? söktermer
Generella kriterier på svarsextraktion Textutdragen rangordnas med utgångspunkt i indikatorerna. Om ett namnuttryck är entydigt och av rätt svarstyp blir detta svaret. Thomas Edison heter mannen som uppfann glödlampan. Innan den uppfanns, fanns det redan en sorts belysning. Den passade bra för gatubelysning, men det var alldeles för stark för att kunna användas inomhus. Reguljära uttryck kan ibland identifiera uttryckstypen: IDUN VECKOJOURNALEN. nr 5, 1965 MINNESNUMMER WINSTON CHURCHILL 1874-1965 Winston Churchill föddes den 30 november 1874 och dog den 24 januari 1965.
Svarsextraktion Om det finns flera potentiella svar inom samma textutdrag kan dessa rangordnas med hjälp av indikatorer: flest sökord, sökfraser (ngram) från frågan, i närheten av svaret känd precision för matchande mönster syntaktisk kontext (om texten är parsad)
Svarsextraktion Frågor av typer som ofta upprepas kan transformeras med hjälp av mönster. Exempel: När föddes X? Vilka mönster man behöver för en viss svarstyp kan bestämmas med en boot-strapping-metod. Sök t.ex. på Google med par som 'Mozart 1756', 'Gandhi 1869', 'Strindberg 1849' för att hitta uttryck som identifierar födselseår.
Svarsextraktion Om systemet hittar olika svar i olika textutdrag, måste det göra ett val, exempelvis bästa textutdrag ger bästa svar, bästa svar kan antas vara det som återkommer flest gånger rangordna utifrån använd beslutsregel, om den grundas på sannolikheter eller vikter Vanligt är också att generera ett antal (5-10) svar
Systemet AskMSR (Brill et al. 2002) Ett typiskt exempel på Natural language engineering Deltog i TREC-utvärderingarna för QA-system TREC = Text Retrieval Conferences Vill utnyttja webbens redundans och kombinerar reguljära uttryck/substitutioner, viktning av dessa, ngram-analys
Systemet AskMSR (Brill et al. 2002) Fråga When was Winston Churchill born? Omskrivningar Winston Churchill (was) born Winston AND Churchill AND born Google Textutdrag Ngramextraktion 1874 (x %) 1955 (y %)... Svar Ngramfogning Ngramfiltrering
Systemet AskMSR (Brill et al. 2002) Omskrivning Ngramextraktion uni-, bi- och trigram extraheras och poängsätts Ngramfiltrering frågan genererar ett antal alternativa svarsmönster poängen för ngram som inte matchar ett mönster (regexp) för frågans svarstyp reduceras Sammanfogning av ngram Vid överlapp slås kortare ngram ihop till längre Exempel: New York + York Times New York Times
Watson Utvecklat av en forskargrupp vid IBM, Utvecklingsinsats: 3 år, 20 forskare med bakgrund i NLP, IR, AI, maskininlärning, m.m. Utvecklat för deltagande i Jeopardy, men baseras på en generell arkitektur, kallad DeepQA, Watson vann över de hittills bästa deltagarna i amerikanska Jeopardy i en särskild tävling, februari 2011
Watson, eller DeepQA Källa: gizmodo.com
Kännetecken för Watson (massiv) parallellprocessering för att kunna utvärdera alla tänkbara tolkningar och hypoteser, många olika experter (delsystem) som söker svaret med olika resurser och tekniker, varje delsystem producerar information med tillhörande uppkattning av hur säker den är ( pervasive confidence estimation ), integrerad djup och ytlig bearbetning, maskininlärning för att värdera olika delsystems relevans i relation till frågans art.
Kvalitetskriterier för deltagande i Jeopardy Precision systemet ska svara rätt när det svarar, Självinsikt (confidence) systemet ska veta när det har god chans att svara rätt, Hastighet systemet ska kunna begära att få svara snabbare än sina medtävlare
Kännetecken för Watson Noggrann analys av prestanda hos vinnare Watson 80% precision 40% 50% procent besvarade frågor
Kännetecken för Watson Noggrann frågeanalys i utvecklingsarbetet faktafrågor utgör majoriteten av frågorna men alla ämnen kan förekomma, (2500 olika lexikala svarstyper hittades i en korpus med 20,000 frågor), rebusfrågor, t.ex. kategorin Rhyme time It's where Pele stores his ball sådana frågor kräver en analys av frågan i delfrågor: Pele's ball (soccer, hockey, basket,...) a store for balls (cabinet, drawer, locker, ) frågor som kräver att något känns igen i en bild eller en ljuduppspelning uteslöts
Kännetecken för Watson Modulariserad resultat från många expertkomponenter vägs ihop, både vad gäller svar som föreslås och dess tillförlitlighet. hur sammanvägningen ska göras är automatiskt inlärt, Expertkomponenter kan skilja sig åt i vilka data som används, text, strukturerade data, semistrukturerade data teknik för att matcha frågan mot data, grund bearbetning, djup bearbetning, olika uppsättningar av indikatorer,...
Några länkar Tävling http://www.youtube.com/watch?v=o6os64bpx0g Perspektiv på Watson http://www.youtube.com/watch?v=3pqatxlec-y&nr=1 http://www.youtube.com/watch?v=_429uizn1jm&nr=1 Artikel: Building Watson: An Overview of the DeepQA Project. AI Magazine, 2010, Vol 31, No 3.