TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25.
Översikt Textstruktur Problemet textsammanfattning Definition och exempel Extraktionsmetoden Utvärdering
Texter hänger ihop Vad utmärker texter? koherens: ett sammanhängande innehåll kohesion: språkliga sambandsmarkörer som pronomen, subjunktioner och konjunktioner m.m. Texter har något slags syfte och poäng Texter har ett eller flera ämnen Texter kategoriseras i genrer. Olika genrer kan ha olika struktur.
I vilken ordning bildar dessa meningar en text? 1. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. 2. För att uppnå målet ökar bolaget etableringstakten som ska sätta fart på omsättningen, rapporterar Dagens Industri. 3. I dagsläget öppnar Ikea 10 nya varuhus om året. 4. Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. 5. Ett kalas som beräknas kosta över 100 miljarder kronor. 6. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år, enligt uppgifter till DI.
Exempel på genrer Nyhetstexter det viktigaste först rubriker och (ofta) ingress Vetenskapliga texter abstract viktigt innehåll utspritt i texten och rubriksatt som t.ex. syfte, metod, resultat,...
Textsammanfattning Ett sammanfattningssystem ska ta fram den viktigaste informationen ur en text och återge den i en text av en föreskriven längd, säg 5 meningar, eller 30% av ursprungstextens längd. Användningar: Textutdrag vid webbsökning, Rubriksättning eller ingress till nyhetsartiklar, Beslutsstöd (behöver jag läsa hela artikeln?) Lässtöd, t.ex. snabb översikt av ett nyhetsflöde Presentation av fakta insamlat av ett IE-system...
Varianter av textsammanfattning Sammanfatta information från flera dokument (multidokumentsystem), Sammanfatta information givet ett uttalat informationsbehov, t.ex. i form av ämnesord, söktermer, eller mallar (behovsstyrd eller topikal sammanfattning)
Två olika metoder Extraktion Meningar extraheras ur texten och sätts ihop till en ny text. Tre steg: välja meningar, bestämma ordningsföljden på valda meningar, ev. fusionering (slå ihop meningar, ta bort onödig info,...) Abstraktion information extraheras som i ett IE-system och en fylld mall används för att generera text. NB! Textgenerering är ett eget forskningsområde.
Några extraktionssystem SweSum (Dalianis, 2000) swesum.nada.kth.se Friendly Reader (Smith & Jönsson, 2011) där sammanfattning är en komponent bland flera som ska hjälpa någon med lässvårigheter att läsa texten. http://www.ida.liu.se/projects/friendlyreader/webapp/ Summly (mobilapp)
Välja ut meningar vid extraktion Indikatorer på meningsnivå förekomst av nyckelord meningens position i texten, eller i sitt stycke meningens längd förekomst av specifika tokens: namn, siffror, förstärkningsord, m.m... Nyckelord = innehållsord i texten som är viktiga. Ge dem vikter, exempelvis efter frekvens i texten, (helst baserad på lemman) relativt hög frekvens, jämfört med en standardkorpus, speciell formatering, t.ex. fetstil...
Välja ut meningar vid extraktion Rangordna meningar efter någon metod, Enkel summering av ordvikter, och positionsvikter Naive Bayes, grundat på ord- och meningsindikatorer Loglinjär viktning,... Välj antal meningar efter given begränsning på sammanfattningens längd ( kompressionsgraden ).
Ordning och ev. modifiering av valda meningar Vanligt är att behålla ordningen från texten, Alternativt kan meningarna ordnas efter sina poäng (sannolikhet att innehålla central information) Bisatser, eller inskjutna fraser, som inte innehåller viktiga ord, kan ev. tas bort, Ord som kräver rätt kontext för sin tolkning, kan kontrolleras mot sin nya omgivning t.ex. pronomen som han, hon, där, dit,... kan ersättas med namn, ord som men, därför, också kan ev. tas bort om föregående mening inte är med i sammanfattningen
Utvärdering av sammanfattningar Med en eller flera referenssammanfattningar recall och precision på meningsnivå, recall och precision räknat på innehållsenheter från en referenssammanfattning (ofta flera i samma mening) Mått på hur väl texten hänger ihop (kräver bedömning av en människa)
Utvärdering av sammanfattningar Ngrambaserade mått är vanliga för utvärdering av texter, om referensdata finns (dvs texter skapade av människor för samma problem) ROUGE N -måttet [antal gemensamma n-gram mellan system och referenstext] [antal n-gram i referenstexten] n kan väljas som 2 eller 3 eller från ett intervall [i,j] ROUGE kan även användas om man har fler än en referenstext.
Exempel på utvärdering med ROUGE-2 Referenstext Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Antal bigram: 22 Systemtext Möbeljätten Ikea ska bli dubbelt så stort år 2020. Tusentals människor kommer att behöva anställas. Antal bigram: 13 varav 6 gemensamma med referenstexten. Rouge-2 = 6/22 0,27