Textsammanfattning En uppsats i kursen Språkteknologi, 2D1418 höstterminen 2001 av d98-cjo@d.kth.se kursledare: Hercules Dalianis Sammanfattning I denna uppsats beskrivs kortfattat vad automatisk, d v s datoriserad, textsammanfattning är. Några metoder för automatisk textsammanfattning presenteras och diskuteras i förhållande till några tänkbara användningsområden.
Vad är textsammanfattning? Textsammanfattning är, precis som namnet antyder, en benämning på tekniker att sammanfatta texter. Detta kan naturligtvis göras på det traditionella sättet, d.v.s. för hand av människor, eller med hjälp av datorer. Det är främst den senare varianten, automatisk textsammanfattning, som ska behandlas i denna uppsats. Vid automatisk textsammanfattning ges en text som indata till ett datorprogram som levererar en sammanfattning som utdata. De första systemen av denna typ kom till på 1950-talet. Området har fortsatt att utvecklas på olika sätt, en utveckling som fortfarande pågår. När anses en textsammanfattning vara bra? För att en sammanfattning av en text ska vara bra ska en hel del kriterier vara uppfyllda. Några av dem är enl. Dalianis (1999): Texten ska inte innehålla redundant information Texten ska vara skriven på ett begripligt och grammatiskt korrekt språk Texten ska vara koherent, d.v.s. sammanhängande. Texten ska ge läsaren den information som han behöver För övrigt är det brukligt att sammanfattningen är kortare än ursprungstexten. Textsammanfattning förr och nu På 50-talet när de första textsammanfattningssystemen skapades var lagringsutrymmet på datorer något dyrt och därmed begränsat. Man ville därför gärna lagra korta texter istället för långa och därmed uppstod ett behov av att snabbt och effektivt kunna framställa bra sammanfattningar. Idag är minne inte längre någonting dyrt så lagringsaspekten utgör inte längre något problem. Däremot har informationsmängderna i samhället ökat något enormt, bl.a. med Internets uppkomst. Sammanfattningarna behövs nu till exempel för att människor över huvud taget ska kunna överblicka den stora mängd information som finns tillgänglig. Användningsområden Det finns ett stort behov av textsammanfattningar i dagens samhälle. En hel del av dessa skulle kunna automatiseras, dels för att det går snabbare och människorna kan ägna sig åt andra saker, dels för att det kan vara bra att någon helt opartisk (som ett program ändå borde vara) gör sammanfattningen. Det sistnämnda ska jag diskutera vidare under exemplet med patentansökningar, se nedan. Exempel på tänkbara tillämpningar för automatisk textsammanfattning är (H Dalianis, 1999, M Hassel, 2001): Nyhetssammanfattningar (för t ex journalister, omvärldsbevakare m.fl. som behöver uppsikt över nyhetsflödet) Sammanfattningar av e-post att sändas som SMS Rapporter (t.ex. för riksdagsmän, affärsmän m.fl. som har mycket att läsa men inte hinner läsa alla långa dokument i sin helhet) I sökmotorer för att ta ut nyckelord ur dokument Ytterligare användningsområden Andra användningsområden som kommer att diskuteras längre fram i texten är automatiska sammanfattningar av patentdokument samt sammanfattningar av skönlitteratur. Lite om olika begrepp När man sysslar med automatisk textsammanfattning kan man behöva en hel mängd av begrepp för att beskriva hurdan den sammanfattade texten blir. Här är en liten presentation av några förekommande begrepp enl. S Wan, (2000): Generisk/användaranpassad En generisk sammanfattning är skriven så att det är textförfattarens åsikter som ställs i fokus. En användaranpassad sammanfattning är däremot mer orienterad mot att presentera den information i texten som den aktuella användaren är intresserad av. Neutral/vinklad Precis som namnen antyder är en neutral sammanfattning så objektiv som möjligt, m edan en vinklad tar ställning på något sätt.
Nyheter/bakgrund I en nyhetssammanfattning presenteras i första hand saker som är nya, medan läsaren själv förväntas känna till bakgrunden. En bakgrundssammanfattning berättar mer om allt runt omkring det nya, vilket är lämpligt då läsaren inte känner till bakgrundsfakta. Vilka metoder finns? Traditionellt har man diskuterat två metoder i samband med automatisk textsammanfattning: textabstraktion och textextraktion. Här nedan nämns även en nyare metod, RST. Textabstraktion En definition av textabstraktion är att metoden är en kondensation och en omformulering av originalet (S Wan, 2000). Textabstraktion är den metod som människor använder sig av när de ska sammanfatta en text. Detta går ju i allmänhet till så att en person läser en text, tolkar den och därefter slutligen skriver ner med (förhoppningsvis!) sina egna ord vad den handlade om. När detta skall göras med automatiska metoder är principen densamma: texten skall först tolkas semantiskt för att bedöma vad som är viktigt och inte, sedan ska nya syntaktiska val göras så att en sammanfattning kan skapas utifrån den väsentliga informationen. Detta är dock svårt att göras automatiskt och är därför, åtminstone inte i dagsläget, inte någon vanlig metod. Textextraktion Denna metod kan definieras med följande beskrivning: Sammanfattningen består av en delmängd av originaltexten. Textextraktion går ut på att man (= programmet) tar reda på vad texten handlar om genom olika statistiska och/eller heuristiska metoder. Därefter väljs de viktigaste meningarna ut. De får sedan bilda den nya texten, sammanfattningen. På detta sätt fungerar de flesta automatiska sammanfattare i dagsläget. Vad anses som viktigt? Vid textextraktion måste man på något sätt bestämma vilka meninga r som är mest relevanta för dokumentet och därför ska väljas ut till att vara med i sammanfattningen. Dessa meningar kan vara till exempel Rubriker (beskriver ofta texten bra) Meningspositioner (i exempelvis en nyhetstext står det viktigaste först) Ordfrekvenser (ord som förekommer ofta beskriver antagligen texten bättre än ord som förekommer sällan. Här ska naturligtvis inte vanliga småord som och, på, en, till etc. räknas med) RST Rethorical Structure Theory, RST är en så kallad diskursteori. Det innebär att den behandlar förhållanden mellan delar i en text, såsom satser och meningar. Kortfattat kan man, enligt Jurafsky och Martin (2000) beskriva det med två begrepp: kärnor och satelliter. En kärna är en central mening, eller huvudsats, medan en satellit är mening eller bisats som beror av/syftar på kärnan. I RST har man definierat ett tjugotal relationer som kan finnas mellan kärna och satellit. Exempel på sådana relationer är: kontrast, utveckling, resultat och syfte. För att förtydliga detta visas här ett exempel. Diskursen Nisse är ute och joggar minst en timme varje dag. Han tränar inför Stockholm maraton kan enligt RST tolkas som att den första meningen är en kärna, den andra är en satellit och relationen mellan dem är syfte. På detta sätt kan ma n tolka långa texter och på så sätt få stora träd av relationer mellan satser. Med hjälp av denna metod kan man ta reda på om en diskurs är koherent eller ej. I sammanfattningssammanhang är det intressant att nämna att om diskursen är koherent ska enbart kärnorna kunna bilda en meningsfull text även om satelliterna tas bort. Fördelar/nackdelar med automatisk textsammanfattning Till att börja med kan påpekas att inget automatiskt textsammanfattningsprogram kan mäta sig med en duktig mänsklig sammanfattare. Detta är ju något helt naturligt, det skulle vara otroligt svårt att skapa ett program som har en (ibland mycket kunnig) människas förmåga att välja ut vad som är väsentligt och inte och formulera det på ett för ändamålet lämpligt sätt. Dessa ändamål kan ju i praktiken vara mycket olika, till vem riktar sig sammanfattningen, vad är den en sammanfattning av o.s.v., vilket gör problemet mer komplext. Men om man sänker kraven lite så kan automatiska sammanfattare idag åstadkomma fungerande sammanfattningar. De har dessutom den stora fördelen framför mänskligt gjorda sammanfattningar att de kan skapas snabbt och billigt. En annan fördel med automatisk textsammanfattning framför manuell är att den automatiska sammanfattningen inte är partisk som en människa kan vara då hon sammanfattar en text. Inte heller gör människor likadant då de skriver sammanfattningar, om olika personer sammanfattar samma text blir resultatet nästan garanterat helt olika.
En automatisk textsammanfattare kan i högre grad än en mänsklig vara konsekvent och systematisk, något som i vissa fall kan vara en stor fördel. Här nedan diskuteras några synpunkter på de olika metoderna. Abstraktion Fördelar med textabstraktion är att sammanfattningen blir: Mindre beroende av ursprungstexten Den stora fördelen med textabstraktion är att formuleringarna i sammanfattningen inte blir lika beroende av ursprungstexten. I och med att texten tolkas, kan nya ord och uttryck väljas ut för att anpassa texten till olika sammanhang och läsare. Anpassningsbar Tack vare abstraktionen kan man tänka sig att en intelligent automatisk sammanfattare skulle kunna dra vissa slutsatser om texten och sammanfatta med hjälp av dem. Till exempel skulle det kunna bli så här: Pelle försörjde sig genom småstölder. Hans vänner skaffade sig pengar genom försäkringsbedrägerier och ficktjuveri sammanfattas till Pelle och hans vänner försörjde sig genom brott. En nackdel är: Implementationen Problemet med textabstraktion är i dagsläget att det är svårt att implementera på ett bra sätt. Extraktion Fördelar med textextraktion är: Enkelt att implementera Den stora fördelen med textextraktion är att det är relativt enkelt att implementera sådana system. Billigt och snabbt Andra fördelar är att det är förhållandevis billigt och går snabbt, speciellt om man jämför med vad den handgjord, mänsklig sammanfattning skulle kosta. En viktig nackdel är: Beroende av ursprungstexten Den stora nackdelen med textextraktionsmetoden är att sammanfattningen helt och hållet beror av ursprungstexten. Om den är konstigt eller krångligt skriven kan även sammanfattningen bli det. RST RST är en ny metod som fortfarande till största delen befinner sig på forskningsstadiet. Efter vad jag har läst verkar det vara en användbar metod för sammanfattning, men liksom vid textextraktion blir ett problem Beroende av ursprungstexten Om bara kärnorna används är de extra viktigt att dessa är välskrivna. En fördel skulle kunna vara Tidsbesparing Om man kan generera en sammanfattning i samband med att man analyserar sin text för att se om den är koherent viner man tid. Tillämpningar Här nedan ska några nya, tänkbara användningsområden för automatiska textsammanfattning diskuteras. Patentdokument Sommaren 2001 jobbade jag som praktikant på en av patentavdelningarna på Patent och Registreringsverket, PRV, i Stockholm. Min uppgift var att, under handledning, nyhetsgranska inkomna patentansökningar. Detta arbete är numera starkt datoriserat, sökningen sker till stor del i olika databaser. Dessa databaser innehåller ofta patentdokument av varierande längd och innehåll. På grund av den stora mängd information som ska sökas igenom är det av stor vikt att de sammanfattningar som hör till patentdokumenten är av god kvalitet. De bör spegla innehållet och patentets idé på ett korrekt sätt, så att man får en god uppfattning om uppfinningen enbart genom sammanfattningen. Så är dock inte alltid fallet.
Problem: sammanfattningen är dålig! Ett inte helt ovanligt problem när det gäller sammanfattningar är att de har brister av något slag. Detta kan bero på ett flertal faktorer som till exempel att sammanfattningen inte på ett lämpligt sätt speglar innehållet eller att den inte möter läsarens önskemål om vad som borde ha stått i den. När det gäller sammanfattningar av patentdokumentet förekommer det speciellt att sammanfattningen inte stämmer med innehållet i dokumentet, något som ibland kan komma sig av att sökanden själv skriver hela dokumentet. Av patenttekniska skäl vill sökanden gärna vara så vag som möjligt, för att patentskyddet ska bli maximalt. Det förekommer därför att hela dokumentet, och då i synnerhet sammanfattningen, blir väldigt vagt. Om patent ändå beviljas och dokumentet senare används som underlag då nya ansökningar ska granskas vållar detta problem för granskaren, som då får merarbete genom att han/hon även måste tolka detta dokument grundligare än man skulle önska. Kanske skulle automatisk textsammanfattningar hjälpa En i teorin lämplig lösning på detta problem vore att använda automatisk sammanfattning med hjälp av textabstraktion. Man skulle då få neutrala sammanfattningar som om sammanfattaren är bra speglar innehållet på ett bra sätt. Även textextraktion (eller RST) skulle kunna fungera bra, förutsatt att patentdokumenten är bra skrivna så att extraktionens klipp och klistra metod fungerar. Sammanfattningar för att imponera Ett annat, om än lite mer lyxbetonat användningsområde för automatiska sammanfattningar skulle kunna vara sammanfattningar av skönlitteratur. Många människor vill gärna hänga med och läsa aktuella böcker. Detta tar emellertid en hel del tid, vilket man inte alltid har. För att fortfarande kunna försöka imponera på bordsgrannen på snobbigare middagar skulle då sammanfattningar av de aktuella böckerna kunna hjälpa. Det bästa sättet vore då om sammanfattningen kunde göras personlig, så att personen som utger sig för att ha läst boken blir mer trovärdig i sina påståenden. Detta användningsområde kunde även utsträckas till att även inkludera kursböcker. Studenter är som bekant ofta lätt tidsoptimistiska, med påföljden att all kurslitteratur inte hinns med att läsa. Givetvis passar denna metod inte alla böcker, ämnen som matematik, med många tal, ekvationer o.s.v., borde vara svårare att sammanfatta, medan en bok som är skriven på ett mer löptextliknande sätt borde lämpa sig bättre. Avslutning Automatisk textsammanfattning är en i högsta grad användbar metod med många tänkbara tillämpningar. Att säga vilken metod som skulle fungera bäst i varje enskilt fall är svårt, för att kunna uttala sig borde man egentligen göra grundligare studier av vad som behövs, vilka användarna är och så vidare. Det har forskats en hel del på detta område, men fortfarande återstår mycket att ta reda på innan man funnit metoden för den ultimata sammanfattaren. Referenser H Dalianis, automatisk textbehandling, 1999 D Jurafsky & J Martin, Speech and language Processing, 2000 Marin Hassels föreläsningsbilder från textsammanfattningsföreläsningen, 2001-10-11 http://www.ics.mq.edu.au/~swan/summarization/ 2001-10-13