Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj)
Sammanfattning (manuell) Denna rapport belyser en del av de problem som finns hos dagens automatiska textsammanfattare. Ett stort problem är att meningar inte alltid är självständiga utan beroende av dess omgivande meningar. Genom att endast tillåta att meningar ingår i sammanfattningen om dess beroendemeningar ingår undviker man sådana fel. Då textsammanfattarna tar ut hela meningar från originalet och sätter in i sammanfattningen händer det ofta att stora mängder onödig information tas med. För att minska denna mängd kan man exempelvis ta bort ord, ersätta ord med kortare synonymer eller använda förkortningar. Sammanfattning (Swesum) Därefter följer den andra meningen från exemplet ovan. Problemet är dock att hitta dessa beroenden. Begränsar man sig till intilliggande meningar är det dock lättare att finna regler då vissa ord i meningens början nästan uteslutande används för att binda ihop en mening med föregående mening. Vårt förslag till lösning på problemet är att alla meningar där ett visst namn ingår blir beroende av den första meningen där namnet ingår. Vi hade dock stora problem att identifiera vad som kännetecknar redundanta ord i en mening. Det skulle kunna genomföras om man rankade delar av meningar istället för hela meningar. Sammanfattning (Microsoft Word 2000) Ett stort problem vid textsammanfattning är att meningar inte alltid är självständiga utan beroende av dess omgivande meningar. Följande två meningar illustrerar problemet: Nu har jag sommarlov. Därefter följer den andra meningen från exemplet ovan. Övriga exempel på meningar som nästan alltid är beroende av dess föregående mening är ofullständiga meningar. Om året. Sista meningen måste till synes föregås av meningen innan. Det skulle kunna genomföras om man rankade delar av meningar istället för hela meningar. 1
Innehållsförteckning Bakgrund...3 Syfte...3 Metod...3 Swesum kontra Microsoft Word 2000...3 Problem och möjliga förbättringar...4 Beroenden mellan meningar...4 Beroenden mellan intilliggande meningar...4 Egennamn...5 Effektivisering av sammanfattningen...5 Ersätta ord med kortare synonymer...5 Ersätta med förkortningar...6 Borttagning av ord eller hela delar av en mening...6 Källförteckning...7 2
Bakgrund Förr i tiden användes automatisk textsammanfattning för att spara lagringsutrymme eftersom detta var dyrt. Sedan dess har priset sjunkit drastiskt tack vare den tekniska utvecklingen och därigenom också behovet av automatisk textsammanfattning. I och med dagens explosionsartade ökning av tillgänglig information, till stor del beroende på Internets tillväxt och tillgänglighet, har textsammanfattning åter blivit aktuellt. Utan verktyg såsom informationssökning och automatisk textsammanfattning blir användaren tvungen att begränsa informationsmängden. Det föreligger då stor risk att viktig information inte kommer användaren till känna. Syfte Syftet med denna rapport är att ge en beskrivning av de problem som finns hos dagens textsammanfattare. Vi har även i vissa fall velat komma med förslag på lösningar till dessa problem. Metod För att upptäcka de problem som finns hos dagens textsammanfattare sammanfattade vi en mängd svenska nyhetsartiklar med hjälp av textsammanfattaren Swesum och textsammanfattaren i Microsoft Word 2000. Vi skapade även testmeningar som vi trodde skulle innebära problem för textsammanfattarna och testade dessa. Swesum kontra Microsoft Word 2000 Det stod tidigt klart att Swesum är betydligt bättre än Microsoft Word 2000 på att sammanfatta texter. Den enkla förklaringen till detta finns i hjälpen till Microsoft Word 2000. Där framgår att Word 2000:s textsammanfattare endast bygger på ordfrekvenser. Swesum bygger också på detta, men tar även hänsyn till en rad andra faktorer som till exempel rubriker, fetstil och var i texten en mening finns. Det gemensamma problemet för de båda textsammanfattarna är att förstå vad som är viktigt i texten. Därefter följer problemet att sammanfoga de viktigaste delarna till en ny löpande text. För en dator är det väldigt svårt, om inte omöjligt, att till hundra procent förstå alla texter. Att skapa en ny meningsfull sammanfattning är inte heller lätt, men i alla fall lättare. 3
Problem och möjliga förbättringar Beroenden mellan meningar Ett stort problem vid textsammanfattning är att meningar inte alltid är självständiga utan beroende av dess omgivande meningar. Följande två meningar illustrerar problemet: Nu har jag sommarlov. Därför är jag glad. Om endast den andra meningen finns med i sammanfattningen blir sammanhanget obegripligt eller i värsta fall fullständigt förvrängt. Antag att den första meningen i sammanfattningen är Fröken grät.. Därefter följer den andra meningen från exemplet ovan. Resultatet blir då följande: Fröken grät. Därför är jag glad. Hur ska man då komma till rätta med detta problem? Genom att endast tillåta att meningar ingår i sammanfattningen om dess beroendemeningar ingår undviker man att fel som ovan uppstår. Problemet är dock att hitta dessa beroenden. Ett annat problem är att ju fler beroenden man lägger till desto mer begränsad blir sammanfattningen. Beroenden mellan intilliggande meningar Självklart finns det inga generella regler som säger att en mening är beroende av en annan. Begränsar man sig till intilliggande meningar är det dock lättare att finna regler då vissa ord i meningens början nästan uteslutande används för att binda ihop en mening med föregående mening. Exempelvis därför, sedan, då, trots detta, osv. Nedanstående exempel visar hur intilliggande beroenden kan skapa en kedja av beroenden. Nu är skolan slut. Därför är det fest på fredag. Då kommer hela skolan att vara där. Antag att sammanfattaren rankar den sista meningen högst. Denna mening får dock endast tas med i sammanfattningen om mening nummer två tas med och den i sin tur får endast tas med om mening nummer ett tas med. Resultatet blir att alla tre meningar måste tas med i sammanfattningen om man vill att den sista ska ingå. För att undvika att en mening tillför sammanfattningen en rad meningar som rankas lågt skulle man även vikta in meningens beroendemeningar vid dess poängsättning. I exemplet ovan skulle man inte plocka med den sista meningen om de två första meningarna rankades lågt. Övriga exempel på meningar som nästan alltid är beroende av dess föregående mening är ofullständiga meningar. Följande två meningar exemplifierar detta: Vi skulle kunna tjäna 150 miljoner kronor genom att använda dessa mediciner. Om året. Sista meningen måste till synes föregås av meningen innan. 4
Egennamn Ett gemensamt problem med de textsammanfattare vi har testat är att meningar som introducerar läsaren till en viss person i texten kan tas bort. Det skapar förvirring hos läsaren i de fall då personen inte är känd för läsaren. Till exempel: Enligt den svenska haverikommissionens representant Henrik Elinder fanns det aldrig två starttillstånd den morgonen Han hävdar att piloten alltid får veta den exakta färdvägen. Om endast den andra meningen finns med i sammanfattningen är det svårt att veta vem som avses med Han. Swesum har delvis löst problemet genom att använda pronomenresolution. Resultatet av andra meningen blir då: Henrik Elinder hävdar att piloten alltid får veta den exakta färdvägen. Detta förutsätter att läsaren vet vem Henrik Elinder är. Vårt förslag till lösning på problemet är att alla meningar där ett visst namn ingår blir beroende av den första meningen där namnet ingår. Den första meningen där en person omnämns innehåller oftast en beskrivning av personen om denne inte är allmänt känd. Det skulle innebära att problemet i exemplet ovan försvinner då den andra meningen inte kan finnas med utan att Henrik Elinder tidigare presenterats. För att slippa ta med hela meningar i sammanfattningen där personer presenteras skulle det optimala vara att endast infoga beskrivningen av personen i den mening som skapar beroendet. Exemplet ovan skulle då bli: Den svenska haverikommissionens representant Henrik Elinder hävdar att piloten alltid får veta den exakta färdvägen. Ett problem är dock att det inte alltid är givet var i meningen själva beskrivningen finns. I vissa fall kan man trots allt urskilja klara regler, till exempel vid referat i tidningsartiklar. Dessa avslutas oftast med personens namn följt av en beskrivning, alternativt beskrivning följt av personens namn: - Mordvapnet påträffades i den misstänktes lägenhet, säger Claes Cassel, polisens presstalesman. - Mordvapnet påträffades i den misstänktes lägenhet, säger polisens presstalesman, Claes Cassel. Effektivisering av sammanfattningen Vi tittade även på möjligheten att förkorta varje enskild mening. Vinsten i antalet minskade tecken blir i regel inte så stor. Men när det rör sig om väldigt korta sammanfattningar, till exempel vid WAP, torde varje insparad bokstav vara av betydelse. Ersätta ord med kortare synonymer Ett sätt att få in mer information i sammanfattning skulle kunna vara att ersätta vissa långa ord mot kortare synonymer. Ordet emellertid kan til exempel bytas ut mot dock. 5
Det finns naturligtvis vissa svårigheter med detta. Det kan vara svårt att generellt ersätta ett ord med ett annat. Två synonymer kan vara ekvivalenta i ett visst sammanhang men inte i ett annat. Ersätta med förkortningar Ett annat möjligt sätt att förkorta meningarna är att använda förkortningar där det är möjligt. Till exempel kan Förenta Nationerna ersättas med FN, verkställande direktör med vd och till exempel med t.ex. Ett problem med denna metod kan vara att förkortningen är mindre känd än det fullständiga namnet. Enligt våra erfarenheter brukar många snarare känna till förkortningen än det fullständiga namnet. Borttagning av ord eller hela delar av en mening Om man vill ha väldigt korta sammanfattningar funderade vi på möjligheten att plocka bort ett ord eller hela delar av en mening. Vi hade dock stora problem att identifiera vad som kännetecknar redundanta ord i en mening. Det närmaste vi kom en lösning var att ta bort vissa adjektiv. Texten blir livlös, men det viktigaste i en sammanfattning borde vara innehållet, inte den litterära upplevelsen. Ett exempel ur Metro den 12 oktober 2001: I december är Johanna Westman tillbaka i TV med Rätt i rutan, ett matlagningsprogram för barn där man får lära sig allt från hur man lagar vanliga köttbullar och pizza till exotiska rätter som kycklingsoppa tom ka gai och fetaspäckade lammbollar. Beroende på hur mycket innehåll man vill bevara finns det olika möjligheter. Om man vill ha en väldigt kort mening skulle kommatecknet kunna bytas ut mot en punkt och bisatsen tas bort helt. Det skulle kunna genomföras om man rankade delar av meningar istället för hela meningar. Detta leder dock till flera svåra problem, till exempel att bestämma vad som är viktigt i en mening och hur meningar kan omformuleras. En avsevärt lättare men mindre effektiv metod fås genom att ta bort adjektiv. Texten blir visserligen trist och livlös, men texten är fortfarande innehållsbevarande och grammatiskt korrekt. I meningen ovan kan då vanliga, kycklingsoppa och fetaspäckade tas bort utan några som helst problem. 6
Källförteckning Dagens Nyheter. 2001. Dagens Nyheter http://www.dn.se H. Dalianis. 2000. SweSum - A Swedish Textsummarizer http://www.nada.kth.se/~hercules/textsumsummary.html H. Dalianis, M. Hassel. 2001. Swesum http://www.nada.kth.se/~xmartin/swesum/index.html M. Hassel. 2000. Pronominal Resolution in Automatic Text Summarisation http://www.nada.kth.se/~xmartin/papers/master-prm.pdf Microsoft. 2000. Microsoft Word 2000 Help Metro. 2001. Metro http://www.metro.se Svenska Dagbladet. 2001. Svenska Dagbladet http://www.svd.se 7