Textsammanfattning. En uppsats i kursen Språkteknologi, 2D1418. höstterminen Carolin Jonsson. kursledare: Hercules Dalianis

Relevanta dokument
Automatisk textsammanfattning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

ENGELSKA. Ämnets syfte. Kurser i ämnet

EXJOBBSOPPOSITION. Rapportförfattare: Hanif Farahmand Mokarremi Ashkan Jahanbakhsh

TDDD02 Föreläsning 7 HT-2013

Gymnasiearbetets titel (huvudrubrik)

Cristina Eriksson oktober 2001

Att skriva uppsats. Uppsatsens delar

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Moralfilosofi. Föreläsning 2

HÖJ DINA SO- BETYG! Allmänna tips

Svenska som främmande språk Förberedande kurs 30 högskolepoäng

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

"Distributed Watchdog System"

Att söka information (med betoning på Internet)

AKADEMISK HEDERLIGHET HANDLAR OM ATT INTE FUSKA ELLER PLAGIERA INFORMATION OM PLAGIAT & UPPHOVSRÄTT

Tekniker för storskalig parsning

Lässtrategier för att förstå och tolka texter från olika medier samt för att urskilja texters budskap,

Förankring i läroplanen. Innehåll. I arbetsområdet kommer eleven att ges förutsättningar att utveckla förmågan att:

AMIRA TIME. Lätt version. Lärarhandledning

10 frågor om patent. förverkligaövning

TDDD92 Artificiell intelligens -- projekt

Plugga smart! Björn Liljeqvist

KRITERIER FÖR REELL KOMPETENS I HUVUDOMRÅDE ARABISKA, JAPANSKA, KINESISKA OCH RYSKA

Språkteknologi och Open Source

Terminsplanering Tyska årskurs 8 Ärentunaskolan

KOPPLING TILL LÄROPLANEN

Vardagsekonomi. Engelska

Studieteknik för studievägledare

1DV434 VT14. I vilken utsträckning har kursens innehåll och uppläggning gett förutsättningar för att du ska ha uppnått respektive lärandemål?

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Kursplan - Grundläggande engelska

KOPPLING TILL LÄROPLANEN

Vardagssituationer och algebraiska formler

MSPR 3.6 MODERNA SPRÅK. Syfte

Lär dig skriva för webben

Grundläggande textanalys. Joakim Nivre

LPP att bygga och konstruera

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

svenska kurskod: sgrsve7 50

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT Lars Larsson Algoritmer 1

Bedömningskriterier för kandidatuppsats i omvårdnad

Pragmatik. Olika nivåer. Tumregler. Grice s samarbetsprinciper. Pragmatik och diskurs

ST16-1DV432-7,5hp. Antal svar: 26

Skolverkets förslag till reviderade kursplaner i svenska och svenska som andraspråk (arbetsmaterial 25 september 2019).

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

S3Galt Sida 1 av 1. 1 Arbetsinsats. Hur många timmar per vecka har du i genomsnitt lagt ner på kursen? 2 Samverkan inom kursen

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Ger bilder stöd för förståelsen av och förmågan att minnas kunskapskraven?

Anteckningsstöd PEDAGOGISKT STÖD, LUNDS UNIVERSITET

Kursutvärdering Matematisk analys IV H11

SVENSKA SOM ANDRASPRÅK

LPP i Engelska ht. 2016

Här följer den pedagogiska planeringen för det arbetsområde som kommer att pågå från och med vecka 5, i samarbete med SO.

Terminsplanering i Moderna språk, franska, årskurs 7 Ärentunaskolan

Elevernas uppfattningar om alltmer digitaliserad undervisning

Moderna språk. Ämnets syfte

Akademiskt skrivande I

Checklista. Hur du enkelt skriver din uppsats

Engelska åk 5 höstterminen 2013

B. Vad skulle man göra för att vara bättre förberedd inför en lektion i det här ämnet?

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Surfa till adressen och logga in med dina vanliga användaruppgifter.

Svensk utbildnings och forsknings kvalitet samt professorernas villkor går hand i hand - och kan gratis förbättras!

Bioteknik och patent. Skydda dina idéer

Förslag den 25 september Engelska


Anteckningsstöd. Pedagogiskt stöd, Lunds universitet

Betyg i moderna språk nu redan i år 6. Mia Smith, förstelärare Vallhamra skola, Partille

Fråga 4 Och så några ytterligare skador som avslutning

Migrering av applikationen AMM till molnet

VÄLKOMNA FRITID JÖNKJ

Kommunal vuxenutbildning på grundläggande nivå

Essä introduktion till hur man skriver en akademisk essä

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Kursplan i svenska grundläggande kurs W

Granska skolans webbplats

LABORATION 1 - Skapa ett fiktivt medieproducerande företag Medieproduktion och entreprenörskap 7,5 hp

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Lärarmaterial SPRING, AMINA! Vad handlar boken om? Centralt innehåll och förmågor enligt Lgr 11: Förmågor: Författare: Annelie Drewsen

Storvretaskolans IT-plan 2013/14

Kursplan för Matematik

En introduktion till pr och mediebearbetning V 1.2

Statsvetenskap G02 Statsvetenskapliga metoder Metoduppgift

Guide för bedömning. Lgr11 den samlade läroplanen

INSTRUKTIONER OCH TIPS Fördjupningsarbete Receptarier (15 hp) och Apotekare (30 hp)

Centralt innehåll. Tala, lyssna och samtala. Läsa och skriva. Berättande texter och faktatexter. Språkbruk. I årskurs 1-6

Projektuppgift - Biblioteket

Tilläggsskydd till patent (SPC) Praxisutveckling 2013

KURSPLAN FÖR KOMMUNAL VUXENUTBILDNING I SVENSKA FÖR INVANDRARE

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Riktlinjer för bedömning av examensarbeten

Har du en idé? Vi hjälper dig vidare. Skydda dina idéer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Anpassning av problem

Formativ bedömning i matematikklassrummet

Hälsoprojekt. Utvärdera din hälsa i rapportform. Samarbete: Idrott och hälsa A + Svenska A

Kursledaren: Serguei Shimorin. Övningsledarna: Daniel Zavala Svensson, Shiva Samieinia, Nils Dalarsson.

POLITIK och DEBATT svenska + SO

M atematiska cirklar. Studiehandledning

Transkript:

Textsammanfattning En uppsats i kursen Språkteknologi, 2D1418 höstterminen 2001 av d98-cjo@d.kth.se kursledare: Hercules Dalianis Sammanfattning I denna uppsats beskrivs kortfattat vad automatisk, d v s datoriserad, textsammanfattning är. Några metoder för automatisk textsammanfattning presenteras och diskuteras i förhållande till några tänkbara användningsområden.

Vad är textsammanfattning? Textsammanfattning är, precis som namnet antyder, en benämning på tekniker att sammanfatta texter. Detta kan naturligtvis göras på det traditionella sättet, d.v.s. för hand av människor, eller med hjälp av datorer. Det är främst den senare varianten, automatisk textsammanfattning, som ska behandlas i denna uppsats. Vid automatisk textsammanfattning ges en text som indata till ett datorprogram som levererar en sammanfattning som utdata. De första systemen av denna typ kom till på 1950-talet. Området har fortsatt att utvecklas på olika sätt, en utveckling som fortfarande pågår. När anses en textsammanfattning vara bra? För att en sammanfattning av en text ska vara bra ska en hel del kriterier vara uppfyllda. Några av dem är enl. Dalianis (1999): Texten ska inte innehålla redundant information Texten ska vara skriven på ett begripligt och grammatiskt korrekt språk Texten ska vara koherent, d.v.s. sammanhängande. Texten ska ge läsaren den information som han behöver För övrigt är det brukligt att sammanfattningen är kortare än ursprungstexten. Textsammanfattning förr och nu På 50-talet när de första textsammanfattningssystemen skapades var lagringsutrymmet på datorer något dyrt och därmed begränsat. Man ville därför gärna lagra korta texter istället för långa och därmed uppstod ett behov av att snabbt och effektivt kunna framställa bra sammanfattningar. Idag är minne inte längre någonting dyrt så lagringsaspekten utgör inte längre något problem. Däremot har informationsmängderna i samhället ökat något enormt, bl.a. med Internets uppkomst. Sammanfattningarna behövs nu till exempel för att människor över huvud taget ska kunna överblicka den stora mängd information som finns tillgänglig. Användningsområden Det finns ett stort behov av textsammanfattningar i dagens samhälle. En hel del av dessa skulle kunna automatiseras, dels för att det går snabbare och människorna kan ägna sig åt andra saker, dels för att det kan vara bra att någon helt opartisk (som ett program ändå borde vara) gör sammanfattningen. Det sistnämnda ska jag diskutera vidare under exemplet med patentansökningar, se nedan. Exempel på tänkbara tillämpningar för automatisk textsammanfattning är (H Dalianis, 1999, M Hassel, 2001): Nyhetssammanfattningar (för t ex journalister, omvärldsbevakare m.fl. som behöver uppsikt över nyhetsflödet) Sammanfattningar av e-post att sändas som SMS Rapporter (t.ex. för riksdagsmän, affärsmän m.fl. som har mycket att läsa men inte hinner läsa alla långa dokument i sin helhet) I sökmotorer för att ta ut nyckelord ur dokument Ytterligare användningsområden Andra användningsområden som kommer att diskuteras längre fram i texten är automatiska sammanfattningar av patentdokument samt sammanfattningar av skönlitteratur. Lite om olika begrepp När man sysslar med automatisk textsammanfattning kan man behöva en hel mängd av begrepp för att beskriva hurdan den sammanfattade texten blir. Här är en liten presentation av några förekommande begrepp enl. S Wan, (2000): Generisk/användaranpassad En generisk sammanfattning är skriven så att det är textförfattarens åsikter som ställs i fokus. En användaranpassad sammanfattning är däremot mer orienterad mot att presentera den information i texten som den aktuella användaren är intresserad av. Neutral/vinklad Precis som namnen antyder är en neutral sammanfattning så objektiv som möjligt, m edan en vinklad tar ställning på något sätt.

Nyheter/bakgrund I en nyhetssammanfattning presenteras i första hand saker som är nya, medan läsaren själv förväntas känna till bakgrunden. En bakgrundssammanfattning berättar mer om allt runt omkring det nya, vilket är lämpligt då läsaren inte känner till bakgrundsfakta. Vilka metoder finns? Traditionellt har man diskuterat två metoder i samband med automatisk textsammanfattning: textabstraktion och textextraktion. Här nedan nämns även en nyare metod, RST. Textabstraktion En definition av textabstraktion är att metoden är en kondensation och en omformulering av originalet (S Wan, 2000). Textabstraktion är den metod som människor använder sig av när de ska sammanfatta en text. Detta går ju i allmänhet till så att en person läser en text, tolkar den och därefter slutligen skriver ner med (förhoppningsvis!) sina egna ord vad den handlade om. När detta skall göras med automatiska metoder är principen densamma: texten skall först tolkas semantiskt för att bedöma vad som är viktigt och inte, sedan ska nya syntaktiska val göras så att en sammanfattning kan skapas utifrån den väsentliga informationen. Detta är dock svårt att göras automatiskt och är därför, åtminstone inte i dagsläget, inte någon vanlig metod. Textextraktion Denna metod kan definieras med följande beskrivning: Sammanfattningen består av en delmängd av originaltexten. Textextraktion går ut på att man (= programmet) tar reda på vad texten handlar om genom olika statistiska och/eller heuristiska metoder. Därefter väljs de viktigaste meningarna ut. De får sedan bilda den nya texten, sammanfattningen. På detta sätt fungerar de flesta automatiska sammanfattare i dagsläget. Vad anses som viktigt? Vid textextraktion måste man på något sätt bestämma vilka meninga r som är mest relevanta för dokumentet och därför ska väljas ut till att vara med i sammanfattningen. Dessa meningar kan vara till exempel Rubriker (beskriver ofta texten bra) Meningspositioner (i exempelvis en nyhetstext står det viktigaste först) Ordfrekvenser (ord som förekommer ofta beskriver antagligen texten bättre än ord som förekommer sällan. Här ska naturligtvis inte vanliga småord som och, på, en, till etc. räknas med) RST Rethorical Structure Theory, RST är en så kallad diskursteori. Det innebär att den behandlar förhållanden mellan delar i en text, såsom satser och meningar. Kortfattat kan man, enligt Jurafsky och Martin (2000) beskriva det med två begrepp: kärnor och satelliter. En kärna är en central mening, eller huvudsats, medan en satellit är mening eller bisats som beror av/syftar på kärnan. I RST har man definierat ett tjugotal relationer som kan finnas mellan kärna och satellit. Exempel på sådana relationer är: kontrast, utveckling, resultat och syfte. För att förtydliga detta visas här ett exempel. Diskursen Nisse är ute och joggar minst en timme varje dag. Han tränar inför Stockholm maraton kan enligt RST tolkas som att den första meningen är en kärna, den andra är en satellit och relationen mellan dem är syfte. På detta sätt kan ma n tolka långa texter och på så sätt få stora träd av relationer mellan satser. Med hjälp av denna metod kan man ta reda på om en diskurs är koherent eller ej. I sammanfattningssammanhang är det intressant att nämna att om diskursen är koherent ska enbart kärnorna kunna bilda en meningsfull text även om satelliterna tas bort. Fördelar/nackdelar med automatisk textsammanfattning Till att börja med kan påpekas att inget automatiskt textsammanfattningsprogram kan mäta sig med en duktig mänsklig sammanfattare. Detta är ju något helt naturligt, det skulle vara otroligt svårt att skapa ett program som har en (ibland mycket kunnig) människas förmåga att välja ut vad som är väsentligt och inte och formulera det på ett för ändamålet lämpligt sätt. Dessa ändamål kan ju i praktiken vara mycket olika, till vem riktar sig sammanfattningen, vad är den en sammanfattning av o.s.v., vilket gör problemet mer komplext. Men om man sänker kraven lite så kan automatiska sammanfattare idag åstadkomma fungerande sammanfattningar. De har dessutom den stora fördelen framför mänskligt gjorda sammanfattningar att de kan skapas snabbt och billigt. En annan fördel med automatisk textsammanfattning framför manuell är att den automatiska sammanfattningen inte är partisk som en människa kan vara då hon sammanfattar en text. Inte heller gör människor likadant då de skriver sammanfattningar, om olika personer sammanfattar samma text blir resultatet nästan garanterat helt olika.

En automatisk textsammanfattare kan i högre grad än en mänsklig vara konsekvent och systematisk, något som i vissa fall kan vara en stor fördel. Här nedan diskuteras några synpunkter på de olika metoderna. Abstraktion Fördelar med textabstraktion är att sammanfattningen blir: Mindre beroende av ursprungstexten Den stora fördelen med textabstraktion är att formuleringarna i sammanfattningen inte blir lika beroende av ursprungstexten. I och med att texten tolkas, kan nya ord och uttryck väljas ut för att anpassa texten till olika sammanhang och läsare. Anpassningsbar Tack vare abstraktionen kan man tänka sig att en intelligent automatisk sammanfattare skulle kunna dra vissa slutsatser om texten och sammanfatta med hjälp av dem. Till exempel skulle det kunna bli så här: Pelle försörjde sig genom småstölder. Hans vänner skaffade sig pengar genom försäkringsbedrägerier och ficktjuveri sammanfattas till Pelle och hans vänner försörjde sig genom brott. En nackdel är: Implementationen Problemet med textabstraktion är i dagsläget att det är svårt att implementera på ett bra sätt. Extraktion Fördelar med textextraktion är: Enkelt att implementera Den stora fördelen med textextraktion är att det är relativt enkelt att implementera sådana system. Billigt och snabbt Andra fördelar är att det är förhållandevis billigt och går snabbt, speciellt om man jämför med vad den handgjord, mänsklig sammanfattning skulle kosta. En viktig nackdel är: Beroende av ursprungstexten Den stora nackdelen med textextraktionsmetoden är att sammanfattningen helt och hållet beror av ursprungstexten. Om den är konstigt eller krångligt skriven kan även sammanfattningen bli det. RST RST är en ny metod som fortfarande till största delen befinner sig på forskningsstadiet. Efter vad jag har läst verkar det vara en användbar metod för sammanfattning, men liksom vid textextraktion blir ett problem Beroende av ursprungstexten Om bara kärnorna används är de extra viktigt att dessa är välskrivna. En fördel skulle kunna vara Tidsbesparing Om man kan generera en sammanfattning i samband med att man analyserar sin text för att se om den är koherent viner man tid. Tillämpningar Här nedan ska några nya, tänkbara användningsområden för automatiska textsammanfattning diskuteras. Patentdokument Sommaren 2001 jobbade jag som praktikant på en av patentavdelningarna på Patent och Registreringsverket, PRV, i Stockholm. Min uppgift var att, under handledning, nyhetsgranska inkomna patentansökningar. Detta arbete är numera starkt datoriserat, sökningen sker till stor del i olika databaser. Dessa databaser innehåller ofta patentdokument av varierande längd och innehåll. På grund av den stora mängd information som ska sökas igenom är det av stor vikt att de sammanfattningar som hör till patentdokumenten är av god kvalitet. De bör spegla innehållet och patentets idé på ett korrekt sätt, så att man får en god uppfattning om uppfinningen enbart genom sammanfattningen. Så är dock inte alltid fallet.

Problem: sammanfattningen är dålig! Ett inte helt ovanligt problem när det gäller sammanfattningar är att de har brister av något slag. Detta kan bero på ett flertal faktorer som till exempel att sammanfattningen inte på ett lämpligt sätt speglar innehållet eller att den inte möter läsarens önskemål om vad som borde ha stått i den. När det gäller sammanfattningar av patentdokumentet förekommer det speciellt att sammanfattningen inte stämmer med innehållet i dokumentet, något som ibland kan komma sig av att sökanden själv skriver hela dokumentet. Av patenttekniska skäl vill sökanden gärna vara så vag som möjligt, för att patentskyddet ska bli maximalt. Det förekommer därför att hela dokumentet, och då i synnerhet sammanfattningen, blir väldigt vagt. Om patent ändå beviljas och dokumentet senare används som underlag då nya ansökningar ska granskas vållar detta problem för granskaren, som då får merarbete genom att han/hon även måste tolka detta dokument grundligare än man skulle önska. Kanske skulle automatisk textsammanfattningar hjälpa En i teorin lämplig lösning på detta problem vore att använda automatisk sammanfattning med hjälp av textabstraktion. Man skulle då få neutrala sammanfattningar som om sammanfattaren är bra speglar innehållet på ett bra sätt. Även textextraktion (eller RST) skulle kunna fungera bra, förutsatt att patentdokumenten är bra skrivna så att extraktionens klipp och klistra metod fungerar. Sammanfattningar för att imponera Ett annat, om än lite mer lyxbetonat användningsområde för automatiska sammanfattningar skulle kunna vara sammanfattningar av skönlitteratur. Många människor vill gärna hänga med och läsa aktuella böcker. Detta tar emellertid en hel del tid, vilket man inte alltid har. För att fortfarande kunna försöka imponera på bordsgrannen på snobbigare middagar skulle då sammanfattningar av de aktuella böckerna kunna hjälpa. Det bästa sättet vore då om sammanfattningen kunde göras personlig, så att personen som utger sig för att ha läst boken blir mer trovärdig i sina påståenden. Detta användningsområde kunde även utsträckas till att även inkludera kursböcker. Studenter är som bekant ofta lätt tidsoptimistiska, med påföljden att all kurslitteratur inte hinns med att läsa. Givetvis passar denna metod inte alla böcker, ämnen som matematik, med många tal, ekvationer o.s.v., borde vara svårare att sammanfatta, medan en bok som är skriven på ett mer löptextliknande sätt borde lämpa sig bättre. Avslutning Automatisk textsammanfattning är en i högsta grad användbar metod med många tänkbara tillämpningar. Att säga vilken metod som skulle fungera bäst i varje enskilt fall är svårt, för att kunna uttala sig borde man egentligen göra grundligare studier av vad som behövs, vilka användarna är och så vidare. Det har forskats en hel del på detta område, men fortfarande återstår mycket att ta reda på innan man funnit metoden för den ultimata sammanfattaren. Referenser H Dalianis, automatisk textbehandling, 1999 D Jurafsky & J Martin, Speech and language Processing, 2000 Marin Hassels föreläsningsbilder från textsammanfattningsföreläsningen, 2001-10-11 http://www.ics.mq.edu.au/~swan/summarization/ 2001-10-13