TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap

Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen ur en text för att producera en förkortad version.

Typiska sammanfattningar översikt för godtyckliga dokument sammandrag för vetenskapliga artiklar rubriker för nyhetstexter textutdrag vid webbsökning svar på komplexa frågor

Två dimensioner inom textsammanfattning Ett versus flera dokument Finns den relevanta informationen i ett dokument eller är den utspridd över flera dokument? Generiska versus specifika sammanfattningar Finns det en tilltänkt användare eller ett tydligt kommunicerat informationsbehov? Extrakt versus abstrakt

En nyhetstext Dagens Nyheter 2012-09-18 Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. För att uppnå målet ökar bolaget etableringstakten som ska sätta fart på omsättningen, rapporterar Dagens Industri. I dagsläget öppnar Ikea 10 nya varuhus om året. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år, enligt uppgifter till DI. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Ett kalas som beräknas kosta över 100 miljarder kronor.

Extrakt och abstrakt Extrakt Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Abstrakt Ikea planerar att bli dubbelt så stort år 2020. För att uppnå målet ökar bolaget etableringstakten från 10 till 25 nya varuhus per år. Kostnaderna under de närmaste åtta åren beräknas till över 100 miljarder kronor.

http://www.ida.liu.se/projects/friendlyreader/webapp/

Delproblem i ett extraktionsbaserat system Innehållsurval Välj ut de mest centrala meningarna ur dokumentet. Informationsordning Välj en ordning för de utvalda meningarna. Meningsrealisering Fixa till meningarna så att texten blir koherent.

Syntaktisk och retorisk struktur Texter har en syntaktisk och en retorisk struktur som kan utnyttjas när man ämnar skapa kortare texter.

Kandidater för förkortning av meningar appositives Rajam, 28, an artist who was living at the time in Philadelphia, found the inspiration in the back of city magazines. attribution clauses Rebels agreed to talks with government officials, international observers said Tuesday. prepositional phrases without named entities The fishing restrictions in Washington will not be lifted unless the salmon population increases to a sustainable number. initial adverbials For example, On the other hand, As a matter of fact Jurafsky och Martin (2009), s. 796

Innehållsurval

Innehållsurval Innehållsurval kan formuleras som ett klassifikationsproblem. antingen extrahera eller inte extrahera En idé är att extrahera de meningar som innehåller de för texten mest karakteristiska orden. ordbaserat innehållsurval Varje ord i en mening får en poängsiffra; meningarna rankas sedan baserat på deras totala poäng, delad med antalet ord.

Kriterier för ordbaserat innehållsurval Metod 1: Ordfrekvens Metod 2: Tf idf Metod 3: Log-likelihood ratio

Metod 1: Ordfrekvens En enkel idé är att välja ut de meningar som innehåller många ord som förekommer ofta i dokumentsamlingen. Men ett ord kan ha en hög frekvens i dokumentsamlingen utan att vara särskilt karakteristiskt för ämnet. stoppord

Metod 2: Tf idf Istället för endast frekvens kan vi använda tf idf. tf idf(w, d) = tf(w, d) idf(w) Måttet ger hög vikt till ord som förekommer relativt ofta i det aktuella dokumentet men relativt sällan i andra dokument. En hög tf idf-vikt tolkas som ett tecken på att ordet är karakteristiskt för dokumentet.

Påminnelse: Invers dokumentfrekvens Den inversa dokumentfrekvensen för en term t är definierad som idf(t) = log N df(t) N = totala antalet dokument i samlingen df(t) = antalet dokument som innehåller termen t

Metod 3: Log-likelihood ratio Måttet log-likelihood ratio ställer två hypoteser mot varandra: Hypotes 1: Ordet w är lika vanligt i det aktuella dokumentet d som i hela dokumentsamlingen D (= inte särskilt karakteristiskt). P(w d) = P(w D) Hypotes 2: Ordet w är inte lika vanligt i det aktuella dokumentet d som i hela dokumentsamlingen D (= karakteristiskt). P(w d) P(w D) Sannolikheterna P(w d) och P(w D) kan skattas via MLE.

Textdokument som myntkast Vi har ett dokument d bestående av n stycken ord. Hur stor är sannolikheten att se ett visst ord w exakt k gånger i d? För att förenkla saken antar vi att sannolikheten p för att se w är oberoende av alla andra sannolikheter. Den beror t.ex. inte på de andra orden i dokumentet. Då är sannolikheten för att se w exakt k gånger samma som sannolikheten för att se k stycken kronor när vi kastar ett mynt n gånger och myntet visar krona med sannolikhet p.

Binomialfördelningen (n = 10, p = 0,5) 32 % 24 % 16 % 8 % 0 % 0 1 2 3 4 5 6 7 8 9 10

Att ställa två hypoteser mot varandra 32 % 24 % p = 20% p = 80% 16 % 8 % 0 % 0 1 2 3 4 5 6 7 8 9 10

Metod 3: Log-likelihood ratio Hypotes 1: Sannolikheten för att se k förekomster av w ges av en binomialfördelning med parameter P(w D). Hypotes 2: Sannolikheten för att se k förekomster av w ges av en binomialfördelning med parameter P(w d). Likelihood-kvoten är kvoten mellan dessa två värden.

Metod 3: Log-likelihood ratio Likelihood-kvoten säger oss hur mycket mera sannolikt vår observation av w är under hypotes H 1 än under hypotes H 2. En hög likelihood-kvot talar för hypotes H 1, dvs. att ordet w inte är karakteristiskt för dokumentet. En låg likelihood-kvot talar för hypotes H 2, dvs. att ordet w är karakteristiskt för dokumentet.

Metod 3: Log-likelihood ratio För att ranka meningarna i ett dokument: För varje mening och varje ord w i denna mening, beräkna score(w) = 1 score(w) = 0 om likelihood-kvoten för w är tillräcklig hög annars Räkna ut en poängsiffra för hela meningen genom att dela poängsumman med antalet ord i meningen.

Kriterier för ordbaserat innehållsurval Metod 1: Ordfrekvens Metod 2: Tf idf Metod 3: Log-likelihood ratio

Innehållsurval baserat på centralitet Vid dokumentsökning har vi använt avstånd mellan vektorer för att kvantifiera likheten mellan dokument. För att använda samma idé på textsammanfattning räknar vi först ut textens centralvektor. Räkna ut en vektor för varje mening och ta medelvärdena. Extrahera de meningar ur texten vars vektorer ligger närmast centralvektorn.

Liten vinkel, stor likhet d 1 d 2 θ sim(d 1, d 2 ) = cos θ

Utvärdering av sammanfattningssystem

Utvärdering av sammanfattningssystem Precis som andra språkteknologiska system kan system för textsammanfattning utvärderas antingen in vivo eller in vitro. Exempel på in vivo-utvärdering: Testpersoner samlar in information om ett givet ämne inom en given tidsram. Presterar de bättre om de har tillgång till dokumentsammanfattningar? Det vanligaste måttet för in vitro-utvärdering av sammanfattningssystem heter ROUGE.

ROUGE-n ROUGE = Recall-Oriented Understudy for Gisting Evaluation antal gemensamma n-gram mellan system och referenstext antal n-gram i referenstexten

Exempel på utvärdering med ROUGE-2 Referenstext Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Systemtext Möbeljätten Ikea ska bli dubbelt så stort år 2020. Tusentals människor kommer att behöva anställas. antal 2-gram: 23 6 överlappande 2-gram ROUGE-2: 6/23

Fråga Hur skulle du kunna fuska i en utvärdering baserad på ROUGE-1?

Sammanfattning: Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen ur en text för att producera en förkortad version. Centrala begrepp: log-likelihood-kvot, centralitet, ROUGE Jag har fokuserat på extraktionsbaserade textsammanfattningssystem för enstaka dokument.

Hur kan en dator förstå vad ord betyder?

You shall know a word by the company it keeps. John Rupert Firth (1957)

Målord och kontextord krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Ordvektorer = rader i ord ord-matrisen krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Ord som vektorer krona drottning kung fotboll Sverige

Problem: Stort och glest krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Neuronnät 1 0 + vikt 1 invärden + utvärde 0 0 + vikt 2

Neuronnät regerar krona drottning spelar match

Neuronnät regerar 1 krona 0 + 1 drottning spelar 0 + match 0

Neuronnät regerar 1 krona 0 + +0.3 1 drottning spelar 0 + 0.5 match 0

Att räkna med ordvektorer kvinna drottning man kung

A är till B som C är till D drottning kung kvinna man Stockholm Berlin Sverige Tyskland cykla cyklade gå gick tung tyngre lätt lättare Prova själv: https://code.google.com/p/word2vec/

Tillämpningar av ordvektorer Som teknik för att föreslå synonymer och andra semantiskt relaterade ord. Som teknik för att automatiskt skapa ontologier (kunskapshierarkier) från en textmängd. Som utgångspunkt för mera avancerade tekniker. indata till artificiella neuronnät för ordklasstaggning, parsning, sentimentanalys, maskinöversättning,