TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument
TDDD02 Föreläsning 7 HT-2013

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Tentamen Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Tentamen Del A. Marco Kuhlmann

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Språkteknologi och Open Source

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

1 Ortogonalitet. 1.1 Skalär produkt. Man kan tala om vinkel mellan vektorer.

Tentamen MVE301 Sannolikhet, statistik och risk

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiska grundbegrepp

Grundläggande textanalys. Joakim Nivre

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

SF1624 Algebra och geometri

Introduktion till språkteknologi

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Linjär Algebra, Föreläsning 9

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

5 Linjär algebra. 5.1 Addition av matriser 5 LINJÄR ALGEBRA

- ett statistiskt fråga-svarsystem

Automatisk textsammanfattning

Crash Course Algebra och geometri. Ambjörn Karlsson c januari 2016

Innehåll. Informationssökning språkteknologiska hjälpmedel

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

Självkoll: Ser du att de två uttrycken är ekvivalenta?

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Sannolikhetsbegreppet

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

3x + y z = 0 4x + y 2z = 0 2x + y = Lös det överbestämda systemet nedan på bästa sätt i minsta kvadratmening. x = 1 x + y = 1 x + 2y = 2

Cristina Eriksson oktober 2001

Inlämningsuppgift: Pronomenidentifierare

Robotarm och algebra

LINJÄRA AVBILDNINGAR

SNABBGUIDE TILL NEWSDESK

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Övningshäfte 2: Komplexa tal

Föreläsning 3: Dekomposition. Dekomposition

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

TMV166 Linjär algebra för M, vt 2016

Textsammanfattning. En uppsats i kursen Språkteknologi, 2D1418. höstterminen Carolin Jonsson. kursledare: Hercules Dalianis

Övningstenta 001. Alla Linjär Algebra. TM-Matematik Sören Hector Mikael Forsberg. 1. x 2y z + v = 0 z + u + v = 3 x + 2y + 2u + 2v = 4 z + 2u + 5v = 0

Explorativ övning 7 KOMPLEXA TAL

SF1624 Algebra och geometri

TMV166 Linjär Algebra för M. Tentamen

Kravspecifikation Fredrik Berntsson Version 1.3

= ( 1) ( 1) = 4 0.

Mer om analytisk geometri

Tentamen MVE301 Sannolikhet, statistik och risk

SNABBGUIDE. Telia Anita 20 Bruksanvisning. Bläddra bland lagrade telefonnummer. Radera ett nummer. Radera alla nummer

Matematisk statistik TMS063 Tentamen

Multiplicera 7med A λ 1 I från vänster: c 1 (Av 1 λ 1 v 1 )+c 2 (Av 2 λ 1 v 2 )+c 3 (Av 3 λ 1 v 3 ) = 0

EDAA01 Programmeringsteknik - fördjupningskurs

MEDIEKOMMUNIKATION. Ämnets syfte

Temperatur (grader Celcius) 4 tim. och 32 min tim. och 12 min tim. och 52 min tim. och 1 min tim. och 4 min.

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Algebraiska egenskaper hos R n i)u + v = v + U

Oändligtdimensionella vektorrum

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Determinanter, egenvectorer, egenvärden.

3. Lös det överbestämda systemet nedan på bästa sätt i minsta kvadratmening. x + y = 1 x + 2y = 3 x + 3y = 4 x + 4y = 6

Tekniker för storskalig parsning

Föreläsning 13 Innehåll

Tentamen MVE301 Sannolikhet, statistik och risk

PbD rent konkret. Från en insnöad forskares perspektiv. Tobias Pulls. 7 September Karlstads universitet

6. Matriser Definition av matriser 62 6 MATRISER. En matris är ett rektangulärt schema av tal: a 11 a 12 a 13 a 1n a 21 a 22 a 23 a 2n A =

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

2s + 3t + 5u = 1 5s + 3t + 2u = 1 3s 3u = 1

Introduktion till statistik för statsvetare

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Övningshäfte 2: Komplexa tal (och negativa tal)

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

poäng i del B Lycka till!

x + y z = 2 2x + 3y + z = 9 x + 3y + 5z = Gauss-Jordan elemination ger: Area = 1 2 AB AC = 4. Span(1, 1 + x, x + x 2 ) = P 2.

Vetenskaplig metodik

Hitta k största bland n element. Föreläsning 13 Innehåll. Histogramproblemet

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

Matematisk statistik för B, K, N, BME och Kemister

Sätt t = (x 1) 2 + y 2 + 2(x 1). Då är f(x, y) = log(t + 1) = t 1 2 t t3 + O(t 4 ) 1 2 (x 1) 2 + y 2 + 2(x 1) ) 2 (x 1) 2 + y 2 + 2(x 1) ) 3

Isolda Purchase - EDI

EasyReader (FriendlyReader)

DEL I 15 poäng totalt inklusive bonus poäng.

LINJÄR ALGEBRA II LEKTION 3

TMV142/186 Linjär algebra Z/TD

Linjära avbildningar. Låt R n vara mängden av alla vektorer med n komponenter, d.v.s. x 1 x 2. x = R n = x n

SF1624 Algebra och geometri Tentamen Torsdag, 9 juni 2016

Förslag den 25 september Engelska

Diagonalisering och linjära system ODE med konstanta koe cienter.

Transkript:

TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap

Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen ur en text för att producera en förkortad version.

Typiska sammanfattningar översikt för godtyckliga dokument sammandrag för vetenskapliga artiklar rubriker för nyhetstexter textutdrag vid webbsökning svar på komplexa frågor

Två dimensioner inom textsammanfattning Ett versus flera dokument Finns den relevanta informationen i ett dokument eller är den utspridd över flera dokument? Generiska versus specifika sammanfattningar Finns det en tilltänkt användare eller ett tydligt kommunicerat informationsbehov? Extrakt versus abstrakt

En nyhetstext Dagens Nyheter 2012-09-18 Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. För att uppnå målet ökar bolaget etableringstakten som ska sätta fart på omsättningen, rapporterar Dagens Industri. I dagsläget öppnar Ikea 10 nya varuhus om året. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år, enligt uppgifter till DI. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Ett kalas som beräknas kosta över 100 miljarder kronor.

Extrakt och abstrakt Extrakt Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Abstrakt Ikea planerar att bli dubbelt så stort år 2020. För att uppnå målet ökar bolaget etableringstakten från 10 till 25 nya varuhus per år. Kostnaderna under de närmaste åtta åren beräknas till över 100 miljarder kronor.

http://www.ida.liu.se/projects/friendlyreader/webapp/

Delproblem i ett extraktionsbaserat system Innehållsurval Välj ut de mest centrala meningarna ur dokumentet. Informationsordning Välj en ordning för de utvalda meningarna. Meningsrealisering Fixa till meningarna så att texten blir koherent.

Syntaktisk och retorisk struktur Texter har en syntaktisk och en retorisk struktur som kan utnyttjas när man ämnar skapa kortare texter.

Kandidater för förkortning av meningar appositives Rajam, 28, an artist who was living at the time in Philadelphia, found the inspiration in the back of city magazines. attribution clauses Rebels agreed to talks with government officials, international observers said Tuesday. prepositional phrases without named entities The fishing restrictions in Washington will not be lifted unless the salmon population increases to a sustainable number. initial adverbials For example, On the other hand, As a matter of fact Jurafsky och Martin (2009), s. 796

Innehållsurval

Innehållsurval Innehållsurval kan formuleras som ett klassifikationsproblem. antingen extrahera eller inte extrahera En idé är att extrahera de meningar som innehåller de för texten mest karakteristiska orden. ordbaserat innehållsurval Varje ord i en mening får en poängsiffra; meningarna rankas sedan baserat på deras totala poäng, delad med antalet ord.

Kriterier för ordbaserat innehållsurval Metod 1: Ordfrekvens Metod 2: Tf idf Metod 3: Log-likelihood ratio

Metod 1: Ordfrekvens En enkel idé är att välja ut de meningar som innehåller många ord som förekommer ofta i dokumentsamlingen. Men ett ord kan ha en hög frekvens i dokumentsamlingen utan att vara särskilt karakteristiskt för ämnet. stoppord

Metod 2: Tf idf Istället för endast frekvens kan vi använda tf idf. tf idf(w, d) = tf(w, d) idf(w) Måttet ger hög vikt till ord som förekommer relativt ofta i det aktuella dokumentet men relativt sällan i andra dokument. En hög tf idf-vikt tolkas som ett tecken på att ordet är karakteristiskt för dokumentet.

Påminnelse: Invers dokumentfrekvens Den inversa dokumentfrekvensen för en term t är definierad som idf(t) = log N df(t) N = totala antalet dokument i samlingen df(t) = antalet dokument som innehåller termen t

Metod 3: Log-likelihood ratio Måttet log-likelihood ratio ställer två hypoteser mot varandra: Hypotes 1: Ordet w är lika vanligt i det aktuella dokumentet d som i hela dokumentsamlingen D (= inte särskilt karakteristiskt). P(w d) = P(w D) Hypotes 2: Ordet w är inte lika vanligt i det aktuella dokumentet d som i hela dokumentsamlingen D (= karakteristiskt). P(w d) P(w D) Sannolikheterna P(w d) och P(w D) kan skattas via MLE.

Textdokument som myntkast Vi har ett dokument d bestående av n stycken ord. Hur stor är sannolikheten att se ett visst ord w exakt k gånger i d? För att förenkla saken antar vi att sannolikheten p för att se w är oberoende av alla andra sannolikheter. Den beror t.ex. inte på de andra orden i dokumentet. Då är sannolikheten för att se w exakt k gånger samma som sannolikheten för att se k stycken kronor när vi kastar ett mynt n gånger och myntet visar krona med sannolikhet p.

Binomialfördelningen (n = 10, p = 0,5) 32 % 24 % 16 % 8 % 0 % 0 1 2 3 4 5 6 7 8 9 10

Att ställa två hypoteser mot varandra 32 % 24 % p = 20% p = 80% 16 % 8 % 0 % 0 1 2 3 4 5 6 7 8 9 10

Metod 3: Log-likelihood ratio Hypotes 1: Sannolikheten för att se k förekomster av w ges av en binomialfördelning med parameter P(w D). Hypotes 2: Sannolikheten för att se k förekomster av w ges av en binomialfördelning med parameter P(w d). Likelihood-kvoten är kvoten mellan dessa två värden.

Metod 3: Log-likelihood ratio Likelihood-kvoten säger oss hur mycket mera sannolikt vår observation av w är under hypotes H 1 än under hypotes H 2. En hög likelihood-kvot talar för hypotes H 1, dvs. att ordet w inte är karakteristiskt för dokumentet. En låg likelihood-kvot talar för hypotes H 2, dvs. att ordet w är karakteristiskt för dokumentet.

Metod 3: Log-likelihood ratio För att ranka meningarna i ett dokument: För varje mening och varje ord w i denna mening, beräkna score(w) = 1 score(w) = 0 om likelihood-kvoten för w är tillräcklig hög annars Räkna ut en poängsiffra för hela meningen genom att dela poängsumman med antalet ord i meningen.

Kriterier för ordbaserat innehållsurval Metod 1: Ordfrekvens Metod 2: Tf idf Metod 3: Log-likelihood ratio

Innehållsurval baserat på centralitet Vid dokumentsökning har vi använt avstånd mellan vektorer för att kvantifiera likheten mellan dokument. För att använda samma idé på textsammanfattning räknar vi först ut textens centralvektor. Räkna ut en vektor för varje mening och ta medelvärdena. Extrahera de meningar ur texten vars vektorer ligger närmast centralvektorn.

Liten vinkel, stor likhet d 1 d 2 θ sim(d 1, d 2 ) = cos θ

Utvärdering av sammanfattningssystem

Utvärdering av sammanfattningssystem Precis som andra språkteknologiska system kan system för textsammanfattning utvärderas antingen in vivo eller in vitro. Exempel på in vivo-utvärdering: Testpersoner samlar in information om ett givet ämne inom en given tidsram. Presterar de bättre om de har tillgång till dokumentsammanfattningar? Det vanligaste måttet för in vitro-utvärdering av sammanfattningssystem heter ROUGE.

ROUGE-n ROUGE = Recall-Oriented Understudy for Gisting Evaluation antal gemensamma n-gram mellan system och referenstext antal n-gram i referenstexten

Exempel på utvärdering med ROUGE-2 Referenstext Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Systemtext Möbeljätten Ikea ska bli dubbelt så stort år 2020. Tusentals människor kommer att behöva anställas. antal 2-gram: 23 6 överlappande 2-gram ROUGE-2: 6/23

Fråga Hur skulle du kunna fuska i en utvärdering baserad på ROUGE-1?

Sammanfattning: Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen ur en text för att producera en förkortad version. Centrala begrepp: log-likelihood-kvot, centralitet, ROUGE Jag har fokuserat på extraktionsbaserade textsammanfattningssystem för enstaka dokument.

Hur kan en dator förstå vad ord betyder?

You shall know a word by the company it keeps. John Rupert Firth (1957)

Målord och kontextord krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Ordvektorer = rader i ord ord-matrisen krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Ord som vektorer krona drottning kung fotboll Sverige

Problem: Stort och glest krona tron regera Sverige match mål spela drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 bandy 0 1 0 1 2 1 1

Neuronnät 1 0 + vikt 1 invärden + utvärde 0 0 + vikt 2

Neuronnät regerar krona drottning spelar match

Neuronnät regerar 1 krona 0 + 1 drottning spelar 0 + match 0

Neuronnät regerar 1 krona 0 + +0.3 1 drottning spelar 0 + 0.5 match 0

Att räkna med ordvektorer kvinna drottning man kung

A är till B som C är till D drottning kung kvinna man Stockholm Berlin Sverige Tyskland cykla cyklade gå gick tung tyngre lätt lättare Prova själv: https://code.google.com/p/word2vec/

Tillämpningar av ordvektorer Som teknik för att föreslå synonymer och andra semantiskt relaterade ord. Som teknik för att automatiskt skapa ontologier (kunskapshierarkier) från en textmängd. Som utgångspunkt för mera avancerade tekniker. indata till artificiella neuronnät för ordklasstaggning, parsning, sentimentanalys, maskinöversättning,