TDDD02 Föreläsning 7 HT-2013

Relevanta dokument
TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Automatisk textsammanfattning

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

TDDD02 Föreläsning 6 HT-2013

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Tentamen Marco Kuhlmann

Kommentarer till bedömningsmatris för Skriva Kurs C

Guide Studieteknik. Tips för lättare studier!

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs C

1. Inledning Syfte Struktur Automatisk textsammanfattning Input Syfte Output...

Förslag den 25 september Engelska

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Introduktion till språkteknologi

EasyReader (FriendlyReader)

TDDD02 Föreläsning 5 HT-2013

Kommentarer till bedömningsmatris för Tala Kurs B

Kommentarer till bedömningsmatris för Tala Kurs D

Lokala kursplaner i engelska reviderad 2005 Lokala mål Arbetssätt Underlag för bedömning

Gymnasiearbetet. Daniel Nordström

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

kl Tentaupplägg

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Kommunikationsinslaget i Experimentell Fysik 1. Hans Malmström Avdelningen för fackspråk och kommunikation

RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK

Nätverksträff för lärare inom vuxenutbildningens grundläggande nivå

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Textforskningen och dess metoder idag

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Debattartiklar rutiner och tips. 1. Inför debattproduktion. 2. Ramar att komma ihåg. 3. Källor

SKRIVA BREV OCH MUNTLIG PRESENTATION. Venus HT-18

Pragmatisk och narrativ utveckling

Terminologins terminologi: begreppsdiagrammen

LPP, Klassiker. Namn: Datum:

TDDC74 Programmering: Abstraktion och modellering Datordugga 2 - exempel

Material från

Information om examensarbetet för studenter och examinatorer

Inlämningsuppgift: Pronomenidentifierare

Hur, när och till vad använder personer sin smarta telefon eller surfplatta? Personers medievanor på mobila enheter.

Föreläsning 6: Analys och tolkning från insamling till insikt

Kandidatarbete Data och Informationsteknik

Pedagogisk planering tidningstexter

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

För fyra år sedan föddes idén hos Jönköpings kommunpolitiker att invånarna ska sortera sina sopor på sin tomt med egna sopkärl.

Gymnasiearbetet för det naturvetenskapliga programmet

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

De 10 mest basala avslutsteknikerna. Direkt avslutet: - Ska vi köra på det här då? Ja. - Om du gillar den, varför inte slå till? Ja, varför inte?

Kursinformation och schema för Lingvistik 6 hp 729G08

Karp. Övningar Språkbankens höstworkshop oktober 2016

UB:s sö ktjä nst - Söka artiklar och annan litteratur

SVENSKA SOM ANDRASPRÅK

Manual till nyckeltalshemsidan

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Statistisk grammatikgranskning

Så här skrivs faktablad om MSB-finansierade forskningsprojekt

En typisk medianmorot

Grafisk visualisering av en spårbarhetslösning

Behandlingsprogram. Datum när behandlingsprogrammet skapades: (ÅÅÅÅ) Datum när den aktuella versionen av behandlingsprogrammet skapades: (ÅÅÅÅ-MM)

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Sö ka artiklar öch annan litteratur

Motionsverkstad. Ett workshopmaterial som vänder sig till socialdemokratiska föreningar och klubbar i Stockholms stad

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Individuellt fördjupningsarbete

För mycket information! Att presentera vetenskap. Målet med föreläsningen. Planera din presentation besvara dessa frågor: Presentationens struktur

Pedagogisk planering tidningstexter. Syfte

Svenska som andraspråk

Välkomna till DIT012 IPGO

FOTOGRAFISK BILD. Ämnets syfte

Förslag den 25 september Moderna språk

FOTOGRAFISK BILD. Ämnets syfte. Kurser i ämnet

Riktlinjer för styrdokument

TDDD92 Artificiell intelligens -- projekt

Arbetsdokument: Effektivisera dina möten

Enkätundersökning inomhusklimat, Beteendevetarhuset, Umeå Universitet

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Våra Egna digitala initiativ. Henrik Blomgren KTH Executive School

Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8

SMARTARE HANTERING AV DIN KLIENTMILJÖ till ledningen om er En ebok för dig med många datorer, telefoner eller surfplattor.

Den akademiska uppsatsen

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Att skriva teknisk ra r p a port r

Svenska som andraspråk

Brainstorming 1. Designmetoder. Brainstorming 2. Affinitetsdiagram. 1. Definiera problemområdet. Hur kan vi förbättra [något]?

Hur prioriterar personer med lässvårigheter 19 viktiga parametrar för läsbarhet?

Sammanfattning av kursutvärdering Design av informationssystem, moment 1, Programmeringens grunder, 7,5 hp, ht 2016

UPPGIFT 1 V75 FIGUR 1.

Fackspråk föreläsning 4: Argumentation och retorik för kandidatuppsatsen. Varmt välkomna!

Att skriva rapporten för examensarbetet & sammanfattning av IMRAD. Ville Jalkanen TFE, UmU

Citation for the original published paper (version of record): N.B. When citing this work, cite the original published paper.

Bedömning: Bryt ner kunskapskraven i mindre delar - infoga i Itslearning

Textsammanfattning. En uppsats i kursen Språkteknologi, 2D1418. höstterminen Carolin Jonsson. kursledare: Hercules Dalianis

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

PM för kurs i Vetenskapsteori

Innehållsförteckning

ENGELSKA. Ämnets syfte. Kurser i ämnet

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Word bengt hedlund

Transkript:

TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25.

Översikt Textstruktur Problemet textsammanfattning Definition och exempel Extraktionsmetoden Utvärdering

Texter hänger ihop Vad utmärker texter? koherens: ett sammanhängande innehåll kohesion: språkliga sambandsmarkörer som pronomen, subjunktioner och konjunktioner m.m. Texter har något slags syfte och poäng Texter har ett eller flera ämnen Texter kategoriseras i genrer. Olika genrer kan ha olika struktur.

I vilken ordning bildar dessa meningar en text? 1. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. 2. För att uppnå målet ökar bolaget etableringstakten som ska sätta fart på omsättningen, rapporterar Dagens Industri. 3. I dagsläget öppnar Ikea 10 nya varuhus om året. 4. Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. 5. Ett kalas som beräknas kosta över 100 miljarder kronor. 6. Exakt hur många varuhus som ska öppnas varje år framöver är inte klart men etableringstakten väntas mer än fördubblas med 25 nya varuhus varje år, enligt uppgifter till DI.

Exempel på genrer Nyhetstexter det viktigaste först rubriker och (ofta) ingress Vetenskapliga texter abstract viktigt innehåll utspritt i texten och rubriksatt som t.ex. syfte, metod, resultat,...

Textsammanfattning Ett sammanfattningssystem ska ta fram den viktigaste informationen ur en text och återge den i en text av en föreskriven längd, säg 5 meningar, eller 30% av ursprungstextens längd. Användningar: Textutdrag vid webbsökning, Rubriksättning eller ingress till nyhetsartiklar, Beslutsstöd (behöver jag läsa hela artikeln?) Lässtöd, t.ex. snabb översikt av ett nyhetsflöde Presentation av fakta insamlat av ett IE-system...

Varianter av textsammanfattning Sammanfatta information från flera dokument (multidokumentsystem), Sammanfatta information givet ett uttalat informationsbehov, t.ex. i form av ämnesord, söktermer, eller mallar (behovsstyrd eller topikal sammanfattning)

Två olika metoder Extraktion Meningar extraheras ur texten och sätts ihop till en ny text. Tre steg: välja meningar, bestämma ordningsföljden på valda meningar, ev. fusionering (slå ihop meningar, ta bort onödig info,...) Abstraktion information extraheras som i ett IE-system och en fylld mall används för att generera text. NB! Textgenerering är ett eget forskningsområde.

Några extraktionssystem SweSum (Dalianis, 2000) swesum.nada.kth.se Friendly Reader (Smith & Jönsson, 2011) där sammanfattning är en komponent bland flera som ska hjälpa någon med lässvårigheter att läsa texten. http://www.ida.liu.se/projects/friendlyreader/webapp/ Summly (mobilapp)

Välja ut meningar vid extraktion Indikatorer på meningsnivå förekomst av nyckelord meningens position i texten, eller i sitt stycke meningens längd förekomst av specifika tokens: namn, siffror, förstärkningsord, m.m... Nyckelord = innehållsord i texten som är viktiga. Ge dem vikter, exempelvis efter frekvens i texten, (helst baserad på lemman) relativt hög frekvens, jämfört med en standardkorpus, speciell formatering, t.ex. fetstil...

Välja ut meningar vid extraktion Rangordna meningar efter någon metod, Enkel summering av ordvikter, och positionsvikter Naive Bayes, grundat på ord- och meningsindikatorer Loglinjär viktning,... Välj antal meningar efter given begränsning på sammanfattningens längd ( kompressionsgraden ).

Ordning och ev. modifiering av valda meningar Vanligt är att behålla ordningen från texten, Alternativt kan meningarna ordnas efter sina poäng (sannolikhet att innehålla central information) Bisatser, eller inskjutna fraser, som inte innehåller viktiga ord, kan ev. tas bort, Ord som kräver rätt kontext för sin tolkning, kan kontrolleras mot sin nya omgivning t.ex. pronomen som han, hon, där, dit,... kan ersättas med namn, ord som men, därför, också kan ev. tas bort om föregående mening inte är med i sammanfattningen

Utvärdering av sammanfattningar Med en eller flera referenssammanfattningar recall och precision på meningsnivå, recall och precision räknat på innehållsenheter från en referenssammanfattning (ofta flera i samma mening) Mått på hur väl texten hänger ihop (kräver bedömning av en människa)

Utvärdering av sammanfattningar Ngrambaserade mått är vanliga för utvärdering av texter, om referensdata finns (dvs texter skapade av människor för samma problem) ROUGE N -måttet [antal gemensamma n-gram mellan system och referenstext] [antal n-gram i referenstexten] n kan väljas som 2 eller 3 eller från ett intervall [i,j] ROUGE kan även användas om man har fler än en referenstext.

Exempel på utvärdering med ROUGE-2 Referenstext Möbeljätten Ikea planerar att bli dubbelt så stort år 2020. På åtta år innebär det att mellan 160 och 200 nya varuhus ska öppnas. Antal bigram: 22 Systemtext Möbeljätten Ikea ska bli dubbelt så stort år 2020. Tusentals människor kommer att behöva anställas. Antal bigram: 13 varav 6 gemensamma med referenstexten. Rouge-2 = 6/22 0,27