TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap

Syntax pragmatik semantik analys generering syntax morfologi

Syntaktisk parsning Syntaktisk parsning är uppgiften att förse en mening med en beskrivning av dess syntaktiska struktur. Syntaktisk parsning kan även kallas automatisk satslösning.

Frasstrukturträd och dependensträd S NP VP subj obj Lotta V NP Lotta lånar cykeln lånar cykeln helhet del huvud dependent

Struktur Kontextfria grammatiker Probabilistiska kontextfria grammatiker Extramaterial: CKY-algoritmen Transitionsbaserad dependensparsning

Kontextfria grammatiker

Fraser Ordgrupper kan ibland fungera som enskilda ord. Statsministern. En stad av samma storlek som Linköping. Elin i Hagen. Hon och var och en av oss. Sådana ordgrupper kallas fraser.

Exempel på fraser nominalfraser (NP) hon. Stefan Löfvén. ett sådant klassiskt ställe som Operakällaren. verbfraser (VP) rodnade. bad henne att sätta sig hos honom. levde lyckliga i alla sina dagar. prepositionsfraser (PP) på bordet. bortom all kontroll. med viss självständighet.

Frasstrukturgrammatik Fraser kan sättas ihop för att bilda större fraser. Detta ger upphov till en hierarkisk struktur som kan beskrivas med hjälp av en frasstrukturgrammatik.

Kontextfri grammatik (CFG) Kontextfri grammatik är en specifik formalism för att beskriva den syntaktiska strukturen hos naturliga språk i termer av hierarkiska fraser. även programspråk En kontextfri grammatik består i huvudsak av ett antal regler som beskriver hur fraser kan delas upp i mindre fraser, ända ner till ordnivån. Noam Chomsky Källa: Wikipedia

En kontextfri grammatik Regel S NP VP NP Pronoun NP Proper-Noun NP Det Nominal Nominal Nominal Noun Nominal Noun VP Verb VP Verb NP VP Verb NP PP VP Verb PP PP Preposition NP Exempel I + want a morning flight I Los Angeles a flight morning flight flights do want + a flight leave + Boston + in the morning leaving + on Thursday from + Los Angeles

Ingredienser i en kontextfri grammatik N T P S en mängd av frassymboler (eng. nonterminals) en mängd av ord (eng. terminals) en mängd av produktioner eller regler en speciell frassymbol; grammatikens startsymbol

Notation för regler vänsterled S NP VP högerled En mening (S) består av en nominalfras (NP) och en verbfras (VP).

Frasstrukturträd S NP VP Pro Verb NP I prefer Det Nom a Nom Noun Noun flight morning

Begränsningar av kontextfria grammatiker Kontextfria grammatiker kan modellera många intressanta aspekter hos naturliga språk. språklig kreativitet, inbäddade strukturer Men det finns andra aspekter som de inte är så bra på eller inte kan modellera alls. kongruensböjning, korsande dependenser

Kongruensböjning På engelska måste ett subjekt ha samma numerus som det verb det är kopplat till. *[A flight] [leave Boston in the morning]. Reglerna från vår exempelgrammatik fångar inte in detta. Man säger att grammatiken övergenererar.

Kongruensböjning Ett sätt att lösa problemet är att specialisera reglerna med morfologiska särdrag: Regel S NP[sg] VP[sg] NP[sg] Det[sg] Nom[sg] VP[sg] Verb[sg] PP NP[pl] Det[pl] NP[pl] Exempel this flight + leaves on Monday this + flight leaves + on Monday these + flights Detta gör dock att grammatiken blir väldigt stor.

Chomsky-hierarkin rekursivt uppräkningsbara språk kontextkänsliga språk kontextfria språk reguljära språk

Probabilistiska kontextfria grammatiker

Flertydighet I booked a flight from L.A. Denna mening är flertydig. På vilket sätt? Hur yttrar sig flertydigheten med avseende på grammatiken? Varför är flertydighet ett problem?

Analys 1: PP modifierar verbets objekt S NP VP Pro Verb NP I booked Det Nom a Nom PP Noun from LA flight

Analys 2: PP modifierar verbet S NP VP Pro Verb NP PP I booked Det Nom from LA a Noun flight

Kombinatorisk explosion 800 600 400 exponentiell kubisk linjär 200 0 0 1 2 3 4 5 6

Probabilistiska grammatiker Antalet möjliga parseträd växer snabbt med meningarnas längd. Men inte alla parseträd är lika relevanta. I booked a flight from L.A. I många tillämpningar vill man ha det mest sannolika parseträdet eller de mest sannolika parseträden.

Probabilistiska kontextfria grammatiker En probabilistisk kontextfri grammatik (PCFG) är en kontextfri grammatik där varje regel r har tilldelats en sannolikhet P(r) och den totala sannolikheten för regler med samma vänsterled är 1.

Probabilistisk kontextfri grammatik Regel Sannolikhet S NP VP 1/1 NP Pronoun 1/3 NP Proper-Noun 1/3 NP Det Nominal 1/3 Nominal Nominal PP 1/3 Nominal Noun 2/3 VP Verb NP 8/9 VP Verb NP PP 1/9 PP Preposition NP 1/1

Ett parseträds sannolikhet Sannolikheten för ett parseträd t är definierad som produkten av sannolikheterna för de regler r som förekommer i parseträdet:

Ett parseträds sannolikhet S 1/1 NP 1/3 VP 8/9 Pro Verb NP 1/3 I booked Det Nom 1/3 a Nom 2/3 PP Noun from LA detta träds sannolikhet: 0,0219 flight

Ett parseträds sannolikhet S 1/1 NP 1/3 VP 1/9 Pro Verb NP 1/3 PP I booked Det Nom 2/3 from LA a Noun flight detta träds sannolikhet: 0,0082

CKY-algoritmen Vi behöver en effektiv algoritm som kan ta fram det mest sannolika parseträdet. effektiv = exekveringstiden växer högst polynomiskt med meningens längd Denna algoritm heter Cocke Kasami Younger-algoritmen. Algoritmen är en generalisering av Viterbi-algoritmen för ordklasstaggning med HMM:er.

Jämförelse mellan Viterbi och CKY algoritm problem delproblem tabell Viterbi hitta den mest sannolika taggsekvensen för en given mening hitta mest sannolika taggsekvenser för delar av den givna meningen ordposition, föregående ordets tagg CKY hitta det mest sannolika parseträdet för en given mening hitta mest sannolika parseträd för delar av den givna meningen två ordpositioner, delmeningens frastyp

Datadrivna grammatiker Inom datorlingvistiken har man utvecklat stora grammatiker med tusentals handskrivna regler. Dessa grammatiker är mycket värdefulla eftersom de bygger på stor lingvistisk kunskap. Ett problem med dem är att de inte är robusta: Det finns alltid meningar som de inte kan hantera.

Trädbanker De flesta moderna syntaktiska parsrarna tränas med hjälp av redan parsade (uppmärkta) meningar. Sådana korpusar med syntaktiska analyser kallas trädbanker. Trädbanker innehåller ofta även annan lingvistik information, som t.ex. morfologiska särdrag och ordklasser.

Penn Treebank ( (S (NP-SBJ (NP (NNP Pierre) (NNP Vinken) ) (,,) (ADJP (NP (CD 61) (NNS years) ) (JJ old) ) (,,) ) (VP (MD will) (VP (VB join) (NP (DT the) (NN board) ) (PP-CLR (IN as) (NP (DT a) (JJ nonexecutive) (NN director) )) (NP-TMP (NNP Nov.) (CD 29) ))) (..) ))

Trädbankgrammatiker Från en frasstrukturträdbank kan vi bygga en grammatik genom att läsa av regler från träden: Grammatikregel Täcker denna del av meningen S NP-SBJ VP. Pierre Vinken Nov. 29. NP-SBJ NP, ADJP, VP MD VP NP DT NN Pierre Vinken, 61 years old, will join the board the board

Skattning av regelsannolikheter Regelsannolikheterna i en PCFG kan skattas med Maximum Likelihood-metoden. Skattningen sker med avseende på antalet förekomster av alla regler med samma vänsterled. alla S-regler, NP-regler, VP-regler,

Övningsuppgift: Skatta sannolikheterna!

Trädbanksgrammatiker Trädbanksgrammatiker är flata. Annotatorer tenderar att undvika djupt inbäddade strukturer. Trädbanksgrammatiker är stora. En standardgrammatik extraherad från PTB har ca. 30 000 regler.

Exempel på trädbanker Penn Treebank Project (University of Pennsylvania) http://www.cis.upenn.edu/~treebank/ Swedish Treebank (Uppsala universitet) http://stp.lingfil.uu.se/~nivre/swedish_treebank/

Extramaterial: CKY-algoritmen

CKY-algoritmen Vi är givna en probabilistisk kontextfri grammatik G och en ordsekvens w = w 1 w n. endast regler på formen A a (unär) och A B C (binär) Vi behöver en effektiv algoritm som kan beräkna det mest sannolika parseträdet för w. Här betyder effektiv att exekveringstiden växer endast polynomiskt (inte exponentiellt) med n (antalet ord). Denna algoritm heter Cocke Kasami Younger-algoritmen.

Dynamisk programmering CKY-algoritmen bygger på dynamisk programmering: Idé 1: Lösa ett komplext problem genom att kombinera lösningar för enklare delproblem ( divide and conquer ). Idé 2: Spara lösningarna för alla delproblem så att man aldrig behöver lösa samma delproblem två gånger. jmf. tabellen i Viterbi-algoritmen

Delproblem Vad är det mest sannolika parseträdet som täcker alla ord mellan position i och position j och vars rotnod är etiketterad med A? A i j

Olika träd, samma typ av delproblem S S NP VP Pro Verb NP 1 6 I booked Det Nom a Nom PP Noun from LA flight 1 2 3 4 5 6

Olika träd, samma typ av delproblem S S NP VP Pro Verb NP PP 1 6 I booked Det Nom from LA a Noun flight 1 2 3 4 5 6

Frågor Hur många olika delproblem finns totalt? Vad betyder detta för algoritmens minneskrav? Vad är de enklaste delproblemen? Vilket delproblem måste vi lösa för att hitta det mest sannolika parseträdet för hela ordsekvensen?

Kombinera dellösningar på alla möjliga sätt regelsannolikheten A det mest sannolika parseträdet för vänstra delen B C det mest sannolika parseträdet för högra delen i k j

Jämförelse mellan Viterbi och CKY algoritm problem delproblem tabell Viterbi hitta den mest sannolika taggsekvensen för en given mening hitta mest sannolika taggsekvenser för delar av den givna meningen ordposition, föregående ordets tagg CKY hitta det mest sannolika parseträdet för en given mening hitta mest sannolika parseträd för delar av den givna meningen två ordpositioner, delmeningens frastyp

Frasstrukturträd och dependensträd S NP VP subj obj Lotta V NP Lotta lånar cykeln lånar cykeln helhet del huvud dependent

Transitionsbaserad dependensparsning

Giriga parsrar CKY-algoritmen hittar det mest sannolika parseträdet, men parsningstiden växer kubiskt med meningslängden. Detta är fortfarande för långsamt i många praktiska sammanhang. parsa webben Idé: Hitta en enklare algoritm som inte alltid hittar det mest sannolika parseträdet men är snabb. The Unreasonable Effectiveness of Data

Dependensträd obj subj det pmod pobj I booked a flight from L.A. huvud dependent

Ordklasstaggning som klassifikation Ordklasstaggning kan brytas ned till en sekvens av klassifikationsproblem: en klassifikation per ord. Utifrån denna idé kan vilken klassifikationsmetod som helst byggas om till en metod för ordklasstaggning. här: perceptron

Dependensparsning som klassifikation Även dependensparsning kan brytas ned till en sekvens av klassifikationsproblem. Istället för ord så predicerar klassificeraren transitioner, kommandon som förändrar parserns tillstånd. ingen underliggande grammatik Parserns tillstånd kallas även för konfigurationer.

Transitionsbaserad dependensparsning Parsern börjar i den initiala konfigurationen. Parsern frågar klassificeraren om vilken transition den ska utföra näst och utför den predicerade transitionen. Processen avslutas när parsern kommer till en terminal konfiguration.

Konfigurationer En konfiguration består av tre delar: En stack som innehåller de ord i meningen som håller på att processas. I utgångsläget är stacken tom. En buffert som innehåller de ord som fortfarande behöver processas. I utgångsläget innehåller bufferten alla ord. En mängd av bågar som representerar ett delvist uppbyggt dependensträd. I utgångsläget är denna mängd tom.

Transitioner Transitionen shift (SH) tar bort det fösta ordet från bufferten och lägger det på toppen av stacken. Transitionen left-arc (LA) skapar en båge från det översta ordet på stacken till det nästöversta ordet och tar bort detta ord. Transitionen right-arc (RA) skapar en båge från det nästöversta ordet på stacken till det översta ordet och tar bort detta ord.

Transition: Shift I booked a flight from L.A. I booked a flight from L.A. stack buffert Ordet I tas bort från bufferten och läggs på stacken.

Transition: Left-Arc I booked a flight from L.A. I booked a flight from L.A. stack buffert En ny båge booked I skapas. Ordet I tas bort från stacken.

Transition: Left-Arc I booked a flight from L.A. booked a flight from L.A. stack buffert En ny båge booked I skapas. Ordet I tas bort från stacken.

Transition: Right-Arc I booked a flight from L.A. booked flight from L.A. stack buffert En ny båge from L.A. skapas. Ordet L.A. tas bort från stacken.

Transition: Right-Arc I booked a flight from L.A. booked flight from stack buffert En ny båge from L.A. skapas. Ordet L.A. tas bort från stacken.

Transitionsbaserad dependensparsning Parsern börjar i den initiala konfigurationen. tom stack, alla ord i bufferten Parsern frågar klassificeraren om vilken transition den ska utföra näst och utför den predicerade transitionen. shift, left-arc, right-arc Processen avslutas när parsern kommer till en terminal konfiguration. tom buffert, endast ett ord på stacken

Transitionsbaserad parsning: Exempel I booked a flight from L.A. I booked a flight from L.A. stack buffert shift initial konfiguration klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. I booked a flight from L.A. stack buffert shift klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. I booked a flight from L.A. stack buffert left-arc klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked a flight from L.A. stack buffert shift klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked a flight from L.A. stack buffert left-arc klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked flight from L.A. stack buffert shift klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked flight from L.A. stack buffert right-arc klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked flight from stack buffert right-arc klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked flight stack buffert right-arc klassificeraren

Transitionsbaserad parsning: Exempel I booked a flight from L.A. booked stack buffert terminal konfiguration klassificeraren

Särdragsfönstret Särdrag kan definieras över de nästa orden i meningen (bufferten) de översta orden i stacken det partiellt uppbyggda dependensträdet

Särdragsfönster: Exempel I booked a flight from L.A. I booked a flight from L.A. stack buffert Är booked ett verb? Kan I agera som subjekt? Har booked redan ett subjekt?

Träna transitionsbaserade dependensparsrar Precis som det finns trädbanker med frasstrukturträd finns det även trädbanker med dependensträd. För att träna klassificeraren behöver vi dock meningar annoterade med deras korrekta transitionssekvenser. Dessa transitionssekvenser kan läsas av från dependensträden med en enkel algoritm. variant på djupet-först-sökning

Sammanfattning: Syntaktisk analys Syntaktisk parsning är uppgiften att förse en mening med en beskrivning av dess syntaktiska struktur. frasstruktur, dependensstruktur Viktiga begrepp fraser, kontextfri grammatik, probabilistisk kontextfri grammatik, trädbank, transitionsbaserad dependensparsning Läsanvisningar Jurafsky och Martin, 12.1 12.5, 14.1; extramaterial (per mejl)

Tillämpning: Informationsextraktion

Informationsextraktion Informationsextraktion eller informationsutvinning är uppgiften att extrahera strukturerad information från textdokument. Engelskt begrepp: Information Extraction (IE)

Informationsextraktion As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribut Värde docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types location Hawaii Källa: Grishman et al. (2002)

Informationsextraktion ostrukterade data (text) analytiker informationsextraktion strukturerade data (kunskapsdatabas) analytiker

Strukturerad information Begreppet strukturerad information syftar på namngivna entiteter och deras attribut personer, företag, organisationer semantiska relationer mellan dessa entiteter företag X köpte företag Y

Who did what to whom, where, and when? namngivna entiteter semantiska relationer

Varför informationsextraktion? för att få direkt användbar analytisk information business intelligence, opinion mining för att skapa eller utöka strukturerade kunskapsdatabaser WordNet, DBPedia för att stödja frågebesvarande system

This Stanford University alumnus co-founded educational technology company Coursera. Sökfråga mot DBPedia (SPARQL-format) SELECT DISTINCT?x WHERE {?x dbpedia-owl:almamater dbres:stanford_university. dbres:coursera dbpedia-owl:founder?x. } Image courtesy of the John D. and Catherine T. MacArthur Foundation

Ontologier: DBPedia Agent commonname Person almamater Organisation formationdate Professor doctoraladvisor University alumni http://wiki.dbpedia.org/ontology

Denna föreläsning entitetsextraktion relationsextraktion

Entitetsextraktion

Entitetsextraktion Entitetsextraktion är uppgiften att hitta och klassificera namngivna entiteter i löpande text. Engelskt begrepp: Named Entity Recognition (NER)

Namngivna entiteter Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.

Namngivna entiteter kan indexeras och länkas från ingår i semantiska relationer är vanliga svar i frågebesvarande system kan förknippas med attityder

Namngivna entiteter i DBPedia Personer: Actor, Curler, FictionalCharacter Organisationer: Band, Company, SportsTeam Platser: Building, Mountain, Country Datum och tider: Date, Year, HistoricalPeriod Medicinska begrepp: Muscle, Enzyme, Disease

Tre metoder för entitetsextraktion Metod 1: Namnlistor (gazetteers) Metod 2: Reguljära uttryck Metod 3: Taggning med BIO-taggar

Namnlistor (gazetteers) Ale Alingsås Alvesta Aneby Arboga Arjeplogs Arvidsjaurs Arvika Askersunds Avesta Bengtsfors Bergs Bjurholms Bjuvs Bodens Bollebygds Bollnäs 290 Borgholms Borlänge Borås Botkyrka Boxholms Bromölla Bräcke Burlövs Båstads Dals-Eds Danderyds Degerfors Dorotea Eda Ekerö Eksjö Emmaboda Enköpings Eskilstuna Eslövs Essunga Fagersta Falkenbergs Falköpings Falu Filipstads Finspångs Flens Forshaga Färgelanda Gagnefs Gislaveds Gnesta Gnosjö Gotlands Grums Grästorps Gullspångs Gällivare Gävle Göteborgs Götene Habo Hagfors Hallsbergs Hallstahammars Halmstads Hammarö Haninge Haparanda Heby Hedemora Helsingborgs Herrljunga Hjo Hofors Huddinge Hudiksvalls Hultsfreds Hylte Håbo Hällefors Härjedalens Härnösands Härryda Hässleholms Höganäs Högsby Hörby Höörs Jokkmokks Järfälla Jönköpings Kalix Kalmar Karlsborgs Karlshamns Karlskoga Karlskrona Karlstads Katrineholms Kils Kinda Kiruna Klippans Knivsta Kramfors Kristianstads Kristinehamns Krokoms Kumla Kungsbacka Kungsörs Kungälvs Kävlinge Köpings Laholms Landskrona Laxå Lekebergs Leksands Lerums Lessebo Lidingö Lidköpings Lilla Edets Lindesbergs Linköpings Ljungby Ljusdals Ljusnarsbergs Lomma Ludvika Luleå Lunds Lycksele Lysekils Malmö Malung-Sälens Malå Mariestads Marks Markaryds Melleruds Mjölby Mora Motala Mullsjö Munkedals Munkfors Mölndals Mönsterås Mörbylånga Nacka Nora Norbergs Nordanstigs Nordmalings Norrköpings Norrtälje Norsjö Nybro Nykvarns Nyköpings Nynäshamns Nässjö Ockelbo Olofströms Orsa Orusts Osby Oskarshamns Ovanåkers Oxelösunds Pajala Partille Perstorps Piteå Ragunda Robertsfors Ronneby Rättviks Sala Salems Sandvikens Sigtuna Simrishamns Sjöbo Skara Skellefteå Skinnskattebergs Skurups Skövde Smedjebackens Sollefteå Sollentuna Solna Sorsele Sotenäs Staffanstorps Stenungsunds Stockholms Storfors Storumans Strängnäs Strömstads Strömsunds Sundbybergs Sundsvalls Sunne Surahammars Svalövs Svedala Svenljunga Säffle Säters Sävsjö Söderhamns Söderköpings Södertälje Sölvesborgs Tanums Tibro Tidaholms Tierps Timrå Tingsryds Tjörns Tomelilla Torsby Torsås Tranemo Tranås Trelleborgs Trollhättans Trosa Tyresö Täby Töreboda Uddevalla Ulricehamns Umeå Upplands Väsby Upplands-Bro Uppsala Uppvidinge Vadstena Vaggeryds Valdemarsviks Vallentuna Vansbro Vara Varbergs Vaxholms Vellinge Vetlanda Vilhelmina Vimmerby Vindelns Vingåkers Vårgårda Vänersborgs Vännäs Värmdö Värnamo Västerviks Västerås Växjö Ydre Ystads Åmåls Ånge Åre Årjängs Åsele Åstorps Åtvidabergs Älmhults Älvdalens Älvkarleby Älvsbyns Ängelholms Öckerö Ödeshögs Örebro Örkelljunga Örnsköldsviks Östersunds Österåkers Östhammars Östra Göinge Överkalix Övertorneå

Namnformer i polskan Kasus Nominative Genitive Dative Accusative Instrumental Locative Vocative Form Muammar Kaddafi Muammara Kaddafiego Muammarowi Kaddafiemu Muammara Kaddafiego Muammarem Kaddafim Muammarze Kaddafim Muammarze Kaddafi

Entitetsextraktion med reguljära uttryck Namngivna entiteter kan extraheras genom att skriva reguljära uttryck som matchar typiska textmönster med dessa entiteter. Xs kommun, City of X, Professor X, X AB, X Inc.

Taggning med BIO-taggar Formulera entitetsextraktion som ett taggningsproblem. BIO-taggarna: B början på, I ord inuti, O inte del av en entitet B vanligtvis specialiserad: B-PER, B-LOC, etc. Förutsatt att man har lämpliga träningsdata kan problemet lösas med samma tekniker som ordklasstaggning.

Entitetsextraktion som taggning löpord Koncernchef Torben Ladegaard förklarade beslutet om Höganäs tagg O B-PER I O O O B-LOC

Sekvensmodell för taggning token som ska taggas Koncernchef Torben Ladegaard förklarade beslutet O B-PER I särdragsfönster

Särdrag för klassificering ordrelaterad: löpord, lemma, ordklass ortografisk form: gemener, versaler, innehåller namnlistor: med i listan? typiska token: vd, Docent, Kung bag-of-words: ord i särdragsfönstret

Problem vid utvärdering av BIO-taggarna löpord Koncernchef Torben Ladegaard förklarade beslutet om Höganäs tagg O B-PER I O O O B-LOC 1 entitet, 2 taggar

Problem vid utvärdering av entitetsextraktion guldstandard system 1 First B-ORG O 2 Bank I B-ORG 3 of I I 4 Chicago I I ORG 1 4 5 announced O O ORG 2 4 Två fel: ett med avseende på recall, ett med avseende på precision

Relationsextraktion

Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Engelskt begrepp: Relation Extraction (RE)

Who did what to whom, where, and when? namngivna entiteter semantiska relationer

Exempel på semantiska relationer Citing high fuel prices, [ ORG United Airlines] said [ TIME Friday] it has increased fares by [ MONEY $6] per round trip on flights to some cities also served by lower-cost carriers. [ ORG American Airlines], a unit of [ ORG AMR Corp.], immediately matched the move, spokesman [ PER Tim Wagner] said. is spokesman for

Unified Medical Language 135 semantiska typer, 54 relationer Injury disrupts Physiologic Function Bodily Location location-of Biologic Function Anatomical Structure part-of Organism Pharmacologic Substance causes Pathologic Function Pharmacologic Substance treats Pathologic Function

Metoder för relationsextraktion Metod 1: Metod 2: Reguljära uttryck Övervakad maskininlärning (klassificering)

Relationsextraktion med reguljära uttryck Relationer kan extraheras med hjälp av reguljära uttryck: August Strindberg, född 22 januari 1849 i Stockholm (\w+), född.* ([0 9]{4}) \1 was-born-year \2 August Strindberg (1849 1912) (\w+) $([0 9]{4}) [0 9]{4}$ \1 was-born-year \2

Textmönster för X är-en Y Mönster Exempel X and other Y temples, treasuries, and other civic buildings. X or other Y Bruises, wounds, broken bones or other injuries Y such as X The bow lute, such as the Bambara ndang Such Y as X such authors as Herrick, Goldsmith, and Shakespeare. Y including X common-law countries, including Canada. Y, especially X European countries, especially France and Spain,

Fördelar och nackdelar med textmönster Fördelar: kan ha hög precision kan skräddarsys för specifika domäner Nackdelar: brukar ha låg recall kostsamma om det finns många relationer

Relationsextraktion som klassificering Relationsextraktion kan ses som ett klassifikationsproblem: För varje par av entiteter, predicera den semantiska relationen som råder mellan dem, eller predicera att de är orelaterade. Förutsatt att man har lämpliga data kan klassifikationsproblemet lösas med hjälp av övervakad maskininlärning.

Relationsextraktion som två delproblem Man kan dela upp relationsextraktion i två delproblem: Relationspredicering För varje par av entiteter, predicera om en relation råder (+) eller inte råder ( ) mellan dem. Relationsklassificering För varje predicerad relation, klassificera relationens typ.

Särdrag för relationsextraktion ([ ORG American Airlines], [ PER Tim Wagner]) typer av namngivna entiteter: ORG, PER, ORG+PER orden mellan entiteterna: {a, unit,, spokesman} syntaktisk information: dependensrelationer (subjekt, objekt)

Övervakad inlärning Klassificerare tränade på stora datamängder kan få hög korrekthet. Att producera träningsdata är kostsamt. Klassificerare tränade på en viss datamängd fungerar inte nödvändigtvis bra på helt andra datamängder.

Sammanfattning: Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Metoder för relationsextraktion textmönster, övervakad inlärning Utvärdering av RE-system precision och täckning

Sammanfattning: Informationsextraktion Informationsextraktion är uppgiften att extrahera strukturerad information från textdokument. Viktiga begrepp namngivna entiteter, BIO-taggar, semantiska relationer, referens, koreferens Läsanvisningar Jurafsky och Martin, 22 22.2, 21.3 21.5