INFORMATIONSUTVINNING MARCO KUHLMANN Linköpings universitet
Informationsutvinning Informationsutvinning är uppgiften att extrahera strukturerad information från textdokument. Engelskt begrepp: Information Extraction (IE)
Exempel på informationsutvinning Three bombs have exploded in north-eastern Nigeria, killing 25 people and wounding 12 in an attack carried out by an Islamic sect. Authorities said the bombs exploded on Sunday afternoon in the city of Maiduguri. Attribut Värde Type Crisis Subtype Bombing Location Maiduguri Dead-Count 25 Injured-Count 12 Perpetrator Islamic sect Time 2011-06-26
Utvinning gentemot sökning dokumentdatabas IR dokument IE analytiker IR informationssökning IE informationsutvinning strukturerade fakta analytiker
Strukturerad information Begreppet strukturerad information syftar på namngivna entiteter med deras attribut Exempel: personer, företag, organisationer semantiska relationer mellan dessa entiteter Exempel: företag X köpte företag Y
Who did what to whom, where, and when? namngivna entiteter semantiska relationer
Informationsbehov Dokumentsökning Informationsbehovet kommuniceras genom en sökfråga; dokument kan vara relevanta utan att matcha sökfrågan exakt. Informationsutvinning Informationsbehovet kommuniceras genom en svarsmall; information som inte passar in i den mallen anses vara irrelevant.
Varför informationsutvinning? för att få direkt användbar analytisk information Exempel: business intelligence, opinion mining för att skapa eller utöka strukturerade kunskapsdatabaser Exempel: WordNet, DBPedia för att stödja frågebesvarande system
This New York University alumnus has won several Academy Awards. Sökfråga mot DBPedia (SPARQL-format) SELECT DISTINCT?x WHERE {?x dbpedia-owl:almamater dbres:new_york_university.?x dbpedia-owl:award dbres:academy_award. }
Ontologier: DBPedia Agent commonname Person almamater Organisation formationdate Actor award University alumni http://wiki.dbpedia.org/ontology
textdokument domänoberoende analys analys av metadata morfologisk analys meningssegmentering entitetsextraktion syntaktisk analys domänspecifik analys entitetsextraktion mönstermatchning relationsextraktion referensresolution informationsfusion strukturerade fakta
Denna föreläsning entitetsextraktion relationsextraktion referensresolution
Entitetsextraktion
Entitetsextraktion Entitetsextraktion är uppgiften att hitta och klassificera namngivna entiteter i löpande text. Engelskt begrepp: Named Entity Recognition (NER)
Namngivna entiteter Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.
Namngivna entiteter kan indexeras och länkas från ingår i semantiska relationer är vanliga svar i frågebesvarande system kan förknippas med attityder
Namngivna entiteter i DBPedia personer: Actor, Curler, FictionalCharacter organisationer: Band, Company, SportsTeam platser: Building, Mountain, Country datum och tider: Date, Year, HistoricalPeriod medicinska begrepp: Muscle, Enzyme, Disease
Tre metoder för entitetsextraktion namnlistor (gazetteers) hitta textmönster övervakad inlärning
Metoder för NER: Namnlistor Ale Alingsås Alvesta Aneby Arboga Arjeplogs Arvidsjaurs Arvika Askersunds Avesta Bengtsfors Bergs Bjurholms Bjuvs Bodens Bollebygds Bollnäs Borgholms Borlänge Borås Botkyrka Boxholms Bromölla Bräcke Burlövs Båstads Dals-Eds Danderyds Degerfors Dorotea Eda Ekerö Eksjö Emmaboda Enköpings 290 Eskilstuna Eslövs Essunga Fagersta Falkenbergs Falköpings Falu Filipstads Finspångs Flens Forshaga Färgelanda Gagnefs Gislaveds Gnesta Gnosjö Gotlands Grums Grästorps Gullspångs Gällivare Gävle Göteborgs Götene Habo Hagfors Hallsbergs Hallstahammars Halmstads Hammarö Haninge Haparanda Heby Hedemora Helsingborgs Herrljunga Hjo Hofors Huddinge Hudiksvalls Hultsfreds Hylte Håbo Hällefors Härjedalens Härnösands Härryda Hässleholms Höganäs Högsby Hörby Höörs Jokkmokks Järfälla Jönköpings Kalix Kalmar Karlsborgs Karlshamns Karlskoga Karlskrona Karlstads Katrineholms Kils Kinda Kiruna Klippans Knivsta Kramfors Kristianstads Kristinehamns Krokoms Kumla Kungsbacka Kungsörs Kungälvs Kävlinge Köpings Laholms Landskrona Laxå Lekebergs Leksands Lerums Lessebo Lidingö Lidköpings Lilla Edets Lindesbergs Linköpings Ljungby Ljusdals Ljusnarsbergs Lomma Ludvika Luleå Lunds Lycksele Lysekils Malmö Malung-Sälens Malå Mariestads Marks Markaryds Melleruds Mjölby Mora Motala Mullsjö Munkedals Munkfors Mölndals Mönsterås Mörbylånga Nacka Nora Norbergs Nordanstigs Nordmalings Norrköpings Norrtälje Norsjö Nybro Nykvarns Nyköpings Nynäshamns Nässjö Ockelbo Olofströms Orsa Orusts Osby Oskarshamns Ovanåkers Oxelösunds Pajala Partille Perstorps Piteå Ragunda Robertsfors Ronneby Rättviks Sala Salems Sandvikens Sigtuna Simrishamns Sjöbo Skara Skellefteå Skinnskattebergs Skurups Skövde Smedjebackens Sollefteå Sollentuna Solna Sorsele Sotenäs Staffanstorps Stenungsunds Stockholms Storfors Storumans Strängnäs Strömstads Strömsunds Sundbybergs Sundsvalls Sunne Surahammars Svalövs Svedala Svenljunga Säffle Säters Sävsjö Söderhamns Söderköpings Södertälje Sölvesborgs Tanums Tibro Tidaholms Tierps Timrå Tingsryds Tjörns Tomelilla Torsby Torsås Tranemo Tranås Trelleborgs Trollhättans Trosa Tyresö Täby Töreboda Uddevalla Ulricehamns Umeå Upplands Väsby Upplands-Bro Uppsala Uppvidinge Vadstena Vaggeryds Valdemarsviks Vallentuna Vansbro Vara Varbergs Vaxholms Vellinge Vetlanda Vilhelmina Vimmerby Vindelns Vingåkers Vårgårda Vänersborgs Vännäs Värmdö Värnamo Västerviks Västerås Växjö Ydre Ystads Åmåls Ånge Åre Årjängs Åsele Åstorps Åtvidabergs Älmhults Älvdalens Älvkarleby Älvsbyns Ängelholms Öckerö Ödeshögs Örebro Örkelljunga Örnsköldsviks Östersunds Österåkers Östhammars Östra Göinge Överkalix Övertorneå
Namnformer i polskan Kasus Nominativ Genitiv Dativ Akkusativ Instrumental Lokativ Vokativ Form Muammar Kaddafi Muammara Kaddafiego Muammarowi Kaddafiemu Muammara Kaddafiego Muammarem Kaddafim Muammarze Kaddafim Muammarze Kaddafi
Metoder för NER: Textmönster Namngivna entiteter kan extraheras genom att skriva reguljära uttryck som matchar typiska textmönster med dessa entiteter. Exempel: Xs kommun, City of X, Professor X, X AB, X Inc.
Metoder för NER: Övervakad inlärning välj en representativ datamängd markera alla namngivna entiteter i datamängden dela upp i träningsdata, utvecklingsdata, testdata träna en klassificerare
Entitetsextraktion som taggning BIO-kodning token Koncernchef Torben Ladegaard förklarade beslutet om Höganäs tagg O B PER I PER O O O B ORG
Sekvensmodell för taggning token som ska taggas Koncernchef Torben Ladegaard förklarade beslutet O B PERS feature-fönster
Features för klassificering ordrelaterad: token, lemma, ordklass ortografisk form: gemener, versaler, innehåller namnlistor: med i listan? typiska token: vd, Docent, Kung bag-of-words: ord, n-gram i feature-fönstret
Utvärdering av entitetsextraktion relevanta entiteter R F funna entiteter R F R F precision = täckning = F R
Utvärdering av entitetsextraktion token Koncernchef Torben tagg O B PER Ladegaard förklarade beslutet om I PER O O O 1 entitet, 2 taggar Höganäs B ORG
Problem med utvärderingen guldstandard system 1 First B ORG O 2 Bank I ORG B ORG 3 of I ORG I ORG 4 Chiacgo I ORG I ORG ORG 1 3 5 announced O O ORG 2 4 O O Systemet får 2 fel, både vid precision och täckning.
Sammanfattning: Entitetsextraktion Entitetsextraktion är uppgiften att hitta och klassificera namngivna entiteter i löpande text. Metoder för entitetsextraktion namnlistor, mönster, övervakad inlärning (NER som taggning) Utvärdering av NER-system precision och täckning; problem med överlappande namn
Relationsextraktion
Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Engelskt begrepp: Relation Extraction (RE)
Who did what to whom, where, and when? namngivna entiteter semantiska relationer
Exempel Citing high fuel prices, [ ORG United Airlines] said [ TIME Friday] it has increased fares by [ MONEY $6] per round trip on flights to some cities also served by lower-cost carriers. [ ORG American Airlines], a unit of [ ORG AMR Corp.], immediately matched the move, spokesman [ PER Tim Wagner] said. is spokesman for
Unified Medical Language 135 semantiska typer, 54 relationer Injury disrupts Physiologic Function Bodily Location location-of Biologic Function Anatomical Structure part-of Organism Pharmacologic Substance causes Pathologic Function Pharmacologic Substance treats Pathologic Function
Tre metoder för relationsextraktion hitta textmönster övervakad inlärning semi-övervakad inlärning
Metoder för RE: Textmönster Relationer kan extraheras med hjälp av reguljära uttryck: August Strindberg, född 22 januari 1849 i Stockholm (\w+), född.* ([0 9]{4}) \1 was-born-year \2 August Strindberg (1849 1912) (\w+) \(([0 9]{4}) [0 9]{4}\) \1 was-born-year \2
Textmönster för X är-en Y mönster exempel X and other Y temples, treasuries, and other civic buildings. X or other Y Bruises, wounds, broken bones or other injuries Y such as X The bow lute, such as the Bambara ndang Such Y as X such authors as Herrick, Goldsmith, and Shakespeare. Y including X common-law countries, including Canada. Y, especially X European countries, especially France and Spain,
Fördelar och nackdelar med textmönster + kan ha hög precision + kan skräddarsys för specifika domäner brukar ha låg recall kostsamma om det finns många relationer
Metoder för RE: Övervakad inlärning välj en representativ datamängd markera alla namngivna entiteter i datamängden markera alla relationer mellan dem dela upp i träningsdata, utvecklingsdata, testdata träna en klassificerare
Relationsextraktion som två delproblem Man kan dela upp relationsextraktion i två delproblem: Relationspredicering För varje par av entiteter, predicera om en relation råder (+) eller inte råder ( ) mellan dem. Relationsklassificering För varje predicerad relation, klassificera relationens typ.
Features för relationsextraktion ([ ORG American Airlines], [ PER Tim Wagner]) typer: ORG, PER, ORG+PER between bag-of-words: {a, unit,, spokesman} syntax: dependensrelationer (subjekt, objekt)
Övervakad inlärning + Klassificerare tränade på stora datamängder kan få hög korrekthet. Att producera träningsdata är kostsamt. Klassificerare tränade på en viss datamängd fungerar inte bra på helt andra datamängder.
Metoder för RE: Semi-övervakad inlärning För att träna en klassificerare för relationen PER died YEAR: Börja med en mängd instanser, t.ex. {(Strindberg, 1849)}. Gör en dokumentsökning med instanserna som sökfrågor. Extrahera särdrag ur de funna dokumenten. Träna en klassificerare på de extraherade särdragen. Använd den för att hitta nya instanser, och börja om igen.
Utvärdering Övervakad inlärning Räkna ut precision och täckning genom att jämföra med guldstandarden. Semi-övervakad inlärning Här finns det ingen guldstandard; då måste man ta ett stickprov och annotera för hand.
Sammanfattning: Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Metoder för relationsextraktion textmönster, övervakad och semi-övervakad inlärning Utvärdering av RE-system precision och täckning; problem med semi-övervakad inlärning
Referensresolution
Referensresolution Referensresolution är uppgiften att identifiera upprepade förekomster av en och samma namngivna entitet i en text. Engelskt begrepp: Coreference resolution (CO)
Referens och koreferens Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.
Referens och koreferens Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.
Terminologi Fraser kan referera till något i eller utanför texten. Exempel: Höganäs, han, den danskägda koncernen Fraser som refererar till samma sak sägs koreferera. Exempel: koncernchef Torben Ladegaard, Ladegaard, han Med anaforisk referens menas referens till något som tidigare nämnts i texten, kallat antecedent.
Indefinita nominalfraser Jag såg en spännande film i helgen. Indefinita nominalfraser introducerar nya diskursentiteter. kan syfta på både specifika och ospecifika objekt Exempel: Jag ska gå på bio för att se på en film.
Definita nominalfraser Jag såg en film i helgen. Den filmen var inte särskilt spännande. Definita nominalfraser refererar till redan kända entiteter. De kan även referera till entiteter utanför texten. Exempel: Jag såg den filmen på bion på Ågatan.
Pronomen Klara träffade en kompis i helgen. Hon hade inte sett henne på länge. Pronomen refererar till redan kända diskursentiteter. Pronomens referent måste vara prominent i diskursen. Exempel: Klara träffade en kompis i helgen. De gick till Linds. Det var ganska fullt där. Klara bjöd henne på semla.
Strikta regler och preferenser Pronomen och antecedenten måste ha samma numerus. Exempel: Jag träffade en kompis. Hon är jättetrevlig. Entiteter som introducerades längre tillbaka i texten är mindre sannolika att fungera som antecedenter.
Informationsutvinning Informationsutvinning är uppgiften att extrahera strukturerad information från textdokument. Engelskt begrepp: Information Extraction (IE)
textdokument domänoberoende analys analys av metadata morfologisk analys meningssegmentering entitetsextraktion syntaktisk analys domänspecifik analys entitetsextraktion mönstermatchning relationsextraktion referensresolution informationsfusion strukturerade fakta