INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Relevanta dokument
Sveriges bästa naturvårdskommun

Sveriges bästa naturvårdskommun

Kulturskoleverksamhet

Deltagande kommuner per 28 maj (233 st)

, Dnr 2018: Beslutsbilaga 1 sid. 1 (5) Erbjudna platser jan-dec

Förteckning över fördelning av statsbidrag för hjälp med läxor eller annat skolarbete 2016 per kommun

Wäxthuset HVB har Ramavtal med; Hela Kriminalvården och Frivården

Sammanställning över tilldelade platser för bussförarutbildning

Samverkande kommuner Lärcentrum 2018

När ska småhusägarna snöröja trottoarerna utmed sina tomtgränser? (Efter avslutat snöfall)

Statsbidrag för kostnader för samordnare av frågor som rör utveckling av verksamhet för nyanlända elever för höstterminen 2016

Andel behöriga lärare

Ersättning i maj 2011 för stödinsatser till barn, enligt 11 a förordning (2002:1118) om statlig ersättning för asylsökande m.fl. Kommun Belopp Antal

Statsbidrag för personer som har en tidsbegränsad anställning inom äldreomsorgen eller hälso- och sjukvården

Placering Poäng Kommun Län 1 43 Huddinge kommun Stockholms län 2 39,5 Helsingborgs stad Skåne län 2 39,5 Lomma kommun Skåne län 4 34 Bromölla kommun

Har er kommun något idrottspolitiskt program och/eller någon idrottspolicy (egen eller del av annan policy)?

ORGNR HUVUDMANNENS NAMN BIDRAGSRAM

Kommunkod Kommun Andel Anställda % 0114 UPPLANDS VÄSBY KOMMUN 16% 0115 VALLENTUNA KOMMUN 28% 0117 ÖSTERÅKERS KOMMUN 32% 0120 VÄRMDÖ KOMMUN 31% 0123

Statsbidrag om målnivå uppnås 31 dec Målnivå 31 dec 2018

Blekinge län , , ,5 Karlshamn Karlskrona Ronneby Sölvesborg Dalarnas län

Beviljade medel ansökan 2 yrkesvux + sfi och sva

Fördelning av statsbidrag för 2013 till kommuner för kompetensutveckling inom den sociala barn- och ungdomsvården

10 eller fler olika läkemedel på recept olämpliga läkemedel

Statsbidrag till kommuner för ökat bostadsbyggande

(8) Karriärtjänster Begäran om utbetalning /19 ORGANISATIONS- NUMMER MEDEL ATT BEGÄRA UT BESLUTAT BELOPP HUVUDMANNENS NAMN

Kostnadsutjämning 2003 jämfört med 2002, kronor per invånare Bilaga bil3/HB 1 (9)

Bästa Förskolekommun 2015

Rekvirerade medel Lärarlönelyftet hösten 2016 ORGANISATIONS- NUMMER. BEGÄRT BELOPP (tusentals kronor) HUVUDMANNENS NAMN BIDRAGSRAM

Levande objekt i Fastighetsregistrets allmänna del

(8) Beviljade ansökningar Karriärtjänster 2018/2019 ANTAL KARRIÄR- TJÄNSTER ORGANISATIONS- NUMMER HUVUDMANNENS NAMN BIDRAGSRAM

Kommunranking 2011 per län

Bidragsramar kommuner Karriärtjänster 2019/20 ORGNR HUVUDMANNENS NAMN BIDRAGSRAM ANTAL TJÄNSTER

(8) Karriärtjänster Ansökan 2019/20 ANTAL KARRIÄR- TJÄNSTER ORGANISATIONS- NUMMER HUVUDMANNENS NAMN BIDRAGSRAM BESLUTAD ANSÖKAN

Kommun (Mkr) % Fördelning (Mkr) % Fördelning Ändr. % Antal företag

Beviljade medel Lärarlönelyftet våren (8) ORGANISATIONS- NUMMER HUVUDMANNENS NAMN BIDRAGSRAM BESLUTAT BELOPP

Fördelningsnyckel 2019 statsbidrag för att stärka insatserna för barn och unga med psykisk ohälsa

Kommunalt anställda år 2012 lärare och ledning skola/förskola, år Stockholms län. Uppsala län. Andel 55 år och äldre.

Fördelning av statsbidrag för 2016 för kompetensutveckling inom den sociala barn- och ungdomsvården

Föräldraalliansen Sverige. Kommunalt grundskoleindex - Förändring SALSA Residual

Fördelning av statsbidrag för 2018 för att stärka insatserna för barn och unga med psykisk ohälsa

Fördelning av utvecklingsmedel för 2018 för arbete mot våld i nära relationer

Samverkande kommuner lärlingsvux 2018

Statsbidrag för rekryterande insatser inom vuxenutbildningen

Fördelning av statsbidrag för 2019 för förstärkning av äldreomsorgen

Resultat 02 Fordonsgas

Fördelning av statsbidrag för 2014 för Äldres behov i centrum, ÄBIC

Fördelning av stimulansmedel för 2016 för stärkt bemanning inom den sociala barn- och ungdomsvården

STATOILS MILJÖBILSRANKING FÖRSTA HALVÅRET

Placering Andel E-legitimation Säkerhetskod Telefon SMS SmartPhone Totalt 2/5 Möjliga e-dekl Placering 2010 Andel 2010

Fördelning av stimulansmedel för 2016 för ökad bemanning inom äldreomsorgen

Fördelningsnyckel statsbidrag för 2018 för att stärka insatserna för barn och unga med psykisk ohälsa

Andel funktionsnedsatta som fått hjälpmedel. Ranking

Fördelningsnyckel statsbidrag för 2018 till kommuner för habiliteringsersättning

Fördelningsnyckel statsbidrag för 2019 till kommuner för habiliteringsersättning

Fördelning av statsbidrag för 2018 till stärkt bemanning inom den sociala barn- och ungdomsvården

Fördelning av habiliteringsersättning för 2019

Fördelning av statsbidrag för 2018 till avgiftsfria sommarlovsaktiviteter för barn i åldrarna 6 15 år

Fördelning av statsbidrag för 2018 till avgiftsfria lovaktiviteter för barn i åldrarna 6 15 år

Fördelningsnyckel - statsbidrag för 2019 för att stärka bemanningen inom den sociala barn- och ungdomsvården

Samverkande kommuner yrkesvux 2018

Statistiska centralbyrån Offentlig ekonomi och mikrosimuleringar. April ( 22)

Skatteförändringar efter politiskt styre

StatistikHusarbete Antalköpare. Antal köpare riket Hushållstjänster ROT-arbete

Fördelning av statsbidrag för 2015 för ökad bemanning inom äldreomsorgen

Bilaga 1 Bidragsramar kommuner Lärarlönelyftet (7)

Fördelning av habiliteringsersättning för 2018

Fördelning av statsbidrag för 2018 för stimulansmedel för ökad bemanning inom äldreomsorgen

Fördelning av statsbidrag för 2018 för stimulansmedel för ökad bemanning inom äldreomsorgen

Gotlands län Gotland kr kr 722 kr kr kr kr kr 42,0%

Fördelning av statsbidrag för 2018 till avgiftsfri simskola för elever i förskoleklass

Bästa Förskolekommun Förskoleupprorets statistiska undersökning

Kommunlistan: Antal aktiebolagskonkurser uppdelat per kommun

Valdeltagande bland förstagångsväljare i valet till kommunfullmäktige

Kommunkod Kommun Kommungrupp Kommungrupp, namn 0180 Stockholm 1 Storstäder 1280 Malmö 1 Storstäder 1480 Göteborg 1 Storstäder 0114 Upplands Väsby 2

Bästa Förskolekommun Förskoleupprorets statistiska jämförelse

Fördelningsnyckel stimulansmedel för 2018 för att stärka bemanningen inom den sociala barn- och ungdomsvården

Kommunundersökning gällande bidrag för fristående förskolor

SÅ SEGREGERADE ÄR KOMMUNERNA DAGENS SAMHÄLLE GRANSKAR

Kommun (Mkr) % Fördelning (Mkr) % Fördelning Ändr. % Antal företag

Värde per kommun

Tecknade kundavtal - Ineras PuB-avtal 1 Senast uppdaterad: Organisation Organisationsnummer Avtalsdatum Alingsås kommun

Blekinge län * Karlshamn Karlskrona Ronneby Sölvesborg

Skillnad mot förväntad. procent enheter. # Kommun

HÄR ÖKADE SEGREGATIONEN MEST DAGENS SAMHÄLLE GRANSKAR

PRELIMINÄR KOSTNADSUTJÄMNING ÅR 2000, kronor per invånare Bilaga 2

Bästa musik- och kulturskolekommun 2011

Bästa musik- och kulturskolekommun 2012

Bidragsramar Lärarlönelyftet bidragsåret Kommunala huvudmän

Grön Flagg-verksamheter i Sveriges kommuner 2016

Fördelning av stimulanmedel för 2017 till kommuner för att stärka bemanningen inom den sociala barn- och ungdomsvården

Föräldraalliansen Sverige 1/8

Preliminärt taxeringsutfall och slutavräkning för år 1997

Län Ortstyp 1 Ortstyp 2 Ortstyp 3 Stockholm Stockholm Södertälje Nacka Norrtälje Nynäshamn. Östhammar

, Dnr 2018: Beslutsbilaga 1 sid. 1 (6) Statsbidrag till samordnare för nyanländas lärande

Fördelning av stimulansmedel för 2019 till kommuner för att stärka bemanningen inom den sociala barn- och ungdomsvården

Att återfå resp betala vid månadsavstämning aug 2013 i samband med debitering av slutlig skatt

UTGÅNGSLÄGET OM RÄNTA UPP 1 % OM EL UPP 50 % EN ARBETAR 75 % KVAR ATT LEVA PÅ

Kommunkluster som besvarat enkäten

Totala kommunala skattesatser år 2003 Bilaga 5

Totala kommunala skattesatser år 2004 Bilaga 3

Transkript:

INFORMATIONSUTVINNING MARCO KUHLMANN Linköpings universitet

Informationsutvinning Informationsutvinning är uppgiften att extrahera strukturerad information från textdokument. Engelskt begrepp: Information Extraction (IE)

Exempel på informationsutvinning Three bombs have exploded in north-eastern Nigeria, killing 25 people and wounding 12 in an attack carried out by an Islamic sect. Authorities said the bombs exploded on Sunday afternoon in the city of Maiduguri. Attribut Värde Type Crisis Subtype Bombing Location Maiduguri Dead-Count 25 Injured-Count 12 Perpetrator Islamic sect Time 2011-06-26

Utvinning gentemot sökning dokumentdatabas IR dokument IE analytiker IR informationssökning IE informationsutvinning strukturerade fakta analytiker

Strukturerad information Begreppet strukturerad information syftar på namngivna entiteter med deras attribut Exempel: personer, företag, organisationer semantiska relationer mellan dessa entiteter Exempel: företag X köpte företag Y

Who did what to whom, where, and when? namngivna entiteter semantiska relationer

Informationsbehov Dokumentsökning Informationsbehovet kommuniceras genom en sökfråga; dokument kan vara relevanta utan att matcha sökfrågan exakt. Informationsutvinning Informationsbehovet kommuniceras genom en svarsmall; information som inte passar in i den mallen anses vara irrelevant.

Varför informationsutvinning? för att få direkt användbar analytisk information Exempel: business intelligence, opinion mining för att skapa eller utöka strukturerade kunskapsdatabaser Exempel: WordNet, DBPedia för att stödja frågebesvarande system

This New York University alumnus has won several Academy Awards. Sökfråga mot DBPedia (SPARQL-format) SELECT DISTINCT?x WHERE {?x dbpedia-owl:almamater dbres:new_york_university.?x dbpedia-owl:award dbres:academy_award. }

Ontologier: DBPedia Agent commonname Person almamater Organisation formationdate Actor award University alumni http://wiki.dbpedia.org/ontology

textdokument domänoberoende analys analys av metadata morfologisk analys meningssegmentering entitetsextraktion syntaktisk analys domänspecifik analys entitetsextraktion mönstermatchning relationsextraktion referensresolution informationsfusion strukturerade fakta

Denna föreläsning entitetsextraktion relationsextraktion referensresolution

Entitetsextraktion

Entitetsextraktion Entitetsextraktion är uppgiften att hitta och klassificera namngivna entiteter i löpande text. Engelskt begrepp: Named Entity Recognition (NER)

Namngivna entiteter Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.

Namngivna entiteter kan indexeras och länkas från ingår i semantiska relationer är vanliga svar i frågebesvarande system kan förknippas med attityder

Namngivna entiteter i DBPedia personer: Actor, Curler, FictionalCharacter organisationer: Band, Company, SportsTeam platser: Building, Mountain, Country datum och tider: Date, Year, HistoricalPeriod medicinska begrepp: Muscle, Enzyme, Disease

Tre metoder för entitetsextraktion namnlistor (gazetteers) hitta textmönster övervakad inlärning

Metoder för NER: Namnlistor Ale Alingsås Alvesta Aneby Arboga Arjeplogs Arvidsjaurs Arvika Askersunds Avesta Bengtsfors Bergs Bjurholms Bjuvs Bodens Bollebygds Bollnäs Borgholms Borlänge Borås Botkyrka Boxholms Bromölla Bräcke Burlövs Båstads Dals-Eds Danderyds Degerfors Dorotea Eda Ekerö Eksjö Emmaboda Enköpings 290 Eskilstuna Eslövs Essunga Fagersta Falkenbergs Falköpings Falu Filipstads Finspångs Flens Forshaga Färgelanda Gagnefs Gislaveds Gnesta Gnosjö Gotlands Grums Grästorps Gullspångs Gällivare Gävle Göteborgs Götene Habo Hagfors Hallsbergs Hallstahammars Halmstads Hammarö Haninge Haparanda Heby Hedemora Helsingborgs Herrljunga Hjo Hofors Huddinge Hudiksvalls Hultsfreds Hylte Håbo Hällefors Härjedalens Härnösands Härryda Hässleholms Höganäs Högsby Hörby Höörs Jokkmokks Järfälla Jönköpings Kalix Kalmar Karlsborgs Karlshamns Karlskoga Karlskrona Karlstads Katrineholms Kils Kinda Kiruna Klippans Knivsta Kramfors Kristianstads Kristinehamns Krokoms Kumla Kungsbacka Kungsörs Kungälvs Kävlinge Köpings Laholms Landskrona Laxå Lekebergs Leksands Lerums Lessebo Lidingö Lidköpings Lilla Edets Lindesbergs Linköpings Ljungby Ljusdals Ljusnarsbergs Lomma Ludvika Luleå Lunds Lycksele Lysekils Malmö Malung-Sälens Malå Mariestads Marks Markaryds Melleruds Mjölby Mora Motala Mullsjö Munkedals Munkfors Mölndals Mönsterås Mörbylånga Nacka Nora Norbergs Nordanstigs Nordmalings Norrköpings Norrtälje Norsjö Nybro Nykvarns Nyköpings Nynäshamns Nässjö Ockelbo Olofströms Orsa Orusts Osby Oskarshamns Ovanåkers Oxelösunds Pajala Partille Perstorps Piteå Ragunda Robertsfors Ronneby Rättviks Sala Salems Sandvikens Sigtuna Simrishamns Sjöbo Skara Skellefteå Skinnskattebergs Skurups Skövde Smedjebackens Sollefteå Sollentuna Solna Sorsele Sotenäs Staffanstorps Stenungsunds Stockholms Storfors Storumans Strängnäs Strömstads Strömsunds Sundbybergs Sundsvalls Sunne Surahammars Svalövs Svedala Svenljunga Säffle Säters Sävsjö Söderhamns Söderköpings Södertälje Sölvesborgs Tanums Tibro Tidaholms Tierps Timrå Tingsryds Tjörns Tomelilla Torsby Torsås Tranemo Tranås Trelleborgs Trollhättans Trosa Tyresö Täby Töreboda Uddevalla Ulricehamns Umeå Upplands Väsby Upplands-Bro Uppsala Uppvidinge Vadstena Vaggeryds Valdemarsviks Vallentuna Vansbro Vara Varbergs Vaxholms Vellinge Vetlanda Vilhelmina Vimmerby Vindelns Vingåkers Vårgårda Vänersborgs Vännäs Värmdö Värnamo Västerviks Västerås Växjö Ydre Ystads Åmåls Ånge Åre Årjängs Åsele Åstorps Åtvidabergs Älmhults Älvdalens Älvkarleby Älvsbyns Ängelholms Öckerö Ödeshögs Örebro Örkelljunga Örnsköldsviks Östersunds Österåkers Östhammars Östra Göinge Överkalix Övertorneå

Namnformer i polskan Kasus Nominativ Genitiv Dativ Akkusativ Instrumental Lokativ Vokativ Form Muammar Kaddafi Muammara Kaddafiego Muammarowi Kaddafiemu Muammara Kaddafiego Muammarem Kaddafim Muammarze Kaddafim Muammarze Kaddafi

Metoder för NER: Textmönster Namngivna entiteter kan extraheras genom att skriva reguljära uttryck som matchar typiska textmönster med dessa entiteter. Exempel: Xs kommun, City of X, Professor X, X AB, X Inc.

Metoder för NER: Övervakad inlärning välj en representativ datamängd markera alla namngivna entiteter i datamängden dela upp i träningsdata, utvecklingsdata, testdata träna en klassificerare

Entitetsextraktion som taggning BIO-kodning token Koncernchef Torben Ladegaard förklarade beslutet om Höganäs tagg O B PER I PER O O O B ORG

Sekvensmodell för taggning token som ska taggas Koncernchef Torben Ladegaard förklarade beslutet O B PERS feature-fönster

Features för klassificering ordrelaterad: token, lemma, ordklass ortografisk form: gemener, versaler, innehåller namnlistor: med i listan? typiska token: vd, Docent, Kung bag-of-words: ord, n-gram i feature-fönstret

Utvärdering av entitetsextraktion relevanta entiteter R F funna entiteter R F R F precision = täckning = F R

Utvärdering av entitetsextraktion token Koncernchef Torben tagg O B PER Ladegaard förklarade beslutet om I PER O O O 1 entitet, 2 taggar Höganäs B ORG

Problem med utvärderingen guldstandard system 1 First B ORG O 2 Bank I ORG B ORG 3 of I ORG I ORG 4 Chiacgo I ORG I ORG ORG 1 3 5 announced O O ORG 2 4 O O Systemet får 2 fel, både vid precision och täckning.

Sammanfattning: Entitetsextraktion Entitetsextraktion är uppgiften att hitta och klassificera namngivna entiteter i löpande text. Metoder för entitetsextraktion namnlistor, mönster, övervakad inlärning (NER som taggning) Utvärdering av NER-system precision och täckning; problem med överlappande namn

Relationsextraktion

Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Engelskt begrepp: Relation Extraction (RE)

Who did what to whom, where, and when? namngivna entiteter semantiska relationer

Exempel Citing high fuel prices, [ ORG United Airlines] said [ TIME Friday] it has increased fares by [ MONEY $6] per round trip on flights to some cities also served by lower-cost carriers. [ ORG American Airlines], a unit of [ ORG AMR Corp.], immediately matched the move, spokesman [ PER Tim Wagner] said. is spokesman for

Unified Medical Language 135 semantiska typer, 54 relationer Injury disrupts Physiologic Function Bodily Location location-of Biologic Function Anatomical Structure part-of Organism Pharmacologic Substance causes Pathologic Function Pharmacologic Substance treats Pathologic Function

Tre metoder för relationsextraktion hitta textmönster övervakad inlärning semi-övervakad inlärning

Metoder för RE: Textmönster Relationer kan extraheras med hjälp av reguljära uttryck: August Strindberg, född 22 januari 1849 i Stockholm (\w+), född.* ([0 9]{4}) \1 was-born-year \2 August Strindberg (1849 1912) (\w+) \(([0 9]{4}) [0 9]{4}\) \1 was-born-year \2

Textmönster för X är-en Y mönster exempel X and other Y temples, treasuries, and other civic buildings. X or other Y Bruises, wounds, broken bones or other injuries Y such as X The bow lute, such as the Bambara ndang Such Y as X such authors as Herrick, Goldsmith, and Shakespeare. Y including X common-law countries, including Canada. Y, especially X European countries, especially France and Spain,

Fördelar och nackdelar med textmönster + kan ha hög precision + kan skräddarsys för specifika domäner brukar ha låg recall kostsamma om det finns många relationer

Metoder för RE: Övervakad inlärning välj en representativ datamängd markera alla namngivna entiteter i datamängden markera alla relationer mellan dem dela upp i träningsdata, utvecklingsdata, testdata träna en klassificerare

Relationsextraktion som två delproblem Man kan dela upp relationsextraktion i två delproblem: Relationspredicering För varje par av entiteter, predicera om en relation råder (+) eller inte råder ( ) mellan dem. Relationsklassificering För varje predicerad relation, klassificera relationens typ.

Features för relationsextraktion ([ ORG American Airlines], [ PER Tim Wagner]) typer: ORG, PER, ORG+PER between bag-of-words: {a, unit,, spokesman} syntax: dependensrelationer (subjekt, objekt)

Övervakad inlärning + Klassificerare tränade på stora datamängder kan få hög korrekthet. Att producera träningsdata är kostsamt. Klassificerare tränade på en viss datamängd fungerar inte bra på helt andra datamängder.

Metoder för RE: Semi-övervakad inlärning För att träna en klassificerare för relationen PER died YEAR: Börja med en mängd instanser, t.ex. {(Strindberg, 1849)}. Gör en dokumentsökning med instanserna som sökfrågor. Extrahera särdrag ur de funna dokumenten. Träna en klassificerare på de extraherade särdragen. Använd den för att hitta nya instanser, och börja om igen.

Utvärdering Övervakad inlärning Räkna ut precision och täckning genom att jämföra med guldstandarden. Semi-övervakad inlärning Här finns det ingen guldstandard; då måste man ta ett stickprov och annotera för hand.

Sammanfattning: Relationsextraktion Relationsextraktion är uppgiften att hitta och klassificera semantiska relationer mellan namngivna entiteter. Metoder för relationsextraktion textmönster, övervakad och semi-övervakad inlärning Utvärdering av RE-system precision och täckning; problem med semi-övervakad inlärning

Referensresolution

Referensresolution Referensresolution är uppgiften att identifiera upprepade förekomster av en och samma namngivna entitet i en text. Engelskt begrepp: Coreference resolution (CO)

Referens och koreferens Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.

Referens och koreferens Danskägda Foss stänger anläggningen i Höganäs och flyttar produktionen till Kina medan utvecklingsavdelningen koncentreras till Hillerød. 163 anställda i Höganäs berörs av beskedet. I mitten av december i fjol tog koncernstyrelsen beslutet att stänga i Höganäs. Och på tisdagsmorgonen fick samtliga anställda veta att deras arbetsplats ska slå igen senast första januari 2015. Det är inget lätt beslut eftersom en stängning berör många medarbetare och deras familjer, förklarar koncernchef Torben Ladegaard. Enligt Ladegaard är det inte bristande lönsamhet som ligger bakom nedläggningen men han ser ändå beslutet som nödvändigt för att bevara den danskägda koncernens konkurrenskraft och lönsamhet.

Terminologi Fraser kan referera till något i eller utanför texten. Exempel: Höganäs, han, den danskägda koncernen Fraser som refererar till samma sak sägs koreferera. Exempel: koncernchef Torben Ladegaard, Ladegaard, han Med anaforisk referens menas referens till något som tidigare nämnts i texten, kallat antecedent.

Indefinita nominalfraser Jag såg en spännande film i helgen. Indefinita nominalfraser introducerar nya diskursentiteter. kan syfta på både specifika och ospecifika objekt Exempel: Jag ska gå på bio för att se på en film.

Definita nominalfraser Jag såg en film i helgen. Den filmen var inte särskilt spännande. Definita nominalfraser refererar till redan kända entiteter. De kan även referera till entiteter utanför texten. Exempel: Jag såg den filmen på bion på Ågatan.

Pronomen Klara träffade en kompis i helgen. Hon hade inte sett henne på länge. Pronomen refererar till redan kända diskursentiteter. Pronomens referent måste vara prominent i diskursen. Exempel: Klara träffade en kompis i helgen. De gick till Linds. Det var ganska fullt där. Klara bjöd henne på semla.

Strikta regler och preferenser Pronomen och antecedenten måste ha samma numerus. Exempel: Jag träffade en kompis. Hon är jättetrevlig. Entiteter som introducerades längre tillbaka i texten är mindre sannolika att fungera som antecedenter.

Informationsutvinning Informationsutvinning är uppgiften att extrahera strukturerad information från textdokument. Engelskt begrepp: Information Extraction (IE)

textdokument domänoberoende analys analys av metadata morfologisk analys meningssegmentering entitetsextraktion syntaktisk analys domänspecifik analys entitetsextraktion mönstermatchning relationsextraktion referensresolution informationsfusion strukturerade fakta