Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer



Relevanta dokument
TDDD02 Föreläsning 5 HT-2013

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Partiell parsning Parsning som sökning

Nr Ändamål Län Kommun Ärendenummer Inkomdatum Total kostnad 1 SOLEL Östergötlands län Linköping SOLEL Östergötlands

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av november månad 2013

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av september månad 2012

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av december månad 2013

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av mars månad 2013

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av mars 2014

INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av april 2014

Arbetsmarknadsläget i Östergötlands län, februari 2015

Arbetsmarknadsläget i Östergötlands län september 2015

Yrkeskod enligt ALS 201

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av oktober månad 2012

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av juli månad 2012

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av oktober månad 2013

Norrköping - Motala / Norrköping - Tranås

Arbetsmarknadsläget i Östergötlands län, november 2014

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av februari 2014

Statistikinfo 2015:01

Grammatik för språkteknologer

Delårsrapport januari-mars (sammandrag)

Tekniker för storskalig parsning

Objektorienterad Programkonstruktion. Föreläsning 7 24 nov 2015

INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av augusti månad 2012

Inlämningsuppgift: Pronomenidentifierare

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

TDDD02 Föreläsning 6 HT-2013

MER INFORMATION OM ARBETSMARKNADSLÄGET

Arbetsmarknadsläget i Östergötlands län, mars 2015

Delårsrapport januari-march (sammandrag)

Symboler och abstrakta system

Arbetsmarknadsläget i Östergötlands län, december 2014

Tabell 3: Födelseregion och utbildningstyp i Boxholm kommun

Mer information om arbetsmarknadsläget i Dalarnas län i slutet av augusti månad 2012

Teknonomi. Tema. Teknik, Samhällskunskap, Svenska, Bild

Företagsamhetsmätning - Östergötlands län. Johan Kreicbergs

Stöd för att skapa intuitiva användargränssnitt

Regelförenkling på kommunal nivå. Östergötland

Kommentarer till bedömningsmatris för Tala Kurs D

Statistikinfo 2019:01

Statistikinfo 2018:01

Statistikinfo 2014:03

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av maj 2014

Sammanställning av Dagligverksamhet enligt LSS för Östergötland 2017.

Konceptuell modellering

Svenska GRAMMATIK ÖVNINGAR OCH SVAR

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Kommentarer till bedömningsmatris för Tala Kurs D

BEGAGNAT ÄR INGET NYTT...

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av april månad 2013

Dentala ädelmetallegeringar

Företagsamheten 2017 Östergötlands län

TDDD02 Föreläsning 7 HT-2013

Språkpsykologi/psykolingvistik

Introduktion till språkteknologi

Inledning Väcker intresse och introducerar ämnet

Arbetsmarknadsläget i Hallands län i september månad 2015

VERVA. Fujitsu Services Kenneth Landérus F

Helsingborg:

Företagsamhetsmätning Östergötlands län. Johan Kreicbergs

Analys av näringslivet i Östergötland

Praktikintyg. Utbildning och praktik för ungdomar med sikte på JOBB!

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Statistikinfo 2016:02

Mer information om arbetsmarknadsläget i Östergötlands län i slutet av januari månad 2014

Delårsrapport januari-september (sammandrag)

Befolkningsförändringar under 2014

PRODUKTIONSLOGIK OCH UTVECKLINGSLOGIK

SVENSKA Inplaceringstest A

Satssemantik. Semantik: Föreläsning 4 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Öppna data. Teknisk specifikation Version 0.4. Skolmatsdata. Nationellt ramverk för tillgängliggörande av skolmatsdata

Årsstämma 2012 i Empire AB Per Björkman, VD

Statistikinfo 2017:01

Kommentarer till bedömningsmatris för Skriva Kurs C

Företagsamheten 2018 Östergötlands län

Företagsamheten 2018 Östergötlands län

Kungliga Tekniska Högskolan Patrik Dallmann

Kvantitativ samhällsanalys med språkteknologiska metoder.

MER INFORMATION OM ARBETSMARKNADSLÄGET

Vilka är lokalpolitikerna i Östergötland och hur nöjda är medborgarna?

Mer information om arbetsmarknadsläget i Dalarnas län i slutet av september 2013

Regeltillämpning på kommunal nivå

Östergötlands län Rapport från Företagarna 2011

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Lingvistiskt uppmärkt text

Kommentarer till bedömningsmatris för Tala Kurs B

Bibliotek och folkbildning samarbetar för att motverka digitala klyftan

Författare: Eeva-Liisa Järvinen, Projektet På väg mot kommunikativ kompetens: tillägnandet av svenskans struktur/ Åbo Universitet

Win95/98 Nätverks Kompendium. av DRIFTGRUPPEN

Mer information om arbetsmarknadsläget i Kronobergs län i slutet av april månad 2014

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik

Föreläsning 7: Kognition & perception

Grundläggande programmering, STS 1, VT Sven Sandberg. Föreläsning 20

Sammanträdesdatum Arbetsutskott (1) 153 Dnr KS/2018:273. Arbetsutskottets förslag till kommunstyrelsen

Transkript:

Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning Utvärdering En diskursmodell är en dynamisk representation av diskursens referenter, deras inbördes relationer och status i diskursen. Referenter införs i modellen när de refereras för första gången, Vid förnyad referens ger modellen tillgång (access) till befintliga referenter. Språkteknologi vt09 (Lars Ahrenberg) 1 Språkteknologi vt09 (Lars Ahrenberg) 2 Diskursmodell: exempel Koherensrelationer införande access Erik var hungrig. Han köpte sig en pizza Förklaring/Orsak (s1 because_of s2) Polisen stannade bilisten. Han hade kört för fort. Resultat (s2 because_of s1) Bilen hade för hög fart. Den körde av vägen. Elaborering (s2 = s1) Vi åker till London under lovet. Vi flyger från Skavsta. Förutsättning (s1 enables s2) Lena ärvde pengar av sin mor. Nu bor hon i New York. Språkteknologi vt09 (Lars Ahrenberg) 3 Språkteknologi vt09 (Lars Ahrenberg) 4 Att bestämma koherensrelationer Koreferens Signalerade satskopplingar Polisen stannade bilen eftersom den körde för fort. Inferensdragning för osignalerade kopplingar Deduktion (fungerar inte) (Heuristisk) Abduktion (beräkna det rimligaste alternativet) rimligaste = mest sannolika rimligaste = billigaste (varje steg i en kedja av inferenser åsätts en kostnad) Referentbestämning Att bestämma vad (eller vem) ett givet uttryck hänför sig till. Koreferens Två eller fler refererande uttryck hänför sig till samma referent. Erik var hungrig. Han köpte sig en pizza. antecedent anaforiskt uttryck Språkteknologi vt09 (Lars Ahrenberg) 5 Språkteknologi vt09 (Lars Ahrenberg) 6

Funktionell anafor Exempel: Jag kommer inte in på datorn, jag har glömt lösenordet. Volvo varslar. 220 anställda sägs upp. antecedent anaforiskt uttryck Informationsutvinning Informationsutvinning (eng. information extraction, IE) innebär att söka efter specificerad information i en samling dokument och lagra/presentera den på en strukturerad form t.ex. som poster i en relationsdatabas, XML-formaterade filer, formulär / mallar (eng. templates) Språkteknologi vt09 (Lars Ahrenberg) 7 Språkteknologi vt09 (Lars Ahrenberg) 8 Varianter av informationsutvinning Varianter av informationsutvinning Hitta instanser av händelser av en viss typ. i ett dokument sammanställning från flera dokument Ontologiinriktad informationsutvinning. Hitta underbegrepp och instanser av begrepp för att utvidga ontologier. Åsiktsigenkänning ( opinion mining ) Hitta uttryck för uppskattning eller kritik i relation till en produkt, en organisation, ett politiskt förslag,... Avgöra vad som är citat och vad som är plagiat. Automatisk textförståelse Systemet utvinner alla fakta ur en text, Systemet kan inferera implicerade och förutsatta fakta med hjälp av inferensregler, Systemet testas genom att svara på frågor om textens innehåll Språkteknologi vt09 (Lars Ahrenberg) 9 Språkteknologi vt09 (Lars Ahrenberg) 10 IE gentemot IR Notiser om varsel Dokumentdatabas Dokument Analytiker IR-system Dokumentdatabas Strukturerade fakta IE-system IR-system Språkteknologi vt09 (Lars Ahrenberg) 11 Språkteknologi vt09 (Lars Ahrenberg) 12

En text om varsel Mallexempel, arbetsmarknadsförändringar www.corren.se Tisdag 18 november, 2008 Lernia varslar 73 i länet Utbildnings- och bemanningsföretaget Lernia varslar nu 73 av totalt 105 anställda i länet om uppsägning. Lernia har verksamhet i Linköping, Motala, Vadstena, Mjölby, Boxholm och Ödeshög. - Vi har haft gott om uppdrag under hösten, men på bara en vecka var det faktiskt en stor del av våra uppdrag som helt enkelt tog slut, säger Maria Hesselgren-Lundberg, platschef på Lernia i Motala. Typ_av_förändring: Tid: Källa: Företag Namn: Ort: Antal_anställda: Omsättning: Berörda Antal: Typ: Språkteknologi vt09 (Lars Ahrenberg) 13 Språkteknologi vt09 (Lars Ahrenberg) 14 En text om neddragningar 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Instansierad mall Typ_av_förändring: neddragningar Tid: - Källa: Helsingborgs dagblad Företag Namn: Klippan AB Antal_anställda: 216 personer Ort: Klippan Omsättning: 619 miljoner kronor Berörda Antal: 160 Typ: personer Språkteknologi vt09 (Lars Ahrenberg) 15 Språkteknologi vt09 (Lars Ahrenberg) 16 Alternativ representation (entiteter) Informationsutvinning, delproblem Klippan id: ENTITY-1 type: ort Skogsbolaget Klippan AB id: ENTITY-2 type: företag ort: ENTITY-1 160 personer id: ENTITY-3 type: berörda Namnigenkänning (Named Entity Recognition) Identifiering av koreferens Namnupprepning, Pronomenreferens Relationsigenkänning enkla mallattribut t.ex. ålder, pris relationer mellan mallobjekt Händelseigenkänning Individuella referenser till en händelse Sammanföra information från olika meningar Språkteknologi vt09 (Lars Ahrenberg) 17 Språkteknologi vt09 (Lars Ahrenberg) 18

Referenser till samma objekt Referenser till samma objekt 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Senare referenser använder (ofta) delar av (fullständigt) namn Skogsbolaget Klippan AB Klippan AB Klippan talesmannen Bo Johansson Johansson anaforiska pronomen han, hon, den, det, de, dom,... beskrivande referenser i bestämd form företaget, koncernen;... Språkteknologi vt09 (Lars Ahrenberg) 19 Språkteknologi vt09 (Lars Ahrenberg) 20 Text 2: Mobilchef slutar Jan Ahrenbring lämnar sin post som marknadsdirektör vid Ericssons division Konsumentprodukter efter elva år. Ahrenbring slutar på egen begäran. Han kommer dock att vara kvar i Ericssonkoncernen. Hans arbetsuppgifter övertas av holländaren Philip Vanhoutte, som sedan i november i fjol är ansvarig för marknadsstrategi. Philip Vanhoutte har sitt kontor i London. Han kommer närmast från amerikanska teleoperatören MCI-Worldcom. Ericsson beslutade nyligen att lägga ut all tillverkning av mobiltelefoner på amerikanska Flextronics. I stället ska Ericsson koncentrera sig på design, marknadsföring och distribution, de områden som Ahrenbring ansvarat för. Vanliga korefererande uttryck Personliga pronomen Erik var hungrig. Han köpte en pizza. Ellips (noll-pronomen) Erik var hungrig och [] bestämde sig för att [] köpa en pizza. Upprepad (ofta förkortad) beskrivning eller namnreferens Carina Johansson har fått ett nytt jobb. Carina har numera sitt jobb på ekonomiavdelningen. Språkteknologi vt09 (Lars Ahrenberg) 21 Språkteknologi vt09 (Lars Ahrenberg) 22 Villkor på anaforisk koreferens Villkor på anaforisk koreferens Morfologiska egenskaper Antecedent och anafor skall ha samma numerus och genus. Han kommer dock att vara kvar... Syntaktiska egenskaper Antecedentens och anaforens syntaktiska positioner måste tillåta koreferens Ericsson gav honom ett stort avgångsvederlag (Ericsson honom) Syntaktiskt-semantiska egenskaper Semantiska villkor på anaforens referent som ges av den omedelbara syntaktiska kontexten måste passa in även på antecedenten. Erik köpte en pizza på bensinstationen. Han åt genast upp den. (bensinstationen den) Språkteknologi vt09 (Lars Ahrenberg) 23 Språkteknologi vt09 (Lars Ahrenberg) 24

Vanliga preferenser Explicita och indirekta referenser Närhet Nära antecedenter föredras framför dem som ligger längre bort; (Se exempeltexten) Grammatisk funktion Subjekt är vanligare som antecedenter än andra grammatiska funktioner; Tematik Textens aktuella tema är vanligare som antecedent än andra referenter; Explicit referens 2008-11-17 Indirekt referens (förutsätter ett referensobjekt) i tisdags, på måndag, förra året (relaterar till 'nu') vd (relaterar till ett företag) vi gör allt vad vi kan för att underlätta situationen, säger... Språkteknologi vt09 (Lars Ahrenberg) 25 Språkteknologi vt09 (Lars Ahrenberg) 26 Att identifiera relationer Att använda mönsterfrön Expertdriven systemutveckling Övervakad inlärning förutsätter uppmärkt korpus Så frön ('bootstrapping') gissa mönster och/eller instanser/tupler Exempel: /varslar [0-9]+ / /Volvo [a-zåäö]+ [a-zåäö \b]{0,3} anställda/ Frö? [FÖRETAG] varslar [ANTAL] [BERÖRD_PERSON] Att ta reda på Vilken variation finns i hur relationen uttrycks? Vilken variation finns i ordningen mellan olika entiteter? Vad kan finnas mer än relationsuttryck och entitetsuttryck i meningarna? Språkteknologi vt09 (Lars Ahrenberg) 27 Språkteknologi vt09 (Lars Ahrenberg) 28 Fröbaserad relationsutvinning ( bootstrapping ) Att välja ut nya mönster Sökning Mönster Extraktion Mönsterfrön A. Hur många kända tupler hittas? B. Hur många kända tupler missas? C. Hur många nya (korrekta) tupler hittas? D. Hur många tupler hittas totalt? Tupelmängd Mönstermängd Olika mått kan definieras utifrån dessa värden. Extraktion Sökning Tupelfrön Tupler Språkteknologi vt09 (Lars Ahrenberg) 29 Språkteknologi vt09 (Lars Ahrenberg) 30

Referenser till samma händelse Utvärdering 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Typad gentemot otypad precision och recall (eng. labelled vs. unlabelled) Texten anger en relation mellan Klippan AB och 216 personer. I texten är detta relationen antal_anställda. Om systemet typat relationen som antal under Berörda, blir det ändå rätt på de otypade måtten, men fel på de typade. Språkteknologi vt09 (Lars Ahrenberg) 31 Språkteknologi vt09 (Lars Ahrenberg) 32