Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning Utvärdering En diskursmodell är en dynamisk representation av diskursens referenter, deras inbördes relationer och status i diskursen. Referenter införs i modellen när de refereras för första gången, Vid förnyad referens ger modellen tillgång (access) till befintliga referenter. Språkteknologi vt09 (Lars Ahrenberg) 1 Språkteknologi vt09 (Lars Ahrenberg) 2 Diskursmodell: exempel Koherensrelationer införande access Erik var hungrig. Han köpte sig en pizza Förklaring/Orsak (s1 because_of s2) Polisen stannade bilisten. Han hade kört för fort. Resultat (s2 because_of s1) Bilen hade för hög fart. Den körde av vägen. Elaborering (s2 = s1) Vi åker till London under lovet. Vi flyger från Skavsta. Förutsättning (s1 enables s2) Lena ärvde pengar av sin mor. Nu bor hon i New York. Språkteknologi vt09 (Lars Ahrenberg) 3 Språkteknologi vt09 (Lars Ahrenberg) 4 Att bestämma koherensrelationer Koreferens Signalerade satskopplingar Polisen stannade bilen eftersom den körde för fort. Inferensdragning för osignalerade kopplingar Deduktion (fungerar inte) (Heuristisk) Abduktion (beräkna det rimligaste alternativet) rimligaste = mest sannolika rimligaste = billigaste (varje steg i en kedja av inferenser åsätts en kostnad) Referentbestämning Att bestämma vad (eller vem) ett givet uttryck hänför sig till. Koreferens Två eller fler refererande uttryck hänför sig till samma referent. Erik var hungrig. Han köpte sig en pizza. antecedent anaforiskt uttryck Språkteknologi vt09 (Lars Ahrenberg) 5 Språkteknologi vt09 (Lars Ahrenberg) 6
Funktionell anafor Exempel: Jag kommer inte in på datorn, jag har glömt lösenordet. Volvo varslar. 220 anställda sägs upp. antecedent anaforiskt uttryck Informationsutvinning Informationsutvinning (eng. information extraction, IE) innebär att söka efter specificerad information i en samling dokument och lagra/presentera den på en strukturerad form t.ex. som poster i en relationsdatabas, XML-formaterade filer, formulär / mallar (eng. templates) Språkteknologi vt09 (Lars Ahrenberg) 7 Språkteknologi vt09 (Lars Ahrenberg) 8 Varianter av informationsutvinning Varianter av informationsutvinning Hitta instanser av händelser av en viss typ. i ett dokument sammanställning från flera dokument Ontologiinriktad informationsutvinning. Hitta underbegrepp och instanser av begrepp för att utvidga ontologier. Åsiktsigenkänning ( opinion mining ) Hitta uttryck för uppskattning eller kritik i relation till en produkt, en organisation, ett politiskt förslag,... Avgöra vad som är citat och vad som är plagiat. Automatisk textförståelse Systemet utvinner alla fakta ur en text, Systemet kan inferera implicerade och förutsatta fakta med hjälp av inferensregler, Systemet testas genom att svara på frågor om textens innehåll Språkteknologi vt09 (Lars Ahrenberg) 9 Språkteknologi vt09 (Lars Ahrenberg) 10 IE gentemot IR Notiser om varsel Dokumentdatabas Dokument Analytiker IR-system Dokumentdatabas Strukturerade fakta IE-system IR-system Språkteknologi vt09 (Lars Ahrenberg) 11 Språkteknologi vt09 (Lars Ahrenberg) 12
En text om varsel Mallexempel, arbetsmarknadsförändringar www.corren.se Tisdag 18 november, 2008 Lernia varslar 73 i länet Utbildnings- och bemanningsföretaget Lernia varslar nu 73 av totalt 105 anställda i länet om uppsägning. Lernia har verksamhet i Linköping, Motala, Vadstena, Mjölby, Boxholm och Ödeshög. - Vi har haft gott om uppdrag under hösten, men på bara en vecka var det faktiskt en stor del av våra uppdrag som helt enkelt tog slut, säger Maria Hesselgren-Lundberg, platschef på Lernia i Motala. Typ_av_förändring: Tid: Källa: Företag Namn: Ort: Antal_anställda: Omsättning: Berörda Antal: Typ: Språkteknologi vt09 (Lars Ahrenberg) 13 Språkteknologi vt09 (Lars Ahrenberg) 14 En text om neddragningar 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Instansierad mall Typ_av_förändring: neddragningar Tid: - Källa: Helsingborgs dagblad Företag Namn: Klippan AB Antal_anställda: 216 personer Ort: Klippan Omsättning: 619 miljoner kronor Berörda Antal: 160 Typ: personer Språkteknologi vt09 (Lars Ahrenberg) 15 Språkteknologi vt09 (Lars Ahrenberg) 16 Alternativ representation (entiteter) Informationsutvinning, delproblem Klippan id: ENTITY-1 type: ort Skogsbolaget Klippan AB id: ENTITY-2 type: företag ort: ENTITY-1 160 personer id: ENTITY-3 type: berörda Namnigenkänning (Named Entity Recognition) Identifiering av koreferens Namnupprepning, Pronomenreferens Relationsigenkänning enkla mallattribut t.ex. ålder, pris relationer mellan mallobjekt Händelseigenkänning Individuella referenser till en händelse Sammanföra information från olika meningar Språkteknologi vt09 (Lars Ahrenberg) 17 Språkteknologi vt09 (Lars Ahrenberg) 18
Referenser till samma objekt Referenser till samma objekt 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Senare referenser använder (ofta) delar av (fullständigt) namn Skogsbolaget Klippan AB Klippan AB Klippan talesmannen Bo Johansson Johansson anaforiska pronomen han, hon, den, det, de, dom,... beskrivande referenser i bestämd form företaget, koncernen;... Språkteknologi vt09 (Lars Ahrenberg) 19 Språkteknologi vt09 (Lars Ahrenberg) 20 Text 2: Mobilchef slutar Jan Ahrenbring lämnar sin post som marknadsdirektör vid Ericssons division Konsumentprodukter efter elva år. Ahrenbring slutar på egen begäran. Han kommer dock att vara kvar i Ericssonkoncernen. Hans arbetsuppgifter övertas av holländaren Philip Vanhoutte, som sedan i november i fjol är ansvarig för marknadsstrategi. Philip Vanhoutte har sitt kontor i London. Han kommer närmast från amerikanska teleoperatören MCI-Worldcom. Ericsson beslutade nyligen att lägga ut all tillverkning av mobiltelefoner på amerikanska Flextronics. I stället ska Ericsson koncentrera sig på design, marknadsföring och distribution, de områden som Ahrenbring ansvarat för. Vanliga korefererande uttryck Personliga pronomen Erik var hungrig. Han köpte en pizza. Ellips (noll-pronomen) Erik var hungrig och [] bestämde sig för att [] köpa en pizza. Upprepad (ofta förkortad) beskrivning eller namnreferens Carina Johansson har fått ett nytt jobb. Carina har numera sitt jobb på ekonomiavdelningen. Språkteknologi vt09 (Lars Ahrenberg) 21 Språkteknologi vt09 (Lars Ahrenberg) 22 Villkor på anaforisk koreferens Villkor på anaforisk koreferens Morfologiska egenskaper Antecedent och anafor skall ha samma numerus och genus. Han kommer dock att vara kvar... Syntaktiska egenskaper Antecedentens och anaforens syntaktiska positioner måste tillåta koreferens Ericsson gav honom ett stort avgångsvederlag (Ericsson honom) Syntaktiskt-semantiska egenskaper Semantiska villkor på anaforens referent som ges av den omedelbara syntaktiska kontexten måste passa in även på antecedenten. Erik köpte en pizza på bensinstationen. Han åt genast upp den. (bensinstationen den) Språkteknologi vt09 (Lars Ahrenberg) 23 Språkteknologi vt09 (Lars Ahrenberg) 24
Vanliga preferenser Explicita och indirekta referenser Närhet Nära antecedenter föredras framför dem som ligger längre bort; (Se exempeltexten) Grammatisk funktion Subjekt är vanligare som antecedenter än andra grammatiska funktioner; Tematik Textens aktuella tema är vanligare som antecedent än andra referenter; Explicit referens 2008-11-17 Indirekt referens (förutsätter ett referensobjekt) i tisdags, på måndag, förra året (relaterar till 'nu') vd (relaterar till ett företag) vi gör allt vad vi kan för att underlätta situationen, säger... Språkteknologi vt09 (Lars Ahrenberg) 25 Språkteknologi vt09 (Lars Ahrenberg) 26 Att identifiera relationer Att använda mönsterfrön Expertdriven systemutveckling Övervakad inlärning förutsätter uppmärkt korpus Så frön ('bootstrapping') gissa mönster och/eller instanser/tupler Exempel: /varslar [0-9]+ / /Volvo [a-zåäö]+ [a-zåäö \b]{0,3} anställda/ Frö? [FÖRETAG] varslar [ANTAL] [BERÖRD_PERSON] Att ta reda på Vilken variation finns i hur relationen uttrycks? Vilken variation finns i ordningen mellan olika entiteter? Vad kan finnas mer än relationsuttryck och entitetsuttryck i meningarna? Språkteknologi vt09 (Lars Ahrenberg) 27 Språkteknologi vt09 (Lars Ahrenberg) 28 Fröbaserad relationsutvinning ( bootstrapping ) Att välja ut nya mönster Sökning Mönster Extraktion Mönsterfrön A. Hur många kända tupler hittas? B. Hur många kända tupler missas? C. Hur många nya (korrekta) tupler hittas? D. Hur många tupler hittas totalt? Tupelmängd Mönstermängd Olika mått kan definieras utifrån dessa värden. Extraktion Sökning Tupelfrön Tupler Språkteknologi vt09 (Lars Ahrenberg) 29 Språkteknologi vt09 (Lars Ahrenberg) 30
Referenser till samma händelse Utvärdering 160 riskerar jobbet i Klippan Skogsbolaget Klippan AB planerar neddragningar i produktionen för att förbättra lönsamheten. Enligt ett förslag kan det innebära att 160 personer förlorar sina jobb i Klippan, skriver Helsingborgs Dagblad. I dag sysselsätter bruket i Klippan 216 personer. Klippan AB har också produktion i Lessebo. För de första nio månaderna förra året redovisade Klippan en förlust på 2,5 miljoner kronor efter finansnetto. Koncernens försäljning uppgick till 619 miljoner kronor. Typad gentemot otypad precision och recall (eng. labelled vs. unlabelled) Texten anger en relation mellan Klippan AB och 216 personer. I texten är detta relationen antal_anställda. Om systemet typat relationen som antal under Berörda, blir det ändå rätt på de otypade måtten, men fel på de typade. Språkteknologi vt09 (Lars Ahrenberg) 31 Språkteknologi vt09 (Lars Ahrenberg) 32