Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Relevanta dokument
Tentamen Del A. Marco Kuhlmann

Lingvistiska grundbegrepp

Tentamen Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Partiell parsning Parsning som sökning

Språkteknologi och Open Source

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

poäng i del B Lycka till!

Probabilistisk logik 1

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Lösningsförslag till tentamen i Språkteknologi 2D1418,

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Kombinatorik och sannolikhetslära

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

Probabilistisk logik 2

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Prov i DAT 312: Algoritmer och datastrukturer för systemvetare

Statistisk grammatikgranskning

Tekniker för storskalig parsning

Tekniker för storskalig parsning

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Tentamen, Distribuerade System/Programvaruarkitektur

Markovkedjor. Patrik Zetterberg. 8 januari 2013

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

- ett statistiskt fråga-svarsystem

Kompilatorer och interpretatorer

Datorlingvistisk grammatik

Tentamen, Algoritmer och datastrukturer

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Optimeringslära Kaj Holmberg

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Artificiell Intelligens

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

TDDD02 Språkteknologi för informationssökning / Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDP Regler

Tentamensinstruktioner. När Du löser uppgifterna

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

TENTAMEN TDDB53. Programmering i Ada för MI (provkod TEN2) den 7 april 2010 kl Institutionen för datavetenskap, IDA Olle Willén mars 2010

TENTAMEN I STATISTIKENS GRUNDER 1

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Maskinöversättning möjligheter och gränser

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL2 och Media 1, SF1610 och 5B1118, onsdagen den 17 augusti 2011, kl

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

TDDB56 DALGOPT Algoritmer och Optimering Tentamen , 8 13

Tentamensskrivning i Diskret Matematik för CINTE och CMETE, SF1610, onsdagen den 20 augusti 2014, kl

Grundläggande textanalys. Joakim Nivre

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Mälardalens högskola Akademin för utbildning, kultur och kommunikation

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

729G09 Språkvetenskaplig databehandling

TENTAMEN. TDDD12 Databasteknik TDDD46 Databasteknik. 16 augusti 2010, kl 14-18

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

NATIONELLT PROV I MATEMATIK KURS E VÅREN Tidsbunden del

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Karlstads universitet Institutionen för Informationsteknologi Datavetenskap

Uppgifter 6: Kombinatorik och sannolikhetsteori

Tentamen Metoder för ekonomisk analys

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

2D 4D. Flaskracet. strävorna

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED

Tentamen för DD1370 Databasteknik och informationssystem

Kungliga Tekniska Högskolan Patrik Dallmann

Lingvistiskt uppmärkt text

Lektionsanteckningar 11-12: Normalfördelningen

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

Tentamen för DD1370 Databasteknik och informationssystem

Tekniker för storskalig parsning

EasyReader (FriendlyReader)

Tisdagen den 16 januari

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Kaliningrad) låg vid bägge sidor av floden Pregel samt på

Efternamn förnamn ååmmdd kodnr

TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER

LINKÖPINGS UNIVERSITET TENTA 92MA31, 92MA37, 93MA31, 93MA37 / STN 2 9GMA05 / STN 1

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

TAMS79: Föreläsning 1 Grundläggande begrepp

TAOP07/TEN1 OPTIMERINGSLÄRA GRUNDKURS för Y. Antal uppgifter: 7 Uppgifterna är inte ordnade efter svårighetsgrad.

Jordbävningar en enkel modell

1 Mätdata och statistik

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Transkript:

Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng på hela tentamen är 32; 16 poäng ger säkert godkänt. Det går bra att besvara flera frågor på samma papper. Del A Besvara alla frågor i denna del. Varje fråga ger 2 poäng. 1. Vid språkteknologiskt korpusarbete tokeniserar man helst texter så att skiljetecken som komma och punkt utgör egna token. (a) Varför gör man det? (b) Varför resonerar man annorlunda när det gäller förkortningspunkter? (a) För att få bättre underlag till t.ex. frekvenslistor. Om man inte avskiljer skiljetecken från orden så kommer t.ex. hon och hon. att betraktas tillhöra olika ordtyper. (b) Om man tokeniserar så att skiljetecken i förkortningar utgör egna token så bryts t.ex. bl.a. ner till bl.a. bl och a, token som inte är önskvärda ingångar i en frekvenslista. 2. I en svensk korpus finner vi följande frekvenser för några utvalda ord och ordsekvenser: med: 32 900; tanke: 400; på: 24 500; med tanke: 260; tanke på: 270; med tanke på: 250 Vad är den Maximum Likelihood-uppskattade sannolikheten 𝑃(på med tanke) om vi använder (a) trigramsannolikheter, (b) en omskrivning till bigramsannolikheter? (a) trigramsannolikheter: 𝑃(på med tanke) frekvens(med tanke på) 250 = frekvens(med tanke) 260 (b) omskrivning till bigramsannolikheter: 𝑃(tanke med) 𝑃(på tanke) frekvens(med tanke) frekvens(tanke på) 260 270 = frekvens(med) frekvens(tanke) 32900 400 1

3. (a) Vilka typer av sannolikheter ingår i en Hidden Markov-modell för ordklasstaggning? (b) Vilka konkreta sannolikheter måste man ha skattat för att i en sådan modell kunna räkna ut den kombinerade sannolikheten för följande taggade mening? Jag/PN äter/vb (a) Övergångssannolikheter på formen 𝑃(tagg föregående tagg) och observationssannolikheter på formen 𝑃(ord tagg). (b) 𝑃(PN -BOS-), 𝑃(Jag PN), 𝑃(VB PN), 𝑃(äter VB), 𝑃(-EOS- VB) 4. Nedanstående tabell visar reglerna i en probabilistisk kontextfri grammatik. Rita två olika frasstrukturträd (parseträd) enligt denna grammatik och ange deras sannolikheter. S VP Lotta cykeln VP V V lånar 1,00 0,25 0,75 1,00 1,00 Två olika frasstrukturträd: S S Lotta VP V Lotta lånar cykeln VP V lånar Lotta Det första trädet har sannolikhet 0,25 0,75; det andra trädet har sannolikhet 0,25 0,25. 2

5. Nedanstående graf visar en liten del av WordNet. (a) Förklara vad noderna och bågarna representerar. (b) Bestäm avståndet (eng. pathlength) mellan nickel och budget och utifrån detta avstånd räkna ut den semantiska likheten mellan de två orden. standard, criterion, measure, touchstone medium of exchange, monetary system currency money coinage, mintage, specie, metal money fund, monetary fund coin budget nickel scale, graduated table, ordered series Richter scale dime (a) Varje nod representerar en mängd av ömsesidigt synonyma ord, en s.k. synset. (b) Avståndet (pathlength) mellan nickel och budget är 7. Utifrån detta kan man räkna ut den semantiska likheten mellan de två orden som 1/(pathlength + 1) = 1/8. 6. Ett automatiskt system för författaridentifikation ska hitta texter som är skrivna av författaren A. En utvärdering av systemet på en guldstandard ger följande resultat, där + betyder att texten är skriven av A och betyder att texten inte är skriven av A. Räkna ut systemets precision och recall. system + system guldstandard + 1 3 guldstandard 0 19 Precision: 1/(1 + 0) = 1/1 = 100%. Recall: 1/(1 + 3) = 1/4 = 25%. 3

7. En enkel metod för att tagga filmrecensioner med polariteter är att använda en Naive Bayesklassificerare. Ange klassificerarens beslutsregel och förklara den. Beslutsregel (𝑟 = recensionen; 𝑤 = ord i 𝑟): 𝑝 = arg max 𝑃(𝑝) 𝑃(𝑤 𝑝) 𝑝 𝑤 Klassificeraren väljer den polaritet 𝑝 som maximerar den sannolikhet som specificeras till höger om arg max. Denna sannolikhet är produkten av priorisannolikheten för polariteten 𝑝, som betecknas 𝑃(𝑝), och den betingade sannolikheten för recensionen 𝑟 givet 𝑝. I Naive Bayes approximeras denna sannolikhet genom produkten av alla ordsannolikheter, 𝑃(𝑤 𝑝). 8. (a) Vad innebär entitetsextraktion (eng. named entity recognition)? (b) Hur kan entitetsextraktion hanteras som ett taggningsproblem? (a) Entitetsextraktion går ut på att hitta och klassificera ord eller andra textenheter som tillhör i förväg definierade semantiska kategorier som namn på personer, organisationer och platser. (b) Man kan använda BIO-kodningen som går ut på att tagga det första ordet (token) i en textenhet som betecknar en entitet med B (beginning), varje följande ord med I (inner) och varje ord som inte tillhör en entitet med O (outer). Med denna kodning kan entitetsextraktion hanteras som ordklasstaggning. 9. Utifrån följande svensk mening, ange en översättning till engelska som är (a) fluent men inte faithful, (b) faithful men inte fluent. Han jämförde äpplen och päron. (a) He compared apples and pears. (b) Apples and oranges he compared. (Yoda-språk!) 10. En central modul i ett frågebesvarande system är en analysator som bestämmer frågans svarstyp. Förklara vad som menas med en svarstyp och ge några exempel på möjliga svarstyper. Begreppet svarstyp avser den entitetstyp eller mera allmänt den semantiska kategori som det förväntade svaret syftar på. En fråga kan till exempel syfta på en person eller en plats, men även på mera generella kategorier som sammanfattning eller förklaring. 4

Del B Välj två frågor och besvara dem utförligt. Varje fråga kan ge maximalt 6 poäng. 1. Utjämning (eng. smoothing) är en teknik som används när man bygger statistiska språkmodeller. Förklara vad det innebär och varför man använder det. Beskriv därefter utförligt den utjämningsteknik som kallas Add-1 (eller Laplace). Utjämning innebär att man modifierar en sannolikhetsmodell genom att omfördela sannolikhetsmassan så att fördelningen blir mera jämn. Ett bra sätt att förklara och motivera utjämning är att utgå från ett konkret exempel, som MLE-skattning av unigramsannolikheter utifrån en textkorpus. För ord som förekommer förhållandevis ofta i korpusen kan MLE-skattning ge goda resultat. Men ju mindre omfattning korpusen har, desto mera sannolikt är det att några ord kommer att ha väldigt låg frekvens eller totalt saknas i korpusen. Utjämning innebär då att man omfördelar sannolikhetsmassan så att högfrekventa ord får lägre sannolikhet än de egentligen borde ha enligt deras relativa frekvens i korpusen, och lågfrekventa ord får högre sannolikhet (1 p). Detta gör att sannolikhetsfördelningen blir mera jämn. Det man också åstadkommer är att man ger lite sannolikhet till ord som inte förkommer i träningsdatan (1 p). Viktigt i sammanhanget är att man i förväg måste definiera en mängd ord som man vill tilldela sannolikheter, en s.k. vokabulär (1 p). Den huvudsakliga anledningen till varför man gör smoothing är att man vill ha robusta sannolikhetsmodeller som kan användas på andra data än dem i träningsmängden (1 p). Vid Add-1-smoothing höjer man frekvensen (inte sannolikheten!) av varje ord med 1 (1 p). För att det ska bli en sannolikhetsfördelning måste man även höja nämnaren, nämligen med antalet totala ord i vokabulären (1 p). 2. I flera typer av system kan recall inte mätas på det vanligaste sättet, dvs. genom att dela antalet fall där systemet och guldstandard överensstämmer med det totala antalet fall i guldstandarden. Ange två applikationer där detta inte fungerar så bra, förklara varför, och beskriv något eller några mått som används i stället. Exempel på applikationer är entitetsextraktion, maskinöversättning, informationssökning och textsammanfattning. För varje exempel får man 1 p för att ange det och ytterligare 1 p för att förklara varför recall inte kan mätas på det vanliga sättet. Sedan får man 2 p för en utförlig förklaring av ett alternativt mått (som t.ex. BLEU); alternativt 1 p per mått för en kortare förklaring. 3. En probabilistisk parser ska räkna ut den mest sannolika syntaktiska analysen för en given mening. Förklara varför denna uppgift är beräkningsmässigt utmanande. Beskriv därefter två metoder för att bemöta denna utmaning. Parsning är beräkningsmässigt utmanande eftersom mängden av möjliga parseträd växer exponentiellt med meningens längd och grammatikens storlek. (1 p) För att illustrera detta kan man t.ex. rita upp alla parseträd för några korta meningar. Ett alternativ är att argumentera att i en grammatik med 𝑟 regler så finns det 𝑂(𝑟𝑛 ) olika parseträd med 𝑛 noder. (1 p) Exempel på metoder 5

för att undvika denna komplexitet är dynamisk programmering och heuristisk sökning. En kort beskrivning av en metod ger 1 p; en mera utförlig beskrivning ger 2 p. 4. Det finns för närvarande ett stort intresse inom både akademin och industrin i metoder för att analysera språk i sociala medier. Ange några skäl till detta. Diskutera därefter några av de utmaningar som språkteknologin ställs inför när den ska tillämpas på texter från Twitter och Facebook snarare än t.ex. tidningar och lexikon. Man får 1 p för varje skäl, dock högst 2 p. Exempel på skäl: attitydanalys (attityder mot produkter, opinioner, förutsäga trender); lingvistiska intressen (analysera talspråk och språkutveckling). Man får 1 p för varje utmaning, dock max 4 p. För att få poäng måste man diskutera en utmaning, inte bara ange den. Exempel på utmaningar: annorlunda form och struktur (felstavningar, inkompletta och ogrammatiska meningar, konstiga tecken); högre utsträckning av ironi och subtilitet; flerspråkighet; stor språklig variation (över tiden, bland grupper); relevans av ickespråklig kommunikation (smileys, bilder); stora datamängder som kommer in i realtid. 6