729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap
Vad är språkteknologi?
Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing
We are drowning in information but starved for knowledge. John Naisbitt (1982)
Biljontals sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com
Kunskapsglappet ostrukterade data (text) analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) analytiker
Informationsutvinning Three bombs have exploded in north-eastern Nigeria, killing 25 people and wounding 12 in an attack carried out by an Islamic sect. Authorities said the bombs exploded on Sunday afternoon in the city of Maiduguri. Attribut Värde Type Crisis Subtype Bombing Location Maiduguri Dead-Count 25 Injured-Count 12 Perpetrator Islamic sect Time 2011-06-26
Kommersiellt intresse Källa: ACL 2015
Två utmaningar: Flertydighet och kontextualitet Flertydighet Ett och samma språkliga yttrande kan betyda flera olika saker. Time flies like an arrow. Fruit flies like a banana. Kontextualitet Ett språkligt yttrande kan endast tolkas i ett sammanhang. A: Kommer du ikväll? B: Jag har träning.
Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN
Ytterligare en utmaning: Många olika språk Källa: Har jag glömt bort
Vad jag forskar på Teoretisk datalogi Hur kan vi utveckla effektiva algoritmer för att tolka text? Maskininlärning Hur kan våra algoritmer lära sig från stora datamängder? Kunskapsingenjörskonst Hur kan vi relatera våra tolkningar till existerande ontologier?
Kursens innehåll och uppläggning
Lärandemål Efter avslutad kurs ska du kunna: redogöra för grundläggande metoder och tekniker för automatisk analys och tolkning av ord och meningar; föreläsningar, kurslitteratur redogöra för delproblem och standardlösningar i samband med automatisk textförståelse; föreläsningar, kurslitteratur
Lärandemål Efter avslutad kurs ska du kunna: tillämpa reguljära uttryck, formell grammatik och statistiska metoder för analys av ord och meningar i löpande text; laborationer utvärdera algoritmer och system med avseende på korrekthet, precision och recall; föreläsningar, kurslitteratur, laborationer
Lärandemål Efter avslutad kurs ska du kunna: redogöra för de vanligaste arkitekturerna i språkteknologiska tillämpningssystem; föreläsningar, kurslitteratur, projektarbete värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar. projektarbete
Schemalagd undervisning Föreläsningar (22 h) Marco Kuhlmann Laborationer (20 h) Sarah Albertsson, Per Fallgren, Robin Kurtz, Marcus Liw Projektredovisningar (4 h) Sarah Albertsson, Per Fallgren, Marco Kuhlmann, Robin Kurtz, Marcus Liw
måndag 13 15 måndag 15 17, tisdag 8 10 fredag 10 12 v 3 F01 Introduktion TDDD01 L0 Grundläggande textanalys F02 Maskininlärning v 4 F03 Introduktion 729G17 L1 Textklassificering F04 Textklassificering v 5 F05 Ordpredicering L2 Ordpredicering F06 Ordklasstaggning 1 v 6 F07 Ordklasstaggning 2 L3 Ordklasstaggning F08 Syntaktisk analys 1 v 7 F09 Syntaktisk analys 2 L4 Syntaktisk analys F10 Semantisk analys v 8 F11 Informationsutvinning L5 Semantisk analys F12 Frågebesvarande system v 9 Projekt v 10 SEM Slutkonferens (7/3, 13 17) FRÅG Frågestund inför tentan
Kurslitteratur Daniel Jurafsky, James H. Martin. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. International edition of 2nd revised edition. Pearson Education, 2008. Utkast av den 3:e upplagan: https://web.stanford.edu/~jurafsky/slp3/
Kurshemsida
Textklassificering
Skräppostfiltrering inget ärende dolda mottagare stavfel misstänkta ord många frågetecken obskyra adresser
Författaridentifiering Alexander Hamilton James Madison
Attitydpredicering The gorgeously elaborate continuation of The Lord of the Rings trilogy is so huge that a column of words cannot adequately describe co-writer/director Peter Jackson s expanded vision of J.R.R. Tolkien s Middle-earth. positiv is a sour little movie at its core; an exploration of the emptiness that underlay the relentless gaiety of the 1920 s, as if to stop would hasten the economic and global political turmoil that was to come. negativ
Predicera talarens blocktillhörighet Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder. Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och rangeras ut från välfärdspolitiken. Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten 13,2 miljarder. Det är ok med sänkt restaurangmoms 5,4 miljarder. Hamburgare och korv kan subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att bostadsministern har den uppfattningen om vikten av politisk prioritering. Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet men inte har någon bostad? Vad säger bostadsministern till det paret?
Handskrivna regler Vi kan tilldela ett dokument en klass genom handskrivna regler. om anonyma mottagare och texten innehåller ditt konto kommer att raderas då sortera som skräp Handskrivna regler kan ha hög precision, men att utveckla och att underhålla dem är kostsamt.
Klassificering som övervakad inlärning UK China Elections Sports congestion London Olympics Beijing recount votes diamond baseball Parliament Big Ben tourism Great Wall seat run-off forward soccer Windsor The Queen Mao Communist TV-ads campaign team captain first private Chinese airline
Utvärdering För att utvärdera en klassificerare kan vi jämföra dess prediktioner med en guldstandard: dokument taggade med korrekt klass. En sådan testmängd har samma form som träningsmängden, men används på ett annat sätt. Klassificeraren ser inte guldstandardklassen. En guldstandard kan vara objektivt eller subjektivt korrekt. riksdagsanföranden vs. spam
Utvärderingsmått: Korrekthet Korrekthet (eng. accuracy) mäter andelen av alla dokument i testmängden för vilka systemet har predicerat rätt klass. Korrekthet är ett enkelt och överskådligt mått, men kan ibland vara missvisande. detektering av sällsynta sjukdomar
Problem med korrekthetsmåttet Ett system för textklassificering analyserar texter skrivna av patienter på en geriatrimottagning och predicerar om patienterna har eller inte har en ovanlig neurologisk sjukdom. Systemet utvärderas på en testmängd bestående av 10 000 texter och får 99,9% korrekthet. Hur många av dokumenten skrivna av patienter som faktiskt har sjukdomen har systemet hittat?
Korrekthet klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa
Utvärderingsmått: Precision och täckning Precision och täckning (eng. recall) zoomar in på hur bra systemet är på att identifiera dokument av en specifik klass K. Hur bra är systemet på att detektera sjukdomen? Precision är andelen korrekt klassificerade instanser bland alla dokument som systemet klassificerat tillhöra klass K. Om systemet predicerar sjukdomen, hur ofta har patienten verkligen den? Täckning är andelen korrekt klassificerade instanser bland alla dokument som enligt guldstandarden har klass K. Om patienten har sjukdomen, hur ofta predicerar klassificeraren detta?
Precision klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa
Täckning (recall) klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa
Precision och täckning guldstandard G K klassificerare precision = G K K täckning = G K G
Precision och täckning fn fp guldstandard G sp K klassificerare precision = G K K täckning = G K G
Övningsuppgift Ett namnigenkänningssystem utvärderades på en samling testdata innehållande 800 namn. Av dessa bestod 500 av ett ord, 250 av två ord och 50 av tre ord. Tabellen nedan anger systemets resultat. rätt fel ettordsnamn 420 60 tvåordsnamn 200 40 treordsnamn 44 12 Ställ upp bråk för följande: täckning på ettordsnamn precision på tvåordsnamn täckning på alla namn
F1-måttet Ett bra system bör balansera precision och täckning. Dessa mått slås därför ofta ihop till ett enda mått som heter F1: F1 = 2 precision täckning precision + täckning (F1 är det harmoniska medelvärdet mellan precision och täckning.)
Baseline Absoluta värden för korrekthet, precision och täckning säger egentligen inte särskilt mycket. 80% täckning bra eller dåligt? Istället så bör man fråga efter korrekthet, precision och täckning relativt till en referensmetod, en baseline. En vanlig baseline för klassificering är Most Frequent Class: predicera alltid den mest frekventa dokumentklassen. som den observerats i träningsmängden
Sammanfattning Vad är språkteknologi? kunskapsglappet, flertydighet, kombinatorisk explosion, kontextualitet Textklassificering träningsmängd, testmängd, korrekthet, precision, täckning Läsanvisningar: JM kapitel 1 2, 3.1, Textklassificering med Naive Bayes 1 2