TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap
Vad är språkteknologi?
Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing
We are drowning in information but starved for knowledge. John Naisbitt (1982)
Biljontals sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com
Kunskapsglappet ostrukterade data (text) analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) analytiker
Informationsutvinning As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribut Värde docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types location Hawaii Källa: Grishman et al. (2002)
Kommersiellt intresse Källa: ACL 2015
Två utmaningar: Flertydighet och kontextualitet Flertydighet Ett och samma språkliga yttrande kan betyda flera olika saker. Time flies like an arrow. Fruit flies like a banana. Kontextualitet Ett språkligt yttrande kan endast tolkas i ett sammanhang. A: Kommer du ikväll? B: Jag har träning.
Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN
Ytterligare en utmaning: Många olika språk Källa: Eric Gaba (Sting), Languages world map, CC BY-SA 3.0
Språkteknologi på IT-programmet TDDD02 Språkteknologi för informationssökning termin 3; grundkurs TDDE09 Språkteknologi (Natural Language Processing) termin 8; avancerad kurs Examensarbete med språkteknologisk inriktning Kontakta mig!
Vad jag forskar på Teoretisk datalogi Hur kan vi utveckla effektiva algoritmer för att tolka text? Maskininlärning Hur kan våra algoritmer lära sig från stora datamängder? Kunskapsingenjörskonst Hur kan vi relatera våra tolkningar till existerande ontologier?
Kursens innehåll och uppläggning
Lärandemål Efter avslutad kurs ska du kunna: förklara innebörden av morfologisk, syntaktisk och semantisk analys av texter och redogöra för de vanligaste analysmetoderna tentamen tillämpa enkla metoder inkl. reguljära uttryck, n-gram-modeller, vektorbaserade modeller på problemet att klassificera ord i text laborationer
Lärandemål Efter avslutad kurs ska du kunna: redogöra för arkitekturer och problem i tillämpningar som frågebesvarande system, sammanfattningssystem, flerspråkig informationssökning basgruppsarbete, tentamen utvärdera algoritmer och system med avseende på korrekthet, precision och recall laborationer, tentamen
Schemalagd undervisning Föreläsningar (10 h) Marco Kuhlmann Laborationer (24 h) Robin Kurtz Basgruppsarbete Basgruppshandledarna
Tema Tillämpning Centralt teoretiskt innehåll 0 textsegmentering reguljära uttryck 1 textklassificering Naive Bayes-modellen 2 ordpredicering n-gram-modeller 3 ordklasstaggning sekvensmodeller, linjär klassificering 4 syntaktisk analys transitionsbaserad dependensparsning 5 semantisk analys vektorrumsmodeller
Tentamen Tentan består av två delar: Del A innehåller enklare frågor som kan besvaras kortfattat. För betyget 3 på tentan räcker det att få 80% av poängen på denna del. Du kan träna på denna del genom att skriva en (frivillig) dugga under v. 51. För att få betyget 4 eller 5 behöver du lösa uppgifter i del B. Del B innehåller svårare frågor som kräver utförliga redovisningar och sammanhängande text med korrekt terminologi och notation. En av frågorna förutsätter att man i förväg har läst en vetenskaplig artikel.
Laborationer Laborationerna redovisas genom inlämningsuppgifter och en individuell reflektionsrapport. Detaljerade instruktioner finns på kurshemsidan! Varje uppgift har en ordinarie deadline (anges i instruktionen) och en sista deadline (dagen då förstagångstentan ges). Om ni lämnar in uppgiften till ordinarie deadline får ni återkoppling och möjlighet till komplettering. Betyget på laborationskursen sätts efter sista deadline.
Föreläsning Laboration Basgruppsarbete Eget arbete v. 44 LA0 Tokenisera artiklar från svenska Wikipedia EG Sannolikhetslära, Python v. 45 FÖ1 Textklassificering LA1 Klassificera anföranden efter politisk blocktillhörighet BAS Vinjett 1 EG Textklassificering v. 46 FÖ2 Ordpredicering LA2 Skapa n-gram-modeller för Sherlock Holmes-noveller BAS Vinjett 1 EG Ordpredicering v. 47 FÖ3 Ordklasstaggning LA3 Utvärdera en ordklasstaggare för svenska BAS Vinjett 2 EG Ordklasstaggning v. 48 FÖ4 Syntaktisk analys LA4 Utvärdera en standardparser för svenska (MaltParser) BAS Vinjett 2 EG Syntaktisk analys v. 49 FÖ5 Semantisk analys LA5 Mäta semantisk likhet mellan ord med hjälp av word2vec BAS Vinjett 3 EG Semantisk analys v. 50 BAS Vinjett 3 EG Repetition v. 51 DU Dugga (frivillig) EG Artikel om Watson
Kurslitteratur Daniel Jurafsky, James H. Martin. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. International edition of 2nd revised edition. Pearson Education, 2008. Utkast av den 3:e upplagan: https://web.stanford.edu/~jurafsky/slp3/