TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Tentamen Del A. Marco Kuhlmann

Tentamen Marco Kuhlmann

Grundläggande textanalys. Joakim Nivre

Matematiska metoder för språkvetare, 7,5 hp

Datamodeller och databaser, avancerad kurs

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiska grundbegrepp

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

SPRÅKTEKNOLOGIPROGRAMMET

FÖRETAGSEKONOMISKA INSTITUTIONEN

Språkteknologi. Språkteknologi

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

TDDD92 Artificiell intelligens -- projekt

Kursinformation och schema Lingvistik 729G08 (6 hp)

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

TDIU01 (725G67) - Programmering i C++, grundkurs

Delkursplan för Sociologisk Analys kvantitativ del VT 11, 4,5 hp

KURSPLAN Engelska, hp, 30 högskolepoäng

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Delkursplan för Sociologisk Analys HT 11, 7,5 högskolepoäng.

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Språkvetenskapliga och psykologiska perspektiv inom logopedi, 15 hp

Programmering, grundkurs

Datavetenskapligt program, 180 högskolepoäng

Kursplan för Sociologisk Analys VT 09, 7,5 högskolepoäng. (Syllabus for Quantitative Sociological Methods, 7.5 ECTS)

Word- sense disambiguation

INSTITUTIONEN FÖR SOCIOLOGI OCH ARBETSVETENSKAP

Socialpsykologiska teorier, 7,5 hp

INSTITUTIONEN FÖR SVENSKA SPRÅKET

729G74 IT och programmering, grundkurs. Tema 1, Föreläsning 2 Jody Foo,

TDDD39-Perspektiv på informationsteknologi

Kursplan för kurs på grundnivå

Kognition TEK210 (4,5 hp)

SPRÅKKONSULTPROGRAMMET

INSTITUTIONEN FÖR SOCIOLOGI OCH ARBETSVETENSKAP

Datum Förkunskapskrav och andra villkor för tillträde till kursen Sh A samt Eng B

Allmänna frågor om kursen: Kursutvärderare: IT-kansliet/Christina Waller. 1. Vad är ditt allmänna omdöme om kursen? Antal svar: 30 Medelvärde: 3.

SPRÅKTEKNOLOGI. Marco Kuhlmann Institutionen för datavetenskap

Studiehandbok 1FE196 Introduktion till ekonomistyrning, 7,5

Tekniker för storskalig parsning

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

SPRÅKTEKNOLOGIPROGRAMMET

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

TMV166/186 Linjär Algebra M/TD 2009/2010

JUFN20, Migration Law, 7,5 högskolepoäng Migration Law, 7.5 credits Avancerad nivå / Second Cycle

Tidshantering. Effektiva studievanor och aktivt lärande

EP1020, Introduktion till global ekonomi, 7,5 högskolepoäng An introduction to Global Economy, 7.5 higher education credits

INSTITUTIONEN FÖR SOCIOLOGI OCH ARBETSVETENSKAP

AVDELNINGEN FÖR HANDELSHÖGSKOLANS EKONOMPROGRAM

Kursen ges som en valbar kurs inom kandidatprogrammet i Samhällsplanering- urban och regional utveckling, 180 högskolepoäng.

Fastställande. Allmänna uppgifter. Samhällsvetenskapliga fakulteten

Delkursplan för Sociologisk Analys kvantitativ del VT 14, 4,5 högskolepoäng.

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

FÖRETAGSEKONOMISKA INSTITUTIONEN

Kandidatprogram i kognitionsvetenskap, 180 högskolepoäng

poäng i del B Lycka till!

Cristina Eriksson oktober 2001

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

FÖRETAGSEKONOMISKA INSTITUTIONEN

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Forskarutbildningen i Beteendevetenskapliga

Kursen är schemalagd för att kräva fem veckors heltidsstudier.

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Nätverksdrift, 120 hp

1.1.1 Innehåll Momentet består av 24 föreläsningar som behandlar: Beskrivande statistik, Grundläggande sannolikhetslära. Stokastiska variabler.

Grundläggningsteknik VGTF01

FÖRETAGSEKONOMISKA INSTITUTIONEN

Jonas Detterfelt Siv Söderlund Johan Högdahl Joakim Arnlind Göran Forsling. Föreläsningar Lektioner Laborationer Projekt

Avdelningen för informations- och kommunikationssystem Fakulteten för naturvetenskap, teknik och medier

Kursbeskrivning för Ekonometri, 15 högskolepoäng

Psykologi GR (C), Arbets- och organisationspsykologi med kandidatuppsats för psykologprogrammet, 22,5 hp

JAMR13, Migration Law, 7,5 högskolepoäng Migration Law, 7.5 credits Avancerad nivå / Second Cycle

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Logistik (723G48), 7,5 hp Kursinformation VT -2016

NUMERISKA METODER HT01. Energiteknik & Teknisk fysik HT01. Institutionen för Datavetenskap Umeå Universitet

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

JAMR41, Internationella mänskliga rättigheter II, 15 högskolepoäng International Human Rights Law II, 15 credits Avancerad nivå / Second Cycle

FÖRETAGSEKONOMISKA INSTITUTIONEN

Introduktion till kursen och MATLAB

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Datavetenskapliga programmet, Spel, 180 högskolepoäng

- A1N, Avancerad nivå, har endast kurs/er på grundnivå som förkunskapskrav

Grundläggningsteknik VGTN01

Bootstrapping för substantivtaggning

Anvisningar och schema

SPRÅKTEKNOLOGIPROGRAMMET (STP)

TDDD35 - Användbara system

KONSTFACK Institutionen för design, inredningsarkitektur och visuell kommunikation KURSPLAN

FÖRETAGSEKONOMISKA INSTITUTIONEN

Presentation Edument AB. All Rights Reserved.

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Transkript:

TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap

Vad är språkteknologi?

Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing

We are drowning in information but starved for knowledge. John Naisbitt (1982)

Biljontals sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com

Kunskapsglappet ostrukterade data (text) analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) analytiker

Informationsutvinning As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribut Värde docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types location Hawaii Källa: Grishman et al. (2002)

Kommersiellt intresse Källa: ACL 2015

Två utmaningar: Flertydighet och kontextualitet Flertydighet Ett och samma språkliga yttrande kan betyda flera olika saker. Time flies like an arrow. Fruit flies like a banana. Kontextualitet Ett språkligt yttrande kan endast tolkas i ett sammanhang. A: Kommer du ikväll? B: Jag har träning.

Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN

Ytterligare en utmaning: Många olika språk Källa: Eric Gaba (Sting), Languages world map, CC BY-SA 3.0

Språkteknologi på IT-programmet TDDD02 Språkteknologi för informationssökning termin 3; grundkurs TDDE09 Språkteknologi (Natural Language Processing) termin 8; avancerad kurs Examensarbete med språkteknologisk inriktning Kontakta mig!

Vad jag forskar på Teoretisk datalogi Hur kan vi utveckla effektiva algoritmer för att tolka text? Maskininlärning Hur kan våra algoritmer lära sig från stora datamängder? Kunskapsingenjörskonst Hur kan vi relatera våra tolkningar till existerande ontologier?

Kursens innehåll och uppläggning

Lärandemål Efter avslutad kurs ska du kunna: förklara innebörden av morfologisk, syntaktisk och semantisk analys av texter och redogöra för de vanligaste analysmetoderna tentamen tillämpa enkla metoder inkl. reguljära uttryck, n-gram-modeller, vektorbaserade modeller på problemet att klassificera ord i text laborationer

Lärandemål Efter avslutad kurs ska du kunna: redogöra för arkitekturer och problem i tillämpningar som frågebesvarande system, sammanfattningssystem, flerspråkig informationssökning basgruppsarbete, tentamen utvärdera algoritmer och system med avseende på korrekthet, precision och recall laborationer, tentamen

Schemalagd undervisning Föreläsningar (10 h) Marco Kuhlmann Laborationer (24 h) Robin Kurtz Basgruppsarbete Basgruppshandledarna

Tema Tillämpning Centralt teoretiskt innehåll 0 textsegmentering reguljära uttryck 1 textklassificering Naive Bayes-modellen 2 ordpredicering n-gram-modeller 3 ordklasstaggning sekvensmodeller, linjär klassificering 4 syntaktisk analys transitionsbaserad dependensparsning 5 semantisk analys vektorrumsmodeller

Tentamen Tentan består av två delar: Del A innehåller enklare frågor som kan besvaras kortfattat. För betyget 3 på tentan räcker det att få 80% av poängen på denna del. Du kan träna på denna del genom att skriva en (frivillig) dugga under v. 51. För att få betyget 4 eller 5 behöver du lösa uppgifter i del B. Del B innehåller svårare frågor som kräver utförliga redovisningar och sammanhängande text med korrekt terminologi och notation. En av frågorna förutsätter att man i förväg har läst en vetenskaplig artikel.

Laborationer Laborationerna redovisas genom inlämningsuppgifter och en individuell reflektionsrapport. Detaljerade instruktioner finns på kurshemsidan! Varje uppgift har en ordinarie deadline (anges i instruktionen) och en sista deadline (dagen då förstagångstentan ges). Om ni lämnar in uppgiften till ordinarie deadline får ni återkoppling och möjlighet till komplettering. Betyget på laborationskursen sätts efter sista deadline.

Föreläsning Laboration Basgruppsarbete Eget arbete v. 44 LA0 Tokenisera artiklar från svenska Wikipedia EG Sannolikhetslära, Python v. 45 FÖ1 Textklassificering LA1 Klassificera anföranden efter politisk blocktillhörighet BAS Vinjett 1 EG Textklassificering v. 46 FÖ2 Ordpredicering LA2 Skapa n-gram-modeller för Sherlock Holmes-noveller BAS Vinjett 1 EG Ordpredicering v. 47 FÖ3 Ordklasstaggning LA3 Utvärdera en ordklasstaggare för svenska BAS Vinjett 2 EG Ordklasstaggning v. 48 FÖ4 Syntaktisk analys LA4 Utvärdera en standardparser för svenska (MaltParser) BAS Vinjett 2 EG Syntaktisk analys v. 49 FÖ5 Semantisk analys LA5 Mäta semantisk likhet mellan ord med hjälp av word2vec BAS Vinjett 3 EG Semantisk analys v. 50 BAS Vinjett 3 EG Repetition v. 51 DU Dugga (frivillig) EG Artikel om Watson

Kurslitteratur Daniel Jurafsky, James H. Martin. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. International edition of 2nd revised edition. Pearson Education, 2008. Utkast av den 3:e upplagan: https://web.stanford.edu/~jurafsky/slp3/