729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

SPRÅKTEKNOLOGI. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Tentamen Marco Kuhlmann

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Tentamen Del A. Marco Kuhlmann

Word- sense disambiguation

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Matematiska metoder för språkvetare, 7,5 hp

Grundläggande textanalys. Joakim Nivre

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Lingvistiska grundbegrepp

SPRÅKTEKNOLOGIPROGRAMMET

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap

INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Språkteknologi. Språkteknologi

poäng i del B Lycka till!

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

SPRÅKTEKNOLOGIPROGRAMMET

INFORMATIONSUTVINNING. MARCO KUHLMANN Linköpings universitet

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Maskininlärning. Regler eller ML?

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Bootstrapping för substantivtaggning

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Tekniker för storskalig parsning

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

Datamodeller och databaser, avancerad kurs

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Cristina Eriksson oktober 2001

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Programmering, grundkurs

Grammatik för språkteknologer

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

Engelska GR (B), 30 hp

Språkteknologi och Open Source

Engelska GR (B), Ämneslärarutbildning för gymnasieskolan, 30 hp

Kognition TEK210 (4,5 hp)

Kursinformation och schema Lingvistik 729G08 (6 hp)

TMV166/186 Linjär Algebra M/TD 2009/2010

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

SPRÅKTEKNOLOGIPROGRAMMET (STP)

KURSPLAN Engelska, hp, 30 högskolepoäng

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Fullgjorda kursutvärderingar: 15 Frågor: 27. Lärarens kommentar. Tack till alla er som deltog i kursutvärderingen!

Differentiell psykologi

Kursinformation Grundkurs i programmering med Python

Partiell parsning Parsning som sökning

Turismvetenskap GR (B), E-turism: digital distribution, marknadsföring och information, 15 hp

TDIU01 (725G67) - Programmering i C++, grundkurs

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Kvantmekanik II, 7,5 hp (FK5012) HT 2015

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Ontologier. Cassandra Svensson

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Kvantmekanik II, 7,5 hp (FK5012)

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Teoretisk lingvistik och datalingvistik. Robin Cooper

CUSTOMER READERSHIP HARRODS MAGAZINE CUSTOMER OVERVIEW. 63% of Harrods Magazine readers are mostly interested in reading about beauty

Tekniker för storskalig parsning

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

Psykologi GR (C), Arbets- och organisationspsykologi med kandidatuppsats för psykologprogrammet, 22,5 hp

Grundläggande datavetenskap 4p

Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Lärandemål. Lärandemål forts.

EP1020, Introduktion till global ekonomi, 7,5 högskolepoäng An introduction to Global Economy, 7.5 higher education credits

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

- A Scrum Planning Tool Case Study to Evaluate the The Rich AJAX Platform

Inkvarteringsstatistik. Göteborg & Co

Datavetenskapligt program, 180 högskolepoäng

Kursinformation och schema för Lingvistik 6 hp 729G08

SOCA45, Sociologi: Klass, kön och etnicitet, 30 högskolepoäng Sociology: Class, Gender and Ethnicity, 30 credits Grundnivå / First Cycle

INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI

Socialpsykologiska teorier, 7,5 hp

Introduktionsmöte Innehåll

COMPUTABILITY BERÄKNINGSBARHET. Källa: Goldschlager, Lister: Computer Science A Modern Introduction 2. upplaga 1988, Prentice Hall

Mathematical Cryptology (6hp)

Do you Think there is a problem with the car traffic to or from the inner city weekdays ?

Lingvistiskt uppmärkt text

APPENDIX. Den enkät som skickades ut.

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren

Kursplan för kurs på grundnivå

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Kungliga Tekniska Högskolan Patrik Dallmann

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Kandidatprogram i kognitionsvetenskap, 180 högskolepoäng

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Transkript:

729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap

Vad är språkteknologi?

Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing

We are drowning in information but starved for knowledge. John Naisbitt (1982)

Biljontals sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com

Kunskapsglappet ostrukterade data (text) analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) analytiker

Informationsutvinning Three bombs have exploded in north-eastern Nigeria, killing 25 people and wounding 12 in an attack carried out by an Islamic sect. Authorities said the bombs exploded on Sunday afternoon in the city of Maiduguri. Attribut Värde Type Crisis Subtype Bombing Location Maiduguri Dead-Count 25 Injured-Count 12 Perpetrator Islamic sect Time 2011-06-26

Kommersiellt intresse Källa: ACL 2015

Två utmaningar: Flertydighet och kontextualitet Flertydighet Ett och samma språkliga yttrande kan betyda flera olika saker. Time flies like an arrow. Fruit flies like a banana. Kontextualitet Ett språkligt yttrande kan endast tolkas i ett sammanhang. A: Kommer du ikväll? B: Jag har träning.

Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN

Ytterligare en utmaning: Många olika språk Källa: Har jag glömt bort

Vad jag forskar på Teoretisk datalogi Hur kan vi utveckla effektiva algoritmer för att tolka text? Maskininlärning Hur kan våra algoritmer lära sig från stora datamängder? Kunskapsingenjörskonst Hur kan vi relatera våra tolkningar till existerande ontologier?

Kursens innehåll och uppläggning

Lärandemål Efter avslutad kurs ska du kunna: redogöra för grundläggande metoder och tekniker för automatisk analys och tolkning av ord och meningar; föreläsningar, kurslitteratur redogöra för delproblem och standardlösningar i samband med automatisk textförståelse; föreläsningar, kurslitteratur

Lärandemål Efter avslutad kurs ska du kunna: tillämpa reguljära uttryck, formell grammatik och statistiska metoder för analys av ord och meningar i löpande text; laborationer utvärdera algoritmer och system med avseende på korrekthet, precision och recall; föreläsningar, kurslitteratur, laborationer

Lärandemål Efter avslutad kurs ska du kunna: redogöra för de vanligaste arkitekturerna i språkteknologiska tillämpningssystem; föreläsningar, kurslitteratur, projektarbete värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar. projektarbete

Schemalagd undervisning Föreläsningar (22 h) Marco Kuhlmann Laborationer (20 h) Sarah Albertsson, Per Fallgren, Robin Kurtz, Marcus Liw Projektredovisningar (4 h) Sarah Albertsson, Per Fallgren, Marco Kuhlmann, Robin Kurtz, Marcus Liw

måndag 13 15 måndag 15 17, tisdag 8 10 fredag 10 12 v 3 F01 Introduktion TDDD01 L0 Grundläggande textanalys F02 Maskininlärning v 4 F03 Introduktion 729G17 L1 Textklassificering F04 Textklassificering v 5 F05 Ordpredicering L2 Ordpredicering F06 Ordklasstaggning 1 v 6 F07 Ordklasstaggning 2 L3 Ordklasstaggning F08 Syntaktisk analys 1 v 7 F09 Syntaktisk analys 2 L4 Syntaktisk analys F10 Semantisk analys v 8 F11 Informationsutvinning L5 Semantisk analys F12 Frågebesvarande system v 9 Projekt v 10 SEM Slutkonferens (7/3, 13 17) FRÅG Frågestund inför tentan

Kurslitteratur Daniel Jurafsky, James H. Martin. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. International edition of 2nd revised edition. Pearson Education, 2008. Utkast av den 3:e upplagan: https://web.stanford.edu/~jurafsky/slp3/

Kurshemsida

Textklassificering

Skräppostfiltrering inget ärende dolda mottagare stavfel misstänkta ord många frågetecken obskyra adresser

Författaridentifiering Alexander Hamilton James Madison

Attitydpredicering The gorgeously elaborate continuation of The Lord of the Rings trilogy is so huge that a column of words cannot adequately describe co-writer/director Peter Jackson s expanded vision of J.R.R. Tolkien s Middle-earth. positiv is a sour little movie at its core; an exploration of the emptiness that underlay the relentless gaiety of the 1920 s, as if to stop would hasten the economic and global political turmoil that was to come. negativ

Predicera talarens blocktillhörighet Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder. Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och rangeras ut från välfärdspolitiken. Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten 13,2 miljarder. Det är ok med sänkt restaurangmoms 5,4 miljarder. Hamburgare och korv kan subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att bostadsministern har den uppfattningen om vikten av politisk prioritering. Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet men inte har någon bostad? Vad säger bostadsministern till det paret?

Handskrivna regler Vi kan tilldela ett dokument en klass genom handskrivna regler. om anonyma mottagare och texten innehåller ditt konto kommer att raderas då sortera som skräp Handskrivna regler kan ha hög precision, men att utveckla och att underhålla dem är kostsamt.

Klassificering som övervakad inlärning UK China Elections Sports congestion London Olympics Beijing recount votes diamond baseball Parliament Big Ben tourism Great Wall seat run-off forward soccer Windsor The Queen Mao Communist TV-ads campaign team captain first private Chinese airline

Utvärdering För att utvärdera en klassificerare kan vi jämföra dess prediktioner med en guldstandard: dokument taggade med korrekt klass. En sådan testmängd har samma form som träningsmängden, men används på ett annat sätt. Klassificeraren ser inte guldstandardklassen. En guldstandard kan vara objektivt eller subjektivt korrekt. riksdagsanföranden vs. spam

Utvärderingsmått: Korrekthet Korrekthet (eng. accuracy) mäter andelen av alla dokument i testmängden för vilka systemet har predicerat rätt klass. Korrekthet är ett enkelt och överskådligt mått, men kan ibland vara missvisande. detektering av sällsynta sjukdomar

Problem med korrekthetsmåttet Ett system för textklassificering analyserar texter skrivna av patienter på en geriatrimottagning och predicerar om patienterna har eller inte har en ovanlig neurologisk sjukdom. Systemet utvärderas på en testmängd bestående av 10 000 texter och får 99,9% korrekthet. Hur många av dokumenten skrivna av patienter som faktiskt har sjukdomen har systemet hittat?

Korrekthet klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa

Utvärderingsmått: Precision och täckning Precision och täckning (eng. recall) zoomar in på hur bra systemet är på att identifiera dokument av en specifik klass K. Hur bra är systemet på att detektera sjukdomen? Precision är andelen korrekt klassificerade instanser bland alla dokument som systemet klassificerat tillhöra klass K. Om systemet predicerar sjukdomen, hur ofta har patienten verkligen den? Täckning är andelen korrekt klassificerade instanser bland alla dokument som enligt guldstandarden har klass K. Om patienten har sjukdomen, hur ofta predicerar klassificeraren detta?

Precision klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa

Täckning (recall) klassificerare ja klassificerare nej guldstandard ja sanna positiva falska negativa guldstandard nej falska positiva sanna negativa

Precision och täckning guldstandard G K klassificerare precision = G K K täckning = G K G

Precision och täckning fn fp guldstandard G sp K klassificerare precision = G K K täckning = G K G

Övningsuppgift Ett namnigenkänningssystem utvärderades på en samling testdata innehållande 800 namn. Av dessa bestod 500 av ett ord, 250 av två ord och 50 av tre ord. Tabellen nedan anger systemets resultat. rätt fel ettordsnamn 420 60 tvåordsnamn 200 40 treordsnamn 44 12 Ställ upp bråk för följande: täckning på ettordsnamn precision på tvåordsnamn täckning på alla namn

F1-måttet Ett bra system bör balansera precision och täckning. Dessa mått slås därför ofta ihop till ett enda mått som heter F1: F1 = 2 precision täckning precision + täckning (F1 är det harmoniska medelvärdet mellan precision och täckning.)

Baseline Absoluta värden för korrekthet, precision och täckning säger egentligen inte särskilt mycket. 80% täckning bra eller dåligt? Istället så bör man fråga efter korrekthet, precision och täckning relativt till en referensmetod, en baseline. En vanlig baseline för klassificering är Most Frequent Class: predicera alltid den mest frekventa dokumentklassen. som den observerats i träningsmängden

Sammanfattning Vad är språkteknologi? kunskapsglappet, flertydighet, kombinatorisk explosion, kontextualitet Textklassificering träningsmängd, testmängd, korrekthet, precision, täckning Läsanvisningar: JM kapitel 1 2, 3.1, Textklassificering med Naive Bayes 1 2