SPRÅKTEKNOLOGI. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Tentamen Marco Kuhlmann

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Grundläggande textanalys. Joakim Nivre

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Datamodeller och databaser, avancerad kurs

Matematiska metoder för språkvetare, 7,5 hp

SPRÅKTEKNOLOGIPROGRAMMET

Språkteknologi. Språkteknologi

EVALUATION OF ADVANCED BIOSTATISTICS COURSE, part I

Tentamen Del A. Marco Kuhlmann

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

CS - Computer science. Datateknik Informationsbehandling Datalogi Datavetenskap (ÅA 2008)

SPRÅKTEKNOLOGIPROGRAMMET

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Spanska (1-27,5 hp) Programkurs 27.5 hp Spanish (1-27.5) 92SP11 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum

Administrivia. hh.se/db Verónica Gaspes (Kursansvarig) 2 Daniel Petersson (Labassistent) Examination. 1 Skriftlig tentamen (betyg)

Kursplan för kurs på grundnivå

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap

Programmering, grundkurs

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

Kursplan för kurs på grundnivå

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Spanska (1-27,5 hp) Programkurs 27,5 hp Spanish (1-27,5 cr) 92SP11 Gäller från: Fastställd av. Fastställandedatum.

Bootstrapping för substantivtaggning

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Ökat personligt engagemang En studie om coachande förhållningssätt

Spanska (1-30 hp) Programkurs 30 hp Spanish (1-30 cr) 93SP17 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

Välkomna till DIT012 IPGO. Tyvärr en bug i Google Docs: Sidnummer stämmer inte alltid. Alla anteckningar börjar på sidan 1.

Kursplan. NA1032 Makroekonomi, introduktion. 7,5 högskolepoäng, Grundnivå 1. Introductory Macroeconomics

Turismvetenskap GR (B), E-turism: digital distribution, marknadsföring och information, 15 hp

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Administrivia. hh.se/db Verónica Gaspes (Kursansvarig) 2 Mattias Enervall (Övningsassistent) Examination. 1 Skriftlig tentamen (betyg)

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Workplan Food. Spring term 2016 Year 7. Name:

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Unit course plan English class 8C

Grammatiska metaforer i engelskan och hur de översätts till svenska. Lene Nordrum Engelska institutionen Göteborgs universitet

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Inkvarteringsstatistik. Göteborg & Co

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

SPRÅKTEKNOLOGIPROGRAMMET (STP)

FTEA21:3 Spr akfilosofi F orel asning II Martin J onsson

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Fastställande. Allmänna uppgifter. Kursens mål

Adding active and blended learning to an introductory mechanics course

Språkteknologi och Open Source

Engelska GR (B), Ämneslärarutbildning för gymnasieskolan, 30 hp

Kandidatprogram i kognitionsvetenskap, 180 högskolepoäng

SOCA45, Sociologi: Klass, kön och etnicitet, 30 högskolepoäng Sociology: Class, Gender and Ethnicity, 30 credits Grundnivå / First Cycle

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Programming in C# and.net Framework

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

SOCA13, Sociologi: Socialpsykologi, 30 högskolepoäng Sociology: Social Psychology, 30 credits Grundnivå / First Cycle

Cristina Eriksson oktober 2001

Person 33. Basic Information. Studies. Enskilda enkäter för Utbytesrapport/Exchange Report

RY1101, Ryska, grundkurs, del 1, 15,0 högskolepoäng Russian, Introductory Course, Part 1, 15.0 higher education credits

INSTITUTIONEN FÖR SOCIOLOGI OCH ARBETSVETENSKAP

Do you Think there is a problem with the car traffic to or from the inner city weekdays ?

Förändrade förväntningar

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Tal- och skriftspråksutveckling i förskola och förskoleklass 15 högskolepoäng, Grundnivå 2

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

Campuskurs Distanskurs Annan. Examinator Remigijus Gustas

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Quicksort. Koffman & Wolfgang kapitel 8, avsnitt 9

Anhållan om ändrad ersättning för vissa HST

Föreläsning 1: Intro till kursen och programmering

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Föreläsning 1: Intro till kursen och programmering

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Make a speech. How to make the perfect speech. söndag 6 oktober 13

INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI

Engelska GR (B), 30 hp

RY1201, Ryska, fortsättningskurs, del 1, 15,0 högskolepoäng Russian, Intermediate Course, Part 1, 15.0 higher education credits

Nyhetsbevakning och Information Retrieval. Utvärdering av nyhetsbevakningssystem. Syfte med IR-system. Vilket system är bättre?

ENGA04, Engelska: Grundkurs, 30 högskolepoäng English: Level 1, 30 credits Grundnivå / First Cycle

COMPUTABILITY BERÄKNINGSBARHET. Källa: Goldschlager, Lister: Computer Science A Modern Introduction 2. upplaga 1988, Prentice Hall

Kursplan. FÖ1038 Ledarskap och organisationsbeteende. 7,5 högskolepoäng, Grundnivå 1. Leadership and Organisational Behaviour

INSTITUTIONEN FÖR SOCIOLOGI OCH ARBETSVETENSKAP

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

Kursguide till. RY1200 Fortsättningskurs i ryska, 30 hp INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER VT16

Avdelningen för informations- och kommunikationssystem Fakulteten för naturvetenskap, teknik och medier

Transkript:

SPRÅKTEKNOLOGI Marco Kuhlmann Institutionen för datavetenskap

Vad är språkteknologi?

Vad är språkteknologi? all teknologi som hanterar mänskligt språk Exempel: analys, förståelse, produktion ett tvärvetenskapligt forskningsområde med inslag av lingvistik, datavetenskap och kognitionsvetenskap

Philosophy Psychology Linguistics Computer Science Anthropology Neuroscience Sloan Report (1978)

Informationssökning Manning, Raghavan och Schütze (2008) Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). = språk!

Källa: http://www.apple.com/ios/siri/

mening diskursanalys pragmatisk analys semantisk analys syntaktisk analys morfologisk analys fonetisk analys ljudsignal

Källa: cbsonline.com

Källa: www.sentiment140.com

associated ollection of le in 2006 d in publicly icon of 964 er variety of ap them to ch the terms et term that ginal POMS ) and via the ension. The mined as the tweet term nd methods e series we l mean and days before core of time (1) an and stan- [t k, t+k]. ate around a rd deviation. gainst large S to capture apply them ber 5, 2008 specifically at may have ublic mood, 2008) and nd GPOMS against the he resulting increases of Vital, Happy as well as Kind scores. The latter indicates a public that is energized, happy and friendly on election day. On November 5, these GPOMS dimensions continue to indicate positive mood levels, in particular high levels of Calm, Sure, Vital and Happy. After November 5, all mood dimensions gradually return to the baseline. The public mood response to Thanksgiving on November 27, 2008 provides a counterpart to the differentiated response to the Presidential election. On Thanksgiving day we find a spike in Happy values, indicating high levels of public happiness. However, no other mood dimensions are elevated on November 27. Furthermore, the spike in Happy values is limited to the one day, i.e. we find no significant mood response the day before or after Thanksgiving. z-scores 1.75 1.25 1-1 1-1 1-1 1 1-1 -1 1-1 OpinionFinder CALM ALERT SURE VITAL KIND HAPPY day after election pre- election anxiety election results pre! election energy Humör och aktiepriser Thanksgiving Thanksgiving happiness Oct 22 Oct 29 Nov 05 Nov 12 Nov 19 Nov 26 Fig. 2. Tracking public mood states from tweets posted between October 2008 to December 2008 shows public responses to presidential election and thanksgiving. Twitter Mood Predicts the Stock Market Johan Bollen, Huina Mao, and Xiao-Jun Zeng

Geographic meaning of words (ba Källa: Jason Baldridge

Naturliga språk Språkteknologi avser naturliga språk. Exempel: svenska; mandarin, spanska, engelska, hindi, arabiska, portugisiska, bengali, ryska, japanska, punjabi Det finns idag ca. 7 000 levande språk.

Världens språk

Naturliga språk vs. programmeringsspråk Programmeringsspråk kan tolkas i isolation. Tolkning av naturliga språk beror av kunskap utanför språket. Programmeringsspråk strävar efter entydighet. Naturliga språk är extremt flertydiga.

Kontextualitet Tolkningen av ett yttrande går utöver den information som ges av orden och syntaxen. Exempel: A: Kommer du ikväll? B: Jag har träning. Grammatisk korrekthet varierar med kontext. Exempel: A: Hur mycket är klockan? B: Fem, tror jag.

Flertydighet Hur kan jag boka en tågresa med rullstol? Denna mening är flertydig. På vilket sätt? Hur hanterar vi flertydigheten? Hur skulle en dator kunna hantera flertydigheten?

Kursens innehåll och uppläggning

Samläsning 729G17 kandidatprogram i kognitionsvetenskap (obligatorisk kurs) TDDD01 kandidatprogram i datavetenskap (C); civilingenjörsutbildning i datateknik (D); kandidatprogram i innovativ programmering (IP); civilingenjörsutbildning i informationsteknologi (IT)

Lärandemål (1) Efter avslutad kurs ska ni kunna redogöra för grundläggande metoder och tekniker för automatisk analys och tolkning av ord och meningar tillämpa reguljära uttryck, formell grammatik och statistiska metoder för analys av ord och meningar i löpande text redogöra för delproblem och standardlösningar i samband med automatisk textförståelse

Lärandemål (2) Efter avslutad kurs ska ni kunna utvärdera algoritmer och system med avseende på korrekthet, precision och recall redogöra för de vanligaste arkitekturerna i språkteknologiska tillämpningssystem värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar

Daniel Jurafsky och James H. Martin. Speech and Language Processing, 2nd edition. Prentice Hall, 2009.

Undervisning Föreläsningar (12 föreläsningar à 2 h) Föreläsare: Marco Kuhlmann Laborationer (3 handledda labpass à 8 h) Laborationsassistenter: Sarah Albertsson, Per Fallgren, Marcus Liw, Jonas Rybing Projektarbete (40 h)

Examination 729G17 LAB 1,5 hp U, G Laborationskurs PROJ 1,5 hp U, G, VG Projektarbete TEN2 3 hp U, G, VG Skriftlig tentamen 2015-03-16 Kursbetyget baseras i första hand på TEN2.

Examination TDDD01 LAB 3 hp U, 3, 4, 5 Laborationskurs med projekt TEN1 3 hp U, 3, 4, 5 Skriftlig tentamen 2015-03-16 Kursbetyget baseras i första hand på TEN1.

Textklassificering

Textklassificering Sortera in dokument i fördefinierade klasser. Exempel: klassificera dokument utifrån språk eller författare; hitta dokument som innehåller information om ett givet ämne

Skräppostfiltrering inget ärende dolda mottagare stavfel misstänkta ord många frågetecken obskyra adresser

Författaridentifiering Alexander Hamilton James Madison

Attitydpredicering The gorgeously elaborate continuation of The Lord of the Rings trilogy is so huge that a column of words cannot adequately describe co-writer/director Peter Jackson s expanded vision of J.R.R. Tolkien s Middle-earth. positiv is a sour little movie at its core; an exploration of the emptiness that underlay the relentless gaiety of the 1920 s, as if to stop would hasten the economic and global political turmoil that was to come. negativ

Handskrivna regler Vi kan tilldela ett dokument en klass genom handskrivna regler. Exempel: om anonyma mottagare och texten innehåller ditt konto kommer att raderas då sortera som skräp Handskrivna regler kan ha hög precision, men att utveckla och att underhålla dem är kostsamt.

Maskininlärning De flesta system för automatisk textklassificering använder idag någon form av maskininlärning. Den vanligaste ansatsen är att träna upp ett system på data bestående av dokument taggade med korrekta klasser. Sedan använder man det tränade systemet för att klassificera nya dokument.

Övervakad inlärning UK China Elections Sports congestion London Olympics Beijing recount votes diamond baseball Parliament Big Ben tourism Great Wall seat run-off forward soccer Windsor The Queen Mao Communist TV-ads campaign team captain first private Chinese airline?

Predicera talarens blocktillhörighet Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder. Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och rangeras ut från välfärdspolitiken. Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten - 13,2 miljarder. Det är ok med sänkt restaurangmoms - 5,4 miljarder. Hamburgare och korv kan subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att bostadsministern har den uppfattningen om vikten av politisk prioritering. Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet men inte har någon bostad? Vad säger bostadsministern till det paret?

Predicera talarens blocktillhörighet vänster (L) höger (R)

Utvärdering av textklassificeringssystem

Guldstandard Ett sätt att utvärdera klassificeringssystem är att jämföra deras resultat med en guldstandard: texter taggade med korrekt klass. En guldstandard kan vara objektivt eller subjektivt korrekt. Exempel: riksdagsanföranden vs. spam Att få tag i eller skapa en guldstandard kan ibland vara relativt lätt, ibland kosta mycket pengar och tid.

Utvärderingsmått: Korrekthet Korrekthet (eng. accuracy) mäter andelen av alla dokument i testmängden för vilka systemet har predicerat rätt klass. Korrekthet är ett enkelt och överskådligt mått, men kan ibland vara missvisande. Exempel: detektering av sällsynta sjukdomar

Problem med korrekthetsmåttet Antag att vi ska bygga ett system som utifrån texter skrivna av patienter på en geriatrimottagning ska predicera om patienterna har eller inte har en ovanlig neurologisk sjukdom. Vår testmängd består av 10 000 texter, 10 skrivna av patienter med sjukdomen och 9 990 skrivna av patienter utan denna sjukdom. Det är väldigt lätt att bygga ett system som får 99,9% på denna uppgift: Predicera alltid att patienten inte har inte sjukdomen.

Korstabell guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa

Korstabell för diagnosexemplet guldstandard ja guldstandard nej klassificerare ja 0 0 klassificerare nej 10 9990 systemet ska inte få poäng för dessa!

Utvärderingsmått: Precision och täckning Precision och täckning (eng. recall) är utvärderingsmått som zoomar in på hur bra systemet är att identifiera specifika klasser. Exempel: Hur bra är systemet på att detektera sjukdomen? Ett bra system bör balansera precision och recall.

Precision guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa

Täckning (recall) guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa

Precision och täckning guldstandard G K klassificerare precision = G K K täckning = G K G

Precision och täckning fn fp guldstandard G sp K klassificerare precision = G K K täckning = G K G

Precision och täckning för diagnosexemplet 10 0 guldstandard G 0 K klassificerare precision = 0 0 + 0 täckning = 0 10 + 0 odefinierad!

Baseline En baseline är en enkel, ibland till och med trivial metod för att lösa ett problem. En vanlig baseline för klassificering är Most Frequent Class: predicera alltid den mest frekventa klassen. Denna baseline förutsätter att vi delar upp guldstandarden i två delmängder: en för att testa, en för att räkna klasser på. Fråga: Varför bör dessa delmängder vara disjunkta?

Experiment Testdata: 60 riksdagsanföranden från riksmötet 2013/2014 modell korrekthet baseline 55% studentgrupp 80% Naive Bayes 84%