729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens.
Filosofi Psykologi Lingvistik Datavetenskap Antropologi Neurovetenskap Källa: Cognitive Science, 1978
Lärandemål redogöra för grundläggande begrepp inom språkvetenskap, särskilt morfologi, syntax och semantik utföra grundläggande språkvetenskapliga analyser såsom ordklassbestämning och dependensanalys använda datorbaserade verktyg och programmering för att samla in, analysera och validera språkliga datamängder (korpusar) planera och utföra enklare korpusundersökningar, samt redovisa och värdera resultaten
Lärare på kursen Marco Kuhlmann Examinator Robin Kurtz Laborationer Mikael Svensson Lingvistiklärare Maja Lindberg Laborationer
måndag 8 10 måndag 13 17 tisdag 10 12 onsdag 13 17 fredag 8 10 fredag 13 15 14 FÖ Kurs intro FÖ Lingvistik 1 (2 h) FÖ Lingvistik 2 SE Lingvistik 1 15 FÖ Laboration 1 LA Laboration 1 (2 h) FÖ Lingvistik 3 SE Lingvistik 2 (2 h) 16 FÖ Laboration 2 LA Laboration 2 (2 h) FÖ Lingvistik 4 SE Lingvistik 3 (2 h) Långfredagen Långfredagen 17 Annandag påsk Annandag påsk FÖ Lingvistik 5 SE Lingvistik 4 18 FÖ Laboration 3 LA Laboration 3 (2 h) Valborg Första maj 19 FÖ Laboration 4 LA Laboration 4 (2 h) FÖ Lingvistik 6 SE Lingvistik 5 20 FÖ Laboration 5 LA Laboration 5 (2 h) Lingvistik dugga FÖ Uppgift intro 21 22 SE Seminarier 1, 2 SE Seminarier 3, 4, 5, 6 SE Seminarier 7, 8 23 Deadline labbar/uppgift Deadline labbar/uppgift
Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata
Korpuslingvistik
Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga frågor utifrån språkliga data (korpusar). Ett grundantagande är att språkvetenskapliga undersökningar bör baseras på texter från fältet, i deras naturliga kontexter.
Historisk bakgrund Sedan mitten av 1900-talet är språkvetenskap i huvudsak en deskriptiv vetenskap. tidigare ofta preskriptiv Precis som i andra humaniora kan språkvetenskapliga analyser grundas i data och kvantitativa metoder. Bloomfields fältstudier, Shannons kodningsteori
Historisk bakgrund Utvecklingen av kvantitativa och statistiska metoder inom språkvetenskapen avstannade under 1950-talet: Det fanns inte tillräckligt mycket språkdata för att stödja intressanta statistiska generaliseringar. Humaniora rörde sig bort från data-orienterade beskrivningar mot introspektiva modeller av kognition. Chomsky
When measurement departs from theory, it is likely to yield mere numbers, and their very neutrality makes them particularly sterile as a source of remedial suggestions. But numbers register the departure from theory with an authority and finesse that no qualitative technique can duplicate, and that departure is often enough to start a search. Thomas Kuhn (1961)
Vad är en korpus? korpus s. -en -ar, (språkv.) mängd av undersökt textmaterial Svenska Akademiens ordlista A body of texts, utterances or other specimens considered more or less representative of language and usually stored electronically. The Oxford Companion to the English Language
Korpusar av olika slag Generella korpusar problem: representativitet Specifika korpusar inriktning mot en viss genre, författare, historisk period Parallela korpusar samma text i flera språk, för att studera översättningsfrågor
Några viktiga korpusar Namn År Storlek Språk och sort British National Corpus (BNC) American National Corpus (ANC) Corpus of Contemporary American English (COCA) Stockholm Umeå Corpus (SUC) 1994 100 miljoner ord brittisk engelska, talad och skriven 2003 22 miljoner ord amerikansk engelska, talad och skriven 2008 425 miljoner ord amerikansk engelska, talad och skriven 2006 1 miljon ord svenska, skriven
Länkar till korpusar och korpusverktyg Stockholm Umeå Corpus (Språkbanken) Korp (sökvertyg) (Språkbanken) Google Books Ngram Viewer Universal Dependencies Project
Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata
Språkteknologi
Vad är språkteknologi? Språkteknologi är teknologi för att analysera och tolka naturligt (mänskligt) språk. inte programmeringsspråk! Språkteknologi är ett tvärvetenskapligt forskningsområde som berör datavetenskap, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik
We are drowning in information but starved for knowledge. John Naisbitt (1982)
Antalet sidor indexerade av Google 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com
Kunskapsglappet ostrukturerade data (text) analytiker språkteknologi (natural language processing) strukturerade data (databas) analytiker
Informationsutvinning As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribut Värde docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types Källa: Grishman et al. (2002) location Hawaii
Kommersiellt intresse Huvudsponsorer av konferensen ACL 2017
En stor utmaning ambiguitet Jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN Exempel: Joakim Nivre
En stor utmaning ambiguitet Jag bad om en kort bit PN 99,45% NN 0,55% VB 80,93% NN 19,61% PP 63,14% SN 29,79% PL 5,13% AB 1,92% DT 95,26% PN 2,37% RG 2,28% NN 0,01% JJ 70,22% AB 19,66% NN 10,11% NN 100,00% VB 0,00% Data: Stockholm Umeå Corpus (träningsdel)
Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata