Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Relevanta dokument
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiska grundbegrepp

för Filofax A av Joakim Hertze

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Kognitionsvetenskapligt kandidatprogram

TDIU01 (725G67) - Programmering i C++, grundkurs

Grundläggande behörighet och Matematik B eller Matematik 2a/2b/2c (områdesbehörighet 7/A7, undantag ges för Fysik A/1b1/1a).

SPRÅKTEKNOLOGIPROGRAMMET

Utbildningsplaner för kandidat-, magister och masterprogram. 1. Identifikation. Avancerad nivå

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

Kandidatprogram i kognitionsvetenskap, 180 högskolepoäng

Språket, individen och samhället VT08

Lingvistiskt uppmärkt text

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Masterprogram i kognitionsvetenskap

Språk, datorer och textbehandling

Kandidatprogrammet i kognitionsvetenskap

Kursen ges som en del av masterprogrammet i kognitionsvetenskap. Den ges även som fristående kurs.

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Kognitionsvetenskap Kandidatprogrammet

Tekniker för storskalig parsning

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Lingvistiskt uppmärkt text

Kandidatprogrammet i kognitionsvetenskap

Linköpings universitet

Kursinformation och schema Lingvistik 729G08 (6 hp)

Kognition TEK210 (4,5 hp)

Teoretisk lingvistik och datalingvistik. Robin Cooper

Språkets struktur och funktion, 7,5 hp

el o;; Utbildningsplan för Kognitionsvetenskapligt kandidatprogram Bachefor Programmein Cognitive Science 180 Högskolepoäng

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Measuring child participation in immunization registries: two national surveys, 2001

Lingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson

SPRÅKTEKNOLOGIPROGRAMMET

Engelska GR (B), Ämneslärarutbildning för gymnasieskolan, 30 hp

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Writing with context. Att skriva med sammanhang

Spelschema för årets fotbollsmästerskap! island tyskland Söndag 14/7 Växjö Arena, Växjö. Söndag 14/7 Kalmar Arena, Kalmar

PM för kurs i Vetenskapsteori

Datavetenskapligt program, 180 högskolepoäng

Kriminologi GR (C), Forskningsmetodik II, 15 hp

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Dnr G 2014/566 LOKAL EXAMENSBESKRIVNING Examensbenämning (svensk): Filosofie kandidatexamen med huvudområdet kognitionsvetenskap Examensbenämning (eng

DSK2PRJ Fö 1 Introduktion till kursen och projektledning

Grundläggande textanalys. Joakim Nivre

Språkvetenskapliga och psykologiska perspektiv inom logopedi, 15 hp

Konventionaliserade fraser i en akademisk ordlista

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

Språkteknologi. Språkteknologi

Anhållan om ändrad ersättning för vissa HST

Session: Historieundervisning i högskolan

BESLUT. Styrelsen för humaniora och teologi Arbetsutskottet

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Föreläsning 1: Intro till kursen och programmering

Hur fattar samhället beslut när forskarna är oeniga?

Master i Kognitionsvetenskap

Att använda källorna rätt och undvika att plagiera. Matnyttig måndag, 21/ Helen Hed Bibliotekarie Umeå universitetsbibliotek

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Maskinöversättning möjligheter och gränser

Mönster. Ulf Cederling Växjö University Slide 1

Webbregistrering pa kurs och termin

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Lösningar på klimatfrågan - värderingar och försanthållanden

LOKAL EXAMENSBESKRIVNING

V.15 Måndag 8/4 Tisdag 9/4 Onsdag 10/4 Torsdag 11/4 Fredag 12/4

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

Matematiska metoder för språkvetare, 7,5 hp

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Magisterprogram/Masterprogram i kognitionsvetenskap

Totalt kurs i lv 1: aktiviteter du har under , Timmar: 1h = 1 Halvtimme = 0,5 Kvart: 0,25

Bibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Supplemental Instruction (SI) - An effective tool to increase student success in your course

Why WE care? Anders Lundberg Fire Protection Engineer The Unit for Fire Protection & Flammables Swedish Civil Contingencies Agency

Arbetsmiljö för doktorander

Linköpings universitet 1

Kursinformation och schema för Lingvistik 6 hp 729G08

Spel(ar)kultur. Spelfortbildning april Matilda Ståhl Åbo Akademi

TDDD92 Artificiell intelligens -- projekt

Datorbaserade verktyg i humanistisk forskning

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Webbreg öppen: 26/ /

Styrteknik: Binära tal, talsystem och koder D3:1

Datamodeller och databaser, avancerad kurs

Beteendevetenskapligt program, 180 hp

Transkript:

729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens.

Filosofi Psykologi Lingvistik Datavetenskap Antropologi Neurovetenskap Källa: Cognitive Science, 1978

Lärandemål redogöra för grundläggande begrepp inom språkvetenskap, särskilt morfologi, syntax och semantik utföra grundläggande språkvetenskapliga analyser såsom ordklassbestämning och dependensanalys använda datorbaserade verktyg och programmering för att samla in, analysera och validera språkliga datamängder (korpusar) planera och utföra enklare korpusundersökningar, samt redovisa och värdera resultaten

Lärare på kursen Marco Kuhlmann Examinator Robin Kurtz Laborationer Mikael Svensson Lingvistiklärare Maja Lindberg Laborationer

måndag 8 10 måndag 13 17 tisdag 10 12 onsdag 13 17 fredag 8 10 fredag 13 15 14 FÖ Kurs intro FÖ Lingvistik 1 (2 h) FÖ Lingvistik 2 SE Lingvistik 1 15 FÖ Laboration 1 LA Laboration 1 (2 h) FÖ Lingvistik 3 SE Lingvistik 2 (2 h) 16 FÖ Laboration 2 LA Laboration 2 (2 h) FÖ Lingvistik 4 SE Lingvistik 3 (2 h) Långfredagen Långfredagen 17 Annandag påsk Annandag påsk FÖ Lingvistik 5 SE Lingvistik 4 18 FÖ Laboration 3 LA Laboration 3 (2 h) Valborg Första maj 19 FÖ Laboration 4 LA Laboration 4 (2 h) FÖ Lingvistik 6 SE Lingvistik 5 20 FÖ Laboration 5 LA Laboration 5 (2 h) Lingvistik dugga FÖ Uppgift intro 21 22 SE Seminarier 1, 2 SE Seminarier 3, 4, 5, 6 SE Seminarier 7, 8 23 Deadline labbar/uppgift Deadline labbar/uppgift

Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata

Korpuslingvistik

Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga frågor utifrån språkliga data (korpusar). Ett grundantagande är att språkvetenskapliga undersökningar bör baseras på texter från fältet, i deras naturliga kontexter.

Historisk bakgrund Sedan mitten av 1900-talet är språkvetenskap i huvudsak en deskriptiv vetenskap. tidigare ofta preskriptiv Precis som i andra humaniora kan språkvetenskapliga analyser grundas i data och kvantitativa metoder. Bloomfields fältstudier, Shannons kodningsteori

Historisk bakgrund Utvecklingen av kvantitativa och statistiska metoder inom språkvetenskapen avstannade under 1950-talet: Det fanns inte tillräckligt mycket språkdata för att stödja intressanta statistiska generaliseringar. Humaniora rörde sig bort från data-orienterade beskrivningar mot introspektiva modeller av kognition. Chomsky

When measurement departs from theory, it is likely to yield mere numbers, and their very neutrality makes them particularly sterile as a source of remedial suggestions. But numbers register the departure from theory with an authority and finesse that no qualitative technique can duplicate, and that departure is often enough to start a search. Thomas Kuhn (1961)

Vad är en korpus? korpus s. -en -ar, (språkv.) mängd av undersökt textmaterial Svenska Akademiens ordlista A body of texts, utterances or other specimens considered more or less representative of language and usually stored electronically. The Oxford Companion to the English Language

Korpusar av olika slag Generella korpusar problem: representativitet Specifika korpusar inriktning mot en viss genre, författare, historisk period Parallela korpusar samma text i flera språk, för att studera översättningsfrågor

Några viktiga korpusar Namn År Storlek Språk och sort British National Corpus (BNC) American National Corpus (ANC) Corpus of Contemporary American English (COCA) Stockholm Umeå Corpus (SUC) 1994 100 miljoner ord brittisk engelska, talad och skriven 2003 22 miljoner ord amerikansk engelska, talad och skriven 2008 425 miljoner ord amerikansk engelska, talad och skriven 2006 1 miljon ord svenska, skriven

Länkar till korpusar och korpusverktyg Stockholm Umeå Corpus (Språkbanken) Korp (sökvertyg) (Språkbanken) Google Books Ngram Viewer Universal Dependencies Project

Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata

Språkteknologi

Vad är språkteknologi? Språkteknologi är teknologi för att analysera och tolka naturligt (mänskligt) språk. inte programmeringsspråk! Språkteknologi är ett tvärvetenskapligt forskningsområde som berör datavetenskap, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik

We are drowning in information but starved for knowledge. John Naisbitt (1982)

Antalet sidor indexerade av Google 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com

Kunskapsglappet ostrukturerade data (text) analytiker språkteknologi (natural language processing) strukturerade data (databas) analytiker

Informationsutvinning As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribut Värde docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types Källa: Grishman et al. (2002) location Hawaii

Kommersiellt intresse Huvudsponsorer av konferensen ACL 2017

En stor utmaning ambiguitet Jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN Exempel: Joakim Nivre

En stor utmaning ambiguitet Jag bad om en kort bit PN 99,45% NN 0,55% VB 80,93% NN 19,61% PP 63,14% SN 29,79% PL 5,13% AB 1,92% DT 95,26% PN 2,37% RG 2,28% NN 0,01% JJ 70,22% AB 19,66% NN 10,11% NN 100,00% VB 0,00% Data: Stockholm Umeå Corpus (träningsdel)

Denna föreläsning Kursens lärandemål och organisation Användningsområde Korpuslingvistik Användningsområde Språkteknologi Programmeringstekniker för textdata