729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Relevanta dokument
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiska grundbegrepp

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Tentamen Marco Kuhlmann

Lingvistiskt uppmärkt text

Grundläggande textanalys. Joakim Nivre

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språk, datorer och textbehandling

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi. Språkteknologi

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Tekniker för storskalig parsning

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Tekniker för storskalig parsning

SPRÅKTEKNOLOGIPROGRAMMET

Lingvistiskt uppmärkt text

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Språket, individen och samhället VT08

Språkteknologi och Open Source

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Konventionaliserade fraser i en akademisk ordlista

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Bootstrapping för substantivtaggning

Korpussökning och korpusmått 1(44)

SPRÅKTEKNOLOGIPROGRAMMET

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Frasstrukturgrammatik

Name: Beginners Swedish for Exchange Students, 1-20 points

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Teoretisk lingvistik och datalingvistik. Robin Cooper

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Affärsmodellernas förändring inom handeln

Regler för utbildning på forskarnivå vid Humanistiska fakulteten.

729G09 Språkvetenskaplig databehandling

Lingvistik I Delmoment: Datorlingvistik

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Grammatik för språkteknologer

Vad är mönsterspråk?

Kort presentation av Korp, Sveriges nationalkorpus

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Tentamen Del A. Marco Kuhlmann

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

Svensk nationell datatjänst, SND BAS Online

Datorbaserade verktyg i humanistisk forskning

Korp. Övningar Språkbankens höstworkshop oktober 2016

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

PERIODISERA DIN TRÄNING

INTERNATIONAL SPINAL CORD INJURY DATA SETS - QUALITY OF LIFE BASIC DATA SET Swedish version

Introduction to the Semantic Web. Eva Blomqvist

Session: Historieundervisning i högskolan

Measuring child participation in immunization registries: two national surveys, 2001

Språkbanken en (inter)nationell forskningsinfrastruktur

Mönster. Ulf Cederling Växjö University Slide 1

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Kursplan och läromedelsförteckning

Engelska GR (B), Ämneslärarutbildning för gymnasieskolan, 30 hp

KURSPLAN Engelska, hp, 30 högskolepoäng

Språk, datorer och textbehandling

SPRÅKKONSULTPROGRAMMET

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Förslag gällande beredningsgång för individuella läskurser på forskarutbildningsnivå

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Quality-Driven Process for Requirements Elicitation: The Case of Architecture Driving Requirements

Kursintroduktion. B-uppsats i hållbar utveckling vårterminen 2017

Lingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson

Supplemental Instruction (SI) - An effective tool to increase student success in your course

SVENSK STANDARD SS-ISO 8734

Validering av kvalitetsregisterdata vad duger data till?

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Tekniker för storskalig parsning

Språkkonsultprogrammet

State Examinations Commission

Writing with context. Att skriva med sammanhang

Kognitionsvetenskapligt kandidatprogram

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Maskinöversättning möjligheter och gränser

Datavetenskapligt program, 180 högskolepoäng

Provlektion Just Stuff B Textbook Just Stuff B Workbook

Kandidatprogrammet i kognitionsvetenskap

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Examensbenämning och ämnesbeskrivning. 1. Utbildningens mål HUMANISTISKA FAKULTETEN

Transkript:

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap

Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Korpuslingvistik

Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga frågor utifrån korpusdata. Utgångspunkt: Språkvetenskapliga undersökningar bör baseras på texter från fältet, i deras naturliga kontexter.

Vad är en korpus? lat. corpus, oris n kropp korpus s. -en -ar, (språkv.) mängd av undersökt textmaterial Svenska Akademiens ordlista A body of texts, utterances or other specimens considered more or less representative of language and usually stored electronically. The Oxford Companion to the English Language

Typiska frågeställningar Kan man säga X? Heter det en apelsin eller ett apelsin? Vad är skillnaden mellan X och Y (i betydelse, i stilnivå)? flicka vs. tjej Hur används X (generellt, i olika genrer, i olika tider)? tackle/noun vs. tackle/verb

Korpuslingvistisk metod: 3A Wallis och Nelson (2001) Hur kommer man från data till kunskap? Annotation strukturell uppmärkning, ordklasser, syntaktisk information Abstraction Relatera annotationerna till begrepp i en modell av texten. Analysis Använd modellen för att generera och testa hypoteser om språk.

Korpusar av olika slag Generella korpusar problem: representativitet Specifika korpusar inriktning mot en viss genre, författare, historisk period Parallela korpusar samma text i flera språk, för att studera översättningsfrågor Språkteknologiska korpusar för att träna och utvärdera språkteknologiska system

Korpusverktyg Frekvensanalys Visa de 50 mest frekventa orden i denna korpus. Konkordanser (KWIC = Keyword In Context) Visa alla kontexter i vilka ordet X används. Kollokationsanalys Visa ord som förekommer tillsammans oftare än väntat.

Exempel på korpusar och korpusverktyg Stockholm Umeå Corpus (Språkbanken) Korp (Språkbanken) Google Books Ngram Viewer British National Corpus (Oxford University) American National Corpus

Att skapa korpusar Fas Beskrivning Urval Välja ut de texter som ska vara med i korpusen. Insamling Samla in texterna, t.ex. genom att spindla webben. Avformatering Ta bort strukturell uppmärkning, t.ex. XML. Segmentering Dela upp textmaterialet i relevanta enheter. Annotering Lägg till relevant information, t.ex. ordklasser.

Tokenisering Rå text Tokeniserad text Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar. Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar.

Språkteknologi

Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing

We are drowning in information but starved for knowledge. John Naisbitt (1982)

Många sidor på nätet 35 30 25 20 15 10 5 0 2008 2009 2010 2011 2012 2013 2014 Källa: statisticbrain.com

Kunskapsglappet ostrukterade data (text)! analytiker språkteknologi (textanalys) strukturerade data (kunskapsdatabas) " analytiker

Informationsutvinning As of 15 Mar 2002, Hawaii state health officials reported one additional recent case of dengue fever and 6 cases that occurred last year but were not confirmed by laboratory testing until 2002. Attribute Value docno ProMed.20020322.11 doc_date 2002.03.22 disease_name dengue fever norm_stime 2002.03.15 norm_etime 2002.03.15 victim_types Källa: Grishman et al. (2002) location Hawaii

Kommersiellt intresse Källa: ACL 2015

Två utmaningar: Flertydighet och kontextualitet Flertydighet Ett och samma språkliga yttrande kan betyda flera olika saker. Time flies like an arrow. Fruit flies like a banana. Kontextualitet Ett språkligt yttrande kan endast tolkas i ett sammanhang. A: Kommer du ikväll? B: Jag har träning.

Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN Exempel: Joakim Nivre