Lingvistiska grundbegrepp



Relevanta dokument
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Semantisk analys. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Frasstrukturgrammatik

Språkteknologi. Språkteknologi

Grammatik för språkteknologer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Grammatik för språkteknologer

Fraser, huvuden och bestämningar

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Tentamen Marco Kuhlmann

729G09 Språkvetenskaplig databehandling

Ordklasser och satsdelar

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Datorlingvistisk grammatik

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Datorlingvistisk grammatik

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

TDDC89 LINGVISTIK måndag 20 oktober 2008

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Grundläggande textanalys. Joakim Nivre

grammatik Ordklasser, nominalfraser, substantiv

Tekniker för storskalig parsning

Grammatik för språkteknologer

Semantik. Semantik och språkteknologi

Ordförråd och Ordbildning

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Datorlingvistisk grammatik

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Svenskans struktur, 7,5 hp Tentamensexempel 1

Facit för diagnostiska provet i grammatik

Grammatisk teori II Attributvärdesgrammatik

Grammatik för språkteknologer

Institutionen för lingvistik och filologi HT 2007

Datum: Date: Provkodr: KTR1 Exam code:

Lingvistik III Morfem och morfologi. 729G49 10 April

Morfologi och syntax. Föreläsning 1 & 2

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Grundläggande syntaktiska funktioner och roller

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Institutionen för lingvistik och filologi HT 2009

Världens språk, 7,5hp vt 2012

Inlämningsuppgift: Pronomenidentifierare

Karp. Övningar Språkbankens höstworkshop oktober 2016

Språk, datorer och textbehandling

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

ORDKLASSERNA I. Ett sätt att sortera våra ord

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Teoretisk lingvistik och datalingvistik. Robin Cooper

SUBSTANTIV = namn på saker, personer, känslor

Träningshäfte ordklasser (Venus)

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Svensk grammatik Ordklasser!

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Kursbeskrivning med litteraturlista HT-13

Svenskans struktur, 7,5 hp Tentamensexempel 3

Semantik och pragmatik

Välkommen till den första delkursen i svenska!

Lingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson

En byggmodell över språket fonemet morfemet

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Ord och morfologi. Morfologi

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

ORDKLASSERNA I SVENSKA SPRÅKET

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Datum: Date: Provkodr: KTR1 Exam code:

Word- sense disambiguation

FTEA12:2 Filosofisk metod. Att värdera argumentation I

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Datum: Date: Provkodr: KTR1 Exam code:

Obesvarade frågor från F1

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Världens språk, 7,5hp vt 2012

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Språkets struktur och funktion, 7,5 hp

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Lingvistik I Delmoment: Datorlingvistik

Språkteknologi och Open Source

Semantik och pragmatik

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Transkript:

729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap

Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga frågor utifrån korpusdata. Utgångspunkt: Språkvetenskapliga undersökningar bör baseras på texter från fältet, i deras naturliga kontexter.

Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera naturligt språk. Språkteknologi är ett tvärvetenskapligt forskningsområde med inslag av datalogi, lingvistik och kognitionsvetenskap. annat namn: datorlingvistik; engelska: natural language processing

Tokenisering Rå text Tokeniserad text Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar. Den liknar andra arter inom familjen med böjd näbb, mönstrad brun ovansida, vitaktig undersida och långa styva stjärtpennor som den använder för att kunna balansera upprätt på trädstammar och grenar.

Denna föreläsning Lingvistiska grundbegrepp Presentation av UPG2

Lingvistiska grundbegrepp

Från form till betydelse pragmatik semantik analys generering syntax morfologi

Morfologi pragmatik semantik analys generering syntax morfologi

Rose is a rose is a rose is a rose. Gertrude Stein (1913)

Många olika typer av ord Begreppet ord kan syfta på en ordförekomst eller en ordtyp. Rose is a rose is a rose is a rose. Två ord kan ha samma form, men vara olika lexem. Jag föredrar slips framför fluga. Det satt en fluga på väggen. Två ord kan ha olika former, men ha samma lemma. tanke, tanken, tankar

Skolans nio ordklasser tagg kategori exempel VB verb kasta NN substantiv pudding PN pronomen hon JJ adjektiv glad AB adverb inte KN konjunktion och PP preposition över RG räkneord tre IN interjektion aj

Morfem Morfem är de minsta betydelsebärande enheterna i ett språk. de minst+a betyd+else+bär+a+nde enhet+er+na Ett ord består av ett rotmorfem och noll eller flera affix. rit+a, rit+ar, rit+ning, rit+bart, o+rit+bart Morfem är inte alltid sammanhängande. Hebreiska k-t-b skriva : כתב (katav) skrev, מכתב (mixtav) ett brev Morfem består inte alltid av ljud. ett hus vs. flera hus+

Varför behöver vi morfologi? I svenskan böjs de flesta adjektiv efter substantivet. en lång arm ett lång+t ben, lång+a arm+ar, den lång+a arm+en I andra språk böjs även andra typer av ord. Tyska: Ich gehe in das Haus. Wir gehen in die Häuser. Genom att detektera böjningar kan vi se vilka ord som hör ihop.

Tre problem med morfologisk analys Regularitet Hur kan vi representera regularitet i morfologisk variation? Flertydighet Time flies like an arrow; fruit flies like a banana. Dynamik manspreading, weak sauce, cupcakery

Finita automater som morfologiska lexikon q 3 n q 5 a s s a p q 0 q 1 q 2 q 4 a a-övergång o q 6 s q 8 r n q 7 sluttillstånd

Syntax pragmatik semantik analys generering syntax morfologi

Fraser Ord i meningar bildar fraser. nominalfraser (NP) hon. Fredrik Reinfeldt och de nya Moderaterna. ett sådant klassiskt ställe som Operakällaren. verbfraser (VP) rodnade. bad henne att öppna fönstret. levde lyckliga i alla sina dagar.

Satser Fraser bildar satser. deklarativa satser De köpte en hund. Igår köpte de en hund. interrogativa satser Köpte de en hund? När köpte de en hund? imperativa satser Köp en hund!

Frasstrukturträd S NP VP Pro Verb NP I prefer Det Nom a Nom Noun Noun flight morning

Syntaktiska dependensträd nsubj xcomp nmod cpd aux mark case 1 2 3 4 5 6 7 8 Cray Computer has applied to trade on Nasdaq PTB section 00, document 18, item 026; Stanford dependencies (basic)

Semantik pragmatik semantik analys generering syntax morfologi

Syntax och semantik Kompositionalitetsprincipen Betydelsen hos ett komplext uttryck avgörs av betydelserna hos dess deluttryck och hur dessa deluttryck har kombinerats. utmaningar: idiomatiska uttryck, kontextualitet Syntax har en avgörande roll för en menings betydelse. The brown dog on the mat saw the striped cat through the window. The brown cat saw the striped dog through the window on the mat.

WordNet standard, criterion, measure, touchstone medium of exchange, monetary system scale, graduated table, ordered series currency money Richter scale coinage, mintage, specie, metal money fund, monetary fund coin budget nickel dime

You shall know a word by the company it keeps. John Rupert Firth (1890 1960)

Matris med samförekomster kontext målord kung tron regerar Sverige match mål spelar drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1

Ordvektorer kontext målord kung tron regerar Sverige match mål spelar drottning 4 1 1 2 0 0 0 kung 3 2 1 3 1 0 0 fotboll 1 0 0 4 3 4 2 hockey 0 1 0 1 2 1 1

Ord som vektorer krona drottning kung fotboll Sverige

Att räkna med ordvektorer kvinna drottning man kung

Semantiska dependensgrafer ARG1 cpd ARG1 ARG2 ARG1 ARG2 1 2 3 4 5 6 7 8 Cray Computer has applied to trade on Nasdaq PTB section 00, document 18, item 026; SDP/DM

Denna föreläsning Lingvistiska grundbegrepp Presentation av UPG2