Språkteknologi. Språkteknologi

Relevanta dokument
Lingvistiska grundbegrepp

Semantik. Semantik och språkteknologi

Språkteknologi och Open Source

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Cristina Eriksson oktober 2001

Teoretisk lingvistik och datalingvistik. Robin Cooper

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Grundläggande syntaktiska funktioner och roller

Facit Mango Grammatik Ordklasser Fortsättning

729G09 Språkvetenskaplig databehandling

Grammatik för språkteknologer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Ordklasser och satsdelar

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Word- sense disambiguation

Arbetsplan i Thailändska

Svensk grammatik Ordklasser!

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Svenskans struktur, 7,5 hp Tentamensexempel 1

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Tema Antiken år 6 Svenska

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Grammatik för språkteknologer

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Ordförråd och Ordbildning

Frasstrukturgrammatik

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

grammatik Ordklasser, nominalfraser, substantiv

Lingvistiskt uppmärkt text

ORDKLASSERNA I SVENSKA SPRÅKET

Övergripande planering

Grammatisk teori II Attributvärdesgrammatik

Ämnesspråk i matematik - något mer än begrepp? Ida Bergvall, PhD

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lexikon: ordbildning och lexikalisering

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Svenska som andraspråk åk 1

Kommunikation. Språk och språkteknologier. Semiotik. Kommunikationsmodell. Saussures strukturalism. Finns betydelse? Teckenkod.

Grammatik för språkteknologer

Grundläggande begrepp inom lexikal semantik. Hanna Seppälä Uppsala universitet 1

Karp. Övningar Språkbankens höstworkshop oktober 2016

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Introduktionsmöte Lingvistik, Grundkurs 1 30hp

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Bonusmaterial Språkskrinet Bläckfisk

PROV ORDKLASSER SV Förklara vad ett konkret substantiv är och ge två exempel (3p)

Det talade språket i ett longitudinellt perspektiv

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Datorlingvistisk grammatik

TDDC89 LINGVISTIK måndag 20 oktober 2008

Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Repetition ordklasser och satsdelar Bas och Fortsättning (s. 8-95)

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Objektorienterad programmering

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Ordbok arabiska - svenska. Denna ordboks webbadress är:

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Språkpsykologi/psykolingvistik

ESN lokala kursplan Lgr11 Ämne: Svenska

Arbetsplan B1-B2. Svenska kursenheten. Deltagare 2016

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Tekniker för storskalig parsning

Grammatik för språkteknologer

Grammatisk teori III Praktisk analys

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Här följer den pedagogiska planeringen för det arbetsområde som kommer att pågå från och med vecka 5, i samarbete med SO.

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Kognitionsvetenskap Kandidatprogrammet

Studiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.

SÄRSKILD PRÖVNING I SVENSKA A

Om ämnet Engelska. Bakgrund och motiv

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Kognitionsvetenskapligt kandidatprogram

BEDÖMNINGSSTÖD till TUMMEN UPP! svenska åk 3

Semantik och pragmatik

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Varför är logik viktig för datavetare?

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

Verb betecknar vad någon eller något

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

Inlämningsuppgift: Pronomenidentifierare

SUBSTANTIV = namn på saker, personer, känslor

Svensk minigrammatik

Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2011

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Pre-editering och maskinöversättning. Convertus AB

Fraser, huvuden och bestämningar

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

Riktlinjer för Försäkringskassans begreppskatalog

Faktorer av betydelse för en flerspråkig utveckling. Sociala faktorer. Språkliga faktorer. Pedagogiska faktorer

Material från

Transkript:

Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi användbara ochintressanta uppgifter med naturliga språk, till exempel: Verktygsom underlättar vid skrivning, läsning, informationssökning, sammanfattning, översättning, mm. Gränssnitt i naturligt språk. 1

Språkteknologi Fråga 1: Hur får vi datorer att bearbeta mänskligt språk och utföra intressanta uppgifter? Formell representation av (någon aspekt) av mänskligt språk Algoritmer för att manipulera dessa representationer Fråga 2:Vad kan dessa formella representationer och algoritmer lära oss om mänskligt språk? Språkteknologi Tvärvetenskapligt ämne: datavetenskap, lingvistik, psykologi, matematik, statistik, signalbehandling Relaterade termer: NLP (Natural Language Processing) Datalingvistik 2

Varför är språkteknologi viktigt? Enormt mycket kunskap finns tillgängligt som löpande text. En stor del av kommunikationen mellan människor går via datorer (chat, mail, Facebook, bloggar, telefonisamtal, ) Naturligt-språk-gränssnitt blir allt vanligare. Stort kommersiellt intresse (Google, ) 3

4

5

6

Watson (2011) Vad behöver Watson kunna? Identifiera orden i kontinuerligt, fritt tal Analysera innebörden av ord och meningar Förstå flertydigheter och humoristiska formuleringar Blixtsnabbt leta i en stor kunskapsbank för att hitta möjliga svar Välja ut rätt svar bland en mängd kandidater Läsa upp svaret med syntetiskt tal (I vissa situationer) Avgöra hur mycket pengar som ska satsas 7

Varför är språkteknologi svårt? Naturliga språk har flera egenskaper som formella språk (som Java, UML, predikatlogik) saknar: Flertydighet Vaghet Ofullständighet Dolda meningar, undertoner Humor, ironi, Ingen klar definition av vad som tillhör och inte tillhör språket Naturliga språk utvecklas (spontant) Lexikal flertydighet Ett ord kan som bekant ha flera betydelser: Jag föredrar slips framför fluga. Det satt en flugapå väggen. Internet är bara en fluga. Ca 60% av svenskans ord har flera betydelser. 8

Lexikal flertydighet Vilken ordklass tillhör ordet så? Sågick det till. (adverb) På såsätt! (pronomen) Han åt såhan blev mätt. (konjunktion) Så, det var intressant att höra! (interjektion) Man måste såinnan man kan skörda. (verb) Grisarna drack ur en så. (substantiv) Att bestämma ordklass kan vara mycket svårt: Han körde på vägen. (preposition) Han körde på väggen. (partikel) Lexikal flertydighet Hur många tolkningar har följande mening: Time flies like an arrow 9

Strukturell flertydighet Fraser: Filippa och Fredrik Reinfeldt Silvia och Fredrik Reinfeldt Vart hör prepositionsfrasen? Han såg flickan med det röda håret. Han såg stjärnan med blotta ögat. Han såg flickan med kikaren. Erik gjorde pajen i köket. Erik gjorde pajen i kylskåpet. Strukturell flertydighet I once shot an elephant in my pajamas. How he got into my pajamas I will never know. Groucho Marx 10

Semantisk flertydighet Vem träffade Henrik? Henrik träffade Eva. Eva träffade Henrik. (topikalisering) Hur många personer? Hon ville att hennes son skulle lära sig franska. Vad gick sönder? Han tappade fatet på golvet och gjorde sönder det. Han tappade stenen på tallriken och gjorde sönder den. Pragmatisk flertydighet Kan du skicka saltet? Kan du hjälpa mig med det här? Det var ju jättefint det här. Duktig dator! 11

Metodologi Handskrivna regler: Bygger på vår intuition om språket Noam Chomsky: Syntactic structures, 1957. Statistiska/datadrivna approacher: Tidigare approach än den regelbaserade Har fått ett stort uppsving på senare år i samband med utveckling av hårdvara och mjukvara Hybrid-approacher kombinerar kunskap om världen, kunskap om språk och statistik 12