Teoretisk lingvistik och datalingvistik. Robin Cooper



Relevanta dokument
HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Språkteknologi och Open Source

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språkteknologi. Språkteknologi

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Lingvistik I Delmoment: Datorlingvistik

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Tillgänglighet och teknologi en omöjlig möjlighet?

Målet är att ge maskiner förmågan att plocka ut information ur

Tekniken bakom språket

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Symbolspråk som alternativa och kompletterande kommunikationsmedel

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fastställande. Allmänna uppgifter. Kursens mål

Tekniker för storskalig parsning

ENGK01: Engelska kandidatkurs, 30 högskolepoäng Studiebeskrivning

Ramkursplan i teckenspråk som modersmål för hörande barn till döva och hörselskadade föräldrar (CODA)

Semantik och pragmatik

Maskinöversättning möjligheter och gränser

Litteraturlista ht10 ALLMÄN SPRÅKVETENSKAP och FONETIK. GRUNDKURS Period Period 1

Anhållan om ändrad ersättning för vissa HST

SPRÅKTEKNOLOGIPROGRAMMET. utbildningsplan och kursplaner aktuella inför HT

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Utbildningsplan för masterprogrammet Språk och språkvetenskap (2018)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Semantik och pragmatik (Serie 3)

Grundläggande textanalys. Joakim Nivre

SPRÅKTEKNOLOGIPROGRAMMET

Språkstörning och dyslexi i skolan - teori, strategi och verktyg. Välkommen! Maria Tsangari Sofia Grunér Logopeder på Logopedbyrån Dynamica

Semantik och pragmatik

Kursinformation och schema för Lingvistik 6 hp 729G08

SPRÅKTEKNOLOGIPROGRAMMET

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Semantik VT Introduktion. Betydelse. Dagens föreläsning. Dahllöf: Språklig betydelse - semantik och pragmatik

Kognitionsvetenskap Kandidatprogrammet

FORSKNINGSMETODIK OCH VETENSKAPSTEORI FÖR SPRÅKVETARE: FORMELLA METODER

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle

Ramkursplan i teckenspråk för syskon till döva och hörselskadade barn

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Introduktion till. språkteknologin; OH-serie 1. Kursen

Grundläggande begrepp inom lexikal semantik. Hanna Seppälä Uppsala universitet 1

Betygskriterier. US610F - Språkdidaktik I, 30 hp

Kursinformation och schema Lingvistik 729G08 (6 hp)

Lingvistik I Delmoment: Datorlingvistik

Språket, individen och samhället HT Introduktion till sociolingvistik. Några sociolingvistiska frågor. Några sociolingvistiska frågor, forts.

Kognitionsvetenskapligt kandidatprogram Bachelor Programme in Cognitive Science 180 Högskolepoäng

Lingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson

Litteraturlista ALLMÄN SPRÅKVETENSKAP och FONETIK. Period 1:

Linköpings universitet

Lingvistik I Delmoment: Datorlingvistik

Lingvistik. introduktion. Dolores Meden. Dolores Meden

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Föreläsningsserie: Introduktion till språk- och litteraturvetenskap

Kursbeskrivning för kurs inom LLII HT16

1. Vad är ett språk? 1. Vad är ett språk? 2. Språkets struktur och delar. 2. Språkets struktur och delar

Utbildningsplan för masterprogrammet Språk och språkvetenskap

Psykolingvistik. Kognitionspsykologi, Klas Karlgren Kapitel 11 och 12 i Anderson

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

Introduktion till språkteknologi. Datorstöd för språkgranskning

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Kursplan för kurs på grundnivå

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

MATEMATIKENS SPRÅK. Avsnitt 1

Betygskriterier. NS2019, Svenska II, 30 hp. Förväntade studieresultat För godkänt resultat på delkursen ska studenten kunna visa:

Maskinöversättning. F Anna Sågvall Hein

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Introduktion till semantik. Semantik: Föreläsning 1 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Hotade språk och språkdöd

Datorbaserade verktyg i humanistisk forskning

Utbildningsplan för masterprogrammet Språk och språkvetenskap (2015)

SLAVISKA MEDELTIDSSTUDIER Masterexamen 120 hp

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

AKK i skolan. Britt Claesson. Innehåll föreläsning

Kognitionsvetenskapligt kandidatprogram

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

INSTITUTIONEN FÖR NEUROVETENSKAP OCH FYSIOLOGI

Lingvistiska grundbegrepp

Skolverkets föreskrifter om kursplan för kommunal vuxenutbildning i svenska för invandrare;

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

ÄSPD02, Spanska II, 30 högskolepoäng Spanish II, 30 credits Grundnivå / First Cycle

Ontologier. Cassandra Svensson

Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2011

Kursplan för kurs på grundnivå

Litteraturlista HT09 ALLMÄN SPRÅKVETENSKAP och FONETIK GRUNDKURS. Period

Kursplan för kurs på grundnivå

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI

MÖSG ht 2005 Maskinöversättningssystemet MATS

Språk och kunskapsutvecklande arbete i förskolan

4. Behörighetsvillkor PROGRAM. 1. Forskarskolans inriktning

SVEK11, Svenska: Språklig inriktning - kandidatkurs, 30 högskolepoäng Swedish Language: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

Introduktionsmöte Lingvistik, Grundkurs 1 30hp

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Transkript:

Teoretisk lingvistik och datalingvistik Robin Cooper

Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska tillämpningar Diskussion av två olika slags metoder regelbaserade metoder statistiska metoder

Plan Sammanfattning av lingvistisk teori Sammanfattning av datalingvistik/språkteknologi Teori och metod i olika språkteknologiska tillämpningar En bredare syn på lingvistisk teori

Lingvistisk teori

Lingvistik (kärnan) fonetik fonologi morfologi syntax semantik pragmatik (jfr lingvistiska nivåer)

Lingvistik i bredare syn historisk lingvistik (diakront vs synkront) jämförande lingvistik, språktypologi dialektologi sociolingvistik stilistik psykolingvistik neurolingvistik

Metoder korpus (samling av språkmaterial), korpuslingvistik real language detaljerad beskrivning, statistik formell analys intuitioner regler, generaliseringar

Datalingvistik och språkteknologi

Datalingvistik eller vad heter det? datalingvistik, datorlingvistik, computational linguistics språkteknologi, språkteknik, language technology, language engineering språkvetenskaplig databehandling natural language processing human language technologies talteknologi, speech technology

Vad har språkteknologi att bjuda på? Mer på engelska än på svenska Viktigt att satsa på svenska och andra språk

Två sorters teknologier Interface technologies - gränssnittsteknologier Content technologies - innehållsteknologier

Tillämpningar Dialogsystem CALL Informationssökning - IR och disambiguering Maskinöversättning Skrivstöd Elektroniska ordböcker och lexikala databaser Gränssnitt Innehåll

Komponenter Taggning Parsning Talteknologi

Speech input Text input A language module Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Teori och metod i olika språkteknologiska komponenter och tillämpningar

Speech input Text input Lexicon Lexikologi Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Fonetik och fonologi Lexicon Speech input Text input Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Speech input Text input Lexicon Morfologi Speech recognizer/synthesizer z Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Grammatik (Formell syntax) Lexicon Speech recognizer/synthesizer Speech input Text input Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Speech input Text input Parsingalgoritmer Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Speech input Text input (Formell) Semantik Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Speech input Text input Lexicon Pragmatik Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Speech input Kunskaps och meningsrepresentation Text input Grammar Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Semantic analyzer/reasoner Knowledge base Dialogue planner Speech output Text output

Speech input Text input Lexicon Språktypologi Speech recognizer/generator Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base

Skrivstöd Stavningskontroll Grammatikkontroll Stilkontroll Stöd för människor med särskilda behov invandrare dyslektiker döva (teckenspråk)

Elektroniska ordböcker och lexikala databaser Synonymer Andra ordfamiljer (tesauri) Tvåspråkiga lexikon Används av stavningskontroll Används av avancerad språkteknologi, t.ex. dialogsystem, översättning

Översättning Maskinellt stöd till översättare Snabböversättning av websidor Tal-till-tal översättning Flerspråkig tillgång till databaser Användning av parallella korpusar

Informationssökning Intelligent websökning Dokument klassificering (t.ex. vidarebefordra brev till rätt person på företaget) Automatisk sammanfattning (t.ex. nyheter) Svar på frågor

Språkundervisning Övningar för individuella behov Intelligentare övningar Uttalsträning Dialog Spelteknologi, virtual reality

Dialogsystem Reseinformation Turistinformation Bankärenden Electronic commerce Maskiner som talar om hur de ska användas Resruttplanering (i bilen) Tal-till-tal översättning

En bredare syn på lingvistisk teori

Språkvariation gentemot universalier Språk är olika men inom en viss variationsrymd Vissa saker gäller för alla språk Hans har läst böckerna i vardagsrummet Har Hans läst böckerna i vardagsrummet? *Vardagsrummet i böckerna läst har Hans? Hans har läst böckerna (som är) i vardagsrummet Vilket rum har Hans läst böckerna i? *Vilket rum har Hans läst böckerna som är i?

Alla kan språk bara några få som inte kan pga sjukdom, utvecklingsstörningar infödd talare modersmål språklig (o)medvetenhet lexikon vs grammatiska regler

Ska datalingvister ta hänsyn till psykologiska aspekter av språk? Språkteknologiska system och flygplan

Varför är datalingvistik inte lätt? Naturliga språk är väldigt komplicerade Samspel med kontext Multimodalitet, body language Egenskaper hos språk som är väldigt enkla för oss är svåra att få formellt grep om

Varifrån kommer språk? origins of language språkinlärning skrift- och talspråk vilket är det riktiga språket? scientific ansats till språk observation teori (prediktion)

Mänskliga språk och andra språk djurspråk artificiella språk logik programmeringsspråk mänskliga språk (naturliga språk) natural language processing språkinlärning är naturlig cultural transmission

Egenskaper hos mänskliga språk kommunikativ vs informativ intension vs naturliga tecken rök -> eld displacement vi kan prata om saker som inte är närvarande tid/tempus negation (o)möjligheter

Egenskaper, forts dualitet (tecken, signs) språket betecknar någonting villkorlighet (arbitrariness) jfr ikoniska språk ord med samma betydelse på olika språk har helt annat uttal

Egenskaper, forts produktivitet han gick upp och borstade tänderna och åt frukost och (konjunktion) pojken som kände trollkarlen som visste att drottningen som (relativsats) mindre delar -> större enheter ljud -> ord -> fraser -> satser -> diskurser -> dialoger lingvistiska nivåer

Egenskaper, forts diskrethet vi uppfattar språket i termer av enheter (ljud, ord, fraser mm) som kombineras komplicerad relation mellan enheterna och den fysiska realiteten jfr dikteringssystem som kräver att man pratar i enstaka ord jfr John s coming later

Egenskaper, forts vocal auditory channel tal och hörsel är det primära sättet för människor att kommunicera med varandra men man får inte glömma teckenspråk (döva) skrift reciprocity talare kan alltid vara en lyssnare

Egenskaper, forts specialisering språkspecifika mekanismer vilken politiker kommer du att rösta på? *vilken politiker kommer du att rösta på partiet som stödjer?

Egenskaper, forts Non-directionality vem som helst som kan höra kan uppfatta språket men, ibland svårt att lyssnar på andras samtal och förstå rapid fade lingvistiska signaler (talade) är tidsbundna och försvinner så fort de har yttrats