Teoretisk lingvistik och datalingvistik Robin Cooper
Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska tillämpningar Diskussion av två olika slags metoder regelbaserade metoder statistiska metoder
Plan Sammanfattning av lingvistisk teori Sammanfattning av datalingvistik/språkteknologi Teori och metod i olika språkteknologiska tillämpningar En bredare syn på lingvistisk teori
Lingvistisk teori
Lingvistik (kärnan) fonetik fonologi morfologi syntax semantik pragmatik (jfr lingvistiska nivåer)
Lingvistik i bredare syn historisk lingvistik (diakront vs synkront) jämförande lingvistik, språktypologi dialektologi sociolingvistik stilistik psykolingvistik neurolingvistik
Metoder korpus (samling av språkmaterial), korpuslingvistik real language detaljerad beskrivning, statistik formell analys intuitioner regler, generaliseringar
Datalingvistik och språkteknologi
Datalingvistik eller vad heter det? datalingvistik, datorlingvistik, computational linguistics språkteknologi, språkteknik, language technology, language engineering språkvetenskaplig databehandling natural language processing human language technologies talteknologi, speech technology
Vad har språkteknologi att bjuda på? Mer på engelska än på svenska Viktigt att satsa på svenska och andra språk
Två sorters teknologier Interface technologies - gränssnittsteknologier Content technologies - innehållsteknologier
Tillämpningar Dialogsystem CALL Informationssökning - IR och disambiguering Maskinöversättning Skrivstöd Elektroniska ordböcker och lexikala databaser Gränssnitt Innehåll
Komponenter Taggning Parsning Talteknologi
Speech input Text input A language module Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Teori och metod i olika språkteknologiska komponenter och tillämpningar
Speech input Text input Lexicon Lexikologi Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Fonetik och fonologi Lexicon Speech input Text input Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Speech input Text input Lexicon Morfologi Speech recognizer/synthesizer z Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Grammatik (Formell syntax) Lexicon Speech recognizer/synthesizer Speech input Text input Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Speech input Text input Parsingalgoritmer Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Speech input Text input (Formell) Semantik Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Speech input Text input Lexicon Pragmatik Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Speech input Kunskaps och meningsrepresentation Text input Grammar Lexicon Speech recognizer/synthesizer Morphological analyzer/generator Syntactic parser/generator Semantic analyzer/reasoner Knowledge base Dialogue planner Speech output Text output
Speech input Text input Lexicon Språktypologi Speech recognizer/generator Morphological analyzer/generator Syntactic parser/generator Speech output Text output Semantic analyzer/reasoner Grammar Dialogue planner Knowledge base
Skrivstöd Stavningskontroll Grammatikkontroll Stilkontroll Stöd för människor med särskilda behov invandrare dyslektiker döva (teckenspråk)
Elektroniska ordböcker och lexikala databaser Synonymer Andra ordfamiljer (tesauri) Tvåspråkiga lexikon Används av stavningskontroll Används av avancerad språkteknologi, t.ex. dialogsystem, översättning
Översättning Maskinellt stöd till översättare Snabböversättning av websidor Tal-till-tal översättning Flerspråkig tillgång till databaser Användning av parallella korpusar
Informationssökning Intelligent websökning Dokument klassificering (t.ex. vidarebefordra brev till rätt person på företaget) Automatisk sammanfattning (t.ex. nyheter) Svar på frågor
Språkundervisning Övningar för individuella behov Intelligentare övningar Uttalsträning Dialog Spelteknologi, virtual reality
Dialogsystem Reseinformation Turistinformation Bankärenden Electronic commerce Maskiner som talar om hur de ska användas Resruttplanering (i bilen) Tal-till-tal översättning
En bredare syn på lingvistisk teori
Språkvariation gentemot universalier Språk är olika men inom en viss variationsrymd Vissa saker gäller för alla språk Hans har läst böckerna i vardagsrummet Har Hans läst böckerna i vardagsrummet? *Vardagsrummet i böckerna läst har Hans? Hans har läst böckerna (som är) i vardagsrummet Vilket rum har Hans läst böckerna i? *Vilket rum har Hans läst böckerna som är i?
Alla kan språk bara några få som inte kan pga sjukdom, utvecklingsstörningar infödd talare modersmål språklig (o)medvetenhet lexikon vs grammatiska regler
Ska datalingvister ta hänsyn till psykologiska aspekter av språk? Språkteknologiska system och flygplan
Varför är datalingvistik inte lätt? Naturliga språk är väldigt komplicerade Samspel med kontext Multimodalitet, body language Egenskaper hos språk som är väldigt enkla för oss är svåra att få formellt grep om
Varifrån kommer språk? origins of language språkinlärning skrift- och talspråk vilket är det riktiga språket? scientific ansats till språk observation teori (prediktion)
Mänskliga språk och andra språk djurspråk artificiella språk logik programmeringsspråk mänskliga språk (naturliga språk) natural language processing språkinlärning är naturlig cultural transmission
Egenskaper hos mänskliga språk kommunikativ vs informativ intension vs naturliga tecken rök -> eld displacement vi kan prata om saker som inte är närvarande tid/tempus negation (o)möjligheter
Egenskaper, forts dualitet (tecken, signs) språket betecknar någonting villkorlighet (arbitrariness) jfr ikoniska språk ord med samma betydelse på olika språk har helt annat uttal
Egenskaper, forts produktivitet han gick upp och borstade tänderna och åt frukost och (konjunktion) pojken som kände trollkarlen som visste att drottningen som (relativsats) mindre delar -> större enheter ljud -> ord -> fraser -> satser -> diskurser -> dialoger lingvistiska nivåer
Egenskaper, forts diskrethet vi uppfattar språket i termer av enheter (ljud, ord, fraser mm) som kombineras komplicerad relation mellan enheterna och den fysiska realiteten jfr dikteringssystem som kräver att man pratar i enstaka ord jfr John s coming later
Egenskaper, forts vocal auditory channel tal och hörsel är det primära sättet för människor att kommunicera med varandra men man får inte glömma teckenspråk (döva) skrift reciprocity talare kan alltid vara en lyssnare
Egenskaper, forts specialisering språkspecifika mekanismer vilken politiker kommer du att rösta på? *vilken politiker kommer du att rösta på partiet som stödjer?
Egenskaper, forts Non-directionality vem som helst som kan höra kan uppfatta språket men, ibland svårt att lyssnar på andras samtal och förstå rapid fade lingvistiska signaler (talade) är tidsbundna och försvinner så fort de har yttrats