Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Relevanta dokument
Grundläggande textanalys. Joakim Nivre

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling

Tekniker för storskalig parsning

Tekniker för storskalig parsning

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Partiell parsning Parsning som sökning

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

Språkteknologi och Open Source

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Kursplaneöversättaren. Lina Stadell

Korpuslingvistik vt 2007

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Lingvistik I Delmoment: Datorlingvistik

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Tentamen Marco Kuhlmann

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

TDDD02 Föreläsning 5 HT-2013

TDDD02 Föreläsning 6 HT-2013

Maskinöversättning möjligheter och gränser

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Kursplan för kurs på grundnivå

Grundläggande textanalys, VT2013

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

Tekniker för storskalig parsning: Grundbegrepp

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Grundläggande textanalys, VT2012

Språkteknologi. Språkteknologi

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Introduktion till språkteknologi

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Korpuslingvistik vt 2007

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

MÖSG ht 2005 Maskinöversättningssystemet MATS

SPRÅKTEKNOLOGIPROGRAMMET

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Lingvistik I Delmoment: Datorlingvistik

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

SPRÅKTEKNOLOGIPROGRAMMET

729G09 Språkvetenskaplig databehandling

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Tentamen Del A. Marco Kuhlmann

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Grammatik för språkteknologer

Grammatik för språkteknologer

Lingvistik I Delmoment: Datorlingvistik

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

TYSK02, Tyska: Kandidatkurs, 30 högskolepoäng German: BA Course, 30 credits Grundnivå / First Cycle

Språkkonsultprogrammet

ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

N-grambaserad språkbestämning

FRAK01, franska, kandidatkurs

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Introduktion till. språkteknologin; OH-serie 1. Kursen

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Svensk nationell datatjänst, SND BAS Online

729G09 Språkvetenskaplig databehandling

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

TDDD02 Föreläsning 7 HT-2013

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

GÖTEBORGS UNIVERSITET Humanistiska fakultetsnämnden G 213 STUDIEPLAN FÖR FORSKARUTBILDNING I SPRÅKVETENSKAPLIG DATABEHANDLING

Kort presentation av Korp, Sveriges nationalkorpus

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Språk, datorer och textbehandling

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Spanska GR (B), 30 hp

Introduktion till språkteknologi

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

TYS B11: Tyska nybörjarkurs, 30 högskolepoäng Studiebeskrivning

Kursbeskrivning. Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp. Teckenspråk i teori och praktik, 30 hp, LITU10

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

FRAK01, franska, kandidatkurs

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

SweLL Forskningsinfrastruktur för. svenska som andraspråk. Elena Volodina Göteborgs universitet, Språkbanken

Engelska GR (B), 30 hp

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Transkript:

Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck Språk i språkteknologi står för natural language, human language, dvs engelska, kinesiska, arabiska, franska, spanska,..., svenska,... text, tal, teckenspråk Språkteknologi står för metoder och system som modellerar (någon aspekt av) språk i denna mening. 09-01-19 Språkteknologi 1 (Lars Ahrenberg) 1 2 Vad är språkteknologi? Tre nivåer: Tjänster / Funktioner Språkgranskning, Informationssökning, Översättning Dialogsystem ~ automatiska taltjänster,... Lingvistiska bearbetningar (komponenter) Modelleringsverktyg data algoritmer 3 Språkteknologiska grundproblem Språkteknologisk forskning och utveckling Annat språk Översättning Sammanfattning Annan text Tal Text Extraktion, textförståelse Formell repr. Dialogsystem Talsyntes Textgenerering Tal Tillämpningar / Tjänster Översättning Faktaextraktion Frågebesvarande system Talstyrning Språkgranskning Utvärdering Metod- och kunskapsuppbyggnad Ordklasstaggning Morfologisk analys Syntaktisk parsning Betydelsebestämning av ord Namnigenkänning Referentbestämning 5 6

Modelleringsverktyg Kursmål Datamodellering Formella språk och automater reguljära uttryck, ändliga automater, kontextfri grammatik,... Sannolikhetslära Logik Processer Igenkänning, generering, transduktion, Klassificering (disambiguering) Sökning Maskininlärning Efter genomförd kurs ska du kunna: Redogöra för, och tillämpa, grundläggande metoder för analys av ord och meningar ( reguljära uttryck, ngrammodeller, kontextfri grammatik, parsning, chunkning) Redogöra för delproblem och standardlösningar inom automatisk textförståelse ( betydelsebestämning av ord, koreferens, diskursrelationer) Redogöra för arkitekturer och problem i vanliga tillämpningar ( informationsutvinning, automatisk översättning) Utvärdera algoritmer och system med avseende på korrekthet, precision och recall. Värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar 7 8 Organisation Kandidatkursen 729G17 9+1 föreläsningar 3 labbar (4 + 2 timmar + extra) 1 tenta 1 projektuppgift För magisterkursen 729G66 tillkommer 2 föreläsningar Språkteknologi i kursen Fokus på text (maskinlagrad, svenska, engelska) vanliga analysproblem / metoder noggrannare studium av en tjänst I projektarbetet (viss) grundläggande formell teori 9 10 Språkteknologiska delproblem i kursen Korpusarbete Modeller, Metoder Ordprediktion Morfologisk analys Chunkning Parsning Ordklasstaggning Betydelsebestämning Namnigenkänning Referenslösning Korpus (eng. corpus, pl. corpora) = en mängd texter (eller yttranden, samtal) som samlats in för ett visst ändamål. Balanserad korpus = representativ för ett helt språk med avseende på genrer, domäner och subspråk. Projektkorpus = korpus som är insamlad i syfte att utveckla ett givet system. Träningskorpus Testkorpus 11 12

Användning av korpusdata Datagenerering från korpusar: Konkordans (Språkbanken) Underlag för lexikon och lexikala data, ord- och frasmönster konkordanser för (främst) språkforskare Träningsdata vid systemutveckling Manuell / automatisk inlärning Testdata vid systemutvärdering 13 14 Tidiga moment i korpusarbete Urval Insamling Avformatering Beskrivning Segmentering Uppmärkning / Formatering Normalisering Vidare analys och datagenerering Ett TT-telegram i XML <?xml version='1.0'?> <!DOCTYPE TTNITF SYSTEM "ttnitf.dtd"> <TTNITF><HEAD> /diverse metadata/ t.ex. <SUBREF ID="2:12">TT:04000000:EKO</SUBREF> <DATESENT ID="1:70">20010112</DATESENT>... </HEAD><BODY> /informationselement/ </BODY></TTNITF> 15 16 Textelement i ett telegram Ett filtrerat TT-telegram <TEXT> <RUBRIK>Framfab ingår finansieringsavtal</rubrik> <DAT><ORT>Stockholm</ORT><SOURCE>TT</SOURCE>< /DAT> <BRODTEXT> <P>IT-företaget Framfab ingår ett nyemissionsavtal med det internationella finansbolaget Credit Suisse First Boston (CSFB). Det beslutade Framfabs extra bolagsstämma på fredagen.</p> /fler element /... </BRODTEXT> </TEXT> 17 Framfab ingår finansieringsavtal. (Stockholm, TT). IT-företaget Framfab ingår ett nyemissionsavtal med det internationella finansbolaget Credit Suisse First Boston (CSFB). Det beslutade Framfabs extra bolagsstämma på fredagen. Avtalet gör det möjligt för Framfab att förstärka kassan genom flera mindre nyemissioner av aktier till ett värde av maximalt 375 miljoner kronor. CSFB tecknar sig under förutbestämda villkor för aktierna till marknadspris. 18

Beskrivning med metadata Källa: TT Datum: 20010112 Hämtningsdatum: 20010124 Hämtning gjord av: LA Etc. Segmentering Tokenisering Separering av skiljetecken från löpord Bestämning av lexikala enheter t.ex. flerordstermer (extra bolagsstämma), namn (Credit Suiss First Boston), förkortningar (bl a), fraser (i går) Uppdelning i meningar identifiering av meningsgränser 19 20 Separering av skiljetecken #!/usr/local/bin/perl -p # [ ] anger alternativ # () memorerar instans av uttrycket # $1 hämtar från minnet s/([, :! \. \; \?])/ $1/g; Normalisering Normalisering innebär att ge tokens som man vill betrakta som samma en enhetlig form. Exempel: ä eller ä t.ex. eller t_ex eller till_exempel I m eller I am eller I m 21 22 Substitution Formatering #!/usr/local/bin/perl -p # -p anger att filen ska läsas igenom och varje rad skrivs ut. # s/// är substitutionsfunktionen. # g (global) anger att alla träffar ska ersättas s/å/å/g; s/ä/ä/g; s/ö/ö/g; Teckenrepresentation t.ex. entiteter som ä & etc. Markering av tokens t.ex. blanktecken eller <w>-element Markering av meningar t.ex. \n (newline), <s> Lördagsöppet på Systembolaget betyder inte bara fler kunder, utan också fler anställda. - Försöket blir permanent, tror flera butikschefer DN talat med <s><w>lördagsöppet</w> <w>... <w>kunder</w> <w>,</w> <w>utan</w> <w>också</w> <w> <w>.</w></s> 23 24

Vidare analyser Lemmatisering bestämning av lingvistiska grundelement för löpord Ordklasstaggning bestämning av ordklass för varje token Betydelsebestämning bestämning av betydelse för flertydiga token etc. 25