Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Storlek: px
Starta visningen från sidan:

Download "Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster"

Transkript

1 Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck Språk i språkteknologi står för natural language, human language, dvs engelska, kinesiska, arabiska, franska, spanska,..., svenska,... text, tal, teckenspråk Språkteknologi står för metoder och system som modellerar (någon aspekt av) språk i denna mening Språkteknologi 1 (Lars Ahrenberg) 1 2 Vad är språkteknologi? Tre nivåer: Tjänster / Funktioner Språkgranskning, Informationssökning, Översättning Dialogsystem ~ automatiska taltjänster,... Lingvistiska bearbetningar (komponenter) Modelleringsverktyg data algoritmer 3 Språkteknologiska grundproblem Språkteknologisk forskning och utveckling Annat språk Översättning Sammanfattning Annan text Tal Text Extraktion, textförståelse Formell repr. Dialogsystem Talsyntes Textgenerering Tal Tillämpningar / Tjänster Översättning Faktaextraktion Frågebesvarande system Talstyrning Språkgranskning Utvärdering Metod- och kunskapsuppbyggnad Ordklasstaggning Morfologisk analys Syntaktisk parsning Betydelsebestämning av ord Namnigenkänning Referentbestämning 5 6

2 Modelleringsverktyg Kursmål Datamodellering Formella språk och automater reguljära uttryck, ändliga automater, kontextfri grammatik,... Sannolikhetslära Logik Processer Igenkänning, generering, transduktion, Klassificering (disambiguering) Sökning Maskininlärning Efter genomförd kurs ska du kunna: Redogöra för, och tillämpa, grundläggande metoder för analys av ord och meningar ( reguljära uttryck, ngrammodeller, kontextfri grammatik, parsning, chunkning) Redogöra för delproblem och standardlösningar inom automatisk textförståelse ( betydelsebestämning av ord, koreferens, diskursrelationer) Redogöra för arkitekturer och problem i vanliga tillämpningar ( informationsutvinning, automatisk översättning) Utvärdera algoritmer och system med avseende på korrekthet, precision och recall. Värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar 7 8 Organisation Kandidatkursen 729G föreläsningar 3 labbar (4 + 2 timmar + extra) 1 tenta 1 projektuppgift För magisterkursen 729G66 tillkommer 2 föreläsningar Språkteknologi i kursen Fokus på text (maskinlagrad, svenska, engelska) vanliga analysproblem / metoder noggrannare studium av en tjänst I projektarbetet (viss) grundläggande formell teori 9 10 Språkteknologiska delproblem i kursen Korpusarbete Modeller, Metoder Ordprediktion Morfologisk analys Chunkning Parsning Ordklasstaggning Betydelsebestämning Namnigenkänning Referenslösning Korpus (eng. corpus, pl. corpora) = en mängd texter (eller yttranden, samtal) som samlats in för ett visst ändamål. Balanserad korpus = representativ för ett helt språk med avseende på genrer, domäner och subspråk. Projektkorpus = korpus som är insamlad i syfte att utveckla ett givet system. Träningskorpus Testkorpus 11 12

3 Användning av korpusdata Datagenerering från korpusar: Konkordans (Språkbanken) Underlag för lexikon och lexikala data, ord- och frasmönster konkordanser för (främst) språkforskare Träningsdata vid systemutveckling Manuell / automatisk inlärning Testdata vid systemutvärdering Tidiga moment i korpusarbete Urval Insamling Avformatering Beskrivning Segmentering Uppmärkning / Formatering Normalisering Vidare analys och datagenerering Ett TT-telegram i XML <?xml version='1.0'?> <!DOCTYPE TTNITF SYSTEM "ttnitf.dtd"> <TTNITF><HEAD> /diverse metadata/ t.ex. <SUBREF ID="2:12">TT: :EKO</SUBREF> <DATESENT ID="1:70"> </DATESENT>... </HEAD><BODY> /informationselement/ </BODY></TTNITF> Textelement i ett telegram Ett filtrerat TT-telegram <TEXT> <RUBRIK>Framfab ingår finansieringsavtal</rubrik> <DAT><ORT>Stockholm</ORT><SOURCE>TT</SOURCE>< /DAT> <BRODTEXT> <P>IT-företaget Framfab ingår ett nyemissionsavtal med det internationella finansbolaget Credit Suisse First Boston (CSFB). Det beslutade Framfabs extra bolagsstämma på fredagen.</p> /fler element /... </BRODTEXT> </TEXT> 17 Framfab ingår finansieringsavtal. (Stockholm, TT). IT-företaget Framfab ingår ett nyemissionsavtal med det internationella finansbolaget Credit Suisse First Boston (CSFB). Det beslutade Framfabs extra bolagsstämma på fredagen. Avtalet gör det möjligt för Framfab att förstärka kassan genom flera mindre nyemissioner av aktier till ett värde av maximalt 375 miljoner kronor. CSFB tecknar sig under förutbestämda villkor för aktierna till marknadspris. 18

4 Beskrivning med metadata Källa: TT Datum: Hämtningsdatum: Hämtning gjord av: LA Etc. Segmentering Tokenisering Separering av skiljetecken från löpord Bestämning av lexikala enheter t.ex. flerordstermer (extra bolagsstämma), namn (Credit Suiss First Boston), förkortningar (bl a), fraser (i går) Uppdelning i meningar identifiering av meningsgränser Separering av skiljetecken #!/usr/local/bin/perl -p # [ ] anger alternativ # () memorerar instans av uttrycket # $1 hämtar från minnet s/([, :! \. \; \?])/ $1/g; Normalisering Normalisering innebär att ge tokens som man vill betrakta som samma en enhetlig form. Exempel: ä eller ä t.ex. eller t_ex eller till_exempel I m eller I am eller I m Substitution Formatering #!/usr/local/bin/perl -p # -p anger att filen ska läsas igenom och varje rad skrivs ut. # s/// är substitutionsfunktionen. # g (global) anger att alla träffar ska ersättas s/å/å/g; s/ä/ä/g; s/ö/ö/g; Teckenrepresentation t.ex. entiteter som ä & etc. Markering av tokens t.ex. blanktecken eller <w>-element Markering av meningar t.ex. \n (newline), <s> Lördagsöppet på Systembolaget betyder inte bara fler kunder, utan också fler anställda. - Försöket blir permanent, tror flera butikschefer DN talat med <s><w>lördagsöppet</w> <w>... <w>kunder</w> <w>,</w> <w>utan</w> <w>också</w> <w> <w>.</w></s> 23 24

5 Vidare analyser Lemmatisering bestämning av lingvistiska grundelement för löpord Ordklasstaggning bestämning av ordklass för varje token Betydelsebestämning bestämning av betydelse för flertydiga token etc. 25

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.) LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng Utbildningsplan Dnr G 2017/293 HUMANISTISKA FAKULTETEN Språkteknologi, masterprogram, 60-120 högskolepoäng Master in Language Technology (One year Programkod: H2MLT 1. Fastställande Utbildningsplanen är

Läs mer

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp 729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer

Läs mer

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer

Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg TDDD02 Föreläsning 4 HT-2013 Klassificering av ord och dokument Lars Ahrenberg Översikt Ø Avslutning om ngram-modeller Dokumentrepresentation Ø Klassificering med Naive Bayes ett typexempel generell metod

Läs mer

TDDD02 Föreläsning 5 HT-2013

TDDD02 Föreläsning 5 HT-2013 TDDD02 Föreläsning 5 HT-2013 Informationsutvinning Lars Ahrenberg Litteratur: H. Cunningham: Information Extraction, Automatic Översikt Informationsutvinning (IE) Definition och jämförelser Något om semantik

Läs mer

TDDD02 Föreläsning 6 HT-2013

TDDD02 Föreläsning 6 HT-2013 TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle Fastställande

Läs mer

Kursplan för kurs på grundnivå

Kursplan för kurs på grundnivå Kursplan för kurs på grundnivå Lingvistik I Linguistics I 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: LIN130 Gäller från: HT 2018 Fastställd: 2013-03-13 Ändrad: 2018-02-13 Institution Institutionen för

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 - - 1-1 Inledning 1.1 Programförklaring Detta kompendium är utvecklat för en introduktionskurs i datalingvistik som vänder sig till studenter med tidigare kännedom om grundläggande lingvistik och datavetenskap.

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap 729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Grundläggande textanalys, VT2012

Grundläggande textanalys, VT2012 Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

SPRÅKTEKNOLOGIPROGRAMMET

SPRÅKTEKNOLOGIPROGRAMMET SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Institutionen för lingvistik och filologi Augusti 2013 (Mats Dahllöf) 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system

Läs mer

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

SPRÅKTEKNOLOGIPROGRAMMET

SPRÅKTEKNOLOGIPROGRAMMET SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära

Läs mer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna. HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.

Läs mer

Tentamen Del A. Marco Kuhlmann

Tentamen Del A. Marco Kuhlmann TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

TYSK02, Tyska: Kandidatkurs, 30 högskolepoäng German: BA Course, 30 credits Grundnivå / First Cycle

TYSK02, Tyska: Kandidatkurs, 30 högskolepoäng German: BA Course, 30 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna TYSK02, Tyska: Kandidatkurs, 30 högskolepoäng German: BA Course, 30 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar

Läs mer

Språkkonsultprogrammet

Språkkonsultprogrammet HUMANISTISKA FAKULTETEN Utbildningsplan för Språkkonsultprogrammet 120/180 högskolepoäng Grundnivå Language Consultancy Programme 120/180 Higher Education Credits First cycle H1SPK G 2016/44 (reviderad

Läs mer

ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av utbildningsledaren

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

N-grambaserad språkbestämning

N-grambaserad språkbestämning N-grambaserad språkbestämning Johanna Lambertz jolam@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Uppsala universitet Institutionen för lingvistik och filologi 9 juni 2004 Handledare:

Läs mer

FRAK01, franska, kandidatkurs

FRAK01, franska, kandidatkurs Spr å k - o c h l i tt e r a tur c en t r u m Franska FRAK01, franska, kandidatkurs Studiebeskrivning Fastställd 2013-01-22 av lärarkollegium 3 att gälla fr.o.m. vårterminen 2013 Introduktion FRAK01, 61-90

Läs mer

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar

Läs mer

SPRÅKTEKNOLOGIPROGRAMMET (STP)

SPRÅKTEKNOLOGIPROGRAMMET (STP) SPRÅKTEKNOLOGIPROGRAMMET (STP) Kandidatprogram, 3 år, 180 hp. Institutionen för lingvistik och filologi 1 Utbildningsprogram Kunskapsmässig progression och yrkesmässig relevans. Antagning till ett paket

Läs mer

Introduktion till. språkteknologin; OH-serie 1. Kursen

Introduktion till. språkteknologin; OH-serie 1. Kursen Introduktion till språkteknologi OH-serie 1 http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2008 Kursen Lärare: Mattias Nilsson och jag. Allmän

Läs mer

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER AR1300 Arabiska, fortsättningskurs, 30 högskolepoäng Standard Arabic, Intermediate Course, 30 higher Fastställande Kursplanen är fastställd av Humanistiska fakultetsnämnden

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol) Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

GÖTEBORGS UNIVERSITET Humanistiska fakultetsnämnden G 213 STUDIEPLAN FÖR FORSKARUTBILDNING I SPRÅKVETENSKAPLIG DATABEHANDLING

GÖTEBORGS UNIVERSITET Humanistiska fakultetsnämnden G 213 STUDIEPLAN FÖR FORSKARUTBILDNING I SPRÅKVETENSKAPLIG DATABEHANDLING GÖTEBORGS UNIVERSITET Humanistiska fakultetsnämnden G 213 STUDIEPLAN FÖR FORSKARUTBILDNING I SPRÅKVETENSKAPLIG DATABEHANDLING STUDIEPLAN FÖR FORSKARUTBILDNING I SPRÅKVETENSKAPLIG DATABEHANDLING VID GÖTEBORGS

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Spanska GR (B), 30 hp

Spanska GR (B), 30 hp 1 (6) Kursplan för: Spanska GR (B), 30 hp Spanish BA (B), 30 Credits Allmänna data om kursen Kurskod Ämne/huvudområde Nivå Progression SP002G Spanska Grundnivå (B) Inriktning (namn) Högskolepoäng 30.0

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 1 Mattias Nilsson Kurshemsida: http://stp.lingfil.uu.se/~matsd/uv/uv09/ist/ Kursen Lärare: Mats dahllöf (med kursansvar) och jag Allmän översikt över språkteknologin:

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

TYS B11: Tyska nybörjarkurs, 30 högskolepoäng Studiebeskrivning

TYS B11: Tyska nybörjarkurs, 30 högskolepoäng Studiebeskrivning TYS B11: Tyska nybörjarkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser, vilka beskrivs nedan: - Grundläggande grammatik och textförståelse, basdel, 7,5 högskolepoäng - Skriftlig

Läs mer

Kursbeskrivning. Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp. Teckenspråk i teori och praktik, 30 hp, LITU10

Kursbeskrivning. Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp. Teckenspråk i teori och praktik, 30 hp, LITU10 Avdelningen för teckenspråk Kursbeskrivning Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp Teckenspråk i teori och praktik, 30 hp, LITU10 Gäller ht 2018. Innehåll och förväntade studieresultat

Läs mer

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER AR1300 Arabiska, fortsättningskurs, 30 högskolepoäng Standard Arabic, Intermediate Course, 30 credits Fastställande Kursplanen är fastställd av Humanistiska fakultetsnämnden

Läs mer

FRAK01, franska, kandidatkurs

FRAK01, franska, kandidatkurs Språk- och litteraturcentrum Franska FRAK01, franska, kandidatkurs Studiebeskrivning Fastställd 2007-09-10 av lärarkollegium 3 att gälla fr.o.m. höstterminen 2007 Introduktion FRAK01, 61-90 högskolepoäng

Läs mer

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se

Läs mer

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)

Läs mer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna. HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

SweLL Forskningsinfrastruktur för. svenska som andraspråk. Elena Volodina Göteborgs universitet, Språkbanken

SweLL Forskningsinfrastruktur för. svenska som andraspråk. Elena Volodina Göteborgs universitet, Språkbanken SweLL Forskningsinfrastruktur för svenska som andraspråk Elena Volodina Göteborgs universitet, Språkbanken elena.volodina@svenska.gu.se Själv-presentation: Elena Volodina https://spraakbanken.gu.se/eng/personal/elena

Läs mer

Engelska GR (B), 30 hp

Engelska GR (B), 30 hp 1 (5) Kursplan för: Engelska GR (B), 30 hp English BA (B), 30 Credits Allmänna data om kursen Kurskod Ämne/huvudområde Nivå Progression EN006G Engelska Grundnivå (B) Inriktning (namn) Högskolepoäng 30.0

Läs mer

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia Bilaga 4: Tidsuppskattning Wikispeech en användargenererad talsyntes på Wikipedia Process Steg Egenskap Typ [1] Estimated (h) Vem? Summa Sum Walk Skel 545 Sum walking skeleton to 1224 Uppläsning 1 Navigering

Läs mer