Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Storlek: px
Starta visningen från sidan:

Download "Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)"

Transkript

1 Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

2 Förra gången Att bygga en korpus sampling uppmärkning annotering Korpusannotering 2(31)

3 Ämnen idag Lingvistisk annotering: taggning, parsning Trädbanker, Treebanks Parallella corpora Korpusannotering 3(31)

4 Typ av annotering Extratextuell information (Metadata) Rubrik, författare, datum, språk, genre Ortografisk information Lingvistisk information ordklass, part-of-speech (PoS tagging) lemma syntaktisk information, syntactic annotation (parsing) semantisk annotering fonetisk Länkning, Alignment Korpusannotering 4(31)

5 Lingvistisk information Standardannotering: Ordklasser, morfologisk analys. Vilka ordklasser? 9? 23? 60-70? Syntax Vilken syntaktisk teori? Korpusannotering 5(31)

6 Morfosyntaktiskt annoterade korpora Denna typ av korpora innehåller annotering av ordklass och morfologisk analys för varje ord i materialet. Detta är den allra vanligaste typen av annotering. Annoteringen görs automatiskt med gott resultat (ca 97% korrekt). Språkteknologin har försett oss med goda verktyg att göra detta arbete. För analys av enkla lingvistiska drag (t.ex. undersökning av aktiva/passiva verb) är morfosyntaktisk annotering helt tillräcklig. Korpusannotering 6(31)

7 Ordklasstaggning, Part-of-Speech (PoS) tagging Mål: att annotera orden med dess unika ordklass såg: verb eller substantiv, kontexten styr PoS: substantiv, verb, adjektiv, pronomen, preposition, adverb, konjunktion, particip, artikel Tagguppsättning (Tagset): en tagg representerar ordklassinformation med eller utan morfologiska särdrag 87 taggar i Brown corpus (Francis, 1979) 45 taggar i Penn Treebank (Marcus et al., 1993) Korpusannotering 7(31)

8 Ordklasstaggning Exempel: The/DT grand/jj jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. Input: sträng med ord och en specificerad tagguppsättning Output: den korrekta och unika taggen för ordet i en viss kontext Korpusannotering 8(31)

9 Tagguppsättning beror på korpus och språktyp kriterier: morfologiska, syntaktiska och semantiska tagguppsättning för engelska: taggar tagguppsättning för svenska: SUC taggar for språk med komplex morfologi är tagguppsättningen mycket större Korpusannotering 9(31)

10 Tagset size Comparisons in the morphologically tagged MULTEXT-East corpora (Hajic, 2000) Language Tagset size English 139 Czech 970 Estonian 476 Hungarian 401 Romanian 486 Slovene 1033 Korpusannotering 10(31)

11 Tagguppsättning Taggar kan se olika ut olika standarder som används för olika språk t.ex. parole - suc Korpusannotering 11(31)

12 Syntaktiskt annoterade korpora Syntaktiskt annoterade korpora innehåller texter som är annoterade med någon form av syntaktisk analys, t.ex.: Frasstrukturanalys (S, NP, VP, AP, PP, AdvP) Dependensstruktur (huvud-dependent relationer) Syntaktiska funtioner (subjekt, objekt, attribut, adverbial) Eftersom man annoterar syntaktiska träd kallas dessa typer av korpora för Trädbanker. Korpusannotering 12(31)

13 Syntaktiskt annoterade korpora forts. Syntaktiskt annoterade korpora kan användas till en helt annan typ av undersökningar än det morfosyntaktiskt annoterade materialet. I t.ex. en undersökning av olika verb, kan vi i en korpus annoterad med syntaktiska funktioner direkt (och automatiskt) ta fram vilka subjekt ett visst verb har. Generellt kan vi söka på alla typer av relationer inom en sats. Syntaktisk analys är mer problematisk att göra automatiskt än morfosyntaktisk analys (ca 70-85% korrekt, beroende på hur/vad man utvärderar). Annoteringen inbegriper avsevärt mer manuellt arbete. Korpusannotering 13(31)

14 Material Trädbanker har ofta vuxit fram ur redan (ordklass)taggade korpusar En trädbank består ofta av en delmängd av en (ordklass)taggad korpus (p g a annotationskostnader) Många korpusar består till stor del av tidningstext Skrift och/eller talspråk, skriftspråk är mycket vanligare, mer undersökt Få trädbank innehåller talspråk Korpusannotering 14(31)

15 Talbanken P << GM 046 P *DESSUTOM ABOC +A 046 P KOMMER KVPS FV 046 P EN EN SSDT 046 P ENSAMSTÅENDE AJ SS SSAT 046 P FOLKPENSIONÄR NN HS SS 046 P ATT IM IM 046 P KUNNA QVIV IV 046 P HA HVIV IX 046 P EN EN OODT 046 P INKOMST NN OO 046 P IP IP 046 Korpusannotering 15(31)

16 Svensk Trädbank Swedish Treebank nivre/swedish treebank/ En svensk trädbank bestående av Talbanken och SUC. Ca token från den ursprungliga Talbanken. Hela SUC parsad, en guldstandard om drygt token manuellt korrigerad....för att kunna söka i en trädbank behöver man naturligtvis ett sökverktyg anpassat för syntaktisk sökning. Korpusannotering 16(31)

17 Svensk trädbank 1 Individuell JJ JJ POS UTR SIN IND NOM 2 AT 2 beskattning NN NN UTR SIN IND NOM 0 ROOT 3 av PP PP 2 ET 4 arbetsinkomster NN NN UTR PLU IND NOM 3 PA Korpusannotering 17(31)

18 Exempel Penn Treebank utgör en del av Wall Street Journal (WSJ) Switchboard i Penn treebank (Taylor et al 2003), engelska SUSANNE corpus (Sampson, 1995), en delmängd av Brown Swedish Treebank (Nivre et al., 2009) NEGRA (Saarbrücken) Prague Dependency Treebank (Hajic et al) Tübingen Treebanker av talad tyska, engelska, japanska (Hinrichs et al 2000) Spoken Dutch Corpus (CGN) (Wouden et al 2002) CHRISTINE corpus (Sampson 2003): engelska Korpusannotering 18(31)

19 Flerspråkiga korpora Översättningar av samma text till flera språk. Översättningskorpus (t.ex. Aijmer och Altenberg, 1996), Parallellkorpus (t.ex. McEnery och Wilson, 1996). Subkorpora på olika språk samplade på samma sätt (t.ex. samma typ av skönlitteratur etc). Parallellkorpus (t.ex. Aijmer och Altenberg, 1996), Jämförbara korpora (t.ex. McEnery och Wilson, 1996). Vi använder termerna Parallellkorpus och Jämförbara korpora i samma betydelser som McEnery och Wilson. Korpusannotering 19(31)

20 Användningsområden Parallella och jämförbara korpora kan användas i olika typer av komparativa studier av olika språk samt översättningsstudier. Används till: att studera typologiska och kulturella skillnader, språkliga universalier. att studera skillnader mellan källtext och översättning, mellan texter på originalspråk och översatta texter. praktiska tillämpningar som lexikografi, språkundervisning, översättning. Korpusannotering 20(31)

21 Jämförbara korpora Olika språk Samma proportioner av material över samma genrer, inom samma domäner från samma tidsperioder. Ekonomitext från 2010 på flera språk. Kan beskrivas som att man samlar material från olika språk enligt samma insamlingskriterier. Korpusannotering 21(31)

22 Parallella korpora Samma texter översatta till annat språk. Det är möjligt att textens ursprungsspråk är ett annat än de språk som ingår i parallellkorpusen. Parallella korpora tenderar att vara specialiserade eftersom det är mycket svårt att samla ihop en balanserad korpus av parallella texter på flera språk. Korpusannotering 22(31)

23 EUROPARL European Parliament Proceedings Parallel Corpus: Parallellkorpus, monitorkorpus, meningslänkad Europaparlamentstexter från perioden , ny version 2010 Inkluderar 21 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska, bulgariska, tjeckiska, estniska, ungerska, lettiska, litauiska, polska, rumänska, slovakiska, och slovenska upp till 55 milj ord/språk (2011). Uppmärkt med dokument-id, information om talare samt information om stycke. Korpusannotering 23(31)

24 JRC-Acquis Parallellkorpus, monitorkorpus: EU-lagtexter Över en miljard ord totalt. Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska Korpusannotering 24(31)

25 Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken Korpusannotering 25(31)

26 Meningslänkning Korpusannotering 26(31)

27 Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar Stränglikhet Samförekomst Ordklassuppmärkning Lexikon Korpusannotering 27(31)

28 SMULTRON Liten svensk parallell trädbank (ca 1000 meningar) utvecklad på Stockholms universitet. Skönlitteratur och ekonomitext: Sofies värld (2 kap). SEB årsredovisning ABB:s kvartalsredovisning Q Rainforest alliance banancertifieringsprogram. Flerspråkig: svenska, engelska, tyska Korpusannotering 28(31)

29 SMULTRON Korpusannotering 29(31)

30 Tillämpningar, flerspråkiga korpusar Språkvetenskap: Komparativa undersökningar mellan olika språk, typologi. Språkundervisning, exempel till studenter. Översättningsstudier. Språkteknologi: T.ex. Maskinöversättning. Extrahera frekventa översättningspar. Inlärning av sannolikhetsbaserad maskinöversättning. Korpusannotering 30(31)

31 Nästa gång Labb 4: Korpussökning och annotering (inlämning: 14/3 till Bengt) Föreläsning: Mats Dahllöf om korpusbaserade undersökningar: historiska material, politik och kön Muntliga presentationer: referat (14/ ) Korpusannotering 31(31)

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

Elementära verktyg för korpusbearbetning

Elementära verktyg för korpusbearbetning Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41) Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Interinstitutionellt ärende: 2017/0197 (NLE) 11673/17 ADD 1 REV 1 sv FÖRSLAG Komm. dok. nr: COM(2017) 431 final/2 - ANNEX 1 Ärende: RECH 270

Läs mer

ANNEX BILAGA. till. förslag till rådets beslut

ANNEX BILAGA. till. förslag till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 1.12.2017 COM(2017) 722 final ANNEX BILAGA till förslag till rådets beslut om undertecknande och provisorisk tillämpning, på Europeiska unionens och dess medlemsstaters

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1. Europeiska unionens råd Bryssel den 6 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0199 (NLE) 11685/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 433 final/2 ANNEX 1 Ärende: RECH 277

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

15410/17 MLB/cc DGC 1A

15410/17 MLB/cc DGC 1A Europeiska unionens råd Bryssel den 14 maj 2018 (OR. en) 15410/17 Interinstitutionellt ärende: 2017/0319 (NLE) COLAC 144 WTO 329 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Tredje tilläggsprotokollet till

Läs mer

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1. Europeiska unionens råd Bryssel den 7 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0196 (NLE) 11678/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 430 final/2 ANNEX 1 Ärende: RECH 273

Läs mer

BILAGA. till. förslaget till rådets beslut

BILAGA. till. förslaget till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 26.2.2016 COM(2016) 91 final ANNEX 1 BILAGA till förslaget till rådets beslut om ingående, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet till

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

I Nationalbibliografin redovisad utgivning (monografier)

I Nationalbibliografin redovisad utgivning (monografier) I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans

Läs mer

Korpusuppbyggnad Från textsamling till korpus

Korpusuppbyggnad Från textsamling till korpus Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)

Läs mer

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References 2014 Outline Min bakgrund Disputerade 2012 Avhandling om att skapa högkvalitativa parallella trädbanker Flerspråkiga parallella trädbanken Smultron Forskare på Språkbanken Historiska resurser (MAÞiR 2014-2016)

Läs mer

I Nationalbibliografin redovisad utgivning (monografier)

I Nationalbibliografin redovisad utgivning (monografier) I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

I Nationalbibliografin redovisad utgivning (monografier)

I Nationalbibliografin redovisad utgivning (monografier) I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

On the role of corpora in cross-linguistic research, Stig Johansson (3-24) Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet

Läs mer

Etiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1

Etiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1 Statistiktyp: Exemplarstatistik Statistikprofil: Mångspråk i Nacka per enhet, titlar 2018 Org. enhet: n Fr.o.m. datum: 2018-10-25 T.o.m. datum: 2018-10-25 Språk Gruppering Enhet Titlar Afrikaans Fisksätra

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN Bryssel den 31 mars 2005 (OR. en) AA 2/2/05 REV 2 ANSLUTNINGSFÖRDRAGET: FÖRDRAGET UTKAST TILL RÄTTSAKTER OCH ANDRA INSTRUMENT

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

17196/09 akb/ell/am 1 DQPG

17196/09 akb/ell/am 1 DQPG EUROPEISKA UNIONENS RÅD Bryssel den 4 december 2009 (7.12) (OR. es,fr) 17196/09 POLGEN 232 FÖLJENOT från: till: Ärende: Rådets generalsekretariat Coreper/rådet Översyn av fördragen Övergångsåtgärder avseende

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Love Peace and Understandning

Love Peace and Understandning Love Peace and Understandning Små ämnen: samarbete, arbetsfördelning och koncentration vad kan vi göra i Norden? Vad menar vi med ett småämne? Definitionen kan variera tex < 50 studenter -2 lärare på professors/lektorsnivå

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

EUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT

EUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT EUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT (Samtliga frågor skall besvaras. Skriv "nej" vid obesvarade frågor men dra inga streck. Använd skrivmaskin eller texta med stora bokstäver med SVART kulspetspenna.)

Läs mer

Sveriges internationella överenskommelser

Sveriges internationella överenskommelser Sveriges internationella överenskommelser ISSN 1102-3716 Utgiven av utrikesdepartementet SÖ 2013:20 Nr 20 Protokoll om det irländska folkets oro rörande Lissabonfördraget Bryssel den 13 juni 2012 Regeringen

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 PROTOKOLL OM ÄNDRING AV PROTOKOLLET OM ÖVERGÅNGSBESTÄMMELSER, FOGAT TILL FÖRDRAGET

Läs mer

Förslag till RÅDETS BESLUT

Förslag till RÅDETS BESLUT EUROPEISKA KOMMISSIONEN Bryssel den 30.7.2013 COM(2013) 555 final 2013/0269 (NLE) Förslag till RÅDETS BESLUT om ingående av avtalet mellan Europeiska unionen och Republiken Frankrike om tillämpning vad

Läs mer

Europeiska unionens råd Bryssel den 11 september 2017 (OR. en) Jordi AYET PUIGARNAU, direktör, för Europeiska kommissionens generalsekreterare

Europeiska unionens råd Bryssel den 11 september 2017 (OR. en) Jordi AYET PUIGARNAU, direktör, för Europeiska kommissionens generalsekreterare Europeiska unionens råd Bryssel den 11 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0229 (NLE) 12039/17 FÖRSLAG från: inkom den: 11 september 2017 till: Komm. dok. nr: Ärende: EF 186 ECOFIN

Läs mer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

FÖRETRÄDARNA FÖR REGERINGARNA I EUROPEISKA GEMENSKAPENS MEDLEMSSTATER, FÖRSAMLADE I RÅDET, HAR ENATS OM FÖLJANDE

FÖRETRÄDARNA FÖR REGERINGARNA I EUROPEISKA GEMENSKAPENS MEDLEMSSTATER, FÖRSAMLADE I RÅDET, HAR ENATS OM FÖLJANDE INTERNT AVTAL MELLAN FÖRETRÄDARNA FÖR MEDLEMSSTATERNAS REGERINGAR, FÖRSAMLADE I RÅDET, OM ÄNDRING AV DET INTERNA AVTALET AV DEN 18 SEPTEMBER 2000 OM ÅTGÄRDER OCH FÖRFARANDEN FÖR GENOMFÖRANDE AV AVS EG-PARTNERSKAPSAVTALET

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys

Läs mer

BILAGA. till. förslag till rådets beslut

BILAGA. till. förslag till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 5.3.2015 COM(2015) 101 final ANNEX 1 BILAGA till förslag till rådets beslut om ingående av avtalet mellan Europeiska unionen och Republiken Vanuatu om undantag från

Läs mer

BILAGA. till ändrat förslag till. rådets beslut

BILAGA. till ändrat förslag till. rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 6.9.2016 COM(2016) 552 final ANNEX 2 BILAGA till ändrat förslag till rådets beslut om undertecknande och provisorisk tillämpning av luftfartsavtalet mellan Amerikas

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

EUROPEISKA GEMENSKAPERNAS KOMMISSION

EUROPEISKA GEMENSKAPERNAS KOMMISSION EUROPEISKA GEMENSKAPERNAS KOMMISSION Bryssel 21/VIII/2007 K(2007) 3926 slutlig KOMMISSIONENS BESLUT av den 21/VIII/2007 om genomförande av rådets beslut 2007/435/EG med avseende på antagandet av strategiska

Läs mer

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden Utbildningsplan för Kandidatprogram i moderna språk Bachelor's Programme in Modern Languages 180.0 Högskolepoäng 180.0 ECTS credits Programkod: HMOLK Gäller från: HT 2015 Fastställd: 2015-03-05 Värdinstitution:

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

BILAGA. till. Förslag till rådets beslut

BILAGA. till. Förslag till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 18.2.2016 COM(2016) 70 final ANNEX 1 BILAGA till Förslag till rådets beslut om undertecknande, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet

Läs mer

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv Rickard Domeij Språkrådet i Sverige Flerspråkig webbtillgänglighet Vägledningen för flerspråkig information

Läs mer

En pilotstudie för automatisk analys av elevtexter

En pilotstudie för automatisk analys av elevtexter En pilotstudie för automatisk analys av elevtexter Jesper Näsman Institutionen för lingvistik och filologi Språkteknologiprogrammet Kandidatuppsats i språkteknologi 29 maj 2015 Handledare: Beáta Megyesi

Läs mer

KOMMISSIONENS GENOMFÖRANDEBESLUT. av den 22.10.2014

KOMMISSIONENS GENOMFÖRANDEBESLUT. av den 22.10.2014 EUROPEISKA KOMMISSIONEN Bryssel den 22.10.2014 C(2014) 7594 final KOMMISSIONENS GENOMFÖRANDEBESLUT av den 22.10.2014 om ändring av genomförandebeslut K (2011) 5500 slutlig, vad gäller titeln och förteckningen

Läs mer

MEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02)

MEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02) 12.7.2011 SV Europeiska unionens officiella tidning C 206 A/7 MEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02) Är du intresserad av arbete inom EU? Uppfyller du kriterierna? Så här anmäler du dig

Läs mer

Statsminister Matti Vanhanen

Statsminister Matti Vanhanen Statsrådets skrivelse till Riksdagen med anledning av en ändring av rådets förordning (EU:s språkförordning) I enlighet med 96 2 mom. i grundlagen översänds till riksdagen Irlands och Spaniens framställningar

Läs mer

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Korpuslingvistik (SV2119) Föreläsning 3: Annotering Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du

Läs mer

7115/15 KSM/cc 1 DGD 1

7115/15 KSM/cc 1 DGD 1 Europeiska unionens råd Bryssel den 28 april 2015 (OR. en) 7115/15 Interinstitutionellt ärende: 2015/0059 (NLE) VISA 91 COLAC 26 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Avtal mellan Europeiska unionen

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT

Läs mer

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär: 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

KONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS,

KONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS, KONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS, REPUBLIKEN MALTAS, REPUBLIKEN POLENS, REPUBLIKEN SLOVENIENS

Läs mer

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax? Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika

Läs mer

BILAGA. till. förslag till rådets beslut

BILAGA. till. förslag till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 5.3.2015 COM(2015) 91 final ANNEX 1 BILAGA till förslag till rådets beslut om undertecknande på Europeiska unionens vägnar och om provisorisk tillämpning av avtalet

Läs mer

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Tabell 4. Indelningar av enskilda språk och språkfamiljer Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning

Läs mer

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden 2014-09-24.

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden 2014-09-24. Utbildningsplan för Masterprogram i språkvetenskap Master's Programme in Language Science Programkod: HSPPO Gäller från: HT 2015 Fastställd: 2014-09-24 Värdinstitution: Institutionen för lingvistik 120

Läs mer

Situationen i Sverige

Situationen i Sverige Situationen i Sverige 3 olika teorier om språkf kförändringar Stamträd Våg Sociohistoria Den Indoeuropeiska språkfamiljen Till språkfamiljen hör språk som: Svenska Tyska Engelska Franska Italienska Men

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

WiFi4EU-kontrollfunktion. Vägledning v1.0

WiFi4EU-kontrollfunktion. Vägledning v1.0 EUROPEISKA KOMMISSIONEN GENERALDIREKTORATET FÖR INFORMATIONSTEKNIK WiFi4EU-kontrollfunktion Vägledning v1.0 Innehåll 1. Inledning... 2 2. Stöd för webbläsare... 2 3. Insamlade uppgifter... 2 4. Installationskrav...

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid

Läs mer