Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
|
|
- Viktor Eriksson
- för 5 år sedan
- Visningar:
Transkript
1 Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
2 Förra gången Att bygga en korpus sampling uppmärkning annotering Korpusannotering 2(31)
3 Ämnen idag Lingvistisk annotering: taggning, parsning Trädbanker, Treebanks Parallella corpora Korpusannotering 3(31)
4 Typ av annotering Extratextuell information (Metadata) Rubrik, författare, datum, språk, genre Ortografisk information Lingvistisk information ordklass, part-of-speech (PoS tagging) lemma syntaktisk information, syntactic annotation (parsing) semantisk annotering fonetisk Länkning, Alignment Korpusannotering 4(31)
5 Lingvistisk information Standardannotering: Ordklasser, morfologisk analys. Vilka ordklasser? 9? 23? 60-70? Syntax Vilken syntaktisk teori? Korpusannotering 5(31)
6 Morfosyntaktiskt annoterade korpora Denna typ av korpora innehåller annotering av ordklass och morfologisk analys för varje ord i materialet. Detta är den allra vanligaste typen av annotering. Annoteringen görs automatiskt med gott resultat (ca 97% korrekt). Språkteknologin har försett oss med goda verktyg att göra detta arbete. För analys av enkla lingvistiska drag (t.ex. undersökning av aktiva/passiva verb) är morfosyntaktisk annotering helt tillräcklig. Korpusannotering 6(31)
7 Ordklasstaggning, Part-of-Speech (PoS) tagging Mål: att annotera orden med dess unika ordklass såg: verb eller substantiv, kontexten styr PoS: substantiv, verb, adjektiv, pronomen, preposition, adverb, konjunktion, particip, artikel Tagguppsättning (Tagset): en tagg representerar ordklassinformation med eller utan morfologiska särdrag 87 taggar i Brown corpus (Francis, 1979) 45 taggar i Penn Treebank (Marcus et al., 1993) Korpusannotering 7(31)
8 Ordklasstaggning Exempel: The/DT grand/jj jury/nn commented/vbd on/in a/dt number/nn of/in other/jj topics/nns./. Input: sträng med ord och en specificerad tagguppsättning Output: den korrekta och unika taggen för ordet i en viss kontext Korpusannotering 8(31)
9 Tagguppsättning beror på korpus och språktyp kriterier: morfologiska, syntaktiska och semantiska tagguppsättning för engelska: taggar tagguppsättning för svenska: SUC taggar for språk med komplex morfologi är tagguppsättningen mycket större Korpusannotering 9(31)
10 Tagset size Comparisons in the morphologically tagged MULTEXT-East corpora (Hajic, 2000) Language Tagset size English 139 Czech 970 Estonian 476 Hungarian 401 Romanian 486 Slovene 1033 Korpusannotering 10(31)
11 Tagguppsättning Taggar kan se olika ut olika standarder som används för olika språk t.ex. parole - suc Korpusannotering 11(31)
12 Syntaktiskt annoterade korpora Syntaktiskt annoterade korpora innehåller texter som är annoterade med någon form av syntaktisk analys, t.ex.: Frasstrukturanalys (S, NP, VP, AP, PP, AdvP) Dependensstruktur (huvud-dependent relationer) Syntaktiska funtioner (subjekt, objekt, attribut, adverbial) Eftersom man annoterar syntaktiska träd kallas dessa typer av korpora för Trädbanker. Korpusannotering 12(31)
13 Syntaktiskt annoterade korpora forts. Syntaktiskt annoterade korpora kan användas till en helt annan typ av undersökningar än det morfosyntaktiskt annoterade materialet. I t.ex. en undersökning av olika verb, kan vi i en korpus annoterad med syntaktiska funktioner direkt (och automatiskt) ta fram vilka subjekt ett visst verb har. Generellt kan vi söka på alla typer av relationer inom en sats. Syntaktisk analys är mer problematisk att göra automatiskt än morfosyntaktisk analys (ca 70-85% korrekt, beroende på hur/vad man utvärderar). Annoteringen inbegriper avsevärt mer manuellt arbete. Korpusannotering 13(31)
14 Material Trädbanker har ofta vuxit fram ur redan (ordklass)taggade korpusar En trädbank består ofta av en delmängd av en (ordklass)taggad korpus (p g a annotationskostnader) Många korpusar består till stor del av tidningstext Skrift och/eller talspråk, skriftspråk är mycket vanligare, mer undersökt Få trädbank innehåller talspråk Korpusannotering 14(31)
15 Talbanken P << GM 046 P *DESSUTOM ABOC +A 046 P KOMMER KVPS FV 046 P EN EN SSDT 046 P ENSAMSTÅENDE AJ SS SSAT 046 P FOLKPENSIONÄR NN HS SS 046 P ATT IM IM 046 P KUNNA QVIV IV 046 P HA HVIV IX 046 P EN EN OODT 046 P INKOMST NN OO 046 P IP IP 046 Korpusannotering 15(31)
16 Svensk Trädbank Swedish Treebank nivre/swedish treebank/ En svensk trädbank bestående av Talbanken och SUC. Ca token från den ursprungliga Talbanken. Hela SUC parsad, en guldstandard om drygt token manuellt korrigerad....för att kunna söka i en trädbank behöver man naturligtvis ett sökverktyg anpassat för syntaktisk sökning. Korpusannotering 16(31)
17 Svensk trädbank 1 Individuell JJ JJ POS UTR SIN IND NOM 2 AT 2 beskattning NN NN UTR SIN IND NOM 0 ROOT 3 av PP PP 2 ET 4 arbetsinkomster NN NN UTR PLU IND NOM 3 PA Korpusannotering 17(31)
18 Exempel Penn Treebank utgör en del av Wall Street Journal (WSJ) Switchboard i Penn treebank (Taylor et al 2003), engelska SUSANNE corpus (Sampson, 1995), en delmängd av Brown Swedish Treebank (Nivre et al., 2009) NEGRA (Saarbrücken) Prague Dependency Treebank (Hajic et al) Tübingen Treebanker av talad tyska, engelska, japanska (Hinrichs et al 2000) Spoken Dutch Corpus (CGN) (Wouden et al 2002) CHRISTINE corpus (Sampson 2003): engelska Korpusannotering 18(31)
19 Flerspråkiga korpora Översättningar av samma text till flera språk. Översättningskorpus (t.ex. Aijmer och Altenberg, 1996), Parallellkorpus (t.ex. McEnery och Wilson, 1996). Subkorpora på olika språk samplade på samma sätt (t.ex. samma typ av skönlitteratur etc). Parallellkorpus (t.ex. Aijmer och Altenberg, 1996), Jämförbara korpora (t.ex. McEnery och Wilson, 1996). Vi använder termerna Parallellkorpus och Jämförbara korpora i samma betydelser som McEnery och Wilson. Korpusannotering 19(31)
20 Användningsområden Parallella och jämförbara korpora kan användas i olika typer av komparativa studier av olika språk samt översättningsstudier. Används till: att studera typologiska och kulturella skillnader, språkliga universalier. att studera skillnader mellan källtext och översättning, mellan texter på originalspråk och översatta texter. praktiska tillämpningar som lexikografi, språkundervisning, översättning. Korpusannotering 20(31)
21 Jämförbara korpora Olika språk Samma proportioner av material över samma genrer, inom samma domäner från samma tidsperioder. Ekonomitext från 2010 på flera språk. Kan beskrivas som att man samlar material från olika språk enligt samma insamlingskriterier. Korpusannotering 21(31)
22 Parallella korpora Samma texter översatta till annat språk. Det är möjligt att textens ursprungsspråk är ett annat än de språk som ingår i parallellkorpusen. Parallella korpora tenderar att vara specialiserade eftersom det är mycket svårt att samla ihop en balanserad korpus av parallella texter på flera språk. Korpusannotering 22(31)
23 EUROPARL European Parliament Proceedings Parallel Corpus: Parallellkorpus, monitorkorpus, meningslänkad Europaparlamentstexter från perioden , ny version 2010 Inkluderar 21 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska, bulgariska, tjeckiska, estniska, ungerska, lettiska, litauiska, polska, rumänska, slovakiska, och slovenska upp till 55 milj ord/språk (2011). Uppmärkt med dokument-id, information om talare samt information om stycke. Korpusannotering 23(31)
24 JRC-Acquis Parallellkorpus, monitorkorpus: EU-lagtexter Över en miljard ord totalt. Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska Korpusannotering 24(31)
25 Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken Korpusannotering 25(31)
26 Meningslänkning Korpusannotering 26(31)
27 Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar Stränglikhet Samförekomst Ordklassuppmärkning Lexikon Korpusannotering 27(31)
28 SMULTRON Liten svensk parallell trädbank (ca 1000 meningar) utvecklad på Stockholms universitet. Skönlitteratur och ekonomitext: Sofies värld (2 kap). SEB årsredovisning ABB:s kvartalsredovisning Q Rainforest alliance banancertifieringsprogram. Flerspråkig: svenska, engelska, tyska Korpusannotering 28(31)
29 SMULTRON Korpusannotering 29(31)
30 Tillämpningar, flerspråkiga korpusar Språkvetenskap: Komparativa undersökningar mellan olika språk, typologi. Språkundervisning, exempel till studenter. Översättningsstudier. Språkteknologi: T.ex. Maskinöversättning. Extrahera frekventa översättningspar. Inlärning av sannolikhetsbaserad maskinöversättning. Korpusannotering 30(31)
31 Nästa gång Labb 4: Korpussökning och annotering (inlämning: 14/3 till Bengt) Föreläsning: Mats Dahllöf om korpusbaserade undersökningar: historiska material, politik och kön Muntliga presentationer: referat (14/ ) Korpusannotering 31(31)
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merAnna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merEuropeiska unionens råd Bryssel den 7 september 2017 (OR. sv)
Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Interinstitutionellt ärende: 2017/0197 (NLE) 11673/17 ADD 1 REV 1 sv FÖRSLAG Komm. dok. nr: COM(2017) 431 final/2 - ANNEX 1 Ärende: RECH 270
Läs merANNEX BILAGA. till. förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 1.12.2017 COM(2017) 722 final ANNEX BILAGA till förslag till rådets beslut om undertecknande och provisorisk tillämpning, på Europeiska unionens och dess medlemsstaters
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Läs merFör delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 6 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0199 (NLE) 11685/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 433 final/2 ANNEX 1 Ärende: RECH 277
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs mer15410/17 MLB/cc DGC 1A
Europeiska unionens råd Bryssel den 14 maj 2018 (OR. en) 15410/17 Interinstitutionellt ärende: 2017/0319 (NLE) COLAC 144 WTO 329 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Tredje tilläggsprotokollet till
Läs merFör delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 7 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0196 (NLE) 11678/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 430 final/2 ANNEX 1 Ärende: RECH 273
Läs merBILAGA. till. förslaget till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 26.2.2016 COM(2016) 91 final ANNEX 1 BILAGA till förslaget till rådets beslut om ingående, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet till
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merI Nationalbibliografin redovisad utgivning (monografier)
I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merYvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References
2014 Outline Min bakgrund Disputerade 2012 Avhandling om att skapa högkvalitativa parallella trädbanker Flerspråkiga parallella trädbanken Smultron Forskare på Språkbanken Historiska resurser (MAÞiR 2014-2016)
Läs merI Nationalbibliografin redovisad utgivning (monografier)
I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merI Nationalbibliografin redovisad utgivning (monografier)
I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.
Läs merMaskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Läs merOn the role of corpora in cross-linguistic research, Stig Johansson (3-24)
Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet
Läs merEtiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1
Statistiktyp: Exemplarstatistik Statistikprofil: Mångspråk i Nacka per enhet, titlar 2018 Org. enhet: n Fr.o.m. datum: 2018-10-25 T.o.m. datum: 2018-10-25 Språk Gruppering Enhet Titlar Afrikaans Fisksätra
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merFÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN
FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN Bryssel den 31 mars 2005 (OR. en) AA 2/2/05 REV 2 ANSLUTNINGSFÖRDRAGET: FÖRDRAGET UTKAST TILL RÄTTSAKTER OCH ANDRA INSTRUMENT
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs mer17196/09 akb/ell/am 1 DQPG
EUROPEISKA UNIONENS RÅD Bryssel den 4 december 2009 (7.12) (OR. es,fr) 17196/09 POLGEN 232 FÖLJENOT från: till: Ärende: Rådets generalsekretariat Coreper/rådet Översyn av fördragen Övergångsåtgärder avseende
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merLove Peace and Understandning
Love Peace and Understandning Små ämnen: samarbete, arbetsfördelning och koncentration vad kan vi göra i Norden? Vad menar vi med ett småämne? Definitionen kan variera tex < 50 studenter -2 lärare på professors/lektorsnivå
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merEUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT
EUROPEISKA MILJÖBYRÅN ANSÖKNINGSBLANKETT (Samtliga frågor skall besvaras. Skriv "nej" vid obesvarade frågor men dra inga streck. Använd skrivmaskin eller texta med stora bokstäver med SVART kulspetspenna.)
Läs merSveriges internationella överenskommelser
Sveriges internationella överenskommelser ISSN 1102-3716 Utgiven av utrikesdepartementet SÖ 2013:20 Nr 20 Protokoll om det irländska folkets oro rörande Lissabonfördraget Bryssel den 13 juni 2012 Regeringen
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs mer995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8
995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 PROTOKOLL OM ÄNDRING AV PROTOKOLLET OM ÖVERGÅNGSBESTÄMMELSER, FOGAT TILL FÖRDRAGET
Läs merFörslag till RÅDETS BESLUT
EUROPEISKA KOMMISSIONEN Bryssel den 30.7.2013 COM(2013) 555 final 2013/0269 (NLE) Förslag till RÅDETS BESLUT om ingående av avtalet mellan Europeiska unionen och Republiken Frankrike om tillämpning vad
Läs merEuropeiska unionens råd Bryssel den 11 september 2017 (OR. en) Jordi AYET PUIGARNAU, direktör, för Europeiska kommissionens generalsekreterare
Europeiska unionens råd Bryssel den 11 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0229 (NLE) 12039/17 FÖRSLAG från: inkom den: 11 september 2017 till: Komm. dok. nr: Ärende: EF 186 ECOFIN
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merKort presentation av Korp, Sveriges nationalkorpus
Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merFÖRETRÄDARNA FÖR REGERINGARNA I EUROPEISKA GEMENSKAPENS MEDLEMSSTATER, FÖRSAMLADE I RÅDET, HAR ENATS OM FÖLJANDE
INTERNT AVTAL MELLAN FÖRETRÄDARNA FÖR MEDLEMSSTATERNAS REGERINGAR, FÖRSAMLADE I RÅDET, OM ÄNDRING AV DET INTERNA AVTALET AV DEN 18 SEPTEMBER 2000 OM ÅTGÄRDER OCH FÖRFARANDEN FÖR GENOMFÖRANDE AV AVS EG-PARTNERSKAPSAVTALET
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs merPre-editering och maskinöversättning. Convertus AB
Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merBILAGA. till. förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 5.3.2015 COM(2015) 101 final ANNEX 1 BILAGA till förslag till rådets beslut om ingående av avtalet mellan Europeiska unionen och Republiken Vanuatu om undantag från
Läs merBILAGA. till ändrat förslag till. rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 6.9.2016 COM(2016) 552 final ANNEX 2 BILAGA till ändrat förslag till rådets beslut om undertecknande och provisorisk tillämpning av luftfartsavtalet mellan Amerikas
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merEUROPEISKA GEMENSKAPERNAS KOMMISSION
EUROPEISKA GEMENSKAPERNAS KOMMISSION Bryssel 21/VIII/2007 K(2007) 3926 slutlig KOMMISSIONENS BESLUT av den 21/VIII/2007 om genomförande av rådets beslut 2007/435/EG med avseende på antagandet av strategiska
Läs merBeslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden
Utbildningsplan för Kandidatprogram i moderna språk Bachelor's Programme in Modern Languages 180.0 Högskolepoäng 180.0 ECTS credits Programkod: HMOLK Gäller från: HT 2015 Fastställd: 2015-03-05 Värdinstitution:
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merBILAGA. till. Förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 18.2.2016 COM(2016) 70 final ANNEX 1 BILAGA till Förslag till rådets beslut om undertecknande, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet
Läs merKan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige
Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv Rickard Domeij Språkrådet i Sverige Flerspråkig webbtillgänglighet Vägledningen för flerspråkig information
Läs merEn pilotstudie för automatisk analys av elevtexter
En pilotstudie för automatisk analys av elevtexter Jesper Näsman Institutionen för lingvistik och filologi Språkteknologiprogrammet Kandidatuppsats i språkteknologi 29 maj 2015 Handledare: Beáta Megyesi
Läs merKOMMISSIONENS GENOMFÖRANDEBESLUT. av den 22.10.2014
EUROPEISKA KOMMISSIONEN Bryssel den 22.10.2014 C(2014) 7594 final KOMMISSIONENS GENOMFÖRANDEBESLUT av den 22.10.2014 om ändring av genomförandebeslut K (2011) 5500 slutlig, vad gäller titeln och förteckningen
Läs merMEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02)
12.7.2011 SV Europeiska unionens officiella tidning C 206 A/7 MEDDELANDE OM ALLMÄNNA UTTAGNINGSPROV (2011/C 206 A/02) Är du intresserad av arbete inom EU? Uppfyller du kriterierna? Så här anmäler du dig
Läs merStatsminister Matti Vanhanen
Statsrådets skrivelse till Riksdagen med anledning av en ändring av rådets förordning (EU:s språkförordning) I enlighet med 96 2 mom. i grundlagen översänds till riksdagen Irlands och Spaniens framställningar
Läs merKorpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Läs mer7115/15 KSM/cc 1 DGD 1
Europeiska unionens råd Bryssel den 28 april 2015 (OR. en) 7115/15 Interinstitutionellt ärende: 2015/0059 (NLE) VISA 91 COLAC 26 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Avtal mellan Europeiska unionen
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merKONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS,
KONVENTIONEN OM REPUBLIKEN TJECKIENS, REPUBLIKEN ESTLANDS, REPUBLIKEN CYPERNS, REPUBLIKEN LETTLANDS, REPUBLIKEN LITAUENS, REPUBLIKEN UNGERNS, REPUBLIKEN MALTAS, REPUBLIKEN POLENS, REPUBLIKEN SLOVENIENS
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merBILAGA. till. förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 5.3.2015 COM(2015) 91 final ANNEX 1 BILAGA till förslag till rådets beslut om undertecknande på Europeiska unionens vägnar och om provisorisk tillämpning av avtalet
Läs merTabell 4. Indelningar av enskilda språk och språkfamiljer
Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning
Läs merBeslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden 2014-09-24.
Utbildningsplan för Masterprogram i språkvetenskap Master's Programme in Language Science Programkod: HSPPO Gäller från: HT 2015 Fastställd: 2014-09-24 Värdinstitution: Institutionen för lingvistik 120
Läs merSituationen i Sverige
Situationen i Sverige 3 olika teorier om språkf kförändringar Stamträd Våg Sociohistoria Den Indoeuropeiska språkfamiljen Till språkfamiljen hör språk som: Svenska Tyska Engelska Franska Italienska Men
Läs merProjekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merWiFi4EU-kontrollfunktion. Vägledning v1.0
EUROPEISKA KOMMISSIONEN GENERALDIREKTORATET FÖR INFORMATIONSTEKNIK WiFi4EU-kontrollfunktion Vägledning v1.0 Innehåll 1. Inledning... 2 2. Stöd för webbläsare... 2 3. Insamlade uppgifter... 2 4. Installationskrav...
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs mer