Språk, datorer och textbehandling
|
|
- Marianne Siv Karlsson
- för 9 år sedan
- Visningar:
Transkript
1 Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik 1
2 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla grundläggande kunskaper om datasystem och databehandling som bas för språkvetenskapliga studier och behandlar grundläggande tekniker för språkvetenskaplig bearbetning av stora textsamlingar (korpusar). Fokus ligger på praktisk användning av verktyg för korpusanalys. 2
3 Kursplan Innehåll och upplägg Begreppen operativsystem och filsystem och deras användning, med praktiska övningar i de datormiljöer som används i utbildningen. Representation och bearbetning i datasystem av text och textelement: teckenrepresentationer och dokumentbeskrivningsspråk. Konstruktion av enkla program för textbearbetning. Introduktion till Internet och WWW. 3
4 Kursplan Innehåll och upplägg Befintliga språkvetenskapliga korpusar. Separering av ord (tokenisering). Olika kvantitativa analyser. Grammatisk analys och uppmärkning av korpusar. Användning av parallella korpusar (där texter på olika språk som är varandras översättningar ställs jämte varandra). 4
5 Examination Kunskapskontroll sker genom: obligatoriska labbrapporter seminarier projektuppgift Betyget på kursen bestäms av: den muntliga och skriftliga presentationen av labbarna och projektuppgiften 5
6 Kurslitteratur och hemsida McEnery, Tony & Andrew Wilson (2001) Corpus linguistics, 2nd edition. Edinburgh: Edinburgh University Press. alt. Tony McEnery, Richard Xiao och Ykiou Tono, Corpus-Based Language Studies an advanced resource book. Routledge Applied Linguistics Kurssida: Kompletterande litteratur, läsrekommendationer och diverse intressanta länkar finns på kurssidan! 6
7 Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering Korpustyper Exempel på korpusar 7
8 Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data som: består av en samling skrivna texter eller transkriptioner av talspråk är mer eller mindre representativt för språket i fråga lagras elektroniskt Internet = Världens största korpus! 8
9 Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet) 9
10 Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 10
11 Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: representativt urval begränsad storlek (inte alltid) elektronisk form standardreferens 11
12 Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) 12
13 Korpusar som standardreferens Korpusar används som standardreferens för jämförande studier: jämför speciell språkanvändning med en standardreferens (korpus) 13
14 Korpusannotering Att märka upp korpusen med lingvistisk information, ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt. 14
15 Ordklasser Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverbindelning och skillnad mellan grundtal och ordningstal 15
16 Böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt) 16
17 Syntax Grammatisk analys Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser Satsdelar subjekt, objekt, adverbial etc. 17
18 Semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: Ordbetydelse Semantiska relationer (agent, patient etc.) 18
19 Korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden. 19
20 Fler korpustyper Trädbanker (Grammatiskt uppmärkta korpusar) Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska. 20
21 Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) JRC-Acquis (Lagtexter från EU) 21
22 Exempel på korpusar 22
23 SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation 23
24 Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose 24
25 Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 25
26 SUC (ordklasser) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 26
27 SUC (böjningsinformation) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 27
28 SUC (lemma) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 28
29 BNC British National Corpus Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt 29
30 Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30
31 BNC: ordklasser och böjning <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 31
32 Talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) 1,5 miljoner inspelade ord Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) ord Talad, brittisk engelska Transkriberad 32
33 Monitorkorpusar Språkbanken (Göteborgs universitet) Bank of English (COBUILD) Talad och skriven engelska 33
34 EUROPARL European Parliament Proceedings Parallel Corpus Parallellkorpus Europaparlamentstexter från perioden Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare 34
35 JRC-Acquis Parallellkorpus (monitorkorpus) EU-lagtexter Ca dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska 35
36 Länkning Metod för att hitta översättningsrelationer i parallellkorpusar Ett datorprogram parar automatiskt ihop segment i det ena språket med segment i det andra språket meningslänkning ordlänkning 36
37 Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken 37
38 Meningslänkning, exempel 1:1 I didn't know what to say. Jag visste inte vad jag skulle säga. 2:3 Her brother said to her, ''Why does Ras always say 'longwedge' for - 'language', he talks about African 'longwedges'? Sounds so funny.'' ''Hur kommer det sig att Ras alltid säger 'sprak' i stället för 'språk'? Han talar om afrikanska 'sprak'. Det låter så roligt.'' 2:1 ''Go to hell.'' Emanuelle sat up straight. ''Dra åt skogen!'' sade Emanuelle och satte sig kapprak. 38
39 Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar stränglikhet samförekomst ordklassuppmärkning lexikon 39
40 Trädbanker Penn Treebank Engelsk tidningstext (Wall Street Journal) Talbanken En av världens äldsta trädbanker (70-talet) Talad och skriven svenska 40
41 Exempel ur Talbanken P << GM 046 P *DESSUTOM ABOC +A 046 P KOMMER KVPS FV 046 P EN EN SSDT 046 P ENSAMSTÅENDE AJ SS SSAT 046 P FOLKPENSIONÄR NN HS SS 046 P ATT IM IM 046 P KUNNA QVIV IV 046 P HA HVIV IX 046 P EN EN OODT 046 P INKOMST NN OO 046 P OM PR OOETPR 046 P RO OOETDT 046 P KR NN OOET 046 P VID PR AAPR 046 P SIDAN ID AAPR 046 P AV ID AAPR 046 P FOLKPENSIONEN NNDDSS AA 046 P F +F 046 P OCH P ÄNDOCK ABMN +B 046 P BLI BVIV FV 046 P SKATTEFRI AJ SP 046 P IP IP
42 ASU-korpusen Andraspråkets StrukturUtveckling Specialkorpus inriktad mot studier av svenskt inlärarspråk i dess utvecklingsfaser och jämförelser mellan inlärares och inföddas språkbruk Inspelade samtal och skrivna texter från vuxna inlärare av svenska Kompletterad med jämförbart material från infödda svenskar löpord ( ord samtal och ord skrift) 42
43 Nästa gång Mer om korpusannotering Textkodning Textnormalisering 43
Elementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merSvenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57
Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merKursbeskrivning med litteraturlista HT-13
Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merKursinformation och schema Lingvistik 729G08 (6 hp)
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga kandidatprogrammet V1 Kursinformation och schema Lingvistik 729G08 (6 hp) HT 2016 Lärare och examinatorer: Mathias
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merVälkommen till den första delkursen i svenska!
Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merNederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng
STOCKHOLMS UNIVERSITET Institutionen för slaviska och baltiska språk, finska, nederländska och tyska Nederländska avdelningen Höstterminen 2018 Kursinformation med litteraturförteckning Nederländska I
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merNederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng
STOCKHOLMS UNIVERSITET Institutionen för baltiska språk, finska och tyska Nederländska avdelningen Höstterminen 2014 Kursinformation med litteraturförteckning Nederländska I 30 högskolepoäng Termin 1 (15
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merKURSPLAN Engelska, 31-60 hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2012 Version: 2 Utbildningsnivå: Utbildningsområde:
Läs merAnna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
Läs merKort presentation av Korp, Sveriges nationalkorpus
Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merTabell 4. Indelningar av enskilda språk och språkfamiljer
Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merKURSPLAN Engelska, hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2011 Version: 1 Utbildningsnivå: Utbildningsområde:
Läs merÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merKursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Lingvistik I Linguistics I 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: LIN130 Gäller från: HT 2016 Fastställd: 2013-03-13 Ändrad: 2016-03-15 Institution Institutionen för
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merKURSPLAN Engelska, 1-30 hp, 30 högskolepoäng
1(6) KURSPLAN Engelska, 1-30 hp, 30 högskolepoäng English, 1-30 credits, 30 credits Kurskod: LEAA17 Fastställd av: VD 2007-06-18 Gäller fr.o.m.: Vt 2013. Reviderad 2011-06-22 Version: 5 Utbildningsnivå:
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merKursbeskrivning med litteraturlista VT-14
Kursbeskrivning med litteraturlista VT-14 Grammatik och översättning, 7.5 hp Delkurs inom Franska I, 30 hp. Undervisning Fransk och allmän grammatik, föreläsningar: 26 timmar Fransk grammatik, seminarier:
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs mer15410/17 MLB/cc DGC 1A
Europeiska unionens råd Bryssel den 14 maj 2018 (OR. en) 15410/17 Interinstitutionellt ärende: 2017/0319 (NLE) COLAC 144 WTO 329 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Tredje tilläggsprotokollet till
Läs merANNEX BILAGA. till. förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 1.12.2017 COM(2017) 722 final ANNEX BILAGA till förslag till rådets beslut om undertecknande och provisorisk tillämpning, på Europeiska unionens och dess medlemsstaters
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merFÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN
FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN Bryssel den 31 mars 2005 (OR. en) AA 2/2/05 REV 2 ANSLUTNINGSFÖRDRAGET: FÖRDRAGET UTKAST TILL RÄTTSAKTER OCH ANDRA INSTRUMENT
Läs merSvensk minigrammatik
Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merBILAGA. till. förslaget till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 26.2.2016 COM(2016) 91 final ANNEX 1 BILAGA till förslaget till rådets beslut om ingående, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet till
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merFR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)
Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd
Läs merÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng
Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen
Läs merKursplan SP1046. Spanska I med didaktisk inriktning 30 högskolepoäng, Grundnivå 1
Sida 1(9) Kursplan Spanska I med didaktisk inriktning 30 högskolepoäng, Grundnivå 1 Spanish I for Teacher Students 30 Credits*, First Cycle Level 1 Lärandemål Kursens övergripande mål är att de studerande
Läs merSpråkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Läs merEN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits
HUMANISTISKA FAKULTETSNÄMNDEN EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits Avancerad nivå/second Cycle 1.
Läs merKursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Lingvistik I Linguistics I 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: LIN130 Gäller från: HT 2018 Fastställd: 2013-03-13 Ändrad: 2018-02-13 Institution Institutionen för
Läs merI Nationalbibliografin redovisad utgivning (monografier)
I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.
Läs merSatslära introduktion
Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen
Läs merÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merHuvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute
Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner
Läs merFör delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 6 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0199 (NLE) 11685/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 433 final/2 ANNEX 1 Ärende: RECH 277
Läs merÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle Fastställande
Läs merEngelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)
1EN000 Engelska A, Allmän inriktning 30.0 hp 1EN000 English A, General Course 30.0 credits Fält markerade med en asterisk (*) är obligatoriska Betygsskala* För denna kurs ges betygen VG Väl godkänd, G
Läs merKURSPLAN Engelska, 1-60 hp, 60 högskolepoäng
1(8) KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng English, 1-60 credits, 60 credits Kurskod: LENA17 Fastställd av: VD 2007-12-18 Gäller fr.o.m.: Ht 2011 Reviderad 2010-06-01 Version: 1 Utbildningsnivå:
Läs merLove Peace and Understandning
Love Peace and Understandning Små ämnen: samarbete, arbetsfördelning och koncentration vad kan vi göra i Norden? Vad menar vi med ett småämne? Definitionen kan variera tex < 50 studenter -2 lärare på professors/lektorsnivå
Läs merFöreläsningsserie: Introduktion till språk- och litteraturvetenskap
HT13 Föreläsningsserie: Introduktion till språk- och litteraturvetenskap A. Språk i teori och praktik Introduktion: Som vi har brukat säga vid introduktionen till första terminens franskstudier: universitetsstudier
Läs merEuropeiska unionens råd Bryssel den 7 september 2017 (OR. sv)
Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Interinstitutionellt ärende: 2017/0197 (NLE) 11673/17 ADD 1 REV 1 sv FÖRSLAG Komm. dok. nr: COM(2017) 431 final/2 - ANNEX 1 Ärende: RECH 270
Läs merBeslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden
Utbildningsplan för Kandidatprogram i moderna språk Bachelor's Programme in Modern Languages 180.0 Högskolepoäng 180.0 ECTS credits Programkod: HMOLK Gäller från: HT 2015 Fastställd: 2015-03-05 Värdinstitution:
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merGrammatik skillnader mellan svenska och engelska
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf December 2012 Grammatik skillnader mellan svenska och engelska 1 Inledning
Läs merSVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle Fastställande Kursplanen
Läs merFör delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 7 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0196 (NLE) 11678/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 430 final/2 ANNEX 1 Ärende: RECH 273
Läs merINSTITUTIONEN FÖR SPRÅK OCH LITTERATURER
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER LGFR40 Franska 4 för gymnasielärare, 15 högskolepoäng French 4 in Teacher Education for upper secondary school, 15 higher education credits Fastställande Kursplanen
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merIsländska NOI 320 Isländska, 1-20 p 20? NOI 324 Island: Historia, språk och kultur, 5 p 5? NOI 325 Isländska, inledningskurs, 5 p 5?
Kursöversikt, språkvetenskapliga sektionen. Listan är ej komplett och måste uppdateras och revideras minst en gång per termin. Inst Ämne Kurskod Kursnamn Poäng År Studiefart Periodisering IT-kurs Tyska
Läs mer