Elementära verktyg för korpusbearbetning
|
|
- Frida Bergström
- för 5 år sedan
- Visningar:
Transkript
1 Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik 1
2 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar grundläggande tekniker för språkvetenskaplig bearbetning av stora textsamlingar (korpusar). Tyngdpunkten ligger på praktisk användning av verktyg för korpusanalys. 2
3 Kursplan Innehåll och upplägg Texturval och representativitet. Olika sätt att representera text i datorer. Olika språk olika teckenuppsättningar. Befintliga språkvetenskapliga korpusar. Separering av ord och meningar. Olika kvantitativa analyser. Grammatisk analys och uppmärkning av korpusar. Användning av parallella korpusar, där texter på olika språk som är varandras översättningar ställs jämte varandra. Korpusbaserad lexikografi. 3
4 Examination Kunskapskontroll sker genom: obligatoriska labbrapporter projektuppgift Betyget på kursen bestäms av: labbarna den muntliga och skriftliga presentationen av projektuppgiften 4
5 Kurslitteratur och hemsida Tony McEnery, Richard Xiao och Ykiou Tono, Corpus Based Language Studies an advanced resource book. Routledge Applied Linguistics Kurssida: ElemKorpLing/ Kompletterande litteratur, läsrekommendationer och diverse intressanta länkar finns på hemsidan! 5
6 Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering Korpustyper Exempel på korpusar 6
7 Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data som: består av en samling skrivna texter eller transkriptioner av talspråk är mer eller mindre representativt för språket i fråga lagras elektroniskt Internet = Världens största korpus! 7
8 Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80 talet) 8
9 Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 9
10 Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: representativt urval begränsad storlek (inte alltid) elektronisk form standardreferens 10
11 Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) genrer, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) 11
12 Korpusar som standardreferens Korpusar används som standardreferens för jämförande studier: jämför speciell språkanvändning med en standardreferens (korpus) 12
13 Korpusannotering Att märka upp korpusen med lingvistisk information, ex: Ordklass (part of speech) Böjningsinformation (morfo syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) transkription Semantik Annoteringen kan göras för hand eller automatiskt. 13
14 Ordklasser Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC korpusen 23 ordklasser, bl.a. finare adverbindelning och skillnad mellan grundtal och ordningstal 14
15 Böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt) 15
16 Syntax Grammatisk analys Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser Satsdelar subjekt, objekt, adverbial etc. 16
17 Semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: Ordbetydelse Semantiska relationer (agent, patient etc.) 17
18 Annoteringsprinciper (Leech 1993) En annoterad korpus ska kunna återställas till sin oannoterade form Annoteringen ska gå att extrahera från texten för att sparas separat Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren Det ska klargöras hur och av vem annotationen gjordes Slutanvändaren ska informeras om att annoteringen inte är God's truth utan endast ett användbart verktyg Annoteringsscheman ska baseras på accepterade och teori neutrala principer Inget annoteringsschema är en standard på förhand. Standarder växer fram. 18
19 Korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden. 19
20 Fler korpustyper Trädbanker (Grammatiskt uppmärkta korpusar) Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska. 20
21 Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) 21
22 Exempel på korpusar 22
23 SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation 23
24 Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose 24
25 Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 25
26 SUC (ordklasser) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 26
27 SUC (böjningsinformation) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 27
28 SUC (lemma) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 28
29 BNC British National Corpus Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt 29
30 Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30
31 BNC: ordklasser och böjning <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 31
32 Talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) 1,5 miljoner inspelade ord Transkriberad och uppmärkt med ordklasser London Lund Corpus (LLC) ord Talad, brittisk engelska Transkriberad 32
33 Monitorkorpusar Språkbanken (Göteborgs universitet) Bank of English (COBUILD) Talad och skriven engelska 33
34 EUROPARL European Parliament Proceedings Parallel Corpus Parallellkorpus Europaparlamentstexter från perioden Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare 34
35 Trädbanker Penn Treebank Engelsk tidningstext (Wall Street Journal) Talbanken En av de äldsta trädbankerna (70 talet) Talad och skriven svenska 35
36 Exempel ur Talbanken P << GM 046 P *DESSUTOM ABOC +A 046 P KOMMER KVPS FV 046 P EN EN SSDT 046 P ENSAMSTÅENDE AJ SS SSAT 046 P FOLKPENSIONÄR NN HS SS 046 P ATT IM IM 046 P KUNNA QVIV IV 046 P HA HVIV IX 046 P EN EN OODT 046 P INKOMST NN OO 046 P OM PR OOETPR 046 P RO OOETDT 046 P KR NN OOET 046 P VID PR AAPR 046 P SIDAN ID AAPR 046 P AV ID AAPR 046 P FOLKPENSIONEN NNDDSS AA 046 P F +F 046 P OCH P ÄNDOCK ABMN +B 046 P BLI BVIV FV 046 P SKATTEFRI AJ SP 046 P IP IP
37 ASU-korpusen Andraspråkets StrukturUtveckling Specialkorpus inriktad mot studier av svenskt inlärarspråk i dess utvecklingsfaser och jämförelser mellan inlärares och inföddas språkbruk Inspelade samtal och skrivna texter från vuxna inlärare av svenska Kompletterad med jämförbart material från infödda svenskar löpord ( ord samtal och ord skrift) 37
38 Nästa gång Samläsning med studenter på Språkteknologiprogrammet Mer om korpusannotering Textkodning Textnormalisering 38
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merSvenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57
Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merKursbeskrivning med litteraturlista HT-13
Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering eva.pettersson@lingfil.uu.se 1 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merNederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng
STOCKHOLMS UNIVERSITET Institutionen för slaviska och baltiska språk, finska, nederländska och tyska Nederländska avdelningen Höstterminen 2018 Kursinformation med litteraturförteckning Nederländska I
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merVälkommen till den första delkursen i svenska!
Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar
Läs merNederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng
STOCKHOLMS UNIVERSITET Institutionen för baltiska språk, finska och tyska Nederländska avdelningen Höstterminen 2014 Kursinformation med litteraturförteckning Nederländska I 30 högskolepoäng Termin 1 (15
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering
Läs merKURSPLAN Engelska, 31-60 hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2012 Version: 2 Utbildningsnivå: Utbildningsområde:
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merKURSPLAN Engelska, hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2011 Version: 1 Utbildningsnivå: Utbildningsområde:
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merTabell 4. Indelningar av enskilda språk och språkfamiljer
Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merKort presentation av Korp, Sveriges nationalkorpus
Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merFR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)
Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd
Läs merHuvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute
Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner
Läs merKursbeskrivning med litteraturlista VT-14
Kursbeskrivning med litteraturlista VT-14 Grammatik och översättning, 7.5 hp Delkurs inom Franska I, 30 hp. Undervisning Fransk och allmän grammatik, föreläsningar: 26 timmar Fransk grammatik, seminarier:
Läs merKURSPLAN Engelska, 1-60 hp, 60 högskolepoäng
1(8) KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng English, 1-60 credits, 60 credits Kurskod: LENA17 Fastställd av: VD 2007-12-18 Gäller fr.o.m.: Ht 2011 Reviderad 2010-06-01 Version: 1 Utbildningsnivå:
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs merKURSPLAN Engelska, 1-30 hp, 30 högskolepoäng
1(6) KURSPLAN Engelska, 1-30 hp, 30 högskolepoäng English, 1-30 credits, 30 credits Kurskod: LEAA17 Fastställd av: VD 2007-06-18 Gäller fr.o.m.: Vt 2013. Reviderad 2011-06-22 Version: 5 Utbildningsnivå:
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merSvensk minigrammatik
Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING
Läs merFöreläsningsserie: Introduktion till språk- och litteraturvetenskap
HT13 Föreläsningsserie: Introduktion till språk- och litteraturvetenskap A. Språk i teori och praktik Introduktion: Som vi har brukat säga vid introduktionen till första terminens franskstudier: universitetsstudier
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Läs merKorpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merBETYGSKRITERIER OCH BETYGSÄTTNING
STOCKHOLMS UNIVERSITET Institutionen för slaviska och baltiska språk, finska, nederländska och tyska Avdelningen för nederländska BETYGSKRITERIER OCH BETYGSÄTTNING, kunskapsformer och betygsskalor Kurser
Läs merÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merTENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs
Uppsala universitet Institutionen för nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs 2011-10-11 kl. 9.00 13.00 lokal: Polacksbacken,
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merIntroduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Läs merUppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A
Uppsala universitet Institutionen för nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A 2011-03-25 kl. 8.00 12.00 lokal: Gimogatan 4, sal I Hjälpmedel:
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merSubstantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merSPRÅKTEKNOLOGIPROGRAMMET (STP)
SPRÅKTEKNOLOGIPROGRAMMET (STP) Kandidatprogram, 3 år, 180 hp. Institutionen för lingvistik och filologi 1 Utbildningsprogram Kunskapsmässig progression och yrkesmässig relevans. Antagning till ett paket
Läs merLingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April
Lingvistik II Ord, ordklasser, lexikon Mikael Svensson Lingvistik, 2 April Dagens föreläsning Inledning till morfologi och syntax Lexikon Ord Ordklasser Öppna ordklasser: substantiv, verb, adjektiv, adverb
Läs merEngelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)
1EN000 Engelska A, Allmän inriktning 30.0 hp 1EN000 English A, General Course 30.0 credits Fält markerade med en asterisk (*) är obligatoriska Betygsskala* För denna kurs ges betygen VG Väl godkänd, G
Läs merGrammatik skillnader mellan svenska och engelska
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf December 2012 Grammatik skillnader mellan svenska och engelska 1 Inledning
Läs merSUBSTANTIV = namn på saker, personer, känslor
KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merÖversikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer
Läs merBeslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden 2014-09-24.
Utbildningsplan för Masterprogram i språkvetenskap Master's Programme in Language Science Programkod: HSPPO Gäller från: HT 2015 Fastställd: 2014-09-24 Värdinstitution: Institutionen för lingvistik 120
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Läs merKursinformation och schema Lingvistik 729G08 (6 hp)
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga kandidatprogrammet V1 Kursinformation och schema Lingvistik 729G08 (6 hp) HT 2016 Lärare och examinatorer: Mathias
Läs merORDKLASSERNA I SVENSKA SPRÅKET
ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan
Läs merSyntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3
Syntax, Ordklasser och Satsdelar Allmän Grammatik och Fonetik HT10 Dag 3 Svenskans ordklasser Substantiv Adjektiv Verb Adverb Pronomen Räkneord Preposition Konjunktioner och subjunktioner Interjektioner
Läs merOrdklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser
Morfologi Ordklasser Inom morfologin studerar man ords olika form, dess inre struktur, hur ord bildas samt indelning i olika klasser Språkvetenskaplig databehandling Maria Holmqvist 2011-02-25 1 2 Varför
Läs merKursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Engelska - kandidatkurs BA Course in English 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: EN30H1 Gäller från: HT 2013 Fastställd: 2011-10-12 Ändrad: 2013-03-13 Institution
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merKursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Engelska II English II 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: EN20H7 Gäller från: HT 2013 Fastställd: 2007-06-18 Ändrad: 2013-03-06 Institution Engelska institutionen
Läs mer2008-10-01 Svenska Ämnets syfte och roll i utbildningen Mål att sträva mot Lyssna/tala Läsa
2008-10-01 Svenska Ämnets syfte och roll i utbildningen Utbildningen i ämnet svenska syftar till att ge eleverna möjligheter att använda och utveckla sin förmåga att tala, lyssna, se, läsa och skriva samt
Läs merKort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
Läs merÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle Fastställande
Läs merSatslära introduktion
Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen
Läs merGrundläggande syntaktiska funktioner och roller
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande
Läs mer