Datorbaserade verktyg i humanistisk forskning

Storlek: px
Starta visningen från sidan:

Download "Datorbaserade verktyg i humanistisk forskning"

Transkript

1 Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se

2 Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering och exempel på korpusar Korpusdistributörer Upphovsrätt

3 Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!

4 Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)

5 Vilken information kan man få fram ur en korpus? Sökningar i korpusen visar hur språket faktiskt används och har använts i verkliga livet (inga lösa teorier), t.ex: o Används konjunktivformer (vore, måtte, funnes) i svenska språket idag? o Säger man bättre än jag eller bättre än mig? o Säger man det kommer bli roligt eller det kommer att bli roligt? o När började man skriva mej istället för mig i skrift?

6 Svaren konjunktivformer i SUC-korpusen: vore, vare och måtte överlägset vanligast övriga: må, leve, bevare, tillkomme, tröste, månde, bleve, varde, varen, såge PAROLE-korpusen: bättre än jag: 40 träffar bättre än mig: en träff SUC-korpusen: kommer + verb i infinitiv: en träff kommer + att + verb i infinitiv: 423 träffar

7 Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker

8 Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: o representativt urval o begränsad storlek (inte alltid) o elektronisk form o standardreferens

9 Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: o definiera populationen ( sampling frame ) o fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung o bestäm storleken (vad är den optimala storleken?)

10 Balanserade korpusar Balanserade korpusar består av olika texttyper i bestämda proportioner Proportionerna är avvägda så att korpusen speglar språket i fråga alternativt en viss aspekt av språket i fråga

11 Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: o Ordklass (part-of-speech) o Böjningsinformation (morfo-syntaktisk information) o Lemma (grundform, d.v.s. uppslagsord i lexikon) o Syntax o Fonetik (uttal) transkription o Semantik Annoteringen kan göras för hand eller automatiskt.

12 Ordklasstaggning Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverb-indelning och skillnad mellan grundtal och ordningstal

13 Uppmärkning av böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt)

14 SUC (Stockholm Umeå Corpus) Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation

15 Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose

16 Annotering i SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM <b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s>

17 SUC i användarvänligt format Språkbanken: Webbsida som samlat ett flertal svenska, elektroniskt sökbara lexikon och korpusar Visar resultatet i konkordansform Möjliggör sökning efter: o specifika ord (alla förekomster av ordformen tysktalande) o specifika ordklasser (alla förekomster av ordklassen adjektiv) o delsträngar (alla ord som slutar på -ande) o kombinationer av ovanstående (alla ord som slutar på -ande och som är adjektiv)

18 Konkordanser

19 Konkordanssökning för spanska Corpus del Espanol 100 miljoner ord från 1200-talet och fram till 1900-talet Spanish On-Line (SOL) Ca ord nutidsspanska Tillgänglig från

20 BNC British National Corpus Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt

21 Uppmärkning i BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters

22 Uppmärkning av syntax Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser etc Satsdelar subjekt, objekt, adverbial etc

23 Trädbanker (syntaktiskt uppmärkta korpusar) Penn Treebank o Engelsk tidningstext (Wall Street Journal) Talbanken o En av världens äldsta trädbanker (70-talet) o Talad och skriven svenska

24 Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare

25 Uppmärkning av fonetisk information Alla korpusar beskriver inte skrivet språk Talspråkskorpusar utgörs av inspelade samtal Transkriberas Ska man märka upp skratt, tvekanden etc? Bidrar det till samtalet?

26 Exempel på talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) o 1,5 miljoner inspelade ord o Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) o ord o Talad, brittisk engelska o Transkriberad

27 Uppmärkning av semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: oordbetydelse: synonymi, hyponymi etc. osemantiska relationer: agent, patient etc.

28 Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät

29 Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Exempel på flerspråkiga korpusar: Hansard (kanadensiska parlamentstexter på engelska och franska) EUROPARL (europeiska parlamentstexter) JRC-ACQUIS (europeiska lagtexter)

30 EUROPARL European Parliament Proceedings Parallel Corpus Parallellkorpus Europaparlamentstexter från perioden Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare

31 JRC-Acquis Parallellkorpus (monitorkorpus) EU-lagtexter Ca dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska

32 Korpusdistributörer Linguistic Data Consortium (LDC): o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.

33 Korpusdistributörer European Language Resources Association (ELRA): Evaluations and Language Resources Distribution Agency (ELDA): o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer

34 Korpusdistributörer International Computer Archive of Modern English (ICAME): osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.

35 Användbara länkar för den korpusintresserade CORPORA-listan: oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.

36 Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem

37 Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.

38 Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd

39 Korpussamlingar Gutenberg: o innehåller ca fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: o fransk motsvarighet

40 Nästa gång Föreläsning: Introduktion till WordSmith Labb: Bearbetning av egna data i WordSmith Labbinstruktioner: html

Elementära verktyg för korpusbearbetning

Elementära verktyg för korpusbearbetning Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering eva.pettersson@lingfil.uu.se 1 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41) Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57 Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket

Läs mer

Ordklasser och satsdelar

Ordklasser och satsdelar Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

Grammatisk teori II Attributvärdesgrammatik

Grammatisk teori II Attributvärdesgrammatik Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska

Läs mer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar

Läs mer

Facit för diagnostiska provet i grammatik

Facit för diagnostiska provet i grammatik Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954

Läs mer

Korpusuppbyggnad Från textsamling till korpus

Korpusuppbyggnad Från textsamling till korpus Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015 Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

SUBSTANTIV = namn på saker, personer, känslor

SUBSTANTIV = namn på saker, personer, känslor KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS

Läs mer

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer

Läs mer

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1. Europeiska unionens råd Bryssel den 6 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0199 (NLE) 11685/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 433 final/2 ANNEX 1 Ärende: RECH 277

Läs mer

Love Peace and Understandning

Love Peace and Understandning Love Peace and Understandning Små ämnen: samarbete, arbetsfördelning och koncentration vad kan vi göra i Norden? Vad menar vi med ett småämne? Definitionen kan variera tex < 50 studenter -2 lärare på professors/lektorsnivå

Läs mer

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Interinstitutionellt ärende: 2017/0197 (NLE) 11673/17 ADD 1 REV 1 sv FÖRSLAG Komm. dok. nr: COM(2017) 431 final/2 - ANNEX 1 Ärende: RECH 270

Läs mer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer

Läs mer

15410/17 MLB/cc DGC 1A

15410/17 MLB/cc DGC 1A Europeiska unionens råd Bryssel den 14 maj 2018 (OR. en) 15410/17 Interinstitutionellt ärende: 2017/0319 (NLE) COLAC 144 WTO 329 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Tredje tilläggsprotokollet till

Läs mer

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1. Europeiska unionens råd Bryssel den 7 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0196 (NLE) 11678/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 430 final/2 ANNEX 1 Ärende: RECH 273

Läs mer

ANNEX BILAGA. till. förslag till rådets beslut

ANNEX BILAGA. till. förslag till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 1.12.2017 COM(2017) 722 final ANNEX BILAGA till förslag till rådets beslut om undertecknande och provisorisk tillämpning, på Europeiska unionens och dess medlemsstaters

Läs mer

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala

Läs mer

BILAGA. till. förslaget till rådets beslut

BILAGA. till. förslaget till rådets beslut EUROPEISKA KOMMISSIONEN Bryssel den 26.2.2016 COM(2016) 91 final ANNEX 1 BILAGA till förslaget till rådets beslut om ingående, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet till

Läs mer

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT

Läs mer

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär: 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade

Läs mer

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet. MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti

Läs mer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Tabell 4. Indelningar av enskilda språk och språkfamiljer Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Välkommen till den första delkursen i svenska!

Välkommen till den första delkursen i svenska! Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar

Läs mer

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN Bryssel den 31 mars 2005 (OR. en) AA 2/2/05 REV 2 ANSLUTNINGSFÖRDRAGET: FÖRDRAGET UTKAST TILL RÄTTSAKTER OCH ANDRA INSTRUMENT

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys

Läs mer

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1 Förmågor som eleverna ska utveckla i svenska Praktisk Svenska 1 Praktisk Svenska 2 Praktisk Svenska 3 Kunskapskrav i svenska Formulera sig och kommunicera i tal och skrift. Jag kan Formulera positiva tankar

Läs mer

ANDREAS ISSA SVENSKA SPRÅKET

ANDREAS ISSA SVENSKA SPRÅKET ANDREAS ISSA SVENSKA SPRÅKET Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden. Den som bryter mot lagen om upphovsrätt kan

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

ORDKLASSERNA I SVENSKA SPRÅKET

ORDKLASSERNA I SVENSKA SPRÅKET ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Svensk minigrammatik

Svensk minigrammatik Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING

Läs mer

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April Lingvistik II Ord, ordklasser, lexikon Mikael Svensson Lingvistik, 2 April Dagens föreläsning Inledning till morfologi och syntax Lexikon Ord Ordklasser Öppna ordklasser: substantiv, verb, adjektiv, adverb

Läs mer

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 PROTOKOLL OM ÄNDRING AV PROTOKOLLET OM ÖVERGÅNGSBESTÄMMELSER, FOGAT TILL FÖRDRAGET

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

17196/09 akb/ell/am 1 DQPG

17196/09 akb/ell/am 1 DQPG EUROPEISKA UNIONENS RÅD Bryssel den 4 december 2009 (7.12) (OR. es,fr) 17196/09 POLGEN 232 FÖLJENOT från: till: Ärende: Rådets generalsekretariat Coreper/rådet Översyn av fördragen Övergångsåtgärder avseende

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Satslära introduktion

Satslära introduktion Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Svensk nationell datatjänst, SND BAS Online

Svensk nationell datatjänst, SND BAS Online Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

ORDKLASSERNA I. Ett sätt att sortera våra ord

ORDKLASSERNA I. Ett sätt att sortera våra ord ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna

Läs mer

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv10/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2010 Satser Satserna utgör den mest mångfacetterade

Läs mer

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3 Syntax, Ordklasser och Satsdelar Allmän Grammatik och Fonetik HT10 Dag 3 Svenskans ordklasser Substantiv Adjektiv Verb Adverb Pronomen Räkneord Preposition Konjunktioner och subjunktioner Interjektioner

Läs mer

Att undersöka språkmöten med datorn

Att undersöka språkmöten med datorn Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;

Läs mer

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad? Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid

Läs mer

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden Utbildningsplan för Kandidatprogram i moderna språk Bachelor's Programme in Modern Languages 180.0 Högskolepoäng 180.0 ECTS credits Programkod: HMOLK Gäller från: HT 2015 Fastställd: 2015-03-05 Värdinstitution:

Läs mer

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk

Läs mer

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A Uppsala universitet Institutionen för nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A 2011-03-25 kl. 8.00 12.00 lokal: Gimogatan 4, sal I Hjälpmedel:

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

I Nationalbibliografin redovisad utgivning (monografier)

I Nationalbibliografin redovisad utgivning (monografier) I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.

Läs mer

Kursbeskrivning med litteraturlista HT-13

Kursbeskrivning med litteraturlista HT-13 Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,

Läs mer

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem

Läs mer

Korpusmått, korpusbalans och korpusrepresentativitet

Korpusmått, korpusbalans och korpusrepresentativitet Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet

Läs mer

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur. UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer

Läs mer

Grammatisk teori III Praktisk analys

Grammatisk teori III Praktisk analys Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ är konstruktioner (fraser) som innehåller ett predikat och ett subjekt (Josefssons, s. 151, definition, som är en vanlig definition).

Läs mer

Sveriges internationella överenskommelser

Sveriges internationella överenskommelser Sveriges internationella överenskommelser ISSN 1102-3716 Utgiven av utrikesdepartementet SÖ 2013:20 Nr 20 Protokoll om det irländska folkets oro rörande Lissabonfördraget Bryssel den 13 juni 2012 Regeringen

Läs mer

tot tot

tot tot Huvudansökan, kandidatprogrammet i filosofi (undervisning på finska), kandidat i humanistiska vetenskaper/politices kandidat och filosofie magister/politices magister (3 år + 2 år) Antagna Antalet av Totalpoängskö

Läs mer

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa Träningshäfte - ordklasser- facit Substantiv 1. Stryk under substantiven bland följande ord. (8 ord) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte

Läs mer