Datorbaserade verktyg i humanistisk forskning
|
|
- Nils Mattsson
- för 5 år sedan
- Visningar:
Transkript
1 Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se
2 Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering och exempel på korpusar Korpusdistributörer Upphovsrätt
3 Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!
4 Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)
5 Vilken information kan man få fram ur en korpus? Sökningar i korpusen visar hur språket faktiskt används och har använts i verkliga livet (inga lösa teorier), t.ex: o Används konjunktivformer (vore, måtte, funnes) i svenska språket idag? o Säger man bättre än jag eller bättre än mig? o Säger man det kommer bli roligt eller det kommer att bli roligt? o När började man skriva mej istället för mig i skrift?
6 Svaren konjunktivformer i SUC-korpusen: vore, vare och måtte överlägset vanligast övriga: må, leve, bevare, tillkomme, tröste, månde, bleve, varde, varen, såge PAROLE-korpusen: bättre än jag: 40 träffar bättre än mig: en träff SUC-korpusen: kommer + verb i infinitiv: en träff kommer + att + verb i infinitiv: 423 träffar
7 Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker
8 Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: o representativt urval o begränsad storlek (inte alltid) o elektronisk form o standardreferens
9 Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: o definiera populationen ( sampling frame ) o fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung o bestäm storleken (vad är den optimala storleken?)
10 Balanserade korpusar Balanserade korpusar består av olika texttyper i bestämda proportioner Proportionerna är avvägda så att korpusen speglar språket i fråga alternativt en viss aspekt av språket i fråga
11 Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: o Ordklass (part-of-speech) o Böjningsinformation (morfo-syntaktisk information) o Lemma (grundform, d.v.s. uppslagsord i lexikon) o Syntax o Fonetik (uttal) transkription o Semantik Annoteringen kan göras för hand eller automatiskt.
12 Ordklasstaggning Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverb-indelning och skillnad mellan grundtal och ordningstal
13 Uppmärkning av böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt)
14 SUC (Stockholm Umeå Corpus) Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation
15 Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose
16 Annotering i SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM <b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s>
17 SUC i användarvänligt format Språkbanken: Webbsida som samlat ett flertal svenska, elektroniskt sökbara lexikon och korpusar Visar resultatet i konkordansform Möjliggör sökning efter: o specifika ord (alla förekomster av ordformen tysktalande) o specifika ordklasser (alla förekomster av ordklassen adjektiv) o delsträngar (alla ord som slutar på -ande) o kombinationer av ovanstående (alla ord som slutar på -ande och som är adjektiv)
18 Konkordanser
19 Konkordanssökning för spanska Corpus del Espanol 100 miljoner ord från 1200-talet och fram till 1900-talet Spanish On-Line (SOL) Ca ord nutidsspanska Tillgänglig från
20 BNC British National Corpus Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt
21 Uppmärkning i BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters
22 Uppmärkning av syntax Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser etc Satsdelar subjekt, objekt, adverbial etc
23 Trädbanker (syntaktiskt uppmärkta korpusar) Penn Treebank o Engelsk tidningstext (Wall Street Journal) Talbanken o En av världens äldsta trädbanker (70-talet) o Talad och skriven svenska
24 Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare
25 Uppmärkning av fonetisk information Alla korpusar beskriver inte skrivet språk Talspråkskorpusar utgörs av inspelade samtal Transkriberas Ska man märka upp skratt, tvekanden etc? Bidrar det till samtalet?
26 Exempel på talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) o 1,5 miljoner inspelade ord o Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) o ord o Talad, brittisk engelska o Transkriberad
27 Uppmärkning av semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: oordbetydelse: synonymi, hyponymi etc. osemantiska relationer: agent, patient etc.
28 Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät
29 Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Exempel på flerspråkiga korpusar: Hansard (kanadensiska parlamentstexter på engelska och franska) EUROPARL (europeiska parlamentstexter) JRC-ACQUIS (europeiska lagtexter)
30 EUROPARL European Parliament Proceedings Parallel Corpus Parallellkorpus Europaparlamentstexter från perioden Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare
31 JRC-Acquis Parallellkorpus (monitorkorpus) EU-lagtexter Ca dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska
32 Korpusdistributörer Linguistic Data Consortium (LDC): o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.
33 Korpusdistributörer European Language Resources Association (ELRA): Evaluations and Language Resources Distribution Agency (ELDA): o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer
34 Korpusdistributörer International Computer Archive of Modern English (ICAME): osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.
35 Användbara länkar för den korpusintresserade CORPORA-listan: oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.
36 Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem
37 Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.
38 Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd
39 Korpussamlingar Gutenberg: o innehåller ca fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: o fransk motsvarighet
40 Nästa gång Föreläsning: Introduktion till WordSmith Labb: Bearbetning av egna data i WordSmith Labbinstruktioner: html
Elementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering eva.pettersson@lingfil.uu.se 1 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merSvenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57
Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merSUBSTANTIV = namn på saker, personer, känslor
KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merKort presentation av Korp, Sveriges nationalkorpus
Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merFör delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 6 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0199 (NLE) 11685/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 433 final/2 ANNEX 1 Ärende: RECH 277
Läs merLove Peace and Understandning
Love Peace and Understandning Små ämnen: samarbete, arbetsfördelning och koncentration vad kan vi göra i Norden? Vad menar vi med ett småämne? Definitionen kan variera tex < 50 studenter -2 lärare på professors/lektorsnivå
Läs merEuropeiska unionens råd Bryssel den 7 september 2017 (OR. sv)
Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv) Interinstitutionellt ärende: 2017/0197 (NLE) 11673/17 ADD 1 REV 1 sv FÖRSLAG Komm. dok. nr: COM(2017) 431 final/2 - ANNEX 1 Ärende: RECH 270
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs mer15410/17 MLB/cc DGC 1A
Europeiska unionens råd Bryssel den 14 maj 2018 (OR. en) 15410/17 Interinstitutionellt ärende: 2017/0319 (NLE) COLAC 144 WTO 329 RÄTTSAKTER OCH ANDRA INSTRUMENT Ärende: Tredje tilläggsprotokollet till
Läs merFör delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.
Europeiska unionens råd Bryssel den 7 september 2017 (OR. en) Interinstitutionellt ärende: 2017/0196 (NLE) 11678/17 ADD 1 REV 1 (sv) FÖRSLAG Komm. dok. nr: COM(2017) 430 final/2 ANNEX 1 Ärende: RECH 273
Läs merANNEX BILAGA. till. förslag till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 1.12.2017 COM(2017) 722 final ANNEX BILAGA till förslag till rådets beslut om undertecknande och provisorisk tillämpning, på Europeiska unionens och dess medlemsstaters
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merBILAGA. till. förslaget till rådets beslut
EUROPEISKA KOMMISSIONEN Bryssel den 26.2.2016 COM(2016) 91 final ANNEX 1 BILAGA till förslaget till rådets beslut om ingående, på Europeiska unionens och dess medlemsstaters vägnar, av protokollet till
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merTabell 4. Indelningar av enskilda språk och språkfamiljer
Tabell 4. Indelningar av enskilda språk och språkfamiljer 0 Tabell 4. Indelningar av enskilda språk och språkfamiljer Följande notation används aldrig ensam, men kan användas när tillfogningsanmärkning
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merVälkommen till den första delkursen i svenska!
Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar
Läs merFÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN
FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN Bryssel den 31 mars 2005 (OR. en) AA 2/2/05 REV 2 ANSLUTNINGSFÖRDRAGET: FÖRDRAGET UTKAST TILL RÄTTSAKTER OCH ANDRA INSTRUMENT
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merPraktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1
Förmågor som eleverna ska utveckla i svenska Praktisk Svenska 1 Praktisk Svenska 2 Praktisk Svenska 3 Kunskapskrav i svenska Formulera sig och kommunicera i tal och skrift. Jag kan Formulera positiva tankar
Läs merANDREAS ISSA SVENSKA SPRÅKET
ANDREAS ISSA SVENSKA SPRÅKET Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden. Den som bryter mot lagen om upphovsrätt kan
Läs merNedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Läs merORDKLASSERNA I SVENSKA SPRÅKET
ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merSvensk minigrammatik
Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING
Läs merLingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April
Lingvistik II Ord, ordklasser, lexikon Mikael Svensson Lingvistik, 2 April Dagens föreläsning Inledning till morfologi och syntax Lexikon Ord Ordklasser Öppna ordklasser: substantiv, verb, adjektiv, adverb
Läs mer995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8
995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8 PROTOKOLL OM ÄNDRING AV PROTOKOLLET OM ÖVERGÅNGSBESTÄMMELSER, FOGAT TILL FÖRDRAGET
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs mer17196/09 akb/ell/am 1 DQPG
EUROPEISKA UNIONENS RÅD Bryssel den 4 december 2009 (7.12) (OR. es,fr) 17196/09 POLGEN 232 FÖLJENOT från: till: Ärende: Rådets generalsekretariat Coreper/rådet Översyn av fördragen Övergångsåtgärder avseende
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merSubstantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merSatslära introduktion
Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna
Läs merHuvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute
Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv10/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2010 Satser Satserna utgör den mest mångfacetterade
Läs merSyntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3
Syntax, Ordklasser och Satsdelar Allmän Grammatik och Fonetik HT10 Dag 3 Svenskans ordklasser Substantiv Adjektiv Verb Adverb Pronomen Räkneord Preposition Konjunktioner och subjunktioner Interjektioner
Läs merAtt undersöka språkmöten med datorn
Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;
Läs merSpråkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?
Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs merBeslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden
Utbildningsplan för Kandidatprogram i moderna språk Bachelor's Programme in Modern Languages 180.0 Högskolepoäng 180.0 ECTS credits Programkod: HMOLK Gäller från: HT 2015 Fastställd: 2015-03-05 Värdinstitution:
Läs merInledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE
Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk
Läs merUppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A
Uppsala universitet Institutionen för nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A 2011-03-25 kl. 8.00 12.00 lokal: Gimogatan 4, sal I Hjälpmedel:
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merI Nationalbibliografin redovisad utgivning (monografier)
I Nationalbibliografin redovisad utgivning (monografier) Antalet i Nationalbibliografin registrerade monografiska publikationer År Böcker (över 48 s.) Broschyrer (under 49 s.) böcker och broschyrer Doktorsavh.
Läs merKursbeskrivning med litteraturlista HT-13
Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,
Läs merIntroduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Läs merKorpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Läs merÖversikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer
Läs merGrammatisk teori III Praktisk analys
Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ är konstruktioner (fraser) som innehåller ett predikat och ett subjekt (Josefssons, s. 151, definition, som är en vanlig definition).
Läs merSveriges internationella överenskommelser
Sveriges internationella överenskommelser ISSN 1102-3716 Utgiven av utrikesdepartementet SÖ 2013:20 Nr 20 Protokoll om det irländska folkets oro rörande Lissabonfördraget Bryssel den 13 juni 2012 Regeringen
Läs mertot tot
Huvudansökan, kandidatprogrammet i filosofi (undervisning på finska), kandidat i humanistiska vetenskaper/politices kandidat och filosofie magister/politices magister (3 år + 2 år) Antagna Antalet av Totalpoängskö
Läs merglad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa
Träningshäfte - ordklasser- facit Substantiv 1. Stryk under substantiven bland följande ord. (8 ord) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs mer