Lingvistiskt uppmärkt text
|
|
- Lars Axelsson
- för 7 år sedan
- Visningar:
Transkript
1 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap
2 Från form till betydelse pragmatik semantik analys generering syntax morfologi
3 Skolans nio ordklasser tagg kategori exempel VB verb kasta NN substantiv pudding PN pronomen hon JJ adjektiv glad AB adverb inte KN konjunktion och PP preposition över RG räkneord tre IN interjektion aj
4 Syntaktiska dependensträd nsubj xcomp nmod cpd aux mark case Cray Computer has applied to trade on Nasdaq PTB section 00, document 18, item 026; Stanford dependencies (basic)
5 Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python
6 Korpusdata
7 Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform NOUN 3 nmod 3 införs införa VERB 0 root 4 individuell individuell ADJ 5 amod 5 beskattning beskattning NOUN 3 nsubjpass 6 ( ( PUNCT 5 punct 7 särbeskattning särbeskattning NOUN 5 appos 8 ) ) PUNCT 5 punct 9 av av ADP 10 case 10 arbetsinkomster arbetsinkomst NOUN 5 nmod 11.. PUNCT 3 punct
8 Vad finns i en korpus? graford lemma ordklass huvudord grammatisk funktion morfologiska egenskaper betydelse skattereformen skattereform substantiv (NN) ord nummer 3 i meningen (införs) nominalattribut (NMOD) utrum, singular, definit, nominativ skattereform..nn.1
9 Finkornighet i beskrivningen Varje korpus måste bestämma sig för ett system med vars hjälp de lingvistiska datan ska beskrivas. 14 ordklasser eller 22? Förutom själva korpusen måste det därför finnas en definition av de kategorier som använts. ofta tillsammans med konkreta exempel I Universal Dependencies-projektet finns universella och språkspecifika kategorier. Språkspecifika kategorier kan alltid ersättas med universella kategorier.
10 Universella ordklasser (öppna klasser) tagg kategori exempel ADJ adjektiv glad ADV adverb inte INTJ interjektion ja NOUN substantiv pudding PROPN proper noun Ingmar VERB verb kasta Universal Dependencies:
11 Universella ordklasser (slutna klasser) tagg kategori exempel ADP adposition (preposition, postposition) över AUX hjälpverb har CONJ konjunktion och DET determinerare denna NUM räkneord för grundtal tre PART partikel ut PRON pronomen hon SCONJ subjunktion att
12 Ordklasser i SUC (1) tagg kategori exempel NN substantiv pudding VB verb kasta PP preposition över AB adverb inte JJ adjektiv glad PN pronomen hon DT determinerare denna KN konjunktion och PM egennamn Mats
13 Ordklasser i SUC (2) tagg kategori exempel PC particip utsänd SN subjunktion att RG räkneord (grundtal) tre HP frågande/relativt pronomen som IE infinitivmärke att PL partikel ut SUC manual:
14 Ordklasser i SUC (3) tagg kategori exempel PS possessivt pronomen hennes HA frågande/relativt adverb när UO utländskt ord the RO räkneord (ordningstal) tredje IN interjektion ja HD frågande/relativt determinerare vilken HS frågande/relativt possessivt pronomen vars SUC manual:
15 Hur representeras korpusdata? tabulerade data Extensible Markup Language (XML) JavaScript Object Notation (JSON)
16 Tabulerade data (CoNLL-format) 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct
17 Tabulerade data Filen struktureras i rader och kolumner. Rader skiljs åt med ett nyrad-tecken. Kolumner skiljs åt med ett separatortecken. tabulator, komma Används t.ex. i CoNLL-U, Comma-Separated Values (CSV).
18 Vilken information finns i vilken kolumn? ID FORM LEMMA POS HEAD DEPREL 1 Genom genom PP 2 case 2 skattereformen skattereform NN 3 nmod 3 införs införa VB 0 root 4 individuell individuell JJ 5 amod 5 beskattning beskattning NN 3 nsubjpass 6 ( ( PAD 5 punct 7 särbeskattning särbeskattning NN 5 appos 8 ) ) PAD 5 punct 9 av av PP 10 case 10 arbetsinkomster arbetsinkomst NN 5 nmod 11.. MAD 3 punct
19 CoNLL-format CoNLL-formatet har använts i flera tävlingar i samband med International Conference for Natural Language Learning. Formatet representerar en lista med meningar. Slutet på en mening markeras med en blankrad. Rader som börjar på ett nummertecken (#) är kommentarer. Det finns flera varianter av detta format; den senaste varianten (CoNLL-U) används av Universal Dependencies-projektet.
20 Extensible Markup Language (XML) <sentence id="8f "> <w pos="pp" lemma=" genom " ref="01" dephead="03" deprel="aa">genom</w> <w pos="nn" lemma=" skattereform " ref="02" dephead="01" deprel="pa">skattereformen</w> <w pos="vb" lemma=" införa " dephead="" deprel="root">införs</w> <w pos="jj" lemma=" individuell " ref="04" dephead="05" deprel="at">individuell</w> <w pos="nn" lemma=" beskattning " ref="05" dephead="03" deprel="ss">beskattning</w> <w pos="pad" lemma=" " ref="06" dephead="05" deprel="ir">(</w> <w pos="nn" lemma=" särbeskattning " ref="07" dephead="05" deprel="an">särbeskattning</w> <w pos="pad" lemma=" " ref="08" dephead="05" deprel="jr">)</w> <w pos="pp" lemma=" av " ref="09" dephead="05" deprel="et">av</w> <w pos="nn" lemma=" arbetsinkomst " ref="10" dephead="09" deprel="pa">arbetsinkomster</w> <w pos="mad" lemma=" " ref="11" dephead="03" deprel="ip">.</w> </sentence>
21 Extensible Markup Language Information struktureras hierarkiskt med hjälp av element. Ett element består av en starttagg och en sluttagg. <w>särbeskattning</w> Varje element kan dessutom ha ett antal attribut värde-par. <w pos="nn">särbeskattning</w> har ett attribut pos med värdet NN Ett element kan innehålla såväl text som andra element.
22 Hur ett XML-element är uppbyggt starttagg <w>skattereformen</w> sluttagg Som specialform förekommer även tomma element, t.ex. <br/>.
23 Fördelar och nackdelar Tabulerade data enkelt och platseffektivt implicit representation För att ta ut en POS-tagg behöver man veta vilken kolumn den ligger i. Extensible Markup Language (XML) komplext och platskrävande explicit representation För att ta ut en POS-tagg kan man direkt efterfråga motsvarande attribut.
24 Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python
25 Exempeluppgifter på en uppmärkt korpus Sök alla förekomster av ett givet ord, lemma eller n-gram. Bestäm frekvensen för ett givet ord, lemma eller n-gram. Bestäm fördelningen av ett givet ord över ordklasser. Bestäm alla subjekt eller objekt till ett givet verb.
26 Bearbeta korpusar med Unix-verktyg
27 Unix-verktyg för textfiler program head tail less wc funktion visar de första raderna visar de sista raderna visar innehållet; tillåter att man scrollar upp och ner räknar antalet ord, rader, tecken och bytes grep letar efter mönster och skriver ut matchande rader
28 Unix-verktyg för textfiler program cut paste sort uniq funktion extraherar kolumner sätter ihop kolumner sorterar rader (alfabetiskt eller numeriskt) slår ihop dubletter; används ofta efter sort sed utför substitutioner och andra redigeringsoperationer
29 Omdirigering i Unix mönster kommando < infil kommando > utfil kommando >! utfil kommando >> utfil effekt läs indata till kommando från filen infil skriv utdata från kommando till filen utfil skriv över utfil om det redan finns tillfoga i slutet av utfil k1 k2 pipe; utdata från kommando k1 blir indata till k2
30 Denna föreläsning Korpusdata Bearbeta korpusdata med Unix-verktyg Bearbeta korpusdata med Python
31 Bearbeta korpusar med Python
32 Skriv ut alla rader import sys with open(sys.argv[1]) as f: for line in f: print(line.rstrip())
33 Skriv ut alla ordformer import sys with open(sys.argv[1]) as f: for line in f: line = line.rstrip() if len(line) > 0: columns = line.split() print(columns[1])
34 Räkna förekomster av olika ordklasser import sys from collections import Counter with open(sys.argv[1]) as f: counter = Counter() for line in f: line = line.rstrip() if len(line) > 0: columns = line.split() counter[columns[3]] += 1 print(counter)
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merPAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ
Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade
Läs merPerceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merSWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi
SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merOlika typer av satser
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Olika typer av satser Översikt i stolpform. Terminologin
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merKarp. Övningar Språkbankens höstworkshop oktober 2017
Karp Övningar Språkbankens höstworkshop 2017 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2017 ÖVERSIKT I nuläget finns det över 25 olika lexikon i Karp. När du går in på https://spraakbanken.
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merUPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard
Läs merLABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110
GÖTEBORGS UNIVERSITET Utbildningsprogrammet i datalingvistik Robert Andersson 14 november 2006 LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110 Inledning Samlingar
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merSvenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57
Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merSUBSTANTIV = namn på saker, personer, känslor
KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merÖversikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer
Läs merMorfologi och syntax. Föreläsning 1 & 2
Morfologi och syntax Föreläsning 1 & 2 Lotta Plejert Kognitionsvetenskapliga programmet, ht2012 november 2012 1 1 Språk som system Olika nivåer Text/diskurs mening sats fras ord morfem fonem text och diskurs
Läs merORDKLASSERNA I SVENSKA SPRÅKET
ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan
Läs merSubstantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merSå, ska det taggas som adverb?
UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar
Läs merRyska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merPerl. ~ Redovisning. Alla filer som behövs för att lösa uppgifterna finns dels på ~martin/pubperl/ på mumin, samt på http://www.nada.kth.
Perl ~ Redovisning Övningsuppgifterna är rena övningsuppgifter och på intet sett obligatoriska, men gör dem gärna i alla fall. Det kommer att delas ut inlämningsuppgifter från och med Lektion 2. Dessa
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merVälkommen till den första delkursen i svenska!
Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merOrdförråd och Ordbildning
Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merHuvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute
Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merTräningshäfte ordklasser facit
Träningshäfte ordklasser facit Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merglad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa
Träningshäfte - ordklasser- facit Substantiv 1. Stryk under substantiven bland följande ord. (8 ord) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merDåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'
Substantiv*! namnpåsakerochting! kansättaordet jävla framför(jävlatomten,jävlakratta,jävlakärlek)! ägandebetecknasmeds.k.genitiv!s:tomtens,krattans " Adjektiv*! beskrivandeord,beskriverhursakerochtingär(obs!jmf.medadverb:
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merEn snabb titt på XML LEKTION 6
LEKTION 6 En snabb titt på XML Bokstaven x i Ajax står för XML, ett mycket användbart beskrivningsspråk som gör det möjligt för Ajax-tillämpningar att hantera komplex strukturerad information. I den här
Läs merMorfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merGrammatikprov åk 8 ORDKLASSER
Grammatikprov åk 8 ORDKLASSER Gör hela provet innan du rättar med facit. Du sätter själv ut dina poäng när du rättar! A. Placera de 30 orden efter rätt ordklass katt, vi, springer, men, vacker, eftersom,
Läs merRoboLinguistics. Ett textförståelseprogram. Henrik Palmér, d01hp
RoboLinguistics Ett textförståelseprogram Henrik Palmér, d01hp Inledning För att styra robotar räcker det inte att som i science-fictionfilmer bara säga till dem vad de ska göra. De största kraftansträngningarna
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merÖvningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP
Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 1.Äntligen ADVERB 27. om PREPOSITION 2. lyftes VERB 28. överseende PARTICIP 3. där ADVERB 29. att INFINITIVMÄRKE 4.
Läs mer729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merSvensk minigrammatik
Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen
Läs merSatslära introduktion
Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merPAROLE TAGSET <http://spraakbanken.gu.se/parole/>
PAROLE TAGSET 1/1 PAROLE Exempel Förklaring AF00000A tf AF00PG0S deporterades AF00PN0S kallade AF00SGDS åtalades AF00SNDS ansedda AF0MSGDS knivhuggnes AF0MSNDS utsände
Läs merTräningshäfte ordklasser (Venus)
Träningshäfte ordklasser (Venus) Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merKort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
Läs merTextbearbetning i skalet och man-sidor
Kapitel 5 Textbearbetning i skalet och man-sidor Vi har redan använt skalkommandon för att göra saker textfiler. Här kommer gomgång av sådana kommandon som vi redan använt, några nya varianter, samt ett
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merCSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)
Svenska med didaktisk inriktning för ämneslärare i grundskolans årskurs 7-9 4,0 högskolepoäng Provmoment: Språkkunskap A Ladokkod: CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A Tentamen ges
Läs merPre-editering och maskinöversättning. Convertus AB
Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning
Läs mer7 Bordsspel. Förberedelser för ordklasspel (7A) och satsdelsspel (7B)
Förberedelser för ordklasspel (7A) och satsdelsspel (7B) 1 Kopiera spelplanen på hårt papper, helst i A3-format. 2 Kopiera lämpligt antal spelkort. 3 Alla spelkort läggs på mitten av spelet. 4 På ena sidan
Läs merMål idag. Mål. Läsa och öva 9/9/2013. F5: Grammatik Syntax I Ordklasser
F5: Grammatik Syntax I Ordklasser Påminnelse 7,5hp = 5 veckor x 40 timmar = 200 timmar Undervisning: 11 föreläsningar x 2 timmar (eller 90 min) = 22 timmar 4 gruppövningar x 2 timmar (eller 90 min) = 8
Läs merORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
Läs merGrammatisk teori III Praktisk analys
Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas
Läs merSemantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse
Dagens föreläsning Semantik VT07 Ordbetydelse (Lexikal semantik) Stina Ericsson 1. Introduktion 2. Extensioner 3. Begrepp 4. Extensioner och begrepp - några ytterligare saker Lexikal semantik: studerar
Läs mer