Språk, datorer och textbehandling
|
|
- Per Åberg
- för 7 år sedan
- Visningar:
Transkript
1 Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering 1
2 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering 2
3 Textkodning 3
4 Textkodning Att märka upp texten med information om t.ex. författare, dokumenttyp, meningsgränser, styckeindelning etc. Viktigt att veta vilka texttyper som ingår i korpusen och hur texterna är uppbyggda Inte trivialt hur uppmärkningen ska se ut, om man vill göra korpusen lättillgänglig för andra! Finns det någon standard för hur det ska se ut? 4
5 COCOA Word COunt and COncordance on Atlas Mycket tidig textkodningsstandard (1965) Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus Format: näbbparenteser innehållande dels en fördefinierad variabel, dels värdet för variabeln Exempel från Helsinki Corpus: <N LET TO HUSBAND> N = titel <A BEAUMONT ELIZABETH> A = författare <X FEMALE> X = kön <H HIGH> H = social status 5
6 TEI Text Encoding Initiative Modern textkodningsstandard Syfte: att ange en standard för uppmärkning av texter, så att alla följer samma riktlinjer Har tillhandahållit SGML Standard Generalised Markup Language (underkategorier: XML, HTML) 6
7 TEI format (1) Överst i dokumentet: header med information om författare, titel, datum etc. Exempel ur SUC: <titlestmt> <title level=a>smygrustning av raketvapen</title> <title level=j>dagens Nyheter</title> <author>mats Lundegård</author> </titlestmt> 7
8 TEI format (2) Varje element (ord, meningar, stycken etc.) omges av en starttagg (< >) och en sluttagg (</ >). Exempel ur SUC: <p> <s id=aa01a 009> <w n=91>hur<ana><ps>ha<b>hur</w> <w n=92>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=93>det<ana><ps>pn<m>neu SIN DEF SUB/OBJ<b>det</w> <w n=94>då<ana><ps>ab<b>då</w> <w n=95>i<ana><ps>pp<b>i</w> <name type=place> <w n=96>mellanöstern<ana><ps>pm<m>nom<b>mellanöstern</w> </name> <d n=97>?<ana><ps>mad<b>?</d> </s> </p> 8
9 Teckenkodning 9
10 Teckenkodning All text som lagras i en dator har en viss teckenkodning Teckenkodning handlar om hur tecknen (bokstäver, siffror, mellanslag, interpunktioner etc.) representeras i datorn, dvs att översätta mänskliga tecken till datorspråk Varje tecken får en unik kod, som motsvarar tecknet (i en teckentabell) Olika språk kräver olika teckenuppsättningar, beroende på vilket alfabet som används 10
11 Bits och bytes Vad är en byte? den minsta informationsbärande enheten i en dator en byte består av 8 bit varje bit kan ha värdet 0 eller 1, vilket ger sammanlagt 256 olika kombinationsmöjligheter i en byte varje tecken (bokstav, interpunktion etc) brukar lagras i en byte 256 olika tecken räcker inte till för att lagra alla tecken som finns i alla möjliga språk 11
12 Teckenkodning för olika språk olika språk har olika teckenkodningssystem om en dator är inställd på en viss teckenkodning, och tar emot en text som är skriven med en annan teckenkodning, så ser texten konstig ut vissa tecken är svårare än andra för datorn att visa upp korrekt för svenska är å, ä och ö extra besvärliga hänger samman med att de bokstäver som är gemensamma för många språk ofta lagras på samma sätt i de olika teckenkodningarna 12
13 Teckenkodning för språkspecifika tecken För att undvika problem med tecken som man vet kan vara svårtolkade, kan man skriva just dessa tecken som entiteter istället för som vanliga bokstäver I TEI-format skrivs entiteter inom & och ; båt skrivs som båt bär skrivs som bär snö skrivs som snö Så gör man ofta i html-kod, när man skapar hemsidor Webbläsaren tolkar html-koden, så att å i koden ser ut som å när det visas på skärmen 13
14 Teckenkodning Viktigt att tänka på vilken teckenkodning man använder, när man ska överföra texter mellan olika datorer och olika språk Om man vill att ens korpus ska vara lättillgänglig för andra, bör man följa en standard för teckenkodningen Finns det någon standard? Ja, flera... IANA Internet Assigned Numbers Authority 14
15 ASCII-kodning ASCII - American Standard Code for Information Interchange Utvecklat byte per tecken 7 bit för teckenkodningen (128 möjliga tecken) + en paritetsbit för att kontrollera teckenöverföringen Kontrolltecken för speciella funktioner (backspace, tab, new line) 15
16 ASCII-kodning 16
17 Problem med ASCII-kodning? ASCII är utvecklat för engelska Hanterar inte språk med annat alfabet, t.ex. ryska, kinesiska eller arabiska dessa tecken saknas helt i ASCII-tabellen! Hanterar inte språk med samma alfabet, men med vissa avvikande tecken, t.ex. å, ä, ö, é, ü 17
18 Hur gör man med andra språk än engelska? 1)Använd ASCII ändå och ge avvikande tecken specialkoder (entitetsbeteckningar): ä istf ä 2) Utöka den ursprungliga ASCII-tabellen med fler tecken = språkberoende teckenkodningstabeller 18
19 Språkberoende teckenkodning Utvecklat av Internationella StandardiseringsOrganisationen (ISO) ISO (Latin 1) ISO (Latin 2) ISO (Latin 3) ISO (Latin 4) ISO ISO ISO ISO ISO (Latin 5) ISO (Latin 6) Västeuropeiska språk Östeuropeiska språk med det latinska alfabetet Sydeuropeiska språk Nordeuropeiska språk Östeuropeiska språk med det kyrilliska alfabetet Arabiska Modern grekiska Hebreiska Turkiska Nordeuropeiska språk, inkl. grönländska och samiska 19
20 Olika språk i samma korpus Parallellkorpusar innehåller texter på två eller flera olika språk Om korpusen innehåller språk med olika alfabet, t.ex. svenska och turkiska, kan man inte använda ASCII-kodning, eftersom det inte finns någon ASCII-kodning som hanterar både svenska och turkiska tecken 20
21 Teckenkodning: Unicode En enda teckenkodning för alla (levande och döda) språk Plats för mer än en miljon tecken i samma tabell Kräver mer än 1 byte i lagringsutrymme: UTF-8 UTF-16 UTF-32 1 byte/tecken för ASCII, 2-4 bytes för övriga tecken 2 bytes/tecken för vanligaste tecknen, 4 bytes för övriga tecken 4 bytes/tecken UTF = Unicode Transformation Format 21
22 Textnormalisering 22
23 Textnormalisering Att ge texten ett enhetligt format, t.ex. inför annotering (uppmärkning av ordklass etc): Program som automatiskt annoterar en text, kräver att formatet på texten ser ut på ett visst sätt, t.ex. att varje mening eller varje ord står på en egen rad Meningssegmentering att dela upp en text i de ingående meningarna, t.ex. en mening per rad Tokenisering att dela upp en text i de ingående orden, t.ex. ett ord per rad 23
24 Meningssegmentering Att dela upp en text i de ingående meningarna, en mening per rad Man vill helst inte manuellt behöva göra detta Det finns datorprogram som automatiskt gör detta Oftast ganska lätt att få datorn att lära sig var en mening slutar och nästa börjar Ledtrådar som datorn utnyttjar: skiljetecken inledande versal 24
25 Meningssegmentering Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell. En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster. Hon mötte också många snälla kamrater, t. ex. Hans och Greta. 25
26 Problem vid automatisk meningssegmentering Vissa tecken fungerar ibland meningsavskiljande och ibland inte, t.ex: kolon Orsaken till trafikkaoset var uppenbar: Det snöade hela natten. De inblandade personerna var: Pelle, Lisa och Eva. punkter Syftet är att minska samhällets utgifter för färdtjänst. Syftet är att minska samhällets utgifter för t. ex. färdtjänst. 26
27 Tokenisering Att dela upp en text i ingående tokens, dvs ord, ett ord per rad Det finns datorprogram som automatiskt gör detta Hur definierar man ett ord så att datorn förstår? 27
28 Tokenisering Vad räknas som ett ord? Enkel strategi: mellanslag utgör ordavgränsare Kučera & Francis (1967) definition av ett ord: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctutation marks Även skiljetecken, sifferuttryck o dyl räknas som egna ord i tokeniseringen 28
29 Tokenisering EU:s huvudkontor ligger i Belgien. Plats: Bryssel. Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige. I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc. 29
30 Problem vid tokenisering Skiljetecken föregås inte av mellanslag, men ska ändå tokeniseras som egna ord Vissa skiljetecken utgör ibland egna ord men är ibland del av ett ord, t.ex kolon EU:s lagar och regler Pris: kronor 30
31 Problem vid tokenisering: Punkter Punkter fungerar oftast som meningsavslut: Syftet är att minska samhällets utgifter för färdtjänst. Utgör ibland del av en förkortning och ska då inte utgöra egna ord: t. ex. Kan utgöra både förkortningspunkt och meningsavslutningspunkt på samma gång: Syftet är att minska samhällets utgifter för färdtjänst, sjukresor etc. 31
32 Problem vid tokenisering: Apostrofer Kan fungera som citationstecken eller som del av ordet: the boys the boys toys Är isn t att betrakta som ett eller två ord? 32
33 Problem vid tokenisering: mellanslag Mellanslag utgör inte alltid ordavgränsare: särskrivna sammansättningar insurance company egennamn New York fraser i dag sifferuttryck
34 Annotering 34
35 Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, t.ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt Ett annat ord för annotering är taggning Den uppmärkning ett ord har tilldelats kallas för en tagg 35
36 Ordklasstaggning Vad menas med ordklasstaggning? ren ordklasstaggning: substantiv, adjektiv, verb etc. morfosyntaktisk information: genus, numerus, person etc. Vad avgör graden av specificitet i taggarna? Syftet med taggningen Språkets uppbyggnad (rik morfologi = rik tagguppsättning) 36
37 Tagguppsättningar Tagguppsättningarnas storlek varierar mellan 40 och 200 olika taggar Syftet med taggningen avgör tagguppsättning Exempel på tagguppsättningar för engelska: Brown-korpusens tagguppsättning (87 st) Penn Treebanks tagguppsättning (45 st) Vanligaste tagguppsättningen för svenska: Parole (153 st) 37
38 Mer om tagguppsättningar Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Parole taggar och engelskans Penn Treebank taggar: en determinerare: utr, sing, indef lätt AQPUSNIS adjektiv: pos, utr, sing, nom, indef uppgift substantiv: utr, sing, nom, indef an DT determinerare easy JJ adjektiv task NN substantiv: sing 38
39 Taggningens delsteg Tokenisering Läraren var i alla fall snäll Morfologisk analys Läraren var i alla fall snäll subst subst/verb/adv/pron adv adj Morfologisk disambiguering Läraren var i alla fall snäll subst verb adv adj 39
40 Hur fungerar automatisk taggning? Man utgår från en manuellt taggad text, t.ex. SUC Man låter ett datorprogram titta på taggarna, och bygga ett lexikon med sannolikheter, t.ex: får 80% av gångerna verb 20% av gångerna substantiv Datorprogrammet tittar också på kontexten, t.ex: får alltid substantiv om det föregås av en artikel oftast verb om det föregås av ett substantiv När datorprogrammet ser nya texter, så utgår det ifrån vad det har lärt sig i sitt lexikon 40
41 Vad gör taggaren med ord som saknas i lexikonet? Okända ord - möjliga strategier: Versalinledda ord är egennamn, övriga okända ord är substantiv Ordet tillhör någon av de öppna ordklasserna, med den sannolikhet som gäller för korpusen i övrigt Taggdistributionen för ord som bara förekommer en enda gång i korpusen Böjnings- och avledningsändelser Flertydighet Kontexten avgör vilken tagg som ska väljas 41
42 Vanliga fel som en taggare gör Adjektiv taggas som adverb eller tvärtom Pelle fick snabbt adverb/adjektiv svar från Lisa Preposition taggas som partikel eller tvärtom Pelle slog på preposition/partikel TV:n Verb i perfekt taggas som perfekt particip eller tvärtom Pelle har lagat verb i perfekt huset Pelle har ett lagat perfekt particip hus 42
43 Välkända taggare Brill-taggaren (Brill, 1995) Vill ha en mening per rad Vill ha mellanslag även mellan skiljetecken och ord TnT-taggaren (Brants, 2000) Vill ha ett ord per rad Tom rad markerar meningsgräns Fungerar bäst i test för svenska (Megyesi, 2001): 93, 55% korrekta taggar 43
44 Annoteringsprinciper (Leech 1993) En annoterad korpus ska kunna återställas till sin oannoterade form Annoteringen ska gå att extrahera från texten för att sparas separat Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren Det ska klargöras hur och av vem annotationen gjordes Slutanvändaren ska informeras om att annoteringen inte är God's truth utan endast ett användbart verktyg Annoteringsscheman ska baseras på accepterade och teori-neutrala principer Inget annoteringsschema är en standard på förhand. Standarder växer fram. 44
45 SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Manuellt taggad Hög grad av specificitet: 23 ordklasser 11 morfosyntaktiska särdrag 9 typer av named entities (person, djur, myt, ställe, institution, produkt, arbete, händelse, annat) 45
46 Morfosyntaktiska särdrag i SUC Genus (utrum, neutrum, maskulinum) Numerus Bestämdhet Kasus (nominativ, genitiv) Tempus Diates (aktiv, s-form) Modus (konjunktiv) Participform Komparationsgrad Pronomenkasus (subjekt, objekt) 46
47 <name type=person> <w n=146>don<ana><ps>pm<m>nom<b>don</w> <w n=147>kerr<ana><ps>pm<m>nom<b>kerr</w> </name> <w n=148>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=149>mellanösternspecialist<ana><ps>nn<m>utr SIN IND NOM<b>mellanösternspecialist</w> <w n=150>på<ana><ps>pp<b>på</w> <name type=inst> <w n=151>the<ana><ps>pm<m>nom<b>the</w> <w n=152>international<ana><ps>pm<m>nom<b>international</w> <w n=153>institute<ana><ps>pm<m>nom<b>institute</w> <w n=154>for<ana><ps>pm<m>nom<b>for</w> <w n=155>strategic<ana><ps>pm<m>nom<b>strategic</w> <w n=156>studies<ana><ps>pm<m>nom<b>studies</w> </name> <w n=157>i<ana><ps>pp<b>i</w> <name type=place> <w n=158>london<ana><ps>pm<m>nom<b>london</w> </name> 47
48 BNC BNC = British National Corpus Ca 100 miljoner löpord talad och skriven brittisk engelska Automatiskt taggad utan mänsklig kontroll 61 olika taggar Ca 4,7% flervalstaggar 2 miljoner ord stor delmängd rikare taggad och manuellt efterredigerad 139 olika taggar 48
49 BNC <w DT0>Each <w NN1>dance <w VVD VVN>followed <w AJ0>particular <w NN2>rules <w VVD VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0 NN1>dancing <w NN2>masters 49
50 EAGLE Expert Advisory Groups on Language Engineering Standards Grupp inom EU som bland annat arbetar med att ta fram en gemensam EU-standard för korpusuppmärkning 50
51 EAGLE:s annoteringsrekommendationer Obligatoriska särdrag de stora ordklasserna: substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb, adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion Rekommenderade särdrag, t.ex. för substantiv: Numerus (singular/plural) Genus (maskulinum/femininum/neutrum) Kasus (nominativ/genitiv/dativ/ackusativ/vokativ) Typ (egennamn eller ej) Valfria särdrag Språkoberoende, t.ex. räknebarhet för substantiv Språkberoende, t.ex. definithet för substantiv 51
52 Lemmatisering Att byta ut alla ordformer i korpusen mot grundform Exempel på lemmatiserade korpusar: Susanne (engelska) Surface and Underlying Structural Analysis of Natural English Delmängd av Brown-korpusen löpord skriven amerikansk engelska SUC (svenska) 52
53 Lemmatisering i Susanne N01:1660m PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s] N01:1660n VBDR were be [Vwb.Vwb] N01:1660p AT1 a a [Ns:e. N01:1660q NN1c pair pair. N01:1660r IO of of [Po. N01:1660s VVNv lost lose [Np[Tn[Vn[VVNv&. N01:1660t YC +,. N01:1670a VVNv whipped whip [VVNv.VVNv ]VVNv&]Vn]Tn] N01:1670b NN2 kids kid.np]po]ns:e]fn:o] N01:1670c YC +,. N01:1670d NP1s Morgan Morgan [Nns:s.Nns:s] N01:1670e VVDv thought think [Vd.Vd] N01:1670f CSA as as [Fa:t. N01:1670g PPHS1m he he [Nas:s.Nas:s] N01:1670h VVDi went go [Vd.Vd] N01:1670i IIt to to [P:q. N01:1670j NN1c bed bed.p:q]fa:t]s] N01:1670k YF +..O] 53
54 Lemmatisering i SUC <s id=aa01a 013> <w n=166>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=167>skrattar<ana><ps>vb<m>prs AKT<b>skratta</w> <w n=168>lite<ana><ps>ab<m>pos<b>lite</w> <w n=169>åt<ana><ps>pp<b>åt</w> <w n=170>den<ana><ps>dt<m>utr SIN DEF<b>den</w> <w n=171>avfärdande<ana><ps>pc<m>prs UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w> <w n=172>formuleringen<ana><ps>nn<m>utr SIN DEF NOM<b>formulering</w> <w n=173>och<ana><ps>kn<b>och</w> <w n=174>fördjupar<ana><ps>vb<m>prs AKT<b>fördjupa</w> <w n=175>resonemanget<ana><ps>nn<m>neu SIN DEF NOM<b>resonemang</w> <d n=176>.<ana><ps>mad<b>.</d> </s> 54
55 Syntaktisk annotering Syntaktisk (grammatisk) analys av korpusen Automatisk syntaktisk uppmärkning ger mycket sämre resultat än t.ex. automatisk ordklasstaggning ofta mänsklig inblandning i parsningen Trädbanker = syntaktiskt uppmärkta korpusar Två huvudsakliga typer av syntaktisk uppmärkning: Frasstrukturer (nominalfraser, verbfraser etc.) Dependenser (subjekt, objekt etc.) 55
56 Frasstrukturuppmärkning i Spoken English Corpus [S[N Nemo_NP1,_, [N the_at killer_nn1 whale_nn1 N],_, [Fr[N who_pnqs N][V 'd_vhd grown_vvn [J too_rg big_jj [P for_if [N his_app$ pool_nn1 [P on_ii [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N],_, [V has_vhz arrived_vvn safely_rr [P at_ii [N his_app$ new_jj home_nn1 [P in_ii [N Windsor_NP1 [ safari_nn1 park_nnl1 ]N]P]N]P]V]._. S] S sentence N nominalfras FR relativsats V verbfras J adjektivfras P prepositionsfras 56
57 Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare 57
58 Semantisk annotering Uppmärkning av semantiska relationer, såsom agent, patient etc. FrameNet: Uppmärkning av ordbetydelse, t.ex. hyponymi WordNet: Svenskt OrdNät: 58
59 Textlingvistisk annotering Diskurstaggar London-Lund Corpus of Spoken English Ursäkter, sorry Hälsningar, hello Artighetsfraser, please Anaforisk annotering (pronomenreferens) 59
60 Fonetisk annotering Transkribering MARSEC The Machine Readable Spoken English Corpus Prosodi London-Lund Corpus of Spoken English Ska man märka upp hostningar, skratt, tvekanden etc? 60
61 Nästa gång Sökmotorer och korpussökning på Internet Nätresurser 61
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merGrundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merKorpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merSWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi
SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merMorfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2
Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT09 Dag 2 Morfologi flick-a flick-a-n flick-a-n-s flick-or flick-or-na flick-or-na-s Morfologi flick-a flick-a-n flick-a-n-s flick-or
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merRyska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merPAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ
Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merF2 Datarepresentation talbaser, dataformat och teckenkodning
F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Jonas Wisbrant Datarepresentation I en dator lagras och behandlas all information i form av binära tal ettor och nollor.
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merÖversikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merF2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!
F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Von Neumann-arkitekturen Gemensamt minne för programinstruktioner och data. Sekventiell exekvering av instruktionerna.
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merWEBBUTVECKLING Kursplanering
Kursplanering v 35-37: Struktur, mappar, google-skills, planering, html-grunder, bra/dåliga exempel, webbläsare, editorer v 38-43: HTML - länkar, färger, text, listor, bilder. v 44: Höstlov v 45: Repetition,
Läs merMorfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2
Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT10 Dag 2 Skriftsystem i världen Skriftsystem: bokstavsalfabeten Varje skrivtecken motsvarar ett separat ljud, konsonant (C) eller vokal
Läs merTDDD78, TDDE30, 729A Tecken och strängar med och utan Java
TDDD78, TDDE30, 729A85 jonas.kvarnstrom@liu.se 2019 Tecken och strängar med och utan Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merGrundläggande syntaktiska funktioner och roller
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande
Läs merF3 Datarepresentation teckenkodning och datakompression EDAA05 Datorer i system! Roger Henriksson!
Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression EDAA05 Roger Henriksson Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). Baudot 1874, Murray 1901 2 EBCDIC ASCII Extended
Läs merObesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Läs merF3 Datarepresentation teckenkodning och datakompression
Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). EDAA05 Roger Henriksson Jonas Wisbrant Baudot 1874, Murray 1901 2
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merTecken och strängar i Java
jonas.kvarnstrom@liu.se 2017 Tecken och strängar i Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar symbol Minsta enheten för information
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merFörst lite rester...
Först lite rester... Fras Ett ord med dess bestämningar Huvudord bestämning/dependent Ett eller flera ord i frasen fyllnadsled: obligatoriska, frivilliga tilläggsled Frasers kategori? Frasers funktion?
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merOrdklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
Läs merSUBSTANTIV = namn på saker, personer, känslor
KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli
Läs merOrd och morfologi. Morfologi
Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merPersiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi
Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merFöreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
Läs merMorfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Läs merSå, ska det taggas som adverb?
UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen
Läs mer12 Programstege Substantiv
Det här är en programstege för substantiv. Du kan alltså lära dig om substantiven på ett enkelt sätt, en liten bit i taget. Varje sida innehåller fakta om substantiv, tillsammans med uppgifter som du också
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merCristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
Läs merVärldens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1
Världens språk Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem Allmän Grammatik och Fonetik HT07 Dag 1 Världens språk Världens sex största språk Kinesiska Engelska Spanska Arabiska
Läs merSyntax Fras, sats, mening
Allmän grammatik 6 Fraser Syntax Fras, sats, mening Lösryckta satsdelar utan kontext; benämns utifrån huvudordet. nominalfras (nomen, dvs. substantiviskt ord + bestämningar) min lilla bortskämda katt,
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merLingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April
Lingvistik II Ord, ordklasser, lexikon Mikael Svensson Lingvistik, 2 April Dagens föreläsning Inledning till morfologi och syntax Lexikon Ord Ordklasser Öppna ordklasser: substantiv, verb, adjektiv, adverb
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merSpråkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:
Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merSvenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I
Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I 3,5 högskolepoäng Provmoment: Språkkunskap TE01 Ladokkod: C46S20 vt-18: Språkkunskap: Det svenska språksystemet Tentamen ges för:
Läs mer729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs mer