Språk, datorer och textbehandling

Storlek: px
Starta visningen från sidan:

Download "Språk, datorer och textbehandling"

Transkript

1 Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering 1

2 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering 2

3 Textkodning 3

4 Textkodning Att märka upp texten med information om t.ex. författare, dokumenttyp, meningsgränser, styckeindelning etc. Viktigt att veta vilka texttyper som ingår i korpusen och hur texterna är uppbyggda Inte trivialt hur uppmärkningen ska se ut, om man vill göra korpusen lättillgänglig för andra! Finns det någon standard för hur det ska se ut? 4

5 COCOA Word COunt and COncordance on Atlas Mycket tidig textkodningsstandard (1965) Används bl.a. i Longman-Lancaster Corpus och Helsinki Corpus Format: näbbparenteser innehållande dels en fördefinierad variabel, dels värdet för variabeln Exempel från Helsinki Corpus: <N LET TO HUSBAND> N = titel <A BEAUMONT ELIZABETH> A = författare <X FEMALE> X = kön <H HIGH> H = social status 5

6 TEI Text Encoding Initiative Modern textkodningsstandard Syfte: att ange en standard för uppmärkning av texter, så att alla följer samma riktlinjer Har tillhandahållit SGML Standard Generalised Markup Language (underkategorier: XML, HTML) 6

7 TEI format (1) Överst i dokumentet: header med information om författare, titel, datum etc. Exempel ur SUC: <titlestmt> <title level=a>smygrustning av raketvapen</title> <title level=j>dagens Nyheter</title> <author>mats Lundegård</author> </titlestmt> 7

8 TEI format (2) Varje element (ord, meningar, stycken etc.) omges av en starttagg (< >) och en sluttagg (</ >). Exempel ur SUC: <p> <s id=aa01a 009> <w n=91>hur<ana><ps>ha<b>hur</w> <w n=92>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=93>det<ana><ps>pn<m>neu SIN DEF SUB/OBJ<b>det</w> <w n=94>då<ana><ps>ab<b>då</w> <w n=95>i<ana><ps>pp<b>i</w> <name type=place> <w n=96>mellanöstern<ana><ps>pm<m>nom<b>mellanöstern</w> </name> <d n=97>?<ana><ps>mad<b>?</d> </s> </p> 8

9 Teckenkodning 9

10 Teckenkodning All text som lagras i en dator har en viss teckenkodning Teckenkodning handlar om hur tecknen (bokstäver, siffror, mellanslag, interpunktioner etc.) representeras i datorn, dvs att översätta mänskliga tecken till datorspråk Varje tecken får en unik kod, som motsvarar tecknet (i en teckentabell) Olika språk kräver olika teckenuppsättningar, beroende på vilket alfabet som används 10

11 Bits och bytes Vad är en byte? den minsta informationsbärande enheten i en dator en byte består av 8 bit varje bit kan ha värdet 0 eller 1, vilket ger sammanlagt 256 olika kombinationsmöjligheter i en byte varje tecken (bokstav, interpunktion etc) brukar lagras i en byte 256 olika tecken räcker inte till för att lagra alla tecken som finns i alla möjliga språk 11

12 Teckenkodning för olika språk olika språk har olika teckenkodningssystem om en dator är inställd på en viss teckenkodning, och tar emot en text som är skriven med en annan teckenkodning, så ser texten konstig ut vissa tecken är svårare än andra för datorn att visa upp korrekt för svenska är å, ä och ö extra besvärliga hänger samman med att de bokstäver som är gemensamma för många språk ofta lagras på samma sätt i de olika teckenkodningarna 12

13 Teckenkodning för språkspecifika tecken För att undvika problem med tecken som man vet kan vara svårtolkade, kan man skriva just dessa tecken som entiteter istället för som vanliga bokstäver I TEI-format skrivs entiteter inom & och ; båt skrivs som båt bär skrivs som bär snö skrivs som snö Så gör man ofta i html-kod, när man skapar hemsidor Webbläsaren tolkar html-koden, så att å i koden ser ut som å när det visas på skärmen 13

14 Teckenkodning Viktigt att tänka på vilken teckenkodning man använder, när man ska överföra texter mellan olika datorer och olika språk Om man vill att ens korpus ska vara lättillgänglig för andra, bör man följa en standard för teckenkodningen Finns det någon standard? Ja, flera... IANA Internet Assigned Numbers Authority 14

15 ASCII-kodning ASCII - American Standard Code for Information Interchange Utvecklat byte per tecken 7 bit för teckenkodningen (128 möjliga tecken) + en paritetsbit för att kontrollera teckenöverföringen Kontrolltecken för speciella funktioner (backspace, tab, new line) 15

16 ASCII-kodning 16

17 Problem med ASCII-kodning? ASCII är utvecklat för engelska Hanterar inte språk med annat alfabet, t.ex. ryska, kinesiska eller arabiska dessa tecken saknas helt i ASCII-tabellen! Hanterar inte språk med samma alfabet, men med vissa avvikande tecken, t.ex. å, ä, ö, é, ü 17

18 Hur gör man med andra språk än engelska? 1)Använd ASCII ändå och ge avvikande tecken specialkoder (entitetsbeteckningar): ä istf ä 2) Utöka den ursprungliga ASCII-tabellen med fler tecken = språkberoende teckenkodningstabeller 18

19 Språkberoende teckenkodning Utvecklat av Internationella StandardiseringsOrganisationen (ISO) ISO (Latin 1) ISO (Latin 2) ISO (Latin 3) ISO (Latin 4) ISO ISO ISO ISO ISO (Latin 5) ISO (Latin 6) Västeuropeiska språk Östeuropeiska språk med det latinska alfabetet Sydeuropeiska språk Nordeuropeiska språk Östeuropeiska språk med det kyrilliska alfabetet Arabiska Modern grekiska Hebreiska Turkiska Nordeuropeiska språk, inkl. grönländska och samiska 19

20 Olika språk i samma korpus Parallellkorpusar innehåller texter på två eller flera olika språk Om korpusen innehåller språk med olika alfabet, t.ex. svenska och turkiska, kan man inte använda ASCII-kodning, eftersom det inte finns någon ASCII-kodning som hanterar både svenska och turkiska tecken 20

21 Teckenkodning: Unicode En enda teckenkodning för alla (levande och döda) språk Plats för mer än en miljon tecken i samma tabell Kräver mer än 1 byte i lagringsutrymme: UTF-8 UTF-16 UTF-32 1 byte/tecken för ASCII, 2-4 bytes för övriga tecken 2 bytes/tecken för vanligaste tecknen, 4 bytes för övriga tecken 4 bytes/tecken UTF = Unicode Transformation Format 21

22 Textnormalisering 22

23 Textnormalisering Att ge texten ett enhetligt format, t.ex. inför annotering (uppmärkning av ordklass etc): Program som automatiskt annoterar en text, kräver att formatet på texten ser ut på ett visst sätt, t.ex. att varje mening eller varje ord står på en egen rad Meningssegmentering att dela upp en text i de ingående meningarna, t.ex. en mening per rad Tokenisering att dela upp en text i de ingående orden, t.ex. ett ord per rad 23

24 Meningssegmentering Att dela upp en text i de ingående meningarna, en mening per rad Man vill helst inte manuellt behöva göra detta Det finns datorprogram som automatiskt gör detta Oftast ganska lätt att få datorn att lära sig var en mening slutar och nästa börjar Ledtrådar som datorn utnyttjar: skiljetecken inledande versal 24

25 Meningssegmentering Det var en gång en liten flicka; flickan kallades Rödluvan. Rödluvan var mycket söt; sötare än en karamell. En dag träffade Rödluvan en varg. Vad söt du är! sa vargen. Rödluvan gick genom skogen och såg många vackra växter, t. ex. smörblommor och midsommarblomster. Hon mötte också många snälla kamrater, t. ex. Hans och Greta. 25

26 Problem vid automatisk meningssegmentering Vissa tecken fungerar ibland meningsavskiljande och ibland inte, t.ex: kolon Orsaken till trafikkaoset var uppenbar: Det snöade hela natten. De inblandade personerna var: Pelle, Lisa och Eva. punkter Syftet är att minska samhällets utgifter för färdtjänst. Syftet är att minska samhällets utgifter för t. ex. färdtjänst. 26

27 Tokenisering Att dela upp en text i ingående tokens, dvs ord, ett ord per rad Det finns datorprogram som automatiskt gör detta Hur definierar man ett ord så att datorn förstår? 27

28 Tokenisering Vad räknas som ett ord? Enkel strategi: mellanslag utgör ordavgränsare Kučera & Francis (1967) definition av ett ord: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctutation marks Även skiljetecken, sifferuttryck o dyl räknas som egna ord i tokeniseringen 28

29 Tokenisering EU:s huvudkontor ligger i Belgien. Plats: Bryssel. Där diskuteras många viktiga frågor, t. ex. om man ska få sälja snus i Sverige. I New York kan man inte köpa snus. Det kan man dock i Malmö, Ystad, Borås etc. 29

30 Problem vid tokenisering Skiljetecken föregås inte av mellanslag, men ska ändå tokeniseras som egna ord Vissa skiljetecken utgör ibland egna ord men är ibland del av ett ord, t.ex kolon EU:s lagar och regler Pris: kronor 30

31 Problem vid tokenisering: Punkter Punkter fungerar oftast som meningsavslut: Syftet är att minska samhällets utgifter för färdtjänst. Utgör ibland del av en förkortning och ska då inte utgöra egna ord: t. ex. Kan utgöra både förkortningspunkt och meningsavslutningspunkt på samma gång: Syftet är att minska samhällets utgifter för färdtjänst, sjukresor etc. 31

32 Problem vid tokenisering: Apostrofer Kan fungera som citationstecken eller som del av ordet: the boys the boys toys Är isn t att betrakta som ett eller två ord? 32

33 Problem vid tokenisering: mellanslag Mellanslag utgör inte alltid ordavgränsare: särskrivna sammansättningar insurance company egennamn New York fraser i dag sifferuttryck

34 Annotering 34

35 Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, t.ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt Ett annat ord för annotering är taggning Den uppmärkning ett ord har tilldelats kallas för en tagg 35

36 Ordklasstaggning Vad menas med ordklasstaggning? ren ordklasstaggning: substantiv, adjektiv, verb etc. morfosyntaktisk information: genus, numerus, person etc. Vad avgör graden av specificitet i taggarna? Syftet med taggningen Språkets uppbyggnad (rik morfologi = rik tagguppsättning) 36

37 Tagguppsättningar Tagguppsättningarnas storlek varierar mellan 40 och 200 olika taggar Syftet med taggningen avgör tagguppsättning Exempel på tagguppsättningar för engelska: Brown-korpusens tagguppsättning (87 st) Penn Treebanks tagguppsättning (45 st) Vanligaste tagguppsättningen för svenska: Parole (153 st) 37

38 Mer om tagguppsättningar Ju rikare morfologi ett språk har, desto större tagguppsättning krävs normalt. Jmf svenskans Parole taggar och engelskans Penn Treebank taggar: en determinerare: utr, sing, indef lätt AQPUSNIS adjektiv: pos, utr, sing, nom, indef uppgift substantiv: utr, sing, nom, indef an DT determinerare easy JJ adjektiv task NN substantiv: sing 38

39 Taggningens delsteg Tokenisering Läraren var i alla fall snäll Morfologisk analys Läraren var i alla fall snäll subst subst/verb/adv/pron adv adj Morfologisk disambiguering Läraren var i alla fall snäll subst verb adv adj 39

40 Hur fungerar automatisk taggning? Man utgår från en manuellt taggad text, t.ex. SUC Man låter ett datorprogram titta på taggarna, och bygga ett lexikon med sannolikheter, t.ex: får 80% av gångerna verb 20% av gångerna substantiv Datorprogrammet tittar också på kontexten, t.ex: får alltid substantiv om det föregås av en artikel oftast verb om det föregås av ett substantiv När datorprogrammet ser nya texter, så utgår det ifrån vad det har lärt sig i sitt lexikon 40

41 Vad gör taggaren med ord som saknas i lexikonet? Okända ord - möjliga strategier: Versalinledda ord är egennamn, övriga okända ord är substantiv Ordet tillhör någon av de öppna ordklasserna, med den sannolikhet som gäller för korpusen i övrigt Taggdistributionen för ord som bara förekommer en enda gång i korpusen Böjnings- och avledningsändelser Flertydighet Kontexten avgör vilken tagg som ska väljas 41

42 Vanliga fel som en taggare gör Adjektiv taggas som adverb eller tvärtom Pelle fick snabbt adverb/adjektiv svar från Lisa Preposition taggas som partikel eller tvärtom Pelle slog på preposition/partikel TV:n Verb i perfekt taggas som perfekt particip eller tvärtom Pelle har lagat verb i perfekt huset Pelle har ett lagat perfekt particip hus 42

43 Välkända taggare Brill-taggaren (Brill, 1995) Vill ha en mening per rad Vill ha mellanslag även mellan skiljetecken och ord TnT-taggaren (Brants, 2000) Vill ha ett ord per rad Tom rad markerar meningsgräns Fungerar bäst i test för svenska (Megyesi, 2001): 93, 55% korrekta taggar 43

44 Annoteringsprinciper (Leech 1993) En annoterad korpus ska kunna återställas till sin oannoterade form Annoteringen ska gå att extrahera från texten för att sparas separat Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren Det ska klargöras hur och av vem annotationen gjordes Slutanvändaren ska informeras om att annoteringen inte är God's truth utan endast ett användbart verktyg Annoteringsscheman ska baseras på accepterade och teori-neutrala principer Inget annoteringsschema är en standard på förhand. Standarder växer fram. 44

45 SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Manuellt taggad Hög grad av specificitet: 23 ordklasser 11 morfosyntaktiska särdrag 9 typer av named entities (person, djur, myt, ställe, institution, produkt, arbete, händelse, annat) 45

46 Morfosyntaktiska särdrag i SUC Genus (utrum, neutrum, maskulinum) Numerus Bestämdhet Kasus (nominativ, genitiv) Tempus Diates (aktiv, s-form) Modus (konjunktiv) Participform Komparationsgrad Pronomenkasus (subjekt, objekt) 46

47 <name type=person> <w n=146>don<ana><ps>pm<m>nom<b>don</w> <w n=147>kerr<ana><ps>pm<m>nom<b>kerr</w> </name> <w n=148>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=149>mellanösternspecialist<ana><ps>nn<m>utr SIN IND NOM<b>mellanösternspecialist</w> <w n=150>på<ana><ps>pp<b>på</w> <name type=inst> <w n=151>the<ana><ps>pm<m>nom<b>the</w> <w n=152>international<ana><ps>pm<m>nom<b>international</w> <w n=153>institute<ana><ps>pm<m>nom<b>institute</w> <w n=154>for<ana><ps>pm<m>nom<b>for</w> <w n=155>strategic<ana><ps>pm<m>nom<b>strategic</w> <w n=156>studies<ana><ps>pm<m>nom<b>studies</w> </name> <w n=157>i<ana><ps>pp<b>i</w> <name type=place> <w n=158>london<ana><ps>pm<m>nom<b>london</w> </name> 47

48 BNC BNC = British National Corpus Ca 100 miljoner löpord talad och skriven brittisk engelska Automatiskt taggad utan mänsklig kontroll 61 olika taggar Ca 4,7% flervalstaggar 2 miljoner ord stor delmängd rikare taggad och manuellt efterredigerad 139 olika taggar 48

49 BNC <w DT0>Each <w NN1>dance <w VVD VVN>followed <w AJ0>particular <w NN2>rules <w VVD VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0 NN1>dancing <w NN2>masters 49

50 EAGLE Expert Advisory Groups on Language Engineering Standards Grupp inom EU som bland annat arbetar med att ta fram en gemensam EU-standard för korpusuppmärkning 50

51 EAGLE:s annoteringsrekommendationer Obligatoriska särdrag de stora ordklasserna: substantiv, verb, adjektiv, pronomen/determinerare, artikel, adverb, adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion Rekommenderade särdrag, t.ex. för substantiv: Numerus (singular/plural) Genus (maskulinum/femininum/neutrum) Kasus (nominativ/genitiv/dativ/ackusativ/vokativ) Typ (egennamn eller ej) Valfria särdrag Språkoberoende, t.ex. räknebarhet för substantiv Språkberoende, t.ex. definithet för substantiv 51

52 Lemmatisering Att byta ut alla ordformer i korpusen mot grundform Exempel på lemmatiserade korpusar: Susanne (engelska) Surface and Underlying Structural Analysis of Natural English Delmängd av Brown-korpusen löpord skriven amerikansk engelska SUC (svenska) 52

53 Lemmatisering i Susanne N01:1660m PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s] N01:1660n VBDR were be [Vwb.Vwb] N01:1660p AT1 a a [Ns:e. N01:1660q NN1c pair pair. N01:1660r IO of of [Po. N01:1660s VVNv lost lose [Np[Tn[Vn[VVNv&. N01:1660t YC +,. N01:1670a VVNv whipped whip [VVNv.VVNv ]VVNv&]Vn]Tn] N01:1670b NN2 kids kid.np]po]ns:e]fn:o] N01:1670c YC +,. N01:1670d NP1s Morgan Morgan [Nns:s.Nns:s] N01:1670e VVDv thought think [Vd.Vd] N01:1670f CSA as as [Fa:t. N01:1670g PPHS1m he he [Nas:s.Nas:s] N01:1670h VVDi went go [Vd.Vd] N01:1670i IIt to to [P:q. N01:1670j NN1c bed bed.p:q]fa:t]s] N01:1670k YF +..O] 53

54 Lemmatisering i SUC <s id=aa01a 013> <w n=166>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=167>skrattar<ana><ps>vb<m>prs AKT<b>skratta</w> <w n=168>lite<ana><ps>ab<m>pos<b>lite</w> <w n=169>åt<ana><ps>pp<b>åt</w> <w n=170>den<ana><ps>dt<m>utr SIN DEF<b>den</w> <w n=171>avfärdande<ana><ps>pc<m>prs UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w> <w n=172>formuleringen<ana><ps>nn<m>utr SIN DEF NOM<b>formulering</w> <w n=173>och<ana><ps>kn<b>och</w> <w n=174>fördjupar<ana><ps>vb<m>prs AKT<b>fördjupa</w> <w n=175>resonemanget<ana><ps>nn<m>neu SIN DEF NOM<b>resonemang</w> <d n=176>.<ana><ps>mad<b>.</d> </s> 54

55 Syntaktisk annotering Syntaktisk (grammatisk) analys av korpusen Automatisk syntaktisk uppmärkning ger mycket sämre resultat än t.ex. automatisk ordklasstaggning ofta mänsklig inblandning i parsningen Trädbanker = syntaktiskt uppmärkta korpusar Två huvudsakliga typer av syntaktisk uppmärkning: Frasstrukturer (nominalfraser, verbfraser etc.) Dependenser (subjekt, objekt etc.) 55

56 Frasstrukturuppmärkning i Spoken English Corpus [S[N Nemo_NP1,_, [N the_at killer_nn1 whale_nn1 N],_, [Fr[N who_pnqs N][V 'd_vhd grown_vvn [J too_rg big_jj [P for_if [N his_app$ pool_nn1 [P on_ii [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N],_, [V has_vhz arrived_vvn safely_rr [P at_ii [N his_app$ new_jj home_nn1 [P in_ii [N Windsor_NP1 [ safari_nn1 park_nnl1 ]N]P]N]P]V]._. S] S sentence N nominalfras FR relativsats V verbfras J adjektivfras P prepositionsfras 56

57 Dependensuppmärkning i Talbanken <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare PR komplement till preposition SUB subjekt IP interpunktion DET determinerare 57

58 Semantisk annotering Uppmärkning av semantiska relationer, såsom agent, patient etc. FrameNet: Uppmärkning av ordbetydelse, t.ex. hyponymi WordNet: Svenskt OrdNät: 58

59 Textlingvistisk annotering Diskurstaggar London-Lund Corpus of Spoken English Ursäkter, sorry Hälsningar, hello Artighetsfraser, please Anaforisk annotering (pronomenreferens) 59

60 Fonetisk annotering Transkribering MARSEC The Machine Readable Spoken English Corpus Prosodi London-Lund Corpus of Spoken English Ska man märka upp hostningar, skratt, tvekanden etc? 60

61 Nästa gång Sökmotorer och korpussökning på Internet Nätresurser 61

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Elementära verktyg för korpusbearbetning

Elementära verktyg för korpusbearbetning Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

Grammatisk teori II Attributvärdesgrammatik

Grammatisk teori II Attributvärdesgrammatik Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

ORDKLASSERNA I. Ett sätt att sortera våra ord

ORDKLASSERNA I. Ett sätt att sortera våra ord ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

Ord och morfologi. Morfologi

Ord och morfologi. Morfologi Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Korpuslingvistik (SV2119) Föreläsning 3: Annotering Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du

Läs mer

Ordklasser och satsdelar

Ordklasser och satsdelar Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera

Läs mer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,

Läs mer

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,

Läs mer

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2 Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT09 Dag 2 Morfologi flick-a flick-a-n flick-a-n-s flick-or flick-or-na flick-or-na-s Morfologi flick-a flick-a-n flick-a-n-s flick-or

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

F2 Datarepresentation talbaser, dataformat och teckenkodning

F2 Datarepresentation talbaser, dataformat och teckenkodning F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Jonas Wisbrant Datarepresentation I en dator lagras och behandlas all information i form av binära tal ettor och nollor.

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära

Läs mer

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur. UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2014 Ord och ordklasser Översikt i stolpform. Terminologin följer

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik

Läs mer

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson! F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Von Neumann-arkitekturen Gemensamt minne för programinstruktioner och data. Sekventiell exekvering av instruktionerna.

Läs mer

Facit för diagnostiska provet i grammatik

Facit för diagnostiska provet i grammatik Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954

Läs mer

WEBBUTVECKLING Kursplanering

WEBBUTVECKLING Kursplanering Kursplanering v 35-37: Struktur, mappar, google-skills, planering, html-grunder, bra/dåliga exempel, webbläsare, editorer v 38-43: HTML - länkar, färger, text, listor, bilder. v 44: Höstlov v 45: Repetition,

Läs mer

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2 Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT10 Dag 2 Skriftsystem i världen Skriftsystem: bokstavsalfabeten Varje skrivtecken motsvarar ett separat ljud, konsonant (C) eller vokal

Läs mer

TDDD78, TDDE30, 729A Tecken och strängar med och utan Java

TDDD78, TDDE30, 729A Tecken och strängar med och utan Java TDDD78, TDDE30, 729A85 jonas.kvarnstrom@liu.se 2019 Tecken och strängar med och utan Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Grundläggande syntaktiska funktioner och roller

Grundläggande syntaktiska funktioner och roller UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande

Läs mer

F3 Datarepresentation teckenkodning och datakompression EDAA05 Datorer i system! Roger Henriksson!

F3 Datarepresentation teckenkodning och datakompression EDAA05 Datorer i system! Roger Henriksson! Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression EDAA05 Roger Henriksson Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). Baudot 1874, Murray 1901 2 EBCDIC ASCII Extended

Läs mer

Obesvarade frågor från F1

Obesvarade frågor från F1 Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll

Läs mer

F3 Datarepresentation teckenkodning och datakompression

F3 Datarepresentation teckenkodning och datakompression Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). EDAA05 Roger Henriksson Jonas Wisbrant Baudot 1874, Murray 1901 2

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet. MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti

Läs mer

Tecken och strängar i Java

Tecken och strängar i Java jonas.kvarnstrom@liu.se 2017 Tecken och strängar i Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar symbol Minsta enheten för information

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Först lite rester...

Först lite rester... Först lite rester... Fras Ett ord med dess bestämningar Huvudord bestämning/dependent Ett eller flera ord i frasen fyllnadsled: obligatoriska, frivilliga tilläggsled Frasers kategori? Frasers funktion?

Läs mer

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Maskinöversättning och språkgranskning. F6: Grammatikkontroll Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Läs mer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol) Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den

Läs mer

SUBSTANTIV = namn på saker, personer, känslor

SUBSTANTIV = namn på saker, personer, känslor KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS

Läs mer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli

Läs mer

Ord och morfologi. Morfologi

Ord och morfologi. Morfologi Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande

Läs mer

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.

Läs mer

Persiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi

Persiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala

Läs mer

Frasstrukturgrammatik

Frasstrukturgrammatik 729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll

Läs mer

Så, ska det taggas som adverb?

Så, ska det taggas som adverb? UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar

Läs mer

Datum: Date: Provkodr: KTR1 Exam code:

Datum: Date: Provkodr: KTR1 Exam code: Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen

Läs mer

12 Programstege Substantiv

12 Programstege Substantiv Det här är en programstege för substantiv. Du kan alltså lära dig om substantiven på ett enkelt sätt, en liten bit i taget. Varje sida innehåller fakta om substantiv, tillsammans med uppgifter som du också

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,

Läs mer

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1

Världens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1 Världens språk Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem Allmän Grammatik och Fonetik HT07 Dag 1 Världens språk Världens sex största språk Kinesiska Engelska Spanska Arabiska

Läs mer

Syntax Fras, sats, mening

Syntax Fras, sats, mening Allmän grammatik 6 Fraser Syntax Fras, sats, mening Lösryckta satsdelar utan kontext; benämns utifrån huvudordet. nominalfras (nomen, dvs. substantiviskt ord + bestämningar) min lilla bortskämda katt,

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April Lingvistik II Ord, ordklasser, lexikon Mikael Svensson Lingvistik, 2 April Dagens föreläsning Inledning till morfologi och syntax Lexikon Ord Ordklasser Öppna ordklasser: substantiv, verb, adjektiv, adverb

Läs mer

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag) Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver

Läs mer

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål: Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket

Läs mer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I 3,5 högskolepoäng Provmoment: Språkkunskap TE01 Ladokkod: C46S20 vt-18: Språkkunskap: Det svenska språksystemet Tentamen ges för:

Läs mer

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer