Korpuslingvistik vt 2007
|
|
- Astrid Olofsson
- för 6 år sedan
- Visningar:
Transkript
1 Korpuslingvistik vt 2007 Föreläsning 2: Korpusannotering, textkodning, textnormalisering Eva Pettersson 1
2 Föreläsningsöversikt Korpussammanställning Textkodning Textnormalisering Annotering Flerspråkiga korpusar 2
3 Korpussammanställning Att tänka på innan man påbörjar själva korpusinsamlingen: 1. Vad är syftet med korpussammanställningen? 2. Vilka genrer vill jag täcka? 3. Hur gör jag min korpus representativ för den/de genrer jag vill täcka? 4. Hur stor bör min korpus vara för att vara relevant? 5. Vilken hierarkisk struktur ska jag ha på korpusen? 6. Upphovsrätt till de texter jag samlar in? Var laglig! 3
4 Korpusurval (sampling) Val av element ur en större mängd Mängden man väljer ifrån kallas population Den valda mängden kallas sampel Syftet är oftast att åstadkomma ett representativt sampel, d.v.s. ett sampel som speglar populationen med avseende på vissa relevanta variabler Genom att undersöka ett representativt sampel kan man dra slutsatser om populationen i stort 4
5 Samplingsmetoder utan slump Lättillgänglighetsampling (convenience sampling) man tar det som är närmast till hands, frågar släkt och vänner Styrd sampling (purposive sampling) forskaren själv väljer ut element som passar bra Snöbollssampling (snowball sampling) valet av ett element bidrar till att andra element väljs (kedjebrev) Kvotsampling (quota sampling) populationen delas in i olika kategorier (t.ex. kön och ålder) och man letar reda på element för varje kategori Problem med icke-slumpmässiga metoder: dåliga på att åstadkomma representativa sampel 5
6 Samplingsmetoder med slump Enkel slumpmässig sampling (simple random sampling) alla element har lika stor chans att dras Systematisk slumpmässig sampling (systematic random sampling) börjar på slumpmässigt ställe och drar sedan var i:te element Stratifierad sampling (stratified sampling) populationen delas in kategorier, strata (t.ex. kön, ålder, region) från vilka slumpmässiga sampel dras. Problem: Känner vi till hela populationen? 6
7 Textkodning Att märka upp texten med information om t.ex. författare, dokumenttyp, meningsgränser, styckeindelning etc. Inte trivialt om man vill göra korpusen lättillgänglig för utomstående! Finns det någon standard för detta? 7
8 Tidig textkodningsstandard: COCOA Word COunt and COncordance on Atlas Mycket tidig textkodningsstandard Bl.a. i Longman-Lancaster Corpus och Helsinki Corpus Format: näbbparenteser innehållande dels en fördefinierad variabel, dels värdet för variabeln Exempel från Helsinki Corpus: <N LET TO HUSBAND> N = titel <A BEAUMONT ELIZABETH> A = författare <X FEMALE> X = kön <H HIGH> H = social status 8
9 Modern textkodningsstandard: TEI Text Encoding Initiative Syfte: Att ange en standard för uppmärkning av texter, så att alla följer samma riktlinjer Har tillhandahållit SGML - Standard Generalised Markup Language (underkategorier: XML, HTML, XHTML etc.) 9
10 TEI - format (1) Överst i dokumentet: Header med information om författare, titel, datum etc. Exempel ur SUC: <titlestmt> <title level=a>smygrustning av raketvapen</title> <title level=j>dagens Nyheter</title> <author>mats Lundegård</author> </titlestmt> 10
11 TEI - format (2) Varje element (ord, meningar, stycken etc.) omges av en starttagg (< >) och en sluttagg (</>). Exempel ur SUC: <p> <s id=aa01a-009> <w n=91>hur<ana><ps>ha<b>hur</w> <w n=92>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=93>det<ana><ps>pn<m>neu SIN DEF SUB/OBJ<b>det</w> <w n=94>då<ana><ps>ab<b>då</w> <w n=95>i<ana><ps>pp<b>i</w> <name type=place> <w n=96>mellanöstern<ana><ps>pm<m>nom<b>mellanöstern</w> </name> <d n=97>?<ana><ps>mad<b>?</d> </s> </p> 11
12 TEI - format (3) Entiteter omges av & och ; Entiteterna kan vara t.ex. taggar: polished&vvd; eller speciella tecken: båt - båt bär - bär snö - snö 12
13 Teckenkodning Hur tecknen representeras i datorn, d.v.s. att översätta tecken till bits och bytes Varje tecken får en unik kod som motsvarar tecknet (i en teckentabell) Olika språk kräver olika teckenuppsättningar beroende på alfabetet Viktigt vid överföring av texten från ett system till ett annat Finns det någon standard? Ja, flera... IANA - Internet Assigned Numbers Authority 13
14 ASCII-kodning ASCII - American Standard Code for Information Interchange Utvecklat byte per tecken 7 bit för teckenkoderingen (128 möjliga tecken) + en paritetsbit för att kontrollera teckenöverföringen Kontrolltecken för speciella funktioner (backspace, tab, new line) 14
15 ASCII-kodning SP 33! 34 " 35 # 36 $ 37 % 38 & ( 41 ) 42 * , / : 59 ; 60 < 61 = 62 > 63? 65 A 66 B 67 C 68 D 69 E 70 F 71 G 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 88 X 89 Y 90 Z 91 [ 92 \ 93 ] 94 ^ 95 _ a 98 b 99 c 100 d 101 e 102 f 103 g 104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 120 x 121 y 122 z 123 { } 126 ~ 127 DEL
16 Alternativ? ASCII utvecklat för engelska Problem för språk med annat alfabet, t.ex. ryska, kinesiska eller arabiska Problem för språk med speciella tecken, t.ex. å, ä, ö, é, ü Lösningar: 1. Använd ASCII och ge speciella tecken specialkoder, t.ex. ä för ä i HTML 2. Utöka den ursprungliga ASCII-tabellen med fler tecken - språkberoende teckenkodningstabeller 3. Unicode - en enda standard för alla världens språk 16
17 Språkberoende teckenkodning Utvecklat av Internationella StandardiseringsOrganisationen (ISO) ISO (Latin 1) Västeuropeiska språk ISO (Latin 2) Östeuropeiska språk med det latinska alfabetet ISO (Latin 3) Sydeuropeiska språk ISO (Latin 4) Nordeuropeiska språk ISO Östeuropeiska språk med det kyrilliska alfabetet ISO Arabiska ISO Modern grekiska ISO Hebreiska ISO (Latin 5) Turkiska ISO (Latin 6) Nordeuropeiska språk, inkl. grönländska och samiska 17
18 Unicode En enda teckenkodning för alla världens språk Plats för mer än en miljon tecken i samma tabell Kräver mer än 1 byte per tecken i lagringsutrymme: UTF-8 1 byte/tkn för ASCII, 2-4 bytes för övriga UTF-16 2 bytes/tkn för vanligaste tecknen, 4 bytes för övriga UTF-32 4 bytes/tkn UTF = Unicode Transformation Format 18
19 Textnormalisering Att ge texten ett enhetligt format, t.ex. inför annotering Meningssegmentering Tokenisering, d.v.s. att dela upp texten i de ingående orden Inte trivialt vad som räknas som ett ord! 19
20 Tokeniseringsproblematik (1) Punkter Kan utgöra del av förkortning, som i t.ex. Kan utgöra både förkortningspunkt och meningsavslutningspunkt på samma gång: Syftet är att minska samhällets utgifter för färdtjänst, sjukresor etc. Apostrofer Kan fungera som citationstkn eller som del av ordet: the boys vs the boys toys Är isn t att betrakta som ett eller två ord? 20
21 Tokeniseringsproblematik (2) Mellanslag utgör inte alltid ordavgränsare särskrivna sammansättningar - insurance company egennamn - New York fraser - i alla fall sifferuttryck
22 Textnormalisering - TnT TnT-taggaren: ett ord per rad tom rad markerar meningsslut We re going. Are you? 22
23 Textnormalisering - Brill Brill-taggaren: en mening per rad separera skiljetecken från ord We re going today, are you? I m hungry, he said. 23
24 Annotering Att märka upp korpusen med lingvistisk information ordklasstaggning lemmatisering syntaktisk annotering (parsning) semantisk annotering textlingvistisk annotering fonetisk annotering 24
25 Ordklasstaggning Vad menas med ordklasstaggning? ren ordklassinformation: substantiv, adjektiv, verb etc. Dock ej trivialt vilka ordklasser som faktiskt existerar! Traditionell svensk grammatik: 9 ordklasser SUC: 23 ordklasser morfosyntaktisk information: genus, numerus, person etc. Vad avgör graden av specificitet? syftet med taggningen språkets uppbyggnad (rik morfologi - rik tagguppsättning) 25
26 SUC SUC - Stockholm Umeå Corpus ca 1 miljon löpord manuellt taggad hög grad av specificitet: 23 ordklasser 11 morfosyntaktiska särdrag 9 typer av named entities (person, djur, myt, ställe, institution, produkt, arbete, händelse, annat) 26
27 Morfosyntaktiska särdrag i SUC genus (utrum/neutrum/maskulin) numerus bestämdhet kasus (nominativ/genitiv) tempus diates (aktiv/s-form) modus (konjunktiv) participform komparationsgrad pronomenkasus (subjekt/objekt) 27
28 SUC <name type=person> <w n=146>don<ana><ps>pm<m>nom<b>don</w> <w n=147>kerr<ana><ps>pm<m>nom<b>kerr</w> </name> <w n=148>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=149>mellanösternspecialist<ana><ps>nn<m>utr SIN IND NOM<b>mellanösternspecialist</w> <w n=150>på<ana><ps>pp<b>på</w> <name type=inst> <w n=151>the<ana><ps>pm<m>nom<b>the</w> <w n=152>international<ana><ps>pm<m>nom<b>international</w> <w n=153>institute<ana><ps>pm<m>nom<b>institute</w> <w n=154>for<ana><ps>pm<m>nom<b>for</w> <w n=155>strategic<ana><ps>pm<m>nom<b>strategic</w> <w n=156>studies<ana><ps>pm<m>nom<b>studies</w> </name> <w n=157>i<ana><ps>pp<b>i</w> <name type=place> <w n=158>london<ana><ps>pm<m>nom<b>london</w> </name> 28
29 BNC BNC - British National Corpus ca 100 miljoner löpord talad och skriven brittisk engelska automatiskt taggad utan manuell efterredigering 61 olika taggar ca 4.7% flervalstaggar 2 miljoner ord stor delmängd rikare taggad och manuellt efterredigerad olika taggar 29
30 BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30
31 EAGLE EAGLE - Expert Advisory Groups on Language Engineering Standards Grupp inom EU som bl.a. arbetar med EU-standard för korpusuppmärkning 31
32 EAGLEs taggningsrekommendationer Obligatoriska särdrag - de stora ordklasserna: nomen, verb, adjektiv, pronomen/determinerare, artikel, adverb, adposition, konjunktion, numeral, interjektion, unik, rest, interpunktion Rekommenderade särdrag För nomen: numerus (singular/plural) genus (maskulinum/femininum/neutrum) kasus (nominativ/genitiv/dativ/ackusativ/vokativ) typ (egennamn eller ej) Valfria särdrag språkoberoende: t.ex. räknebarhet för nomen språkspecifika: t.ex. definithet för nomen 32
33 Lemmatisering Att byta ut alla ordformer i texten mot ordets grundform Varför är detta av vikt inom korpuslingvistiken? Exempel på lemmatiserade korpusar: Susanne (engelska) Susanne - Surface and Underlying Structural Analysis of Natural English delmängd av Brown-korpusen löpord skriven amerikansk engelska SUC (svenska) 33
34 Lemmatisering i Susanne N01:1660m -PPHS2 They they [O[S[Fn:o[Nap:s.Nap:s] N01:1660n -VBDR were be [Vwb.Vwb] N01:1660p -AT1 a a [Ns:e. N01:1660q -NN1c pair pair. N01:1660r -IO of of [Po. N01:1660s -VVNv lost lose [Np[Tn[Vn[VVNv&. N01:1660t -YC +,-. N01:1670a -VVNv whipped whip [VVNv-.VVNv-]VVNv&]Vn]Tn] N01:1670b -NN2 kids kid.np]po]ns:e]fn:o] N01:1670c -YC +,-. N01:1670d -NP1s Morgan Morgan [Nns:s.Nns:s] N01:1670e -VVDv thought think [Vd.Vd] N01:1670f -CSA as as [Fa:t. N01:1670g -PPHS1m he he [Nas:s.Nas:s] N01:1670h -VVDi went go [Vd.Vd] N01:1670i -IIt to to [P:q. N01:1670j -NN1c bed bed.p:q]fa:t]s] N01:1670k -YF +. -.O] 34
35 Lemmatisering i SUC <s id=aa01a-013> <w n=166>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=167>skrattar<ana><ps>vb<m>prs AKT<b>skratta</w> <w n=168>lite<ana><ps>ab<m>pos<b>lite</w> <w n=169>åt<ana><ps>pp<b>åt</w> <w n=170>den<ana><ps>dt<m>utr SIN DEF<b>den</w> <w n=171>avfärdande<ana><ps>pc<m>prs UTR/NEU SIN/PLU IND/DEF NOM<b>avfärdande</w> <w n=172>formuleringen<ana><ps>nn<m>utr SIN DEF NOM<b>formulering</w> <w n=173>och<ana><ps>kn<b>och</w> <w n=174>fördjupar<ana><ps>vb<m>prs AKT<b>fördjupa</w> <w n=175>resonemanget<ana><ps>nn<m>neu SIN DEF NOM<b>resonemang</w> <d n=176>.<ana><ps>mad<b>.</d> </s> 35
36 Syntaktisk annotering Parsning, d.v.s. grammatisk analys av texten Automatisk parsning ger mycket lägre precision än t.ex. automatisk ordklasstaggning - ofta manuell inblandning Trädbanker = parsade korpusar Två huvudsakliga typer av parsning: frasstruktur skeleton parsing full parsing dependensrelationer (subjekt, objekt etc.) 36
37 Frasstrukturparsning i Spoken English Corpus [S[N Nemo_NP1,_, [N the_at killer_nn1 whale_nn1 N],_, [Fr[N who_pnqs N][V d_vhd grown_vvn [J too_rg big_jj [P for_if [N his_app$ pool_nn1 [P on_ii [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N],_, [V has_vhz arrived_vvn safely_rr [P at_ii [N his_app$ new_jj home_nn1 [P in_ii [N Windsor_NP1 [ safari_nn1 park_nnl1 ]N]P]N]P]V]._. S] S sentence N nominalfras FR relativsats V verbfras J adjektivfras P prepositionsfras 37
38 Dependensparsning i Talbanken (Nivres MALT-parser) <sentence id="24" user="" date=""> <word id="1" form="dessutom" postag="ab" head="2" deprel="adv"/> <word id="2" form="höjs" postag="vb.prs.sfo" head="0" deprel="root"/> <word id="3" form="åldergränsen" postag="nn.utr.sin.def.nom" head="2" deprel="sub"/> <word id="4" form="till" postag="pp" head="2" deprel="adv"/> <word id="5" form="18" postag="rg.nom" head="6" deprel="det"/> <word id="6" form="år" postag="nn.neu.plu.ind.nom" head="4" deprel="pr"/> <word id="7" form="." postag="mad" head="2" deprel="ip"/> </sentence> ADV adverbiell modifierare SUB subjekt DET determinerare PR komplement till preposition IP interpunktion 38
39 Semantisk annotering Två typer: 1. uppmärkning av semantiska relationer såsom agent, patient etc. FrameNet ( 2. uppmärkning av ordbetydelse, t.ex. hyponymirelationer WordNet ( 39
40 Textlingvistisk annotering Diskurstaggar London-Lund Corpus of Spoken English (Stenström): ursäkter, sorry hälsningar, hello artighetsfraser, please m.fl. Anaforisk annotering (pronomenreferens) 40
41 Fonetisk annotering Transkribering MARSEC - The Machine Readable Spoken English Corpus Prosodi London-Lund Corpus of Spoken English Ska man märka upp hostningar, skratt etc.? 41
42 Flerspråkiga korpusar Parallellkorpusar: Korpusar bestående av samma texter på flera olika språk. Jämförbara korpusar: Korpusar bestående av texter på flera språk. Det är inte samma texter på de olika språken, men de bör tillhöra samma domän. 42
43 Parallellkorpusar Hansard Engelsk-fransk parallellkorpus bestående av kanadensiska parlamentsprotokoll Många miljoner löpord Delvis taggad och parsad EUROPARL Parallellkorpus bestående av officiella Europaparlamentstexter utgivna april 1996-december 2001 Tillgängliga på 11 olika EU-språk Ca 20 miljoner löpord meningar per språk 43
44 Länkning (alignment) Att para ihop segment i källspråket (originaldokumentet) med motsvarande segment i målspråket (den översatta texten) meningslänkning ord- och fraslänkning 44
45 Meningslänkning Att para ihop meningar i källspråket med motsvarande meningar i målspråket Mycket hög precision Ledtrådar: styckeindelning, längdmått, lexikon, sifferuttryck etc. Inte alltid ett-till-ett-förhållande mellan antalet meningar på de olika språken. Exempel från Jörg Tiedemann (2003): 1:1 I didn t know what to say. - Jag visste inte vad jag skulle säga. 2:3 Her brother said to her, Why does Ras always say longwedge for - language, he talks about African longwedges? Sounds so funny. Hur kommer det sig att Ras alltid säger sprak i stället för språk? Han talar om afrikanska sprak. Det låter så roligt. 2:1 Go to hell. Emanuelle sat up straight. Dra åt skogen! sade Emanuelle och satte sig kapprak. 45
46 Ordlänkning Att para ihop ord och fraser i källspråket med motsvarande ord och fraser i målspråket Oftast statistiska metoder, såsom samförekomst och stränglikhet Jörg Tiedemann använder därutöver lingvistiska metoder, såsom ordklasstaggning och lemmatisering Exempel på ordlänkningssystem: GIZA++, bygger helt på statistik Clue Aligner, både statistik och lingvistiska ledtrådar (där GIZA++ är en av de statistiska ledtrådarna) 46
47 Parallellkorpusar - användningsområden statistisk/exempelbaserad maskinöversättning extrahera flerspråkiga lexikon för t.ex. maskinöversättning (inte bara statistisk maskinöversättning) flerspråkig informationssökning andraspråksinlärning 47
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 2: Korpusannotering, textkodning, textnormalisering eva.pettersson@lingfil.uu.se 1 Föreläsningsöversikt Textkodning Teckenkodning Textnormalisering Korpusannotering
Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Elementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Meningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Grammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
F3 Datarepresentation teckenkodning och datakompression EDAA05 Datorer i system! Roger Henriksson!
Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression EDAA05 Roger Henriksson Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). Baudot 1874, Murray 1901 2 EBCDIC ASCII Extended
F3 Datarepresentation teckenkodning och datakompression
Teckenkodning historik F3 Datarepresentation teckenkodning och datakompression Baudotkod 5-bitars kod för fjärrskrivare (teletype tty). EDAA05 Roger Henriksson Jonas Wisbrant Baudot 1874, Murray 1901 2
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Korpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
F2 Datarepresentation talbaser, dataformat och teckenkodning
F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Jonas Wisbrant Datarepresentation I en dator lagras och behandlas all information i form av binära tal ettor och nollor.
Datorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!
F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Roger Henriksson Von Neumann-arkitekturen Gemensamt minne för programinstruktioner och data. Sekventiell exekvering av instruktionerna.
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Maskinöversättning 2008
Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE
grammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
TDDD78, TDDE30, 729A Tecken och strängar med och utan Java
TDDD78, TDDE30, 729A85 jonas.kvarnstrom@liu.se 2019 Tecken och strängar med och utan Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:
Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket
Tecken och strängar i Java
jonas.kvarnstrom@liu.se 2017 Tecken och strängar i Java Begrepp: Tecken, kodpunkter, kodningar, Unicode: A till Z och mer Tecken 3 Steg 1: Ett tecken (en symbol) Odelbar symbol Minsta enheten för information
TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
MÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
ENGELSKA ÅRSKURS 3 ÅRSKURS 4
ENGELSKA ÅRSKURS 3 - utveckla ett intresse för engelska språket. - lära sig att uppfatta, förstå och våga tala engelska och agera enligt individuell förmåga. - göra sig förstådda i för dem nära och vardagliga
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap
Uppmärkningsspråk TDP007 Konstruktion av datorspråk Föreläsning 3 Peter Dalenius Institutionen för datavetenskap 2015-01-29 Vad handlar det andra seminaret om? Strukturerad text Uppgifter Hämta information
Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap
Uppmärkningsspråk TDP007 Konstruktion av datorspråk Föreläsning 3 Peter Dalenius Institutionen för datavetenskap 2017-01-26 2 Vad handlar det andra seminariet om? Strukturerad text Uppgifter Hämta information
Maskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Ord och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Kursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid
Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning
file:///c:/users/engström/downloads/resultat.html
M 6 0 M F Ö R S Ö K 1 2 0 1 2-0 1-2 1 1 J a n W o c a l e w s k i 9 3 H u d d i n g e A I S 7. 0 9 A F 2 O s c a r J o h a n s s o n 9 2 S p å r v ä g e n s F K 7. 2 1 A F 3 V i c t o r K å r e l i d 8
Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi
SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord
Facit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Lingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
WEBBUTVECKLING Kursplanering
Kursplanering v 35-37: Struktur, mappar, google-skills, planering, html-grunder, bra/dåliga exempel, webbläsare, editorer v 38-43: HTML - länkar, färger, text, listor, bilder. v 44: Höstlov v 45: Repetition,
Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2
Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT09 Dag 2 Morfologi flick-a flick-a-n flick-a-n-s flick-or flick-or-na flick-or-na-s Morfologi flick-a flick-a-n flick-a-n-s flick-or
Datum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
ORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Maskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Syntax Fras, sats, mening
Allmän grammatik 6 Fraser Syntax Fras, sats, mening Lösryckta satsdelar utan kontext; benämns utifrån huvudordet. nominalfras (nomen, dvs. substantiviskt ord + bestämningar) min lilla bortskämda katt,
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Korpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Ordklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Tecken och teckenrepresentation
Tecken och teckenrepresentation Grundläggande databehandling 8 november 2005 Innehåll 1 Teckenrepresentation 2 1.1 Teckenkoder............................. 2 1.2 Att ange teckenkodning......................
Persiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi
Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis
Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Språkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Obesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll