Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References
|
|
- Amanda Nyström
- för 6 år sedan
- Visningar:
Transkript
1 2014
2 Outline
3 Min bakgrund Disputerade 2012 Avhandling om att skapa högkvalitativa parallella trädbanker Flerspråkiga parallella trädbanken Smultron Forskare på Språkbanken Historiska resurser (MAÞiR ) Högkvalitativ korpusannotering (Koala )
4 Korpuslingvistik Varför korpusar för språkforskning? Faktiska språkliga belägg Storskaliga empiriska språkstudier Trädbanker A treebank is a linguistically annotated corpus that includes some grammatical is beyond the part-of-speech level (Nivre et al., 2005; Nivre, 2008). Annotering hjälper oss vaska fram guldkornen utökar (bok, boken, böcker, böckerna, Bok, BOKEN etc.) begränsar (Caesar=subjekt + besegra)
5 Vad är ett träd? Varje mening mappas till en graf som representerar dess hierarkiska syntaktiska struktur. S SB NP HD MO AVP MO AVP MO PD AVP HD CC NP NK HD HD HD CM NK HD En människa var väl ända någonting mer än en maskin? DT NN VBFIN AB AB PN AB PR DT NN DL DT THE NNP GARDEN IN OF NNP EDEN NP
6 Konstituenter och dependenser Konstituenter fraser strukturella kategorier möjligen funktionella kategorier orden byggklossar i större enheter Dependenser relationer mellan huvuden funktionella kategorier syntaktiska funktioner möjligen strukturella kategorier (ordklasser) ords relation till varandra
7 make use ersions of mantically oftheartierting con- ethende- eprevious all experiew format ependency represen- sedonthe arsetreea ent s chiltoy gramure 2, the corresponding dependency tree produced Konstituenter och dependenser by PENN2MALT. WHADVP Why SBJ NP PRN S VP SBAR SBARQ SBARQ *T* *T* SQ VP SBJ NP CLR PP NP PRP ADVP, theywonder 0 *T*, should itbelong to theec *T*? Figure 1: A constituent tree from the Penn Treebank. ency VMOD P SUB ROOT VMOD VMOD P SUB P VMOD PMOD NMOD Why, theywonder, shouldit belong to the EC Figure 2: Dependency tree by PENN2MALT. Figurer från Johansson and Nugues (2007).?
8 The history of treebanks Penn Treebank (English; Phase 1: ) Forerunners: Talbanken (Swedish; Lund 1970s) Ellegård (English; Gothenburg 1978) Tosca (English; Nijmegen 1980s) LOB (Lancaster-Oslo-Bergen) Treebank (Engl.; late 1980s) SynTag (Swedish; Gothenburg ) Followers NEGRA / TIGER Treebanks (German; s) Prague Dependency Treebank (Czech; 2000s) Svensk trädbank (Swedish; 2007) Bulgarian, Danish, Dutch, French, Chinese, Japanese, Arab, Hebrew, Turkish...
9 Penn treebank Penn Treebank Example from 1991 ( bd0011sx.) ( (S (NP *) (VP Show (NP me) (NP (NP all) the nonstop flights (PP (PP from (NP Dallas)) (PP to (NP Denver))) (ADJP early (PP in (NP the morning))))).) )
10 The Swedish Treebank Developed in Uppsala and Växjö Harmonizing two resources: Talbanken: Swedish written and transcribed spoken language from the 1970s, manually annotated with syntactic information according to a traditional Scandinavian is tradition (cf. Diderichsen s field is) SUC (Stockholm Umeå Corpus), a morphosyntactically annotated (part-of-speech and lemma), balanced corpus of published Swedish written language from the 1990s Talbanken annotated with SUC morphosyntactic in a semi-automatic process Both Talbanken and SUC automatically syntactically annotated with phrase structure version of Talbanken s original syntax is
11 The Swedish Treebank
12 Varför automatisk syntaktisk? Manuell annotering tidskrävande Vi vill ha stora mängder annoterad text träningsmaterial för NLP-system möjliggör mer detaljerade sökningar grammatikforskning
13 CFG Context-free grammar Formell grammatik Regler S s G = (N, T, R, S) 1. N: mängden icke-terminaler 2. T : mängden terminaler 3. R: relation från N till (N T ) (regler, produktioner) 4. S: startsymbol, del av mängden N
14 CFG Jag ser det glada barnet.
15 CFG Jag ser det glada barnet. pn jag vb ser dt det adj glada nn barnet
16 CFG Jag ser det glada barnet. pn jag vb ser dt det adj glada nn barnet S NP VP NP pn (dt) (adj)* nn VP vb (NP)*
17 CFG Jag ser att det glada barnet sjunger. pn jag vb ser dt det adj glada nn barnet S NP VP NP pn (dt) (adj)* nn VP vb (NP)*
18 : söka igenom alla möjliga träd för en given mening För att söka igenom alla möjliga träd måste vi skapa dem
19 Parsers Parser: program som tar sträng som input och återskapar strukturen i form av träd Alla parsers läser input från vänster till höger Olika sätt att skapa trädstrukturen bottom-up: börja med löven (kan ge träd utan toppnod S) top-down: börja med toppnoden (kan ge träd som inte motsvarar input)
20 Dynamic Programming Divide and conquer Lös ett problem genom att dela upp det i delproblem, lös varje delproblem och kombinera lösningarna. Memo-isering Lös varje delproblem en gång, mellanlagra lösningen, återanvänd som dellösning i större problem.
21 CYK Cocke-Younger-Kasami Bottom-up för kontextfri grammatik Regler maximalt binära: (Chomsky normal form!) A a eller A BC Finns i många variationer... Skapa triangelformad parsningstabell Varje cell [i,j] innehåller alla icke-terminaler för position i-j Börja med strängar av längd 1, sedan längd 2 osv. Hitta alla alternativ upp till toppnoden
22 CYK Exempelgrammatik S NP VP VP V NP VP VP PP NP DT N NP NP PP PP P NP V äter NP flickan NP strössel N glass P med DT en Flickan äter en glass med strössel.
23 CYK Flickan äter en glass med strössel [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] [1,2] [1,3] [1,4] [1,5] [1,6] [2,3] [2,4] [2,5] [2,6] [3,4] [3,5] [3,6] [4,5] [4,6] [5,6]
24 CYK Flickan äter en glass med strössel NP [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] V [1,2] [1,3] [1,4] [1,5] [1,6] DT [2,3] [2,4] [2,5] [2,6] N [3,4] [3,5] [3,6] P [4,5] [4,6] NP [5,6]
25 CYK Flickan äter en glass med strössel NP [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] V [1,2] [1,3] [1,4] [1,5] [1,6] DT NP [2,3] [2,4] [2,5] [2,6] N [3,4] [3,5] [3,6] P PP [4,5] [4,6] NP [5,6]
26 CYK Flickan äter en glass med strössel NP S [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] V VP [1,2] [1,3] [1,4] [1,5] [1,6] DT NP NP [2,3] [2,4] [2,5] [2,6] N [3,4] [3,5] [3,6] P PP [4,5] [4,6] NP [5,6]
27 CYK Flickan äter en glass med strössel NP S [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] V VP VP [1,2] [1,3] [1,4] [1,5] [1,6] DT NP NP [2,3] [2,4] [2,5] [2,6] N [3,4] [3,5] [3,6] P PP [4,5] [4,6] NP [5,6]
28 CYK Flickan äter en glass med strössel NP S S [0,1] [0,2] [0,3] [0,4] [0,5] [0,6] V VP VP [1,2] [1,3] [1,4] [1,5] [1,6] DT NP NP [2,3] [2,4] [2,5] [2,6] N [3,4] [3,5] [3,6] P PP [4,5] [4,6] NP [5,6]
29 Earley CYK har nackdelar: begränsad grammatik följer inte lingvistisk teori använder inte top-down-information Earley-algoritmen har inte ovanstående nackdelar men är komplicerad (framför allt med sannolikheter)
30 Earley i ett steg vänster till höger Börja med startsymbolen S Skapa alla möjliga expansioner för den vänstraste icke-terminalen (predictor) Om nästa led i regeln är en terminal, matcha mot input (scanner) När regeln inte längre kan expanderas, fortsätt med nästa subträd (completer) Delprocessade regler markeras med punkt A a b
31 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S [0, 0] Predict the rule S NP VP Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
32 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 0] NP [0, 0] VP Predict the rule NP Pro Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
33 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 0] NP Pro NP Pro [0, 0] [0, 0] VP Predict the rule Pro I Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
34 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 0] NP Pro Pro I NP Pro [0, 0] [0, 0] VP I [0, 0] Scan this word Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
35 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 0] NP Pro Pro I NP Pro [0, 0] [0, 0] VP Update the dot I [0, 1] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
36 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 0] NP Pro Pro I NP Pro [0, 0] [0, 1] VP The predicted rule is complete. I [0, 1] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
37 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 1] NP Pro [0, 1] [0, 1] VP I [0, 1] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
38 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 1] NP [0, 1] VP [1, 1] Pro I [0, 1] [0, 1] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
39 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S NP VP S [0, 5] Update the dot NP [0, 1] VP [1, 5] Pro [0, 1] Verb [1, 2] NP [2, 5] I [0, 1] prefer [1, 2] Det [2, 3] Nom [3, 5] a [2, 3] Nom [3, 4] Noun [4, 5] Noun [3, 4] flight [4, 5] morning [3, 4] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
40 Earley The Earley algorithm Example run 0 I 1 prefer 2 a 3 morning 4 flight 5 S [0, 5] NP [0, 1] VP [1, 5] Pro [0, 1] Verb [1, 2] NP [2, 5] I [0, 1] prefer [1, 2] Det [2, 3] Nom [3, 5] a [2, 3] Nom [3, 4] Noun [4, 5] Noun [3, 4] flight [4, 5] morning [3, 4] Montag, 3. Dezember 12 Exempel från Marco Kuhlmann, Uppsala.
41 PCFG Probabilistic context-free grammar Varje regel får en sannolikhet Sannolikheten för regler med samma vänstersida summeras till 1 Sannolikheten för ett träd är produkten av sannolikheterna för de regler som använts Varje del i trädet pekar till de delar som det byggdes av, för att minnas hur det mest sannolika trädet såg ut
42 Dependens (Nivre) Inkrementell: från vänster till höger i ett svep Bottom-up Shift-reduce Kö ( först in först ut ) Stack ( sist in först ut ) Shift: flytta ett ord från kö till stack Reduce: Flytta ett ord från stacken
43 Dependens (Nivre) Exempel från Richard Johansson. S Q <D> Then we met the cat.
44 Dependens (Nivre) Shift S <D> Q Then we met the cat.
45 Dependens (Nivre) Shift <D> S Then Q we met the cat.
46 Dependens (Nivre) Shift <D> Then S we Q met the cat.
47 Dependens (Nivre) Arc S <D> Then Q met the cat. we
48 Dependens (Nivre) Arc S <D> Q met the cat. Then we
49 Dependens (Nivre) Arc <D> S met Q the cat. Then we
50 Dependens (Nivre) Shift S Q <D> met the cat. Then we
51 Dependens (Nivre) Arc S <D> met Q cat. Then we the
52 Dependens (Nivre) Arc <D> met S cat Q. Then we the
53 Dependens (Nivre) Reduce S <D> met Q. Then we cat the
54 Dependens (Nivre) Arc <D> met S. Q Then we cat Done! the
55 Språket är flertydigt Lexical ambiguity Structural ambiguity Attachment ambiguity Coordination ambiguity NP bracketing ambiguity
56 Attachment ambiguity Jag såg mannen med kikaren.
57 Coordination ambiguity Där dansade stora pojkar och flickor.
58 Treebank Quality Well-formedness Consistency Soundness
59 Treebank Quality Well-formedness Each token and each non-terminal node is part of a sentence-spanning tree, and has a label. Consistency The same sequence (of tokens/part-of-speechs/constituents) is annotated the same way given the same context. Soundness Conform to sound linguistic principles.
60 av parsning Frasstruktur Parseval Leaf-ancestor Dependensstruktur Attachment och accuracy
61 Parseval Beräknar precision och recall för konstituenter found correct items Precision: found items Recall: found correct items correct items Labelled parseval korrekt konstituent: dominerar samma terminaler med samma etiketter (POS och fras)
62 Leaf-ancestor Jämför lineage, icke-terminalerna från varje ord till trädets rot Använder markörer för ytterkanten på fraser Jämför med guldstandard via Levenshtein/edit distance Fungerar inte för frasträd med korsande kanter The Multilingual Forest R R P P P w 1 w 2 w 3 w 1 w 2 w 3 w 1 P ( R w 1 P ( R w 2 P ) R w 2 P R w 3 P R ) w 3 P R ) Figure 7.3: Example gold standard and automatically parsed trees and their Leaf- Ancestor lineages.
63 Dependensevaluering LAS: labelled attachment score, % ord med rätt huvud och relation UAS: unlabelled attachment score, % ord med rätt huvud LAcc: labelled accuracy score, % ord med rätt relation Kan också användas för frasstruktur, men kräver konvertering.
64 Why manual work? Accuracy of most annotation tools depend on set of labels training data language Part-of-speech tagging: accuracy normally above 95-96%. Example: HunPoS 97% accuracy when trained on SUC (Megyesi, 2009) An error in every second sentence! Parsing: accuracy varies considerably across languages Example: CoNLL shared task 2007: LAS 84-90: Catalan, Chinese, English, Italian LAS 76-80: Arabic, Basque, Czech, Greek, Hungarian, Turkish
65 Summary Trädbanker är korpusar med grammatisk Stora textmängder kräver automatiska metoder kan göras top-down eller bottom-up Några algoritmer: CYK, Earley, Nivre behövs
66 Referenser I Megyesi, B. (2009). The open source tagger HunPoS for Swedish. In Jokinen, K. and Bick, E., editors, Proceedings of the Nordic Conference on Computational Linguistics (Nodalida), volume 4 of NEALT Proceedings Series, pages , Odense, Denmark. Nivre, J. (2008). Treebanks (Article 13). In Lüdeling, A. and Kytö, M., editors, Corpus Linguistics. An International Handbook. Mouton de Gruyter. Nivre, J., de Smedt, K., and Volk, M. (2005). Treebanking in Northern Europe: A white paper. In Holmboe, H., editor, Nordisk Sprogteknologi. Årbog for Nordisk Sprogteknologisk Forskningsprogram Museum Tusculanums Forlag, Copenhagen.
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merKorpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Läs merLite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer
Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders
Läs merAutomatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merForskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merOrd, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin
Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merSri Lanka Association for Artificial Intelligence
Sri Lanka Association for Artificial Intelligence First Sinhala Chatbot in action Budditha Hettige Department of Statistics and Computer Science, Faculty of Applied Science, University of Sri Jayewardenepura,
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merParsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion
Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som
Läs merWriting with context. Att skriva med sammanhang
Writing with context Att skriva med sammanhang What makes a piece of writing easy and interesting to read? Discuss in pairs and write down one word (in English or Swedish) to express your opinion http://korta.nu/sust(answer
Läs merMorfologi och syntax. Föreläsning 1 & 2
Morfologi och syntax Föreläsning 1 & 2 Lotta Plejert Kognitionsvetenskapliga programmet, ht2012 november 2012 1 1 Språk som system Olika nivåer Text/diskurs mening sats fras ord morfem fonem text och diskurs
Läs merTDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap Syntax pragmatik semantik analys generering syntax morfologi Syntaktisk parsning Syntaktisk parsning är uppgiften
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merAnnoteringsvägledning SWE-TIGER
Institutionen för lingvistik Datorlingvistik Stockholms universitet Annoteringsvägledning SWE-TIGER TIGER-annotering av svenska i Annotate Yvonne Samuelsson Version 1.1 (Uppdaterad Juni 2007) Innehåll
Läs merSchenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås
Schenker Privpak AB Interface documentation for web service packageservices.asmx 2012-09-01 Version: 1.0.0 Doc. no.: I04304b Sida 2 av 7 Revision history Datum Version Sign. Kommentar 2012-09-01 1.0.0
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merHuvudansatser för parsningsmetoder
GU-ISS-2016-04 Huvudansatser för parsningsmetoder Om programutvecklingens förutsättningar i en svensk kontext Kenneth Wilhelmsson Forskningsrapporter från institutionen för svenska språket, Göteborgs universitet
Läs merMÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP
MÄLARDALENS HÖGSKOLA CD5560 Formella språk, automater och beräkningsteori Användarmanual för simulatorn JFLAP Innehållsförteckning Att komma igång med JFLAP... 3 Att köra en sträng... 5 Att köra flera
Läs merÖvning 3 - Tillämpad datalogi 2012
/home/lindahlm/activity-phd/teaching/12dd1320/exercise3/exercise3.py September 14, 20121 0 # coding : latin Övning 3 - Tillämpad datalogi 2012 Summering Vi gick igenom problemträd, sökning i problem träd
Läs merKontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Läs merSpråkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merFL 6: Definite Clause Grammars (kap. 7)
FL 6: Definite Clause Grammars (kap. 7) Teori Introducerar kontextfria grammatikor och några besläktade begrepp Introducerar definite clause - grammatikor, Prologs sätt att jobba med kontextfria grammatikor
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merUnit course plan English class 8C
Hanna Rüngen Wallner Unit course plan English class 8C Spring term 2018-01-11 w.2-8 forgery safe robbery burglar crime scene Mål och syfte med arbetsområdet Utveckla sin förmåga att: - kommunicera i tal
Läs merState Examinations Commission
State Examinations Commission Marking schemes published by the State Examinations Commission are not intended to be standalone documents. They are an essential resource for examiners who receive training
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merSwell code book (error taxonomy + examples)
Swell code book (error taxonomy + examples) ## Lexical codes (5) L Wrong word This error code can be used only to mark existing Swedish words that have been used in an incorrect way or context Traditioner
Läs merOmvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Läs merMeritförteckning. Joakim Nivre (hem) (arb Uppsala) (arb Växjö E-post:
Meritförteckning Joakim Nivre 2007-09-01 1 Personuppgifter Namn: Joakim Nivre Personnummer: 620821-1018 Adress: Pimpstensvägen 16 75267 Uppsala Telefon: 018-4060900 (hem) 018-4717009 (arb Uppsala) 0470-708992
Läs merModule 6: Integrals and applications
Department of Mathematics SF65 Calculus Year 5/6 Module 6: Integrals and applications Sections 6. and 6.5 and Chapter 7 in Calculus by Adams and Essex. Three lectures, two tutorials and one seminar. Important
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merAlgoritmer och datastrukturer TDA Fredrik Johansson
Algoritmer och datastrukturer TDA143 2015-02- 18 Fredrik Johansson Algoritmer Informell beskrivning E" antal steg som beskriver hur en uppgi5 görs. A set of steps that defines how a task is performed.
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs mer1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)
UMEÅ UNIVERSITY Department of Mathematics and Mathematical Statistics Pre-exam in mathematics Linear algebra 2012-02-07 1. Compute the following matrix: (2 p 3 1 2 3 2 2 7 ( 4 3 5 2 2. Compute the determinant
Läs merVAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK
VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK C2 Bild: Wikipedia C1 B2 B1 A2 Bild: Wikipedia A1 inläraren
Läs merDependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Läs merHow to format the different elements of a page in the CMS :
How to format the different elements of a page in the CMS : 1. Typing text When typing text we have 2 possible formats to start a new line: Enter - > is a simple line break. In a paragraph you simply want
Läs merTheory 1. Summer Term 2010
Theory 1 Summer Term 2010 Robert Elsässer 1 Introduction Summer Term 2010 Robert Elsässer Prerequisite of Theory I Programming language, such as C++ Basic knowledge on data structures and algorithms, mathematics
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merGrafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:
IMCDP Grafisk teknik The impact of the placed dot is fed back to the original image by a filter Original Image Binary Image Sasan Gooran (HT 2006) The next dot is placed where the modified image has its
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merLanguage Technology for the Lazy
Language Technology for the Lazy Avoiding Work by Using Statistics and Machine Learning JONAS SJÖBERGH Doctoral Thesis Stockholm, Sweden 2006 TRITA-CSC-A 2006:6 ISSN 1653-5723 ISRN KTH/CSC/A--06/06--SE
Läs merWorkplan Food. Spring term 2016 Year 7. Name:
Workplan Food Spring term 2016 Year 7 Name: During the time we work with this workplan you will also be getting some tests in English. You cannot practice for these tests. Compulsory o Read My Canadian
Läs merDesignmönster, introduktion. Vad är det? Varför skall man använda mönster?
Designmönster, introduktion. Vad är det? Varför skall man använda mönster? Kent Petersson EMW, Mölndal Datavetenskap, Chalmers epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL: http://www.cs.chalmers.se/~kentp
Läs merSvårigheter med kurslitteraturen
Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merCalculate check digits according to the modulus-11 method
2016-12-01 Beräkning av kontrollsiffra 11-modulen Calculate check digits according to the modulus-11 method Postadress: 105 19 Stockholm Besöksadress: Palmfeltsvägen 5 www.bankgirot.se Bankgironr: 160-9908
Läs merTentamen i Matematik 2: M0030M.
Tentamen i Matematik 2: M0030M. Datum: 203-0-5 Skrivtid: 09:00 4:00 Antal uppgifter: 2 ( 30 poäng ). Examinator: Norbert Euler Tel: 0920-492878 Tillåtna hjälpmedel: Inga Betygsgränser: 4p 9p = 3; 20p 24p
Läs merSolutions to exam in SF1811 Optimization, June 3, 2014
Solutions to exam in SF1811 Optimization, June 3, 14 1.(a) The considered problem may be modelled as a minimum-cost network flow problem with six nodes F1, F, K1, K, K3, K4, here called 1,,3,4,5,6, and
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merSmåprat Small talk (stressed vowels are underlined)
Småprat Small talk (stressed vowels are underlined) Vad heter du? Varifrån kommer du? Vad har du för modersmål (1 st language)? Vad studerar du? Var bor du? Hur gammal är du? Cyklar du till universitetet?
Läs mer1. Förpackningsmaskin / Packaging machine
1. örpackningsmaskin / Packaging machine venska: En förpackningsmaskin ser ut enligt nedanstående skiss. Den inkommande tuben matas fram med motorn. otorn går så länge som dess styrsignal är sann. Om tuben
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merUtrymningshissar och utrymningsplatser utifrån de utrymmandes perspektiv. kristin andrée
Utrymningshissar och utrymningsplatser utifrån de utrymmandes perspektiv kristin andrée institutionen för bygg- och miljöteknologi LundS UNIVERSITET Utrymningshissar och utrymningsplatser utifrån de utrymmandes
Läs merAbstract. Pettersson, Karin, 2005: Kön och auktoritet i expertintervjuer. TeFa nr 43. Uppsala universitet. Uppsala.
Abstract Pettersson, Karin, 2005: Kön och auktoritet i expertintervjuer. TeFa nr 43. Uppsala universitet. Uppsala. Gender and authority in expert interviews. This study explores gender variation in radio
Läs merMatematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013
UPPSALA UNIVERSITET Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 Författare: Marco Kuhlmann 2013 4 Grafer En graf är en struktur av prickar förbundna med streck.
Läs merNedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Läs merReguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm
Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck
Läs merMake a speech. How to make the perfect speech. söndag 6 oktober 13
Make a speech How to make the perfect speech FOPPA FOPPA Finding FOPPA Finding Organizing FOPPA Finding Organizing Phrasing FOPPA Finding Organizing Phrasing Preparing FOPPA Finding Organizing Phrasing
Läs merVägar till bättre översättningsprogram
Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merLektion 3. Anteckningar
Lektion 3 Anteckningar Fraser: Tid Klockan Uttal (pronunciation) Långa och korta ljud + melodi Grammatik: Word order + Basics of the clause elements Vi lär oss klockan! Halv Kvart i, kvart över Tjugo i,
Läs merTentamen MMG610 Diskret Matematik, GU
Tentamen MMG610 Diskret Matematik, GU 2017-01-04 kl. 08.30 12.30 Examinator: Peter Hegarty, Matematiska vetenskaper, Chalmers/GU Telefonvakt: Peter Hegarty, telefon: 0766 377 873 Hjälpmedel: Inga hjälpmedel,
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merRECORDED BOOKS PRESENTS PIMSLEUR LANGUAGE PROGRAMS SWEDISH SUPPLEMENTAL READING BOOKLET
RECORDED BOOKS PRESENTS PIMSLEUR LANGUAGE PROGRAMS SWEDISH SUPPLEMENTAL READING BOOKLET TABLE OF CONTENTS Reading Lessons Introduction............................ 2 Unit 2................................
Läs merBeijer Electronics AB 2000, MA00336A, 2000-12
Demonstration driver English Svenska Beijer Electronics AB 2000, MA00336A, 2000-12 Beijer Electronics AB reserves the right to change information in this manual without prior notice. All examples in this
Läs mer