Partiell parsning Parsning som sökning
|
|
- Monica Sundström
- för 7 år sedan
- Visningar:
Transkript
1 Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater med TBL Parsning är en process som innebär att känna igen en sträng i enlighet med en specifikation och tilldela den en eller flera analyser. För kontextfri grammatik specifikation = grammatikens regler analys = trädstruktur En sträng som inte kan kännas igen, får ingen analys alls. Språkteknologi (Lars Ahrenberg) 1 Språkteknologi (Lars Ahrenberg) 2 Partiell parsning Parsning som sökning Partiell parsning innebär att en mening analyseras med avseende på vissa aspekter, t.ex. förekomsten av vissa fraser. Partiell parsning kräver inte att indatasträngen känns igen som en helhet. Partiell parsning kan vara mer robust, men är samtidigt ofta ofullständig. Grammatiken definierar en sökrymd av träd. Parsning kan ses som sökning efter de träd som har samma terminaler som indatasträngen. Effektivitet i parsningen innebär att hitta dessa träd med så lite tids- och minnesåtgång som möjligt. Språkteknologi (Lars Ahrenberg) 3 Språkteknologi (Lars Ahrenberg) 4 Parsningsbegrepp Parsningsbegrepp Top-Down parsningen är hypotesdriven - utgår från vad vi vill hitta (S) Bottom-Up parsningen är datadriven - utgår från orden i indatasträngen. Bredden först (Breadth-First) alternativa omskrivningar hanteras i klump; Djupet först (Depth-First) en alternativ omskrivning fullföljs, medan övriga sparas undan för att prövas senare; om en omskrivning misslyckas går man tillbaka till dem som sparats undan ( back-tracking ) Språkteknologi (Lars Ahrenberg) 5 Språkteknologi (Lars Ahrenberg) 6
2 En enkel kontextfri grammatik Top-Down prediktion S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett,... NP Språkteknologi (Lars Ahrenberg) 7 S VP N V NP bollen träffade Det A N Generera hypoteser utifrån grammatiken: ingångshypotes: S prediktion: NP VP prediktion: N pröva att matcha mot en [0,1] - misslyckas! prediktion: Det N pröva att matcha mot en [0,1] lyckas! prediktion: N pröva att matcha mot liten [1,2] - misslyckas! prediktion: Det A N... Språkteknologi (Lars Ahrenberg) 8 Praktiska parsningsproblem för CFG Trädbaserad sökning innebär att samma delsträng ofta kommer att parsas om och om igen med samma resultat; Vänsterrekursiva regler riskerar att sätta parsern i en oändlig loop (Ex: VP VP PP); Lösning: håll reda på alla hypoteser som genererats och ev. lyckade matchningar. punkterad regel chart Chartparsning Chart En array över ordpositioner, där varje ordposition innehåller ett antal tillstånd, states eller bågar. Chart[0] Chart[1] Chart[2] Chart[3] Språkteknologi (Lars Ahrenberg) 9 Språkteknologi (Lars Ahrenberg) 10 Tillstånd / Bågar Punkterade regler En helt eller delvis uppfylld hypotes om en konstituent. Exempel: NP Det N [0,0] NP Det N [0,1] NP Det N [0,2] En punkterad regel representerar en hypotes, Punktens position anger i vilken grad hypotesen verifierats Exempel: NP Det N Inte verifierad i någon del NP Det N Verifierad med avseende på Det NP Det N Fullständigt verifierad Punkterade regler Positioner Språkteknologi (Lars Ahrenberg) 11 Språkteknologi (Lars Ahrenberg) 12
3 Bågmetaforen Chartens funktion Regel: NP D A N NP. D A N [0,0] inaktiva bågar D en. [0,1] NP D. A N [0,1] Att separera trädkonstruktion från igenkänning av konstituenter Att förhindra upprepad parsning av samma delsträng med samma resultat Att förhindra upprepad ansättning av samma hypotes i samma punkt aktiva bågar Språkteknologi (Lars Ahrenberg) 13 Språkteknologi (Lars Ahrenberg) 14 Predicering top-down Ett tillstånd <A x B y, [n,m]> genererar ett nytt tillstånd <B z, [m,m]> för varje regel i grammatiken på formen B z, (med z, x, y godtyckliga strängar av terminala och icketerminala symboler, B icke-terminal symbol) Ordläsning top-down ( scanning ) Givet ett tillstånd <A x C y, [n,m]> där C är en ordklass (preterminal kategori) och att C w finns i lexikonet för nästa ord w, lägg till i chart[m+1]: < C w [m,m+1]> Språkteknologi (Lars Ahrenberg) 15 Språkteknologi (Lars Ahrenberg) 16 Predicering top-down Completion / Kombinering S NP. VP [0,2] VP. V [2,2] VP. V NP [2,2] S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett,... Språkteknologi (Lars Ahrenberg) 17 När en hypotes verifierats fullständigt, t.ex. <B x, [n,m]>, lägg för varje tillstånd <A z B, [k,n]> i chart[n] till ett tillstånd vid chart[m] <A z B, [k,m]> Språkteknologi (Lars Ahrenberg) 18
4 Kombinering - exempel Partiell parsning (eng. chunking) S NP. VP [0,2] VP V. [2,3] S NP VP. [0,3] Chunkning innebär att identifiera (korta, icke-rekursiva) fraser (eng. chunks) i löpande text. Exempel 1: ART A* N? N, 2: VFIN ADV* VINF* Regeringens utredare Cecilia Renfors har presenterat en rad förslag för att bromsa den illegala fildelningen. Det som omedelbart väckte het debatt var förslaget att internetoperatörerna skulle få ett större ansvar för att stoppa de som fildelar i större omfattning. Operatörerna får enligt förslaget både rätt och skyldighet att säga upp abonnemanget om de misstänker att kunden flera gånger har använt nätet för att göra intrång i upphovsrätten genom att ladda ner filmer och musik. Den operatör som inte vidtar åtgärder ska kunna dömas till vite av domstol, enligt förslaget. Språkteknologi (Lars Ahrenberg) 19 Språkteknologi (Lars Ahrenberg) 20 Analys i kaskader (eller steg) Sekvensiell representation av fraser om den illegala fildelningen. Ordklasstaggare om/prep den/art illegala/adj fildelningen/n./fe Chunker 1 om/prep [den/art illegala/adj fildelningen/n]/np./fe/o... Chunker 2 Språkteknologi (Lars Ahrenberg) 21 B_NP: ord som inleder ( begins ) en nominalfras (NP) I_NP: ord som är internt i en nominalfras O: ord som inte tillhör någan chunk ( outside ) Nominalfraser svarar mot taggsekvensen B_NP I_NP* Exempel [ den illegala fildelningen ] den/b_np illegala/i_np fildelningen/i_np Språkteknologi (Lars Ahrenberg) 22 Partiell parsning med TBL Mäta prestanda för partiell parsning Märk upp en korpus med fraser, eller hämta från en trädbank. Trädbank = korpus med syntaktiskt analyserade meningar Generera ett lexikon från korpusen med, förutom ordklasser, också BIO-taggar och frekvenser Skapa ett facit (från korpusen) Bestäm ett regelformat och en initial taggning mest frekventa tagg för varje ord, eller default (O) Träna TBL-systemet som för ordklasser Precision = (antal korrekta föreslagna chunkar) / (antal föreslagna chunkar) Recall = (antal korrekta föreslagna chunkar) / (antal chunkar i facit) F-mått = 2PR/(P+R) Språkteknologi (Lars Ahrenberg) 23 Språkteknologi (Lars Ahrenberg) 24
5 Namnigenkänning Exempel: agentreferenser Namnigenkänning (eng. Named entity recognition, NER) innebär att identifiera fraser i löpande text som står för något av en viss semantisk kategori. Namnigenkänning är en central komponent i informationsutvinning (eng. Information extraction, IE) Exempel på tillämpningsdomäner för IE: olycksrapportering, brottsrapportering, näringslivshändelser, skilja citering från plagiering,... Regeringens utredare Cecilia Renfors har presenterat en rad förslag för att bromsa den illegala fildelningen. Det som omedelbart väckte het debatt var förslaget att internetoperatörerna skulle få ett större ansvar för att stoppa de som fildelar i större omfattning. Operatörerna får enligt förslaget både rätt och skyldighet att säga upp abonnemanget om de misstänker att kunden flera gånger har använt nätet för att göra intrång i upphovsrätten genom att ladda ner filmer och musik. Den operatör som inte vidtar åtgärder ska kunna dömas till vite av domstol, enligt förslaget. Språkteknologi (Lars Ahrenberg) 25 Språkteknologi (Lars Ahrenberg) 26 Namnigenkänning med TBL Märk upp relevanta namnuttryck i en korpus utredare/b_person Cecilia/I_Person Renfors/I_Person Generera lexikon från korpusen med BIO-taggar och frekvenser Skapa ett facit (från korpusen) Bestäm ett regelformat och en initial taggning mest frekventa tagg för varje ord, eller default Träna ett TBL-system som för ordklasser Språkteknologi (Lars Ahrenberg) 27
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merLite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer
Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merParsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion
Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merMatematik för språkteknologer
1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merSpråkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer
Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merKontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Läs merAutomatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Läs merSpråkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Läs merMarco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Läs merOrd, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin
Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merReguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm
Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merFL 6: Definite Clause Grammars (kap. 7)
FL 6: Definite Clause Grammars (kap. 7) Teori Introducerar kontextfria grammatikor och några besläktade begrepp Introducerar definite clause - grammatikor, Prologs sätt att jobba med kontextfria grammatikor
Läs merParsning I. Disposition. Parsning användingsområden. Vad menas med parsning inom språkteknologin? Top-down parsning. Parsning som sökning
Parsning I Disposition Ola Knutsson knutsson@nada.kth.se Del 1: Traditionell parsning och parsningsteknik Del 2: Alternativa metoder och synsätt Språkteknologi 2D1418 HT 2001 Parsning användingsområden
Läs merDjupstruktur och ytstruktur
Djupstruktur och ytstruktur En gammal man bodde på vinden. På vinden bodde en gammal man. Chomsky 1965 baskomponent transformationskomponent Föregångare till UCP Augmented Transition Network (Woods 1970)
Läs mer1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -
- 1-1 Inledning 1.1 Programförklaring Detta kompendium är utvecklat för en introduktionskurs i datalingvistik som vänder sig till studenter med tidigare kännedom om grundläggande lingvistik och datavetenskap.
Läs merParsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap
Parsning TDP007 Konstruktion av datorspråk Föreläsning 6 Peter Dalenius Institutionen för datavetenskap 2017-02-14 2 Analys av källkod Lexikalisk analys Bildar tokensutifrån källkodens text. Syntaktisk
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merMycket kortfattade lösningsförslag till tenta i AI 6 nov 2003
2003-12-02 Institutionen för datavetenskap Arne Jönsson/* Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 1. Förklara de olika egenskaper en omgivning kan ha och ge exempel på en omgivning
Läs merDD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin
DD1361 Programmeringsparadigm Formella Språk & Syntaxanalys Föreläsning 3 Per Austrin 2015-11-13 Huvudkoncept hittils: Snabb repetition Formellt språk en mängd strängar Reguljära språk den klass av formella
Läs merHuvudansatser för parsningsmetoder
GU-ISS-2016-04 Huvudansatser för parsningsmetoder Om programutvecklingens förutsättningar i en svensk kontext Kenneth Wilhelmsson Forskningsrapporter från institutionen för svenska språket, Göteborgs universitet
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merTvå-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Läs merTDDD02 Föreläsning 6 HT-2013
TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system
Läs merb) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.
Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet
Läs merSpråkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merTDDD02 Föreläsning 5 HT-2013
TDDD02 Föreläsning 5 HT-2013 Informationsutvinning Lars Ahrenberg Litteratur: H. Cunningham: Information Extraction, Automatic Översikt Informationsutvinning (IE) Definition och jämförelser Något om semantik
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merDD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin
DD1361 Programmeringsparadigm Formella Språk & Syntaxanalys Föreläsning 4 Per Austrin 2015-11-20 Idag Rekursiv medåkning, fortsättning Olika klasser av språk och grammatiker Parsergeneratorer Sammanfattning
Läs merUtdrag ur anförande från KLYS vid Filmallians Sveriges seminarium om illegal fildelning den 28 april:
Utdrag ur anförande från KLYS vid Filmallians Sveriges seminarium om illegal fildelning den 28 april: KLYS är en samarbetsorganisation för olika konstnärsgrupper som författare, bildkonstnärer, tonsättare,
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merTuringmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt
Läs merFöreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står
Läs merJohan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merProgrammering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater
Programmering för språkteknologer II OH-serie: ändliga automater reguljära uttryck i Java Mats Dahllöf Ändliga automater Abstrakt maskin, tillståndsmaskin, transitionssystem. (Den enklaste typ man brukar
Läs merGrundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Läs merGrundläggande datalogi - Övning 9
Grundläggande datalogi - Övning 9 Björn Terelius January 30, 2009 Ett formellt språk är en (oftast oändlig) mängd strängar. Språket definieras av en syntax som är en samling regler för hur man får bilda
Läs merLINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merNeurolingvistik - Grammatik
Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
Läs meri=1 c i = B och c i = a i eller c i = b i för 1 i n. Beskriv och analysera en algoritm som löser detta problem med hjälp av dynamisk programmering.
Algoritmer och Komplexitet ht 8 Övning 3+4 Giriga algoritmer och Dynamisk programmering Längsta gemensamma delsträng Strängarna ALGORITM och PLÅGORIS har den gemensamma delsträngen GORI Denlängsta gemensamma
Läs merSpråkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades
Läs merGrundläggande logik och modellteori
Grundläggande logik och modellteori Kapitel 6: Binära beslutsdiagram (BDD) Henrik Björklund Umeå universitet 22. september, 2014 Binära beslutsdiagram Binära beslutsdiagram (Binary decision diagrams, BDDs)
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merDe som (som) vi använder
De som (som) vi använder En korpusstudie av optionellt som i svenska objektsrelativsatser Henriette Matz Institutionen för lingvistik C-uppsats 15 hp Allmän språkvetenskap Kandidatuppsats i lingvistik
Läs merIdag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merLinköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson
Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merInformationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
Läs merDAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Läs merKunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.
Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på
Läs merBilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar
Läs merPROV I MATEMATIK Automatateori och formella språk DV1 4p
UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA
Läs merHKGBB0, Artificiell intelligens
HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merFöreläsningsanteckningar F6
Föreläsningsanteckningar F6 Martin Andersson & Patrik Falkman Kortaste vägen mellan en nod och alla andra noder Detta problem innebär att givet en graf G = (E,V) hitta den kortaste vägen över E från en
Läs merProjektdokumentation för Othello
Projektdokumentation för Gustav Fransson Nyvell gusfr229@student.liu.se Tomas Franzén tomfr819@student.liu.se 1. Inledning Vi har gjort ett -spel som går ut på att man turas om att lägga brickor på en
Läs merInlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merTDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap Syntax pragmatik semantik analys generering syntax morfologi Syntaktisk parsning Syntaktisk parsning är uppgiften
Läs merFöreläsning 2 5/6/08. Reguljära uttryck 1. Reguljära uttryck. Konkatenering och Kleene star. Några operationer på språk
Reguljära uttryck Ändliga automater och reguljära uttryck Språk som är och inte är reguljära Konkatenering och Kleene star Två strängar u och v (på alfabetet )kan konkateneras till strängen uv Givet två
Läs merInledning. Nya strategier inriktade på olika typer av mellanhänder som möjliggör kommunikation över internet
Presentation Generellt om upphovsrätten, internet och mellanhänders ansvar i Sverige The Pirate Bay-målet år 2010 Black Internet-målet år 2012 Bredbandsbolaget-målet pågående Särskild talan om förverkande
Läs merkind spelling Scanning
sats terminal Kompilatorteknik 2015 källprogram! Exempel program let var v : integer; const t ~ 3 in v := v + t kind spelling Scanning LET let föreläsningsfilmer Scannerns eller den lexikala analysatorns
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merTrädstrukturer och grafer
Översikt Trädstrukturer och grafer Trädstrukturer Grundbegrepp Binära träd Sökning i träd Grafer Sökning i grafer Programmering tillämpningar och datastrukturer Varför olika datastrukturer? Olika datastrukturer
Läs merTDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
Läs merString [] argv. Dagens Agenda. Mer om arrayer. Mer om arrayer forts. String [] argv. argv är variabelnamnet. Arrayer och Strängar fortsättning
Dagens Agenda String [] argv String [] argv Arrayer och Strängar fortsättning Booleska operatorer if, for, while satser Introduktion till algoritmer public static void main(string [] argv) argv är variabelnamnet
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merIntroduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merOBS! Läraren skall inte ta ställning, försök vara objektiv och hjälp eleverna att själva hitta sin ståndpunkt.
i Lektionshandledning #177 Tema: Rätt eller fel med illegal nedladdning Ämne: Datorkunskap, SO Rekommenderad årskurs: 7-9, Gymn. Lektionslängd: 60 min Värdegrund på nätet 1/5 Material och förberedelser:
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs mer