Partiell parsning Parsning som sökning
|
|
- Monica Sundström
- för 8 år sedan
- Visningar:
Transkript
1 Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater med TBL Parsning är en process som innebär att känna igen en sträng i enlighet med en specifikation och tilldela den en eller flera analyser. För kontextfri grammatik specifikation = grammatikens regler analys = trädstruktur En sträng som inte kan kännas igen, får ingen analys alls. Språkteknologi (Lars Ahrenberg) 1 Språkteknologi (Lars Ahrenberg) 2 Partiell parsning Parsning som sökning Partiell parsning innebär att en mening analyseras med avseende på vissa aspekter, t.ex. förekomsten av vissa fraser. Partiell parsning kräver inte att indatasträngen känns igen som en helhet. Partiell parsning kan vara mer robust, men är samtidigt ofta ofullständig. Grammatiken definierar en sökrymd av träd. Parsning kan ses som sökning efter de träd som har samma terminaler som indatasträngen. Effektivitet i parsningen innebär att hitta dessa träd med så lite tids- och minnesåtgång som möjligt. Språkteknologi (Lars Ahrenberg) 3 Språkteknologi (Lars Ahrenberg) 4 Parsningsbegrepp Parsningsbegrepp Top-Down parsningen är hypotesdriven - utgår från vad vi vill hitta (S) Bottom-Up parsningen är datadriven - utgår från orden i indatasträngen. Bredden först (Breadth-First) alternativa omskrivningar hanteras i klump; Djupet först (Depth-First) en alternativ omskrivning fullföljs, medan övriga sparas undan för att prövas senare; om en omskrivning misslyckas går man tillbaka till dem som sparats undan ( back-tracking ) Språkteknologi (Lars Ahrenberg) 5 Språkteknologi (Lars Ahrenberg) 6
2 En enkel kontextfri grammatik Top-Down prediktion S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett,... NP Språkteknologi (Lars Ahrenberg) 7 S VP N V NP bollen träffade Det A N Generera hypoteser utifrån grammatiken: ingångshypotes: S prediktion: NP VP prediktion: N pröva att matcha mot en [0,1] - misslyckas! prediktion: Det N pröva att matcha mot en [0,1] lyckas! prediktion: N pröva att matcha mot liten [1,2] - misslyckas! prediktion: Det A N... Språkteknologi (Lars Ahrenberg) 8 Praktiska parsningsproblem för CFG Trädbaserad sökning innebär att samma delsträng ofta kommer att parsas om och om igen med samma resultat; Vänsterrekursiva regler riskerar att sätta parsern i en oändlig loop (Ex: VP VP PP); Lösning: håll reda på alla hypoteser som genererats och ev. lyckade matchningar. punkterad regel chart Chartparsning Chart En array över ordpositioner, där varje ordposition innehåller ett antal tillstånd, states eller bågar. Chart[0] Chart[1] Chart[2] Chart[3] Språkteknologi (Lars Ahrenberg) 9 Språkteknologi (Lars Ahrenberg) 10 Tillstånd / Bågar Punkterade regler En helt eller delvis uppfylld hypotes om en konstituent. Exempel: NP Det N [0,0] NP Det N [0,1] NP Det N [0,2] En punkterad regel representerar en hypotes, Punktens position anger i vilken grad hypotesen verifierats Exempel: NP Det N Inte verifierad i någon del NP Det N Verifierad med avseende på Det NP Det N Fullständigt verifierad Punkterade regler Positioner Språkteknologi (Lars Ahrenberg) 11 Språkteknologi (Lars Ahrenberg) 12
3 Bågmetaforen Chartens funktion Regel: NP D A N NP. D A N [0,0] inaktiva bågar D en. [0,1] NP D. A N [0,1] Att separera trädkonstruktion från igenkänning av konstituenter Att förhindra upprepad parsning av samma delsträng med samma resultat Att förhindra upprepad ansättning av samma hypotes i samma punkt aktiva bågar Språkteknologi (Lars Ahrenberg) 13 Språkteknologi (Lars Ahrenberg) 14 Predicering top-down Ett tillstånd <A x B y, [n,m]> genererar ett nytt tillstånd <B z, [m,m]> för varje regel i grammatiken på formen B z, (med z, x, y godtyckliga strängar av terminala och icketerminala symboler, B icke-terminal symbol) Ordläsning top-down ( scanning ) Givet ett tillstånd <A x C y, [n,m]> där C är en ordklass (preterminal kategori) och att C w finns i lexikonet för nästa ord w, lägg till i chart[m+1]: < C w [m,m+1]> Språkteknologi (Lars Ahrenberg) 15 Språkteknologi (Lars Ahrenberg) 16 Predicering top-down Completion / Kombinering S NP. VP [0,2] VP. V [2,2] VP. V NP [2,2] S NP VP NP N NP Det N NP Det A N VP V VP V NP N bollen, hund, V träffade, är, A liten, ful, Det en, ett,... Språkteknologi (Lars Ahrenberg) 17 När en hypotes verifierats fullständigt, t.ex. <B x, [n,m]>, lägg för varje tillstånd <A z B, [k,n]> i chart[n] till ett tillstånd vid chart[m] <A z B, [k,m]> Språkteknologi (Lars Ahrenberg) 18
4 Kombinering - exempel Partiell parsning (eng. chunking) S NP. VP [0,2] VP V. [2,3] S NP VP. [0,3] Chunkning innebär att identifiera (korta, icke-rekursiva) fraser (eng. chunks) i löpande text. Exempel 1: ART A* N? N, 2: VFIN ADV* VINF* Regeringens utredare Cecilia Renfors har presenterat en rad förslag för att bromsa den illegala fildelningen. Det som omedelbart väckte het debatt var förslaget att internetoperatörerna skulle få ett större ansvar för att stoppa de som fildelar i större omfattning. Operatörerna får enligt förslaget både rätt och skyldighet att säga upp abonnemanget om de misstänker att kunden flera gånger har använt nätet för att göra intrång i upphovsrätten genom att ladda ner filmer och musik. Den operatör som inte vidtar åtgärder ska kunna dömas till vite av domstol, enligt förslaget. Språkteknologi (Lars Ahrenberg) 19 Språkteknologi (Lars Ahrenberg) 20 Analys i kaskader (eller steg) Sekvensiell representation av fraser om den illegala fildelningen. Ordklasstaggare om/prep den/art illegala/adj fildelningen/n./fe Chunker 1 om/prep [den/art illegala/adj fildelningen/n]/np./fe/o... Chunker 2 Språkteknologi (Lars Ahrenberg) 21 B_NP: ord som inleder ( begins ) en nominalfras (NP) I_NP: ord som är internt i en nominalfras O: ord som inte tillhör någan chunk ( outside ) Nominalfraser svarar mot taggsekvensen B_NP I_NP* Exempel [ den illegala fildelningen ] den/b_np illegala/i_np fildelningen/i_np Språkteknologi (Lars Ahrenberg) 22 Partiell parsning med TBL Mäta prestanda för partiell parsning Märk upp en korpus med fraser, eller hämta från en trädbank. Trädbank = korpus med syntaktiskt analyserade meningar Generera ett lexikon från korpusen med, förutom ordklasser, också BIO-taggar och frekvenser Skapa ett facit (från korpusen) Bestäm ett regelformat och en initial taggning mest frekventa tagg för varje ord, eller default (O) Träna TBL-systemet som för ordklasser Precision = (antal korrekta föreslagna chunkar) / (antal föreslagna chunkar) Recall = (antal korrekta föreslagna chunkar) / (antal chunkar i facit) F-mått = 2PR/(P+R) Språkteknologi (Lars Ahrenberg) 23 Språkteknologi (Lars Ahrenberg) 24
5 Namnigenkänning Exempel: agentreferenser Namnigenkänning (eng. Named entity recognition, NER) innebär att identifiera fraser i löpande text som står för något av en viss semantisk kategori. Namnigenkänning är en central komponent i informationsutvinning (eng. Information extraction, IE) Exempel på tillämpningsdomäner för IE: olycksrapportering, brottsrapportering, näringslivshändelser, skilja citering från plagiering,... Regeringens utredare Cecilia Renfors har presenterat en rad förslag för att bromsa den illegala fildelningen. Det som omedelbart väckte het debatt var förslaget att internetoperatörerna skulle få ett större ansvar för att stoppa de som fildelar i större omfattning. Operatörerna får enligt förslaget både rätt och skyldighet att säga upp abonnemanget om de misstänker att kunden flera gånger har använt nätet för att göra intrång i upphovsrätten genom att ladda ner filmer och musik. Den operatör som inte vidtar åtgärder ska kunna dömas till vite av domstol, enligt förslaget. Språkteknologi (Lars Ahrenberg) 25 Språkteknologi (Lars Ahrenberg) 26 Namnigenkänning med TBL Märk upp relevanta namnuttryck i en korpus utredare/b_person Cecilia/I_Person Renfors/I_Person Generera lexikon från korpusen med BIO-taggar och frekvenser Skapa ett facit (från korpusen) Bestäm ett regelformat och en initial taggning mest frekventa tagg för varje ord, eller default Träna ett TBL-system som för ordklasser Språkteknologi (Lars Ahrenberg) 27
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Datorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer
Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion
Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Matematik för språkteknologer
1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan
Tentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Språkteknologi vt09. Diskursmodellering. Diskursmodell: exempel. Koherensrelationer. Koreferens. Att bestämma koherensrelationer
Språkteknologi vt09 Diskursmodellering Diskursmodellering koherensrelationer anaforisk referens Informationsutvinning Mallar Delproblem Namnigenkänning Referensresolution Mallifyllning / Relationsigenkänning
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Kontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Språkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin
Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm
Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
FL 6: Definite Clause Grammars (kap. 7)
FL 6: Definite Clause Grammars (kap. 7) Teori Introducerar kontextfria grammatikor och några besläktade begrepp Introducerar definite clause - grammatikor, Prologs sätt att jobba med kontextfria grammatikor
Parsning I. Disposition. Parsning användingsområden. Vad menas med parsning inom språkteknologin? Top-down parsning. Parsning som sökning
Parsning I Disposition Ola Knutsson knutsson@nada.kth.se Del 1: Traditionell parsning och parsningsteknik Del 2: Alternativa metoder och synsätt Språkteknologi 2D1418 HT 2001 Parsning användingsområden
Djupstruktur och ytstruktur
Djupstruktur och ytstruktur En gammal man bodde på vinden. På vinden bodde en gammal man. Chomsky 1965 baskomponent transformationskomponent Föregångare till UCP Augmented Transition Network (Woods 1970)
1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -
- 1-1 Inledning 1.1 Programförklaring Detta kompendium är utvecklat för en introduktionskurs i datalingvistik som vänder sig till studenter med tidigare kännedom om grundläggande lingvistik och datavetenskap.
Parsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap
Parsning TDP007 Konstruktion av datorspråk Föreläsning 6 Peter Dalenius Institutionen för datavetenskap 2017-02-14 2 Analys av källkod Lexikalisk analys Bildar tokensutifrån källkodens text. Syntaktisk
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Språkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003
2003-12-02 Institutionen för datavetenskap Arne Jönsson/* Mycket kortfattade lösningsförslag till tenta i AI 6 nov 2003 1. Förklara de olika egenskaper en omgivning kan ha och ge exempel på en omgivning
DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin
DD1361 Programmeringsparadigm Formella Språk & Syntaxanalys Föreläsning 3 Per Austrin 2015-11-13 Huvudkoncept hittils: Snabb repetition Formellt språk en mängd strängar Reguljära språk den klass av formella
Huvudansatser för parsningsmetoder
GU-ISS-2016-04 Huvudansatser för parsningsmetoder Om programutvecklingens förutsättningar i en svensk kontext Kenneth Wilhelmsson Forskningsrapporter från institutionen för svenska språket, Göteborgs universitet
Frasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
TDDD02 Föreläsning 6 HT-2013
TDDD02 Föreläsning 6 HT-2013 QA: Frågebesvarande system Lars Ahrenberg Litteratur: Brill m.fl. An Analysis of the AskMSR QA system Översikt Definition och exempel Utvärdering Standardkomponenter i QA-system
b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.
Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
TDDD02 Föreläsning 5 HT-2013
TDDD02 Föreläsning 5 HT-2013 Informationsutvinning Lars Ahrenberg Litteratur: H. Cunningham: Information Extraction, Automatic Översikt Informationsutvinning (IE) Definition och jämförelser Något om semantik
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin
DD1361 Programmeringsparadigm Formella Språk & Syntaxanalys Föreläsning 4 Per Austrin 2015-11-20 Idag Rekursiv medåkning, fortsättning Olika klasser av språk och grammatiker Parsergeneratorer Sammanfattning
Utdrag ur anförande från KLYS vid Filmallians Sveriges seminarium om illegal fildelning den 28 april:
Utdrag ur anförande från KLYS vid Filmallians Sveriges seminarium om illegal fildelning den 28 april: KLYS är en samarbetsorganisation för olika konstnärsgrupper som författare, bildkonstnärer, tonsättare,
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt
Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står
Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater
Programmering för språkteknologer II OH-serie: ändliga automater reguljära uttryck i Java Mats Dahllöf Ändliga automater Abstrakt maskin, tillståndsmaskin, transitionssystem. (Den enklaste typ man brukar
Grundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Grundläggande datalogi - Övning 9
Grundläggande datalogi - Övning 9 Björn Terelius January 30, 2009 Ett formellt språk är en (oftast oändlig) mängd strängar. Språket definieras av en syntax som är en samling regler för hur man får bilda
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...
Föreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Neurolingvistik - Grammatik
Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
i=1 c i = B och c i = a i eller c i = b i för 1 i n. Beskriv och analysera en algoritm som löser detta problem med hjälp av dynamisk programmering.
Algoritmer och Komplexitet ht 8 Övning 3+4 Giriga algoritmer och Dynamisk programmering Längsta gemensamma delsträng Strängarna ALGORITM och PLÅGORIS har den gemensamma delsträngen GORI Denlängsta gemensamma
Språkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades
Grundläggande logik och modellteori
Grundläggande logik och modellteori Kapitel 6: Binära beslutsdiagram (BDD) Henrik Björklund Umeå universitet 22. september, 2014 Binära beslutsdiagram Binära beslutsdiagram (Binary decision diagrams, BDDs)
Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
De som (som) vi använder
De som (som) vi använder En korpusstudie av optionellt som i svenska objektsrelativsatser Henriette Matz Institutionen för lingvistik C-uppsats 15 hp Allmän språkvetenskap Kandidatuppsats i lingvistik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =
Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Datorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Grammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson
Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
DAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.
Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på
Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar
PROV I MATEMATIK Automatateori och formella språk DV1 4p
UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA
HKGBB0, Artificiell intelligens
HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Föreläsningsanteckningar F6
Föreläsningsanteckningar F6 Martin Andersson & Patrik Falkman Kortaste vägen mellan en nod och alla andra noder Detta problem innebär att givet en graf G = (E,V) hitta den kortaste vägen över E från en
Projektdokumentation för Othello
Projektdokumentation för Gustav Fransson Nyvell gusfr229@student.liu.se Tomas Franzén tomfr819@student.liu.se 1. Inledning Vi har gjort ett -spel som går ut på att man turas om att lägga brickor på en
Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Ord och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap Syntax pragmatik semantik analys generering syntax morfologi Syntaktisk parsning Syntaktisk parsning är uppgiften
Föreläsning 2 5/6/08. Reguljära uttryck 1. Reguljära uttryck. Konkatenering och Kleene star. Några operationer på språk
Reguljära uttryck Ändliga automater och reguljära uttryck Språk som är och inte är reguljära Konkatenering och Kleene star Två strängar u och v (på alfabetet )kan konkateneras till strängen uv Givet två
Inledning. Nya strategier inriktade på olika typer av mellanhänder som möjliggör kommunikation över internet
Presentation Generellt om upphovsrätten, internet och mellanhänders ansvar i Sverige The Pirate Bay-målet år 2010 Black Internet-målet år 2012 Bredbandsbolaget-målet pågående Särskild talan om förverkande
kind spelling Scanning
sats terminal Kompilatorteknik 2015 källprogram! Exempel program let var v : integer; const t ~ 3 in v := v + t kind spelling Scanning LET let föreläsningsfilmer Scannerns eller den lexikala analysatorns
MÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Trädstrukturer och grafer
Översikt Trädstrukturer och grafer Trädstrukturer Grundbegrepp Binära träd Sökning i träd Grafer Sökning i grafer Programmering tillämpningar och datastrukturer Varför olika datastrukturer? Olika datastrukturer
TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
String [] argv. Dagens Agenda. Mer om arrayer. Mer om arrayer forts. String [] argv. argv är variabelnamnet. Arrayer och Strängar fortsättning
Dagens Agenda String [] argv String [] argv Arrayer och Strängar fortsättning Booleska operatorer if, for, while satser Introduktion till algoritmer public static void main(string [] argv) argv är variabelnamnet
Lingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Introduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
OBS! Läraren skall inte ta ställning, försök vara objektiv och hjälp eleverna att själva hitta sin ståndpunkt.
i Lektionshandledning #177 Tema: Rätt eller fel med illegal nedladdning Ämne: Datorkunskap, SO Rekommenderad årskurs: 7-9, Gymn. Lektionslängd: 60 min Värdegrund på nätet 1/5 Material och förberedelser:
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas