Lexikon och lexikonorganisation. Lexikal information. Reguljära uttryck i implementeringar. Reguljära uttryck. Olika sätt att definiera strängmängder

Relevanta dokument
6 Formella språk. Matematik för språkteknologer (5LN445) UPPSALA UNIVERSITET

Finita automater, reguljära uttryck och prefixträd. Upplägg. Finita automater. Finita automater. Olika finita automater.

Grundläggande textanalys, VT2012

729G09 Språkvetenskaplig databehandling

Listor = generaliserade strängar. Introduktion till programmering SMD180. Föreläsning 8: Listor. Fler listor. Listindexering.

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

DAB760: Språk och logik

AUBER 95 9 jan LÖSNINGAR STEG 1:

1. (6p) (a) Använd delmängdskonstruktionen för att tillverka en DFA ekvivalent med nedanstående NFA. (b) Är den resulterande DFA:n minimal? A a b.


Associativa lagen för multiplikation: (ab)c = a(bc). Kommutativa lagen för multiplikation: ab = ba.

Programmering för språkteknologer II, HT2014. Rum

LINJÄR ALGEBRA II LEKTION 1

9. Vektorrum (linjära rum)

13 Generaliserade dubbelintegraler

Föreläsning 7: Trigonometri

Frågor för tentamen EXTA50 Samhällsmätning, 9 hp, kl januari, 2015.

Sammanfattning, Dag 9

Matris invers, invers linjär transformation.

GEOMETRISKA VEKTORER Vektorer i rummet.

Frami transportbult 2,5kN

Trigonometri. 2 Godtyckliga trianglar och enhetscirkeln 2. 3 Triangelsatserna Areasatsen Sinussatsen Kosinussatsen...

FORMELLA SPRÅK, AUTOMATER OCH BERÄKNINGSTEORI ÖVNINGSUPPGIFTER PÅ REGULJÄRA SPRÅK

Kan det vara möjligt att med endast

GEOMETRISKA VEKTORER Vektorer i rummet.

Uppgiftssamling 5B1493, lektionerna 1 6. Lektion 1

SLING MONTERINGS- OCH BRUKSANVISNING

Föreläsning 7. Splay-träd. Prioritetsköer och heapar. Union/Find TDDC70/91: DALG. Innehåll. Innehåll. 1 Splay-träd

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP

SF1625 Envariabelanalys

Skriv tydligt! Uppgift 1 (5p)

PASS 1. RÄKNEOPERATIONER MED DECIMALTAL OCH BRÅKTAL

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Grundläggande matematisk statistik

Kvalificeringstävling den 2 oktober 2007

SF1625 Envariabelanalys

Materiens Struktur. Lösningar

Belöningsbaserad inlärning. Reinforcement Learning. Inlärningssituationen Belöningens roll Förenklande antaganden Centrala begrepp

Induktion LCB 2000/2001

Byt till den tjocka linsen och bestäm dess brännvidd.

definitioner och begrepp

Tentamen i Databasteknik

Ett förspel till Z -transformen Fibonaccitalen


TATA42: Föreläsning 4 Generaliserade integraler

Lösningsförslag till tentamen i SF1683 och SF1629 (del 1) 23 oktober 2017

Hemtenta Multimediadatabaser, tnm053, VT2004

Mat Grundkurs i matematik 1, del III

IE1204 Digital Design

TATA42: Föreläsning 4 Generaliserade integraler

Gauss och Stokes analoga satser och fältsingulariteter: källor och virvlar Mats Persson

Lamellgardin. Nordic Light Luxor INSTALLATION - MANÖVRERING - RENGÖRING

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Uppsala Universitet Matematiska Institutionen Bo Styf. Sammanfattning av föreläsningarna 5-7.

Exponentiella förändringar

Finaltävling den 20 november 2010

Monteringsanvisning. Bakåtvänd montering. Godkänd höjd cm. Maximal vikt 18 kg. UN regulation no. R129 i-size. Ålder 6 mån - 4 år. 1 a.

1.1 Sfäriska koordinater

Definition 1 En funktion (eller avbildning ) från en mängd A till en mängd B är en regel som till några element i A ordnar högst ett element i B.

Analys o 3D Linjär algebra. Lektion 16.. p.1/53

Kylfrysguide [Namn] Elektroskandia Sverige AB [år-månad-dag]

TATA42: Tips inför tentan

TMV151/TMV181. Fredrik Lindgren. 19 november 2013

Vilken rät linje passar bäst till givna datapunkter?

Föreläsning 3: Strängmatchning

Volym och dubbelintegraler över en rektangel

1 EN DRAKE. Kom, My. Vänta, Jon. Kom nu, My. Jag såg en drake!

Sidor i boken

Kontinuerliga variabler

Uppsala universitet Institutionen för lingvistik och filologi. Grundbegrepp: Noder (hörn) och bågar (kanter)

Mer av livet. Riksten Friluftsstad.

Användande av formler för balk på elastiskt underlag

Operativsystemets uppgifter. Föreläsning 6 Operativsystem. Skydd, allmänt. Operativsystem, historik

Tentamen 1 i Matematik 1, HF dec 2016, kl. 8:00-12:00

Sfärisk trigonometri

729G09 Språkvetenskaplig databehandling

Gör slag i saken! Frank Bach

Geometri. 4. Fyra kopior av en rätvinklig triangel kan alltid sättas ihop till en kvadrat med hål som i följande figur varför?

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk

ORTONORMERAT KOORDINAT SYSTEM. LÄNGDEN AV EN VEKTOR. AVSTÅND MELLEN TVÅ PUNKTER. MITTPUNKT. TYNGDPUNKT. SFÄR OCH KLOT.

14. MINSTAKVADRATMETODEN

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Långtidssjukskrivna. diagnos, yrke, partiell sjukskrivning och återgång i arbete. En jämförelse mellan 2002 och 2003 REDOVISAR 2004:7.

Matematiska uppgifter

Preliminär version 2 juni 2014, reservation för fel. Tentamen i matematik. Kurs: MA152G Matematisk Analys MA123G Matematisk analys för ingenjörer

Diskreta stokastiska variabler

Denna föreläsning. DN1212 Numeriska metoder och grundläggande programmering FN Linjära ekvationssystem. Repetition av FN3 (GNM kap 4.

MEDIA PRO. Introduktion BYGG DIN EGEN PC

Campingpolicy för Tanums kommun

GOLV. Norgips Golvskivor används som underlag för golv av trä, vinyl, mattor och andra beläggningar. Här de tre viktigaste konstruktionerna

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Grundläggande logik. Lösningsdel. Kaj B Hansen och Taeda Jovicic. Kapitel 2: Lösningar till övningarna på s (a) (A (B A)) är en formel.

Kontrollskrivning 3 till Diskret Matematik SF1610, för CINTE1, vt 2019 Examinator: Armin Halilovic Datum: 2 maj

Partiell parsning Parsning som sökning

Komplexa tal. j 2 = 1

INNEHALL t.3

Matematisk statistik för B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Exempel: Utsläpp från Källby reningsverk.

EGENVÄRDEN och EGENVEKTORER

Transkript:

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Lexikon och lexikonorgnistion Reguljär språk, ändlig utomter och trnsduktorer Lexikonorgnistion fullformslexikon minilexikon (= morfembserde lexikon) tvånivåsystem Representtion v lexikon som utomter och trnsduktorer Redigeringsvstånd Lexikl informtion Ett lexikon för textnlys ssocierr teckensträngr som representerr tokens (och oft kn mtchs direkt mot texten) med strängr eller listor som representerr informtion. Enkl strängr bilrn: NN Morfemsträng eller kombintion v morfem och egenskper bilrn: bil+r+n, bil_nn+pl+def Egenskpslistor: bilrn: (Ct NN Num PL Spec DEF ) etc. Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Grundbegrepp i formell språkteori Olik sätt tt definier strängmängder Alfbet (Lexikon) Sträng En ändlig mängd v symboler En ändlig sekvens v symboler Märk: den tomm strängen Strängmängd (Formellt språk) En mängd v strängr från ett givet lfbet Uppräkning: { b, b, b, } Reguljär uttryck Exempel: b + Mängddefinitioner och -opertioner B = {b}, A = {}, S = BA + Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Reguljär uttryck Reguljär uttryck i implementeringr I tbellen står r och s för godtycklig reguljär uttryck. Positionsngivre (nchors) ^ nger först position $ nger sist position Minnesngivre (), \(\), sprr vd som mtchs \1, \2 eller $1, $2, hämtr mtchde strängr Intervll [-zåäö], [0-9] Mängdngivre och speciltecken: \w, \d, \b, Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Fler sätt tt definier strängmängder Ändlig utomter Omskrivningsregler S -> ba A -> A -> A Automter b En ändlig utomt (FSA) definiers v ett lfbet en uppsättning tillstånd, vrv ett eller fler utgör strttillstånd och sluttillstånd en uppsättning tillståndsövergångr som vr och en är ssocierd med en symbol ur lfbetet (ev. nollsymbolen) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Igenkänning och generering En FSA för en ordlist (ett bokstvsträd) En sträng kn känns igen (eller läss) v en utomt om mn, med börjn i ett strttillstånd, kn nå ett sluttillstånd genom tt mtch en symbol i tget mot en tillståndsövergång. Omvänt, kn en utomt generer en sträng genom tt den trversers från ett strttillstånd till ett sluttillstånd och skriver ut en symbol för vrje tillståndsövergång som görs. c c k b i l d Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Determinism Deterministisk utomt i mtrisform En ändlig utomt är deterministisk om det för vrje pr v tillstånd och symbol finns högst en övergång till ett nnt tillstånd. Motstsen klls icke-deterministisk 1 2 3 1 0 b 0 2 0 0 3 0 0 L = { b, b, b, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) En icke-deterministisk utomt Reguljär språk 1 b 4 2 b 3 5 Ett språk som kn definiers v ett reguljärt uttryck kn också definiers v en ändlig utomt, och omvänt. Dess språk klls reguljär språk. Utmärknde för reguljär språk är tt de inte tillåter ickelokl beroenden melln olik delr v en sträng. Exempel: språket n cb n är icke-reguljärt. L = {,, b, b, bbb, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Nturlig språk som strängmängder Fullformslexikon Teckensträngr n--t-u-r-l-i-g- s-p-r-å-k Ord som strängr v morfem ntur-lig-, sträng-mängd-er Stvelse- och fonemsträngr n tur li - g /n///, /t//u://r/, /l//i/, /g// Meningr som ordsträngr, etc. Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) bck bck bi bil bilr bilrn bild bilder bildern VB Inf NN Pl Indef NN Pl Def NN Pl Indef NN Pl Def Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Problem med fullformslexikon Minilexikon Duplicering v morfem och informtion Ingen systemtisk nlys v morfologisk struktur Hnterr inte lexikonets dynmik böjning, vledningr, smmnsättningr Stmmr Ändelser-1 Ändelser-2 Ändelser-N Ändelser- Ändelser-b STOP Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) En FSA för en klss v substntiv Minilexikon med fortsättningsinformtion Stm Plurl Best.Sing. Stm: stol, bil, häst, Plurl: r Best.Sing: en Best.Plur: n Genitiv: s Best.Plur Genitiv Genitiv stol stol SUFF1 ktt ktt SUFF2 ros ros SUFF3 stolrns: stol Pl Def Gen SUFF1 r Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF2 er Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF3 or Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF5 n Def SUFF7, Indef SUFF7 SUFF7 s Gen STOP, STOP Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Ändlig trnsduktor Ändlig trnsduktor exempel En (ändlig) trnsduktor är en utomt vrs lfbet är definiert som pr v symboler /b, där är hämtt från ett lfbet och b är hämtt från ett nnt lfbet. En trnsduktor kn nvänds för tt relter strängr från två formell språk (i godtycklig riktning) dvs känn igen ett språk och smtidigt generer ett nnt. y/y t/t /o /r Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Ändlig trnsduktor - exempel En trnsduktor för plurlböjning {bil, stol, häst, } /<nme> /</nme> P/p e/e r/r 1 2 3 4 5 6 r-dekl +N/ +Pl/r 1 2 3 4 +Def/n 5 er-dekl 6 +N/ 7 +Pl/er {ktt, film, rd, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Formvrition Hntering v formvrition 1 Fonologiskt betingd Exempel: fågel, fåglr; ilsken, ilskn; Ortogrfiskt betingd Exempel: glöm, glömmer; dum, dumm; Morfologiskt betingd omljud: mn, män; bok, böcker; vljud: vinn, vnn, vunnit; Teknisk stmmr fåg (l, el) ilsk (en, et, n) glöm (0, de, mer) Stmdubblering bok (0, en) / böck (er) vinn (0, er) / vnn (0, s) / vunn (it, en, et) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Hntering v formvrition 2 Tvånivåregel exemplet flyktig e-vokl i svensk Två nivåer (lfbeten) ortogrfisk nivå de vnlig bokstvstecknen lexikl nivå bokstvstecken gränstecken bstrkt tecken (som representerr vritionen) regler Abstrkt tecken: Teckenmängder: Regel: Ortogrfisk sträng: Lexiklisk sträng: E, ^ C = konsonnt, V = vokl, L = {l, r, n} E : 0 / VC + _L^V E : e / _ L[^C #] f å g 0 l 0 r f å g E l ^ r Ortogrfisk sträng: f å g e l 0 n f å g e l 0 ö Lexiklisk sträng: f å g E l ^ n f å g E l # ö Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Stmlexikon i tvånivåsystem Kombintion v trnsduktorer bomm NN (AR EN) by NN (AR N) fågel NN (AR N) stol NN (AR EN) utter NN (AR N) Morfemsträngr: Lexikl strängr: Regeltrnsduktor Ortogrfisk strängr: f å g E l +N +PL +DEF Lexikontrnsduktor f å g E l ^ r ^ n Regeltrnsduktotrnsduktor Regel- f å g l r n Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Tvånivåregel - trnsduktor Edit distnce fågeln / fåglr / fågelö L:L E:0 V:V V:V C:C C:C E:e C:C C:C, V:V C:C, V:V ^:0 L:L ^:0 #:0 Mtchning v sökord mot ett index kn görs med en ordlist i form v en (deterministisk) utomt. Om ett sökord skns i ordlistn kn mn nvänd en teknik bserd på minst redigeringsvstånd (eng. miniml edit distnce) för tt hitt ord som kn vr vsedd. Vnlig redigeringsopertioner: lägg till tecken (ex. ltid lltid) t bort tecken (ex. lldrig ldrig) substituer tecken (ex. båll boll) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Edit distnce Beräkning vi dynmisk progrmmering Levenshtein-vstånd innebär tt vrje opertion ger vståndet 1. Vnligt är också tt mn räknr tillägg och borttg för 1, men substitution v olik tecken för 2. Det minst vståndet, dist(w1, w2) melln två ord w1 och w2, kn beräkns med hjälp v en ordmtris där vrje element kn bestämms utifrån sin närmste grnnr: Exempel: skrek ~ skräck (3) Linköping ~ Norrköping (5) politiker ~ spolingr (8) w i,j-1 w ij w i-1,j-1 w i-1,j Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Uppdtering v distnsmått Exempel dist[i, j] = dist[i-1, j] + tilläggskostnd(måltecken) min dist[i-1, j-1] + substitutionskostnd(källtecken, måltecken) dist[i, j-1] + borttgskostnd(källtecken) OBS! Substitutionskostnden är ntingen 0 (om käll- och måltecken är lik), nnrs 2. Tilläggs- och borttgskostnd är lltid 1 om det finns ett tecken. korp ~skrp p 4 r 3 o 2 k 1 0 1 2 3 4 5 6 s k r p Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)

Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Lexikonfri ordnlys ( stemming ) Stemming innebär tt normliser ordformer till en stmliknnde form med hjälp v enkl substitutioner. Exempel: s/ (\w+)rns / $1 /; ( bilrns bil, buskrns busk) s/ (\w+)ering / $1er /; (nvigering nviger, legering leger) Används för informtionssökning och ordpåsesemntik Exempel (för engelsk): Porter stemmer