Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Lexikon och lexikonorgnistion Reguljär språk, ändlig utomter och trnsduktorer Lexikonorgnistion fullformslexikon minilexikon (= morfembserde lexikon) tvånivåsystem Representtion v lexikon som utomter och trnsduktorer Redigeringsvstånd Lexikl informtion Ett lexikon för textnlys ssocierr teckensträngr som representerr tokens (och oft kn mtchs direkt mot texten) med strängr eller listor som representerr informtion. Enkl strängr bilrn: NN Morfemsträng eller kombintion v morfem och egenskper bilrn: bil+r+n, bil_nn+pl+def Egenskpslistor: bilrn: (Ct NN Num PL Spec DEF ) etc. Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Grundbegrepp i formell språkteori Olik sätt tt definier strängmängder Alfbet (Lexikon) Sträng En ändlig mängd v symboler En ändlig sekvens v symboler Märk: den tomm strängen Strängmängd (Formellt språk) En mängd v strängr från ett givet lfbet Uppräkning: { b, b, b, } Reguljär uttryck Exempel: b + Mängddefinitioner och -opertioner B = {b}, A = {}, S = BA + Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Reguljär uttryck Reguljär uttryck i implementeringr I tbellen står r och s för godtycklig reguljär uttryck. Positionsngivre (nchors) ^ nger först position $ nger sist position Minnesngivre (), \(\), sprr vd som mtchs \1, \2 eller $1, $2, hämtr mtchde strängr Intervll [-zåäö], [0-9] Mängdngivre och speciltecken: \w, \d, \b, Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Fler sätt tt definier strängmängder Ändlig utomter Omskrivningsregler S -> ba A -> A -> A Automter b En ändlig utomt (FSA) definiers v ett lfbet en uppsättning tillstånd, vrv ett eller fler utgör strttillstånd och sluttillstånd en uppsättning tillståndsövergångr som vr och en är ssocierd med en symbol ur lfbetet (ev. nollsymbolen) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Igenkänning och generering En FSA för en ordlist (ett bokstvsträd) En sträng kn känns igen (eller läss) v en utomt om mn, med börjn i ett strttillstånd, kn nå ett sluttillstånd genom tt mtch en symbol i tget mot en tillståndsövergång. Omvänt, kn en utomt generer en sträng genom tt den trversers från ett strttillstånd till ett sluttillstånd och skriver ut en symbol för vrje tillståndsövergång som görs. c c k b i l d Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Determinism Deterministisk utomt i mtrisform En ändlig utomt är deterministisk om det för vrje pr v tillstånd och symbol finns högst en övergång till ett nnt tillstånd. Motstsen klls icke-deterministisk 1 2 3 1 0 b 0 2 0 0 3 0 0 L = { b, b, b, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) En icke-deterministisk utomt Reguljär språk 1 b 4 2 b 3 5 Ett språk som kn definiers v ett reguljärt uttryck kn också definiers v en ändlig utomt, och omvänt. Dess språk klls reguljär språk. Utmärknde för reguljär språk är tt de inte tillåter ickelokl beroenden melln olik delr v en sträng. Exempel: språket n cb n är icke-reguljärt. L = {,, b, b, bbb, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Nturlig språk som strängmängder Fullformslexikon Teckensträngr n--t-u-r-l-i-g- s-p-r-å-k Ord som strängr v morfem ntur-lig-, sträng-mängd-er Stvelse- och fonemsträngr n tur li - g /n///, /t//u://r/, /l//i/, /g// Meningr som ordsträngr, etc. Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) bck bck bi bil bilr bilrn bild bilder bildern VB Inf NN Pl Indef NN Pl Def NN Pl Indef NN Pl Def Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Problem med fullformslexikon Minilexikon Duplicering v morfem och informtion Ingen systemtisk nlys v morfologisk struktur Hnterr inte lexikonets dynmik böjning, vledningr, smmnsättningr Stmmr Ändelser-1 Ändelser-2 Ändelser-N Ändelser- Ändelser-b STOP Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) En FSA för en klss v substntiv Minilexikon med fortsättningsinformtion Stm Plurl Best.Sing. Stm: stol, bil, häst, Plurl: r Best.Sing: en Best.Plur: n Genitiv: s Best.Plur Genitiv Genitiv stol stol SUFF1 ktt ktt SUFF2 ros ros SUFF3 stolrns: stol Pl Def Gen SUFF1 r Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF2 er Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF3 or Pl SUFF5 en Sg Def SUFF7 Sg Indef SUFF7 SUFF5 n Def SUFF7, Indef SUFF7 SUFF7 s Gen STOP, STOP Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Ändlig trnsduktor Ändlig trnsduktor exempel En (ändlig) trnsduktor är en utomt vrs lfbet är definiert som pr v symboler /b, där är hämtt från ett lfbet och b är hämtt från ett nnt lfbet. En trnsduktor kn nvänds för tt relter strängr från två formell språk (i godtycklig riktning) dvs känn igen ett språk och smtidigt generer ett nnt. y/y t/t /o /r Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Ändlig trnsduktor - exempel En trnsduktor för plurlböjning {bil, stol, häst, } /<nme> /</nme> P/p e/e r/r 1 2 3 4 5 6 r-dekl +N/ +Pl/r 1 2 3 4 +Def/n 5 er-dekl 6 +N/ 7 +Pl/er {ktt, film, rd, } Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Formvrition Hntering v formvrition 1 Fonologiskt betingd Exempel: fågel, fåglr; ilsken, ilskn; Ortogrfiskt betingd Exempel: glöm, glömmer; dum, dumm; Morfologiskt betingd omljud: mn, män; bok, böcker; vljud: vinn, vnn, vunnit; Teknisk stmmr fåg (l, el) ilsk (en, et, n) glöm (0, de, mer) Stmdubblering bok (0, en) / böck (er) vinn (0, er) / vnn (0, s) / vunn (it, en, et) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Hntering v formvrition 2 Tvånivåregel exemplet flyktig e-vokl i svensk Två nivåer (lfbeten) ortogrfisk nivå de vnlig bokstvstecknen lexikl nivå bokstvstecken gränstecken bstrkt tecken (som representerr vritionen) regler Abstrkt tecken: Teckenmängder: Regel: Ortogrfisk sträng: Lexiklisk sträng: E, ^ C = konsonnt, V = vokl, L = {l, r, n} E : 0 / VC + _L^V E : e / _ L[^C #] f å g 0 l 0 r f å g E l ^ r Ortogrfisk sträng: f å g e l 0 n f å g e l 0 ö Lexiklisk sträng: f å g E l ^ n f å g E l # ö Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Stmlexikon i tvånivåsystem Kombintion v trnsduktorer bomm NN (AR EN) by NN (AR N) fågel NN (AR N) stol NN (AR EN) utter NN (AR N) Morfemsträngr: Lexikl strängr: Regeltrnsduktor Ortogrfisk strängr: f å g E l +N +PL +DEF Lexikontrnsduktor f å g E l ^ r ^ n Regeltrnsduktotrnsduktor Regel- f å g l r n Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Tvånivåregel - trnsduktor Edit distnce fågeln / fåglr / fågelö L:L E:0 V:V V:V C:C C:C E:e C:C C:C, V:V C:C, V:V ^:0 L:L ^:0 #:0 Mtchning v sökord mot ett index kn görs med en ordlist i form v en (deterministisk) utomt. Om ett sökord skns i ordlistn kn mn nvänd en teknik bserd på minst redigeringsvstånd (eng. miniml edit distnce) för tt hitt ord som kn vr vsedd. Vnlig redigeringsopertioner: lägg till tecken (ex. ltid lltid) t bort tecken (ex. lldrig ldrig) substituer tecken (ex. båll boll) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Edit distnce Beräkning vi dynmisk progrmmering Levenshtein-vstånd innebär tt vrje opertion ger vståndet 1. Vnligt är också tt mn räknr tillägg och borttg för 1, men substitution v olik tecken för 2. Det minst vståndet, dist(w1, w2) melln två ord w1 och w2, kn beräkns med hjälp v en ordmtris där vrje element kn bestämms utifrån sin närmste grnnr: Exempel: skrek ~ skräck (3) Linköping ~ Norrköping (5) politiker ~ spolingr (8) w i,j-1 w ij w i-1,j-1 w i-1,j Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Uppdtering v distnsmått Exempel dist[i, j] = dist[i-1, j] + tilläggskostnd(måltecken) min dist[i-1, j-1] + substitutionskostnd(källtecken, måltecken) dist[i, j-1] + borttgskostnd(källtecken) OBS! Substitutionskostnden är ntingen 0 (om käll- och måltecken är lik), nnrs 2. Tilläggs- och borttgskostnd är lltid 1 om det finns ett tecken. korp ~skrp p 4 r 3 o 2 k 1 0 1 2 3 4 5 6 s k r p Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg)
Språkteknologi (Lrs Ahrenberg) Språkteknologi (Lrs Ahrenberg) Lexikonfri ordnlys ( stemming ) Stemming innebär tt normliser ordformer till en stmliknnde form med hjälp v enkl substitutioner. Exempel: s/ (\w+)rns / $1 /; ( bilrns bil, buskrns busk) s/ (\w+)ering / $1er /; (nvigering nviger, legering leger) Används för informtionssökning och ordpåsesemntik Exempel (för engelsk): Porter stemmer