1 Inledning 1. 4 Utvärdering 7. 5 Diskussion 7
|
|
- Ebba Gun Hermansson
- för 7 år sedan
- Visningar:
Transkript
1 Innehåll 1 Inledning 1 2 Bakgrund Svensk fonetik IPA ASTA Svensk fonotax Genererande regler Kombinatoriska regler Modifierande regler Finita transduktorer Specialtecken Taligenkänning SRGS Utförande Resurser Data Grammar Builder (Implementation av) regler Genererande regler Kombinatoriska regler Modifierande regler Utvärdering 7 5 Diskussion 7 1 Inledning 2 Bakgrund 2.1 Svensk fonetik IPA ASTA 2.2 Svensk fonotax Jag utgick från Sigurd (1965) för att bygga min fonotaktiska modell. Sigurd definierar regler för konstruktion av enkla ord (eng: simple words). Motsatsen till dessa är sammansättningar (eng: compounds), vilka är kombinationer av två rotmorfem, ett prefix och ett rotmorfem eller ett rotmorfem och ett suffix. Eftersom man kan kombinera, iallafall i teorin, hur långa sammansättningar i svenskan valde jag att se enkla ord som ord. Ett ord som jätteapa behandlar jag alltså som de två orden jätte och apa. Enkla ord beskrivs fonetiskt -logiskt, -taktiskt? som ett av följande: enkla ord 1. Ord som består av endast en, betonad stavelse, ex: å, ål, små. 1
2 2. Ord som består av en betonad stavelse, följd av en eller flera obetonade stavelseer, ex: apa, apor, adliga. 3. Ord som består av en, betonad stavelse, föregången konstigt ord av en eller flera obetonade stavelser, ex: hangar, apelsin. 4. Ord som består av en betonad stavelse, följd av en eller flera obetonade stavelser och föregången av en eller flera betonade stavelser, ex: hangarerna, apelsinens. Ursprungligen svenska ord (eng: genuine Swedish words) finns bara i grupp 1 och 2, medan lånord oftast finns i grupp 3 och 4. Sigurd skriver ofta om marginella fall (eng: marginal cases) och sekundära fall (eng: secondary cases). Marginella fall är konsonantkluster, som förekommer i ett fåtal låneord. Sekundära fall är konsonantkluster, som bildas genom böjningar av ord. Jag har valt att godkänna alla fall av båda dessa typer Genererande regler Vidare består ett ord av ett antal enheter, vilka kan vara antingen konsonantkluster eller vokaler. Dessa enheter ser olika ut beroende på deras position i förhållande till den betonade vokalen. Hur dessa enheter benämns visas i figuren nedan. I + (V a + M a ) + V 0 + F 1 F 2 M p1 + V p1 + M p1 + V p1 + { F3 M p3 + V p3 + F 4 } V står för vokal, alla andra enheter är någon form av konsonantkluster. Den betonade vokalen benämns V0, där nedsänkt 0 står för position noll, eftersom alla andra enheter får sina benämningar beroende på förhållandet till denna. I står för initialt konsonantkluster och är det kluster som inleder ett ord. F står för finala konsonantkluster och är kluster som förekommer sist i ett ord. M är mediala konsonantkluster, d.v.s. kluster som förekommer på en annan plats i ett ord än initialt eller finalt. Det nedsänkta a i Va och Ma står här för ante (lat: före) och innebär att enheten förekommer före V0. På liknande sätt står nedsänkt p för post (lat: efter), och visar att enheten förekommer efter V0. Siffran i F, Mp och Vp står för vilken position efter V0 de förekommer på. I tabell 1 visas vilka vokaler som tillåts på vilka positioner. Som synes begränsas antalet möjligheter mer och mer ju längre från V0 man kommer; i själva V0 kan alla vokaler förekomma. Det är också bara i V0 som långa vokaler kan förekomma, även om det finns viss ovisshet vad det gäller vokallängd se etc.. V0 initialt konsonantkluster finala konsonantkluster Va {i, e, y, ø, a, o, 0, au, eu} V0 {i, e, y, ø, a, o, u, 0, i:, e:, y:, ø:, E:, a:, o:, u:, 0:, au:, eu} Vp1 {i, e, a, o, 0, y} Vp2 {e, a, o, i, 0} Vp3 {e, a} Tabell 1: Vilka vokaler som tillåts i olika positioner, med hänsyn till den betonade vokalen. Vad det gäller konsonantkluster ta ingen hänsyn till positionen hos Ma. Detta motiveras med att enheter före V0 oftast är låneord, varför dessa enheter inte nödvändigtvis följer svensk fonotax. Kolla upp hur många olika kluster som kan förekomma var och dra någon fin sluts 2
3 2.2.2 Kombinatoriska regler Dessa regler ser till minst? två enheter och hur dessa kan kombineras. Kombinationer mellan V0 och efterföljande vokal är ganska tillåtande. Bland de I som bara består av en konsonant är det bara g som begränsar följande vokal överhuvudtaget, och det är bara y och ø som inte kan följa g. Statistik, för bövelen! När det gäller kombinationer mellan V0 och efterföljande konsonantkluster finns det två regler som jag valt att ta med: 1. V0 är alltid kort före ng och j. 2. V0 är alltid lång före Modifierande regler De två regeltyperna ovan begränsar hur enheter kan förekomma, beroende på position och kontext. Modifierande regler, å andra sidan, ändrar på fonem. Retroflexering Linell m.fl. (1971) kan infalla då r följs av t, d, n, s eller l. Då Retroflexering försvinner r och den efterföljande konsonanten omvandlas till ú, ã, ï, ù respektive í, d.v.s. motsvarande retroflex. Även om retroflexering ofta uppstår i normalt tal förekommer det inte i vissa dialekter, vid superartikulering eller i vissa fall då det ursprungliga r är långt; barrträd uttalas [bar:tre:d], inte [bar:úre:d] tagit direkt från Linell, ska jag skriva så?. Vokalsänkning? uppstår i svenskan då E:, e, ø: eller ø följs av r eller annan retroflex. Vokalsänkning Vokalena sänks då och realiseras då som æ:, æ, œ fl : respektive œ fl :. 2.3 Finita transduktorer fin bild? Finita transduktorer (eng: finite state transducers) (FSTs) ska det vara s där?, är Finita en utveckling av FSA:er. Till skillnad från FSA:er, som bara kan acceptera ett alfabet transduktorer sträng?, kan dessa generera en utsträng givet en insträng. Viktade finita transduktorer (eng: wheigted finite state transducers) (WFSTs) har även en vikt tilldelad varje båge. Det finns en mängd logiska? operationer som går att utföras på transduktorer. Exempel på dessa är komposition (eng: composition), där två transduktorer kombineras. Detta innebär att om man har två transduktorer: T 1, med in- respektive utalfabeten Σ 1 och 1, samt T 2 med Σ 2 och 2, går dessa att kombineras till transduktorn T 3, med Σ 1 och 2. Denna operation innebär att man kan kombinera ett godtyckligt antal transduktorer i en kaskad recognition=? (eng: recognition cascade). Detta används inom taligenkänning för kaskad att kombinera de olika steg som ingår i processen. Man kan även invertera transduktorer genom att helt enkelt byta plats på in- och utalfabeten. Detta kan användas inom maskinöversättning, där man på detta vis kan byta översättningsriktning. ska det här vara med? Det finns även operationer för sådant som snitt, att hitta kortaste stigen och att göra en transduktor deterministisk Specialtecken Det finns ett antal specialtecken som kan användas i FSM:er. Dessa kan sättas bättre ord på bågar som input och, i fallet med FST:er, output som vanliga symboler. Det speciella med dem är att de inte tolkas ordagrant bättre ord. 3
4 Symbolen ε tolkas som ingenting. Detta gör att man kan skapa bågar som inte kräver input eller inte ger output. Med operationen epsilon removal kan man modifiera en FSM så att man får en motsvarande FSM utan ε skriva ut epsilon?. Symbolen ρ motsvarar alla symboler i alfabetet som inte finns på utbågvr,ar från tillståndet. Har man t.ex. en FSM med Σ = {a, b, c} och en transition δ 1 = (q, a) vad heter en transition eg skulle δ 2 = (q, ρ) motsvara δ 3 = (q, b) och δ 4 = (q, c). 2.4 Taligenkänning Taligenkänning kan angripas som ett avkodningsproblem i vilket man gör en kaskad av transduktorer. Varje komponent i kaskaden tar hand om ett viss del av taligenkänningsprocessen, från rent akustiska problem? till grammatik. Det första steget i kaskaden, F, utvinner särdragsvektorer (eng: feature vectors) från ljudsignalen. Dessa vektorer representerar ett särdragen hos ett litet hur litet? fönster vardera. 2.5 SRGS F särdragsvektorer Speech Recognition Grammar Specification (SRGS) är en standard för representation av taligenkänningsgrammatik, framtagen av W3C källa. SRGS finns i två olika format: XML och Augmented BNF (ABNF ). Det senare är ett textformat som jag inte använder mig av och därför inte kommer förklara närmare. SRGS-syntaxen består av regler representerade av rule-taggar. En regel innehåller en eller flera saker (eng: items) bra översättning?, vilka representeras av taggen item. En sak kan innehålla tokens ord?, vilka representeras som vanliga textsträngar, avgränsade av mellanrum andra whitespacar? om man vill ha flera. Den kan även innehålla en referens till en regel med ruleref-taggen. Man kan omge en lista av saker med taggen one-of vilket medför att det går att välja varje sak i listan, jmf. (a b...) för reguljära uttryck. Använder man one-of kan man även ge saker vikter med attributet weight. Man kan också ange hur många gånger en sak ska få förekomma med attributet repeat, jmf.?, + respektive * för reguljära uttryck. Denna syntax är, som märks i föregående stycke, väl lämpad för att skapa grammatiker som kan representeras som reguljära uttryck. Därför går de också att översättas WFST:er. SRGS 3 Utförande 3.1 Resurser Data För mitt projekt valde jag att skapa en mindre mängd inspelat ljud som data. Jag började med att komma på ett användningsområde för taligenkänning att utgå ifrån, då jag tyckte att detta skulle göra det hela mer intressant, även om det inte var nödvändigt för genomförandet. Jag beslutade mig för att utgå från domänen sjukhusjournaler och letade rätt på ett antal fall heter det så? + förklaring. Från dessa valde jag ut ett antal meningar för inspelning. Jag skapade också ett antal egna meningar med dessa syft som utgångspunkt i vilka jag bytte ut vissa ord. 4
5 3.1.2 Grammar Builder Grammar Builder är ett program utvecklat under utveckling av Veridict AB med vilket man kan skapa SRGS-grammatiker i XML-format. Programmet har ett grafiskt drag-anddrop-gränssnitt. 3.2 (Implementation av) regler För att kunna använda mig av de fonotaktiska regler jag hittat bättre verb; låter som nämen, en regel?! beskrivna i 2.2, i systemet SpeechCad? Nej? skapade jag FSM:er, som motsvarar dessa. Dessa kan vara både FSA:er eller FST:er beroende på typen av regel Genererande regler De genererande reglerna implementerades som en FSA. Enheterna sattes ihop på rad med konkatenering och där det kan vara finalt eller medialt kluster kombinerades dessa med union. I fallet Va och Ma, där det kan förekomma en, i teorin, oändlig kedja av dessa användes kleene-stjärna. I samband med konkatenering av enheter introducerades en uppmärkning av enhetsgränser. Detta för att kunna implementera regler som bara går att applicera på vissa platser i ett ord och för att lättare kunna se hur ord byggs upp av systemet. Denna uppmärkning visas och förklaras i tabell 2. Även symbolen - introducerades som representation av en tom enhet, eftersom många enhter som är konsonantkluster kan vara tomma. All uppmärkning av enhetsgränser kommer efter den korresponerande enheten. Uppmärkningen tas bort i ett senare steg för att ge korrekta utsträngar. Med denna uppmärkning ser ordet pingvinerna (p i ng v i: n e r n a) ut på följande vis: p /I i /Va ng v /Ma i: /I n /Mp1 e /Vp1 r n /Mp2 a /Vp2 - #3. Uppmärkning Förklaring Korresponderande enhet /I Initialt konsonantkluster. I /Ma Medialt konsonantkluster före V0. Ma /Mp1 Medialt konsonantkluster på position 1 efter V0. Mp1 /Mp2 Medialt konsonantkluster på position 2 efter V0. Mp2 /Mp3 Medialt konsonantkluster på position 3 efter V0. Mp3 /Va Vokal före V0. Va /V0 Betonad vokal. V0 /Vp1 Medial vokal på position 1 efter V0. Vp1 /Vp2 Medial vokal på position 2 efter V0. Vp2 /Vp3 Medial vokal på position 3 efter V0. Vp3 #1 Finalt konsonantkluster på position 1 efter V0. F1 #2 Finalt konsonantkluster på position 2 efter V0. F2 #3 Finalt konsonantkluster på position 3 efter V0. F3 #4 Finalt konsonantkluster på position 4 efter V0. F4 Tabell 2: Uppmärkning av enheter med förklaring och korresponderande enhet Kombinatoriska regler För att tillämpa de kombinatoriska reglerna använde jag FSA:er. Jag fann två typer av restriktioner: de som kräver att en enhet följs av en annan och de som kräver att en enhet föregås av en annan. Två typer av regler skapades för att ta hand om dessa två 5
6 fall. Båda typerna har tre element heter det så i regler? : (v, m, h) där v V, m M och h H. V innehåller alla symboler som kan vara vänsterled, M alla som kan vara mellanled får det heta så? och H alla som kan vara högerled. I alla fall som används i den här uppsatsen är v och h någon typ av enhet medan m är en enhetsgräns. Dessa regler går sedan att realisera? som FSA:er. Figur 1 och 2 visar hur dessa FSA:er ser ut. De streckade bågarna och tillstånden symboliserar att ett led kan bestå av en sekvens av symboler. I dessa fall kan FSA:n FSA:en? återgå till starttillståndet om det kommer en symbol som bryter sekvensen. Figur 1: Regeltyp 1 som en FSA. Figur 2: Regeltyp 2 som en FSA. Reglerna för I-V-kombinationer implementerades som regeltyp 1, men då bara för instanser av I som hade några restriktioner, d.v.s. vr, spr, spl, sv, tv, dv, kv, skv, fj, mj, nj, bj, pj, spj, fn, sk samt g. Man skulle kunna skapa en variant av regeltyp 1 som istället för att tillåta de högerled som definieras i regeln nekade de högerled som inte definieras, och använda denna för regler där det är fler högerled som tillåts än nekas. Jag valde dock att bara använda den ursprungliga regeltypen eftersom H aldrig blir särskilt stor och för att vara konsekvent. Båda reglerna för kombinationer av V0-C implementerades som typ 2 regler. V = {i, e, y, OE, a, A, o, u} M = {V0} H = {ng, j} Modifierande regler Retroflexering... Vokalsänkning implementerades som en FST... 6
7 4 Utvärdering 5 Diskussion Referenser Linell, Per, Svensson, Bengt, och Öhman, Sven. Ljudstruktur. Gleerups, Sigurd, Bengt. Phonotactic Structures in Swedish. Berlingska boktryckeriet, Att klura på Förkortningar? På engelska? Hur mycket om finita transduktorer? Vilka operationer? Behöver man upprepa finita (automater, transduktorer)? eller Ω som utalfabet? Hur är det med dubbla vokaler i svenskan? ex. gående Är det en eller flera regler? Ex. genererande... Vad kalla konsonantkluster/vokaler(kluster)? Nu enheter. Led? Regler som bilagor? De blir nog ganska stora p.g.a. oregelbundenhet. Fonetisk representation? IPA, ASTA, konsekvens är nog bra... Konstiga referenser med flera författare. 7
En fonotaktisk modell för svensk fonemigenkänning
En fonotaktisk modell för svensk fonemigenkänning Sebastian Berlin Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 8 november 2010 Handledare: Alexander
Läs merDAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Läs merHur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?
Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonem = minsta betydelseskiljande ljudenhet i
Läs merFonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?
Hur bestämmer man vilka fonem ett språk har? Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se (Morfem = minsta betydelsebärande enhet i ett språk) Fonem = minsta betydelseskiljande ljudenhet
Läs merfoner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8
Facit till övning 1 foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8 Några problem: 1) lång resp. kort variant av en vokal, är de
Läs merIdag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =
Läs merSpråkljud Test. Kartläggning av uttal med bilder. Gunnel Wendick
Språkljud Test Kartläggning av uttal med bilder Gunnel Wendick Om Wendick-modellens material Wendick-modellen består av en serie strukturerade kartläggnings- och träningsmaterial som säkrar viktiga basfärdigheter
Läs merAutomater. Matematik för språkteknologer. Mattias Nilsson
Automater Matematik för språkteknologer Mattias Nilsson Automater Beräkningsmodeller Beräkning - (eng) Computation Inom automatateorin studeras flera olika beräkningsmodeller med olika egenskaper och olika
Läs merFöreläsning 2 5/6/08. Reguljära uttryck 1. Reguljära uttryck. Konkatenering och Kleene star. Några operationer på språk
Reguljära uttryck Ändliga automater och reguljära uttryck Språk som är och inte är reguljära Konkatenering och Kleene star Två strängar u och v (på alfabetet )kan konkateneras till strängen uv Givet två
Läs merGrundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Läs merAutomatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Läs merProgrammering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater
Programmering för språkteknologer II OH-serie: ändliga automater reguljära uttryck i Java Mats Dahllöf Ändliga automater Abstrakt maskin, tillståndsmaskin, transitionssystem. (Den enklaste typ man brukar
Läs merTvå-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Läs merKontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Läs mertentaplugg.nu av studenter för studenter
tentaplugg.nu av studenter för studenter Kurskod Kursnamn UMU-14401 Spanish A1 Datum Material Sammanfattning Kursexaminator Betygsgränser Tentamenspoäng Övrig kommentar Innehåller frågor/ begrepp med svar
Läs merUttalskorrigering med hjälp av Fonetisk text
Uttalskorrigering med hjälp av Fonetisk text Handitek Gewa AB BOX 92, MALMVÄGEN 55, 191 22 SOLLENTUNA TEL: 08-594 694 00 TEXTTEL: 08-594 694 18 FAX: 08-594 694 19 E-MAIL: info@gewa.se WEB: www.gewa.se
Läs mer10. Mängder och språk
Objektorienterad modellering och diskreta strukturer 10. Mängder och språk Sven Gestegård Robertz Institutionen för datavetenskap, LTH 2013 Rekaputilation Vi har talat om satslogik, predikatlogik och härledning
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merTuringmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt
Läs merMÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP
MÄLARDALENS HÖGSKOLA CD5560 Formella språk, automater och beräkningsteori Användarmanual för simulatorn JFLAP Innehållsförteckning Att komma igång med JFLAP... 3 Att köra en sträng... 5 Att köra flera
Läs merUttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling
Uttalsutveckling Språkstruktur! Principen bakom alla mänskliga språks struktur är att små delar bygger upp större delar som bygger upp ännu större delar Barns tidiga språkutveckling Institutionen för lingvistik,
Läs merFöreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merInlämningsuppgift MiniPlotter
LUNDS TEKNISKA HÖGSKOLA Institutionen för datavetenskap EDAA01 Programmeringsteknik fördjupningskurs Inlämningsuppgift MiniPlotter I den här uppgiften ska ett program som ritar grafer av matematiska funktioner
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merFonetisk text och förkortningar i. Dialog Nova och Polycom Dialog
Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Version: 3.1 Dok.nr: 10.0183 A1 Producerat av: Polycom Technologies AB
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merMöjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?
Kap 2: Typologi Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering? Orden skulle bli mycket långa för att varje morfem skulle ha sin egen vokalisering, eftersom det behövs så
Läs merKurslitteratur Taltranskription: Introduktion
Kurslitteratur Taltranskription: Introduktion Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Köp: Lindblad, P. (2005). Taltranskription. Kompendium. Lingvistik, Lunds universitet. Låna: IPA,
Läs merAlfabeten, strängar och språk. String
Alfabeten, strängar och språk Objektorienterad modellering och diskreta strukturer / design Språk och reguljära uttryck Ett alfabet är en ändlig icketom mängd vars element kallas symboler. Lennart Andersson
Läs merReguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm
Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck
Läs merProsodi. Talets rytm och melodi I. Prosodi. Stavelser. Prosodi. Stavelser. Stavelser
Prosodi Prosodi Talets rytm och melodi I Inom såväl fonologin som fonetiken brukar man göra en uppdelning mellan det segmentella och det som man ibland kallar det suprasegmentella. Med suprasegmentell
Läs merb) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.
Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet
Läs merSvenska fonetiska tecken med Word och Unicode
Svenska fonetiska tecken med Word och Unicode De flesta fonetiska tecken i svenskan skrivs med vanliga bokstäver. I Svenska Akademins Grammatik skrivs för konsonanter "Samma ljudvärden som vid normal stavning
Läs merDefinition. Mängden av reguljära uttryck på alfabetet Σ definieras av. om α och β är reguljära uttryck så är (α β) ett reguljärt uttryck
Lunds tekniska högskola Datavetenskap Lennart Andersson Föreläsningsanteckningar EDAF10 6 Reguljära uttryck I unix-skal finns ange enkla mönster för filnamn med * och?. En del program, t ex emacs, egrep
Läs merAcapela TTS. Inställningar och korrigering av uttal. Emma och Erik
Acapela TTS Inställningar och korrigering av uttal Emma och Erik Innehåll Inledning... 3 Inställning av talsyntesens parametrar... 4 Förklaring av Flikar... 5 Info... 5 General... 5 Pauses... 5 Reading...
Läs merGenerering av L-system fraktaler med Processing.js
Generering av L-system fraktaler med Processing.js TNM084 Procedurella Metoder för bilder Carl Claesson, carcl268@student.liu.se Hemsida: http://carlclaesson.se/tnm084 Sammanfattning Denna rapport beskriver
Läs merObjektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH
Objektorienterad modellering och diskreta strukturer 13. Problem Sven Gestegård Robertz Datavetenskap, LTH 2014 Rekaputilation Vi har talat om satslogik och härledning predikatlogik och substitution mängder
Läs merSvenska språkets struktur: fonetik. kända svårigheter i svenska som andraspråk. Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.
Svenska språkets struktur: fonetik kända svårigheter i svenska som andraspråk Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Om läraren vet vilka uttalsfel som är frekventa och också
Läs merUppgift 1 ( Betyg 3 uppgift )
2005-06-09.kl.08-13 Uppgift 1 ( Betyg 3 uppgift ) Ett plustecken kan se ut på många sätt. En variant är den som ses nedan. Skriv ett program som låter användaren mata in storleken på plusset enligt exemplen
Läs merNorstedts första engelska ordbok Läraranvisning Textview. Verksnummer: 30399
Norstedts första engelska ordbok Läraranvisning Textview Verksnummer: 30399 Läraranvisningens innehåll Läraranvisningen är till för att du som undervisande lärare ska få information om hur den pedagogiskt
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merLär dig engelska med bilder Mappia AB Facebook.se/mappia Twitter/mappiaab
Lär dig engelska med bilder Mappia AB www.mappia.se Facebook.se/mappia Twitter/mappiaab Hur funkar metoden? Att lära sig ett nytt språk innebär alltid arbete. Vi behöver lära in och träna på en stor mängd
Läs merfonetik fonotax + prosodi
Svenska språkets struktur: fonetik fonotax + prosodi Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Fonotax språkspecifika regler regler för möjliga och omöjliga ljudföljder som
Läs merSTRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar
STRÄNGAR En av de mest avancerade av de normala datatyperna är. Här skall vi grundläggande gå igenom hur den datatypen fungerar och vidare flertalet funktioner som hör till datatypen. Låt oss kasta oss
Läs merManual för ett litet FEM-program i Matlab
KTH HÅLLFASTHETSLÄRA Manual för ett litet FEM-program i Matlab Programmet består av en m-fil med namn SMALL_FE_PROG.m och en hjälp-fil för att plotta resultat som heter PLOT_DEF.m. Input För att köra programmet
Läs merFonembegreppet 2011-02-22
Fonembegreppet 2011-02-22 Hur tillägnar sig ett barn språkets ljudsystem? Är språket medfött? Ett specifikt språk (som svenska, t.ex.) är förstås inte medfött. Även om man tror att språkinlärningsförmågan
Läs merInstruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python
Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,
Läs merextensible Markup Language
Datavetenskap Opponenter: Björn Olsson Andreas Svensson Respondenter: Sanaa Al-abuhalje Afrah Al-abuhalje XML extensible Markup Language Oppositionsrapport, C-nivå 2007:06 1 Sammanfattat omdöme av examensarbetet
Läs merSkrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Läs merArv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier
Arv Fundamental objekt-orienterad teknik arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier Programmeringsmetodik -Java 165 Grafisk respresentation: Arv
Läs merMatematik för språkteknologer
1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan
Läs merAnvänd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.
Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Tekniska förutsättningar För WordFinder från Mac App Store krävs följande: Processor: Intel Mac OS X 10.6.6 eller senare.
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merKungl. Tekniska högskolan NADA Grundformer med Stava
Kungl. Tekniska högskolan NADA Grundformer med Stava Språkteknologi 2D1418 Höstterminen 2004 Författare: Andreas Pettersson az@kth.se 1. Bakgrund Om man automatiskt ska plocka ut de informationsbärande
Läs merPCP-satsen på kombinatoriskt manér
austrin@kth.se Teorigruppen Skolan för Datavetenskap och Kommunikation 2005-10-24 Agenda 1 Vad är ett bevis? Vad är ett PCP? PCP-satsen 2 Vad, hur och varför? Lite definitioner Huvudresultatet 3 Ännu mer
Läs merUppgifter i TDDC75: Diskreta strukturer Kapitel 8 Ordning och oändlighet
Uppgifter i TDDC75: Diskreta strukturer Kapitel 8 Ordning och oändlighet Mikael Asplund 19 oktober 2016 Uppgifter 1. Avgör om följande relationer utgör partialordningar. Motivera varför eller varför inte.
Läs merUpplägg. Binära träd. Träd. Binära träd. Binära träd. Antal löv på ett träd. Binära träd (9) Binära sökträd (10.1)
Binära träd Algoritmer och Datastrukturer Markus Saers markus.saers@lingfil.uu.se Upplägg Binära träd (9) Binära sökträd (0.) Träd Många botaniska termer Träd, rot, löv, gren, Trädets rot kan ha ett antal
Läs merPerception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag
Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska
Läs merIdentifiering av ordvitsar med Granska
Identifiering av ordvitsar med Granska jonord@kth.se Inledning För att försöka identifiera ordvitsar med Granska användes ett litet urval av ordvitsar hämtade från olika ställen. Målet med identifiering
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merLexikon: ordbildning och lexikalisering
Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke
Läs mer729G75: Programmering och algoritmiskt tänkande. Tema 1. Föreläsning 1 Jody Foo
729G75: Programmering och algoritmiskt tänkande Tema 1. Föreläsning 1 Jody Foo Föreläsningsöversikt Kursinfo / Om kursen Algoritmer Objektorienterad programmering i praktiken terminologi använda objekt
Läs merUniversitetet i Linköping Institutionen för datavetenskap Anders Haraldsson 2
Anders Haraldsson 1 Anders Haraldsson 2 Dagens föreläsning Programmering i Lisp Fö 5 - Funktioner - lambda-uttryck (avs 7.1) - funcall och function (avs 7.2) - Högre ordningens funktioner (avs 7.) - Iteratorer
Läs merGränssnitt för FakeGranska. Lars Mattsson
Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken
Läs merDagens föreläsning Programmering i Lisp Fö 5
Anders Haraldsson 1 Dagens föreläsning Programmering i Lisp Fö 5 - Funktioner - lambda-uttryck (avs 7.1) - funcall och function (avs 7.2) - Högre ordningens funktioner (avs 7.3) - Iteratorer - Egenskaper
Läs merLinköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Läs merKombinatorik : Lösningar
Kombinatorik 2016-03-16: Lösningar 1. En rad med 9 träd ska planteras vid en gata. Raden ska inkludera exakt 2 ek, ett jämnt antal björk och resten tall. På hur många sätt kan man plantera raden? Lösning:
Läs mern Detta för att kunna koncentrera oss på n Tal: number? n Symboler: symbol? n Strängar: string? n Tecken: char? n Boolskt: boolean?
Tidigare TDDC74 Programming: Abstraktion och modellering Föreläsning 4 Symboler, Par, Listor Representation av par, Grafisk notation för par Representation av listor mha par Typiska listhanteringsprocedurer
Läs mer729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581
Fuzzy logic 880328-2535 Innehåll Fuzzy logic... 1 1. Inledning... 4 2. Jämförelse mellan fuzzy logic och tvåvärdeslogik.... 4 3. Fuzzy sets.... 4 4. Linvistiska variabler... 5 5. Operatorer... 5 6. If-
Läs merTentamen i Objektorienterad modellering och diskreta strukturer
Lunds Tekniska Högskola Datavetenskap Ulf Asklund, Sven Gestegård obertz Tentamen EDAF10 2013 10 24, 8.00 13.00 Tentamen i Objektorienterad modellering och diskreta strukturer Vid bedömningen kommer hänsyn
Läs merInnehåll B-nivå B.1 Två olika konsonanter i rad; i slutet och i början av ord.
Innehåll B-nivå B.1 Två olika konsonanter i rad; i slutet och i början av ord. / -ljudet B.3 Ljudgrupper med annorlunda vokalljud ild ind old ost B.4 Tre konsonanter i början av ord. B.5 Trigrafen -tch
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merStatistisk mönsterigenkänning
Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning
Läs merDATORER OCH PROGRAM. Datorn är en symbolmaskin
DATORER OCH PROGRAM Datorn är en symbolmaskin men kan ha såväl symboliska som fysiska gränssnitt till omvärlden Program beteendeplan och beteendegenerator Programmerade maskiner Generalitet och portabilitet
Läs merTalapparaten. Bildkälla: Engstrand, O: Fonetik light. lungorna luftströmsprocess energi. struphuvudet larynx fonation ljudkälla.
Talapparaten Bildkälla: Engstrand, O: Fonetik light lungorna luftströmsprocess energi struphuvudet larynx fonation ljudkälla gomseglet oro-nasal process velum munhåla artikulationsprocess ljudkälla resonans
Läs merENDIMENSIONELL ANALYS B1 FÖRELÄSNING XII. Föreläsning XII. Mikael P. Sundqvist
Föreläsning XII Mikael P. Sundqvist Vad handlar gränsvärden om? Det är en kamp mellan epsilon (ε) och delta (δ) analystens främsta verktyg! Klicka här för bild på Barry Simon Gränsvärde av f (x) då x +
Läs merNUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance
Läs mer1. Turkologisk transkription och notation
1. Turkologisk transkription och notation 1. Transkription Läroboken The Turkic Languages använder den officiella turkietturkiska ortografin när turkietturkiska ord citeras. De turkiska språk som talas
Läs merFöreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
Läs merInlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Läs mer729G04 - Diskret matematik. Lektion 4
729G04 - Diskret matematik. Lektion 4 1 Lösningsförslag 1.1 Vägar, stigar och annat 1. Vi ges den oriktade grafen G=(V,E), V = {a, b, c, d, f, g, h, i, j}, E = {{a, b}, {b, c}, {a, c}, {f, g}, {c, d},
Läs merInstruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python
Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,
Läs merBakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1
Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut
Läs merInst f lingvistik, GU, vt 04 Jonas Lindh Omtentamen, Fonetik, fonologi och grafonomi, Lördag 8 maj 2004, kl
Några svarsförslag producerade av Anders E. Men observera att några svar är mycket utförligare än vad jag skulle kräva av er in det gällde en skrivning. Jag har också försökt förklara på ett ganska utförligt
Läs merMedieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor
http://w3.msi.vxu.se/multimedia Medieteknologi Webbprogrammering och databaser MEB725, 5p (7,5 ECTS) Klientprogrammering JavaScript Program på flera sidor Rune Körnefors Innehåll Variabler i JavaScript
Läs merTentamen i Digitalteknik, EITF65
Elektro- och informationsteknik Tentamen i Digitalteknik, EITF65 3 januari 2018, kl. 14-19 Skriv anonymkod och identifierare, eller personnummer, på alla papper. Börja en ny uppgift på ett nytt papper.
Läs merUtvecklingen av ett tidregistrerings- och faktureringssystem
Datavetenskap Opponenter: Anders Heimer & Jonas Seffel Respondenter: Daniel Jansson & Mikael Jansson Utvecklingen av ett tidregistrerings- och faktureringssystem Oppositionsrapport, C-nivå 2006:10 1 Sammanfattat
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merAnvändarhandledning Version 1.2
Användarhandledning Version 1.2 Innehåll Bakgrund... 2 Börja programmera i Xtat... 3 Allmänna tips... 3 Grunderna... 3 Kommentarer i språket... 4 Variabler... 4 Matematik... 5 Arrayer... 5 på skärmen...
Läs merman kan lyssna på vad de betyder man kan lyssna efter hur de låter utan att bry sig om vad de betyder.
LJUDLEK Vad är språklig medvetenhet? Små barn använder språket för kommunikation HÄR och NU, och det viktiga är vad orden betyder. Man kan säga att orden är genomskinliga, man ser igenom dem på den bakomliggande
Läs mer729G75: Programmering och algoritmiskt tänkande. Tema 1, föreläsning 1 Jody Foo
729G75: Programmering och algoritmiskt tänkande Tema 1, föreläsning 1 Jody Foo Föreläsningsöversikt Kursinfo / Om kursen Algoritmer Objektorienterad programmering i praktiken terminologi använda objekt
Läs merGrammatik. BNF-grammatik
Grammatik Objektorienterad modellering och diskreta strukturer / design Grammatik Reguljära uttryck klarar inte av att beskriva mängden av aritmetiska uttryck. Lennart Andersson Reviderad 2010 10 07 2010
Läs merInstruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python
Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,
Läs merObjektorienterad programmering, allmänt
Objektorienterad programmering, allmänt Sven-Olof Nyström Uppsala Universitet 17 juni 2005 1 Vilka egenskaper vill vi att program ska ha? Förslag (en partiell lista): De ska... gå snabbt att skriva vara
Läs merViktiga egenskaper hos ett program (Meyer): Objektorienterad programmering, allmänt. Vilka egenskaper vill vi att våra program ska ha?
Viktiga egenskaper hos ett program (Meyer): Objektorienterad programmering, allmänt Sven-Olof Nyström Uppsala Universitet 17 mars 2005 1. Korrekthet 2. Robusthet 3. Utökbarhet 4. Återanvändbarhet 5. Kompatibilitet
Läs merAnvända Python Laboration 1 GruDat, DD1344
Använda Python Laboration 1 GruDat, DD1344 Örjan Ekeberg 14 oktober 2008 Målsättning Målet med denna laboration är att du ska prova på att använda Python, framförallt interativt. Du ska också lära dig
Läs merKompletteringsmaterial. K2 Något om modeller, kompakthetssatsen
KTH Matematik Bengt Ek Maj 2008 Kompletteringsmaterial till kursen SF1642, Logik för D1 och IT3: K2 Något om modeller, kompakthetssatsen Vi skall presentera ett enkelt (om man känner till sundhets- och
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2009-10-27 Skribent(er): Carl-Fredrik Sundlöf, Henrik Sandström, Jonas Lindmark Föreläsare: Fredrik Niemelä 1 Syntaxanalys
Läs mer