Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
|
|
- Kristin Isaksson
- för 7 år sedan
- Visningar:
Transkript
1 Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
2 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan alltid behöver veta något om ordens uppbyggnad. Då språk är olika komplexa ur morfologisk synvinkel krävs det olika stora insatser för att göra bra morfologiska analyser för olika språk. Två-nivåmodellen är den första generella modellen för analys och generering av morfologiskt komplexa språk, såsom exempelvis finska. Jag ger här en kort och översiktlig beskrivning av två-nivåmodellens uppbyggnad och hur reglerna i modellen skiljer sig från klassiska generativa regler i Chomskys anda. Bakgrund Parsning innebär att man producerar någon sorts struktur för indata. Morfologisk parsning är att dela upp indata i morfem, de minsta betydelsebärande enheterna i språket. Morfem delas vanligen in i två klasser; stammar och affix. Stammorfem är sådana som kan stå på egen hand, fria morfem, exempelvis lampa. Affix är samlingsnamnet för prefix, suffix, infix och circumfix och dessa enheter bildar inte självständiga ord utan hängs på stammorfem, de är bundna morfem. Världens språk är olika komplexa när det gäller deras morfologiska struktur. I analytiska språk består orden av fria morfem. Exempel på analytiska språk är kinesiska och vietnamesiska. I syntetiska språk sätts morfem samman för att bilda ord. Syntetiska språk delas in i undergrupper beroende på hur morfemen kombineras. I flekterande språk består ord av sammansmälta morfemen som är mer eller mindre svåra att urskilja. Svenska kan sägas vara flekterande när det gäller ordformer som springa sprang sprungit. I agglutinerande språk består orden av ihoplimmade morfem som är tydligt urskiljbara. Finska och turkiska är exempel på agglutinerande språk. I polysyntetiska språk blandas flekterande och agglutinerande ordformer, och utmärkande för orden är att de ofta är mycket långa. Grönländska är ett polysyntetiskt språk. För att bygga en morfologisk parser behöver man följande: 1. Ett lexikon som innehåller stammar och affix och särdrag 2. Morfotaktiska regler som talar om i vilken ordning morfem kan förekomma i ett visst språk 3. Ortografiska regler eller stavningsregler som modellerar förändringar som kan uppkomma när morfem kombineras Generativa regler Föregångaren till två-nivåreglerna är de generativa regler som utarbetades av Noam Chomsky och Morris Halle under 1960-talet. Traditionella fonologiska grammatiker bestod av en ordnad sekvens av omskrivningsregler som konverterade abstrakta fonologiska representationer till ytformer via mellanliggande representationer
3 Generativa regler är på formen x y / z _ w där x, y, z, w är godtyckliga komplexa strängar eller särdragsmatriser. Regeln utläses x realiseras som y när x står mellan z och w. Egenskaperna hos generativa regler är att de är sekventiellt ordnade omskrivningsregler. Omskrivningen av x y är dynamisk och det innebär att efter omskrivningen är x inte längre tillgänglig för andra regler. Man kan säga att x inte längre existerar. Reglerna är sekventiella i den mening att de opererar en i taget efter varandra. En regel får input från den föregående och dess output blir i sin tur input för nästa och så vidare. Detta gör att den underliggande ursprungliga formen blir oåtkomlig för senare regler. Det spelar därför också stor roll i vilken ordning reglerna appliceras. Om ordningen ändras får reglerna olika input och därmed kan resultatet ändras. Reglerna kan implementeras som finita automater som fungerar som finite-state transducers, FST. Ett exempel på att reglernas ordning har stor betydelse för resultatet ges i följande exempel 2 : Regler N m / _ p p m / m _ lexikala strängar kanpat kampat kammat N m / _ p mellanliggande strängar kampat kammat p m / m _ ytsträngar kammat Reglernas motsvarande transduktorer mappar kanpat till kammat via den mellanliggande formen kampat. Om transduktorerna appliceras i omvänd ordning till inputen kammat får vi tre olika resultat. För kammat finns det tre möjliga lexikala former eftersom det finns två möjliga källor till kammat på den mellanliggande nivån. Reglerna är alltså otvetydiga när de appliceras i nedåtriktningen men tvetydiga i uppåtriktningen
4 Två-nivåmodellen Den finske forskaren Kimmo Koskenniemi uppfann i början av 1980-talet ett nytt sätt att beskriva fonologiska alterneringar i termer av ändliga tillstånd presenterade Koskenniemi sin modell som han kallades Two Level Morphology, TWOL. Två-nivåmorfologin baseras på tre idéer: 3 1. Reglerna är symbol-till-symbol-begränsningar (eng. constraints) som appliceras parallellt, inte sekventiellt som omskrivningsregler 2. Begränsningarna kan hänvisa till den lexikala kontexten, till ytkontexten eller till båda kontexterna på samma gång 3. Uppslagning i lexikon och morfologisk analys utförs samtidigt Lexikonet i Koskenniemis två-nivåmodell är uppbyggt som en trädstruktur där noderna kallas för minilexikon. Minilexikonen sammanbinds genom att löven i ett lexikon länkas till roten i ett eller flera andra lexikon. Två-nivåregler Två-nivåregler skrivs på formen realisation operator kontext Operatorn kan se ut på fyra olika sätt och därmed kan reglerna ha olika betydelser 4 : 1. A:B C _ D ; (Lexikala symbolen A ska realiseras som ortografiska symbolen B endast i kontexten C _ D) 2. A:B C _ D ; (A ska alltid realiseras som B i kontexten C _ D) 3. A:B C _ D ; (A ska realiseras som B alltid och endast i kontexten C _ D) 4. A:B / C _ D ; (A ska aldrig realiseras som B i kontexten C _ D) A:B är ett korresponderande par, där A är en symbol på den underliggande lexikala nivån och B är realisationen av A på den ortografiska nivån eller ytnivån. C och D kan referera antingen till lexikala eller ortografiska symboler. C: innebär att C är en symbol på den lexikala nivån och :C att symbolen är på den ortografiska nivån. Morfologiska gränser är intressanta på båda nivåerna och de markeras med egna symboler. På den lexikala nivån markeras en morfemgräns med exempelvis ett +-tecken, och på den ortografiska nivån med 0. Ordet bilarnas får följande uppdelning på de två nivåerna: Lexikal nivå: bil+ar+na+s Ortografisk nivå: bil0ar0na0s
5 De generativa reglerna i föregående avsnitt skulle i två-nivåmodellen ha följande utseende: N:m _ p: k a N p a t k a m m a t p:m :m _ k a N p a t k a m m a t Skillnaden mellan generativa regler och två-nivåregler Två-nivåregler skiljer sig från generativa regler flera sätt 5 : Medan generativa regler appliceras en i taget, appliceras två-nivåregler simultant eller parallellt. Detta innebär att alla regler måste tillämpas framgångsrikt för varje segment i inmatningen. Att reglerna appliceras parallellt löser inte i sig problemen med flertydighet som de generativa reglerna gav upphov till, men problemet är lättare att hantera i ett system med bara två nivåer. Parallellt tillämpade två-nivåregler kräver bara två representationsnivåer, den underliggande eller lexikala nivån och ytnivån eller den ortografiska nivån. Det finns inga mellanliggande nivåer som är fallet vid sekventiellt tillämpade generativa regler. Medan generativa regler relaterar den underliggande nivån och ytnivån till varandra genom att skriva om underliggande symboler som ytsymboler, uttrycker två-nivåregler förhållandet med direkta, statiska samband mellan lexikala och ortografiska symboler. Eftersom ingen omskrivning sker finns den underliggande symbolen fortfarande kvar och är tillgänglig för andra regler. Både underliggande och ortografiska symboler existerar efter att en tvånivåregel har applicerats till en input. Medan generativa regler bara har tillgång till den aktuella mellanliggande representationen i varje steg, har två-nivåregler tillgång till både underliggande kontexten och ytkontexten. Reglerna kan alltså referera till en lexikal symbol a som korresponderar med ett ortografiskt b, eller till ett ortografiskt b som korresponderar till ett underliggande a. Generativa regler arbetar bara i en riktning, från lexikal till ortografisk nivå. Två-nivåreglerna är däremot dubbelriktade. Antingen kan de arbeta i riktningen underliggande nivå till ytnivå för generering av ordformer, eller i andra riktningen för att känna igen ordformer
6 SWETWOL Två-nivåmodellen har tillämpats på en mängd språk, bland annat finska, engelska, tyska och svenska. För svenska finns SWETWOL som utvecklats av Fred Karlsson. SWETWOL är ett program för morfologisk analys och ordklassmärkning av svensk text, som bygger på tvånivåmodellen. Man kan testa SWETWOL gratis på det finska språkteknologiföretaget Lingsofts hemsida 6. SWETWOL behandlar nästan alla aspekter av svensk böjningsmorfologi. Lexikonet i SWETWOL bestod 1991 av ord, exklusive produktiva avledningar och sammansättningar. Nästan alla ordformer i löpande text får en morfologisk analys. I SWETWOL läggs stor vikt vid analysen av svenska sammansättningar då detta är något som utmärkande för svensk morfologi. Täckning och precision i SWETWOL är i det närmaste perfekt. 7 Lexikonet i SWETWOL är precis som i Koskenniemis modell en trädstruktur och består av 299 minilexikon. Varje post i ett minilexikon måste innehålla minst en pekare till ett annat minilexikon där analysen ska fortsätta, eller till # om analysen är färdig. Topp-lexikonet är START som leder vidare till START-2 som i sin tur delar upp vokabuläret i sex lexikon; MAJORS (innehåller substantiv, adjektiv, verb, totalt ungefär ord), SINGLES (efterled, förkortningar, interjektioner, konjunktioner mm), NUMBERS, ADVPREPS, DIGITS och NAMES. I SWETWOL används endast åtta två-nivåregler. Karlsson presenterar de sex viktigaste reglerna: 8 (1) D:t _ :t ; (2) N:0 [ e: r: Cr: r: Cl: l: n:] _ ; (3) m:0 :m _ N: ; (4) Z:s #: :* _ #: :0* :X ; (5) S:s / :Sb _ ; (6) %: / %: :* _ ; Första regeln (1) rör d/t-växlingarna som kan uppträda för exempelvis adjektiv i neutrum/utrum. I utrum heter det ju vid som i en vid öppning medan det i neutrum blir vit+t som i ett vitt fält. Den lexikala representationen är vid. Regel (5) säger att ett underliggande genitiv-s inte ska realiseras efter vissa obstruenter som exempelvis s och x. Regeln förhindrar felaktiga ortografiska former som *hus+s och *Max+s Karlsson, Fred (1992) SWETWOL: A Comprehensive Morphological Analyser for Swedish s. 1 8 Ibid, s. 17 6
7 Källförteckning Karlsson, Fred (1992) SWETWOL: A Comprehensive Morphological Analyser for Swedish, Nordic Journal of Linguistics 15, Hämtad Hämtad Hämtad Hämtat
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merNär är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem
Morfologi (formlära) Ordbildning och ordböjning Automatisk morfologisk analys När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Ordbildning
Läs merInnehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?
Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merFlera nivåer i språkets uppbyggnad
Flera nivåer i språkets uppbyggnad dubbel artikulation flernivåsystem fonem = minsta betydelsskiljande enhet morfem = minsta betydelsebärande enhet fonem/fon > morfem-morf > lexem-ordform > fras-? > sats-?
Läs merGrundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Läs merMorfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2
Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT09 Dag 2 Morfologi flick-a flick-a-n flick-a-n-s flick-or flick-or-na flick-or-na-s Morfologi flick-a flick-a-n flick-a-n-s flick-or
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merGrammatiska morfem kan också vara egna ord, som t ex: och på emellertid
Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning
Läs merSyntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merAutomatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merLexikon: ordbildning och lexikalisering
Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke
Läs merAutomatisk morfologisk segmentering för svenska substantiv
Automatisk morfologisk segmentering för svenska substantiv Veronika Ekström verek@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala
Läs merTDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
Läs merSpråktypologi och språksläktskap
Språktypologi och språksläktskap Andersson 2e december 2010 Andersson () Språktypologi och språksläktskap 2e december 2010 1 / 11 Språkklassifikation Genetisk klassifikation Hur är språk släkt med varandra?
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merPrecodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (www.spsm.se)
Precodia Manual Precodia 1.0 Elevdata AB Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten (www.spsm.se) Elevdata i Malmö AB, Fosievägen 13 21431 Malmö Tel: 040-939150 www.elevdata.se
Läs merVärldens språk. Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem. Allmän Grammatik och Fonetik HT07 Dag 1
Världens språk Lingvistik och grammatik Världens språk Språkstrukturer och skriftsystem Allmän Grammatik och Fonetik HT07 Dag 1 Världens språk Världens sex största språk Kinesiska Engelska Spanska Arabiska
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merDAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Läs merOrd och morfologi. Morfologi
Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merNeurolingvistik - Grammatik
Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -
Läs merSvenskan i tvärspråkligt perspektiv. Språktypologi. Solveig Malmsten
Svenskan i tvärspråkligt perspektiv Språktypologi Solveig Malmsten Klassifikation av språk Olika sätt att dela in världens språk i grupper typologiskt: strukturella likheter ekologist: storlek och status
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Läs merSpråkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merFonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?
Hur bestämmer man vilka fonem ett språk har? Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se (Morfem = minsta betydelsebärande enhet i ett språk) Fonem = minsta betydelseskiljande ljudenhet
Läs merMöjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?
Kap 2: Typologi Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering? Orden skulle bli mycket långa för att varje morfem skulle ha sin egen vokalisering, eftersom det behövs så
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merGrundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merUppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A
Uppsala universitet Institutionen för nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A 2011-03-25 kl. 8.00 12.00 lokal: Gimogatan 4, sal I Hjälpmedel:
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merMorfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT10 Dag 2
Morfologi, språktyper och skriftsystem Allmän Grammatik och Fonetik HT10 Dag 2 Skriftsystem i världen Skriftsystem: bokstavsalfabeten Varje skrivtecken motsvarar ett separat ljud, konsonant (C) eller vokal
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merOrdförråd och Ordbildning
Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande
Läs merKontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merExtramaterial 3 Morfologi
Extramaterial 3 Morfologi Yair Sapir Morfologi är läran om former (av grek. morphē). I princip ska man med hjälp av morfolign kunna analysera vilken som helst form eller ord i världens språk. Morfem är
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merInstitutionen för lingvistik och filologi HT 2009
Instruktioner: Du har 15 minuter på dig per prov. Varje fråga har enbart ett rätt svar. För godkänt krävs minst 6 rätta svar/prov. Facit finns i slutet av dokumentet. Miniprov för Dag 1, 1 september 2009:
Läs merCSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)
Svenska med didaktisk inriktning för ämneslärare i grundskolans årskurs 7-9 4,0 högskolepoäng Provmoment: Språkkunskap A Ladokkod: CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A Tentamen ges
Läs merHur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?
Fonologi Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Hur bestämmer man vilka fonem ett språk har? Hur bestämmer man vilka fonem ett språk har? Fonem = minsta betydelseskiljande ljudenhet i
Läs merPersiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi
Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merLite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer
Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders
Läs merGrammatifix Svensk grammatikkontroll i MS Word
2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merosäkra läsare och nysvenskar Ingela Lewald Fil. dr. Gustaf Öqvist-Seimyr Docent Mikael Goldstein
osäkra läsare och nysvenskar Ingela Lewald Fil. dr. Gustaf Öqvist-Seimyr Docent Mikael Goldstein www.precodia.se Dyslexi handlar om: 1. specifika svårigheter att urskilja och hantera språkets minsta byggstenar
Läs merLexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1
Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper
Läs merFTEA12:2 Filosofisk metod. Att värdera argumentation I
FTEA12:2 Filosofisk metod Att värdera argumentation I Dagens upplägg 1. Några generella saker att tänka på vid utvärdering av argument. 2. Grundläggande språkfilosofi. 3. Specifika problem vid utvärdering:
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merLinjärt minne. Sammanhängande minne är ej flexibelt. Effektivt
Binära träd (forts) Ett binärt träd kan lagras i ett enda sammanhängande minne Roten har index 1 Vänster barn till nod i har index 2*i Höger barn till nod i har index 2*i + 1 Föräldern till nod i har index
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 3
Svenskans struktur, 7,5 hp Tentamensexempel 3 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merAnvändarhandledning för det kompensatoriska. läshjälpmedlet Precodia. http://www.precodia.se
Användarhandledning för det kompensatoriska läshjälpmedlet Precodia Målgrupper för programvaran Precodia Personer med lässvårigheter av olika slag (läs- och skrivsvårigheter, dyslexi, koncentrationssvårigheter,
Läs merMorfologisk typologi. Världens språk, 7,5hp vt Affix (II) 5. Lingvistisk typologi II: Morfologisk typologi, m.m.
Niklas Edenmyr niklas.edenmyr@lingfil.uu.se Världens språk, 7,5hp vt 2012 5. Lingvistisk typologi II: Morfologisk typologi, m.m. Morfologisk typologi 2 Affix (I) Prefix och suffix är de huvudsakliga markeringstyperna
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merKarp. Övningar Språkbankens höstworkshop oktober 2017
Karp Övningar Språkbankens höstworkshop 2017 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2017 ÖVERSIKT I nuläget finns det över 25 olika lexikon i Karp. När du går in på https://spraakbanken.
Läs mer729G74 IT och programmering, grundkurs. Tema 2. Föreläsning 3 Jody Foo,
729G74 IT och programmering, grundkurs Tema 2. Föreläsning 3 Jody Foo, jody.foo@liu.se Föreläsningsöversikt Information i grafstrukturer Diskret matematik Relationer: kopplingar mellan mängder Funktioner
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merInstitutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se)
Institutionen för lingvistik, Uppsala universitet Morfologi 5p. Vt 2002. Tomas Riad (08-163638, tomas.riad@nordiska.su.se) Övningar för aktualisering av grundläggande svensk morfologi Gör övningarna i
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. (1) Tidigt i gryningen påbörjade han sin (2) förvandling. Han hade (3) noga planerat allting för att (4) ingenting (5) skulle kunna
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merSemantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse
Dagens föreläsning Semantik VT07 Ordbetydelse (Lexikal semantik) Stina Ericsson 1. Introduktion 2. Extensioner 3. Begrepp 4. Extensioner och begrepp - några ytterligare saker Lexikal semantik: studerar
Läs merSkrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Läs merSpråkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser
Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014 praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan?
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merLogisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.
UPPSALA UNIVERSITET Datorlingvistisk grammatik I Institutionen för lingvistik och filologi Oktober 2007 Mats Dahllöf http://stp.ling.uu.se/ matsd/uv/uv07/dg1/ Logisk semantik I 1 Lite om satslogik 1.1
Läs mer729G74 IT och programmering, grundkurs. Tema 2. Föreläsning 3 Jody Foo,
729G74 IT och programmering, grundkurs Tema 2. Föreläsning 3 Jody Foo, jody.foo@liu.se Föreläsningsöversikt Information i grafstrukturer Diskret matematik Relationer: kopplingar mellan mängder Funktioner
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merfoner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8
Facit till övning 1 foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8 Några problem: 1) lång resp. kort variant av en vokal, är de
Läs merb) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.
MITTUNIVERSITETET Institutionen för humaniora Elzbieta Strzelecka 0611 86 175 070-5771449 Svenska språket GR (A), Läs- och skrivutveckling för grundlärare åk 4 6, Att beskriva språket 7,5 hp Den 16 augusti
Läs merLäs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg
Läs och skrivsvårigheter är inte synonymt med dyslexi Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg Dyslexi vad är det? Dyslexi innebär bl.a. svårigheter att urskilja
Läs merKommentarer till bedömningsmatris för Skriva Kurs C
Kommentarer till bedömningsmatris för Skriva Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar ett första intryck och är en övergripande
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2009-10-27 Skribent(er): Carl-Fredrik Sundlöf, Henrik Sandström, Jonas Lindmark Föreläsare: Fredrik Niemelä 1 Syntaxanalys
Läs merTill särskrivningens försvar. Nils Dverstorp Europeiska språkdagen 25 september 2015
Till särskrivningens försvar Nils Dverstorp Europeiska språkdagen 25 september 2015 Ordbildningslära Två principer för att skapa nya ord: Avledning Sammansättning Avledning Till en stam fogas ett prefix
Läs merIdentifiering av ordvitsar med Granska
Identifiering av ordvitsar med Granska jonord@kth.se Inledning För att försöka identifiera ordvitsar med Granska användes ett litet urval av ordvitsar hämtade från olika ställen. Målet med identifiering
Läs merReguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm
Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck
Läs mer12 Programstege Substantiv
Det här är en programstege för substantiv. Du kan alltså lära dig om substantiven på ett enkelt sätt, en liten bit i taget. Varje sida innehåller fakta om substantiv, tillsammans med uppgifter som du också
Läs merDependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Läs merLinköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Läs merOrdklasser och satsdelar
Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merDD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin
DD1361 Programmeringsparadigm Formella Språk & Syntaxanalys Föreläsning 4 Per Austrin 2015-11-20 Idag Rekursiv medåkning, fortsättning Olika klasser av språk och grammatiker Parsergeneratorer Sammanfattning
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merTENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs
Uppsala universitet Institutionen for nordiska språk TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs 2012-04-03 kl. 9.00-13.00 lokal: Bergsbrunnagatan
Läs merLingvistik III Morfem och morfologi. 729G49 10 April
Lingvistik III Morfem och morfologi 729G49 10 April Morfem Rot Affix Ordskapande Morfemstruktur Lexikon Neologismer Språkvetenskapliga områden Fonologi: Principerna för hur man kombinerar språkljud, fonem,
Läs merIdag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =
Läs merFöreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
Läs merSemantik. Semantik och språkteknologi
Semantik Semantik studiet av innebörd(mening) Går tillbaka till Platon (dialogen Kratylos) Relationen språk verklighet Betydelsen av ett ord är dess användning i språket (Wittgenstein) Semantik och språkteknologi
Läs merObesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Läs mer