1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -
|
|
- Frida Bergman
- för 9 år sedan
- Visningar:
Transkript
1 - 1-1 Inledning 1.1 Programförklaring Detta kompendium är utvecklat för en introduktionskurs i datalingvistik som vänder sig till studenter med tidigare kännedom om grundläggande lingvistik och datavetenskap. Ambitionen är att ge en pedagogisk framställning av några grundläggande modeller för språkbeskrivning som används inom datalingvistiken, speciellt för textanalys. 1.2 Innehållet Kapitel 2 ger en översikt över ämnet och några olika tillämpningsområden. Kapitel 3 introducerar ett antal matematiska begrepp och modeller som kompendiet utnyttjar. Kapitel 4 anger en metod att modellera lexikon och ordkunskap med svenska som exempelspråk. Kapitel 5 presenterar några olika modeller att klassificera ordformer på grundval av deras placering i texten. Kapitel 6 visar hur svenska fras- och satsstrukturer kan beskrivas med kontextfri grammatik. Kapitel 7 diskuterar hur särdragsvillkor kan användas för att uttrycka syntaktisk och semantisk information och därmed ge en noggrannare och utförligare beskrivning av språkliga konstruktioner. 1.3 Beteckningskonventioner Kursiv stil används framförallt metaspråkligt, d.v.s. när ord och meningar benämns inuti löpande text. Kursiv stil används också för fristående exempelmeningar och exempelord samt för vissa viktiga termer när de förklaras i texten. Typsnittet Courier används för att referera till särdragsattribut och värden inuti texten.
2 - 2-2 Vad är datalingvistik? 2.1 Språk och datorer Med en viss förenkling kan man säga att datalingvistikens uppgift är att utveckla programvara och system som kan utföra eller stödja olika typer av språktjänster. Tanken att datorer kan användas för sådana ändamål är nästan lika gammal som datorerna själva. De första experimenten gjordes med automatisk översättning och det så tidigt som i slutet av 40-talet; den första konferensen om maskinöversättning hölls sedan på MIT (Massachusetts Institute of Technology) i juni Det dröjde dock till 1963 innan det första maskinöversättningssystemet installerades för praktiskt bruk. Det var EURATOM, den Eurepeiska Atomenergigemenskapen i italienska Ispra, som köpte ett system för översättning mellan ryska och engelska, utvecklat vid Georgetown University i USA. Maskinöversättningsforskningen kom sedan av sig, efter den utvärdering som genomfördes i USA av den s.k. AL- PAC-kommittén (Automatic Language Processing Advisory Committee) 1966, och som kom till slutsatsen att maskinöversättningsforskningen nästan inte producerat någonting som var användbart, utan att resurser i stället borde satsas på verktyg för översättare och på lingvistisk och datalingvistisk grundforskning. Det var en aning ironiskt att den kritiska ALPAC-rapporten kom just när maskinöversättningssystem började användas praktiskt. Sedan dess har dock både forskningen och utvecklingen återhämtat sig och det finns i dag många system i praktiskt bruk. Å andra sidan kan vem som helst som använder ett generellt maskinöversättningssystem konstatera att kvalitén ligger ganska långt under vad en professionell översättare levererar, vilket inte hindrar att maskinöversättningar kan vara användbara i alla fall, eftersom alternativet till en maskinell översättning oftast är ingen översättning alls (goda översättare är en bristvara). En annan ironi är att datalingvistiken började med att ge sig på översättning, den kanske svåraste språktjänsten man kan ge sig på att automatisera, och som fortfarande framstår som dess Heliga Graal, ett mål som all erfarenhet numera säger att man inte kan nå till hundra procent, men som man ändå ständigt återkommer till och utvecklar nya modeller för. Men det är naturligtvis så att det är de svåraste problemen, dit vi förutom översättning kan räkna dialog, tal- och textförståelse och språkinlärning som är de mest utmanande och därför de mest intressanta. Forskningen om dessa svåra problem för också det goda med sig att den uppmärksammar ett antal olika delproblem, som efter en viss tid kan ges generella lösningar. Till de problem som datalingvistiken i dag kan sägas ha löst hör ordklassbestämning av orden i godtycklig
3 - 3 - löpande text (se nedan, kapitel 5) och parsning av ett stort antal grammatikformalismer. De innehållsliga nivåerna av språket, vad som i lingvistiken brukar kallas semantik och pragmatik, är sämre förstådda, men det finns ett antal förslag som griper över helheten och tillåter oss att formulera samband mellan de språkliga uttrycken och deras betydelse, såväl generellt som i en specifik kontext. Exempel på några sådana metoder ges i Russell & Norvig, kap Tanken att skapa system (artefakter) med mänsklig språkförmåga, vare sig det handlar om översättning, textförståelse eller kommunikation i naturligt språk, delar datalingvistiken med den gren av artificiell intelligens som på engelska kallas Natural Language Processing (NLP). NLP-forskare betonar ofta den språkliga kommunikationens beroende av omvärldskunskap och tenderar att fokusera språkets högre nivåer som diskurs- och dialoghantering. Målet är ofta att samtidigt förstå hur mänsklig kommunikation går till och modellera aspekter av den i körbara program. Datalingvistikens utveckling har också skett parallellt med att den allmänna språkvetenskapen alltmer börjat använda formella modeller. Många datalingvistiska forskare ser som sin främsta uppgift att modellera mänsklig språkförmåga så väl som möjligt med utgångspunkt i den aktuella lingvistiska teoribildningen. Starka kopplingar finns exempelvis mellan de unifieringsbaserade tekniker för parsning och tolkning som behandlas i kapitel 3 och 6, och de grenar av den generativa lingvistiken som anammat ett constraint-baserat synsätt på naturliga språks syntax och semantik. Även om det kan tyckas vara den bästa möjliga metoden att utgå från vetenskapens nuvarande ståndpunkt, när man vill modellera så pass komplexa fenomen som läs- och förståelseprocesser på dator, så finns det också en hel del problem med detta, i synnerhet för den som vill ta språkteknologien i bruk för praktiska ändamål. Ett problem är att varken AI-forskningen eller språkvetenskapen i dag har teorier som på samma gång är tillräckligt precisa och omfattande för att de ska kunna tas som utgångspunkt för utveckling av robusta system. Ett annat problem är att t.ex. lingvistiken tenderar att fokusera språkliga data som är relevanta för teoriutvecklingen och det handlar då ofta om data som inte är allmänt förekommande i de texter eller dialoger som man vill utveckla praktiska system för, t.ex tidningsnotiser eller enkla sökfrågor. Det finns alltså ofta en skillnad i vad man uppfattar som relevanta data mellan den teoretiskt orienterade språkvetenskapen och den praktiskt inriktade språkteknologin. Av detta skäl har datalingvistiken under senare år alltmer kommit att använda empiriska språkliga material i form av textsamlingar och inspelat tal i samband med systemutveckling och systemtestning. Med empiriska data som är representativa för just den tillämpning man har som grund för systemutvecklingen, kan systemets språkmoduler bli bättre anpassade till just det språk som förekommer i tillämpningen och systemets prestanda bli bättre. Praktisk språkteknologi uppmärksammar också datorstöd för språktjänster i lika hög grad som autonoma system. Om vi ser på datorsystem som maskiner som ersätter människor och tar över deras arbetsuppgifter, så blir det naturligt att simuleringen av
4 - 4 - den mänskliga förmågan hamnar i förgrunden. Om vi däremot ser på datorer som verktyg, som människor använder för att öka sina förmågor och färdigheter, får vi ett bredare perspektiv som både rymmer frågor om design och användbarhet och om möjligheter att utnyttja befintlig teknik på ett kreativt sätt. Ett slående exempel ges just av översättningsforskningen. Att denna initialt kom att handla om datorn som översättare är kanske inte så konstigt med tanke på att dåtidens datorer var något svåra att hantera för andra än specialister, men detta sätt att se på datoranvändning höll sig kvar som den dominerande tankefiguren även sedan pc:n blivit allmän egendom. Tanken att andra moment i översättningsverksamheter, så som redigering, granskning, ord- och termuppslagning, e-postförbindelse med författare och terminologer, låter sig automatiseras bättre än själva översättandet tog lång tid på sig att slå igenom. Men i dag är begreppet Translator s Workbench (översättarens arbetsstation) väl etablerat, och i dessa ingår ofta maskinöversättning som en modul bland flera andra. 2.2 Tillämpningar De flesta system och metoder vi tar upp i det här kompendiet är inriktade på automatisk textanalys. En del av metoderna har tillämpning också på högre nivåer av talförståelse, men vi tar inte upp taligenkänning som är ett problem som kräver andra typer av tekniker. När vi i dagligt tal talar om läsning, så gör vi det oftast som en aktivitet med ett eget syfte, t.ex. för att skaffa oss information eller för nöjes skull. Men vi läser ofta i speciella syften som en del av någon överordnad aktivitet. Då kan språktekniska system bidra på olika sätt till att underlätta läsprocessen.
5 - 5 - Fig Textkontroll, en komponent i systemet Skribent från Wordwork AB, som upptäcker vanliga formella fel i Worddokument. En speciell läsart är den som tillämpas vid språkgranskning. Den är speciell eftersom den kräver mer uppmärksamhet på formen än vad vi tillämpar normalt. I synnerhet texter som man skrivit själv är svåra att granska, eftersom man lätt blir blind för sina egna stereotypiska formuleringar och skrivfel. Sådana företeelser i en text hör dock till det som ett datorsystem har lättast att upptäcka eftersom det till stor del låter sig göras genom att jämföra teckensträngar i texten med teckensträngar i en ord- eller fraslista (figur 2.1). Dagens system tillåter även upptäckter av ord som är rätta i sig, Fig Markering av felaktigt subjekt i Word 7.0.
6 - 6 - men fel i sin kontext, t.ex. har en felaktig position eller böjningsändelse, och kan i många fall också föreslå korrekta alternativ (figur 2.2). Mer avancerad språkgranskning som t.ex. kan upptäcka tvetydigheter eller oklarheter i texten krävs det dock fortfarande människor för. Det förutsätter en generell förmåga att uppfatta innehållet i texten, som dagens teknik inte medger. Däremot finns numera system som kan föreslå alternativ, d.v.s. synonymer till det som står i texten, och anpassa formen till den aktuella kontexten (figur 2.3). Fig Förslag på synonymer med rätt böjningsform i Word 7.0. En annan speciell läsart är den vi tillämpar när vi skummar en tidning för att hitta någon intressant notis, eller en artikel på jakt efter ett speciellt avsnitt med intressant information. Dagens system kan plöja texter mycket snabbare än vi själva och genom att använda smarta indexerings och komprimeringstekniker t.o.m. databaser med miljontals dokument. Dessa tekniker faller under området informationssökning (eng. Information retrieval, IR) men i och med att antalet dokument som är åtkomliga från en viss punkt blir fler och fler, blir behovet av precisare tekniker för informationssökning större. Man har exempelvis behov av att behandla böjningsformer och avledningsformer av ord som uttryck för samma begrepp och tillämpar då stamsökningsalgoritmer. Ett ambitiösare projekt som datalingvistiken alltmer kommit att intressera sig för är informationsutvinning (eng. information extraction), d.v.s. tekniker för att hitta och sammanställa information av ett föregivet slag. Det kan t.ex. handla om affärstransaktioner (vilket företag har köpt/gått samman med vilket annat företag när, hur och varför), forskningsprojekt (vilken inriktning?, universitet/forskningsinstitut?, projektledare?, projekttid?, mål? etc.) eller recensioner av nya böcker (vilket förlag?, vilken författare?, vilken genre?, vad tycker recensenten?). Sammanställningen kan
7 - 7 - ske i form av ett ifyllt formulär, en post i en databas eller en sammanfattning i textformat. Figur 2.4 visar ett delresultat från körning med ett forskningssystem kallat VIE. PAULEY PETROLEUM <PP> NAMES NEWGARD PRESIDENT LOS AN- GELES, April 13 - Pauley Petroleum Inc said it appointed Mark Newgard president and chief operating officer. Newgard, 42, had been president of privately-held Edgington Oil Co. He succeeds William Pagen, Pauley s chairman, who had also been serving as president, the company said. Reuter. Fig. 2.4.Textinformation (underst) om benämnda objekt i en given text (överst) med systemet VIE under GATE (Wilks et al, 1996). Man kan säga att ett informationsutvinningssystem konstruerar en innehållsrepresentation, eller åtminstone en representation av vissa objekt och fakta i en text. Det innebär inte nödvändigtvis detsamma som att de kan läsa i mänsklig mening. Systemen är anpassade till sin specifika uppgift och använder ofta en blandning av tekniker, från strängmatchning av ord och fraser till enkel diskursmodellering och representation av begreppsrelationer för de kunskapsområden som uppgiften gäller. En enklare form av informationsutvinning finner vi i system som utför automatiska sammanfattningar. Dessa system har ofta ingen domänkunskap alls utan baserar sina sammanfattningar på antaganden om var den centrala informationen kan hittas i en text, t.ex. i rubriker, inledningar och avslutningar. Vi har redan i inledningen nämnt automatisk översättning som en av datalingvistikens stora utmaningar. Det finns i dag ett antal kommersiella system som används av internationella företag och organisationer, men det krävs stora insatser för att anpassa dem till de texttyper och ämnesområden som de ska arbeta med för att få ett bra resultat. Företag som använder maskinöversättningssystem brukar också ofta införa någon form av begränsat språk i sin textproduktion för att göra den så kostnadseffek-
8 - 8 - tiv som möjligt. Ett begränsat språk utmärks av en konsistent terminologi och fraseologi, en explicit textbindning och undvikande av flertydigheter i basordförrådet och syntaxen. Vissa naturligt förekommande subspråk,som t.ex. väderprognoser, sammanträdesprotokoll eller produktbeskrivningar har också sådana egenskaper, och kan därför översättas automatiskt med hyfsat resultat. Se figur 2.5. Original The present invention relates to a process for producing lube oil. More specifically, the present invention relates to a process for producing lube oil from olefins by isomerization over a silicoaluminophosphate catalyst. Översättning Den foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie. /- Mere specifikt, foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie fra olefiner med isomerisering i løbet af en silicoaluminophosphatkatalysator. -/ Efter redigering Den foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie. Mere specifikt angår den foreliggende opfindelse en fremgangsmåde til at fremstille smøreolie ud fra olefiner ved isomerisering over en silicoaluminophosphatkatalysator. Fig Översättning med systemet PaTrans utvecklat av Lingtech A/S & Center for sprogteknologie, Köpenhamn, som används för översättning av patenttexter för kemiska produkter. Ytterligare en speciell läsart tillämpas av språkforskare, som ser texter som studieobjekt, där ett språks ordförråd, morfologi, syntax, stildrag etc. manifesteras. Datorn har gjort det möjligt att lagra stora textmängder på ett ställe och söka i dem efter språklig information av olika slag. Ett organiserat textarkiv som samlats in för språkvetenskapliga ändamål brukar kallas en korpus. Korpusar var till en början mest intressanta för lexikologer och lexikografer, d.v.s. språkforskare som arbetar med att beskriva och producera lexikon. Datorlagrade korpusar gör det nämligen lätt att på automatisk väg ta fram konkordanser, d.v.s. tabeller där varje ordform i en text, eller en korpus, kan studeras i sitt textuella sammanhang. På senare år, när datalingvistiken blivit mer och mer empiriskt orienterad har korpusar också blivit en allmänt brukad resurs t.ex. för att utvärdera system, eller för att anpassa system, som utnyttjar stokastiska tekniker, till ett givet språk eller applikation. Datalingvistiken har då medverkat till att förbättra metoderna för korpusanalys, t.ex. möjligheterna att på automatisk väg bestämma ordklass eller morfologiska egenskaper för orden i en text. (Se kap. 4 för några sådana metoder.)
9 - 9 - För tvåspråkiga ordböcker och för översättningssystem används parallellkorpusar. I en parallellkorpus ingår texter som är varandras översättningar, eller som har samma ämne och syfte, men är producerade oberoende av varandra. Parallellkorpusar är vanligen länkade till varandra stycke för stycke, och mening för mening. I en tvåspråkig konkordans kan man se ett ord i sin meningskontext, tillsammans med översättningen av meningen. Parallella, länkade texter kan också utgöra en viktig resurs för översättare medan de arbetar, under förutsättning att texterna är av samma slag som översättaren för tillfället arbetar med. I datorstöd för översättning brukar de parallella texterna kallas översättningsminne. När meningar i den nya texten matchar meningar i översättningsminnet, visas detta för översättaren, t.ex. via färgkodning. Att läsa är inte samma sak som att lyssna, men många av de metoder som utvecklats för automatisk textläsning kan tillämpas också i samband med talförståelse. Ett taligenkänningssystem levererar ofta sitt resultat i form av en lista på ordsekvenser, rangordnade med den mest sannolika först (enligt systemets bedömning). Dessa ordsekvenser kan sedan passera genom en granskande komponent som filtrerar bort analyser som är grammatiskt omöjliga, och sedan vidarebefordras till komponenter som tillämpar informationsutvinningstekniker för att komma fram till vad som sas. Talförståelse är särskilt intressant i samband med röststyrning av maskiner och i dialogsystem som utgör gränssnitt mot informationssystem. En annan tänkt tillämpning, som dock ligger några år framåt i tiden, gäller automatisk översättning av tal, och automatiska tolktjänster vid telefonsamtal. 2.3 Generiska uppgifter och tekniker Flera av de tillämpningar som vi nämnt ovan har drag som gör dem speciella, men en närmare analys av de uppgifter som ett system ska utföra, leder ofta till att vi stöter på samma grundläggande problem. Några sådana grundläggande problem i textanalys är Lexikalisk analys - att identifiera de grundläggande enheterna (ordformer, tokens) i en text Morfologisk analys: att bestämma ordformernas egenskaper vad gäller - ordklass, - morfologiska och syntaktiska egenskaper, - grundform (stam eller lemma), - morfologisk struktur Syntaktisk analys / Parsning - att identifiera fraser, dvs. semantiskt intressanta ordgrupper, - att bestämma frasernas grammatiska funktioner och övriga egenskaper
10 Semantisk analys - att bestämma ordbetydelser (lexikal disambiguering), - att bestämma betydelsen för varje fras och för hela meningar Diskursanalys / Tolkning - att bestämma referenter till refererande uttryck, inklusive anaforiska referenser, - att bestämma uttryckta och implicita fakta och referentrelationer, - att bestämma språkhandlingar och retorisk funktioner, - att modellera kontext 2.4 Systemarkitekturer Ett vanligt sätt att bygga upp ett komplext textläsningssystem är att fördela uppgiften på flera, mer eller mindre generiska komponenter, där varje komponent gör en liten del av hela bearbetningen, och utdata från en komponent utgör indata till nästa komponent. Detta kallar vi en sekvensiell arkitektur. En något större flexibilitet får vi om vi tillåter en komponent att använda output från flera andra komponenter. Systemet VIE som refererades i figur 2.4 är sammansatt av ett antal generella komponenter på så sätt som visas i figur 2.6. Fig 2.6. Arkitektur för informationsutvinningssystemet VIE. När vi använder särdragsstrukturer eller termer som representationsformat för lingvistisk information (se kapitel 3), finns möjligheten att uttrycka samband mellan lingvistisk information på olika nivåer med deklarativa regler, som utnyttjas i bearbetningen med ett fåtal generella operationer som unifiering. En formalism för att skriva sådana regler heter PATR, och den kommer att introduceras senare i det här kompend-
11 iet för att beskriva syntaktiska och semantiska förhållanden. Detta ger ett enhetligt system, med betydligt färre komponenter, enligt figur 2.7. IN: mening PARSER med UNIFIERARE Regelinvokering Uppslagning REGLER LEXIKON chart AVLÄSARE UT: analys Figur 2.7. Översikt av ett system för meningsanalys.
12 Matematisk bakgrund 3.1 Introduktion Det här kapitlet ger en beskrivning av grunderna för de metoder och formalismer som kommer att användas i resten av kompendiet för att modellera språkliga yttranden och uttryck. Eftersom de några av de analysmetoder vi tar upp också använder sig av statistik kommer kapitlet också att ge några statistiska grundbegrepp. Kapitlet består av tre delar: Hur kan man beskriva vad som är en tillåten sträng i språket? Den här frågan kommer naturligvis att behandlas mer grundligt i resten av kompendiet men i det här kapitlet ger vi en kort översikt över de enklaste metoderna för att beskriva språk med basen inom formella språk och automatateori. En kort introduktion till de statistiska grundbegrepp som används när man vill använda statistiska metoder för att analysera språket. Vi kommer även kortfattat att beskriva hur man kan koppla ihop statistik med metoder för att beskriva ett språk. Vilka strukturer behöver man för att kunna representera innehållet, till exempel syntax och semantik, i en text? Här kommer vi framförallt beskriva oss av särdragsstrukturer, men vi kommer också att ta upp termer, ett alternativ som används i Russel och Norvig (1995). Vi kommer också att ge några kopplingar till diskret matematik som är den formella matematiska bakgrunden till dessa strukturer.
13 Olika klasser av språk När man vill analysera ett språk behöver man något sätt att beskriva vad som är en tilllåten följd av tecken eller ord i språket. Om man, som vi, är intresserade av de naturliga språken, är det naturligtvis svårt att ge en fullständig beskrivning av vad som är en tillåten sträng i ett språk. Inom datavetenskapen däremot pratar man ofta om något som kallas för formella språk. Ett formellt språk är ett språk som konstruerats för ett speciellt syfte. Två bra exempel är programmeringsspråk eller det formelspråk som används inom logiken. Eftersom ett formellt språk är konstruerat för ett speciellt ändamål är det oftast mycket enklare än de naturliga språken. Speciellt programmeringsspråk är ofta relativt enkla eftersom de konstruerats för att kunna hanteras effektiv av en dator. (Här använder vi alltså enkel i betydelsen vad som är enkelt att beskriva och hantera för en dator. Vad vi människor tycker är enkelt är ofta en helt annan sak.) Några påtagliga skillnader mellan naturliga språk och programmeringsspråk är: Naturliga språk har många fler lexikala enheter än programmeringsspråk, några tiotusental i jämförelse med några tiotal; De lexikala enheterna förekommer i flera olika former, inte bara en; Ordformerna är inte entydiga, utan kan svara mot flera olika lexikala enheter, t.ex. får som presens av verbet få, singularis och pluralis av substantivet får; Icke desto mindre kan teorin för formella språk tillämpas också på naturliga språk. Man tänker då på ett språk som en mängd av strängar definierade över ett givet alfabet. Denna teori kan dessutom ges tillämpningar på flera sätt: meningar kan definieras som strängar av ordformer, eller mera strikt, tokens; ordformer kan ses som strängar över ordled (morfer), och dessa i sin tur definieras som strängar över bokstäver eller, alternativt, fonem. När man vill karaktärisera hur enkelt ett språk är brukar man använda den så kallade Chomskyhierarkin. Chomskyhierarkin delar in språken i fyra klasser där den första klassen hanterar de enklaste språken och sedan utvidgas klasserna till att innehålla mer och mer komplicerade språk. Chomskyhierarkin kan sammanfattas av nedanstående tabell. Klass av språk Kan beskrivas av Exempel på språk Reguljära språk Finita automater, Reguljära uttryck a*b(c d) Kontextfria språk Kontextfri grammatik a i b i Kontextkänsliga språk PATR-II a i b i c i Fria språk Turingmaskin Alla språk som kan kännas igen av en dator
14 De reguljära språken är den enklaste klassen av språk. Det språk som ges som exempel för klassen består av valfritt antal (0 eller flera) a följt av ett b och till sist ett c eller ett d. Det här är ett typiskt exempel på ett reguljärt språk där man alltså kan definiera språket genom att ange en grundsträng och sedan alternativ eller upprepningar av delar av denna sträng. Reguljära språk kan beräknas av finita automater som vi kommer att ge en mer detaljerad beskrivning av i nästa avsnitt. Nästa klass är de kontextfria språken. De innehåller alla de reguljära språken och dessutom ett antal språk som inte är reguljära. Ett typexempel på ett språk som är kontextfritt men inte reguljärt är språket a i b i, det vill säga alla strängar som innehåller först ett antal a och sedan samma antal b. Kontextfria språk kommer vi också att beskriva mer detaljerat längre fram i kapitlet. Om man sedan går vidare till de kontextkänsliga språken så utvidgar man ytterligare klassen av språk som kan hanteras. Ett bra exempel på ett språk som kan beskrivas med en kontextkänslig grammatik men inte med en kontextfri är språket a i b i c i som består av strängar som innehåller samma antal a, b och c. Kontextkänsliga språk kan beskrivas av formalismen PATR-II som vi också kommer att använda för att beskriva naturliga språk längre fram i kompendiet. Den sista klassen av fria (eng. unresticted) språk innehåller alla språk som kan beräknas av en dator. Man brukar säga att alla språk som man naturligt kommer att tänka på är kontextkänsliga, därför är det ganska svårt att hitta bra exempel på språk som inte är det. De exempel som finns är ganska konstruerade och av typen: Språket som innehåller alla strängar som kan genereras av någon kontextkänslig grammatik. Vi kommer inte att förklara vad en Turingmaskin är för något här. Det enklaste man kan säga är att det är en matematisk modell av en dator. Turingmaskinen skapades på 30-talet av Alan Turing. Som kuriosa kan nämnas att engelsmännen byggde en Turingmaskin under andra värdskriget och den lär ha hjälpt dem att vinna kriget genom att dechiffrera hemliga tyska meddelanden. Förutom dessa fyra klasser finns naturligtvis även språk där inte ens en dator kan avgöra om en sträng tillhör språket eller inte. Dessa språk blir i allmänhet ännu mer konstlade än fria språk och vi ska inte gå in mer på dem. Naturligt språk brukar i allmänhet anses vara kontextkänsligt, det vill säga det skulle kunna beskrivas fullständigt med till exempel en PATR-grammatik. I praktiken vill man ofta beskriva en mindre delmängd av språket och då kan det ibland räcka med något enklare. När man väljer hur man vill beskriva ett språk är det inte heller bara viktigt att bestämma om det är möjligt att beskriva ett språk inom en viss klass. Det är också så att man ibland kan välja en mer komplicerad klass än man egentligen behöver för att beskrivningen blir enklare att göra. Rent allmänt kan man säga att när man försöker beskriva ett språk eller subspråk med någon form av grammatik så har man tre mål. Man vill göra beskrivningen så omfattande som ändamålet kräver, dvs den ska täcka alla relevanta uttryck i språket. Man vill också att beskrivningen ska vara selektiv, dvs slå ut så många felaktiga eller
15 irrelevanta uttryck som möjligt. Till sist ska beskrivningen också vara enkel att förstå och utvidga Finita automater Det enklaste sättet att introducera finita automater är att börja med ett litet exempel. Vi antar vi vill använda en finit automat som känner igen följande meningar. Kalle springer. Den lilla bollen rullar. En boll rullar. Den lilla röda bollen rullar. Om vi försöker känna igen språket utifrån enskilda ord får vi problem eftersom det finns alltför många variationer. Vi väljer därför att i stället titta på ordklasserna för att förenkla problemet och använder följande lilla lexikon för det. Här används några förkortningar som är vanliga inom datorlingvistiken. En svensk förklaring står bredvid varje benämning. Kalle PROPN (egennamn) den en DET (artikel) lilla röda A (adjektiv) boll bollen N (substantiv) rullar springer V (verb) Om vi nu skriver om meningarna och använder ordklasserna i stället för orden så kan vi konstatera att följande följder av ordklasser förekommer i våra exempelmeningar. Kalle springer. PROPN V Den lilla bollen rullar. DET A N V En boll rullar. DET N V Den lilla röda bollen rullar. DET A A N V Vi bestämmer oss för att skapa följande lilla finita automat som klarar av att känna igen ordklassföljderna ovan. PROPN DET N V A De runda ringarna i automaten kallas för tillstånd. Pilarna kallas för bågar och markerar att man kan hoppa från ett tillstånd till ett annat i automaten om man har ett något som matchar det som står på bågen. Pilen till tillstånd 1 markerar att här får man börja. Tillstånd 4 är extra markerat och det innebär att det är ett så kallat sluttillstånd, dvs
16 ett tillstånd som det är tillåtet att sluta på. Den här automaten säger alltså att en mening alltid måste börja med antingen ett egennamn (PROPN) eller en artikel (DET), noll eller flera adjektiv (A) och ett substantiv (N). Sist i meningen måste alltid komma ett verb (V). En finit automat kan användas både för att kontrollera om en viss sträng tillhör ett språk och för att generera strängar som tillhör språket. Om man till exempel vill kontrollera om strängen Kalle springer hör till språket så går man in i automaten vid starttillståndet (tillstånd 1). Man konstaterar sedan att Kalle är en PROPN och hoppar vidare till tillstånd 3. Därefter konstaterar vi att springer är ett verb och hoppar vidare till tillstånd 5. Nu är meningen slut och vi står i ett sluttillstånd i automaten. Meningen Kalle springer hör alltså till språket. Om man vill använda automaten för att generera meningar kan man göra så här. Vi startar vid starttillståndet som är tillstånd ett. Sedan hoppar vi vidare till tillstånd 2 och väljer en artikel, till exempel en. Nu hoppar vi till tillstånd 3 och väljer ett substantiv, boll. Till sist hoppar vi till sluttillståndet och väljer ett verb, rullar. Nu står vi i ett sluttillstånd och har alltså genererat meningen En boll rullar. För att ge lite fler ideer om vad finita automater kan användas till kommer här ytterligare ett exempel. I det här fallet vill vi beskriva hur svenska ord som börjar på bokstaven s kan se ut fram till första vokalen. I det här exemplet använder vi alltså bokstäver istället för ordklasser som markering för vilka bågar som vi ska följa i automaten. Automaten går att bygga ut för att omfatta alla möjliga bokstavskombinationer i en stavelse för det svenska språket, men den skulle då bli ganska stor och svåröverskådlig. I automaten används ordet Vokal för att representera valfri vokal. På flera ställen är också automaten förenklad genom att det ibland finns mer än en bokstav på varje båge. Notera speciellt att automaten innehåller två sluttillstånd, vilket alltså är tillåtet. I det här fallet är det extra sluttillståndet infört för att få en lite snyggare automat, men det finns fall där man behöver mer än ett sluttillsstånd för att kunna känna igen ett språk. Om vi tittar närmare på de två finita automater som vi definierat ser vi att givet att vi vet vilken ordklass eller bokstav vi får in så har vi alltid bara ett enda val på vilket tillstånd vi ska hoppa vidare till. En sådan automat kallas för en deterministisk finit automat (förkortat DFA). Ibland är det dock praktiskt att tillåta några valmöjligheter. Vi kan demonstrera detta genom att vi försöker utöka vår första lilla exempelautomat så att den också klarar av följande meningar. Bollen rullar. Den röda rullar. Den rullar. Den första meningen kan vi hantera genom att vi tillåter oss att både starta i tillstånd ett och två i automaten. Den andra meningen hanteras enklast genom att vi inför en extra båge mellan tillstånd 2 och 3 där vi kan hoppa vidare om vi har ett adjektiv i meningen. Det sista fallet kan man hantera genom att man tillåter sig att hoppa direkt
17 Vokal 1 4 k Vokal Vokal r,l,v 3 r,l,j p r t 3 4 m,n,v,l,f 3 Vokal Vokal s Vokal mellan tillstånd 2 och 3 utan att man använder sig av något tecken eller ord i meningen. Automaten som man får fram kommer att se ut så här. PROPN DET N V A A Jump Som synes innehåller den här automaten flera ställen där man kan välja vad man ska göra. För det första kan man välja i vilket tillstånd man vill starta i automaten. För det andra kan man i tillstånd 2 välja om man ska hoppa vidare direkt till tillstånd 3 eller om man ska stanna och vänta på om man kan matcha något med någon båge. Dessut-
18 om kan man, om man har ett adjektiv, i tillstånd 2 välja om man vill stanna kvar (följa den loopande bågen, eller om man vill hoppa vidare till tillstånd 3. Den här typen av automat kallas för en icke-deterministisk (eng nondeterministic) finit automat. Den förkortas ofta med NFA. Om man jämför deterministiska och ickedeterministiska automater så kommer man att se att de kan beskriva precis samma språk. Det finns relativt enkla algoritmer för hur man gör om en icke-deterministisk automat till en deterministisk. Däremot är det ofta så att en icke-deterministisk automat ofta blir mindre och enklare att förstå än den deterministiska motsvarigheten. Om man tänker på hur de ska implementeras är det däremot betydligt enklare att implementera en deterministisk finit automat eftersom man aldrig behöver hålla reda på några alternativ för den. För att enkelt sammanfatta vad en finit automat är och hur den fungerar kan man säga att en finit automat består av: En ändlig mängd av tillstånd Ett (för deterministiska automater) eller flera (för icke-deterministiska automater) av tillstånden kallas för starttillstånd. Där börjar man alltid gå igenom automaten. Mellan tillstånden finns ett antal bågar som talar om hur man får hoppa mellan tillstånden. Varje båge är märkt med det som ska kännas igen eller genereras när man följer bågen. För indeterministiska automater finns också hopp-bågar, där man kan hoppa vidare i automaten utan att matcha mot något i språket. En del av tillstånden är sluttillstånd. Det är bara om man hamnat i ett sluttillsstånd som den sträng man känt igen eller genererat är godkänd i språket. Den stora fördelen med finita automater är att de är snabba på att känna igen eller generera en sträng. De är också lätta att implementera. Längre fram i kompendiet kommer vi att använda finita automater som hjälp för att representera böjningsändelser i ett lexikon. Frågan om finita automater kan beskriva naturliga språks syntax är mera omstridd. Under lång tid har detta ansetts helt uteslutet, men eftersom man numera på automatisk väg kan skapa automater utifrån regelmängder, inklusive att approximera kontextfria språk, så har finita automater fått en renässans. Att försöka skriva en syntaktisk automat för hand är dock ett oöverstigligt problem, vilket man kan se om man tittar på följande meningar: Den lilla pojken rullar den röda bollen. Råttan som katten som hunden som pojken ägde jagade fångade smet. I det första exemplet ser vi att den del av meningen som utgör subjekt och den del som utgör objekt verkar vara uppbyggd på samma sätt. Vi skulle därför vilja beskriva den strukturen på ett ställe och sedan utnyttja den för både subjekt och objekt. Det är nå-
19 got som man inte kan göra med finita automater eftersom varje del måste beskrivas i sitt sammanhang. I den andra meningen ser vi ett exempel där det verkar som om vi kan lägga till hur många X som som helst i en mening. Det verkar alltså som om vi behöver konstruktioner av typen a n b n åtminstone i teorin. Men i praktiken får man leta länge i faktiskt förekommande texter innan man hittar konstruktioner av denna typ med n > 2. Övningar 3.1 Välj tre ord som börjar på s och använd automaten i exemplet för att känna igen bokstäverna fram till första vokalerna som en godkänd kombination i svenska. 3.2 Utöka automaten så att den också klarar av ord som börjar med b, d och g. 3.3 Gör en automat som klarar av att känna igen svenska tidsuttryck. Automaten ska kunna hantera uttryck som: i morgon i morgon klockan i morgon nästa vecka klockan nästa vecka på måndag klockan klockan på måndag nästa vecka 3.4 Försök göra en automat som hanterar klarar av att känna igen språket a n b n. Kan du lista ut varför det inte fungerar? Reguljära uttryck Ett alternativt sätt att definiera reguljära språk på är genom att använda reguljära uttryck. Reguljära uttryck är mycket användbara för att hitta olika typer av uttryck i faktiska texter. I synnerhet i ordklasstaggade texter (se kap. 5) kan reguljära uttryck användas för att hitta frasmönster av olika slag. Vi ger här först en lista på operationer som är vanligt förekommande i reguljära uttryck och illustrerar sedan med några enkla exempel. Den syntax vi tillämpar är den som tillämpas i scriptspråk som Perl eller operativsystem som Unix. Man ska lägga märke till att man kan tillföra symboler för många andra operationer, som kan definieras i termer av dem som visas i tabellen. Det är också användbart att kunna införa symboler för definierade uttrycksmängder. Vanliga sådana definitioner är: DIGIT = [ ] NOLL = [0] LOWER = [a b c d e f g h i j k l m n o p q r s t u v w x y z] UPPER = [A B C D E F G H I J K L M N O P Q R S T U V W X Y Z] ALPHANUM = DIGIT LOWER UPPER
20 Operation Beteckning Förklaring Symbol a, b, c,... Symboler i alfabetet som matchar vid identitet Jump e Symbol för frånvaro av uttryck Uttryck r, s, t,... Godtyckligt reguljärt uttryck (strängmängd) Konkatenering rs Matchar ett uttryck bestående av något som matchar r följt av något som matchar s. Union r s Matchar ett uttryck som matchar antingen r eller s. Iterering r + Matchar en sekvens av uttryck som matchar r Optionalitet r? Samma som [r e] Begränsad iterering r{n-m} Matchar en sekvens av uttryck som matchar r, om denna sekvens har minst n och högst m medlemmar. r{n} eller r n r{n-} Matchar en sekvens av exakt n st uttryck som matchar r. Matchar en sekvens av n eller flera uttryck som matchar r. Kleenestjärna r* Samma som [r? r+] Tabell 1: Några operationer för att definiera reguljära uttryck Ett reguljärt uttryck som identifierar heltalsuttryck i löpande text kan vara DIGIT+
21 Om vi vill ta hänsyn till att heltal ofta inte börjar med noll kan vi hellre skriva [ ][ ]* eller (DIGIT - NOLL) DIGIT* Men då kommer vi att missa heltalsuttryck som t.ex där de tre sista nollorna separerats från början med ett blanktecken. Heltalsuttryck kan ofta vara skrivna med instoppade blanktecken eller kommatecken varför en bättre definition kan vara (DIGIT - NOLL)(DIGIT{0-2}(DIGIT + [, ]DIGIT{3})* Ett reguljärt uttryck som definierar samma mängd av ordklasssymboler som den första automaten i är: (PROPN DET A* N) V Ett reguljärt uttryck för den utvidgade icke-detrministiska automat i samma kapitel är (PROPN DET? A* N?) Kontextfria grammatikor Vi ska nu gå vidare till nästa klass av språk, de kontextfria. Eftersom vi sa att ett problem med finita automater var att det är svårt att utnyttja att olika delar av en mening är uppbyggd på samma sätt kan vi utgå från några meningar som innehåller både subjekt och objekt för att ge ett första exempel på en kontextfri grammatik. Kalle rullar den lilla bollen. En boll rullar. Den lilla bollen rullar. En hund rullar den bollen. En liten hund väcker Kalle. Precis som för finita automater förenklar vi problemet genom att titta på följder av ordklasser i stället för att titta direkt på de enskilda orden. Vi bestämmer oss för att följande ordklasser för orden i meningarna ovan. Kalle PROPN (egennamn) den en DET (artikel) lilla, liten A (adjektiv) boll, bollen, hund N (substantiv) rullar, väcker V (verb) Vi vill nu skriva en så kallad kontextfri grammatik som beskriver hur meningarna ovan är uppbyggda. En kontextfri grammatik består av ett antal regler. Varje regel be-
22 står av ett vänsterled och ett högerled och säger ungefär vänsterledet består av högerledet. Vi bestämmer oss för att använda kategorin (eller klassen) S för att representera en hel mening. Vi kan då skriva den kontextfria grammatiken på följande sätt: S -> NP VP NP -> PROPN NP -> DET N NP -> DET A N VP -> V VP -> V NP Den här grammatiken kan läsas ungefär så här. En sats (S) består av en nominalfras(np) följt av en verbfras (VP). En nominalfras(np) kan vara uppbyggd på tre olika sätt. Antingen kan den enbart vara ett egennamn (PROPN), eller en artikel (D) följt av ett substantiv (N), eller artikel och adjektiv (A) följt av substantiv. En verbfras kan bestå av enbart ett verb eller ett verb (NP) följt av en nominalfras. När man använder en kontextfri grammatik för att generera eller känna igen ett språk försöker man hitta en trädstruktur där topnoden i trädet motsvarar den kategori man söker, i det här fallet en sats och bottennoderna ( terminalnoderna ) motsvarar varje ord i meningen. Ett sådant här träd brukar kallas för analysträd eller frasstrukturträd. Om vi vill analysera meningen Kalle rullar den lilla bollen så får vi följande trädstruktur. S VP NP NP PROPN V DET A N Kalle rullar den lilla bollen I frasstrukturträdet ser man tydligt vilka regler som har används för att analysera varje del av meningen. Om man börjar uppifrån så har vi använt S-regeln för att dela upp meningen i en nominalfras och en verbfras. Nominalfrasen har sedan analyserats som ett egennamn (PROPN) med hjälp av den första NP-regeln. Verbfrasen har delats upp i ett verb och en nominalfras med den andra VP-regeln. Verbfrasens nominalfras har sedan analyserats som artikel, adjektiv och substantiv av den tredje NP-regeln. För ytterligare demonstrera hur kontextfria grammatikor kan användas ger vi ytterligare ett exempel. I det exemplet vill vi känna igen palindrom, det vill säga ord som blir desamma oavsett om de läses framifrån eller bakifån. För att få en lite mindre
23 grammatik begränsar vi oss till palindrom som innehåller bokstäverna a och n. I det här exemplet kan man notera att vi inte använder oss utav något lexikon utan istället direkt skriver in bokstäverna i högerledet på grammatikreglerna. P -> apa P-> npn P -> aa P-> nn P-> a P-> n Vi demonstrerar hur grammatiken fungerar med att försöka rita frasstrukturträd för anna och annan. Som vi ser lyckas det med palindromet anna medan frasstrukturträdet för annan blir ofullständigt eftersom det inte finns något som kan matcha det sista n-et i ordet. P P P P P a n n a a n n a n För att göra en sammanfattning av kontextfria grammatikor så kan vi säga att en kontextfri grammatik består av: En ändlig mängd terminala symboler. (I våra exempel motsvarar dessa antingen de symboler som kommer från lexikonet eller bokstäverna i palindromexemplet). En ändlig mängd icke-terminala symboler. (Det som används som vänsterled i grammatikreglerna.) En ändlig mängd regler. Varje regel skrivs på formen VL -> HL där VL alltid är en icke-terminal symbol medan VL består av valfritt antal symboler som kan vara både terminala och icke-terminala. Till sist kan vi säga något om fördelar och nackdelar med kontextfria grammatikor. För det första är kontextfri grammatikor relativt enkla att begripa och också att implementera på en dator, även om de blir något mer ineffektiva än finita automater. Man kan också säga att kontextfria grammatikor ger en bättre och mer lättbegriplig beskrivning av satser i naturligt språk. Trots det är det fortfarande många olika fenomen i språket som blir krångliga att hantera. Ett exempel är kongruensböjning i svenska nominalfraser som kräver många kontextfri regler för att kunna hanteras. Det är också
24 så att frasstrukturträdet inte alltid motsvarar den analys som man vill få av en mening, eftersom den mer speglar meningens syntaktiska struktur än dess innehåll. Övningar 3.5 Hitta två svenska meningar som kan genereras av den kontextfria grammatiken i exemplet ovan. Rita upp frasstrukturträden för dina två meningar. 3.6 Utöka grammatiken ovan så att den kan hantera även följande meningar. Kalle rullar en boll till den lilla hunden. Rullar Kalle bollen? Hunden väcker Kalle på morgonen. Rullar Kalle bollen till hunden? 3.7 Gör en grammatik som klarar av att analysera matematiska uttryck. Den ska till exempel klara av att hantera nedanstående uttryck (2*3) (4/2)-1 (5*2)+(3-2) 3.8 Gör en grammatik som beskriver språket a n b n. Försök också göra en grammatik för språket a n b n c n. Kan du lista ut varför det fungerar att göra en grammatik för det första språket men inte för det andra?
25 Statistiska grunder På senare år har det blivit mycket populärt att använda statistik som hjälpmedel när man vill analysera naturligt språk och vi kommer att gå igenom en sådan metod längre fram i kompendiet. För att kunna förstå statistiska metoder behövs några statistiska grundbegrepp som vi kommer att går igenom här. Vi kommer också att gå igenom hur man enkelt kan kombinera statistik med finita automater och kontextfri grammatik och vilka problem som finns med att göra det. Det här avsnittet förutsätter grundläggande sannolikhetsteori som finns beskrivet i Russell & Norvig, 1995: kap Den brusiga kanalen En grundidé när man arbetar med statistik i samband med naturligt språk är vad man brukar kalla för den brusiga kanalen (eng. the noicy channel). Iden här är helt enkelt att det som en människa eller dator uppfattar av ett yttrande aldrig är exakt detsamma som vad som ursprungligen skrevs eller sades. På vägen tillkommer en del störningsmoment eller felkällor som förvrängt yttrandet. Uppgiften är nu att utifrån det som uppfattades försöka skapa sig en bild av vad som sades. Om man vill ge en bild av den brusiga kanalen kan det se ut ungefär så här: I -> brusig kanal -> O Det som ursprungligen yttrades i den här modellen är alltså I och det som uppfattades är O. Det finns många olika sätt att använda den här modellen och för att göra den enklare att förstå kommer några exempel. Någon skriver på maskin. I är då vad denna person tänkt att skriva medan O är det som personen verkligen skrev och som förmodligen innehåller några skrivfel, till exempel sratisik i stället för statistik. Vi vill göra automatisk taligenkänning. I är då ett yttrande av någon person medan O är det som datorn uppfattade. Eftersom det är svårt att höra skillnad på många ljud i språket kommer O att innehålla fel där ord som låter lika byts ut. T ex kan ordet jag uppfattas som ja. Automatisk teckenigenkänning, dvs att kunna scanna in en sida text till en dator. I är det som stod på den ursprungliga sidan och O är det som datorn läst in. Även här har det förmodligen skett en del fel på vägen speciellt kan det vara svårt att skilja på 0 (noll) och O eller 1, I och l. Om man ska använda sig av en brusig kanal som modell så antar vi alltså att det vi har att titta på är det som kommit ut ur kanalen, det vill säga O. Vi har alltså bara tillgång till det som maskinskrivaren skrev, inte den ursprungliga texten. Vi har tillgång till de ljudkombinationer som datorn uppfattade men inte vad som sades. Vi har tillgång till
26 den inscannade texten men inte originalet och så vidare. Uppgiften är nu att försöka lista ut vad som var originalet, det vill säga vad som kom in till kanalen, vårt I. Sättet att beräkna I är att använda statistik. Vi vill beräkna vad som var mest sannolika indata till kanalen givet att vi såg den utdata vi gjorde. För att kunna göra detta behöver man skaffa sig en statistisk modell över dels hur felen i kanalen uppkommer och dels hur indata (i vårt fall språket) ser ut. Det enda sätt vi kan göra detta på är att titta på språket och försöka lista ut vilka samband som är viktiga. När vi bestämt vilka samband vi vill använda så räknar vi ut de sannolikhetsmått vi behöver och skapar på så sätt den statistiska modell vi behöver. Många av de statsistiska modeller som används idag kan tränas automatiskt, vilket är att föredra eftersom det normalt behövs stora mängder data för att skapa en bra statistisk modell. Det finns några viktiga grundbegrepp som ofta används när man ska skapa en statistisk modell: Maximal likelihood estimator (MLE). Uppskattning av en sannolikhet efter det andel gånger som en viss händelse uppträtt i en träningstext. Till exempel det antal gånger en mening hade exakt 5 ord delat med totalt antal meningar eller det antal gånger ordet tiger förekommit som ett substantiv delat med alla gånger ordet tiger förekommit. Säkerhet (Accuracy). För att veta exakt vilka sannolikhetsmått som gäller i naturligt språk skulle vi vara tvungna att studera oändligt stora texter. Säkerheten är ett mått på hur säkra vi är på att de mått vi använder är korrekta. Felmarginal Ett mått på hur bra vår modell är, dvs hur stor avvikelse från verkligheten vi tillåter oss att ha. Glesa data (Sparse data) Sällsynta förekomster av en händelse, vilket är vanligt i naturligt språk. Ett exempel är att hur stor träningsmängd vi än har så kommer det alltid att finnas vissa ord eller betydelser av ord som inte förekommer i texterna. Expected likelihood estimator (ELE) Som MLE men man tar hänsyn till sällsynta förekomster av en händelse. I MLE så antar man att alla händelser som aldrig förekommit har sannolikheten 0. I ELE däremot så antar vi att det finns en viss liten sannolikhet även för händelser som vi aldrig sett. Till exempel även om ordet tiger bara förekommit som substantiv i våra texter så antar vi att det finns en liten sannolikhet för att det också till exempel kan vara ett verb eller ett pronomen. (Det här spelar framförallt stor roll när man försöker uppskatta hur flera sannolikheter fungerar tillsammans, vilket ofta innebär att man multiplicerar sannolikheter.) För att ytterligare förklara vad som menas med säkerhet och felmarginal så tar vi ett enkelt exempel. Vi antar att vi vill beräkna en statistisk modell för hur ofta krona kommer upp när vi kastar ett mynt. I det här fallet så vet vi att den korrekta modellen
Datorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer
Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
DAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik
Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Matematik för språkteknologer
1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA
Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord
Grim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Teoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
Frasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet
Formell logik Kapitel 1 och 2 Robin Stenwall Lunds universitet Kapitel 1: Atomära satser Drömmen om ett perfekt språk fritt från vardagsspråkets mångtydighet och vaghet (jmf Leibniz, Russell, Wittgenstein,
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Kursbeskrivning med litteraturlista HT-13
Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,
MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP
MÄLARDALENS HÖGSKOLA CD5560 Formella språk, automater och beräkningsteori Användarmanual för simulatorn JFLAP Innehållsförteckning Att komma igång med JFLAP... 3 Att köra en sträng... 5 Att köra flera
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.
Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Svensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Kommentarer till bedömningsmatris för Tala Kurs D
Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Grammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Automater. Matematik för språkteknologer. Mattias Nilsson
Automater Matematik för språkteknologer Mattias Nilsson Automater Beräkningsmodeller Beräkning - (eng) Computation Inom automatateorin studeras flera olika beräkningsmodeller med olika egenskaper och olika
Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1
Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens
TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Kommentarer till bedömningsmatris för Tala Kurs D
Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande
Datorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Uppsala Universitet Matematiska Institutionen Thomas Erlandsson
Uppsala Universitet Matematiska Institutionen Thomas Erlandsson LÄSANVISNINGAR VECKA 36 VERSION 1. ARITMETIK FÖR RATIONELLA OCH REELLA TAL, OLIKHETER, ABSOLUTBELOPP ADAMS P.1 Real Numbers and the Real
Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1
Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut
Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater
Programmering för språkteknologer II OH-serie: ändliga automater reguljära uttryck i Java Mats Dahllöf Ändliga automater Abstrakt maskin, tillståndsmaskin, transitionssystem. (Den enklaste typ man brukar
Kommentarer till bedömningsmatris för Skriva Kurs C
Kommentarer till bedömningsmatris för Skriva Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar ett första intryck och är en övergripande
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
ENKEL Programmering 3
ENKEL Programmering 3 Figurer i långa rader Titta på de olika figurerna i de olika raderna. Kan du se att de olika figurerna i varje rad är placerade enligt ett visst mönster? Kan du lista ut vilken figur
Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg
Betygskriterier Examensuppsats 30 hp. Betygskriterier Tregradig betygsskala används med betygen icke godkänd (IG), godkänd (G) och väl godkänd (VG). VG - Lärandemål har uppfyllts i mycket hög utsträckning
Kontextfria grammatiker
Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016
Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger
MATEMATIKENS SPRÅK. Avsnitt 1
Avsnitt 1 MATEMATIKENS SPRÅK Varje vetenskap, liksom varje yrke, har sitt eget språk som ofta är en blandning av vardagliga ord och speciella termer. En instruktionshandbok för ett kylskåp eller för en
Om ämnet Engelska. Bakgrund och motiv
Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,
Pragmatisk och narrativ utveckling
Pragmatisk och narrativ utveckling Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Pragmatik! Pragma! handling! hur vi använder språket! hur vi handlar genom språket! Pragmatik!
Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet
Kursens mål Efter avslutad kurs skall studenten kunna planera, genomföra, sammanställa och försvara ett eget projekt samt kunna granska och opponera på annan students projekt. Studenten ska även kunna
Riktlinjer för bedömning av examensarbeten
Fastställda av Styrelsen för utbildning 2010-09-10 Dnr: 4603/10-300 Senast reviderade 2012-08-17 Riktlinjer för bedömning av Sedan 1 juli 2007 ska enligt högskoleförordningen samtliga yrkesutbildningar
Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Föreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.
Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.
Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Automatisk textsammanfattning
Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem
Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1
Lexikal semantik Lingvistik 1 Uppsala universitet 1 Nyckelord idag Semantiska egenskaper Komponentanalys Prototypteori Relationer mellan ord Kognitiv lexikal semantik Uppsala universitet 2 Semantiska egenskaper
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator
version 2014-09-10 Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator Studentens namn Handledares namn Examinerande
En byggmodell över språket fonemet morfemet
En byggmodell över språket Tänk dig att språket är en byggnad, en jättestor byggnad naturligtvis. Byggnaden är av lego. Tänk dig att de enklaste legobitarna är orden. Kombinationerna är oändliga men inte
Fraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Skrivprocessen. Skrivprocessen och retoriken. Skrivprocessen Retoriken Förklaringar
Skrivprocessen Att skriva är ett hantverk något som du kan lära dig. För att bli en bra hantverkare krävs övning. Skrivprocessen liknar i många avseenden den så kallade retoriska arbetsprocessen som vi
Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692
Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...
Anhållan om ändrad ersättning för vissa HST
INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI Institutionen för filosofi, lingvistik och vetenskapsteori Martin Jacobsson Viceprefekt för utbildning på grundnivå och avancerad nivå 031-786
Pedagogisk planering för ämnet: Svenska
1(5) Pedagogisk planering för ämnet: Svenska Tidsperiod: årskurs 4 Syfte & övergripande mål: Vi kommer att läsa, skriva, lyssna och tala. Syftet är att du ska utveckla förmågan att: - formulera dig och
För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.
Språkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
grammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Dependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1
Förmågor som eleverna ska utveckla i svenska Praktisk Svenska 1 Praktisk Svenska 2 Praktisk Svenska 3 Kunskapskrav i svenska Formulera sig och kommunicera i tal och skrift. Jag kan Formulera positiva tankar
http://www.sm.luth.se/~andreas/info/howtosearch/index.html
& ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom
Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.
UPPSALA UNIVERSITET Datorlingvistisk grammatik I Institutionen för lingvistik och filologi Oktober 2007 Mats Dahllöf http://stp.ling.uu.se/ matsd/uv/uv07/dg1/ Logisk semantik I 1 Lite om satslogik 1.1
Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
BLOCK 1. 1A. Att komma igång
BLOCK 1 1A. Att komma igång Blocket omfattar sidorna 8 23 i läseboken och sidorna 7 8 i grammatikboken samt hörövningar. 1. Vem är du? 2. Vilka fyra färdigheter är viktiga vid språkinlärning? 3. Hur många
Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.
Ulla Veres viceprefekt för utbildning på grund- och avancerad nivå Prefekten 2013-10-28 FÖRSLAG till beslut Fastställande och revideringar av kursplaner Lingvistik Ärendet med förslag till beslut Prefekten
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng
Utbildningsplan Dnr G 2017/293 HUMANISTISKA FAKULTETEN Språkteknologi, masterprogram, 60-120 högskolepoäng Master in Language Technology (One year Programkod: H2MLT 1. Fastställande Utbildningsplanen är
Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II
Kritiskt tänkande HTXF04:3 FTEB05 Grundläggande semantik II Deskriptiv vs. värderande/känslomässig mening Ords betydelser kan ha både deskriptiva och värderande/känslomässiga komponenter. Det blir tydligt
Instuderingsmaterial: Adjektiv, Substantiv och Verb
Instuderingsmaterial: Adjektiv, Substantiv och Verb Vad är Substantiv? Saker, namn, länder, städer etc. Man ska kunna sätta flera, en eller ett framför När ska substantiven ha stor begynnelsebokstav? -
Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet
MODERSMÅL Goda kunskaper i modersmålet gagnar lärandet av svenska, andra språk och andra ämnen i och utanför skolan. Ett rikt och varierat modersmål är betydelsefullt för att reflektera över, förstå, värdera
Grundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Lexikon: ordbildning och lexikalisering
Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke
Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk
Labb 1 - Textbearbetning med reguljära uttryck Textbearbetning: Dela upp en text i meningar Hitta alla namn i en text Hitta adjektiv i superlativ Lektion reguljära uttryck re modulen i Python Formella
Bedömningsstöd Verktygslåda för texttyper
Bedömningsstöd Verktygslåda för texttyper Varför? Vad? Hur? Undervisning, vägledning och feedback är i stor utsträckning det viktigaste för elevers motivation och skriftliga utveckling. Utöver det behöver
Parsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap
Parsning TDP007 Konstruktion av datorspråk Föreläsning 6 Peter Dalenius Institutionen för datavetenskap 2017-02-14 2 Analys av källkod Lexikalisk analys Bildar tokensutifrån källkodens text. Syntaktisk
Lingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Kursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Lingvistik I Linguistics I 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: LIN130 Gäller från: HT 2018 Fastställd: 2013-03-13 Ändrad: 2018-02-13 Institution Institutionen för
Objektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH
Objektorienterad modellering och diskreta strukturer 13. Problem Sven Gestegård Robertz Datavetenskap, LTH 2014 Rekaputilation Vi har talat om satslogik och härledning predikatlogik och substitution mängder
Grammatisk teori III Praktisk analys
Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas
Aspekt Nivå 1 Nivå 2 Nivå 3
Bedömningsmatris i engelska Elev: Årskurs: Termin: Aspekt Nivå 1 Nivå 2 Nivå 3 Hörförståelse: Uppfattar det Förstår det huvudsakliga Förstår både helhet och förstå, återge huvudsakliga innehållet och några
Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk
Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver
För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Använda Convertus Kursplaneöversättaren
Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste