1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -

Storlek: px
Starta visningen från sidan:

Download "1 Inledning. 1.1 Programförklaring. 1.2 Innehållet. 1.3 Beteckningskonventioner - 1 -"

Transkript

1 - 1-1 Inledning 1.1 Programförklaring Detta kompendium är utvecklat för en introduktionskurs i datalingvistik som vänder sig till studenter med tidigare kännedom om grundläggande lingvistik och datavetenskap. Ambitionen är att ge en pedagogisk framställning av några grundläggande modeller för språkbeskrivning som används inom datalingvistiken, speciellt för textanalys. 1.2 Innehållet Kapitel 2 ger en översikt över ämnet och några olika tillämpningsområden. Kapitel 3 introducerar ett antal matematiska begrepp och modeller som kompendiet utnyttjar. Kapitel 4 anger en metod att modellera lexikon och ordkunskap med svenska som exempelspråk. Kapitel 5 presenterar några olika modeller att klassificera ordformer på grundval av deras placering i texten. Kapitel 6 visar hur svenska fras- och satsstrukturer kan beskrivas med kontextfri grammatik. Kapitel 7 diskuterar hur särdragsvillkor kan användas för att uttrycka syntaktisk och semantisk information och därmed ge en noggrannare och utförligare beskrivning av språkliga konstruktioner. 1.3 Beteckningskonventioner Kursiv stil används framförallt metaspråkligt, d.v.s. när ord och meningar benämns inuti löpande text. Kursiv stil används också för fristående exempelmeningar och exempelord samt för vissa viktiga termer när de förklaras i texten. Typsnittet Courier används för att referera till särdragsattribut och värden inuti texten.

2 - 2-2 Vad är datalingvistik? 2.1 Språk och datorer Med en viss förenkling kan man säga att datalingvistikens uppgift är att utveckla programvara och system som kan utföra eller stödja olika typer av språktjänster. Tanken att datorer kan användas för sådana ändamål är nästan lika gammal som datorerna själva. De första experimenten gjordes med automatisk översättning och det så tidigt som i slutet av 40-talet; den första konferensen om maskinöversättning hölls sedan på MIT (Massachusetts Institute of Technology) i juni Det dröjde dock till 1963 innan det första maskinöversättningssystemet installerades för praktiskt bruk. Det var EURATOM, den Eurepeiska Atomenergigemenskapen i italienska Ispra, som köpte ett system för översättning mellan ryska och engelska, utvecklat vid Georgetown University i USA. Maskinöversättningsforskningen kom sedan av sig, efter den utvärdering som genomfördes i USA av den s.k. AL- PAC-kommittén (Automatic Language Processing Advisory Committee) 1966, och som kom till slutsatsen att maskinöversättningsforskningen nästan inte producerat någonting som var användbart, utan att resurser i stället borde satsas på verktyg för översättare och på lingvistisk och datalingvistisk grundforskning. Det var en aning ironiskt att den kritiska ALPAC-rapporten kom just när maskinöversättningssystem började användas praktiskt. Sedan dess har dock både forskningen och utvecklingen återhämtat sig och det finns i dag många system i praktiskt bruk. Å andra sidan kan vem som helst som använder ett generellt maskinöversättningssystem konstatera att kvalitén ligger ganska långt under vad en professionell översättare levererar, vilket inte hindrar att maskinöversättningar kan vara användbara i alla fall, eftersom alternativet till en maskinell översättning oftast är ingen översättning alls (goda översättare är en bristvara). En annan ironi är att datalingvistiken började med att ge sig på översättning, den kanske svåraste språktjänsten man kan ge sig på att automatisera, och som fortfarande framstår som dess Heliga Graal, ett mål som all erfarenhet numera säger att man inte kan nå till hundra procent, men som man ändå ständigt återkommer till och utvecklar nya modeller för. Men det är naturligtvis så att det är de svåraste problemen, dit vi förutom översättning kan räkna dialog, tal- och textförståelse och språkinlärning som är de mest utmanande och därför de mest intressanta. Forskningen om dessa svåra problem för också det goda med sig att den uppmärksammar ett antal olika delproblem, som efter en viss tid kan ges generella lösningar. Till de problem som datalingvistiken i dag kan sägas ha löst hör ordklassbestämning av orden i godtycklig

3 - 3 - löpande text (se nedan, kapitel 5) och parsning av ett stort antal grammatikformalismer. De innehållsliga nivåerna av språket, vad som i lingvistiken brukar kallas semantik och pragmatik, är sämre förstådda, men det finns ett antal förslag som griper över helheten och tillåter oss att formulera samband mellan de språkliga uttrycken och deras betydelse, såväl generellt som i en specifik kontext. Exempel på några sådana metoder ges i Russell & Norvig, kap Tanken att skapa system (artefakter) med mänsklig språkförmåga, vare sig det handlar om översättning, textförståelse eller kommunikation i naturligt språk, delar datalingvistiken med den gren av artificiell intelligens som på engelska kallas Natural Language Processing (NLP). NLP-forskare betonar ofta den språkliga kommunikationens beroende av omvärldskunskap och tenderar att fokusera språkets högre nivåer som diskurs- och dialoghantering. Målet är ofta att samtidigt förstå hur mänsklig kommunikation går till och modellera aspekter av den i körbara program. Datalingvistikens utveckling har också skett parallellt med att den allmänna språkvetenskapen alltmer börjat använda formella modeller. Många datalingvistiska forskare ser som sin främsta uppgift att modellera mänsklig språkförmåga så väl som möjligt med utgångspunkt i den aktuella lingvistiska teoribildningen. Starka kopplingar finns exempelvis mellan de unifieringsbaserade tekniker för parsning och tolkning som behandlas i kapitel 3 och 6, och de grenar av den generativa lingvistiken som anammat ett constraint-baserat synsätt på naturliga språks syntax och semantik. Även om det kan tyckas vara den bästa möjliga metoden att utgå från vetenskapens nuvarande ståndpunkt, när man vill modellera så pass komplexa fenomen som läs- och förståelseprocesser på dator, så finns det också en hel del problem med detta, i synnerhet för den som vill ta språkteknologien i bruk för praktiska ändamål. Ett problem är att varken AI-forskningen eller språkvetenskapen i dag har teorier som på samma gång är tillräckligt precisa och omfattande för att de ska kunna tas som utgångspunkt för utveckling av robusta system. Ett annat problem är att t.ex. lingvistiken tenderar att fokusera språkliga data som är relevanta för teoriutvecklingen och det handlar då ofta om data som inte är allmänt förekommande i de texter eller dialoger som man vill utveckla praktiska system för, t.ex tidningsnotiser eller enkla sökfrågor. Det finns alltså ofta en skillnad i vad man uppfattar som relevanta data mellan den teoretiskt orienterade språkvetenskapen och den praktiskt inriktade språkteknologin. Av detta skäl har datalingvistiken under senare år alltmer kommit att använda empiriska språkliga material i form av textsamlingar och inspelat tal i samband med systemutveckling och systemtestning. Med empiriska data som är representativa för just den tillämpning man har som grund för systemutvecklingen, kan systemets språkmoduler bli bättre anpassade till just det språk som förekommer i tillämpningen och systemets prestanda bli bättre. Praktisk språkteknologi uppmärksammar också datorstöd för språktjänster i lika hög grad som autonoma system. Om vi ser på datorsystem som maskiner som ersätter människor och tar över deras arbetsuppgifter, så blir det naturligt att simuleringen av

4 - 4 - den mänskliga förmågan hamnar i förgrunden. Om vi däremot ser på datorer som verktyg, som människor använder för att öka sina förmågor och färdigheter, får vi ett bredare perspektiv som både rymmer frågor om design och användbarhet och om möjligheter att utnyttja befintlig teknik på ett kreativt sätt. Ett slående exempel ges just av översättningsforskningen. Att denna initialt kom att handla om datorn som översättare är kanske inte så konstigt med tanke på att dåtidens datorer var något svåra att hantera för andra än specialister, men detta sätt att se på datoranvändning höll sig kvar som den dominerande tankefiguren även sedan pc:n blivit allmän egendom. Tanken att andra moment i översättningsverksamheter, så som redigering, granskning, ord- och termuppslagning, e-postförbindelse med författare och terminologer, låter sig automatiseras bättre än själva översättandet tog lång tid på sig att slå igenom. Men i dag är begreppet Translator s Workbench (översättarens arbetsstation) väl etablerat, och i dessa ingår ofta maskinöversättning som en modul bland flera andra. 2.2 Tillämpningar De flesta system och metoder vi tar upp i det här kompendiet är inriktade på automatisk textanalys. En del av metoderna har tillämpning också på högre nivåer av talförståelse, men vi tar inte upp taligenkänning som är ett problem som kräver andra typer av tekniker. När vi i dagligt tal talar om läsning, så gör vi det oftast som en aktivitet med ett eget syfte, t.ex. för att skaffa oss information eller för nöjes skull. Men vi läser ofta i speciella syften som en del av någon överordnad aktivitet. Då kan språktekniska system bidra på olika sätt till att underlätta läsprocessen.

5 - 5 - Fig Textkontroll, en komponent i systemet Skribent från Wordwork AB, som upptäcker vanliga formella fel i Worddokument. En speciell läsart är den som tillämpas vid språkgranskning. Den är speciell eftersom den kräver mer uppmärksamhet på formen än vad vi tillämpar normalt. I synnerhet texter som man skrivit själv är svåra att granska, eftersom man lätt blir blind för sina egna stereotypiska formuleringar och skrivfel. Sådana företeelser i en text hör dock till det som ett datorsystem har lättast att upptäcka eftersom det till stor del låter sig göras genom att jämföra teckensträngar i texten med teckensträngar i en ord- eller fraslista (figur 2.1). Dagens system tillåter även upptäckter av ord som är rätta i sig, Fig Markering av felaktigt subjekt i Word 7.0.

6 - 6 - men fel i sin kontext, t.ex. har en felaktig position eller böjningsändelse, och kan i många fall också föreslå korrekta alternativ (figur 2.2). Mer avancerad språkgranskning som t.ex. kan upptäcka tvetydigheter eller oklarheter i texten krävs det dock fortfarande människor för. Det förutsätter en generell förmåga att uppfatta innehållet i texten, som dagens teknik inte medger. Däremot finns numera system som kan föreslå alternativ, d.v.s. synonymer till det som står i texten, och anpassa formen till den aktuella kontexten (figur 2.3). Fig Förslag på synonymer med rätt böjningsform i Word 7.0. En annan speciell läsart är den vi tillämpar när vi skummar en tidning för att hitta någon intressant notis, eller en artikel på jakt efter ett speciellt avsnitt med intressant information. Dagens system kan plöja texter mycket snabbare än vi själva och genom att använda smarta indexerings och komprimeringstekniker t.o.m. databaser med miljontals dokument. Dessa tekniker faller under området informationssökning (eng. Information retrieval, IR) men i och med att antalet dokument som är åtkomliga från en viss punkt blir fler och fler, blir behovet av precisare tekniker för informationssökning större. Man har exempelvis behov av att behandla böjningsformer och avledningsformer av ord som uttryck för samma begrepp och tillämpar då stamsökningsalgoritmer. Ett ambitiösare projekt som datalingvistiken alltmer kommit att intressera sig för är informationsutvinning (eng. information extraction), d.v.s. tekniker för att hitta och sammanställa information av ett föregivet slag. Det kan t.ex. handla om affärstransaktioner (vilket företag har köpt/gått samman med vilket annat företag när, hur och varför), forskningsprojekt (vilken inriktning?, universitet/forskningsinstitut?, projektledare?, projekttid?, mål? etc.) eller recensioner av nya böcker (vilket förlag?, vilken författare?, vilken genre?, vad tycker recensenten?). Sammanställningen kan

7 - 7 - ske i form av ett ifyllt formulär, en post i en databas eller en sammanfattning i textformat. Figur 2.4 visar ett delresultat från körning med ett forskningssystem kallat VIE. PAULEY PETROLEUM <PP> NAMES NEWGARD PRESIDENT LOS AN- GELES, April 13 - Pauley Petroleum Inc said it appointed Mark Newgard president and chief operating officer. Newgard, 42, had been president of privately-held Edgington Oil Co. He succeeds William Pagen, Pauley s chairman, who had also been serving as president, the company said. Reuter. Fig. 2.4.Textinformation (underst) om benämnda objekt i en given text (överst) med systemet VIE under GATE (Wilks et al, 1996). Man kan säga att ett informationsutvinningssystem konstruerar en innehållsrepresentation, eller åtminstone en representation av vissa objekt och fakta i en text. Det innebär inte nödvändigtvis detsamma som att de kan läsa i mänsklig mening. Systemen är anpassade till sin specifika uppgift och använder ofta en blandning av tekniker, från strängmatchning av ord och fraser till enkel diskursmodellering och representation av begreppsrelationer för de kunskapsområden som uppgiften gäller. En enklare form av informationsutvinning finner vi i system som utför automatiska sammanfattningar. Dessa system har ofta ingen domänkunskap alls utan baserar sina sammanfattningar på antaganden om var den centrala informationen kan hittas i en text, t.ex. i rubriker, inledningar och avslutningar. Vi har redan i inledningen nämnt automatisk översättning som en av datalingvistikens stora utmaningar. Det finns i dag ett antal kommersiella system som används av internationella företag och organisationer, men det krävs stora insatser för att anpassa dem till de texttyper och ämnesområden som de ska arbeta med för att få ett bra resultat. Företag som använder maskinöversättningssystem brukar också ofta införa någon form av begränsat språk i sin textproduktion för att göra den så kostnadseffek-

8 - 8 - tiv som möjligt. Ett begränsat språk utmärks av en konsistent terminologi och fraseologi, en explicit textbindning och undvikande av flertydigheter i basordförrådet och syntaxen. Vissa naturligt förekommande subspråk,som t.ex. väderprognoser, sammanträdesprotokoll eller produktbeskrivningar har också sådana egenskaper, och kan därför översättas automatiskt med hyfsat resultat. Se figur 2.5. Original The present invention relates to a process for producing lube oil. More specifically, the present invention relates to a process for producing lube oil from olefins by isomerization over a silicoaluminophosphate catalyst. Översättning Den foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie. /- Mere specifikt, foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie fra olefiner med isomerisering i løbet af en silicoaluminophosphatkatalysator. -/ Efter redigering Den foreliggende opfindelse angår en fremgangsmåde til at fremstille smøreolie. Mere specifikt angår den foreliggende opfindelse en fremgangsmåde til at fremstille smøreolie ud fra olefiner ved isomerisering over en silicoaluminophosphatkatalysator. Fig Översättning med systemet PaTrans utvecklat av Lingtech A/S & Center for sprogteknologie, Köpenhamn, som används för översättning av patenttexter för kemiska produkter. Ytterligare en speciell läsart tillämpas av språkforskare, som ser texter som studieobjekt, där ett språks ordförråd, morfologi, syntax, stildrag etc. manifesteras. Datorn har gjort det möjligt att lagra stora textmängder på ett ställe och söka i dem efter språklig information av olika slag. Ett organiserat textarkiv som samlats in för språkvetenskapliga ändamål brukar kallas en korpus. Korpusar var till en början mest intressanta för lexikologer och lexikografer, d.v.s. språkforskare som arbetar med att beskriva och producera lexikon. Datorlagrade korpusar gör det nämligen lätt att på automatisk väg ta fram konkordanser, d.v.s. tabeller där varje ordform i en text, eller en korpus, kan studeras i sitt textuella sammanhang. På senare år, när datalingvistiken blivit mer och mer empiriskt orienterad har korpusar också blivit en allmänt brukad resurs t.ex. för att utvärdera system, eller för att anpassa system, som utnyttjar stokastiska tekniker, till ett givet språk eller applikation. Datalingvistiken har då medverkat till att förbättra metoderna för korpusanalys, t.ex. möjligheterna att på automatisk väg bestämma ordklass eller morfologiska egenskaper för orden i en text. (Se kap. 4 för några sådana metoder.)

9 - 9 - För tvåspråkiga ordböcker och för översättningssystem används parallellkorpusar. I en parallellkorpus ingår texter som är varandras översättningar, eller som har samma ämne och syfte, men är producerade oberoende av varandra. Parallellkorpusar är vanligen länkade till varandra stycke för stycke, och mening för mening. I en tvåspråkig konkordans kan man se ett ord i sin meningskontext, tillsammans med översättningen av meningen. Parallella, länkade texter kan också utgöra en viktig resurs för översättare medan de arbetar, under förutsättning att texterna är av samma slag som översättaren för tillfället arbetar med. I datorstöd för översättning brukar de parallella texterna kallas översättningsminne. När meningar i den nya texten matchar meningar i översättningsminnet, visas detta för översättaren, t.ex. via färgkodning. Att läsa är inte samma sak som att lyssna, men många av de metoder som utvecklats för automatisk textläsning kan tillämpas också i samband med talförståelse. Ett taligenkänningssystem levererar ofta sitt resultat i form av en lista på ordsekvenser, rangordnade med den mest sannolika först (enligt systemets bedömning). Dessa ordsekvenser kan sedan passera genom en granskande komponent som filtrerar bort analyser som är grammatiskt omöjliga, och sedan vidarebefordras till komponenter som tillämpar informationsutvinningstekniker för att komma fram till vad som sas. Talförståelse är särskilt intressant i samband med röststyrning av maskiner och i dialogsystem som utgör gränssnitt mot informationssystem. En annan tänkt tillämpning, som dock ligger några år framåt i tiden, gäller automatisk översättning av tal, och automatiska tolktjänster vid telefonsamtal. 2.3 Generiska uppgifter och tekniker Flera av de tillämpningar som vi nämnt ovan har drag som gör dem speciella, men en närmare analys av de uppgifter som ett system ska utföra, leder ofta till att vi stöter på samma grundläggande problem. Några sådana grundläggande problem i textanalys är Lexikalisk analys - att identifiera de grundläggande enheterna (ordformer, tokens) i en text Morfologisk analys: att bestämma ordformernas egenskaper vad gäller - ordklass, - morfologiska och syntaktiska egenskaper, - grundform (stam eller lemma), - morfologisk struktur Syntaktisk analys / Parsning - att identifiera fraser, dvs. semantiskt intressanta ordgrupper, - att bestämma frasernas grammatiska funktioner och övriga egenskaper

10 Semantisk analys - att bestämma ordbetydelser (lexikal disambiguering), - att bestämma betydelsen för varje fras och för hela meningar Diskursanalys / Tolkning - att bestämma referenter till refererande uttryck, inklusive anaforiska referenser, - att bestämma uttryckta och implicita fakta och referentrelationer, - att bestämma språkhandlingar och retorisk funktioner, - att modellera kontext 2.4 Systemarkitekturer Ett vanligt sätt att bygga upp ett komplext textläsningssystem är att fördela uppgiften på flera, mer eller mindre generiska komponenter, där varje komponent gör en liten del av hela bearbetningen, och utdata från en komponent utgör indata till nästa komponent. Detta kallar vi en sekvensiell arkitektur. En något större flexibilitet får vi om vi tillåter en komponent att använda output från flera andra komponenter. Systemet VIE som refererades i figur 2.4 är sammansatt av ett antal generella komponenter på så sätt som visas i figur 2.6. Fig 2.6. Arkitektur för informationsutvinningssystemet VIE. När vi använder särdragsstrukturer eller termer som representationsformat för lingvistisk information (se kapitel 3), finns möjligheten att uttrycka samband mellan lingvistisk information på olika nivåer med deklarativa regler, som utnyttjas i bearbetningen med ett fåtal generella operationer som unifiering. En formalism för att skriva sådana regler heter PATR, och den kommer att introduceras senare i det här kompend-

11 iet för att beskriva syntaktiska och semantiska förhållanden. Detta ger ett enhetligt system, med betydligt färre komponenter, enligt figur 2.7. IN: mening PARSER med UNIFIERARE Regelinvokering Uppslagning REGLER LEXIKON chart AVLÄSARE UT: analys Figur 2.7. Översikt av ett system för meningsanalys.

12 Matematisk bakgrund 3.1 Introduktion Det här kapitlet ger en beskrivning av grunderna för de metoder och formalismer som kommer att användas i resten av kompendiet för att modellera språkliga yttranden och uttryck. Eftersom de några av de analysmetoder vi tar upp också använder sig av statistik kommer kapitlet också att ge några statistiska grundbegrepp. Kapitlet består av tre delar: Hur kan man beskriva vad som är en tillåten sträng i språket? Den här frågan kommer naturligvis att behandlas mer grundligt i resten av kompendiet men i det här kapitlet ger vi en kort översikt över de enklaste metoderna för att beskriva språk med basen inom formella språk och automatateori. En kort introduktion till de statistiska grundbegrepp som används när man vill använda statistiska metoder för att analysera språket. Vi kommer även kortfattat att beskriva hur man kan koppla ihop statistik med metoder för att beskriva ett språk. Vilka strukturer behöver man för att kunna representera innehållet, till exempel syntax och semantik, i en text? Här kommer vi framförallt beskriva oss av särdragsstrukturer, men vi kommer också att ta upp termer, ett alternativ som används i Russel och Norvig (1995). Vi kommer också att ge några kopplingar till diskret matematik som är den formella matematiska bakgrunden till dessa strukturer.

13 Olika klasser av språk När man vill analysera ett språk behöver man något sätt att beskriva vad som är en tilllåten följd av tecken eller ord i språket. Om man, som vi, är intresserade av de naturliga språken, är det naturligtvis svårt att ge en fullständig beskrivning av vad som är en tillåten sträng i ett språk. Inom datavetenskapen däremot pratar man ofta om något som kallas för formella språk. Ett formellt språk är ett språk som konstruerats för ett speciellt syfte. Två bra exempel är programmeringsspråk eller det formelspråk som används inom logiken. Eftersom ett formellt språk är konstruerat för ett speciellt ändamål är det oftast mycket enklare än de naturliga språken. Speciellt programmeringsspråk är ofta relativt enkla eftersom de konstruerats för att kunna hanteras effektiv av en dator. (Här använder vi alltså enkel i betydelsen vad som är enkelt att beskriva och hantera för en dator. Vad vi människor tycker är enkelt är ofta en helt annan sak.) Några påtagliga skillnader mellan naturliga språk och programmeringsspråk är: Naturliga språk har många fler lexikala enheter än programmeringsspråk, några tiotusental i jämförelse med några tiotal; De lexikala enheterna förekommer i flera olika former, inte bara en; Ordformerna är inte entydiga, utan kan svara mot flera olika lexikala enheter, t.ex. får som presens av verbet få, singularis och pluralis av substantivet får; Icke desto mindre kan teorin för formella språk tillämpas också på naturliga språk. Man tänker då på ett språk som en mängd av strängar definierade över ett givet alfabet. Denna teori kan dessutom ges tillämpningar på flera sätt: meningar kan definieras som strängar av ordformer, eller mera strikt, tokens; ordformer kan ses som strängar över ordled (morfer), och dessa i sin tur definieras som strängar över bokstäver eller, alternativt, fonem. När man vill karaktärisera hur enkelt ett språk är brukar man använda den så kallade Chomskyhierarkin. Chomskyhierarkin delar in språken i fyra klasser där den första klassen hanterar de enklaste språken och sedan utvidgas klasserna till att innehålla mer och mer komplicerade språk. Chomskyhierarkin kan sammanfattas av nedanstående tabell. Klass av språk Kan beskrivas av Exempel på språk Reguljära språk Finita automater, Reguljära uttryck a*b(c d) Kontextfria språk Kontextfri grammatik a i b i Kontextkänsliga språk PATR-II a i b i c i Fria språk Turingmaskin Alla språk som kan kännas igen av en dator

14 De reguljära språken är den enklaste klassen av språk. Det språk som ges som exempel för klassen består av valfritt antal (0 eller flera) a följt av ett b och till sist ett c eller ett d. Det här är ett typiskt exempel på ett reguljärt språk där man alltså kan definiera språket genom att ange en grundsträng och sedan alternativ eller upprepningar av delar av denna sträng. Reguljära språk kan beräknas av finita automater som vi kommer att ge en mer detaljerad beskrivning av i nästa avsnitt. Nästa klass är de kontextfria språken. De innehåller alla de reguljära språken och dessutom ett antal språk som inte är reguljära. Ett typexempel på ett språk som är kontextfritt men inte reguljärt är språket a i b i, det vill säga alla strängar som innehåller först ett antal a och sedan samma antal b. Kontextfria språk kommer vi också att beskriva mer detaljerat längre fram i kapitlet. Om man sedan går vidare till de kontextkänsliga språken så utvidgar man ytterligare klassen av språk som kan hanteras. Ett bra exempel på ett språk som kan beskrivas med en kontextkänslig grammatik men inte med en kontextfri är språket a i b i c i som består av strängar som innehåller samma antal a, b och c. Kontextkänsliga språk kan beskrivas av formalismen PATR-II som vi också kommer att använda för att beskriva naturliga språk längre fram i kompendiet. Den sista klassen av fria (eng. unresticted) språk innehåller alla språk som kan beräknas av en dator. Man brukar säga att alla språk som man naturligt kommer att tänka på är kontextkänsliga, därför är det ganska svårt att hitta bra exempel på språk som inte är det. De exempel som finns är ganska konstruerade och av typen: Språket som innehåller alla strängar som kan genereras av någon kontextkänslig grammatik. Vi kommer inte att förklara vad en Turingmaskin är för något här. Det enklaste man kan säga är att det är en matematisk modell av en dator. Turingmaskinen skapades på 30-talet av Alan Turing. Som kuriosa kan nämnas att engelsmännen byggde en Turingmaskin under andra värdskriget och den lär ha hjälpt dem att vinna kriget genom att dechiffrera hemliga tyska meddelanden. Förutom dessa fyra klasser finns naturligtvis även språk där inte ens en dator kan avgöra om en sträng tillhör språket eller inte. Dessa språk blir i allmänhet ännu mer konstlade än fria språk och vi ska inte gå in mer på dem. Naturligt språk brukar i allmänhet anses vara kontextkänsligt, det vill säga det skulle kunna beskrivas fullständigt med till exempel en PATR-grammatik. I praktiken vill man ofta beskriva en mindre delmängd av språket och då kan det ibland räcka med något enklare. När man väljer hur man vill beskriva ett språk är det inte heller bara viktigt att bestämma om det är möjligt att beskriva ett språk inom en viss klass. Det är också så att man ibland kan välja en mer komplicerad klass än man egentligen behöver för att beskrivningen blir enklare att göra. Rent allmänt kan man säga att när man försöker beskriva ett språk eller subspråk med någon form av grammatik så har man tre mål. Man vill göra beskrivningen så omfattande som ändamålet kräver, dvs den ska täcka alla relevanta uttryck i språket. Man vill också att beskrivningen ska vara selektiv, dvs slå ut så många felaktiga eller

15 irrelevanta uttryck som möjligt. Till sist ska beskrivningen också vara enkel att förstå och utvidga Finita automater Det enklaste sättet att introducera finita automater är att börja med ett litet exempel. Vi antar vi vill använda en finit automat som känner igen följande meningar. Kalle springer. Den lilla bollen rullar. En boll rullar. Den lilla röda bollen rullar. Om vi försöker känna igen språket utifrån enskilda ord får vi problem eftersom det finns alltför många variationer. Vi väljer därför att i stället titta på ordklasserna för att förenkla problemet och använder följande lilla lexikon för det. Här används några förkortningar som är vanliga inom datorlingvistiken. En svensk förklaring står bredvid varje benämning. Kalle PROPN (egennamn) den en DET (artikel) lilla röda A (adjektiv) boll bollen N (substantiv) rullar springer V (verb) Om vi nu skriver om meningarna och använder ordklasserna i stället för orden så kan vi konstatera att följande följder av ordklasser förekommer i våra exempelmeningar. Kalle springer. PROPN V Den lilla bollen rullar. DET A N V En boll rullar. DET N V Den lilla röda bollen rullar. DET A A N V Vi bestämmer oss för att skapa följande lilla finita automat som klarar av att känna igen ordklassföljderna ovan. PROPN DET N V A De runda ringarna i automaten kallas för tillstånd. Pilarna kallas för bågar och markerar att man kan hoppa från ett tillstånd till ett annat i automaten om man har ett något som matchar det som står på bågen. Pilen till tillstånd 1 markerar att här får man börja. Tillstånd 4 är extra markerat och det innebär att det är ett så kallat sluttillstånd, dvs

16 ett tillstånd som det är tillåtet att sluta på. Den här automaten säger alltså att en mening alltid måste börja med antingen ett egennamn (PROPN) eller en artikel (DET), noll eller flera adjektiv (A) och ett substantiv (N). Sist i meningen måste alltid komma ett verb (V). En finit automat kan användas både för att kontrollera om en viss sträng tillhör ett språk och för att generera strängar som tillhör språket. Om man till exempel vill kontrollera om strängen Kalle springer hör till språket så går man in i automaten vid starttillståndet (tillstånd 1). Man konstaterar sedan att Kalle är en PROPN och hoppar vidare till tillstånd 3. Därefter konstaterar vi att springer är ett verb och hoppar vidare till tillstånd 5. Nu är meningen slut och vi står i ett sluttillstånd i automaten. Meningen Kalle springer hör alltså till språket. Om man vill använda automaten för att generera meningar kan man göra så här. Vi startar vid starttillståndet som är tillstånd ett. Sedan hoppar vi vidare till tillstånd 2 och väljer en artikel, till exempel en. Nu hoppar vi till tillstånd 3 och väljer ett substantiv, boll. Till sist hoppar vi till sluttillståndet och väljer ett verb, rullar. Nu står vi i ett sluttillstånd och har alltså genererat meningen En boll rullar. För att ge lite fler ideer om vad finita automater kan användas till kommer här ytterligare ett exempel. I det här fallet vill vi beskriva hur svenska ord som börjar på bokstaven s kan se ut fram till första vokalen. I det här exemplet använder vi alltså bokstäver istället för ordklasser som markering för vilka bågar som vi ska följa i automaten. Automaten går att bygga ut för att omfatta alla möjliga bokstavskombinationer i en stavelse för det svenska språket, men den skulle då bli ganska stor och svåröverskådlig. I automaten används ordet Vokal för att representera valfri vokal. På flera ställen är också automaten förenklad genom att det ibland finns mer än en bokstav på varje båge. Notera speciellt att automaten innehåller två sluttillstånd, vilket alltså är tillåtet. I det här fallet är det extra sluttillståndet infört för att få en lite snyggare automat, men det finns fall där man behöver mer än ett sluttillsstånd för att kunna känna igen ett språk. Om vi tittar närmare på de två finita automater som vi definierat ser vi att givet att vi vet vilken ordklass eller bokstav vi får in så har vi alltid bara ett enda val på vilket tillstånd vi ska hoppa vidare till. En sådan automat kallas för en deterministisk finit automat (förkortat DFA). Ibland är det dock praktiskt att tillåta några valmöjligheter. Vi kan demonstrera detta genom att vi försöker utöka vår första lilla exempelautomat så att den också klarar av följande meningar. Bollen rullar. Den röda rullar. Den rullar. Den första meningen kan vi hantera genom att vi tillåter oss att både starta i tillstånd ett och två i automaten. Den andra meningen hanteras enklast genom att vi inför en extra båge mellan tillstånd 2 och 3 där vi kan hoppa vidare om vi har ett adjektiv i meningen. Det sista fallet kan man hantera genom att man tillåter sig att hoppa direkt

17 Vokal 1 4 k Vokal Vokal r,l,v 3 r,l,j p r t 3 4 m,n,v,l,f 3 Vokal Vokal s Vokal mellan tillstånd 2 och 3 utan att man använder sig av något tecken eller ord i meningen. Automaten som man får fram kommer att se ut så här. PROPN DET N V A A Jump Som synes innehåller den här automaten flera ställen där man kan välja vad man ska göra. För det första kan man välja i vilket tillstånd man vill starta i automaten. För det andra kan man i tillstånd 2 välja om man ska hoppa vidare direkt till tillstånd 3 eller om man ska stanna och vänta på om man kan matcha något med någon båge. Dessut-

18 om kan man, om man har ett adjektiv, i tillstånd 2 välja om man vill stanna kvar (följa den loopande bågen, eller om man vill hoppa vidare till tillstånd 3. Den här typen av automat kallas för en icke-deterministisk (eng nondeterministic) finit automat. Den förkortas ofta med NFA. Om man jämför deterministiska och ickedeterministiska automater så kommer man att se att de kan beskriva precis samma språk. Det finns relativt enkla algoritmer för hur man gör om en icke-deterministisk automat till en deterministisk. Däremot är det ofta så att en icke-deterministisk automat ofta blir mindre och enklare att förstå än den deterministiska motsvarigheten. Om man tänker på hur de ska implementeras är det däremot betydligt enklare att implementera en deterministisk finit automat eftersom man aldrig behöver hålla reda på några alternativ för den. För att enkelt sammanfatta vad en finit automat är och hur den fungerar kan man säga att en finit automat består av: En ändlig mängd av tillstånd Ett (för deterministiska automater) eller flera (för icke-deterministiska automater) av tillstånden kallas för starttillstånd. Där börjar man alltid gå igenom automaten. Mellan tillstånden finns ett antal bågar som talar om hur man får hoppa mellan tillstånden. Varje båge är märkt med det som ska kännas igen eller genereras när man följer bågen. För indeterministiska automater finns också hopp-bågar, där man kan hoppa vidare i automaten utan att matcha mot något i språket. En del av tillstånden är sluttillstånd. Det är bara om man hamnat i ett sluttillsstånd som den sträng man känt igen eller genererat är godkänd i språket. Den stora fördelen med finita automater är att de är snabba på att känna igen eller generera en sträng. De är också lätta att implementera. Längre fram i kompendiet kommer vi att använda finita automater som hjälp för att representera böjningsändelser i ett lexikon. Frågan om finita automater kan beskriva naturliga språks syntax är mera omstridd. Under lång tid har detta ansetts helt uteslutet, men eftersom man numera på automatisk väg kan skapa automater utifrån regelmängder, inklusive att approximera kontextfria språk, så har finita automater fått en renässans. Att försöka skriva en syntaktisk automat för hand är dock ett oöverstigligt problem, vilket man kan se om man tittar på följande meningar: Den lilla pojken rullar den röda bollen. Råttan som katten som hunden som pojken ägde jagade fångade smet. I det första exemplet ser vi att den del av meningen som utgör subjekt och den del som utgör objekt verkar vara uppbyggd på samma sätt. Vi skulle därför vilja beskriva den strukturen på ett ställe och sedan utnyttja den för både subjekt och objekt. Det är nå-

19 got som man inte kan göra med finita automater eftersom varje del måste beskrivas i sitt sammanhang. I den andra meningen ser vi ett exempel där det verkar som om vi kan lägga till hur många X som som helst i en mening. Det verkar alltså som om vi behöver konstruktioner av typen a n b n åtminstone i teorin. Men i praktiken får man leta länge i faktiskt förekommande texter innan man hittar konstruktioner av denna typ med n > 2. Övningar 3.1 Välj tre ord som börjar på s och använd automaten i exemplet för att känna igen bokstäverna fram till första vokalerna som en godkänd kombination i svenska. 3.2 Utöka automaten så att den också klarar av ord som börjar med b, d och g. 3.3 Gör en automat som klarar av att känna igen svenska tidsuttryck. Automaten ska kunna hantera uttryck som: i morgon i morgon klockan i morgon nästa vecka klockan nästa vecka på måndag klockan klockan på måndag nästa vecka 3.4 Försök göra en automat som hanterar klarar av att känna igen språket a n b n. Kan du lista ut varför det inte fungerar? Reguljära uttryck Ett alternativt sätt att definiera reguljära språk på är genom att använda reguljära uttryck. Reguljära uttryck är mycket användbara för att hitta olika typer av uttryck i faktiska texter. I synnerhet i ordklasstaggade texter (se kap. 5) kan reguljära uttryck användas för att hitta frasmönster av olika slag. Vi ger här först en lista på operationer som är vanligt förekommande i reguljära uttryck och illustrerar sedan med några enkla exempel. Den syntax vi tillämpar är den som tillämpas i scriptspråk som Perl eller operativsystem som Unix. Man ska lägga märke till att man kan tillföra symboler för många andra operationer, som kan definieras i termer av dem som visas i tabellen. Det är också användbart att kunna införa symboler för definierade uttrycksmängder. Vanliga sådana definitioner är: DIGIT = [ ] NOLL = [0] LOWER = [a b c d e f g h i j k l m n o p q r s t u v w x y z] UPPER = [A B C D E F G H I J K L M N O P Q R S T U V W X Y Z] ALPHANUM = DIGIT LOWER UPPER

20 Operation Beteckning Förklaring Symbol a, b, c,... Symboler i alfabetet som matchar vid identitet Jump e Symbol för frånvaro av uttryck Uttryck r, s, t,... Godtyckligt reguljärt uttryck (strängmängd) Konkatenering rs Matchar ett uttryck bestående av något som matchar r följt av något som matchar s. Union r s Matchar ett uttryck som matchar antingen r eller s. Iterering r + Matchar en sekvens av uttryck som matchar r Optionalitet r? Samma som [r e] Begränsad iterering r{n-m} Matchar en sekvens av uttryck som matchar r, om denna sekvens har minst n och högst m medlemmar. r{n} eller r n r{n-} Matchar en sekvens av exakt n st uttryck som matchar r. Matchar en sekvens av n eller flera uttryck som matchar r. Kleenestjärna r* Samma som [r? r+] Tabell 1: Några operationer för att definiera reguljära uttryck Ett reguljärt uttryck som identifierar heltalsuttryck i löpande text kan vara DIGIT+

21 Om vi vill ta hänsyn till att heltal ofta inte börjar med noll kan vi hellre skriva [ ][ ]* eller (DIGIT - NOLL) DIGIT* Men då kommer vi att missa heltalsuttryck som t.ex där de tre sista nollorna separerats från början med ett blanktecken. Heltalsuttryck kan ofta vara skrivna med instoppade blanktecken eller kommatecken varför en bättre definition kan vara (DIGIT - NOLL)(DIGIT{0-2}(DIGIT + [, ]DIGIT{3})* Ett reguljärt uttryck som definierar samma mängd av ordklasssymboler som den första automaten i är: (PROPN DET A* N) V Ett reguljärt uttryck för den utvidgade icke-detrministiska automat i samma kapitel är (PROPN DET? A* N?) Kontextfria grammatikor Vi ska nu gå vidare till nästa klass av språk, de kontextfria. Eftersom vi sa att ett problem med finita automater var att det är svårt att utnyttja att olika delar av en mening är uppbyggd på samma sätt kan vi utgå från några meningar som innehåller både subjekt och objekt för att ge ett första exempel på en kontextfri grammatik. Kalle rullar den lilla bollen. En boll rullar. Den lilla bollen rullar. En hund rullar den bollen. En liten hund väcker Kalle. Precis som för finita automater förenklar vi problemet genom att titta på följder av ordklasser i stället för att titta direkt på de enskilda orden. Vi bestämmer oss för att följande ordklasser för orden i meningarna ovan. Kalle PROPN (egennamn) den en DET (artikel) lilla, liten A (adjektiv) boll, bollen, hund N (substantiv) rullar, väcker V (verb) Vi vill nu skriva en så kallad kontextfri grammatik som beskriver hur meningarna ovan är uppbyggda. En kontextfri grammatik består av ett antal regler. Varje regel be-

22 står av ett vänsterled och ett högerled och säger ungefär vänsterledet består av högerledet. Vi bestämmer oss för att använda kategorin (eller klassen) S för att representera en hel mening. Vi kan då skriva den kontextfria grammatiken på följande sätt: S -> NP VP NP -> PROPN NP -> DET N NP -> DET A N VP -> V VP -> V NP Den här grammatiken kan läsas ungefär så här. En sats (S) består av en nominalfras(np) följt av en verbfras (VP). En nominalfras(np) kan vara uppbyggd på tre olika sätt. Antingen kan den enbart vara ett egennamn (PROPN), eller en artikel (D) följt av ett substantiv (N), eller artikel och adjektiv (A) följt av substantiv. En verbfras kan bestå av enbart ett verb eller ett verb (NP) följt av en nominalfras. När man använder en kontextfri grammatik för att generera eller känna igen ett språk försöker man hitta en trädstruktur där topnoden i trädet motsvarar den kategori man söker, i det här fallet en sats och bottennoderna ( terminalnoderna ) motsvarar varje ord i meningen. Ett sådant här träd brukar kallas för analysträd eller frasstrukturträd. Om vi vill analysera meningen Kalle rullar den lilla bollen så får vi följande trädstruktur. S VP NP NP PROPN V DET A N Kalle rullar den lilla bollen I frasstrukturträdet ser man tydligt vilka regler som har används för att analysera varje del av meningen. Om man börjar uppifrån så har vi använt S-regeln för att dela upp meningen i en nominalfras och en verbfras. Nominalfrasen har sedan analyserats som ett egennamn (PROPN) med hjälp av den första NP-regeln. Verbfrasen har delats upp i ett verb och en nominalfras med den andra VP-regeln. Verbfrasens nominalfras har sedan analyserats som artikel, adjektiv och substantiv av den tredje NP-regeln. För ytterligare demonstrera hur kontextfria grammatikor kan användas ger vi ytterligare ett exempel. I det exemplet vill vi känna igen palindrom, det vill säga ord som blir desamma oavsett om de läses framifrån eller bakifån. För att få en lite mindre

23 grammatik begränsar vi oss till palindrom som innehåller bokstäverna a och n. I det här exemplet kan man notera att vi inte använder oss utav något lexikon utan istället direkt skriver in bokstäverna i högerledet på grammatikreglerna. P -> apa P-> npn P -> aa P-> nn P-> a P-> n Vi demonstrerar hur grammatiken fungerar med att försöka rita frasstrukturträd för anna och annan. Som vi ser lyckas det med palindromet anna medan frasstrukturträdet för annan blir ofullständigt eftersom det inte finns något som kan matcha det sista n-et i ordet. P P P P P a n n a a n n a n För att göra en sammanfattning av kontextfria grammatikor så kan vi säga att en kontextfri grammatik består av: En ändlig mängd terminala symboler. (I våra exempel motsvarar dessa antingen de symboler som kommer från lexikonet eller bokstäverna i palindromexemplet). En ändlig mängd icke-terminala symboler. (Det som används som vänsterled i grammatikreglerna.) En ändlig mängd regler. Varje regel skrivs på formen VL -> HL där VL alltid är en icke-terminal symbol medan VL består av valfritt antal symboler som kan vara både terminala och icke-terminala. Till sist kan vi säga något om fördelar och nackdelar med kontextfria grammatikor. För det första är kontextfri grammatikor relativt enkla att begripa och också att implementera på en dator, även om de blir något mer ineffektiva än finita automater. Man kan också säga att kontextfria grammatikor ger en bättre och mer lättbegriplig beskrivning av satser i naturligt språk. Trots det är det fortfarande många olika fenomen i språket som blir krångliga att hantera. Ett exempel är kongruensböjning i svenska nominalfraser som kräver många kontextfri regler för att kunna hanteras. Det är också

24 så att frasstrukturträdet inte alltid motsvarar den analys som man vill få av en mening, eftersom den mer speglar meningens syntaktiska struktur än dess innehåll. Övningar 3.5 Hitta två svenska meningar som kan genereras av den kontextfria grammatiken i exemplet ovan. Rita upp frasstrukturträden för dina två meningar. 3.6 Utöka grammatiken ovan så att den kan hantera även följande meningar. Kalle rullar en boll till den lilla hunden. Rullar Kalle bollen? Hunden väcker Kalle på morgonen. Rullar Kalle bollen till hunden? 3.7 Gör en grammatik som klarar av att analysera matematiska uttryck. Den ska till exempel klara av att hantera nedanstående uttryck (2*3) (4/2)-1 (5*2)+(3-2) 3.8 Gör en grammatik som beskriver språket a n b n. Försök också göra en grammatik för språket a n b n c n. Kan du lista ut varför det fungerar att göra en grammatik för det första språket men inte för det andra?

25 Statistiska grunder På senare år har det blivit mycket populärt att använda statistik som hjälpmedel när man vill analysera naturligt språk och vi kommer att gå igenom en sådan metod längre fram i kompendiet. För att kunna förstå statistiska metoder behövs några statistiska grundbegrepp som vi kommer att går igenom här. Vi kommer också att gå igenom hur man enkelt kan kombinera statistik med finita automater och kontextfri grammatik och vilka problem som finns med att göra det. Det här avsnittet förutsätter grundläggande sannolikhetsteori som finns beskrivet i Russell & Norvig, 1995: kap Den brusiga kanalen En grundidé när man arbetar med statistik i samband med naturligt språk är vad man brukar kalla för den brusiga kanalen (eng. the noicy channel). Iden här är helt enkelt att det som en människa eller dator uppfattar av ett yttrande aldrig är exakt detsamma som vad som ursprungligen skrevs eller sades. På vägen tillkommer en del störningsmoment eller felkällor som förvrängt yttrandet. Uppgiften är nu att utifrån det som uppfattades försöka skapa sig en bild av vad som sades. Om man vill ge en bild av den brusiga kanalen kan det se ut ungefär så här: I -> brusig kanal -> O Det som ursprungligen yttrades i den här modellen är alltså I och det som uppfattades är O. Det finns många olika sätt att använda den här modellen och för att göra den enklare att förstå kommer några exempel. Någon skriver på maskin. I är då vad denna person tänkt att skriva medan O är det som personen verkligen skrev och som förmodligen innehåller några skrivfel, till exempel sratisik i stället för statistik. Vi vill göra automatisk taligenkänning. I är då ett yttrande av någon person medan O är det som datorn uppfattade. Eftersom det är svårt att höra skillnad på många ljud i språket kommer O att innehålla fel där ord som låter lika byts ut. T ex kan ordet jag uppfattas som ja. Automatisk teckenigenkänning, dvs att kunna scanna in en sida text till en dator. I är det som stod på den ursprungliga sidan och O är det som datorn läst in. Även här har det förmodligen skett en del fel på vägen speciellt kan det vara svårt att skilja på 0 (noll) och O eller 1, I och l. Om man ska använda sig av en brusig kanal som modell så antar vi alltså att det vi har att titta på är det som kommit ut ur kanalen, det vill säga O. Vi har alltså bara tillgång till det som maskinskrivaren skrev, inte den ursprungliga texten. Vi har tillgång till de ljudkombinationer som datorn uppfattade men inte vad som sades. Vi har tillgång till

26 den inscannade texten men inte originalet och så vidare. Uppgiften är nu att försöka lista ut vad som var originalet, det vill säga vad som kom in till kanalen, vårt I. Sättet att beräkna I är att använda statistik. Vi vill beräkna vad som var mest sannolika indata till kanalen givet att vi såg den utdata vi gjorde. För att kunna göra detta behöver man skaffa sig en statistisk modell över dels hur felen i kanalen uppkommer och dels hur indata (i vårt fall språket) ser ut. Det enda sätt vi kan göra detta på är att titta på språket och försöka lista ut vilka samband som är viktiga. När vi bestämt vilka samband vi vill använda så räknar vi ut de sannolikhetsmått vi behöver och skapar på så sätt den statistiska modell vi behöver. Många av de statsistiska modeller som används idag kan tränas automatiskt, vilket är att föredra eftersom det normalt behövs stora mängder data för att skapa en bra statistisk modell. Det finns några viktiga grundbegrepp som ofta används när man ska skapa en statistisk modell: Maximal likelihood estimator (MLE). Uppskattning av en sannolikhet efter det andel gånger som en viss händelse uppträtt i en träningstext. Till exempel det antal gånger en mening hade exakt 5 ord delat med totalt antal meningar eller det antal gånger ordet tiger förekommit som ett substantiv delat med alla gånger ordet tiger förekommit. Säkerhet (Accuracy). För att veta exakt vilka sannolikhetsmått som gäller i naturligt språk skulle vi vara tvungna att studera oändligt stora texter. Säkerheten är ett mått på hur säkra vi är på att de mått vi använder är korrekta. Felmarginal Ett mått på hur bra vår modell är, dvs hur stor avvikelse från verkligheten vi tillåter oss att ha. Glesa data (Sparse data) Sällsynta förekomster av en händelse, vilket är vanligt i naturligt språk. Ett exempel är att hur stor träningsmängd vi än har så kommer det alltid att finnas vissa ord eller betydelser av ord som inte förekommer i texterna. Expected likelihood estimator (ELE) Som MLE men man tar hänsyn till sällsynta förekomster av en händelse. I MLE så antar man att alla händelser som aldrig förekommit har sannolikheten 0. I ELE däremot så antar vi att det finns en viss liten sannolikhet även för händelser som vi aldrig sett. Till exempel även om ordet tiger bara förekommit som substantiv i våra texter så antar vi att det finns en liten sannolikhet för att det också till exempel kan vara ett verb eller ett pronomen. (Det här spelar framförallt stor roll när man försöker uppskatta hur flera sannolikheter fungerar tillsammans, vilket ofta innebär att man multiplicerar sannolikheter.) För att ytterligare förklara vad som menas med säkerhet och felmarginal så tar vi ett enkelt exempel. Vi antar att vi vill beräkna en statistisk modell för hur ofta krona kommer upp när vi kastar ett mynt. I det här fallet så vet vi att den korrekta modellen

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders

Läs mer

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

Språkets struktur och funktion, 7,5 hp

Språkets struktur och funktion, 7,5 hp Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag

Läs mer

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP MÄLARDALENS HÖGSKOLA CD5560 Formella språk, automater och beräkningsteori Användarmanual för simulatorn JFLAP Innehållsförteckning Att komma igång med JFLAP... 3 Att köra en sträng... 5 Att köra flera

Läs mer

Automater. Matematik för språkteknologer. Mattias Nilsson

Automater. Matematik för språkteknologer. Mattias Nilsson Automater Matematik för språkteknologer Mattias Nilsson Automater Beräkningsmodeller Beräkning - (eng) Computation Inom automatateorin studeras flera olika beräkningsmodeller med olika egenskaper och olika

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg

Väl godkänt (VG) Godkänt (G) Icke Godkänt (IG) Betyg Betygskriterier Examensuppsats 30 hp. Betygskriterier Tregradig betygsskala används med betygen icke godkänd (IG), godkänd (G) och väl godkänd (VG). VG - Lärandemål har uppfyllts i mycket hög utsträckning

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Riktlinjer för bedömning av examensarbeten

Riktlinjer för bedömning av examensarbeten Fastställda av Styrelsen för utbildning 2010-09-10 Dnr: 4603/10-300 Senast reviderade 2012-08-17 Riktlinjer för bedömning av Sedan 1 juli 2007 ska enligt högskoleförordningen samtliga yrkesutbildningar

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

Pragmatisk och narrativ utveckling

Pragmatisk och narrativ utveckling Pragmatisk och narrativ utveckling Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Pragmatik! Pragma! handling! hur vi använder språket! hur vi handlar genom språket! Pragmatik!

Läs mer

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet MODERSMÅL Goda kunskaper i modersmålet gagnar lärandet av svenska, andra språk och andra ämnen i och utanför skolan. Ett rikt och varierat modersmål är betydelsefullt för att reflektera över, förstå, värdera

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Om ämnet Engelska. Bakgrund och motiv

Om ämnet Engelska. Bakgrund och motiv Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson Uppsala Universitet Matematiska Institutionen Thomas Erlandsson LÄSANVISNINGAR VECKA 36 VERSION 1. ARITMETIK FÖR RATIONELLA OCH REELLA TAL, OLIKHETER, ABSOLUTBELOPP ADAMS P.1 Real Numbers and the Real

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.

Läs mer

Pedagogisk planering för ämnet: Svenska

Pedagogisk planering för ämnet: Svenska 1(5) Pedagogisk planering för ämnet: Svenska Tidsperiod: årskurs 4 Syfte & övergripande mål: Vi kommer att läsa, skriva, lyssna och tala. Syftet är att du ska utveckla förmågan att: - formulera dig och

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1 Förmågor som eleverna ska utveckla i svenska Praktisk Svenska 1 Praktisk Svenska 2 Praktisk Svenska 3 Kunskapskrav i svenska Formulera sig och kommunicera i tal och skrift. Jag kan Formulera positiva tankar

Läs mer

SVENSKA SOM ANDRASPRÅK

SVENSKA SOM ANDRASPRÅK SVENSKA SOM ANDRASPRÅK Ämnet svenska som andraspråk ger elever med annat modersmål än svenska möjlighet att utveckla sin kommunikativa språkförmåga. Ett rikt språk är en förutsättning för att inhämta ny

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Aspekt Nivå 1 Nivå 2 Nivå 3

Aspekt Nivå 1 Nivå 2 Nivå 3 Bedömningsmatris i engelska Elev: Årskurs: Termin: Aspekt Nivå 1 Nivå 2 Nivå 3 Hörförståelse: Uppfattar det Förstår det huvudsakliga Förstår både helhet och förstå, återge huvudsakliga innehållet och några

Läs mer

http://www.sm.luth.se/~andreas/info/howtosearch/index.html

http://www.sm.luth.se/~andreas/info/howtosearch/index.html & ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom

Läs mer

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

BLOCK 1. 1A. Att komma igång

BLOCK 1. 1A. Att komma igång BLOCK 1 1A. Att komma igång Blocket omfattar sidorna 8 23 i läseboken och sidorna 7 8 i grammatikboken samt hörövningar. 1. Vem är du? 2. Vilka fyra färdigheter är viktiga vid språkinlärning? 3. Hur många

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

SVENSKA SOM ANDRASPRÅK

SVENSKA SOM ANDRASPRÅK SVENSKA SOM ANDRASPRÅK Ämnet svenska som andraspråk behandlar olika former av kommunikation mellan människor. Kärnan i ämnet är språket och litteraturen. I ämnet ingår kunskaper om språket, skönlitteratur

Läs mer

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som

Läs mer

Mediafostran och användandet av nya kommunikativa redskap påbörjas redan på nybörjarstadiet.

Mediafostran och användandet av nya kommunikativa redskap påbörjas redan på nybörjarstadiet. BILAGA: REVIDERAD LÄROPLAN I LÄROÄMNET MODERSMÅL OCH LITTERATUR Språket är av avgörande betydelse för all form av inlärning. Språkinlärningen är en fortlöpande process, och därför är modersmålsinlärningen

Läs mer

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning Talstyrning Abstrakt Talstyrning är en teknik som gör det möjligt för oss människor att mer eller mindre verbalt kommunicera med en dator eller ett system. Det här är ett tillvägagångssätt inom AI och

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Individuellt PM3 Metod del I

Individuellt PM3 Metod del I Individuellt PM3 Metod del I Företagsekonomiska Institutionen Stefan Loå A. Utifrån kurslitteraturen diskutera de två grundläggande ontologiska synsätten och deras kopplingar till epistemologi och metod.

Läs mer

Skrivprocessen. Skrivprocessen och retoriken. Skrivprocessen Retoriken Förklaringar

Skrivprocessen. Skrivprocessen och retoriken. Skrivprocessen Retoriken Förklaringar Skrivprocessen Att skriva är ett hantverk något som du kan lära dig. För att bli en bra hantverkare krävs övning. Skrivprocessen liknar i många avseenden den så kallade retoriska arbetsprocessen som vi

Läs mer

Använda Convertus Kursplaneöversättaren

Använda Convertus Kursplaneöversättaren Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste

Läs mer

STUDIETEKNIK. Till eleven

STUDIETEKNIK. Till eleven STUDIETEKNIK Till eleven Tro på dig själv! För att du ska lyckas riktigt bra med dina studier, måste du tro på din egen förmåga. Försök tänka på något som du är bra på, för då stärker du ditt självförtroende

Läs mer

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation

Läs mer

Målet är att ge maskiner förmågan att plocka ut information ur

Målet är att ge maskiner förmågan att plocka ut information ur Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt Kursplan ENGELSKA Ämnets syfte Undervisningen i ämnet engelska ska syfta till att deltagarna utvecklar språk- och omvärldskunskaper så att de kan, vill och vågar använda engelska i olika situationer och

Läs mer

LPP Magiska dörren ÅR 4

LPP Magiska dörren ÅR 4 LPP Magiska dörren ÅR 4 Detta arbetsområde omfattar läsning diskussion kring det lästa, skrivande av en egen berättelse, elevrespons på klasskamraters berättelse samt bearbetning av berättelsen. Arbetsområdet

Läs mer

känner igen ordbilder (skyltar) ser skillnad på ord med olika längd och som börjar på samma bokstav (bi-bil)

känner igen ordbilder (skyltar) ser skillnad på ord med olika längd och som börjar på samma bokstav (bi-bil) Svenska F-2 utvecklar sin fantasi och lust att lära genom att läsa litteratur samt gärna läser på gen hand och av eget intresse...utvecklar sin fantasi och lust att skapa med hjälp av...utvecklar sin förmåga

Läs mer

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med:

Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: Viktoriaskolans kursplan i Engelska I år 2 arbetar eleverna med: UPPNÅENDEMÅL ENGELSKA, ÅR 5 TIPS År 2 Eleven skall Tala - kunna delta i enkla samtal om vardagliga och välbekanta ämnen, - kunna i enkel

Läs mer

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning? Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins

Läs mer

DHGI!J*%$2(44!@!F-&&>$*6&6<1%(&5$,!5!KC4%.(4. A-C Ernehall, Fässbergsgymnasiet, Mölndal www.lektion.se

DHGI!J*%$2(44!@!F-&&>$*6&6<1%(&5$,!5!KC4%.(4. A-C Ernehall, Fässbergsgymnasiet, Mölndal www.lektion.se Svenska "#$%&'(&)*+'$,-*$,,*$.&'()/&0123-4)$*.56*$74$',$*(/'0118%59$*(0928,#$9'4('8%&'():;$%01.5,,&)*+''(%.88,,*

Läs mer

Kursplan för utbildning i svenska för invandrare

Kursplan för utbildning i svenska för invandrare Kursplan för utbildning i svenska för invandrare Utbildningens syfte Utbildningen i svenska för invandrare är en kvalificerad språkutbildning som syftar till att ge vuxna invandrare grundläggande kunskaper

Läs mer

Introduktion till frågespråket SQL (v0.91)

Introduktion till frågespråket SQL (v0.91) DD1370: Databaser och Informationssystem Hösten 2014 Petter Ögren Introduktion till frågespråket SQL (v0.91) 13:e November Disclaimer: Dessa anteckningar har producerats under viss tidspress, och kan därför

Läs mer

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN

ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN TOLK- OCH ÖVERSÄTTARINSTITUTET STOCKHOLMS UNIVERSITET ANALYSMODELL FÖR ÖVERSATTA TEXTER för EXAMENSARBETET PÅ ÖVERSÄTTARUTBILDNINGEN Yvonne Lindqvist Stockholm 2004 1 Innehållsförteckning 1. Analysmodell

Läs mer

Anvisningar till rapporter i psykologi på B-nivå

Anvisningar till rapporter i psykologi på B-nivå Anvisningar till rapporter i psykologi på B-nivå En rapport i psykologi är det enklaste formatet för att rapportera en vetenskaplig undersökning inom psykologins forskningsfält. Något som kännetecknar

Läs mer

PROV I MATEMATIK Automatateori och formella språk DV1 4p

PROV I MATEMATIK Automatateori och formella språk DV1 4p UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA

Läs mer

Föreläsning 2. Operativsystem och programmering

Föreläsning 2. Operativsystem och programmering Föreläsning 2 Operativsystem och programmering Behov av operativsystem En dator så som beskriven i förra föreläsningen är nästan oanvändbar. Processorn kan bara ges enkla instruktioner såsom hämta data

Läs mer

Föreläsning 6: Analys och tolkning från insamling till insikt

Föreläsning 6: Analys och tolkning från insamling till insikt Föreläsning 6: Analys och tolkning från insamling till insikt FSR: 1, 5, 6, 7 Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera

Läs mer

översikt som visar centralt innehåll i GY 11 i relation till innehåll Ämnets syfte 1 SVENSKA RUM 3

översikt som visar centralt innehåll i GY 11 i relation till innehåll Ämnets syfte 1 SVENSKA RUM 3 Tala & SAMTALA Ämnets syfte översikt som visar centralt innehåll i GY 11 i relation till innehåll i KURSLÄROMEDLET Svenska rum 3. Svenska rum 2, allt-i-ett-bok Kunskapskrav 1. Förmåga att tala inför andra

Läs mer

Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II

Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II Kritiskt tänkande HTXF04:3 FTEB05 Grundläggande semantik II Deskriptiv vs. värderande/känslomässig mening Ords betydelser kan ha både deskriptiva och värderande/känslomässiga komponenter. Det blir tydligt

Läs mer

6 Svenska som andraspråk

6 Svenska som andraspråk 6 Svenska som andraspråk Syftet med utbildningen i ämnet svenska som andraspråk är att eleverna skall uppnå en funktionell behärskning av det svenska språket som är i nivå med den som elever med svenska

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

ÄLTA SKOLAS LOKALA KURSPLAN

ÄLTA SKOLAS LOKALA KURSPLAN 1(6) Förskoleklass mål för förskoleklass Exempel på genomförande Strävansmål mot år 2 få fonologisk medvetenhet känna lust att lära genom att LÄSA få möjlighet till att LYSSNA, TALA och BERÄTTA utveckla

Läs mer

AEC 7 Ch 1-3. 1 av 10. Detta ska du kunna (= konkretisering)

AEC 7 Ch 1-3. 1 av 10. Detta ska du kunna (= konkretisering) AEC 7 Ch 1-3 Nu är det dags att repetera en del av det du lärde dig i franska under år 6 - och så går vi förstås vidare så att du utvecklar din språkliga förmåga i franska. Detta ska du kunna (= konkretisering)

Läs mer

Bornholmsmodellen ett metodiskt sätt att göra elever läsberedda. Utbildningsförvaltningen

Bornholmsmodellen ett metodiskt sätt att göra elever läsberedda. Utbildningsförvaltningen Bornholmsmodellen ett metodiskt sätt att göra elever läsberedda Bornholmsprojektet 1985-1989 Kan man: Specifikt stimulera språklig medvetenhet? Bekräfta ett positivt samband mellan fonologisk medvetenhet

Läs mer

Att skriva uppsats. Uppsatsens delar

Att skriva uppsats. Uppsatsens delar Att skriva uppsats Det finns många olika sätt att skriva uppsats på. I den här handledningen beskrivs en modell som, i lite olika varianter, är vanlig i språkvetenskapliga uppsatser. Uppsatsens delar Du

Läs mer

Föreläsning 7: Syntaxanalys

Föreläsning 7: Syntaxanalys DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2009-10-27 Skribent(er): Carl-Fredrik Sundlöf, Henrik Sandström, Jonas Lindmark Föreläsare: Fredrik Niemelä 1 Syntaxanalys

Läs mer

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Om SVOX AG Jag gjorde min praktik på företaget SVOX AG, ett företag som bygger och sysslar med TTSmotorer. Företaget bildades våren 2000 och har

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Tekniska förutsättningar För WordFinder från Mac App Store krävs följande: Processor: Intel Mac OS X 10.6.6 eller senare.

Läs mer

Rapportgranskning, Rapport 1

Rapportgranskning, Rapport 1 Rapportgranskning, Rapport 1 GPS systemet av Mohammad Abd Al karem et i rapporten var överlag bra. Man fick en övergripande bild av hur GPS är uppbyggt och fungerar, de delarna som togs upp kändes väsentliga.

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...

Läs mer

Kursplan för Matematik

Kursplan för Matematik Sida 1 av 5 Kursplan för Matematik Inrättad 2000-07 SKOLFS: 2000:135 Ämnets syfte och roll i utbildningen Grundskolan har till uppgift att hos eleven utveckla sådana kunskaper i matematik som behövs för

Läs mer

Klassrumshantering Av: Jonas Hall. Högstadiet. Material: TI-82/83/84

Klassrumshantering Av: Jonas Hall. Högstadiet. Material: TI-82/83/84 Inledning Det som är viktigt att förstå när det gäller grafräknare, och TI s grafräknare i synnerhet, är att de inte bara är räknare, dvs beräkningsmaskiner som underlättar beräkningar, utan att de framför

Läs mer

Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling

Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling Stockholm, 30 januari 2015 Sofia Engman och Mikael Olofsson, Institutionen för språkdidaktik vid Stockholms universitet Vår

Läs mer

4. Bedömning av delprov C

4. Bedömning av delprov C 4. Bedömning av delprov C Bedömningen av delprov C genomförs utifrån bedömningsmatriser, kommentarer till bedömningsmatriserna samt med hjälp av exempel på elevlösningar med analys. På grund av skillnader

Läs mer

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Handicom. Symbol for Windows. Encyklopedi. Version 3.4 Handicom Symbol for Windows Encyklopedi Version 3.4 Handicom, Nederländerna/Frölunda Data AB 2009 Innehåll Installation och licenser...2 1. Inledning...4 1.1 Vad är Encyklopedi?...4 2. Encyklopedis huvudmeny...5

Läs mer

Vanliga frågor för VoiceXpress

Vanliga frågor för VoiceXpress Vanliga frågor för VoiceXpress 1) Hur stort ordförråd (vokabulär) innehåller VoiceXpress? VoiceXpress innehåller ett mycket omfattande ordförråd, och svaret på frågan varierar en aning beroende på hur

Läs mer

Grafisk visualisering av en spårbarhetslösning

Grafisk visualisering av en spårbarhetslösning Datavetenskap Opponenter Johan Kärnell och Linnea Hjalmarsson Respondenter Agni Rizk och Tobias Eriksson Grafisk visualisering av en spårbarhetslösning Oppositionsrapport, C-nivå Report 2011:06 1. Generell

Läs mer

Lokal pedagogisk planering för tyska år 9

Lokal pedagogisk planering för tyska år 9 Barn- och utbildningsnämnden 1 (5) Barn- och utbildningsförvaltningen Skogstorpsskolan Cecilia Härsing, lärare i tyska Lokal pedagogisk planering för tyska år 9 Syfte Undervisningen i tyska år 9 utformas

Läs mer

KÄRLEK. Genom undervisningen ska eleverna ges förutsättningar att utveckla sin förmåga att

KÄRLEK. Genom undervisningen ska eleverna ges förutsättningar att utveckla sin förmåga att KÄRLEK Under vårterminen i årskurs 8 kommer vi att arbeta med temat kärlek. Alla måste vi förhålla oss till kärleken på gott och ont; ibland får den oss att sväva på små moln, ibland får den oss att må

Läs mer

campus.borlänge Förstudie - Beslutsstöd för operativ tågtrafikstyrning

campus.borlänge Förstudie - Beslutsstöd för operativ tågtrafikstyrning campus.borlänge Förstudie - Beslutsstöd för operativ tågtrafikstyrning En rapport från CATD-projektet, januari-2001 1 2 Förstudie Beslutsstöd för operativ tågtrafikstyrning Bakgrund Bland de grundläggande

Läs mer

För prövning i Grundläggande Svenska gäller följande vid första tillfället:

För prövning i Grundläggande Svenska gäller följande vid första tillfället: prövning grundläggande svenska Malmö stad Komvux Malmö Södervärn PRÖVNING Prövningsanvisning Kurs: Svenska Kurskod: GRNSVE2 Verksamhetspoäng: 1000 För prövning i Grundläggande Svenska gäller följande vid

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Utbildningen i engelska har dessutom som syfte att vidga perspektiven på en växande engelsktalande omvärld med dess mångskiftande kulturer.

Utbildningen i engelska har dessutom som syfte att vidga perspektiven på en växande engelsktalande omvärld med dess mångskiftande kulturer. Kursplan i engelska Ämnets syfte och roll i utbildningen Engelska är modersmål eller officiellt språk i ett stort antal länder, förmedlar många vitt skilda kulturer och är dominerande kommunikationsspråk

Läs mer

ENGELSKA. Ämnets syfte. Kurser i ämnet

ENGELSKA. Ämnets syfte. Kurser i ämnet ENGELSKA Det engelska språket omger oss i vardagen och används inom skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska ökar individens möjligheter att ingå i olika sociala

Läs mer

FTEA12:2 Filosofisk metod. Att värdera argumentation I

FTEA12:2 Filosofisk metod. Att värdera argumentation I FTEA12:2 Filosofisk metod Att värdera argumentation I Dagens upplägg 1. Några generella saker att tänka på vid utvärdering av argument. 2. Grundläggande språkfilosofi. 3. Specifika problem vid utvärdering:

Läs mer

Röda tråden i svenska har vi delat in i fem större delmoment:

Röda tråden i svenska har vi delat in i fem större delmoment: Röda tråden i svenska för F-6 Röda tråden i svenska har vi delat in i fem större delmoment: Varje delmoment innehåller olika arbetsområden. Delmomenten rymmer i sin tur olika arbetsområden. Dessa arbetsområden

Läs mer

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg Introduktion till programmering D0009E Föreläsning 1: Programmets väg 1 Vad är en dator? En maskin vars beteende styrs av de innehållet (bitmönster) som finns lagrade i datorns minne (inte helt olikt förra

Läs mer