Lösning till tentamen: Språkteknologi för språkvetare (SV2122)

Relevanta dokument
Vi skall skriva uppsats

Presentationsövningar

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Tankar om elevtankar. HÖJMA-projektet

Sammanfattning på lättläst svenska

Två konstiga klockor

Skriva B gammalt nationellt prov

Särskilt stöd i grundskolan

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

UPPGIFT: SKRIV EN DEBATTARTIKEL

Minoritetsspråk Åk 9

Kampanj kommer från det franska ordet campagne och innebär att man under en tidsbegränsad period bedriver en viss verksamhet.

Uppdrag: Huset. Fundera på: Vilka delar i ditt hus samverkar för att elen ska fungera?

Elektronen och laddning

KUPOL en studie om skolmiljöns betydelse för ungdomars hälsa ENKÄT TILL ELEVER I ÅRSKURS 9

Partnerskapsförord. giftorättsgods görs till enskild egendom 1, 2. Parter 3. Partnerskapsförordets innehåll: 4

Lösningar s. 8 Perspek9v s. 7

VÄRDERINGSÖVNINGAR. Vad är Svenskt?

Individuellt Mjukvaruutvecklingsprojekt

Utveckla arbetsmiljö och verksamhet genom samverkan

ANVÄNDARHANDLEDNING FÖR

Spelregler. 2-4 deltagare från 10 år. Med hjälp av bokstavsbrickor och god uppfinningsrikedom

Snabbslumpade uppgifter från flera moment.

Koll på cashen - agera ekonomicoach!

Programmera en NXT Robot

Syftet med en personlig handlingsplan

Manual för BPSD registret. Version 6 /

Boll-lek om normer. Nyckelord: likabehandling, hbt, normer/stereotyper, skolmiljö. Innehåll

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Sektionen för Beteendemedicinsk smärtbehandling

Utvärdering fadderverksamhet (Nyanländ)

Samtals- och dokumentationsunderlag Språk och erfarenheter

Sammanfatta era aktiviteter och effekten av dem i rutorna under punkt 1 på arbetsbladet.

Lathund, procent med bråk, åk 8

LÄSFÖRSTÅELSE PROVKAPITEL. Katarina Neiman Hedensjö

Välkommen till Arbetsförmedlingen! Information till dig som är arbetssökande

Boken om Teknik. Boken om Teknik är en grundbok i Teknik för åk 4 6.

För dig som är valutaväxlare. Så här följer du reglerna om penningtvätt i din dagliga verksamhet INFORMATION FRÅN FINANSINSPEKTIONEN

Riktlinjer - Rekryteringsprocesser inom Föreningen Ekonomerna skall vara genomtänkta och välplanerade i syfte att säkerhetsställa professionalism.

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Svenska som andraspråk, år 8

Bild Engelska Idrott

Anna Kinberg Batra Inledningsanförande 15 oktober 2015

Matris för Hem och Konsumentkunskap åk.6 8 Nivå 1 Nivå 2 Nivå 3 Nivå 4

TIMREDOVISNINGSSYSTEM

Mer än bara fotboll VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR LGRS 11 CENTRALT INNEHÅLL SOM TRÄNAS

Syftet är att fördjupa diskussionen om vem som ansvarar för vad.

ELEV- HANDLEDNING (Ansökan via webben)

Får nyanlända samma chans i den svenska skolan?

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

GRUNDERNA I SJÄLVLEDARSKAP

Kulturmöten. Det var vi som gjorde det.

Webb-bidrag. Sök bidrag på webben Gäller från

Från min. klass INGER BJÖRNELOO

Kvalitetsrapport Så här går det

PROTOKOLL Svar på motion 2015:07 från Christer Johansson (V) om allmän visstidsanställning KS-2015/516

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

MRSA. Information till patienter och närstående

SKOLMATEN OCH ELEVINFLYTANDE

DEMOKRATI 3 DEMOKRATINS VILLKOR

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Praktisk programmering

Sid i boken Rekrytering. Författare Annica Galfvensjö, Jure Förlag

Virkade tofflor. Storlek & By: Pratamedrut. pratamedrut.se/blog/virkade tofflor 1

Har vi lösningen för en bättre hemtjänst? Självklart.

Tränarguide del 1. Mattelek.

Hur gör jag så att patienten blir delaktig, i samtalet, för att hitta lösningar vid förskrivning av hjälpmedel?

Bedömningsanvisningar Del I vt 2010 Skolverket har den beslutat att provet i matematik A för vt 2010 inte ska återanvändas.

Frågor och svar för föreningar om nya ansökningsregler för aktivitetsbidrag från och med 1 januari 2017

TP #3. checklista - rättigheter och skyldigheter vid hyra. checklista: RÄTTIGHETER OCH SKYLDIGHETER VID HYRA HYRESAVTAL

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Bedömningsuppgift i geografi och svenska (se kraven och bedömning för svenska längre ned)

Planera och framföra ett högtidstal

Hävarmen. Peter Kock

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Tentamensdeltagare från Dataekonomutbildningen, Textilekonomutbildningen och Affärsinformatikutbildningen.

Vid ett flertal tillfällen ställde individer frågor till Edgar Cayce om

LPP laboration. Förmågor: Centralt innehåll: Kunskapskrav:

Avsikt På ett lekfullt sätt färdighetsträna, utveckla elevers känsla för hur vårt talsystem är uppbyggt samt hitta mönster som uppkommer.

Information till elever och föräldrar i skolår 5

729G04 - Hemuppgift, Diskret matematik

En grafisk guide till vår identitet

Mål Blå kurs Röd kurs

Rapport uppdrag. Advisory board

Utvärdering APL frågor till praktikant HT15

2. Tidsplanering. 21 Studiedag

Hur du presenterar och marknadsför dig under själva intervjun är avgörande för att du ska bli en intressant kandidat.

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Arbetsbeskrivning, att förbereda för studenternas registrering kommande termin. 1. Studenter antagna på fristående kurs 2

Veckobrev vecka Kristallen 2

Exempel på tentamensuppgifter i LMA100, del 1

TIMREDOVISNINGSSYSTEM

FIRST LEGO League. Göteborg 2012

Nämnarens adventskalendern 2007

Det är bra om även distriktsstyrelsen gör en presentation av sig själva på samma sätt som de andra.

Södervångskolans mål i svenska

Gemensam problemlösning. Per Berggren och Maria Lindroth

Transkript:

Lösning till tentamen: Språkteknologi för språkvetare (SV2122) 14 mars 2014, 9:00 12:00 Kursansvarig Richard Johansson, Språkbanken, institutionen för svenska språket Hjälpmedel Inga Betygsgränser Väl godkänt: 24p, Godkänt: 15p, Max: 30p Observera: Skriv läsbart: oläsligt räknas som felaktigt. Numrera de papper du lämnar in. Om du bara hinner slutföra en uppgift delvis, lämna in din lösning i alla fall. Om någon fråga är oklar, passa på att fråga när den kursansvarige kommer till tentamenslokalen.

Observera: Jag har skrivit ganska utförliga svar här, men du kan få full poäng även om du uttryckt dig mer kortfattat. Jag rättar baserat på hur mycket jag tycker att svaret uttrycker de viktigaste idéerna i vad jag efterfrågar. Uppgift 1 av 6: Relationer mellan ord (5 poäng) Din uppgift: Hitta minst fem ordpar i ordlistan nedan, samt ange vilken lexikal-semantisk relation det råder mellan orden i varje par. De relationer som är tänkbara i det här fallet är antonymi, hyponymi, meronymi, polysemi och synonymi. Observera att samma ord kan ingå i era olika relationer. Ordlistan: vän, sträng, sk, ankomst, gitarr, glas, avfärd, kompis, lax Lösning: vän är synonym till kompis lax är hyponym till sk sträng är meronym till gitarr ankomst är antonym till avfärd Exempel på polysemi: sträng är en tråd eller en bit text i t.ex. Python; glas är ett material, ett dryckeskärl eller en volymenhet; lax är en sk eller en sedel. Uppgift 2 av 6: Fornisländska substantiv (5 poäng) Fornisländska hade liksom svenska era olika sätt att böja substantiv. Till exempel hestr (`häst') och hamarr (`hammare') tillhörde vad man kallar a-typen, och vinr (`vän') och staðr (`plats') hörde till i-typen. Här visas böjningsmönstren i obestämd form för dessa fyra exempel: Nominativ hestr hestar Ackusativ hest hesta Dativ hesti hestum Genitiv hests hesta Nominativ hamarr hamrar Ackusativ hamar hamra Dativ hamri homrum Genitiv hamars hamra Nominativ vinr vinir Ackusativ vin vini Dativ vin vinum Genitiv vinar vina Nominativ staðr staðir Ackusativ stað staði Dativ stað stoðum Genitiv staðar staða Här kan vi göra en del observationer. Till att börja med påverkas ett a av ett efterföljande u så att det uttalas längre bak, och skrivs då o. Denna process kallas u-omljud. Den andra saken att lägga märke till är att hamarr fungerar som en hel del moderna svenska substantiv: synkop gör att det andra a:et faller bort om böjningsändelsen innehåller en vokal. Din uppgift: Beskriv i stora drag hur man skulle konstruera ett program som hanterar fornisländsk substantivböjning.

Lösning: Substantivets böjningsformer beskrivs med hjälp av böjningstabeller; t.ex. för a-typen gör vi en tabell där vi har -r för nominativ singular, -ar för nominativ plural, etc, och för i-typen en annan böjningstabell där vi t.ex. har -ir för nominativ plural. I lexikonet anger vi då att rötterna hest och hamar kopplas till a-tabellen och vin och stað till i-tabellen. Vi beskriver de fonologiska processerna (omljud och synkop) med hjälp av omskrivningsregler. u-omljudet motsvaras då av en regel som skriver om ett a till o om det har ett u efter sig. Synkopen blir kanske lite mer komplicerad, men en början kan vara att om en rot innehåller två vokaler, och böjningen innehåller någon vokal, så avlägsnas den andra av rotens vokaler. Precis enligt dessa principer konstruerar vi ett morfologiprogram med t.ex. Xerox-verktygen. Ett sådant program kommer då att både kunna generera, dvs producera rätt böjningsform, och analysera, dvs avgöra grundform och morfologisk kategori för en given form. Uppgift 3 av 6: Oförskämdheter (5 poäng) På en tidning beslutar man sig för att tillåta sina läsare att lämna kommentarer till de artiklar som publiceras på tidningens websida. Enligt svensk lag är tidningen då juridiskt ansvarig för det som skrivs i kommentarerna: tidningens ansvarige utgivare kan dömas om en läsare skriver något som är brottsligt, t.ex. om det kan räknas som förtal eller uppvigling. Man vill dessutom hålla en god stämning i kommentarsfältet så att diskussionerna inte urartar. Man bestämmer sig därför för att använda ett automatiskt program som kontrollerar läsarnas kommentarer och skickar dem till en granskare om de verkar olämpliga, t.ex. om de verkar formulera sig på ett brottsligt sätt eller om de innehåller oförskämdheter. Din uppgift: Föreslå något tillvägagångssätt vi kan tänka oss att använda för att konstruera ett program av denna typ. Lösning: Detta är ett dokumentkategoriseringsproblem, ungefär som de program för spamltrering och åsiktskategorisering som vi har sett i kursen. Det kan förmodligen också lösas på liknande sätt, genom att använda en tabell med informativa ord som ger en signal om vilken kategori varje kommentar tillhör. Tabellen, och styrkevärdena för orden i tabellen, kan tillverkas antingen manuellt eller genom korpusbaserade metoder. För den sistnämnda varianten behöver vi dock en annoterad korpus att träna upp programmet på, dvs en samling av kommentarer där en människa kategoriserat varje enskild kommentar som antingen lämplig eller olämplig. Uppgift 4 av 6: Ordbetydelser och informationssökning (5 poäng) Vissa ord har ett ertal betydelser, t.ex. cykel. Å andra sidan nns det en del ord som betyder samma sak, t.ex. mat och föda. Din uppgift: Förklara varför dessa två fenomen försvårar informationssökning. Vilken eekt har respektive fenomen på precisionen och täckningen (recall)? Ge gärna exempel. Lösning: Om ett ord har era betydelser så kan vi få sökträar som inte innehåller det vi var ute efter, t.ex. om jag söker på cykel (och var ute efter fordon) så kommer också att få träar på den andra betydelsen av cykel (dvs ungefär omgång), vilket alltså innebär att vi får lägre precision i dessa fall (precision = antalet relevanta förslag dividerat med antalet förslag). Det vore tänkbart att försöka lösa detta problem genom att utföra betydelsedisambiguering (word sense disambiguation), men det är oftast svårt att göra i praktiken. Å andra sidan, om jag t.ex. söker efter dokument som beskriver vilken mat som vesslor äter så kan det ju vara så att det nns informativa dokument som i stället använder ordet föda. Eftersom vi missar relevanta dokument av detta skäl så påverkar vi täckningen negativt (täckning =

antalet relevanta förslag dividerat med totala antalet relevanta i samlingen). Eekten av detta problem kan lindras genom sökfrågeexpansion (query expansion): man tillåter inte bara sökordet, utan också dess synonymer. Risken är förstås att man då minskar sökningens precision i stället. Uppgift 5 av 6: Grammatisk analys (5 poäng) Vi analyserar meningen Båten krockade med ett rev. med en ordklassmärkare och en syntaktisk analysator (parser), t.ex. med hjälp av Språkbankens annoteringslaboratorium. Resultatet ser ut så här: Din uppgift: Vad nns det för olika problem med ovanstående analys? Vad tror du problemen kan bero på och hur hänger de ihop? Tips: Om du är osäker på någon av koderna (NN, SS, VB, etc) så fråga! Lösning: De problem som nns är 1) att rev har analyserats som ett verb (VB) med grundformen riva i stället för substantiv (NN), och 2) att ett har blivit subjekt (SS) till rev, när det borde ha varit ett bestämningsattribut. Problem 2 är en direkt följd av problem 1: den syntaktiska analysen (dependensparsern) gör fel på grund av den felaktiga ordklassanalysen. Det är då svårt för parsern att göra rätt, eftersom ett verb brukar ta subjekt men inte bestämningsattribut. Problem 1 orsakas förmodligen av det faktum att rev är extremt mycket vanligare i korpusar som verb än som subtantiv. Det kan till och med vara så att det inte förekommer över huvud taget som substantiv i den annoterade korpus (i detta fall Stockholm/Umeå-korpusen) som användes för att utveckla ordklassanalysprogrammet. Uppgift 6 av 6: Översättning (5 poäng) Den bästa översättningen av engelska a dicult case till svenska är förmodligen ett svårt fall. Din uppgift: Diskutera olika tänkbara sätt att konstruera ett automatiskt översättningsprogram som kan producera texten ett svårt fall snarare än någon sämre möjlighet t.ex. en svår fall, ett svårt kasus, ett besvärligt hölje etc. Nämn minst två möjligheter att lösa detta problem. Lösning: Problemet kan tänkas lösas med en djup (betydelsebaserad) eller en ytlig (korpusbaserad) metod. Med en djup metod kan vi tänka oss följande. Vi gör först en ordklassanalys och en syntaktisk analys. Därefter använder vi betydelsedisambiguering (word sense disambiguation) för att avgöra att det är fall-betydelsen av case som avses, och inte ett lingvistiskt kasus eller ett

hölje eller en burk. Därefter representeras betydelsen för hela uttrycket, t.ex. genom att använda FrameNet. Vi har då kommit till en abstrakt mellanrepresentation som kan omvandlas åt andra hållet (generering) för att skapa texten på målspråket. Vid genereringen får vi förstås se till att den skapade texten tar hänsyn till svenskans genusregler så att vi inte får en svår fall. Observera att denna metod är svår att använda i praktiken men kan fungera bra i begränsade sammanhang, t.ex. sport, väder, manualer, etc. Korpusbaserade metoder baseras på att man samlar in statistik från korpusar. Den klassiska IBM-metoden använder två olika sannolikheter: översättning av ord och kombination av ord. Översättningssannolikheterna samlas in genom att observera i parallella korpusar hur ord brukar översättas; ordföljdssannolikheterna kan samlas in i vilken stor enspråkig korpus som helst. Översättningssannolikheterna kommer då att visa att fall är en vanligare översättning av case än kasus, och att svår och svårt är vanligare från dicult än besvärligt. Ordföljdssannolikheterna hjälper oss att välja grammatiska följder (svårt fall) snarare än ogrammatiska följder (svår fall), och visar dessutom att av de möjliga grammatiska följderna så är svårt fall vanligare än t.ex. besvärligt hölje. Det nns också mer avancerade korpusbaserade översättningsmetoder. I frasbaserade system (t.ex. Googles översättning) används översättningssannolikheter för fraser i stället för bara enstaka ord. Du får full poäng på denna uppgift om du ger minst två (förnuftiga) förslag. Det kan t.ex. vara en djup och en ytlig metod, eller två ytliga t.ex. ordbaserad eller frasbaserad översättning.