Ett rimlexikon över det svenska språket. Rasmus Bååth och Staffan Åberg.

Relevanta dokument
BLOCK 1. 1A. Att komma igång

Acapela TTS. Inställningar och korrigering av uttal. Emma och Erik

Uttalskorrigering med hjälp av Fonetisk text

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Lär dig engelska med bilder Mappia AB Facebook.se/mappia Twitter/mappiaab

tentaplugg.nu av studenter för studenter

Allemansdata Dags fö r örd

Elevtext 1 (svenska) beskrivande

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Utskrift av dialektinspelning från Björnlunda socken, Södermanland

Våren Nationalencyklopedin. Avancerad guide

Svenska fonetiska tecken med Word och Unicode

Enhet / skola: Lindens skola i Lanna Åk: 1

Namn:.. Personnr:. 1. (4 p) I vilket av följande ord kan man i central rikssvenska höra 6 språkljud?

ViTal. Talsyntes. Användarhandledning

Hur bestämmer man vilka fonem ett språk har? Fonologi. Kommutationstest. Hur bestämmer man vilka fonem ett språk har?

Lärarhandledning Vi urskiljer ord och språkljud

Lärarhandledning Vi urskiljer ord och språkljud/bokstäver/handalfabetet

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

LÄSLANDET - BOKSTÄVER OCH ORD

Lathund för Stava Rex

Denna beskrivning är gjord på uppdrag av Specialpedagogiska institutet, för nätversionen av Hej skärm! , logoped Bitte Rydeman.

DAB760: Språk och logik

foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8

Ämnesdidaktiskt kollegium. Arbetslag 4-6. Vad vill vi att eleverna ska utveckla? Bosgårdsskolan - Tvååker

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

Innehåll B-nivå B.1 Två olika konsonanter i rad; i slutet och i början av ord.

Språklekar enligt Bornholmsmodellen Alfabetssånger Dramatiseringsövningar Trullematerialet Rim och ramsor

Barnets typiska utveckling. -kommunikation -språkutveckling

(Termen grammatiskt läsande och skrivande kommer från det antika Grekland - grammatisk kunskap: förmågan att hantera bokstäverna)

Snabbguide för användare SourceTech Telllus

Din väg till svenskan

man kan lyssna på vad de betyder man kan lyssna efter hur de låter utan att bry sig om vad de betyder.

ÄLTA SKOLAS LOKALA KURSPLAN

Anpassa uttal i Infovox desktop Pro

Fonologi. Kommutationstest. Minimala par. Hur bestämmer man vilka fonem ett språk har?

Lärarhandledning. Modularbetet. Modulöversikt

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

O Ordjakt 1 ordbildning O A1 Labyrint avläsning. O Musen rim O A2 Minirutor ordkunskap. OO Ordjakt 2 ordbildning. OO Bingo ** avläsning.

Uttalsutveckling med hjälp av IT-teknik

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Lyssna Ljuda Läs 1(6) Lyssna Ljuda Läs ISLORMUA Lyssna Ljuda Läs ÅNBEKÄVWTPY Lyssna Ljuda Läs GÖJFDHXCZQ

Flera övningar innehåller träning i att skilja på närliggande vokal- och konsonantljud för att eleven ska kunna koppla ihop varje språkljud med rätt

Identifiering av ordvitsar med Granska

Retriever Mediearkivet

Läs- och skrivinlärning

Snabb guide för användare

Ansvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:

Uttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling

DANTEK ELEVWEB HJÄLP. Dantek ElevWeb Hjälp. Version 1 Copyright 2016 by Dantek AB. Sidan 1

Handledning Sfi i Hjo «Vi lär oss svenska tillsammans»

Våga snacka Lärarhandledning 7

PROTOKOLL 6:1-6:2 O / OO. Steg 6:1 Dator Laborativ övning Arbetsblad. Steg 6:2 Dator Laborativ övning Arbetsblad

Snabbguide för användare

Kurslitteratur Taltranskription: Introduktion

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Örsundsbroskolan Ingrid Wikström Catharina Tjernberg SPRÅKSCREENING FÖRSKOLEKLASS

Fonem eller grafem? Vilket ska komma först i sfiundervisningen? Margareta Molin

Övningar till Taltranskription (Per Lindblad 2005) Fonetik, Språk- och Litteraturcentrum, Lunds Universitet (Sammanställda av Susanne Schötz)

Lathund för SpellRight

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Manual för ehp och HP:s digitala arkiv

Ersätta text, specialtecken och formatering

Alfamax. PROTOKOLL 1:1a O / OO. Steg 1:1a Övrigt. O Ordjakt 1 ordbildning O A1 Labyrint avläsning. O Musen rim O A2 Minirutor ordkunskap

Kungl. Tekniska högskolan NADA Grundformer med Stava

Hör och härma. Röda boken lite lättare. Uttalsträning för nybörjare i svenska som andraspråk. Unni Brandeby

INSIKT nr 4 årgång vetlanda.pingst.se

Användarhandledning - Sökning av Säkerhetsdatablad i Logistikportalen baserad på SharePoint 2013

Appar vi arbetat med

FOR BETTER UNDERSTANDING. Snabbguide.

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

Riktlinjer för namngivningsnämndens verksamhets- och ansvarsområde

SVENSKA år 5 ******** Övergripande mål i svenska

Använd WordFinder Pro för Mac optimalt! Snabbguide med nyttiga tips och trix.

Tornedalsfinska - Meänkieli - Kan språkteknologiska verktyg för finska anpassas till meänkieli?

Alfamax. PROTOKOLL 1:1a. Steg 1:1a Övrigt. O Ordjakt 1 ordbildning O A1 Para ihop ordkunskap. O Musen rim O A2 Sök rim rim

Kommentar [k1]: Behöver vi kommentera det som finns till höger ovanför schematyp?

Norstedts första engelska ordbok Läraranvisning Textview. Verksnummer: 30399

Lärarmaterial. Vad handlar boken om? Mål och förmågor som tränas: Eleverna tränar på följande förmågor: Författare: Thomas Halling

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

Lathund för Gustavas ordböcker

Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011

Funktionsbeskrivning

BLOCK 2. Att lära sig ett nytt språk

Alfamax. PROTOKOLL 1:1a O / OO. Steg 1:1a Övrigt. O Ordjakt 1 ordbildning O A1 Labyrint avläsning. O Musen rim O A2 Minirutor ordkunskap

Läslandet 2 Ord och meningar

Lyssna, läs och uttala. Eva Askling och Britt Wahlström-Ståhl

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

729G09 Språkvetenskaplig databehandling

Vokalprogrammet Sara Wiberg Hanna Hägerland

av Bangkok Book House Tryckt i Thailand. Alla rättigheter är reserverade.

RÖDA TRÅDEN SVENSKA F-KLASS ÅK

Words and Sentences Träna engelska!

Svenska språkets struktur: fonetik. kända svårigheter i svenska som andraspråk. Helen Winzell (rum 4315, Key-huset) helen.winzell@liu.

Följande program utvecklades av BITTECH. De flesta såldes via Elevdata, Frölunda Data och VetaMer. De finns inte längre till försäljning.

SourceTech Tellus Mobile

HUR MAN ANVÄNDER IMAGEVAULT

Fernando Álvarez Montalbán

Transkript:

Ett rimlexikon över det svenska språket Rasmus Bååth och Staffan Åberg.

Vilka ord rimmar? Två ord rimmar om de är lika från och med den sista betonade vokalen. ex. Dokumenterar Filosoferar Kan vara enstaviga, tvåstaviga, trestaviga... Gris Paris, enstavigt Österrikare- Trösterikare, femstavigt Allt för ofta används nödrim Hemköp Julgröt, Panna Mamma Extra vanligt i juletid

Hur bygga ett rimlexikon? Matcha hur ord stavas... Blir uttömmande, stora ordlistor finns på nätet Blir internationellt, samma motor kan utnyttjas till många språk Är lätt, går att implementera på en eftermiddag...är en dålig ide Ord uttalas inte alltid som de stavas Man tar inte hänsyn till betoning

Rim är likhet i uttal, inte i stavning Samma stavning kan ha olika uttal Blåst Låst rimmar inte, olika vokalljud. Mansgris Aktris rimmar inte, olika betoning. Fleece Gris rimmar, låneord är speciellt svåra Här behövs ett fonetiskt lexikon!

Bygga rimlexikon = bygga fonetiskt lexikon Hur bygga? Fonetiska regler Kan arbeta på redan befintliga ordlistor Lätt att lägga till nya ord Svårt att implementera Blir långt ifrån perfekt Färdigt fonetiskt lexikon Blir perfekt Svårt att utöka Finns inte gratis på nätet

Lexin: lexikon för invandrare Lexin är: Ett lexikon utvecklat av myndigheten för skolutveckling Fritt tillgängligt på nätet i XML-format Lexin innehåller 20 000 ord med tillhörande böjningar sammansatta ord, betydelse och... Uttal!

Lexins fonetik Bokstäver Alla bokstäver, förutom 'q','x' och 'z', finns med och står för sitt vanliga uttal. Undantag: 'c' noterar ch-ljud Specialtecken '@' noterar ng-ljud, '$' noterar ch-ljud och sch-ljud ':', markerar långt uttal, '+', markerar ljud som smälter ihop Versal markerar betoning '2' markerar grav accent Några tecken är inte viktiga ur rimsynpunkt '2', ':' efter konsonant och i viss utsträckning '+'

Lexins XMLstruktur <lemma-entry> <form>lingon</form> <pronunciation>2li@:ån</pronunciation> <inflection>lingonet lingon lingonen</inflection> <pos>subst.</pos> <lexeme> <definition>(bär av) växten Vaccinium vitis idïa</definition> <definition_comm>bild 23:46</definition_comm> <example>köttbullar med lingon</example> <idiom>(inte värd) ett ruttet lingon ("värdelös")</idiom> </lexeme> </lemma-entry> <lemma-entry> <form>lingvist</form> <pronunciation>li@vis:t</pronunciation> <inflection>lingvisten lingvister</inflection> <pos>subst.</pos> <lexeme> <definition>språkforskare</definition> <compound>lingvistik</compound> </lexeme> </lemma-entry> <lemma-entry> <form>linjal</form> <pronunciation>linja:l</pronunciation> <inflection>linjalen linjaler</inflection> <pos>subst.</pos> <lexeme> <definition>...

Lexin: lexikon för invandrare Lexin är inte: Uppdaterat sedan 1992 Rättstavat Välformat Särskilt uttömmande, innehåller t.ex. inga egennamn Komplett, bara grundorden har uttalsbeskrivning.

Lexins XMLstruktur? <lemma-entry> <form>felaktig</form> <pronunciation>2fe:lak:tig </pronunciation> <inflection> -t -a -t(!)</inflection> <pos>adj.</pos> <lexeme> <definition>oriktig, tokig, galen</definition> <example>ett felaktigt svar</example> </lexeme> </lemma-entry> <lemma-entry> <form>ger med sig</form> <pronunciation>je:rme:(d)sej</pronunciation> <inflection>gav gett (el. givit) ge(!)</inflection> <pos>verb</pos> <lexeme> <definition>acceptera något (efter påtryckning), foga sig</definition> <valency>a &</valency> </lexeme> </lemma-entry> <lemma-entry> <form>majl el. mail</form> </lemma-entry>

Handlingsplan Perl Smidigt med reguljära uttryck Funkar bra på nätet Xml -> Flatfile Lättare att jobba med, lättare att läsa Flatfile -> MySQL Behöver inte implementera sökfunktioner Snabba sökningar

Utöka Lexin 20 000 ord räcker inte Måste utöka lexikonet Lägga till uttal för böjningar Lägga till uttal för sammansatta ord Läsa in nya ord

Lägga till uttal för böjningar Böjningar är på formen: Ananas :: 2An:anas :: [ananasen ananas ananasen] En metod för att generera uttal för böjningar... Lista alla ändelser, det som skiljer en böjnig från dess ord. Katt :: [katten] ger 'en' Bestäm uttal för alla ändelser: 'r'=>'r', 'ade'=>'a:de', 'og'=>'o:g'... Plocka ut gemensamma uttal för ett ord och dess böjning: blir::bli:r::[blivit] ger 'bli:' Lägg till ändelsens uttal till det gemensamma uttalet: 'bli:' + 'vit' = 'bli:vit'...som genererar vissa fel Tar inte hänsyn till ändrad stavning av stammen. gror :: grodde Tar inte hänsyn till betoning Går dock i det flesta fall att rätta till med några få enkla regler

Lägga till uttal för sammansatta ord Sammansatta ord är på formerna: 1. 'kupong' :: 'rabattkupong' och 2. 'bok' :: 'bok~café' Metod för att generera uttal för den första formen Insikt: Det är slutet som räknas, hela ordets uttal måste inte finnas med Låt alltså 'rabattkupong' ha uttalet ' kupå@' där markerar att ordets inledande uttal är okänd. Metod för att generera uttal för den andra formen Insikt: Det är slutet som räknas, uttalet i slutet är viktigare än uttalet i början. Att ge 'bok~café' uttalet 'bo:k ' hjälper oss inte mycket. Insikt: Att lägga till uttal för sammansatta ord på den andra formen är detsamma som att lägga till uttal för okända ord.

Lägga till uttal för nya ord Man kan skilja på helt okända ord och delvis kända sammansatta ord. Uttal för okända ord kan fås på två sätt Fonetiska regler. +Går att automatisera -uttal blir dock inte perfekt och det är svårt att implementera Den hårda vägen. +Uttalet blir rätt -Den är hård Uttal för delvis kända sammansatta ord kan fås på ett tredje sätt Det är slutet som räknas, det kan redan finnas i databasen Matcha stavningen av det sammansatta ordet från slutet mot orden i databasen. Sätt uttalet till uttalet för det längsta ord som matchar. Ex. 'Joggingrunda' matchar 'runda' och får uttalet ' runda' Metoden funkar men genererar ofta fel, speciellt gällande betoning Metoden kan kanske i viss mån användas på icke sammansatta ord. ex. 'rationalisering' matchar slutet av 'sekularisering' och får då uttalet ' se:ring'

Från fonetik till julklappsrim För att kunna söka i databasen krävs: En sökalgoritm Sökningens exakthet ska kunna varieras Sökordets stavning ska räcka Sökordet ska inte behöva finnas med i databasen Sökalgoritmen ska kunna kompensera för ett bristfälligt lexikon Ett användargränssnitt Enkelt, webbaserat, ingen vill ju lära sig Perl Sökresultatet ska presenteras på ett överskådligt sätt En wiki-funktion, det är ju inne nu för tiden.

En flexibel sökalgoritm En algoritm som gör det bästa av situationen Först måste vi ha uttalet av det inmatade sökordet. Om sökordet finns i databasen, är detta lätt. Om så inte är fallet så hitta det ord vars stavning, från slutet, matchar bäst med sökordet. Om flera ord matchar välj det ord vars längd bäst stämmer sökordets. Plocka bort allt från det matchade ordets uttal förutom de stavelser på slutet som sökordet matchade. Ex. 'Hästtransport' matchar 'transport' :: 'transpår+t' med två stavelser. Det som blir kvar av uttalet är ' anspår+t'.' Plocka ut alla ord vars uttal slutar på stavelserna som matchade. Och matcha sedan allt utom stavelserna som matchade med hur sökordet stavas. Ex 'Hästtransport' matchar 'Prästtransport'. Funkar för alla sökord. Ger bra resultat om sökordet finns i databasen. Ger något resultat om sökordet inte finns i databasen. Kan dock vara bättre att, om sökordet inte finns i databasen, endast matcha på stavning...

En flexibel sökalgoritm Man kan söka olika strikt Om man vill söka efter s.k. orena rim, rim där inte betoningen spelar någon roll, jämställer algoritmen stor och liten bokstav. Om man vill söka efter rim där vokallängd inte spelar någon roll, jämställer algoritmen [vokal]: med [vokal] Om man vill söka ännu mindre strikt kan man jämställa vissa konsonanter. t.ex 'c' = '$' eller 'p' = 't' Man kan specificera antalet matchande stavelser Man kan specificera om man vill söka i det lilla, men säkra, ursprungliga Lexin eller i den utökade, med osäkra, databasen. Sortering av sökresultatet Först efter antal matchade stavelser Sedan efter antal stavelser Sist i bokstavsordning

Problem Databasen innehåller fel Databasen innehåller för få ord Inga egennamn! Betoning Sammanfattningsvis: Vi är inte riktigt klara. Man rimmar mest inte förrän den 23 december ändå!

Tack för oss Och god jul