Text-till-Talsyntes (TTS3)
|
|
- Britt Lundqvist
- för 7 år sedan
- Visningar:
Transkript
1 Dagens lektion: Text-till-Talsyntes (TTS3) Rebecca Jonson TalTeknologikursen VT 2005 Talsyntes Forts. Konkateneringssyntes Återsyntes LPC, PSOLA, MBROLA Jämförelse syntesmetoder Artik, Formant, Konkat Jämförelse återsyntesmetoder Utvärdering av TTS-system Framtida utmaningar Litteratur TTS2 Konkateneringssyntes Donovan RE. Trainable Speech Synthesis. PhD thesis, Cambridge University kap 1.4.6, 1.7 Dutoit, T. A Short Introduction to Text-to- Speech Synthesis fr. kap 2.2 Black, A., Taylor, P & R. Caley. The Festival Speech Synthesis System, kap 7 Jurafsky. Kap 7.8, s Uppdelning av inspelat m änskligt tal i ljudsegment som lagras och sedan vid syntes väljs ut och konkateneras för att sedan återsyntetiseras Klipp å klistra -syntes Konkateneringskorpus En m änsklig röst spelas in Val av röst viktig Vilken typ av text är bäst? Textmassan bör hållas liten men samtidigt fånga upp de ljudsegmentsvarianter som behövs till databasen utan att för den skull innehålla alltför komplicerade ord och fraser som g ör det svårt för röstdonanten att artikulera Olika strategier används: nonsensord, ord, meningar, texter Inspelningen delas upp i ljudsegment Manuellt Automatisk segmentering Segmentdatabasen Segmenten lagras antingen som vågformer eller som parametrar i en taldatabas (speechbase) på ett effektiv sätt (t ex. hash tabell) Equalization= Segmenten behöver i vissa fall homogeniseras när det gäller amplitudskillnader. Exempel difoner med duration: _s #100 #50 si #30 #90 i_ #90 #200
2 Konkatenering Val av segment I run-time väljs sedan lämpliga segment ut som konkateneras (sammanfogas) till löpande ljudsekvenser Slutligen om så behövs krävs viss signalbehandling för att ändra F0 och durationer samt jämna ut sammanfogningarna (smoothing) så att bitarna passar b ättre ihop (samma tonhöjd, styrka etc.) Första steget i konkateneringssyntesen är att välja ut segmenten (t ex difonerna) som ska bygga upp yttrandet som matchar input till talsyntesen (fonetisk transkription + prosodiska parametrar) Exempel input: see _#120 s #70 i #150 _ #100 #nnn= med en duration på nnn ms För att välja segment behövs olika sökmetoder för att hitta dem i databasen och välja rätt segment Exempel output: _s #120 #44 si #26 #75 i_ #75 #100 Unit selection Target and concatenation cost Ett yttrande varierari styrka och tonar ofta av i slutet. Difoner tagna från början av ett yttranden l åter onaturligt att ha i slutet. Tidigare löste man detta genom att neutralisera difonerna (homogen amplitud, tonhöjd) men då tappar man också naturlighet Med unit selection försöker man samla flera varianter av varje enhet (difon)med olika spektrala och prosodiska skillnader i en större databas och sedan använder man olika algoritmer för att välja ut de som passar bäst. Bästa enhet är den som är fonetiskt, akustiskt och prosodiskt mest passande för kontexten. Target/Unit cost: prosodiska och spektrala likheten mellan ett segment och målsegmentet Concatenation/Transition cost: hur bra passar segmentet in I kontexten, d v s hur väl kan det sammanfogas med andra segment Viterbialgoritm används ofta för att hitta minsta kostnadsvägen (Leif kommer gå in mer på det här!) Forts Unit. Sel. Non-uniform unit selection Om enheten/segmentet är mer lik målenheten behöver signalbehandlingen göra ett mindre jobb (en del unit-selection-synteser struntar i DSP) Ger naturligare tal än vanlig Difonbaserad syntes Kräver avancerade sökmetoder (Viterbi) Festival (diphone conc) Festival (unit selection) En variant av unit selection är att segmenten inte bara är varianter av difoner utan även trifoner, foner eller stavelser lagring inte längre stort problem En del koartikulationsfenomen går inte att fånga med difoner (t ex konsonantkluster). För dessa väljer man istället att använda polyfoner. Ex: NonUniform A&T Ex: UnitSelection A&T
3 Domänspecifik konkateneringssyntes Konkateneringsmetoder Ibland är användningen av ett TTS-system inom en specifik domän där den output som ska ges är begränsad. Med domänspecifik TTS försöker man få domänens vanligaste yttranden att låta bäst. Inspelning görs med text från domänen som sedan segmenteras. Bland segmenten inkluderas ord och fraser. Som back-off har man en vanlig difondatabas. Ger ett hög kvalité på syntetisering av inom-domän yttranden En exempel dialog fr ån CMUs Darpa Communicator När lämpliga segment valts ut ska de sammanfogas och återsyntetiseras (sammanfogningar kanske måste jämnas ut smoothing). Pitch och duration hos segmenten måste anpassas till yttrandet som ska syntetiseras. (Difonerna har ju olika prosodi från inspelning) Signalbehandling med manipulering av pitch och duration påverkar dock kvaliteten hos talet (distortion) Byggt utifr ån 630 inom-domän-yttranden Återsyntes LPC Olika signalbehandlingstekniker används för att jämna ut skarvar i konkateneringen och för att anpassa difonernas prosodi till varann (duration/pitch). Ju sämre val av difonerman gör desto mer jobb här. Motivet med j ättedabaser med flera olika segment och varianter av segment är att inte behöva använda sig av signalbehandlning som inför viss distortion på den annars mänskliga talsignalen. LPC (Linear Predictive Coding) PSOLA (Pitch Synchronous Overlap-and-add) Återsyntes med Källa-Filter teori Digitalt filter uppskattas utifrån naturligt tal med algoritmer Segment sparas inte utan en representation av dessa (LP-koefficienter) Ljudkälla som en puls och filtret består av LPkoefficienter som modellerar glottis, ansatsröret och radiation karakteristika Manipulation av grundton, duration och formanter MBROLA (Multiband resynthesisoverlapadd) PSOLA Pitch Synchronous Overlap-and-add Teknikför att manipulera en sammanfogad vågform av förinspelade talsegment (difoner) Ser talet som en ström av korta signaler. Möjlighet till manipulation av grundton, duration hos segmenten på periodnivå För att ändra duration tar man bort eller dubblerar en signalbit. För att ändra grundton flyttar man signalbitarna så att de överlappar (högre) eller dras ifrån varandra (lägre) MBROLA Projekt: Algoritm: multiband resynthesis overlap and add Syntes: Input: fonemtranskription + prosodisk information Output: talsekvens genom konkatenering av difoner från en manipulerad databas PSOLA-databas där alla segment (difoner) är omanalyserade och omsyntetiserade med konstant pitch Vid syntes sammanfogas dessa ur konkateneringssynpunkt förbättrade segment Minskar diskontinuitet i pitch mellan sammanfogade segment
4 Festival Jmf olika syntesmetoder TTS med avancerad textbehandling och konkateneringssyntes (Univ. Edinburgh) Verktygsl åda som låter dig bygga din egen röst eller en syntes för ett nytt språk. Testa Festival i Unix >festival festival>(saytext Hello ) >emacs & Meta X say -minor-mode Skriv i bufferten, välj SayBuffer Artikulatorisksyntes Sv årt att räkna ut de fysiska parametrarna Kan ge hög kvalitet /Konsonanter svårt Optimal kontroll Intuitiv i sin bästa form Låter inte så bra Formantsyntes Bra kvalitet men låter syntetiskt/onaturligt (brusighet, falsett, nasalt, överaktiv med intonationen) Sv årt att hitta bra parametrar, kunskapstung (trial and error) Bra f ör vokaler, sämre för konsonanter Konkateneringssyntes Låter mindre syntetiskt (bygger ju påmänskligt tal!) Hackig ibland. Ingen jämn niv å. Forts jmf Jmf återsyntesmetoder Artikulatorisk Dyrbart komputationellt Kräver mer kunskap om talproduktionen Intressant ur forskningssynpunkt men hittills ingen praktisk tillämpbarhet Formant Lång utvecklingstid Kräver lite resurser Flexibel (ex: Röstbyte relativt enkelt) Konkatenering Ej flexibel: Sv årt att byta röster, kräver inspelningar Vanligast kommersiellt, snabbast utveckling, enkel metod Lagring inget problem längre LPC Surrigt ljud Syntetiserar talet och tappar naturligheten PSOLA Hög kvalitet på talet / låg komputationell kostnad Diskontinuitet vid överlappen MBROLA Undviker diskontinuitetsproblemet genom att bitarna har samma pitch Lägre kvalitet på talet än PSOLA Utvärdering av TTS (labintro) Utvärderingsmetoder TTS-utvärdering sker i subjektiv form Två huvudfaktorer utvärderas: Naturlighet att rösten är trevlig att lyssna på (inte n ödv. människolikhet) Förståelighet We speak not only to be heard but to be understood MOS-score (mean opinion score) Skala (oftast 1-5) där f örsökspersoner f år ranka system efter naturlighet och förståelighet Parjämförelse av naturlighet A är bättre än B SUS test av förståelighet Semantiskt ov äntade meningar the table walked through the blue truth DRT (Förståelighet på fonemnivå) Minimala par: Får, sår, vår/ lår, mår, når/ kår, tår, går
5 Forts utvärdering Svensk talsyntes Textbehandling (Förståelighet) Siffror, förkortningar, sammansättningar Homografdisambiguering (Förståelighet) Prosodisk frasering (Naturlighet/Förståelighet) Intonation/Fokus (Naturlighet/Förståelighet) Tungvrickare Allmän åsikt om rösten: Naturlighet, trevlig att lyssna på, tydlig, jämn, lätt att lyssna på, monoton Infovox (difon) Annmarie Ingemar RealSpeak (L&H) Scansoft Mbrola (difon) Exempel 1 Exempel 2 Loquendo Telenor (Norsk) Acapela Infovox fast heter Emma Slutsatser TTS Problem på flera nivåer Dagens talsyntessystem talar rätt så bra och förståeligt. Låter bättre och bättre tack vara framgångar i NLP och DSP Det låter inte så naturligt alltid och de saknar känsla. De gör fortfarande många fel. Det största felet de gör är att de inte kan tolka och förstå texten de läser. Det kunde HAL Lingvistisk behandling Uttal Prosodisk frasering Pitch Mskor har mer pitchrörelse men för att minimisera felrisken minskar vi denna vilket gör att det låter mekaniskt. Överdefinierad = för känslosamt (sportkommentator) Underdefinierad = onaturligt, monotont och deprimerande Bättre med större talsegmenti taldatabasen, behåller mer naturlighet Unit Selection = hitta det bästa segmentet Talproduktion Modellering av duration Framtida utmaningar På gång Koartikulation Reduktion (dagens TTS överartikulerar ofta) Prosodi (intonation, fokus, frasering) Röster/Talstilar Känslor/Attityder Variabilitet Fler TTS som accepterar annoterad input Korpusbaserad syntes Nya sätt att bygga upp segmentdatabaser Snabbare utveckling av nya röster Domänspecifika röster Tekniker från taligenkänning (HMM-talsynteser) Hybridsystem (talsegment som kan manipuleras flexibelt som i formantsyntes) Förbättrade signalbehandlingsmetoder Nya användningsområden
Text-till-Talsyntes (TTS2)
Text-till-Talsyntes (TTS2) Rebecca Jonson TalTeknologikursen VT 2005 Dagens lektion Lite mer om prosodisk frasering Svar på frågan om svenska sammansättningar Några exempel på system Talsyntes Formant
Läs merText-till-Talsyntes (TTS1)
Text-till-Talsyntes (TTS1) Jonas Lindh TalTeknologi HT 2007 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Lingvistisk behandling Talsyntesmetoder Litteratur TTS1 Donovan RE. Trainable Speech Synthesis.
Läs merTalteknologi introduktion. Hur realistisk var HAL? Dagens situation? Kursupplägg Talteknologikursen. Kurskrav
Talteknologi introduktion Rebecca Jonson Doktorand i Språkteknologi (GSLT, Lingvistik Gbg) AAST-kursen VT 2007 Computers are getting smarter all the time; scientists tell us that soon they will be able
Läs merOfelia en ny syntesröst
Ofelia en ny syntesröst En studie om talsyntes i allmänhet och konkateneringssyntes i synnerhet Adina Svensson D-uppsats i datalingvistik Handledare: Johan Frid Institutionen för Lingvistik Lunds universitet
Läs merHMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish
HMM-baserad talsyntes An HMM-based Text-To-Speech System applied to Swedish Anders Lundgren Handledare: Jonas Beskow Godkänd:... Examinator:... Rolf Carlson Examensarbete vid institutionen för Tal, Musik
Läs merText-till-Talsyntes (TTS1)
Text-till-Talsyntes (TTS1) Rebecca Jonson TalTeknologikursen VT 2006 Dagens lektion: Vad är TTS? Delarna i ett TTS-system Textbehandling Lingvistisk behandling Litteratur TTS1 Donovan RE. Trainable Speech
Läs merUtvärdering av några text-till-talomvandlare
Utvärdering av några text-till-talomvandlare som läshjälpmedel Malin Persson malinp@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Uppsala universitet Institutionen för Lingvistik
Läs merPerception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag
Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska
Läs merIdag. Tillägg i schemat. Segmenteringsproblemet. Transkription
Tillägg i schemat 21/9 slutar 16.00 ist f 15.00 5/10 slutar 16.00 ist f 15.00 Idag talkommunikationskedjan ljudvågor, enkla och sammansatta vågrörelser frekvens och amplitud ljudtryck, decibel källa-filter-modellen
Läs merDagens lektion. Dagens Litteratur. WER: Human vs machines. Taligenkänning mskiner/mskor. Mänsklig igenkänning Talteknologi och DialogSystem
Dagens lektion Mänsklig igenkänning Talteknologi och DialogSystem Talteknologi, VT 2006 Rebecca Jonson Mänsklig taligenkännning Talteknologi och Dialogsystem Demos! Kurssammandrag Labgenomgång Frågestund
Läs merAnalys/syntes-kodning
Analys/syntes-kodning Många talkodare bygger på en princip som kallas analys/syntes-kodning. Istället för att koda en vågform, som man normalt gör i generella ljudkodare och i bildkodare, så har man parametrisk
Läs merWebbföreläsning på kurser i Göteborg, Lund och Uppsala
Webbföreläsning på kurser i Göteborg, Lund och Uppsala Introduktion till talteknologi Johan Frid (johan.frid@ling.lu.se) 1 Talteknologi Handlar om talet som gränssnitt för datoranvändning Tillämpningar
Läs merKÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten
KÄLLA-FILTER Repetition - Repetition av resonans och filter Komplexa ljudvågor: deltoner Amplitudspektrum - Talapparaten som resonator - Talapparaten som källa-filtersystem - Spektrum, Spektrogram, spektrograf
Läs merI. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler
Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Kodning av tal Kodning av musik MPEG-4 Audio toolbox Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder
Läs merKodning av tal Kodning av musik MPEG-4 Audio toolbox
Kodning av tal Kodning av musik MPEG-4 Audio toolbox Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller 3D-objekt belysning kameraprojektion ljudgenerering Modellbaserade kodningsmetoder
Läs merDatadriven formantsyntes
TT Centrum för talteknologi Centrum för talteknologi Datadriven formantsyntes Arvid Sjölander 2001 Examensarbete vid Instutionen för tal, musik och hörsel Handledare: Rolf Carlson 2 Abstract This report
Läs merTalsyntes historia och metoder
Introduktion till språkteknologi oktober 2008 Talsyntes historia och metoder Mats Dahllöf (presentation efter Pétur Helgason) 1 Text-till-talsystem grundstenarna Alla text-till-talsystem är datorbaserade
Läs merFonetiklabb för FFG VT05
Namn: Fonetiklabb för FFG VT05 1. Dubbelklicka på ikonen för Praat. 2. Spela in ordet äng genom att trycka menyn New Record mono Sound (obs kolla om utslaget är bra innan ni spelar in till gult gärna)
Läs merAutomatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter
Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Mikko Kurimo Institutionen för signalbehandling och akustik Aalto-universitetet Innehåll 1. Hur automatisk taligenkänning
Läs merFormantextraktion för datadriven formantsyntes
Formantextraktion för datadriven formantsyntes David Öhlin Handledare: Rolf Carlson Godkänt: 2004-01-19 Examinator: Rolf Carlson Centrum för talteknologi......................... (signatur) Examensarbete
Läs merDigital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling
Digital behandling av tal Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2007 Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion
Läs merProsodi. Talets rytm och melodi I. Prosodi. Stavelser. Prosodi. Stavelser. Stavelser
Prosodi Prosodi Talets rytm och melodi I Inom såväl fonologin som fonetiken brukar man göra en uppdelning mellan det segmentella och det som man ibland kallar det suprasegmentella. Med suprasegmentell
Läs merPassiva stimulusstyrda processer. Talperceptionsteorier. Sekundära perceptoriska. Primära perceptoriska. Aktiva hypotesstyrda processer
Talperceptionsteorier Passiva stimulusstyrda processer Passiva stimulusstyrda processer Aktiva hypotesstyrda processer Perceptionsteorier Testmetoder Specifik, akustisk information för att identifiera
Läs merTor Sigvardson. Handledare: Rolf Carlson. Godkänt den 11 december 2002
Datadrivna metoder för parametersyntes beskrivning av ett system och experiment med CART-analys Tor Sigvardson Handledare: Rolf Carlson Godkänt den 11 december 2002 Examinator: Rolf Carlson... (underskrift)
Läs merLitteratur ASR. Taligenkänning Introduktion till taligenkänning. Upplägg taligenkänningsdelen. Dagens litteratur. Varför taligenkänning?
Litteratur ASR Taligenkänning Introduktion till taligenkänning Talteknologi, VT 2006 Rebecca Jonson Jurafsky & Martin. Kap 5,6,7 + delar fr. andra kapitel (t ex kap 19) Blomberg, M & Elenius, K. Automatisk
Läs merNaturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem. Stina Ericsson, Talteknologi VT06.
Talteknologi (AAST) 1 mars 2006 1 Talteknologi (AAST) 1 mars 2006 2 Naturligt Språk-Generering (NLG), Text-till-Talsyntes (TTS) och prosodi, i dialogsystem Problemet Föreställ dig ett dialogsystem som
Läs merDigital signalbehandling Digitalt Ljud
Signalbehandling Digital signalbehandling Digitalt Ljud Bengt Mandersson Hur låter signalbehandling Institutionen för elektro- och informationsteknik 2008-10-06 Elektronik - digital signalbehandling 1
Läs merBilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar
Läs merSVT Talande textremsa. En användarutvärdering av två talsynteser i en ny tillämpning.
SVT Talande textremsa. En användarutvärdering av två talsynteser i en ny tillämpning. Ellinor Fahlstedt Handledare: Björn Granström Godkänt den... Examinator:... (signatur) Examensarbete i talteknologi
Läs merSkillnader vokaler - konsonanter. Konsonanters akustiska mönster. Vokaler. Konsonanter. Konsonantklasser. Sonoranter
Konsonanters akustiska mönster Ô Skillnader vokaler - konsonanter Ô Indelning konsonanter Ô Enskilda konsonantklassers typiska drag Ô Artikulationsställe och akustisk representation Skillnader vokaler
Läs merNiklas Lindvall Artificiell intelligens II Ht
Taligenkänning Hidden Markov Model Niklas Lindvall nikli368@student.liu.se Artificiell intelligens II Ht 2011 2011-09-19 0 Innehåll Inledning... 2 Taligenkänning språk... 3 Taligenkänning... 4 Oberoende/Beroende...
Läs merFormulering av algoritm för prosodimodellen FK-systemet
Formulering av algoritm för prosodimodellen FK-systemet Theresa Andersson theresa@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Uppsala universitet Institutionen för lingvistik
Läs merTaligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0
Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens
Läs mertal är en multimodal funktion.
Mänskligt tal är en multimodal funktion. Multimodalt tal är det primära sättet vid perception av tal, och inte en funktion som rider på hörbart tal. Sensoriska modaliteter är till stor del osynliga för
Läs merBilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 4: Tidsuppskattning Wikispeech en användargenererad talsyntes på Wikipedia Process Steg Egenskap Typ [1] Estimated (h) Vem? Summa Sum Walk Skel 545 Sum walking skeleton to 1224 Uppläsning 1 Navigering
Läs merAkustiska Elementa och Digital Signalbehandling
Akustiska Elementa och Digital Signalbehandling Rebecca Jonson Talteknologikursen VT2005 Akustisk behandling av tal Inom talteknologi vill vi producera och analysera tal vilket kräver kunskap om talproduktion
Läs merArtificial)Intelligence) Taligenkänning)
LINKÖPINGS)UNIVERSITET) Artificial)Intelligence) Taligenkänning)! Adam%Annerhult% 2012009017%! Contents' ' ) ) ) ) ) Inledning... 3! Så fungerar taligenkänning... 4! Grundläggande egenskaper i ett taligenkänningsprogram...
Läs merRapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01
Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Om SVOX AG Jag gjorde min praktik på företaget SVOX AG, ett företag som bygger och sysslar med TTSmotorer. Företaget bildades våren 2000 och har
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merAcapela TTS. Inställningar och korrigering av uttal. Emma och Erik
Acapela TTS Inställningar och korrigering av uttal Emma och Erik Innehåll Inledning... 3 Inställning av talsyntesens parametrar... 4 Förklaring av Flikar... 5 Info... 5 General... 5 Pauses... 5 Reading...
Läs merTalbaserade multimodala dialogsystem för medicinsk rådgivning
Talbaserade multimodala dialogsystem för medicinsk rådgivning Daniel Höglind (hoeglind@kth.se) & Paulina Modlitba (paulina@kth.se) Den här artikeln beskriver ett talbaserat multimodalt dialogsystem som
Läs merHur gör vi då för att segmentera och kategorisera ljud i talspråk?
UPPSALA UNIVERSITET Institutionen för lingvistik och filologi SPRIND, HT 2006, Tillfälle 7 SPRÅKPSYKOLOGI LYSSNA OCH TALA/ PERCEPTION OCH PRODUKTION LYSSNA (kap 5) Segmentering på fonemnivå - Koartikulation:
Läs merFöreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.
Elektronik - digital signalbehandling Föreläsning: Digitalt Ljud Bengt Mandersson Hur låter signalbehandling Institutionen för elektro- och informationsteknik 2010-10-01 1 2008-10-06 Elektronik - digital
Läs merArtificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez
Taligenkänning 1 Sammanfattning Taligenkänning är i dagens samhälle en nödvändig teknik för många människor för att lättare ta sig fram genom vardagen. Man hittar tekniken i olika sammanhang som telefonupplysning,
Läs merTalets akustik repetition
Pétur Helgason VT 29 Talets akustik repetition 29-3-3 Vad är ljud för någonting? Vi människor lever och rör oss i ett skikt med gas som ligger ovanpå jordens yta. Gasen består av ca 8 % kväve och 2 % syre.
Läs mer! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!
Introduktion till akustisk analys (av tal)!! akustiska elementa!! akustisk analys!! grupparbete: akustisk analys!! om hinner: introduktion till Praat!! mina bilder finns att ladda ner här: http://person2.sol.lu.se/susanneschotz/teaching_files/intro_ak.pdf!
Läs merSpråkljudens akustik. Akustik, akustiska elementa och talanalys
Akustik, akustiska elementa och talanalys Språkljudens akustik Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Talsignalen mer lättåtkomlig än andra delar av talkommunikationskedjan Det finns
Läs merNeurolingvistik - Fonologi
Neurolingvistik - Fonologi Fonologi Strukturalism - system Fonem Särdrag (art-ställe, artsätt, ton, rundning) + Prosodi (intensitet, frekvens, duration) Icke-linjär fonologi Fenomen i afasi att beskriva
Läs merMöjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?
Kap 2: Typologi Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering? Orden skulle bli mycket långa för att varje morfem skulle ha sin egen vokalisering, eftersom det behövs så
Läs merViTal. Talsyntes. Användarhandledning
ViTal Talsyntes Användarhandledning Introduktion ViTal är ett program som utvecklats för att med hjälp av artificiellt tal vara ett stöd vid läsning och skrivning. ViTal kan användas både i undervisning
Läs merAtt fånga den akustiska energin
Att fånga den akustiska energin När vi nu har en viss förståelse av vad ljud egentligen är kan vi börja sätta oss in i hur det kan fångas upp och efterhand lagras. När en ljudvåg sprider sig är det inte
Läs merSampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)
Analog - digital Analog oändlig digital diskret (1or 0or) Digitalt intakt trots kopiering analogt slits och kvaliteten degraderar Sampling Sinuston vågdiagram (AT) antal mätpunkter/samplingspunkter Samplingsfrekvens
Läs mertentaplugg.nu av studenter för studenter
tentaplugg.nu av studenter för studenter Kurskod Kursnamn UMU-14401 Spanish A1 Datum Material Sammanfattning Kursexaminator Betygsgränser Tentamenspoäng Övrig kommentar Innehåller frågor/ begrepp med svar
Läs merDenna presentation. 1. Introduktion. Olika områden. Introduktion (1) Introduktion (2) Vad är språk? Vad är språkteknologi?
Språkteknologi En Introduktion Denna presentation Vad är språk? Robert Eklund robert@roberteklund.info http://roberteklund.info Vad är språkteknologi? Vad är språkteknologins delområden Universitetslektor
Läs merSignaler och system, IT3
Signaler och system, IT3 Vad är signalbehandling? 1 Detta dokument utgör introduktionsföreläsningen för kursen Signaler och system för IT3 period 2. Kursen utvecklades år 2002 av Mathias Johansson. 1 Vad
Läs merVocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson
Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson Vocoding Några av de första försöken att återskapa tal elektroniskt gjordes på 30-talet av fysikern Homer
Läs merSvårigheter - stor variabilitet. Översikt - taligenkänning Automatisk igenkänning av tal Del 1. Varför taligenkänning?
Talteknologi 25-2-3 [ ] Översikt - taligenkänning Automatisk igenkänning av tal Del Mats Blomberg Tal, musik och hörsel KTH Inledning Problem Akustiska analysmetoder Igenkänningstekniker mönstermatchning
Läs merSamtidig visning av alla storheter på 3-fas elnät
Samtidig visning av alla storheter på 3-fas elnät Med nätanalysatorerna från Qualistar+ serien visas samtliga parametrar på tre-fas elnätet på en färgskärm. idsbaserad visning Qualistar+ visar insignalerna
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merProsodi Talets rytm och melodi II
Prosodi Talets rytm och melodi II Detta att språk utnyttjar de akustiska korrelaten olika för att markera betoning får konsekvenser för hur ett språks rytm uppfattas. Låt oss lyssna på några exempel. Först
Läs merKurslitteratur Taltranskription: Introduktion
Kurslitteratur Taltranskription: Introduktion Mattias Heldner KTH Tal, musik och hörsel heldner@kth.se Köp: Lindblad, P. (2005). Taltranskription. Kompendium. Lingvistik, Lunds universitet. Låna: IPA,
Läs merFolke vs Henry. En jämförelse av förståelse mellan syntetisk och mänsklig uppläsning av sammanhängande texter
Institutionen för lingvistik & nygrekiska Stockholms universitet Folke vs Henry En jämförelse av förståelse mellan syntetisk och mänsklig uppläsning av sammanhängande texter Mikael Ståhl Abstract: I en
Läs merIntroduktion. Koartikulation (1)
Det dynamiska talet - - Assimilation - - Ljudförändringar Introduktion Talproduktion består inte av diskreta, sekventiella enheter utan av ett kontinuerligt flöde av sammanflätade artikulatoriska gester
Läs merTillämpad prosodi inom Artificiell Intelligens
Tillämpad prosodi inom Artificiell Intelligens Linköpings universitet Linköping 2010-01-03 Sammanfattning Detta är en fördjupningsuppgift skriven för kursen Artificiell intelligens 2 på Linköpings Universitet
Läs merNUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance
Läs merEXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG
FÖRELÄSNING EXEMPEL : ARTVARIATION Kurs- och transform-översikt. Kursintroduktion med typiska signalbehandlingsproblem och kapitelöversikt. Rep av transformer 3. Rep av aliaseffekten Givet: data med antal
Läs merModeller och simulering av språkprocessning
Modeller och simulering av språkprocessning Seriell processmodell + parallell processmodell Parallell modell med 2-vägsförbindelser Artificiellt neuralt nätverk (ANN) Interaktiv aktiverings-modell (IAM)
Läs merLab skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH.
Lab 2 1953 skapades Ove (Orator Verbis Electris) av Gunnar Fant, KTH. Ove var en talsyntesmaskin som kunde göra vokalljud. Ganska bra sådana dessutom, i alla fall med tanke på dåtidens teknik. Här finns
Läs merLjud och interaktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper
Ljud och interaktion Innehåll och mål Om ljud och hörsel Om ljudinteraktion Lite om virtuellt 3D-ljud Tips och trix Mål: att ni ska få verktyg att resonera om ljudinteraktion, samt få lite exempel Ljudet
Läs merRysk fonetik 5 hp föreläsning II. Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A
Rysk fonetik 5 hp föreläsning II Institutionen för moderna språk Karine Åkerman Sarkisian Ryska A Talproduktion Alla språkljud kan ses som produkten av en ljudkälla och ett filter. Tal sker i regel på
Läs merNIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK
De första grunderna i språket, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK A1.1 Eleven klarar sporadiskt av, med stöd av sin samtalspartner, några ofta återkommande och rutinmässiga kommunikationssituationer.
Läs merAnaloga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning
Analoga och Digitala Signaler Analogt och Digitalt Analogt 00000000000000000000000000000000000 t Digitalt Analogt kontra Digitalt Analogt å komponenter låg eektörbrukning verkliga signaler Digitalt Hög
Läs merNIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,
, Det andra inhemska språket och främmande språk, Grunderna för läroplanen för den grundläggande utbildningen 2014 Kunskapsnivå A1.1 Eleven klarar sporadiskt av, med stöd av sin samtalspartner, några ofta
Läs merFöreläsning 12. Modellbaserad ljudkodning. Modellbaserad bildkodning. Utblickar Mediakommunikation över Internet Multi-view video
Föreläsning 12 Modellbaserad ljudkodning Modellbaserad bildkodning Utblickar Mediakommunikation över Internet Multi-view video 1 Kodning av bild och ljud bygger på modeller (Fö.1) S(t) t Genereringsmodeller
Läs mer/r/ i några svenska dialekter
/r/ i några svenska dialekter Damra Muminovic och Olle Engstrand 1. Inledning R-ljuden uppvisar stor artikulatorisk variation mellan och inom språk och dialekter (Lindau 1985). I den svenska dialektlitteraturen
Läs merHandbok till Oribi Speak for Chrome
Handbok till Oribi Speak for Chrome Oribi Speak for Chrome är ett tillägg (eng. extension) för webbläsaren Google Chrome och fungerar i Chrome OS (ChromeBook), Windows, OS X (Mac) och Linux. Oribi Speak
Läs merTalets fysiologi, akustisk fonetik. Lungorna och struphuvudet. Röst 2016.01.28. David House: Talets fysiologi, akustisk fonetik VT16.
Talets fysiologi, akustisk fonetik David House Lungorna och struphuvudet utandningsluft - alstra ljud luftstrupen: trachea struphuvudet: larynx brosk, muskler och ligament röstspringan: glottis stämläpparna:
Läs merTala, skriva och samtala
Tal och skrift Presentationer, instruktioner, meddelanden, berättelser och beskrivningar Engelska åk 4-6 - Centralt innehåll Språkliga strategier Förstå och göra sig förstådd, delta och bidra till samtal
Läs merGrundläggande Idéer Algoritmens komponenter Numerisk optimering Genetisk Programmering. Genetiska Algoritmer
Genetiska Algoritmer 1 Grundläggande Idéer 2 3 4 Exempel Parallell optimering inspirerad av biologisk evolution Parallell optimering inspirerad av biologisk evolution Population av hypoteser Urvalprocess
Läs merAnpassa uttal i Infovox desktop Pro
Anpassa uttal i Infovox desktop Pro Infovox Desktop Pro 2.1 Innehåll dataresurscenter Sofiavägen 2 222 41 Lund Lyssna på uttal Korrigera uttal Skapa eget lexikon Speech Properties Telefon: 046-770940 Fax:
Läs merGrundtonsstrategier vid tonlösa segment
Grundtonsstrategier vid tonlösa segment Filip von Kartaschew f vk@stp.ling.uu.se Magisterarbete i datorlingvistik Språkteknologiprogrammet Institutionen för lingvistik och lologi Uppsala universitet 6
Läs merfoner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8
Facit till övning 1 foner fonem stol 4 4 mamma 4 2 sjukskötare 9 8 gata 4 3 stat 4 3 Haparanda 9 6 heter 5 4 el. 5 kärvänlig 8 el. 9 7 el 8 Några problem: 1) lång resp. kort variant av en vokal, är de
Läs merNär ReadHear är installerat på din dator, startar du det genom att klicka på programmets ikon.
ReadHear - lathund ReadHear är en programvara som kan användas när du vill läsa upp talböcker från MTMs katalog Legimus eller inlästa läromedel från Inläsningstjänst i Daisy-format. DAISY står för Digitalt
Läs merVITAL ANVÄNDARHANDBOK
VITAL ANVÄNDARHANDBOK Inledning ViTal är ett program som är utformat för att ta itu med läskunnighetsfrågor, både när det gäller läsundervisning och läsning av elektroniska dokument, inklusive webbplatser.
Läs merEngelska åk 5 höstterminen 2013
gelska åk 5 höstterminen 2013 Under hösten kommer vi att jobba utifrån olika temaområden i engelska. Några områden handlar om länder, intressen och partyinbjudningar. Vi utgår från ett läromedel i engelska
Läs merUttalsutveckling. Språkstruktur. Språkstruktur. Språkstruktur. Det mänskliga talet. Barns tidiga språkutveckling
Uttalsutveckling Språkstruktur! Principen bakom alla mänskliga språks struktur är att små delar bygger upp större delar som bygger upp ännu större delar Barns tidiga språkutveckling Institutionen för lingvistik,
Läs merRÖDA TRÅDEN ENGELSKA ÅK 2 ÅK
RÖDA TRÅDEN ENGELSKA ÅK 2 ÅK 5 ÅK 2 ÅK 3 Ämnesområden som är bekanta för eleverna Intressen, personer och platser Vardagsliv och levnadssätt i olika sammanhang och områden där engelska används Enkla instruktioner
Läs merLjudteknik. Digital representation. Vad är ljud?
Ljudteknik Digital representation Vad är ljud? 1 3 grundstenar för ljud» Alstring» Överföring» Mottagning Örat Hörseln» Lufttrycksvariationer ger mekaniska vibrationer i trumhinnan» Hörselbenet växlar
Läs merWEBB365.SE. Hur skriver man sökmotoroptimerade texter
Hur skriver man sökmotoroptimerade texter Introduktion Det finns mycket man kan göra för att lyckas på nätet och att skriva sökmotoroptimerade texter är definitivt en av de viktigare. I korta ordalag kan
Läs merÄmnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ1015 Tentamenstillfälle 4
IHM Kod: Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ115 Tentamenstillfälle 4 Datum 213-11-7 Tid 4 timmar Kursansvarig Susanne Köbler Tillåtna hjälpmedel Miniräknare Linjal
Läs merMEDIESIGNALER INTRODUKTION
Rev. 150119 US MEDIESIGNALER INTRODUKTION 1 VILKA PROBLEM LÖSER VI MED SIGNAL- BEHANDLING? Akustik. Inspelning av sorl från fikarummet vid TFE. Varför pratar alla så högt? Varför hör man inte vad någon
Läs merElektronisk ljudalstring. Synthesizers. Workstations, arbetsstationer & MIDI
Elektronisk ljudalstring & MIDI Synthesizers (Roland, Korg, ARP, Yamaha, Emu, Kawai, Alesis, Prophet, Moog, Ensoniq) Kan syntetisera/skapa olika (elektroniska) ljud Innehåller ofta olika digitala effekter
Läs merLäroplan /\llmän del
Läroplaner 1991:70 Läroplan /\llmän del sn T? mmunal och statlig utbildning tor vuxna Tim- och kursplan för: 1991:70 Grundläggande utbildning i svenska som andraspråk Mi HJX Innehåll 1991:70 Grundläggande
Läs merLjudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:
Introduktion Ljudlära Ljudlära viktigt ur två aspekter: 1. Ljudets fysikaliska egenskaper 2. Vad vi uppfattar med hörseln Syfte: att lära sig göra relevanta kopplingar mellan faktisk vetenskap och sinnlig
Läs merBARNS SPRÅKUTVECKLING
BARNS SPRÅKUTVECKLING BARNS SPRÅKUTVECKLING Hur lär sig barn sitt språk? Vad skiljer barns språkutveckling från vuxnas språkinlärning? Hur kan vi forska om barns språkutveckling? Vad säger språkutvecklingen
Läs merClaroDictionary med tal. ClaroDictionary utan tal
ClaroDictionary med tal ClaroDictionary utan tal Manual Artikelnummer 10400 och 10401 1 Innehåll Välkommen till ClaroDictionary...3 ClaroDictionary Översikt...4 ClaroDictionarys verktygsknappar...4 Knappen
Läs merKod: Datum 2014-02-01. Kursansvarig Susanne Köbler. Tillåtna hjälpmedel. Miniräknare Linjal Språklexikon vid behov
Institutionen för hälsovetenskap och medicin 2 Kod: Ämnesområde Hörselvetenskap A Kurs Akustik och ljudmiljö, 7 hp Kurskod: HÖ115 Tentamenstyp Individuell salstentamen Tentamenstillfälle Uppsamling 1 Provkod
Läs merLägga ll text och tal ll bild:
Fotokalendern Fotokalendern har skapats för att ge personer med kommunikativ funktionsnedsättning möjlighet att vara delaktiga och aktiva i återberättande. Kalendern kan fungera som stöd för att knyta
Läs merAppendix 4. Ordförklaringar och korta beskrivningar av test och skalor
Appendix 4. Ordförklaringar och korta beskrivningar av test och skalor AGC ALHQ, The Attitudes Towards Loss of Hearing Questionnaire Automatic Gain Control, automatisk förstärkningsreglering, se Appendix
Läs merLgr 11 - Centralt innehåll och förmågor som tränas:
SIDAN 1 Författare: Kåre Bluitgen Vad handlar boken om? Boken handlar om Axel, som inte har råd att ha de dyra märkeskläderna som många i klassen har. Han blir retad för hur hans kläder ser ut. Axel fyller
Läs mer