Sampling. Analog - digital. Kvantifiering. Samplingsprocess. Analog vs digital teknik. Kvantifiering. Analog oändlig digital diskret (1or 0or)

Relevanta dokument
Ljudlära. Ljud är Periodicitet. Introduktion. Ljudlära viktigt ur två aspekter:

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Att sända information mellan datorer. Information och binärdata

Örat. Johnson, Kap 3. Basic audition

Kapitel 2 o 3. Att skicka signaler på en länk. (Maria Kihl)

Digital signalbehandling Digitalt Ljud

Vocoding och frekvensskiftningsexperiment inom det audiologiska forskningsfältet Av Morgan Karlsson

Rekommendation. Den mänskliga hörseln. Den mänskliga hörseln. Det perifera hörselsystemet: anatomi och fysiologi

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

Att fånga den akustiska energin

Talperception. Talperception. Örat. Örat

4/27/12. Fönstring i MDCT. Föreläsning 10: Ljudkodning ( Audio Coding ) 1. Inledning PCM, standardmetoder, MDCT, psykoakustik, ljudtryck

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Grundläggande ljud- och musikteori

Föreläsning 10: Ljudkodning ( Audio Coding )

Kapitel 2 o 3 Information och bitar Att skicka signaler på en länk. Jens A Andersson

MEDIESIGNALER INTRODUKTION

AD-DA-omvandlare. Mätteknik. Ville Jalkanen. 1

Tentamen i Signaler och kommunikation, ETT080

Kompletterande räkneuppgifter i Spektrala Transformer Komplex analys, sampling, kvantisering, serier och filter Laura Enflo & Giampiero Salvi

Signalbehandling Röstigenkänning

3. Metoder för mätning av hörförmåga

Tillämpad Fysik Och Elektronik 1

Grundläggande signalbehandling

Föreläsning: Digitalt Ljud. signalbehandling. Elektronik - digital signalbehandling. Signal och spektrum. PC-ljud. Ton från telefonen.

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Spektrala Transformer

I. Talkodning. Kodning av tal Kodning av musik MPEG-4 Audio toolbox. Talkodning Historik. Talgenerering. Talsignalen - vokaler

Kodning av tal Kodning av musik MPEG-4 Audio toolbox

Idag. Tillägg i schemat. Segmenteringsproblemet. Transkription

Ulrik Söderström 20 Jan Signaler & Signalanalys

Språkljudens akustik. Akustik, akustiska elementa och talanalys

Ulrik Söderström 19 Jan Signalanalys

Kihl & Andersson: , 3.1-2, (ej CDM) Stallings: 3.1-4, 5.1, 5.2, 5.3, 8.1, 8.2

Spektrala Transformer

Kapitel 3 o 4. Tillförlitlig dataöverföring. (Maria Kihl)

Digital kommunikation. Maria Kihl

Samtidig visning av alla storheter på 3-fas elnät

Projekt 3: Diskret fouriertransform

Psykoakustik. Ljudtrycksnivå. Hörselns omfång. Hörnivå(loudness) Människans hörsel är ganska väl studerad och det finns bra modeller för den.

Vad är kommunikation? Vad är datorkommunikation? Dataöverföring; Inledning

Analys/syntes-kodning

Mätningar med avancerade metoder

Kapitel 3 o 4 Att skicka signaler på en länk Tillförlitlig dataöverföring. Att göra. Att sända information mellan datorer

Lösningar ETS052 Datorkommunikation,

Ljudteknik. Digital representation. Vad är ljud?

Elektronik. Dataomvandlare

Signaler och system, IT3

Elektronik Dataomvandlare

DIGITAL KOMMUNIKATION

Digital kommunikation. Maria Kihl

Faltningsreverb i realtidsimplementering

Tillförlitlig dataöverföring Egenskaper hos en länk Accessmetoder. Jens A Andersson

EXEMPEL 1: ARTVARIATION FÖRELÄSNING 1. EEG frekvensanalys EXEMPEL 2: EEG

KÄLLA-FILTER. Repetition. Talapparaten i källa-filter perspektivet. Repetition (ff) Ljudkällor i talapparaten (ff) Ljudkällor i talapparaten

Audio & Videoteknik 2D2021, 2D1518

2 Laborationsutrustning

Ljud och interaktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper

Signalkedjan i små PA-system. Illustrationen till vänster. Grundläggande signalflöde i ett PA-system. Delar i de gråmarkerade

Talets akustik repetition

Resttentamen i Signaler och System Måndagen den 11.januari 2010, kl 14-19

FOURIERANALYS En kort introduktion

! Susanne Schötz! ! akustisk-fonetisk analys! ! grupparbete!! om vi hinner: introduktion till Praat (kort demo)!

Hemtenta 2 i Telekommunikation

Kod: Datum Kursansvarig Susanne Köbler. Tillåtna hjälpmedel. Miniräknare Linjal Språklexikon vid behov

Ämnesområde Hörselvetenskap A Kurs Signalteori, 7,5 hp Kurskod: HÖ1007 Tentamenstillfälle

TEM Projekt Transformmetoder

Artificial)Intelligence) Taligenkänning)

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Digitalitet. Kontinuerlig. Direkt proportionerlig mot källan. Ex. sprittermometer. Elektrisk signal som representerar ljud.

Dator- och telekommunikation. Dator- och telekommunikation. Radionät. Fasta nät. Kapacitet. Tjänster. Radionät Protokoll Kapacitet Tjänster

Upp gifter. c. Hjälp Bengt att förklara varför det uppstår en stående våg.

ACOUSTIC FINGERPRINTING SYSTEMS

Bilaga A, Akustiska begrepp

Fysiska lagret. Kanal. Problem är att kanalen har vissa begränsningar: Kanalen är analog Kanalen är bandbreddsbegränsad och är oftast störd (av brus)

Tillämpning av komplext kommunikationssystem i MATLAB

AD-/DA-omvandlare. Digitala signaler, Sampling och Sample-Hold

5:8 CD och DVD. CD spelaren Det krävs ett litet tekniskt underverk för att spela upp en cd skiva. Vi går igenom grundkomponenterna.

Analoga och Digitala Signaler. Analogt och Digitalt. Analogt. Digitalt. Analogt få komponenter låg effektförbrukning

Svensk Bruksanvisning

Elektronik Elektronik 2019

Laboration 3 Sampling, samplingsteoremet och frekvensanalys

Teori... SME118 - Mätteknik & Signalbehandling SME118. Johan Carlson 2. Teori... Dagens meny

Analogt och Digital. Viktor Öwall. Elektronik

Digital behandling av tal. Litteratur till dagens lektion. Talproduktion. Akustisk Fonetik. Akustiska Elementa och Digital Signalbehandling

DT1130 Spektrala transformer Tentamen

TSBB16 Datorövning A Samplade signaler Faltning

Laboration 2 - Modulering I denna laboration skall vi

Spektrala Transformer

TNMK054 - LJUDTEKNIK 1 RUM, REVERB,

Kapitel 13: Telefoninäten. Spanning Tree. Jämförelse med OSI-modellen. Jens A Andersson (Maria Kihl)

A/D D/A omvandling. Lars Wallman. Lunds Universitet / LTH / Institutionen för Mätteknik och Industriell Elektroteknik

Ljudinteraktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper

Övningar modul 1 - Dataöverföring & fysisk infrastruktur

1 Figuren nedan visar en transversell våg som rör sig åt höger. I figuren är en del i vågens medium markerat med en blå ring prick.

Elektronik. Viktor Öwall, Digital ASIC Group, Dept. of Electroscience, Lund University, Sweden-

Vågor. En våg är en störning som utbreder sig En våg överför energi från en plats till en annan. Det sker ingen masstransport

INT 3 F4. Bildkomprimering. Run Length Encoding. Medieteknik Del2. Komprimering, ljud och rörliga bilder. Olika algoritmer för bildkomprimering:

1. a) I en fortskridande våg, vad är det som rör sig från sändare till mottagare? Svara med ett ord. (1p)

Data och Information. Dr. Johan Hagelbäck.

Transkript:

Analog - digital Analog oändlig digital diskret (1or 0or) Digitalt intakt trots kopiering analogt slits och kvaliteten degraderar Sampling Sinuston vågdiagram (AT) antal mätpunkter/samplingspunkter Samplingsfrekvens = antal samplingspunkter / sek (Hz) Högre samplingsfrekvens bättre återgivning av ljudet Aldrig samma som originalet Nyquist! Samplingsprocess DAT 48 khz, CD 44,1 khz, Radio 22050 Hz, Telefon 11025 (eg 8000 Hz pga begränsning i övrig utrustning). PAM (Pulse Amplitude Modulation) varje samplingspunkt har bara analogt värde. 48000 staplar med amplitudvärde (Pa) Digitalisering av Amplitud - Kvantifiering Kvantifiering Var längs y digitalt? Olika nivåer olika bitdjup. Ju fler nivåer desto bättre upplösning/relation mellan nivåer, i.e. bättre efterliknat original. 8 bitar (256 nivåer -128 till +127) 16 bitar (65536 nivåer -32768 till + 32767) http://www.siriusweb.com/tutorials/gifvsjpg/ Kvantifiering Bitdjupet anger relationen mellan starkaste och svagaste djupet i vårt ljud. PAM-signal kvantifieras och amplitudvärden blir diskreta genom PCM (Pulse Code Modulation). Filstorlek: 60 sekunder * 44100 samples * 16 bitar * 2 kanaler (om stereo) = 84672000 = knappt 10 MB Analog vs digital teknik Den främsta (enda) faktor som gör den digitala tekniken helt dominerande är nog tid. Det handlar då om sådana saker som beräkningstid och överföringshastighet. 1

Ett vanligt missförstånd Överföringshastighet vs kvalitet kvalitet = överföringshastighet Den vanligast förekommande överföringshastigheten vid användande av mp3-kodad musik är 128 kbit/s. Motsvarande överföringshastighet för CD-ljud är 705 kbit/s (per kanal). Därför är CD-ljud bättre? Resonemanget gäller bara givet att avkodningen (i detta fall = uppspelningen) sker i realtid. I så fall får man förstås ut mer information per tidsenhet med den högre hastigheten och då blir kvaliteten bättre. Njaa, både ja och nej Överföringshastighet vs kvalitet Ett orealistiskt exempel: Antag att man skulle föra över en låt på 3 minuter, inspelad med CD-kvalitet, genom att låta en telegrafist skicka iväg koden med morsesignaler. En skicklig telegrafist kan producera ungefär 300 tecken (med i genomsnitt fyra komponenter) per minut. Givet samma amplitudupplösning och inklusive felkorrigeringskodning skulle överföringen ta ungefär 7 år. Men väl framme skulle musiken kunna återskapas med originalkvalitet. Överföringshastighet vs kvalitet Ett orealistiskt exempel utan verklighetsförankring? Inte alls, tekniken används dagligen t.ex. vid överföring av bilder från rymdsonder till Jorden. Exponeringstiden är någon hundradels sekund, överföringstiden några minuter eller t.o.m. någon timme, men kvaliteten är densamma när bilden väl kommit fram. Vocodern Vocodern 2

LPC vokoder Vocodern Men låt oss backa bandet och ta en förnyad titt på vocoderschemat. Vocodern är ju skapad för att överföra ljud, men naturligtvis är det inget som hindrar att man använder den för att skapa ljud istället tex. genom att ersätta den ursprungliga källsignalen med en ny. ny källa Vocodern Den tekniken är flitigt använd inom den elektroniska musiken alltsedan Kraftwerk i slutet av 60-talet. Här några illustrationer Enbart vocoderprocessat Ljudkällan utbytt och grundtonen utslätad Ljudkällan utbytt mot brus Ljudkällan utbytt mot fyra cellostämmor Taligenkänning, begrepp och tekniker Distansmetrik (distance metrics) Vi förutsätter att fonems, ords och frasers början och slut kan identifieras, vilket på intet sätt är enkelt eller självklart, men vi lämnar det problemet så länge. Ljudkällan hämtad från en Prophet 5:a SYSTEM - Alpha and omega Distansmetrik Distansmetrik Ett vanligt (det vanligaste?) sättet att konstruera en distansmetrik är att skapa ett lokalt (ett antal analysramar (frames) eller millisekunder) distansmått som sedan integreras över hela ordet Anm. Ordet analysram (frame) används ofta (kanske rent av oftast) synonymt med innehållet i ramen, vilket är olyckligt därför att det är förvirrande. En analysram analyseras ofta i termer av en särdragsvektor (feature vector) En särdragsvektor är en beskrivning av (medel)spektrum för analysramen i någon form Vilken form varierar beroende på vilken teoretisk ansats man applicerar. 3

Distansmetrik En särdragsvektor kan vara en enkel representation i frekvensplanet bestående av ett antal amplitudvärden som funktion av frekvensen i ett givet ögonblick (frame) eller mer sofistikerade mått som en filterbankanalys med ett Bark-filter eller cepstrumvektorer. Filterbankanalys En vanlig typ av särdragsvektorer får man genom någon form av filtrering av signalen genom en filterbank. Två typer är vanliga filterbank där mittfrekvenserna är jämt fördelade på en logaritmisk skala filterbank där mittfrekvenserna är jämt fördelade på en Bark-skala Lite bakgrund om hörseln Vågrörelsen i basilarmembranet Vågrörelsen i basilarmembranet Vågrörelsen i basilarmembranet 4

Barkskalan Hur en logaritmisk filterbank är konstruerad är tämligen självförklarande men Bark-skalan kräver en närmare förklaring. Kritiska band, Barkskalan Barkskalan är ett försök att anpassa en frekvensskala till den spektrala analys man anser att det perifera hörselsystemet, ffa basilarmembranet, gör. Kritiska band Cepstrum Cepstrum Definition: The cepstrum is the forward Fourier transform of a spectrum. It is thus the spectrum of a spectrum, and has certain properties that make it useful in many types of signal analysis Ett exempel på att cepstrum och perception kanske hänger ihop på ett tämligen intimt sätt. 5

Cepstrum Cepstrum Data är hämtade från ett perceptionsexperiment där målet var att undersöka minsta uppfattbara skillnad för formantfrekvensändringar. Försökspersonerna fick lyssna på ett stort antal stimuli som bestod av parvis presenterade syntetiska vokalljud. Uppgiften var bara att avgöra om vokalerna var lika eller olika. De variabler som varierades i experimentet var grundtonen (F0) och de båda lägsta formanternas frekvenser Här några exempel på hur det lät. Serie 1 2 3 Distansmetrik, forts Förutom att fastställa minsta uppfattbara skillnad gick experimentet ut på att finna en modell som kopplade ihop akustiskt avstånd med perceptuellt avstånd. För att göra det måste man fatta två val val av akustiskt mått val av distansmetrik Distansmetrik, forts Flera olika skalor testades, Hz, logaritmisk, Bark och cepstrum. Vilken som passade bäst ska vi återkomma till men först några ord om fråga två, distansmetriken. Det är inte alldeles självklart hur man ska mäta avståndet mellan två vektorer, men två standardmått är väl de man först tänker på det euklidiska avståndet eller det enklare city-block avståndet. Distansmetrik, forts En fonem-, ord- eller frasdistans kan då representeras som summan av successiva vektordifferenser. Avståndet mellan två vektorer, X och Y uttrycks ju vanligen som det euklidiska avståndet, dvs Distansmetrik, forts Men ibland använder man, av beräkningsbesparande skäl, ett enklare mått som brukar kallas city block distance och som definieras som Där X = (x 1, x 2,..., x n ) och Y = (y 1, y 2,..., y n ) Där a = (a 1, a 2,..., a n ) och b = (b 1, b 2,..., b n ) 6

Distansmetrik, forts I det här fallet valdes det euklidiska avståndet som distansmått. Av de akustiska mått som testades visade sig cepstrumvektorerna bäst motsvara de perceptuella avstånden. Vi ska återkomma till det alldeles strax, men låt oss först se rent konkret hur beräkningarna gick till. F1=300, F0=120 (N=170) 2.0 1.5 1.0.5 0.0 -.5-1.0 Measured -1.5-80 -64-48 -32-16 0 16 32 48 64 80 Predicted F1=300, F0=170 F1=300, F0=270 2.5 2.5 2.0 2.0 1.5 1.5 1.0 1.0.5.5 0.0 0.0 -.5 -.5 Measured -1.0 Measured -1.0-80 -64-48 -32-16 0 16 32 48 64 80 Predicted -1.5-80 -64-48 -32-16 0 16 32 48 64 80 Predicted Distansmetrik I taligenkänningen Template matching Resultat av liknande slag ligger bakom den teknik som används i automatisk taligenkänning. Spektrum samplas med jämna mellanrum (typiskt 20 ms eller så) och dessa vektorer jämför sedan med någon form av mall (template) som finns lagrad. Sådana mallar gäller då förstås en hel serie vektorer som typiskt omfattar en stavelse eller ett ord. mallar testord 7

Template matching Tidsnormalisering Det är ingen större tvekan om vilken mall som passar bäst, men passningen är inte perfekt. Durationerna stämmer inte helt överens vilket man ser här. Ett sätt att lösa problemet med bristande överensstämmelse i tidsplanet är att göra någon form av tidsnormalisering. Denna kan göras delvis oberoende av mallanpassningen (template matching). Det räcker med att man har en algoritm som känner igen segmentgränser. Tidsnormalisering En mycket vanlig teknik för tidsnormalisering kallas Dynamic Time Warping, eller Dynamic Programming som den av någon (åtminstone för mig) obegriplig anledning också kallas. Dynamic Time Warping eller Dynamic Programming är en teknik som används för att kompensera för skillnader i timing mellan input och template. Dynamic Time Warping Tidsnormalisering Det sista exemplet är ett exempel på tidsnormalisering tillämpad på grundtonskurvor. Avsikten är att kunna jämföra grundtonens förlopp relativt segment på fonemnivå. Här ser vi det tidigare exemplet tidsnormaliserat. 8

Tidsnormalisering av grundtonskurvor Normkurvan Synkroniseringspunkter Den kurva som ska anpassas 9