Perception Akustiska och perceptoriska drag Samband mellan akustiska och perceptoriska drag Tyngpunkt på perceptorisk relevanta drag Prosodi Vokaler Konsonanter Perception i största allmänhet Primära akustiska drag som perceptoriska drag Ingen ett-till-ett relation mellan akustiska drag som perceptoriska drag Också sekundära drag som leder till igenkänning Perception av prosodiska drag Intonation och tonhöjd Intonation och tonhöjd Kvantitet och längd Betoning och ljudstyrka Primärdrag: Grundtonsfrekvens (F0) Högre F0 uppfattas som högre tonhöjd lägre F0 uppfattas som lägre tonhöjd Sekundära drag: frekvensavstånd mellan deltoner Vid större avstånd förnimmas högre grundton Vid mindre avstånd förnimmas lägre grundton Intonation och tonhöjd (ff) Intrinsisk F0 Variation i tonhöjd kan också uppfattas med viskade ljud (utan ton) Satsintonation: fråga vs påstående Ordaccent: accent 1 vs accent 2 Styrka/ tar över funktion Intrinsisk F0 av vokaler Olika vokaler uppfattas ligger på samma tonhöjd men skiljer sig i ca. 20Hz Samma vokal som ligger på ca. 20Hz avvikande gruntonsfrekvens uppfattas ligger på olika tonhöjd Intrinsisk F0 Slutna vokaler högre intrinsisk F0 Öppna vokaler lägst intrinsisk F0 1
Intrinsisk F0 (ff) Kvantitet och duration Orsaken: höjning av tungan lyfter tungbenet och därmed också struphuvudet som påverkar stämläpparnas spänningsgrad Hörseln anpassar sig Primärdrag av kvantitet är ljudlängd Vokaler upfattas som långa om de är jämförelsevis längre Vokaler upfattas som korta om de är jämförelsevis kortare Ju större duration desto större upplevd längd Sekundärdrag är kvalitet Kvantitet och kvalitet Kvalitetsskillnader för kvantitet Korta vokaler ligger närmare schwa i vokalrymden långa vokaler ligger mer i periferin Detta gäller svenskan men också andra språk I systematiska perceptionstest kvalitetsskillnad viktigaste ledtråd för kvantitet för /a u/ I andra vokaler främst längd Längd och dynamik Ljudlängd upfattas olika om ett ljud har statisk kvalitet och det andra är dynamisk av två ljud med samma längd uppfattas Det dynamiska ljudet som längre Det statiska ljudet som kortare Betoning och ljudstyrka Betoning Betoning ett samspel av akustiska drag Total Grundfrekvens Duration Uppfattad ljudstyrkans primära drag total Interaktion mellan frekvens och En stavelse uppfattas som betonad om Totalen är högre, främst av vokalen Grundfrekvens högre Den är längre Jämfört med en obetonad stavelse Interaktion och kompensation mellan dessa 2
Ljudstyrka Intrinsisk En signals styrka bedöms i första hand enlig dess totala akustiska Människan hör inte alla ljud lika bra I vissa frekvensområden hör vi styrkeskillnader bättre än i andra 100Hz/67dB = 1000Hz/50dB F1 med högst styrka dominerar inte i uppfattningen F2 och F3 i område där vi hör bäst Olika vokaler har varierande intrinsisk Öppna vokaler har starkare total akustisk Slutna vokaler har svagare total akustisk [a] skall vara ca. 5 db starkare än [i] så att de uppfattas vara lika starka Intrinsisk längd Interaktion mellan betoning och intrinsiska faktorer Olika vokaler har varierande intrinsisk längd Öppna vokaler är längre än slutna vokaler [a] skall vara ca. 30 ms längre än [i] för att de uppfattas vara lika långa För att två vokaler [a i] låter jämt betonade skall [a] har större längd och högre akustisk än [i] Har två vokaler [a i] samma längd och samma totala akustiska så uppfattas [i] mer betonad än [a] Ytterligare faktor är intrinsisk F0 Vokalperception Vokalperception (ff) Formanterna är de typiska akustiska dragen Vokalkvalitet Supraglottala resonanser F1, F2 och F3 tillräklig för bra identifikation av vokaler Vag igenkänning med F1 och F2 F3 indikator för läpprondning Samma formantvärden (ljudkvalitet) kan kännas igen som olika vokaler Olika formantvärden känns igen som samma vokal Olika talare Olika kontext Överlappning av olika kategorier 3
Vokalperception (3) Vokalers intrinsiska karaktär Vokaligenkänning möjlig om F1 och F2 saknas Aktiv komplettering Söker ledtråder/information ur flera samband Konsonanter Storlek av talarens ansatsrör Karaktär utöver typiska formantfrekvenser som hjälper till vokalidentifikationen Variation av dessa fonetiska delaspekter förändrar uppfattning av en vokals klangfärg Perceptionen anpassar sig till det vad som är rimlig från produktionens sida Vokalers intrinsiska karaktär (ff) Konsonantperception Öppna vokaler lägre F0, större duration och större än slutna vokaler Upplevelsen är att vokalerna har samma tonhöjd, längd och om mätbare skillnaden är ca. 25Hz, ca.30ms och ca. 5dB Vokalperception är ett igenkännande av ett komplext mönster primära perceptoriska drag för igenkänning Experiment med reducerade signaler till enstaka drag som varierades systematisk Syntetisk tal Artikulationsställe med hjälp av formantböjningarna (transitioner) Konsonanter: klusiler Konsonanter: klusiler (ff) Experiment med lösningspuls och statiska vokalformanter 1khz, 2kHz och 3kHz Vokalformanter för [a] och [u] Ingen konsekvent igenkänning för samma puls i kombination med olika statiska vokalformanter Inte bara själva pulsfrekvens avgörande Klusil uppfattas även utan puls Vokalformanternas böjningar (transition), framförallt F2 Pekar mot en målfrekvens Mer förfinad experimentalteknik visar däremot att ingen sådan målfrekvens finns, utan koartikulation påverkar alla formanter Inte bara enskilda akustiska ledtråder utan flera som är kontextbaserade 4
Konsonanter: frikativor Konsonanter: nasaler Brusljud pga av turbulenser och virvlar Skillnad mellan frikativor några frikativor har större än andra Inom starka frikativor ligger energi i olika regioner Svaga frikativor känns snarare igen pga av intilliggande ljuds transitioner (formantböjningar) Om brusljud för kort --> klusil Dämpade orala resonanser plus svaga nasala resonanser uppfattas som nasalerade ljud Skillnad mellan olika artikulationsställen främst pga F2-böjningarna i följande vokal Normalisering Normalisering (ff) Perceptionsprocess, lyssnaren kompenserar för talaren och taltempo Olika talares formantvärde varierar väldigt mycket överlappning för olika ljud mellan olika talare (barn, kvinna man) Man relaterar formantfrekvenserna inom en viss ram för varje talare F0: grundtonsfrekvens Perceptionsmekanismen förvänta sig att en viss grundton skall har ett visst formantläge för en specifik vokal --> kännedom om storlek av talarens ansatsrör Icke-akustisk information Icke-akustisk information Inte all akustisk information nödvändig för igenkänning Extraktion av vissa ledtråder stört tal, diskurs i brusig omgivning All akustisk information inte tillräkligt för igenkänning Olika ledtråder förstärker varandra Förväntningar om vad som skall säjas igenkänning bättre i en mening än i enskilda ord Med kännedom om grammatiken förvänter vi oss vad som kommer att säjas Kännedom om diskurskontexten hjälper att förstår varandra 5
Perception, allmänt Talperception är unikt för att akustisk information omedvetet kombineras med artikulatorisk information (intuitiv kännedom om uttalssamband) Linguistik information (grammatisk korrekt sekvens) Semantisk information (betydelse av det som säjs Kontextinformation (talarens identitet, gemensam konsens och kännedom om samtalsämnet 6