Taligenkänning HMMochViterbi EllinorAndersson,92091393801 LinköpingsUniversitet ArtificiellIntelligensII,729G11 Ht2012 2012909912
Sammanfattning Dennaprojektuppsatsbehandlartaligenkänningochdeolikadelmomentsomkrävsför attkunnabyggaetttaligenkänningssystem.olikaaspekterpåtaligenkänning presenterassamtbakgrundsfaktakringspråkochspråkmodeller.denalgoritmsom presenterasförberäkningavsannolikhetenfördenmottagnaakustiskasignalens representationärhiddenmarkovmodeltillsammansmedviterbialgoritmen. 2
Innehållsförteckning 1. Inledning.4 2. Syfte 4 3. Grundläggandefaktaomspråkochtaligenkänning 5 3.1 Vadärtaligenkänning?...5 3.2 Språketsuppbyggnad 5 3.3 Beroende,oberoendetalare.6 3.4 Problemvidtaligenkänning.6 4. Probabilistiskamodeller.7 4.1 Språkmodeller 7 4.2 HiddenMarkovModel..8 4.3 Viterbialgoritmen 11 5. Diskussion..12 6. Referenser.13
1.Inledning Enavdemestfundamentalabyggstenarnaimänniskansexisterandeärkommunikation. Vikommunicerargenomkroppsspråk,tal,gesterochkemiskareaktioner.Dettaären viktigdelavvårtsamliv,menförallaärutförandetintelikaenkelt.detfinnsmänniskor somintekankommuniceramedandragenomtalellergesterochfördemär taligenkänningssystemmycketunderlättandeivardagenochimötetmedolikatekniska system. Etttaligenkänningssystem,ellerettautomatiskttaligenkänningssystem(ASR)kantain enakustisksignaliformavtalochbearbetadennaförattidentifierasekvenseravord ochöversättadettatilldigitalform.processenkräverentalaresomsändersignaler. Signalernahanterasutefterskapademallarförtalsomgenomen mönstermatchningsalgoritmberäknarsannolikhetenförattettvisstorduttalatsoch väljerdenmallsomärmesttroligisammanhanget.påsåsättharviskapat representationidigitalformutifrånentaladanalogsignal.processenkangörasävenåt andrahållet,fråndigitalttillanalogt.(russel&norvig,2010) Taligenkänningärenvälanvändteknikidagenssamhällevidt.ex.kundtjänst, telefonupplysning,hjälpmedelförhandikappadeochröststyrningavmejl,hemma9 systemellersmartphones. Etttaligenkänningssystemärenkompliceradprocedursommåstekunnahanteraolika uttalavordochfonem,vokabulär,syntaxochsemantikocholikatonlägenhosolika personer.förattklaraavdenkompliceradehanteringenavakustiskaljudanvändsolika teknikert.ex.hiddenmarkovmodelochviterbialgoritmen. 2.Syfte Syftetmeddennaprojektrapportärattfåendjupareförståelseförhurenartificiellt intelligentagentäruppbyggdförattklaraavspeciellauppgiftermedfokuspå taligenkänning.jagharvaltattinriktamigpåtaligenkänningförattdetärendelavden artificiellaintelligensensomförbryllarmigmycket.jagharettantalgångerbehövt skrikapåsj:sröststyrdabiljettbokningförattkunnabokaenbiljetttilllund.intetill Ludvika.Likaargsomjagblirnärsystemetinteförstårvadjagsäger,likaförvånadoch 4
imponeradblirjagnärdetfaktisktgördet.attdetmänskligataletmedalladess variationer,dialekterochförändringaravtonlägenkanöversättastillmatematiska formlerochförståsavettsystembyggtpåalgoritmerärförmigheltfantastiskt. 3.Grundläggandefaktaomspråkochtaligenkänning 3.1Vadärtaligenkänning? Syftetmedtaligenkänningärattkunnahanteraakustiskasignalerfrånentalaretill digitalformförattkunnarepresenteratalgenomenintelligentagent.dessasystemkan användastillattkommunicerameddatorerellersmartphones,förattköpaenbiljett genomenröststyrdkundtjänstelleriettmindrekommersielltochmervälgörandesyfte förhandikappadesomharsvårtförattkommuniceramedsinomvärldochföratt underlättaderasarbetemeddatorer. Taligenkänningärsystemdärmänskligtellernaturligttaltolkasavintelligentaagenter ellerdatorersomanvändsvidröststyrdatelefonsvarare,vidhjälpmedelför handikappadeelleravandraelektroniskaverktygdärtalärlämpligareänskrift. Taligenkänningssystemäruppbyggdautavtregrundläggandebyggstenar.Fördetförsta behövervikunnarepresenteraentalaresskickadetalsignalerförattkunnaidentifiera dessatillspecifikaord.förattkunnarepresenteradentaladesignalernakrävsdet mallarsomberättarförsystemethurdenskalltolkasignalerna.tillsistkrävsen mönstermatchningsalgoritmsomkanväljadenmallsomärmestsannoliktidentifierbar meddentaladesignalen.(schmandt,1994) 3.2Språketsuppbyggnad Förattförståkomplexitetenhosetttaligenkänningssystemsåmåsteviförstförståhur språketochtalspråketäruppbyggtochfungerar. Vimänniskorskaparljudellervibrationermedvårastämbandförattbildaolika akustiskasignalersomrepresenterarordmedolikainnebörder.likamångasomdet finnsmänniskorfinnsdetolikasättattuttalaordochfraserpå.viharallaenegen melodiochettegetsättpratapåvilketgördetväldigtsvårtattsammanställaenmallför hurettvisstordellerenfras skall låta.devibrationerellerljudviåstadkommermed 5
stämbandenvarieraristyrkaochtonartmenävenimelodiochbetoningberoendepå vilkendialekt,vilketkön,omviärhesa,vilkethumörellersinnesstämningviäri. Deminstabyggstenarnaispråketkallasfonem.Ettfonemärdespeciellaljudensom bildarettordt.ex.somsje9ljudetisketnaellerchef.deolikafonemvianvänderföratt bildaordärdeklossarsomvihanterarmedhjälpavtaligenkänningssystemenochkan identifierahelaordmedhjälpav.(russel&norvig,2010) 3.3Beroendeochoberoendetalare Ettsystemsomärdesignatförenberoendetalarekräverinteettlikafärgstarkt mönstermatchningssystemochmallregisterdådetendastärutformatförattkunna tolkaenochsammapersonhelatiden. Ettoberoendesystemskallkunnahanteraolikapersonerochmåstedärmedvara duktigarepåattidentifierarättmallfördenintaladesekvensen.denmåstehaenbank avolikasättettordkanuttalaspåberoendepådialekt,könellerröstläge.destomer allmäntanvändningsområdedestostörrevokabulärbankkrävs. 3.4Problemvidtaligenkänning Dåetttaligenkänningssystemskallbearbetadeakustiskatalsignalersomdenhar mottagitkandetuppståendelproblemirepresentationavdessasignaler.ettexempel påettproblemärsåkalladehomofoner.homofonerärordsomlåterlikadantmensom betydertvåolikasakersåsomendaochända.ettannatexempelärsegmentationsom uppstårinaturligttal.närviprataruttalarviingapausermellanorden,intesåsomdet görsiskriftspråk.dettagördetsvårtföretttaligenkänningsprogramattvetavarettord slutarochnästabörjar.detsistaexempletärkoartikulation.koartikulationsproblemet uppstårnärljudetviuttalarislutetavettordochbörjanpåenannanlåterlikadantsom ettannatfonem.övergångenmellanordenkanalltsåskapasammaljudochskapa problemförsystemet.(russel&norvig,2010) 6
4.Probabilistiskamodeller 4.1Språkmodeller Iställetförattrepresenteraochmatchadenmottagnaakustiskasignalenmoten mallordlistasåkanvianvändaossavmodellersommedhjälpavsannolikhetertarfram demestsannolikaalternativenfördetnyssuttaladeordet. Viförindetvåsannolikheternaförattettvisstordskallvarauttalatgivenensignaloch beräknardettamedhjälpavbeyersteorem. P(ord signal)=αp(signal ord)p(ord) αär1/p(signal)vilketärnormaliseringskonstantenförformeln. P(ord signal)gerdenakustiskmodellenvilketärdenintränadedatabassystemethar föratthanteraakustiskasignaler.idenakustiskamodellenkrävsdetattflertaletolika människorhartränatprogrammetförattkunnahanteraolikasortersuttalochdialekter såattsystemetsåsäkertsommöjligtkanhanterasignalerna.denakustiskamodellen kandelasinitvådelardärdenenehanteraruttalochtarframsannolikhetenförvilka sekvenseravfonemsomrepresenterarettordochdenandrehanterarfonemmed avseendepåsignalensrepresentationavtonhöjd,volymochhastighetavuttalet.(russel &Norvig,2010) P(ord)ärSpråkmodellensomuppskattasmedenfrekvensförsannolikhetenattettord skalluppkommaientextbaseratpåsammanhanget.tvåordkangeupphovtillsamma signalochvibehöverdärförräknautensannolikhetförattdetenaäruttalatochinte detandra,vilketproblemärdetspråkmodellenlöser.förattberäknasannolikhetenför efterföljandeordenligtspråkmodellensåanvändermansigavettbigram/trigrameller n9grammodellen. Enbigramutförberäkningenmedhjälpavdetföregåendeordet.Trigramtarhjälpav bådedetföregåendeochdetefterföljandeordetochngramanvänderengenerell uträkningsmetodförden91föregåendeorden.dessaharensynligprocessochären enklaresortsmarkovmodelländendoldahiddenmarkovmodellen.(russel&norvig, 2010) 7
4.2HiddenMarkovModel(HMM) DengömdaMarkovmodellenärenstokastisksignalmodellsomhanterarföränderliga tillståndavdenakustiskasignaldentarinförbearbetning.modellenberäknar sannolikhetenförvilketordellervilkenljudsekvenssomharuttalatsochsannolikheten förvilkennästkommandeljudsekvenskankommaattvara.(russel&norvig,2010) HiddenMarkovModelärenstokastisksignalmodellvilketinnebärattdenhanterar tillståndsomärföränderliga.denkopplarsammanolikafonemmedvarandraoch beräknarsannolikhetenförattettfonemellerenljudsekvensskallövergåiettannat fonemellerinästaljudsekvens.deärlämpligaattanvändadåviharettordellerenhel sekvenssomskallavläsasochtolkasdådenkanberäknasannolikhetenförenhel fras.(zubeck,2006) DetredelarnasomskaparHMM9modellenär Förvarjetillståndharviensannolikhetförattobserveravarjesynlighandlingi dettillståndet. Sannolikhetenförattvarjestadieskallövergåinästastadievaresigdetärett annatstadieellerattdetuppreparsig. Endistributionöverdesamtligastarttillstånden. HMMhanterartaligenkänningidetleddärfonemochkortaljudsekvenserskall representerasochberäknasförattförstådenakustiskasignalensomuttalats. Beräkningenutförspåsannolikhetenförattettvisstordäruttalatgivenensignal. Nedanservialgoritmenfördenestimeradesannolikheten.(Zubeck,2006) b(st)=q(at st) p(st st 1)b(st 1)η st 1 S EnförstaordersHMMärentupelM=<S,A,p,q>där: Särenuppsättningavtillståndiprocessen Aärdenuppsättningavhandlingarsomkanbliobserverade 8
pärsannolikhetsfunktionenförövergången där p(st st 1 ) signifierar sannolikheten för en övergång mellan tillstånd st 1 och st. q är sannolikhetsfunktionen för den observerade signalen där q(at st) avkodar sannolikheten för en observerad handling at vid tidpunkten t givet tillståndet st. b är det tillstånd vi befinner oss i. ModellenHMMgårigenomengömdprocessförattfattaettbeslutkringdeninkomna akustiskasignalen.robertzubeckliknardennaprocessmedhurenpersonmårkontra derasansiktsuttryck.vikanmedhjälpavansiktsuttryckentolkahurpersonenviser mårochharförsinnesstämningmendetäromöjligtförossattsedenexaktakänslan personenbärinombordsutanattupplevadetgenomdesshjärna. JagskamedhjälpavdettaresonemangförklaraalgoritmensomHMManvänderföratt tolkasignalerna.genomattstoppaindenyavariablernaialgoritmenfårvidenna algoritm. b(sad)=q(frowns sad)[p(sad happy)b(happy)+p(sad angry)b(angry)]α Översättervidettatillberäkningavdeverkligasannolikheternaförvarderavariabeloch denövergångsågerdetossdennaberäkning =0.3[0.30.1+0.70.7] α 9
Figur 1. Karta över HMM algoritmen(zubeck,2006) Denpresenteradealgoritmenräknarutsannolikhetenförattpersonenärledsenbaserat påattviharsettenhandlingiformavattpersonenharrynkatpåpannan. Delsannolikhetenq(frowns sad)ärsannolikhetenförattmanskallrynkapannanvid sammatidpunktgivetattmanärledsen.alltså,vadärsannolikhetenförattviskall rynkapannanförattviärledsna?dennasannolikhetskallvigångramedsannolikheten förövergångenfrånattpersonenärgladellerargtillatthenskallbliledsna.vadär sannolikhetenförattviärledsnagivetdetförratillståndetsomantingenkanvaraglad ellerargdåledsenintekanföljasavsigsjälvt.αärdennormaliseringskonstantsom neutraliseraralgoritmensåattdetgivnasvaretskallgesannolikhetermellan0och1. Vivillalltsåfåredapåsannolikhetenförattpersonenärledsengivetattviharmottagit ensignalattpersonenharrynkatpåpannanberäknatpåsannolikhetenfördetidigare sinnesstämningarpersonenbefunnitsigi. Vadsägerdettaexempelossomtaligenkänning?JagskallförklarahurHMMalgoritmen behandlartaligenkänningmedhjälpavsammaprocedur.algoritmenvidtaligenkänning serdåutsomföljer: b(ord)= q(signal ord)[p(ord föregående)b(föregående)+p(ord efterföljande)b(efterföljande)]α 10
Vivilltaredapåsannolikhetenförattettvisstordharuttalatsgivendensignalsom mottagits.denförstadeleniberäkningenhanterarsannolikhetenförattsignalenskall representeraettvisstord.nästadelärdensannolikhetförattsignalenskall representerasammaordberäknatpåhurväldetpassarintemedföregåendehanterade signalellerfonemidettafallsamtdetefterföljandefonemet.ordetsomberäknasberor alltsåpåsannolikhetenförattsignalenkorrelerarmedettvisstordochattdettaäven passarmedföregåendeochefterföljandefonem.signalenärsynligmendeolikafonem vitestardenmotärgömdunderprocessen.viserbaraproduktenavberäkningeninte självautförandet. 4.3ViterbiAlgoritmen (aibokens578) Förattberäknasannolikhetenförattettvisstorduttalatsmåstevidelainproblemeti sannolikhetenförattettvisstfonemuttalats.dennasannolikhetsberäkninghjälper Viterbialgoritmenossmed. Viterbialgoritmenberäknarsannolikhetenförattettfonemharuttalatsoch sannolikhetenförvadnästföljandefonemkommerattvara.viterbialgoritmenfårin olikaljudsekvenservidolikatidstillfällenochkopplarsammandessaochutfören uträkningavsannolikheten.kalasellerkapasger0.35x0.40och0.35x0.25. Denärendynamiskalgoritmvilketbetyderattdenharentotaluppsättningberäkningar förenmiljömedföränderligdataochinput.viterbialgoritmenanvändesförstföratt sållautbakgrundsljudochväljerdenbästavägenmotdetsannolikttaladeordetvalt ifrånettnätverkvilketäruppbyggtavnodermedenstakaord.algoritmenhittarden lämpligastevägengenomnodnätetochdenlösningsnoddenväljerbörvaradetmest sannoliktuttaladeordetgivetdenakustiskasignalsekvenssomobserverats.att undersökakontinuerligttalärbetydligtmerkompliceratänenstakauttaladeorddå ordgränsernaärväldigtotydligaitalademeningar.detärsvårtatturskiljavartettord slutarochnästabörjar.dettaproblemkanviterbialgoritmenhantera.viterbi algoritmengörklassificeringavsannolikhetenförvarjeordsomhmmsedananvänder förattvidareutvecklaberäkningenisammanhanget.(russel&norvig) 11
5.Diskussion Taligenkänningärenimponerandeprocessdärmanmedtankepåproblemets komplexitetharsmåochkompaktalösningar.algoritmernasombehandlardeakustiska signalernaklararuppgiftenmedrelativtbraresultatochhanterardemångaolika variationerispråketsomuppstårvidoberoendesystem.hmmärenalgoritmsommed modifikationkananpassaspåfleraolikaområdenochdessvariationochtillämpbarhet ärfascinerande.taligenkänningärettnödvändigtstegiutvecklingenirelationendator ochmänniskaochettintressantområdeattbådefördjupasigiochutveckla användningsområdetför. 12
6.Referenser Russel,S.Norvig,P.(2010)Artificial)Intelligence:)A)Modern)Approach,thirdedition.New Jersey:PearsonEducation,Inc. Schmandt,C.(1994)Voice)Communication)with)Computers:)Conversational)Systems.New York:VanNostrandReinhold. Doostdar,M.Schiffer,S.Lakemeyer,G.A)Robust)Speech)Recognition)System)for)Service? Robotics)Applications.)Germany,RWTHAachenUniversity. http://www.springerlink.com/content/d6756652647t568h/ 9Hämtad2012909906 G.DavidForney,JR.(1972)The)Viterbi)Algorithm. http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=1450960&url=http%3a%2f% 2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D1450960 9 Hämtad2012909906 Rabiner,L.(1989)A)Tutorial)on)Hidden)Markov)Models)and)Selected)Applications)in) Speech)Recognition.)))))) http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=18626&url=http%3a%2f%2fi eeexplore.ieee.org%2fxpls%2fabs_all.jsp%3farnumber%3d18626 9Hämtad2012909906 Zubek,R.(2006)Introduction)to)Hidden)Markov)Models.InRabin,S.(ed.),AI)Game) Programming)Wisdom)3.)CharlesRiverMedia,Hingham,MA. http://robert.zubek.net/publications/intro9to9hmms9draft.pdf 9Hämtad2012909909 13