Google Assistant & WaveNet
|
|
- Ann-Christin Vikström
- för 6 år sedan
- Visningar:
Transkript
1 Google Assistant & WaveNet Projektrapport om CNN Maja Albrektson 27/12 17 Linköpings universitet 729G43, Artificiell Intelligens 0
2 SAMMANFATTNING Denna rapport beskriver WaveNet, en generativ modell av ett neuralt nätverk som arbetar på ljudvågsnivå (van der Oord, et al., 2016). WaveNet har visat sig producera bättre tal som låter mer naturligt och realistiskt än tidigare modeller. Algoritmen är uppbyggd av ett Convolutional neuralt nätverk, CNN, och det är uppbyggnaden av detta som rapportens primära fokus ligger på. 1
3 INNEHÅLL Sammanfattning Inledning Bakgrund Talsyntes Konkateneringssyntes Parametrisk talsyntes Skillnader mellan WaveNet och tidigare system Artificiella Neurala Nätverk Convolutional Neurala Nätverk, CNN Beståndsdelar/lager Convolution Pooling Fully Connected Rectified Linear Units & Softmax Deep learning generellt Backpropagation Designerbeslut WaveNet och dess uppbyggnad Uppbyggnad Beståndsdelar/lager Causal convolution Dilated causal convolution Softmax & kvantisering Residual learning & skip connections Gated activation units Extra input Diskussion Referenser
4 1. INLEDNING Utvecklingen inom artificiell intelligens går ständigt framåt. Nya lösningar till tekniska problem presenteras och utvecklas kontinuerligt. Maskininlärning utgör en stor del av detta och har den senaste tiden börjat användas flitigt när det handlar om taligenkänning (Levy, 2016). I princip alla moderna mobila enheter har idag någon sorts inbyggd röststyrning, exempelvis Apples Siri, Amaons Alexa, Microsofts Cortana eller Google Now (Betters & Langridge, 2017). Google valde år 2016 att släppa sin nya utveckling av Google Now som heter Google Assistant och marknadsföringen fokuserar på att sökmotorn Google skapades för att hjälpa alla, medan Google Assistant endast fokuserar på dig som individ (Huffman, 2017). Produkter som använder sig av Google Assistant ska därmed, vilket namnet indikerar, fungera som ägarens personliga assistent. Funktionen finns i många olika produkter och kan användas över flera olika enheter vilket medför naturlig interaktion med assistenten via såväl högtalare, tv, plattor och telefon. 1.1 Bakgrund Google Assistant använder sig av flertalet olika algoritmer för en fungerande interaktion mellan användare och maskin. Att kunna transformera text till tal (eng. text-to.speech), förkortat TTS, är återkommande i denna interaktion och Google har i deras senaste version av Google Assistant bland annat fokuserat på att få assistentens röst att likna en människas så mycket som möjligt (van der Oord, Walters, & Strohman, 2017). För att lyckas med detta har företaget DeepMind, numera ägt av Google, utvecklat WaveNet som är ett djupt neuralt nätverk som genererar råa ljudvågor (eng. raw audio wavelengths). WaveNet är ett fullständigt convolutional neuralt nätverk (eng. convolutional neural network), CNN. När WaveNet har tränats upp så har input bestått av tidigare inspelade data samt den mening som man vill att programmet ska uttala. Den modellen av WaveNet som började användas i Google Assistant år 2017 är en uppdaterad och förbättrad version av den första prototypen (van der Oord, Walters, & Strohman, 2017). Denna rapport kommer att fokusera på hur den första prototypen var uppbyggd, och främsta fokus kommer att ligga på hur olika CNN fungerar samt på vilket sätt WaveNet är utformat. 2. TALSYNTES 2.1 Konkateneringssyntes De flesta tidigare program på marknaden inom talsyntes använder sig utav konkateneringssyntes (eng. concatenative TTS) (Andersson, 2013). Konkateneringssyntes går ut på att man väljer ut en 3
5 röst som får spela in mängder med röstklipp som består av olika meningar. Meningarna är noga utvalda för att innehålla rätt sorts innehåll, ofta innebär det att de innehåller många olika kombinationer av fonem. Inspelningarna delas sedan upp i olika enheter så som fonem, ord eller meningar (Khan & Chitode, 2016). Väsentliga delar av dessa enheter väljs sedan ut och kombineras, även kallat konkateneras, och syntetiskt tal har skapats. Systemen bakom konkateneringssyntesen har således till uppgift att välja ut alla lämpliga delar från databasen bestående av all data, och sedan sammanfoga dessa delar till den slutgiltiga outputen. Denna typ av talsyntes gör det svårt att förändra rösten, och för att göra större förändringar så som att ändra känslor och toner i språket kan kräva att man spelar in en helt ny databas (van den Oord, Dieleman, & Zen, 2016). 2.2 Parametrisk talsyntes Parametrisk talsyntes (eng. parametric TTS) är ett annat sätt som man kan skapa text till tal på (van den Oord, Dieleman, & Zen, 2016). Den parametriska talsyntesen har all information som behövs sparad i modellens parametrar, vilket bidrar till att man kan kontrollera talet via inputen. Problemet med parametrisk talsyntes är att den tenderar till att låta mindre naturlig än konkateneringssyntesen. 2.3 Skillnader mellan WaveNet och tidigare system Skillnaden mellan WaveNets nya system och tidigare program är således att de har lyckats skapa en naturligare röst än tidigare (van den Oord, Dieleman, & Zen, 2016). Tidiga tester med WaveNet har visat en tydlig förbättring jämförelsevis med tidigare TTS-program. Programmets förmåga att generera råa ljudvågor möjliggör även att skapa andra typer av ljud, så som musik samt att byta mellan olika röster. Övriga saker som gör att ljudet som skapas av WaveNet blir mer naturligt än tidigare TTS-program är att även ljud i form av andning och munrörelser inkluderas. WaveNet kan dessutom använda och lära sig flera olika rösters karakteristiska drag utan att behöva en massa nya data. 4
6 3. ARTIFICIELLA NEURALA NÄTVERK 3.1 Convolutional Neurala Nätverk, CNN Det finns flera olika sorters neurala nätverk som utför djupinlärning och CNN är en typ av dessa som väldigt ofta är inblandad när det sker nya framsteg på marknaden (Rohrer, 2016). CNN används framförallt för bildigenkänning, men även för andra saker så som text eller ljud. 3.2 Beståndsdelar/lager För att förklara grundprincipen bakom CNN så kommer denna del av rapporten att utgå från hur det fungerar när man använder det neurala nätverket till att jämföra bilder. Ett exempel på detta kan vara att algoritmen ska bestämma vilken siffra en bild föreställer. En bild representeras i en tvådimensionell modell, medan ljud presenteras endimensionellt. Detta medför att utformningen på olika algoritmer kan variera lite, men grunden är samma. Ett av de viktigaste kriterierna för att man ska kunna använda CNN är att datan man arbetar med har någon sorts relation och ordning (Rohrer, 2016). Det ska inte gå att byta plats på olika rader eller kolumner i bilden (eller tidsstegen i ett ljudklipp) utan att det påverkar datan. CNN arbetar genom att dela upp den stora bilden som man har från början i mindre delar, pixlar. Genom att jämföra de mindre delarna med varandra så är det enklare att hitta liknelser, än om man jämför hela bilden Convolution CNN kan ses som en algoritm som arbetar i flera lager (Rohrer, 2016). Det lager som algoritmen har fått sitt namn ifrån kallas convolution layer. Det första som algoritmen utför i convolutionslagret är att filtrera (eng. filtering) (Karn, 2016). Vi tänker oss, för enkelhetens skull, att en bild består av 25 pixlar, fördelade i en matris som är 5x5 stor. Filtrering innebär att ett filter (även kallat kernel, eller feature detector ) som är mindre än ursprungsmatrisen, exempelvis 3x3, glider över bildens alla pixlar ett steg i taget. Den yta som filtret täcker är det som kallas receptive field. När filtret jämförs med ursprungsbilden på detta vis så används en matematisk uträkning kallad konvolution (eng. convolution). Uträkningen innebär att man multiplicerar värdet i varje ruta i filtret med värdet på den motsvarande pixeln i ursprungsbilden, även kallat elementbaserad multiplikation. Om man tar svaren från alla konvolutioner och placerar ut på de platser där uträkningen gjordes så skapas en filtrerad version (även kallat feature map) av originalbilden som visar hur väl det filter som användes passar in på olika ställen i bilden. Denna process genomförs med alla filter, vilket leder till ett flertal filtrerade bilder. Ju fler filter som 5
7 algoritmen använder, desto fler features kommer att upptäckas, och nätverket kommer att bli bättre på att upptäcka mönster i nya bilder. Anledningen till att man använder sig av convolutionlager är att man oftast söker efter något specifikt i bilderna, specifika features (Dettmers, 2015). En bild innehåller mängder med information, men oftast är det endast en liten del av all den informationen som faktiskt är relevant för algoritmen. Ett exempel på sådan information kan vara att man vill fokusera på konturer eller olika färger. Denna process är automatiserad med hjälp av algoritmen, det enda den som designar algoritmen behöver göra i detta avseende är att träna nätverket till att finna nya filter som är relevanta för uppgiften Pooling Ett CNN kan bestå av flera olika sorters lager och funktioner, alla behöver inte nödvändigast användas i samtliga algoritmer. Ett exempel på en sådan funktion är ett lager som kallas pooling (Dettmers, 2015). Pooling utförs för att minska storleken på bilder, eller data, medan man fortfarande behåller den viktigaste informationen som man har samlat in. Det är även bra eftersom att input inte behöver se ut på ett specifikt vis, vilket innebär att den inte är så känslig för rotationer och översättningar. Det finns flera olika sorters Pooling, men Max Pooling är det vanligaste (Karn, 2016). Processen genomförs genom att, med hjälp av en matris (några pixlar stor) som flyttas runt, välja ut det största värdet för varje del av bilden som matrisen befinner sig på (Rohrer, 2016). Detta reducerar storleken på bilden. Anledningen till att detta tillvägagångssätt är möjligt beror på att CNN inte bryr sig om vart inom en matris som ett visst filter passar bäst, utan endast ifall det passar eller inte. Om detta sker efter convolutionslagret och filtreringen som beskrevs ovan, så kommer det alltså fortfarande att vara lika många filtrerade bilder, men de kommer att ha en reducerad storlek Fully Connected Det sista steget i ett CNN är vanligtvis ett så kallat Fully Connected layer och det är här som den slutgiltiga kategoriseringen sker (Rohrer, 2016). Här hanteras inte längre datan som en tvådimensionell bild utan snarare som en lång lista där alla värden behandlas på samma vis. Detta innebär att varje neuron från det föreliggande lagret är kopplat till varje neuron i nästa lager (Karn, 2016). Syftet med Fully Connected-lager är att använda de features som de tidigare lagren har fått fram till att klassificera originalbilden och få fram vilken kategori som bilden tillhör. 6
8 4.3.2 Rectified Linear Units & Softmax En aktiveringsfunktion som ofta används inom CNN är det som kallas Rectified Linear Units, även förkortat ReLu (Rohrer, 2016). Denna funktion transformerar alla pixlar som består av negativa tal till nollor. Exempelvis skulle en pixel som har värdet skrivas ut som 0. ReLU är därmed en elementbaserad operation (Karn, 2016). Huvudsyftet med en ReLu är att få in ickelinjäritet i algoritmen, eftersom den mesta datan som algoritmen kommer att komma i kontakt med ser ut på det viset. Det sista Fully Connected-lagret i en algoritm kan även använda en aktiveringsfunktion som kallas Softmax (Karn, 2016). Softmaxfunktionen korrigerar outputvärdena i algoritmen så att varje kategoris outputvärde är ett värde mellan 0 och 1 samt att alla outputvärden tillsammans får summan ett (Yang, 2017). Den kategori som har högst värde är den kategori som det neurala nätverket tror att inputen tillhör. 3.3 Deep learning generellt En förutsägelse för att CNN och andra djupinlärningsalgoritmer ska fungera är att alla lagers output har samma form som indata (Rohrer, 2016). Detta möjliggör användandet av ovanstående förklarade lager flertalet gånger efter varandra. Detta innebär att algoritmen i början kan ha fokus på mer generella mönster i indata, för att sedan bli alltmer detaljerat efterhand. Alla features uppdateras och blir mer innehållsrika efter varje lager, och datastorleken växer. 3.4 Backpropagation En förutsägelse för att ett CNN ska fungera så bra som möjligt är att man har tränat upp det, vilket kan göras med så kallad backpropagation (Rohrer, 2016). Detta innebär att man använder data som man redan har facit till, och ser till att de fel som uppstår när algoritmen kör denna data, korrigeras. De delar som korrigeras är filtrernas värden samt vikterna mellan noderna. Varje värde korrigeras och när man hittat det värde som gör felet så litet som möjligt, så används detta. Mönster som är återkommande i flera iterationer formar sedan algoritmens vikter och val av filter nästa gång. Ett exempel på ett sådant mönster skulle kunna vara att alla bilder som algoritmen tränar med föreställer sjuor, då kommer algoritmen att generalisera och tro att det gäller alla bilder i hela världen. Den optimala algoritmen generaliserar lagom mycket och specialiserar lagom mycket, vilket innebär att det varken sker en så kallad underfitting eller overfitting (Russell & Norvig, 2010). 7
9 3.5 Designerbeslut När man skapar ett neuralt nätverk så finns det vissa riktlinjer för vad som är en lagom mängd av lager, filter, pixlar etcetera (Rohrer, 2016). Det finns ett flertal beslut att ta angående hur algoritmens struktur ska byggas. Det som CNN har som en fördel, att man kan kombinera alla lager på många olika sätt, skapar även fler beslut som behöver tas. Det är viktigt att poängtera att dessa lager även kan presenteras med vissa förändringar, och att ovan nämnda delar endast utgör basen för alla möjliga varianter av CNNs. WaveNet använder sig inte av ovanstående modell av lager utan har satt ihop andra lager för att skapa den mest optimala lösningen för deras algoritm. Ovanstående sorters lager kan ses som en grund av vad som är vanligt förekommande i ett CNN samt fungera som riktlinjer för vad olika lager har för funktion. 4. WAVENET OCH DESS UPPBYGGNAD 4.1 Uppbyggnad WaveNet är, som tidigare nämnt, en generativ modell av ett neuralt nätverk som arbetar på ljudvågsnivå (van der Oord, et al., 2016). När man försöker skapa ett talsyntessystem så går man från text, vilket är en sekvens av diskreta symboler, till talsignaler. Till skillnad från konkateneringssyntes och parametrisk talsyntes så är inte WaveNet bundna till lika många bestämda regler som ska följas. Den enda tidigare kunskapen som WaveNet har angående ljudsignaler är att designaren har bestämt hur stort mottagarfältet (eng. receptive field) ska vara, samt använder sig av µ-law kodning av signalen, vilket även kan ses som ett icke-linjärt kausalt filter för kvantiserade signaler. 4.2 Beståndsdelar/lager Varje urval, eller tidssteg (eng. timestep), från en ljudsignal påverkas av de tidigare tidsstegen (van der Oord, et al., 2016). Detta då ljud har en viss ordning som de olika delarna behöver komma i, annars blir det inte samma ljud. Den sammanlagda sannolikheten (eng. joint probability) för en ljudsignal är därmed en produkt av de respektive villkorliga sannolikheterna för varje tidssteg. Se formel nedan. 8
10 Figure 1. Sammanlagda sannolikheten för en ljudvåg. Källa: X står här för den sammanlagda sannolikheten medan x t symboliserar varje tidsstegs villkorliga sannolikhet. WaveNets villkorliga sannolikhetsfördelning består av ett flertal convolutional-lager Causal convolution Figure 2. Visualisering av en stapling med causal convolutional - lager. Källa: Den största delen av WaveNet består av causal convolutions (van der Oord, et al., 2016). Denna typ av lager används främst för att säkerställa att modellen inte förändrar ordningen som all data befinner sig i. Det är som ett vanligt convolutional-lager med skillnaden att ingenting ska kunna påverkas av, eller vara beroende av, något som händer senare i algoritmen. Beräkningarna ska endast grundas i nuvarande och tidigare förekommen indata. Under träningen av ett nätverk som består av causal convolutions så kan alla förutsägelser för tidsstegen ske samtidigt, parallellt, eftersom att alla tidssteg som finns på samma nivå redan är kända för algoritmen (van der Oord, et al., 2016). Nätverket behöver inte generera nya data under träning, vilket gör detta möjligt. När modellen används och testas kommer däremot alla förutsägelser att vara sekventiella, och när en förutsägelse är gjord för ett urval, eller i detta fall tidssteg, så matas svaret tillbaka in i nätverket för att förutsäga nästa. 9
11 2.4.2 Dilated causal convolution Figure 3. Visualisering av en stapling med dilated causal convolutional - lager. Källa: WaveNet består inte av det så kallade poolinglagret som är vanligt förekommande i CNNs och som beskrevs tidigare i rapporten, istället använder det så kallad dilated convolution som på sätt och vis fungerar på samma sätt (van der Oord, et al., 2016). Den stora skillnaden mot ett poolinglager är att dilated convolution returnerar en output som har samma storlek som inputen. Flera dilated convolution-lager efter varandra möjliggör att nätverket har ett stort receptive field, det vill säga har tillgång till många noder, men fortfarande kan hålla sig till lika många lager som det hade varit om det inte var dilated. WaveNet har i sin algoritm valt att exponentiellt öka utvidgningen (eng. dilation) för varje lager upp till en förutbestämd gräns för att sedan börja om, de kallar det för ett block. Själva utvidgningen innebär, som bilden demonstrerar, att ett visst antal inputvärden hoppas över, eller ignoreras, när lagret används. Receptive field blir dubbelt så stort som storleken på utvidgningen, vilket kan ses på bilden. Detta innebär att om man använder dilation 1,2,4,,512 så kommer algoritmen ha ett receptive field på 1024 noder Softmax & kvantisering WaveNet använder aktiveringsfunktionen Softmax (se avsnitt 4.3.2) i det sista lagret för att modellera hur stor sannolikhet det är att varje individuell ljudsignal tillhör en viss kategori (van der Oord, et al., 2016). Detta innebär att om algoritmen fungerar korrekt så kommer den kategori som ljudsignalen tillhör att ha högst outputvärde. Råa ljudvågor representeras ofta som en 16-bits-sekvens, vilket medför 65,536 möjliga outputvärden för varje tidssteg om man använder sig av Softmax (van der Oord, et al., 2016). Då 65,536 möjliga outputvärden är en stor mängd att arbeta med så använder WaveNet µ-law (mulaw) för att sedan kvantisera (eng. quantize) datan. Mu-law är ett så kallat companding scheme vilket innebär att det förstorar små värden och komprimerar större värden (UCLA, u.å.). Detta innebär att när en signal passerar genom en compander så får de tidssteg som har en lägre 10
12 ljudstyrka (amplitud) ett större intervall medan de signaler som har en högre ljudstyrka får ett mindre intervall. Man kan säga att man kompenserar upp och ändrar distributionen så att det blir en jämnare fördelning. Varje tidssteg måste sedan transformeras till ett ändligt antal möjliga värden, som bör vara färre än 65,536. När det handlar om att digitalisera ljud och röster så brukar 256 möjliga värden att rekommenderas (Borth, Stark, & Lehnert, 2016). En optimal icke-linjär kvantiserare har fler möjliga värden på de ställen där tidssteget (signalen) troligtvis kommer att inträffa och färre på de ställen där den troligtvis inte kommer att inträffa. Med hjälp av mu-law, som har jämnat ut fördelningen av ljudstyrkan, kan algoritmen därför ha ett jämnt distribuerat avstånd mellan de möjliga outputvärdena. WaveNet använder av 256 möjliga värden, precis som tidigare nämnd rekommendation (van der Oord, et al., 2016). Anledningen till att man använder sig av ett icke-linjärt kausalt filter för kvantiserade signaler är för att kunna ta tillvara på detaljer i ljudet som annars hade gått till spillo (van der Oord, et al., 2016). Detta leder i sin tur till mer naturligt ljud, vilket var målet med algoritmen från början Residual learning & skip connections Figure 4. En överblick av ett "residual block" och hela algoritmens arkitektur. Källa: Det har visat sig att fler lager (mer djup) i djupa neurala nätverk ofta bidrar till bättre resultat (He, Zhang, Ren, & Sun, 2015). Problematiken med detta är att fler lager dessutom bidrar till en långsammare algoritm och större träningsfel. För att lösa det så kallade degraderingsfelet som uppstår och förbättra inlärningen så kan man använda residual learning. Residual learning 11
13 innebär att man gör nätverket djupare, snarare än vidare. Detta sker genom att det skapas residual-block med flera dilated causal convolutional-lager. Residual connections sker inom varje lager och mellan lagren används så kallade skip connections, även kallat genvägar (eng. shortcuts) vilket bilden nedan demonstrerar. Figure 5. Ett block inom residual learning från originalartikeln. Källa: Dessa genvägar hoppar över ett lager och för med sig information från input från lager ett (n) till output från lager två (n+1) (He, Zhang, Ren, & Sun, 2015). Genom att genvägen genomför en så kallad identity mapping så läggs det inte till några extra parametrar eller ökar datorkomplexiteten. Nätverket kan på detta vis använda redan inlärda data och lära sig med hjälp av dessa istället för att börja om inför varje lager. I figuren representerar f(x)+x det nya lagret, där x är input och f(x) är mellanlagrets funktion. Genvägen medför att man säkerställer att det nya lagret lär sig något nytt av nätverket, då man tvingar det nya lagret att lära sig något annat än det som redan finns kodat. Detta innebär att man inte behöver använda onödig data och man minskar därmed datorkomplexiteten Gated activation units Inom residual-blocket så använder WaveNet så kallade Gated activation units istället för Rectified Linear Units som nämndes tidigare i rapporten, då detta har visat sig vara mer effektivt när det handlar om ljudbehandling (van der Oord, et al., 2016). Unit refererar till aktiveringsfunktionen i ett lager som bidrar till att inputen förändras (Dettmers, 2015). Detta sker genom att en neurons inputsumma transformeras av aktiveringsfunktionen och skapar nodens output. Gated activation units är en av de mer komplexa aktiveringsfunktionerna och fungerar lite i likhet med LSTM-enheter (van der Oord, et al., 2016). Gated activation units är en kombination av en tanhfunktion och en sigmoidfunktion vilket medför att funktionen är icke- 12
14 linjär. Sigmoid och tanh fungerar på liknande sätt och tanh är egentligen sigmoidfunktionen i en annan skala (Sharma V, 2017). Aktiveringsfunktionen används för att implicera icke-linjäritet till neuronens output eftersom att den mesta datan i världen är icke-linjär, samt för att bestämma om en neuron har tillräckligt högt värde för att skicka vidare inputsignalen eller inte. Figure 6. Gated activation unit. Källa: Figuren ovan gestaltar WaveNets Gated activation unit. Sigmoidfunktionen skrivs som σ, multiplikationstecknet i mitten symboliserar att det är en elementbaserad multiplikation, k står för det aktuella lagrets index, f är filtret som används, g är gaten och W är ett convolution filter, vilket även kan ses som en viktmatris (van der Oord, et al., 2016). X kan antas stå för funktionens aktuella input. Hela Gated activation unit representerar således en elementbaserad multiplikation mellan en tanh-funktion och en sigmoidfunktion, som tillsammans bildar en ny sorts aktiveringsfunktion, eller ett aktiveringsblock. 4.3 Extra input Genom att addera en extra input till algoritmen så kan WaveNet producera den villkorliga fördelningen av ljudet utefter den inputen (van der Oord, et al., 2016). När det gäller TTS så innebär det att den extra inputen är själva texten som algoritmen ska skapa ljud av. Algoritmen guidas på detta vis till att producera ljud utefter just de karakteristiska dragen som texten har. Lokal betingning (eng. local conditioning) är ett sätt man kan applicera den extra inputen på (van der Oord, et al., 2016). Textens lingvistiska drag kommer då att transformeras till en tidsserie som har samma resolution som ljudsignalen. Tidsserien appliceras sedan som extra input i gated activation unit tillsammans med den ursprungliga ljudsignalen. 5. DISKUSSION Deepmind och Googles mål att skapa en röst som liknar en människas så mycket som möjligt är enligt mig ett bra fokuseringsområde då vi nog alla har stött på en automatiserad telefonsvarare eller GPS som låter omänsklig, vilket bidrar till att det känns lättare och mer okej att bli irriterad på den eftersom att det är svårt att känna samma sympati till en datoriserad röst som man gör till en människa. Jag anser att det är ett viktigt steg i utvecklingen om vi människor i 13
15 framtiden ska bli mer bemötliga och använda oss av alla de olika hjälpmedel och virtuella hjälpredor som börjar inta marknaden, så som Google Assistant. Förutom ovan nämnda fördelar så finns det även en del nackdelar med att en digital röst låter som en helt vanlig människa. Om man ringer en person eller ett företag och inte hör eller förstår att man pratar med en robot så kan det ge upphov till irritationer eller känslor av att känna sig lurad. Ju mer naturligt en robot låter, desto svårare blir det för oss vanliga människor att särskilja dem från oss. Konsekvenserna av detta kan således bli att allt fler människor förlitar sig på robotar och anförtror sig till dem med sina känslor och hemligheter. En sådan utveckling kan tyckas positiv om datan som kommer in behandlas på ett korrekt vis, men det blir snabbt negativt om datan hamnar i fel händer och missbrukas. CNN är ett neuralt nätverk som fungerar bra i många sammanhang. Jag anser det positivt att man har använt denna typ av nätverk i algoritmen och att man ständigt arbetar för att komma framåt i utvecklingen. Den uppdaterade versionen av WaveNet lanserades i Googles produkter så sent som år 2017, vilket innebär att det fortfarande är nytt och att många förbättringar kan väntas komma i framtiden. Att använda sig av WaveNet eller liknande algoritmer för att producera naturligt tal kan öppna dörrar för nya möjligheter. Konkateneringssyntes eller paramatrisk talsyntes har restriktionerna att för att skapa en ny röst så krävs det en helt ny databas med timtals av inspelningar. Att WaveNet istället kan generera nytt tal utan all den datan innebär att liknande algoritmer i framtiden kanske kan användas till att smidigare producera röster av personer som inte är tillgängliga. Det kan exempelvis handla om någon känd skådespelare som har en karaktär i en film och som har en känd röst, vilken man då skulle kunna gestalta även efter dennes bortgång. Detta skapar dock annan problematik i form av etiska frågor, men det är en möjlighet för framtiden. 14
16 REFERENSER Andersson, L. (den 17 September 2013). Machine language: how Siri found its voice. The Verge. Hämtat från den Betters, E., & Langridge, M. (den 6 oktober 2017). What is Google Assistant, how does it work, and which devices offer it? Pocket-lint. Hämtat från Pocket-lint: den Borth, D. E., Stark, W. E., & Lehnert, J. S. (den 18 mars 2016). Telecommunication. Encyclopædia Britannica. Hämtat från den 6 januari 2018 Dettmers, T. (den 3 november 2015). Deep Learning in a Nutshell: Core Concepts. NVIDIA Accelerated Computing. Hämtat från den 3 januari 2018 Dettmers, T. (den 26 mars 2015). Understanding Convolution in Deep Learning. TimDettmers - Making deep learning accessible. Hämtat från den 2 januari 2018 He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. Las Vegas: IEEE. Huffman, S. (den 4 oktober 2017). The Google Assistant, powering our new family of hardware. Google Blog. Hämtat från Google Blog: den Karn, U. (den 11 augusti 2016). An Intuitive Explanation of Convolutional Neural Networks. the data science blog. Hämtat från den 2 januari 2018 Khan, R. A., & Chitode, J. S. (februari 2016). Concatenative Speech Synthesis: A Review. International Journal of Computer Applications, 136(3). Hämtat från den Levy, S. (den 24 augusti 2016). The ibrain Is Here and It s Already Inside. Wired. Hämtat från Wired: den 27 december 2017 Rohrer, B. (den 18 augusti 2016). How do Convolutional Neural Networks work? Data Science and Robots Blog. Hämtat från den Russell, S. J., & Norvig, P. (2010). Artificial Intelligence: A Modern Approach (Vol. 3). New Jersey: Pearson Education. 15
17 Sharma V, A. (den 30 mars 2017). Understanding Activation Functions in Neural Networks. The Theory of Everything, Medium. Hämtat från den 7 januari 2018 UCLA. (u.å.). Signal Quantization and Compression Overview. UCLA Engineering. Hämtat från den 6 januari 2018 van den Oord, A., Dieleman, S., & Zen, H. (den 8 september 2016). WaveNet: A Generative Model for Raw Audio. Deepmind. Hämtat från Deepmind: den van der Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A.,... Kavukcuoglu, K. (2016). WaveNet: A Generative Model for Raw Audio. Arxiv. Hämtat från den van der Oord, A., Kalchbrenner, N., Vinyals, O., Espeholt, L., Graves, A., & Kavukcuoglu. (2016). Conditional Image Generation with PixelCNN Decoders. ArXiv. Hämtat från den 7 januari 2018 van der Oord, A., Walters, T., & Strohman, T. (den 4 oktober 2017). WaveNet launches in the Google Assistant. Deepmind. Hämtat från den 27 december 2017 Yang, J. (den 11 februari 2017). ReLU and Softmax Activation Functions. Hämtat från Activation-Functions den 6 januari
Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University
Neurala nätverk och språk Henli807!1 Neurala nätverk och språkigenkänning Henrik Linnarsson Linköping University Neurala nätverk och språk Henli807!2 RNN, LSTM och språkigenkänning Inledning Idag är språkigenkänning
Liswi948, Lisa Widerberg, liswi948 Fördjupningsarbete Linköpings Universitet 729G43, Artificiell Intelligens
Lisa Widerberg, liswi948 Fördjupningsarbete Linköpings Universitet 729G43, Artificiell Intelligens 2018-01-11 Innehållsförteckning 1 Inledning 1 1.1 Bakgrund 1 1.2 Bilder som tredimensionella matriser
729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen
729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Statistisk mönsterigenkänning
Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning
ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap
ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full
SHAZAM! En!smart!musiktjänst! Linha108! Fördjupningsarbete!729G43!
SHAZAM Ensmartmusiktjänst Linha108 Fördjupningsarbete729G43 Sammanfattning Shazam är en musiktjänst som genom en sökalgoritm kan känna igen ljud och returnera låt och artist till användaren. Detta sker
Att programmera en Beethoven
Linköpings universitet Att programmera en Beethoven Fördjupning inom Neurala nätverk och LSTM 2018-01-03 Innehåll 1 Inledning- Musik och artificiell intelligens... 2 1.1 Historia... 2 1.2 Bakgrund AIVA...
Ett Neuralt Nätverk Tittar På Kläder
[Skriv här] [Skriv här] [Skriv här] 2019 Ett Neuralt Nätverk Tittar På Kläder ETT KONVOLUTIONELLT NEURALT NÄTVERK KATEGORISERAR FASHION MNIST DATASETET WILHELM BRODIN, WILBR797 1.1 Inledning En människas
729G43. Neurala faltningsnät MASKINSYN PÅ SVENSKA VENDELA FOLKER ÅKERLIND
729G43 Neurala faltningsnät MASKINSYN PÅ SVENSKA VENDELA FOLKER ÅKERLIND Innehållsförteckning Bakgrund... 2 Historia... 2 ImageNet... 2 Avgränsningar och språk... 3 Artificiella neurala nät... 3 Tillbakaspridning...
Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar
1 Agenda Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 2 Nuvarande AI Funktioner en grov Analogi Rekommendation,
1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05
1(15) Bilaga 1 2(15) Neuronnätslaboration Räknare Denna laboration riktar sig till gymnasieelever som går en teknisk utbildning och som helst har läst digitalteknik samt någon form av styrteknik eller
med hjälp av Deep Reinforcement Learning
Agent som kan spela Atarispel bättre än människor med hjälp av Deep Reinforcement Learning Sofie Adolfsson, sofad117@student.liu.se Artificiell Intelligens Linköpings Universitet 2017-01-12 SofieAdolfsson
SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. Linköpings Universitet 729G43 Artificiell Intelligens
SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS Oscar Lundblad Osclu399@student.liu.se 2017-01-05 Linköpings Universitet 729G43 Artificiell Intelligens Innehållsförteckning Introduktion 3 Rapportens
2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.
2D1432 Artificiella Neuronnät och andra lärande system Lösningsförslag till Tentamen 2003-03-06 Inga hjälpmedel. Uppgift 1 Vilka av följande påståenden är sanna? Korrigera de som är fel. 1. Potentialen
Bildbehandling, del 1
Bildbehandling, del Andreas Fhager Kapitelhänvisningar till: Image Processing, Analysis and Machine Vision, 3rd ed. by Sonka, Hlavac and Boyle Representation av en bild Så här kan vi plotta en bild tex
Artificiell Intelligens Lektion 7
Laboration 6 Artificiell Intelligens Lektion 7 Neurala nätverk (Lab 6) Probabilistiska resonemang Vad? Mönsterigenkänning Lära ett neuralt nätverk att känna igen siffror Varför? Få ökad förståelse för
Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...
OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet
Personifierad Netflix
Linköpings universitet Personifierad Netflix Lisa Rönnqvist 2016-08-24 Sammanfattning INNEHÅLLSFÖRTECKNING 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Syfte... 2 2. Netflix... Fel! Bokmärket är inte definierat.
Ventilen. Nytt på IT- fronten. System som kan göra intelligenta saker, såsom att efterlikna mänskligt beteende och tänkande
Ventilen Nytt på IT- fronten System som kan göra intelligenta saker, såsom att efterlikna mänskligt beteende och tänkande https://www.youtube.com/watch?v=nfneoooeqx4 https://www.youtube.com/watch?v=nfneoooeqx4
729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion
Sub-symbolisk kognition & Konnektionism. Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén,
Sub-symbolisk kognition & Konnektionism Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén, mats.andren@liu.se 1 Konnektionism Neutrala nät baseras på en (förenklad) modell av hur hjärnan fungerar.
Analys/syntes-kodning
Analys/syntes-kodning Många talkodare bygger på en princip som kallas analys/syntes-kodning. Istället för att koda en vågform, som man normalt gör i generella ljudkodare och i bildkodare, så har man parametrisk
NEURAL MASKINÖVERSÄTTNING
Linköpings universitet 729G43 NEURAL MASKINÖVERSÄTTNING Moa Wallin Inledning Manuell översättning är en mycket tidskrävande process som kräver stor kunskap och bred kompetens och behovet av översättning
Bildförbättring i spatial domänen (kap. 3) Bildförbättring (enhancement) Spatial domän. Operatorer. Tröskling (threshold) Gråskale-transformationer
Bildförbättring i spatial domänen (kap. 3) Punktoperationer Gråskaletransformationer Logiska & aritmetiska operationer Filtrering Faltning Lågpassfilter Högpassfilter Bildförbättring (enhancement) Förbättra
729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581
Fuzzy logic 880328-2535 Innehåll Fuzzy logic... 1 1. Inledning... 4 2. Jämförelse mellan fuzzy logic och tvåvärdeslogik.... 4 3. Fuzzy sets.... 4 4. Linvistiska variabler... 5 5. Operatorer... 5 6. If-
TAOP86/TEN 1 KOMBINATORISK OPTIMERING MED
Matematiska institutionen Optimeringslära TENTAMEN TAOP8/TEN 1 KOMBINATORISK OPTIMERING MED MILJÖTILLÄMPNINGAR Datum: 10 januari 201 Tid: 1.00-19.00 Hjälpmedel: Miniräknare Kurslitteratur: Kaj Holmberg:
Regression med Genetiska Algoritmer
Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet
Modeller och simulering av språkprocessning
Modeller och simulering av språkprocessning Seriell processmodell + parallell processmodell Parallell modell med 2-vägsförbindelser Artificiellt neuralt nätverk (ANN) Interaktiv aktiverings-modell (IAM)
LUNDS UNIVERSITET. Parallell exekvering av Float32 och INT32 operationer
LUNDS UNIVERSITET Parallell exekvering av Float32 och INT32 operationer Samuel Molin Kursansvarig: Erik Larsson Datum 2018-12-05 Referat Grafikkort utför många liknande instruktioner parallellt då typiska
Hur får jag ut kraft och nytta av POWER?
Hur får jag ut kraft och nytta av POWER? TOP 25 ARTIFICIAL INTELLIGENCE SOLUTION PROVIDERS - 2017 Christoffer Göransson 0733-408700 Christoffer.goransson@inoviagroup.se Agenda Kort om oss Inovia/AI Hur
Ljudinteraktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper
Ljudinteraktion Innehåll och mål Om ljudinteraktion Lite om virtuellt 3D-ljud Tips och trix Mål: att ni ska få verktyg att resonera om ljudinteraktion, samt få lite exempel Vad är ljud? Ljud är kombinationen
Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare
Prediktiv kodning Linjär prediktion Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen
Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...
OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet
Artificiell Intelligens den nya superkraften
Artificiell Intelligens den nya superkraften Socialchefsdagarna, 4 oktober 2018 #CGINext Artificiell Intelligens Förmågan hos mjukvara att agera självständigt på ett intelligent sätt tidigare bara associerat
TEM Projekt Transformmetoder
TEM Projekt Transformmetoder Utförs av: Mikael Bodin 19940414 4314 William Sjöström 19940404 6956 Sammanfattning I denna laboration undersöks hur Fouriertransformering kan användas vid behandling och analysering
Fuzzy Logic: Den oskarpa skarpheten
Fuzzy Logic: Den oskarpa skarpheten Av: 1 Innehåll Inledning... 3 Vad är Fuzzy Logic?... 4 Fuzzy sets... 4 Medlemsskapsfunktion... 5 Operatorer... 7 Union... 7 Snitt... 8 Komplement... 8 Exempel med de
Min syn på koncepthantering generering och utvärdering
Min syn på koncepthantering generering och utvärdering Linus Granström KN3060, Produktutv. med formgivning Mälardalens högskola 2007-04-25 Inledning Denna essä beskriver författarens syn på de steg i produktutvecklingsprocessen
Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping
Fuzzy Logic När oskarpa definitioner blir kristallklara Linköpings Universitet Linköping Sammanfattning I denna fördjupningsuppgift har jag fokuserat på Fuzzy Logic och försökt att beskriva det på ett
HKGBB0, Artificiell intelligens
HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.
En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen
Prediktiv kodning Närliggande sampel i en signal är oftast starkt korrelerade med varandra, det kan därför vara en bra ide att försöka utnyttja denna korrelation (minnet) innan kvantiseringen för att få
Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen
Registerforskning 2018 17 Oktober 2018, Stockholm City Conference Centre Möjligheter med Artificiell Intelligens inom registerforskningen Peter Funk Mälardalens Högskola Vem är Peter Funk? Artificiell
Ansiktsigenkänning med MATLAB
Ansiktsigenkänning med MATLAB Avancerad bildbehandling Christoffer Dahl, Johannes Dahlgren, Semone Kallin Clarke, Michaela Ulvhammar 12/2/2012 Sammanfattning Uppgiften som gavs var att skapa ett system
Datalogiskt tänkande för alla
Datalogiskt tänkande för alla Fredrik Heintz, IDA fredrik.heintz@liu.se @FredrikHeintz Linda Mannila linda.mannila@abo.fi @lindamannila Software is eating the world Trends AI och Autonoma System redan
Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692
Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...
Vinjetter TDDC91 Datastrukturer och algoritmer
Vinjetter TDDC91 Datastrukturer och algoritmer 17 augusti 2015 2 Scenario 1 Man har inom Posten Logistik AB skrivit programvara för sortering av kundinformation och vill standardisera användningen av sorteringsalgoritmer.
TAOP33/TEN 2 KOMBINATORISK OPTIMERING GRUNDKURS för D och C. Tentamensinstruktioner. När Du löser uppgifterna
Matematiska institutionen Optimeringslära TENTAMEN TAOP/TEN KOMBINATORISK OPTIMERING GRUNDKURS för D och C Datum: juni 0 Tid:.00-9.00 Hjälpmedel: Miniräknare Kurslitteratur: Kaj Holmberg: Optimering. Kaj
Bildbehandling i frekvensdomänen
Uppsala Tekniska Högskola Signaler och system Handledare: Mathias Johansson Uppsala 2002-11-27 Bildbehandling i frekvensdomänen Erika Lundberg 800417-1602 Johan Peterson 790807-1611 Terese Persson 800613-0267
3.0. Tips och Trix Sida 1 av 18
3.0 https://beta.scratch.mit.edu/ Tips och Trix 2018-08-31 Sida 1 av 18 Innehåll Starta nytt program 3 Scenens koordinatsystem 3 Centrumpunkt / rotationspunkt 4 Sprajtens inställningar 5 Placering i Z-led
Projekt 2 (P2) Problembeskrivning och uppdragsspecifikation
Projekt 2 (P2) Problembeskrivning och uppdragsspecifikation Projekt 2 Möjligheter/Problem med 2-dimensionella mätdata Uppstart: Se planen (kursens hemsida) Etapp 1 Mätdata i 2 dimensioner behöver utredas/signalbehandlas
Föreläsning 3.1: Datastrukturer, en översikt
Föreläsning.: Datastrukturer, en översikt Hittills har vi i kursen lagt mycket fokus på algoritmiskt tänkande. Vi har inte egentligen ägna så mycket uppmärksamhet åt det andra som datorprogram också består,
Algoritmer och maskininlärning
Algoritmer och maskininlärning Olof Mogren Chalmers tekniska högskola 2016 De här företagen vill Tjäna pengar Hitta mönster i stora datamängder Göra förutsägelser Klassificera data Förstå människan Maskininlärning
Kandidatuppsats. Jämförelse mellan neurala nätverk baserad AI och state-of-the-art AI i racing spel. Simon Karlsson, Christopher Jensen
Kandidatuppsats Jämförelse mellan neurala nätverk baserad AI och state-of-the-art AI i racing spel Simon Karlsson, Christopher Jensen Sammanfattning Denna rapport jämför prestandan mellan state-of-the-art
Linköpings universitet
Översikt Kognitionsvetenskaplig introduktionskurs Föreläsning 4 Informationsbearbetningsmodeller Vad är kognitionsvetenskap? Kort bakgrund/historik Representation och bearbetning av information Vetenskapliga
Visualisering av samverkan
Visualisering av samverkan 18 december 2017 En viktig aspekt i samverkan är att inte bara ha koll på vilka andra aktörer du själv samverkar med, utan även veta om vilka aktörer du inte samverkar med, men
de var svåra att implementera och var väldigt ineffektiva.
OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan
Ett enkelt OCR-system
P r o j e k t i B i l d a n a l y s Ett enkelt OCR-system av Anders Fredriksson F98 Fredrik Rosqvist F98 Handledare: Magnus Oskarsson Lunds Tekniska Högskola 2001-11-29 - Sida 1 - 1.Inledning Många människor
Signalbehandling Röstigenkänning
L A B O R A T I O N S R A P P O R T Kurs: Klass: Datum: I ämnet Signalbehandling ISI019 Enk3 011211 Signalbehandling Röstigenkänning Jonas Lindström Martin Bergström INSTITUTIONEN I SKELLEFTEÅ Sida: 1
Fakta om robotar VAD HANDLAR BOKEN OM? LGR 11 CENTRALT INNEHÅLL SOM TRÄNAS ELEVERNA TRÄNAR FÖLJANDE FÖRMÅGOR. Lärarmaterial EVA MOSEGAARD AMDISEN
SIDAN 1 Lärarmaterial VAD HANDLAR BOKEN OM? I boken får vi en presentation av robotar. Det finns många olika sorters robotar med olika funktioner och utseende. Det som alla robotar har gemensamt är att
Extramaterial till Matematik X
LIBER PROGRMMERING OCH DIGITL KOMPETENS Extramaterial till Matematik X NIVÅ TRE Programmering LÄRRE I den här uppgiften får du och dina elever en introduktion till programmering. Uppgiften vänder sig först
FUZZY LOGIC. Christopher Palm chrpa087
FUZZY LOGIC 900223-1554 Innehållsförteckning INLEDNING...2 HUR DET FUNGERAR...3 Crisp Sets och Fuzzy Sets...3 Operatorer...5 IF THEN regler...7 FUZZY INFERENCE...7 Fuzzification...8 Regelsättning...8
Dependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Bildmosaik. Bilddatabaser, TNM025. Anna Flisberg Linne a Mellblom. linme882. Linko pings Universitet
Bildmosaik Bilddatabaser, TNM025 Linko pings Universitet Anna Flisberg Linne a Mellblom annfl042 linme882 28 maj 2015 Innehåll 1 Introduktion 2 2 Metod 2 2.1 Features..............................................
Turingmaskinen - en abstrakt datormodell
Turingmaskinen - en abstrakt datormodell Modeller är viktiga hjälpmedel vid studiet av många fenomen. En bra modell fyller oftast följande krav: Den fångar upp det centrala i sin fysiska motsvarighet Den
SELF- ORGANIZING MAPS
LINKÖPINGS UNIVERSITET Kognitionsvetenskapliga Programmet Examinator: Arne Jönsson SELF- ORGANIZING MAPS - Ett fördjupningsarbete inom Artificiell Intelligens Fack 52 katwa676@student.liu.se Sammanfattning
Tentamen Bildanalys (TDBC30) 5p
Tentamen Bildanalys (TDBC30) 5p Skrivtid: 9-15 Hjälpmedel: kursboken Digital Image Processing Svara på alla frågor på nytt blad. Märk alla blad med namn och frågenummer. Disponera tiden mellan frågorna
Vektorer, matriser, nätverk - några elementa
Vektorer, matriser, nätverk - några elementa Innehåll: Vektorer Radvektorer och kolumnvektorer Operationer med vektorer Input- och outputvektorer i neurala nätverk Utvikning om kompetitiva nät Matriser
Signaler och system, IT3
Signaler och system, IT3 Vad är signalbehandling? 1 Detta dokument utgör introduktionsföreläsningen för kursen Signaler och system för IT3 period 2. Kursen utvecklades år 2002 av Mathias Johansson. 1 Vad
Magnus Nielsen, IDA, Linköpings universitet
Föreläsning 7 Introduktion till sortering TDDC91,TDDE22,725G97: DALG Utskriftsversion av föreläsning i Datastrukturer och algoritmer 24 september 2018 Magnus Nielsen, IDA, Linköpings universitet 7.1 1
Ljud och interaktion. Kirsten Rassmus-Gröhn, Avd. för Rehabiliteringsteknik, Inst. för Designvetenskaper
Ljud och interaktion Innehåll och mål Om ljud och hörsel Om ljudinteraktion Lite om virtuellt 3D-ljud Tips och trix Mål: att ni ska få verktyg att resonera om ljudinteraktion, samt få lite exempel Ljudet
Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011
Linköpings universitet Artificiell intelligens II HT 2011 Case-based resoning och dess användning inom sjukvården Sammanfattning Det här arbetet handlar om vad case-based resoning är, hur den funkar, vilka
Roboten. Sida 1 av 11
EV3 ipad Roboten Fyra output portar A,B,C och D(motorer) Fyra input portar 1,2,3 och 4 (sensorer) USB, Bluetooth, eller Wi-Fi koppling 16 MB flash minne 64 MB RAM SD Card Port: 32 GB Flera inbyggda verktyg
Autonoma Styrsystem. Fördjupningsarbete inom Artificiell Intelligens. Linköpings Universitet Artificiell Intelligens 729G11 2008-09-09
Linköpings Universitet Artificiell Intelligens 729G11 Autonoma Styrsystem Fördjupningsarbete inom Artificiell Intelligens 2008-09-09 Dennis Eng 860226-0070 Innehåll Sammanfattning... 2 Bakgrund... 3 Projekt
Kodning av ansiktstextur med oberoende komponenter
Kodning av ansiktstextur med oberoende komponenter Jörgen Ahlberg Report no. LiTH-ISY-R-2297 ISSN 1400-3902 Avdelning, Institution Division, department Datum Date Image Coding Group 2000-10-02 Department
Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.
OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet
ANN fk. Örjan Ekeberg. Framåtkopplade Nät. återkopplade nät. Olika arkitekturer. BackPropagation through Time. Kalman-Filter tekniker
Hantering av Tid Återkopplade Återkopplade Återkopplade t Återkopplade Återkopplade Temporala signaler är svåra Gör om temporal signal till spatial t 1 t 2 t 3 t 4 Återkopplade t Enklaste formen Neuronal
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Algoritmer, datastrukturer och komplexitet
Algoritmer, datastrukturer och komplexitet Övning 10 Anton Grensjö grensjo@csc.kth.se 9 november 2017 1 Idag En konstruktionsreduktion Fler bevis av NP-fullständighet 2 Teori Repetition Ett problem tillhör
Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät
Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem
SLUTRAPPORT: TEXAS HOLDEM 4 FRIENDS
SLUTRAPPORT: TEXAS HOLDEM 4 FRIENDS Individuellt Mjukvaruutvecklingsprojekt (Utvecklare av digitala tjänster) Den 1 juni 2011 ABSTRAKT Rapporten tar upp positiva och negativa erfarenheter som jag erhållit
Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Data Data Data Data Data Data Data Data
Datahantering i Excel Grundbegrepp I alla typer av databaser finns alltid en tabell där informationen i databasen fysiskt finns lagrad. Tabellen har samma enkla uppbyggnad som en tabell i ordbehandlingsprogrammet
Vindkraft och ML. - hur kan vindkraft dra nytta avml
Vindkraft och ML - hur kan vindkraft dra nytta avml AI och ML Intelligens: förmågan att utnyttja kunskap för att bättre lösa en klass av uppgifter Lärande: förmågan att förbättra sin förmåga att lösa uppgifterna
DEEP LEARNING I STARCRAFT 2 AUTOENCODERS FÖR ATT FÖRBÄTTRA END-TO-END LEARNING
DEEP LEARNING I STARCRAFT 2 AUTOENCODERS FÖR ATT FÖRBÄTTRA END-TO-END LEARNING Examensarbete Systemarkitekturutbildningen Victor Frick Kristoffer Mattsson VT 2018:KSAI04 Systemarkitekturutbildningen är
Ansiktsigenkänning. Anna Ericsson Linköpings Universitet Linköping
Ansiktsigenkänning Anna Ericsson Linköpings Universitet Linköping 2011-09-18 Innehållsförteckning Sammanfattning... 1 Introduktion... 2 Ansiktsigenkänning med Eigenfaces... 3 Eigenfaces steg för steg...
729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna
Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.
OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet
Här är två korta exempel på situationer då vi tillämpar den distributiva lagen:
Modul: Algebra Del 8: Avslutande reflektion och utvärdering Distributiva lagen Cecilia Kilhamn, Göteborgs Universitet Distributiva lagen a (b + c) = a b + a c Den distributiva lagen kallas den räknelag
Fingerprint Matching
Fingerprint Matching Björn Gustafsson bjogu419 Linus Hilding linhi307 Joakim Lindborg joali995 Avancerad bildbehandling TNM034 Projektkurs Biometri 2006 1 Innehållsförteckning 1 Innehållsförteckning 2
+5V. start. Styrsystem. stopp. Tillståndsmaskiner
Tillståndsmaskiner Beteendet hos en stor klass av tekniska system kan beskrivas, modelleras, med tillståndsmaskiner. En tillståndsmaskin är en sekvens av tillstånd som beror av händelser och som ger olika
Optimering. Optimering av transportproblem. Linköpings universitet SL. Campusveckan VT2013
Optimering Optimering av transportproblem Campusveckan VT2013 Linköpings universitet SL 1 Optimering - Distributionsproblem Företaget Kulprodukter AB producerar sina kulor vid fyra olika fabriksanläggningar
Artificiell Intelligens Tekniker: Styrkor och Fallgropar
Artificiell Intelligens Tekniker: Styrkor och Fallgropar Docent Anne Håkansson Programvaruteknik och Datorsystem, KTH Epost: annehak@kth.se 2017 Anne Håkansson All rights reserved. Forskning i AI 1993-
Installera Anaconda Python
Maskininlärning Installera Anaconda Python Nummergisslek Vi ska bygga ett litet program, RIDER, som ska gissa vilket nummer som du tänker på. Reglerna är att du tänker på ett heltal mellan 1 och 100. RIDER
Tentamensinstruktioner. När Du löser uppgifterna
Matematiska institutionen Optimeringslära TENTAMEN TAOP/TEN OPTIMERING FÖR INGENJÖRER för M/EMM Datum: 29 maj 20 Tid:.00-.00 Hjälpmedel: Miniräknare Kurslitteratur: Kaj Holmberg: Optimering Anteckningar
Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2
Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok,
Laboration 4: Digitala bilder
Objektorienterad programmering, Z : Digitala bilder Syfte I denna laboration skall vi återigen behandla transformering av data, denna gång avseende digitala bilder. Syftet med laborationen är att få förståelse
Artificial)Intelligence) Taligenkänning)
LINKÖPINGS)UNIVERSITET) Artificial)Intelligence) Taligenkänning)! Adam%Annerhult% 2012009017%! Contents' ' ) ) ) ) ) Inledning... 3! Så fungerar taligenkänning... 4! Grundläggande egenskaper i ett taligenkänningsprogram...
TAOP88/TEN 1 OPTIMERING FÖR INGENJÖRER
Matematiska institutionen Optimeringslära TENTAMEN TAOP/TEN OPTIMERING FÖR INGENJÖRER Datum: juni 0 Tid:.00-.00 Hjälpmedel: Miniräknare Kurslitteratur: Kaj Holmberg: Optimering Anteckningar i boken får
Uppgift 1 ( Betyg 3 uppgift )
2009-12-16.kl.14-19 Uppgift 1 ( Betyg 3 uppgift ) Skriv funktionen create_diagonal som tar emot de två parametrarna R och N. R markerar hur många rader den resulterande matrisen skall få och N markerar
Så här gör du. om du vill genomföra en framgångsrik innovationstävling
Så här gör du om du vill genomföra en framgångsrik innovationstävling Det här materialet hjälper er att planera och sätta förutsättningarna för att driva kampanjer, antingen en eller regelbundet. Ibland