IBM Watson - vad är DeepQA?

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "IBM Watson - vad är DeepQA?"

Transkript

1 Tove Pettersson, Artificiell Intelligens Linköpings Universitet 2018 IBM Watson - vad är DeepQA? -En fördjupning inom Watsons arkitektur inför och under Jeopardy-utmaningen

2 Sammanfattning IBM Watson var den första datorn som besegrade människan i ett frågespel helt baserat på ostrukturerad data i form av naturligt språk. Genom kognitiva beräkningsmetoder (eng. cognitive computing) skapades den arkitektur som användes för jeopardy-utmaningen, så kallad deepqa. Denna arkitektur är komponerad av djup inlärning (deep learning) och artificiella neurala nätverk som tillsammans gör det möjligt att bearbeta naturligt språk, generera och värdera hypoteser och utveckla sina kunskaper. Egenskaper som i sin tur möjliggör ett vinnande koncept i Jeopardy. Nyckelord: Kognitiva beräkningsmetoder (eng. cognitive computing), IBM Watson, DeepQA 1

3 Sammanfattning Inledning Avgränsning Bakgrund Jeopardy-utmaningen Questioning answering DeepQA Kognitiva beräkningsmetoder Artificiella neurala nätverk Bearbetning av naturligt språk Regelbaserad djupanalys Klassificeringsmetod Hypotesgenerering och värdering Hypotesgenerering Värdering Resonerande Svarsgenerering Komponenternas samverkan Sammanfattning Diskussion Slutsats Referenser

4 1. Inledning Artificiell intelligens har de senaste 20 åren tagit sig långt och genererat en stor utveckling. För många inom branschen är drömmen en dator som kan tänka som en människa och den drömmen är kanske inte så långt borta gjordes ett stort framsteg då de dåvarande mästarna i Jeopardy besegrades av IBM s stora satsning, Watson, som då tog över mästartiteln (IBM, 2015). Watson är en så kallad superdator som skapades i detta syfte trots att många trodde att det inte skulle vara möjligt. För att få Watson att vinna krävdes givetvis att han svarade rätt på frågorna och för att göra detta krävdes även att han förstod frågan och utifrån sin förståelse kunde generera ett korrekt svar. För att göra detta ställdes ett antal krav på Watson som många AI-forskare trodde var ouppnåeliga. Så hur lyckades IBM med denna enorma utmaning? Hur fungerar arkitekturen bakom Watson? Vad är DeepQA? 2. Avgränsning Med tanke på Watsons komplexitet så finns det i stort sett ingen gräns för hur djupt ner i komplexiteten man kan gå. I denna rapport kommer alltså en avgränsning att göras där endast deepqa, den huvudsakliga och övergripande strukturen och idén bakom Watson, kommer att analyseras. Så i åtanke bör finnas att IBM Watson är mer komplex än vad som framgår i denna rapport, så även DeepQA-arkitekturen. Fokus kommer även att ligga på hur Watson skapades specifikt för Jeopardy-utmaningen även om utvecklingen kring Watson har kommit långt sedan dess. I Jeopardy är frågorna formulerade som svar och svaret är i själva verket en fråga. Men när ordet fråga används i denna text så syftar det till det givna och när ordet svar används så hänvisar det till det som skall genereras. 3. Bakgrund 3.1 Jeopardy-utmaningen International Business Machines Corporation (IBM) är ett amerikanskt företag med anställda över hela världen. Till sitt hundraårsjubileum letade företaget efter en utmaning som skulle imponera inte bara inom branschen utan även häpna allmänheten. Jeopardy var ett mycket populärt tv-program i USA och en seger i Jeopardy var förknippat med prestige och intelligens, vilket gjorde Jeopardy till det självklara valet till utmaningen; att bygga och programmera en dator som kunde besegra de dåvarande Jeopardy-mästarna. Reglerna i Jeopardy gör att rätt svar måste genereras under vissa omständigheter: en tidsaspekt där deltagaren endast har 30 sekunder på sig att svara, en värdering av hur säker deltagaren är på sitt svar då fel svar ger minuspoäng samt en precision i svaret för att det ska vara korrekt (AI Magazine, 2017). En analys av mästarnas prestationer i Jeopardy visade att för att vinna krävs 3

5 det att man svarar på 70% av frågorna och att frågorna måste besvaras med en säkerhet på över 80% samt inom en tidsram på endast 3 sekunder för att vara först på knappen och tilldelas turen att svara. För att få Watson att vinna gällde det även att utnyttja egenskaper som datorer generellt sett är bättre på än människor. Datorer (eng. computer) har fått sitt namn efter just vad de är bra på och vad de ursprungligen skapades och användes för; beräkningar. Datorer är experter på matematiska beräkningar och de klarar av att lösa flera långa matematiska problem på några få sekunder (AI Magazine 2017). Detta markerar en stor skillnad mellan människa och dator då ett matematiskt problem så som 6578/276 x 963+(32 x ) inte är någon svårighet alls för en dator att beräkna medan det för en människa kan komma att kräva en lång beräkningstid för att få fram rätt svar, om denne ens klarar av att få fram rätt svar. Datorernas beräkningsegenskaper kan utnyttjas i Jeopardy där det är extra lönsamt att hitta Daily-double-frågorna som finns någonstans i kategorierna (Tesauro, 2015). Detta kan ge en mycket hög vinst genom att satsa högt och svara rätt. Det man sett är att människor tenderar att ta det säkra före det osäkra och därmed inte utnyttja dessa chanser optimalt. Man väljer en liten insats som känns rimlig för att inte riskera att förlora de poäng man samlat ihop. Det datorer kan göra vilket Watson utnyttjar är först och främst att utföra beräkningar av vart Daily-Double-frågorna mest sannolikt befinner sig och hela tiden välja kategorier för att hitta dessa. Samt när Watson får chansen till en daily-double så utförs beräkningar för att Watson ska veta exakt hur mycket han bör satsa. Så istället för att satsa en liten summa där en förlust eller vinst knappt påverkar så beräknar Watson sin insats genom att multiplicera sannolikheten att svaret är rätt med den poängsumma som ett rätt svar skulle generera adderat med samma formel för fel svar. Detta gör att Watson mer precist än människor kan avgöra hur mycket som är optimalt att satsa utifrån sin säkerhet inom kategorin och sina tidigare vinster. I Jeopardy är bredden av frågor väldigt stor vilket gör att även om man skulle försöka programmera in svaret på specifika frågor som kan förekomma i spelet så skulle detta inte ens täcka 1% av de faktiska frågorna (Ferrucci, 2010). Därför är Watson inte baserad på återkallning (eng. recall) på så vis att varje fråga är ihopkopplad med rätt svar utan Watson måste istället själv kunna dra slutsatser och kopplingar som letar fram det rätta svaret utifrån sin kunskapsbas. Efter att ha matats med information från tillgänglig och relevant data hämtat från webben så ger Watsons kunskapsbas tillgång till en informationsmängd som kan likställas med den av 1 miljon böcker (Spangler, 2011). 4

6 Frågorna som förekommer i Jeopardy är oftast inte av matematisk svårighetsgrad där regler kan härleda rätt svar. Detta hade inte varit en utmaning för en dator då de som tidigare nämnt är skapade för denna typ av problem. Istället är de typiska Jeopardy-frågorna av språklig men framförallt kunskapsmässig svårighet vilket sätter människans intelligens på prov. För Watson innebar en av de största utmaningarna att få en dator att klara av att bearbeta naturligt språk på samma sätt som människan (IBM, 2015). När vi människor dagligen hanterar språk så har vi lärt oss och vet att enskilda ord inte alltid betyder samma sak när de sätts i kontext och bildar meningar. En mening kan ha en egen betydelse där det krävs att läsa mellan raderna för att verkligen förstå meningens betydelse. Bara en sådan fras som just att läsa mellan raderna har en annan semantisk innebörd än det som explicit uttrycks. Att lära Watson detta innebar en stor utmaning. Att inte bara skapa en förståelse för enskilda ord utan en djupare förståelse där meningar faktiskt analyseras och relationer mellan ord skapas (Spangler, 2011). Denna språkliga utmaning för Watson var en av anledningarna till varför Jeopardy valdes som utmaning men också för att spelet kräver kunskaper av Watson som skulle kunna komma att användas för att ta fram information ur ostrukturerad data även i framtida projekt och därmed öppna upp nya möjligheter inom artificiell intelligens (Ferrucci, 2010). 3.2 Questioning answering Question Answering-system (QA-system) innebär att ledtråden till vad som söks är en fråga och svaret är en relativt kort mening eller ord (Russell & Norvig, 2016). QA har varit en populär domän sedan 60-talet men det var först när man anslöt sig till webben och sökte information där som man fick den bredd av data som krävdes för att utveckla metoderna inom QA ytterligare. ASK MSR är ett exempel på ett webbaserat QA-system. Metoden som används i ASK MSR behandlar inte själva framplockningen av data (eng. recall) utan snarare precisionen i svaret och måste därför veta vad den söker efter. Detta görs genom ledtrådar i frågan - vem, var, varför, hur eller vad som efterfrågas. Metoden börjar dock med att ta fram de mest frekventa ord som förekommer i samband med andra ledtrådar i frågan genom att först omformulera frågan, vilket innefattar att på så många olika sätt som möjligt kombinera de befintliga orden i meningen och söka efter dessa olika formuleringar. Den mening med flest matchningar värderas högst och är den som väljs ut för nästa bearbetningsfas. Man räknar med att svaret finns någonstans i denna meningen men även delar av frågan eller andra, för svaret, irrelevanta delar. Eftersom metoden utifrån frågeordet tagit fram vad som efterfrågas, ett nummer, ett namn, en plats osv. så undersöker metoden meningen och plockar bort de ordklasser som inte stämmer överens med det efterfrågade ordets typ samt ord som 5

7 finns med i frågan eftersom man räknar med att svaret inte bör finnas i den. Efter denna filtrering bör svaret vara genererat. Bristerna med ASK MSR och många andra tidiga metoder inom QA-arkitekturen i allmänhet är att de inte kan härleda synonymer till varandra så som killed till ended the life of utan istället litar på att den data den kan tillgodose sig själv via webben har tillräcklig bredd för att ge svar på frågan utan mer komplexa omformuleringar och analyser. I Jeopardy kan en metod med sådana brister inte användas vilket var anledningen till att IBM teamet utvecklade deepqa (IBM, 2011). 4. DeepQA Den arkitektur som Watson använder för att utföra Jeopardy-utmaningen och generera rätt svar är så kallad deep question-answering (deepqa) (High, 2012). Denna arkitektur var en förbättring av tidigare existerande metoder eftersom den utför en djupare analys av det naturliga språket. När Watson får en fråga måste denna först tolkas och förstås för att sedan söka i kunskapsbasen efter det rätta svaret. Kunskapsbasen består av allt som Watson har läst och analyserat vilket innefattar miljontals dokument och böcker som strukturerats i en sammankopplad kunskapsrepresentation. För att Watson sedan ska hitta det rätta svaret värderas olika alternativ och svarets konfidens, precis som övriga metoder inom QA (Ferrucci, 2010). När Watson tror sig ha ett svar meddelar han detta samt styrkan i hur säker han är på att det svar han kommit fram till är korrekt. Detta är extra viktigt i ett spel som Jeopardy där ett felaktigt svar genererar minuspoäng för den tävlande. DeepQA var inte en ny revolutionerande metod utan snarare en kombination av redan existerande metoder och det är denna kombination som gör DeepQA unik (High, 2012). Metoden bygger på kognitiva beräkningsmetoder (eng. Cognitive computing) som är en kombination av djup inlärning (eng. deep learning) och artificiella neurala nätverk. 4.1 Kognitiva beräkningsmetoder Artificiella neurala nätverk Ett artificiellt neuralt nätverk (ANN) strävar att efterlikna den mänskliga biologiska inlärningsprocessen genom att inspireras av hjärnans funktion och uppbyggnad (Ha, 2010). Dessa nätverk kan tränas till klassificering genom återkoppling på det resultat som nätet genererat med hjälp av metoder så som gradient-backpropagation. Klassificeringsmetoden kan förenklas och förklaras med följande exempel (Bakshi, 2015). Låt oss säga att modellen 6

8 matas med en mängd olika namn som den får reda på om det är pojk- eller flicknamn. Modellen registrerar namnet samt dess klassificering som i detta fallet blir just vilken typ av namn det är. Det krävs en mycket stor träningsmängd för att modellen utifrån denna ska kunna lära sig och se samband och mönster mellan pojk- och flicknamn. När modellen läst och analyserat en tillräckligt stor träningsmängd så introduceras testdata. Testdatan består av en mängd nya namn som inte inkluderats i träningsmängden. Genom de tidigare träningsanalyserna har modellen erhållit kunskaper och mönster som gör att den med viss sannolikhet kan avgöra om dessa nya namn mest sannolikt är pojk- eller flicknamn, baserat på alla hittade mönster. ANN kan användas till betydligt svårare uppgifter och är exempelvis mycket vanligt inom NLP (Natural language processing). Där framförallt Recurrentnätverk (eng. Recurrent neural network)(rnn) är den vanligaste typen av nätverk. RNN kan nå information åt båda hållen samt åt sidan mellan de olika nivåerna och därmed kan ett sådant nätverk både bevara och bearbeta information samtidigt. I DeepQA används en specifik variant av RNN som kallas bigru-nätverk (eng. bidirectional gated recurrent units). Det speciella med dessa är att två stycken GRU samverkar för att få fram en sekvens av dolda tillstånd (eng. Hidden states) för varje ord (Paddle, u.å). En av dessa är en framåtriktad GRU medan den andra är bakåtriktad. Det sammanslagna resultatet av dessa två ger värdet av denna sekvens (hi). Resultatet av framåtriktad GRU där nätverket endast går åt ett håll: (h1,h2,,ht ) Resultatet av bakåtriktad GRU där nätverket kan komma åt tidigare information: (h1,h2,,ht ) Summan av dessa ger den dolda sekvensen: hi=[hti,hti ]T Detta gör att i ett bigru-nätverk så beror nuvarande input och output av både tidigare men också kommande input och output (Britz, 2015). Inom NLP är detta till stor nytta då ett ord kräver kontext. Om input i ett bigru-nätverk är ett ord så är det därför viktigt att ta hänsyn till både ord som varit framför men också de ord som kommer efter. 4.2 Bearbetning av naturligt språk Det viktigaste inom både QA och DeepQA är bearbetningen och tolkningen (eng. parsing) av det naturliga språket (High, 2012). En ytlig variant av bearbetning av naturligt 7

9 språk (eng. shallow natural language processing) är en relativt enkel och effektiv metod som använts länge inom AI. Där letar man efter exakta kombinationer av ord för att tolka betydelsen av en mening. Vilket fungerar bra i många sammanhang som till exempel simpla röststyrningsfunktioner i en telefon men ibland blir det problematiskt. Metoden klarar av att tolka uppmaningar såsom ring till Olle men inte ring till Olle imorgon eller ring till Olle och Kajsa då de två sistnämnda meningarna även dessa kommer att tolkas som ring till Olle. Vid ytlig bearbetning tar man alltså ingen som helst hänsyn till vilken kontext dessa kombinationer är placerade i utan när kombinationen hittas antas uppmaningen vara hittad. Watson kräver en bättre analys- och bearbetningsmetod för att inte begå misstag som dessa under Jeopardy och därför använder Watson istället en så kallad djup bearbetning av naturligt språk (eng. deep natural language processing). Frågorna i Jeopardy är ofta långa och komplicerade på så vis att de innehåller delfrågor som först måste besvaras för att dels kunna förstå frågan fullt ut samt för att kunna besvara den (Ferrucci et al., 2010). Därför är uppdelningen av frågan (eng. decomposition) samt hur denna uppdelning skall ske en mycket viktig del av processen och första steget i bearbetningen. De metoder som Watson använder för uppdelningen är regelbaserad djupanalys (eng. rule-base deep parsing) som innebär att bryta ner en mening utifrån grammatiska regler och statistiska klassificeringsmetoder (eng. statistical classification methods) som kontrollerar om ett objekt hör till en specifik kategori Regelbaserad djupanalys Att Watson förstår frågan grundligt och precist är ett krav för att kunna besvara den. Den regelbaserade djupanalysmetoden som Watson använder för att dela upp frågan i ord och reda ut relationerna mellan dem är uppbyggd av två komponenter, ESG (English Slot Grammar) och PAS (Predicted Argument Structure) som tillsammans tar fram hypoteser (McCord, M. C., Murdock, J. W. & Boguraev. B. K., 2012). ESG är en språklig analysmetod med syfte att spåra samband via grammatiska regler vilket görs i fem olika steg. Dessa steg är tokenisering, segmentering, morfologisk analys och syntaktisk analys. ESG innehåller därför en mängd universella regler inom språk kombinerat med en mängd specifika regler inom det engelska språket och med hjälp av dessa regler analyseras text. Dessa regler är betydligt mer djupgående till skillnad från den förenklade varianten som PAS använder sig av. Detta eftersom PAS endast är till för att urskilja de stora skillnaderna och inte detaljer som ESG istället tillhandahåller. 8

10 Watson detekterar både semantiska och syntaktiska relationer mellan ord och skapar i och med detta nyckelord (McCord et al. 2012). Denna strategi bygger bland annat på PAS och används genom hela processen då ett svar ska genereras. Genom att utgå från föregående process och det resultat som ESG ger upphov till så analyseras och förenklas relationerna mellan meningar med hjälp av strategier från PAS Klassificeringsmetod Watson använder reglerna från djupanalysen för att klassificera ord genom klassificeringsmetoder för naturligt språk (eng. natural language classifier). Genom dessa kan Watson få fram vilken typ av svar som förväntas och vilken typ av ord detta är. Även frågan klassificeras för att ta reda på vilken typ av fråga det är och hur denna fråga ska bearbetas. Detta görs genom att se mönster utifrån tidigare frågor och svar. Watson får fram ordklasser och vilken roll varje ord har i den specifika meningen samt vilka ord eller delar av meningen som är i behov av extra bearbetning (Ferrucci et al., 2010). Detta är exempelvis ord som kan ha flera betydelser, utstickande syntax eller semantik eller fraser som får en retorisk innebörd för övriga fraser i meningen. Den del av meningen som är allra viktigast för Watson att analysera är den del som används för att bygga hypoteser. 4.3 Hypotesgenerering och värdering Efter att ha bearbetat frågan så genereras även hypoteser genom att möjliga svar återkopplas till den ursprungliga frågan vilket skapar en hypotes (High, 2012). Varje sådan hypotes värderas sedan genom att exempel stärker eller försvagar hypotesens trovärdighet genom synonyma meningar eller motsägelser. Denna metod kallas SER (Supporting Evidence Retrieval) (Murdock J. W., Fan, J., Lally, A., Shima, H & Boguraev, B. K., 2012) och utförs bland annat via resonemangs-algoritmer (eng. reasoning algorithms) som utför hundratals matchningar för varje hypotes (Ferrucci, 2010) Hypotesgenerering I denna del av processen tas en mängd olika svarsalternativ fram och här är det viktigt att alla möjliga svarsalternativ finns med och får en chans att värderas senare i processen (Devoxx, 2016). Om det korrekta svaret inte finns med i den mängd som Watson värderar är det inte möjligt för honom att få fram svaret. Därför görs en första sökning genom återkallning (eng. recall) med syfte att ta fram en så stor mängd med möjliga svar som 9

11 möjligt utifrån de krav som framkommit under analysen av frågan i det första steget. Den första sökningen består dock av flera delsökningar där olika sökstrategier letar parallellt i sökrymden. Bland denna mängd finns flera olika alternativa svarsalternativ som ska hittas och senare måste värderas. Men innan dess kopplas svarsalternativen ihop med frågan och bildar därmed en hypotes. Exempelvis, denna stad är Sveriges huvudstad som skapar påståendet Stockholm är Sveriges huvudstad när man byter ut denna stad mot svaret. Genom att generera flera sådana hypoteser, en för varje möjligt svar, så kan dessa sedan matchas med den kunskapsbas Watson har. Fler matchningar genererar en högre poäng och trovärdighet för hypotesen i enlighet med RES. Meningar som dessa gör även att Watson kan precisera till att endast söka efter det som efterfrågas, i detta fall städer, mer specifikt huvudstäder. Vid frågor som denna är svaret ett så kallat LAT-exempel (eng. Lexical answer type) där svarets ordtyp finns givet i frågan. Watson måste alltså ha gjort kopplingar så att han har kunskap om vad en stad är för något. Detta görs bland annat genom att detektera relationer mellan ord (eng. relation detection). Utifrån sin kunskapsbas så detekteras säkerheten för att ett framtaget möjligt svar faktiskt är det som efterfrågas, i detta fallet en stad. Watson gör detta genom att skapa mellanliggande hypoteser (eng. intermediate hypothesis) där olika möjliga svarsalternativ jämförs med det som söks i frågan och beräkna säkerheten för att detta stämmer och alltså att relationen mellan orden är riktig. Nedan visas exemepel på mellanliggande hypoteser utifrån tidigare exempelfråga. - är ( Stockholm, stad ) = är ( Malmö, stad ) = är ( Göteborg, stad ) = 0.2 De statistiska klassificeringsmetoderna används för att klassificera relationen mellan orden i hypotesen. De ord där relationen anses riktig behålls som möjliga svarsalternativ och kopplas återigen till ursprungsfrågan och bildar tillsammans ett hundratal olika hypoteser Värdering För att värdera hypoteserna använder Watson de nyckelord som framkommit under analysen av frågan. Genom dessa matchas möjliga dokument för att sedan värderas ytterligare. Ju fler nyckelord som frågan och ett dokument eller korpus har gemensamt ju mer relevant är dokumentet. Watson måste dock även undersöka dokument som endast har ett matchande nyckelord, detta eftersom det naturliga språket har många ord som är synonymer och därmed kan syfta på samma sak utan att explicit säga detta. 10

12 Därför gör Watson analyser av ord i dokumentet och kan därmed upptäcka dessa synonymer och på så vis detektera ytterligare nyckelord. Detta görs genom resonerande (eng. Reasoning) Resonerande I detta steg stärks eller försvagas alternativen utifrån de relationer mellan ord som Watson har lärt sig, detta med hjälp av resonerings-algoritmer. Exempel på semantik som Watson lärt sig genom samband och relationer är det mellan bok, författare och karaktär där han gjort kopplingar som gör att han förstår att en författare har skrivit en bok och skapat en karaktär i den boken (IBM, 2011). Dessa kunskaper kommer till stor användning i denna del av processen där frågan undersöks tillsammans med de relevanta dokumenten för att hitta de matchningar som är mest lika det förväntade svaret utifrån dess ordklass och liknande (Ferrucci, 2010). Figur 1. Exempel på hur en fråga bryts ned och kopplas till en relevant mening med hjälp av nyckelord (Ferrucci, 2010, Powerpoint). Exemplet i Figur 1 visar hur Watson får fram det rätta svaret på frågan I maj 1898 firade Portugal 400 års-jubileum efter att denna upptäcktsresandes ankomst i Indien trots att matchningen i dokumentet endast var mellan ett av nyckelorden från frågan, nämligen ordet maj. Detta görs genom att värdera dokumentet med hjälp av hundratals olika beräkningsmetoder för att dra paralleller mellan orden i frågan och i det möjliga svarsdokumentet (Ferrucci, 2010). Tidsresonerings-algoritmer (eng. temporal reasoning) kan få fram att 400 år efter 1498 så blir året 1898 vilket stärker relevansen av dokumentet. Ytterligare kopplingar här gjordes med hjälp av statistiska omskrivningar (eng. statistical 11

13 paraphrasing) upptäcker sådant som att landed in kan ha samma betydelse som arrival in eftersom de två fraserna verkar vara placerade i liknande kontext. Den geografiska kopplingen mellan Kappad Beach och Indien görs med hjälp av geografiskt spatialt resonerande (eng. geospatial reasoning). Detta gör att Vasco Da Gama kopplas till explorer och utifrån dessa kopplingar skulle kunna vara den upptäcktsresare som här efterfrågas. Därför genereras detta som ett möjligt svarsalternativ och fortsätter vidare i processen Svarsgenerering Det är först nu som de faktiska möjliga svaren ska genereras och inte bara en mängd möjliga svar. För detta krävs en bra värderingsmetod som beräknar vilket svar som är mest trovärdigt samt hur trovärdigt detta svar är. I Jeopardy är detta, som tidigare nämnt, en mycket viktig del för att inte riskera att ge ett felaktigt svar bara för att det var det bästa svaret man hade. Det den sista värderingsmetoden gör är därför att beräkna en form av konfidens i svaret, det vill säga hur säker är jag på detta svar och om detta överstiger tröskelvärdet och ett säkert konfidensintervall så väljer Watson att trycka på knappen för att få svara. Allt detta sker i loppet av några sekunder så det är därför en självklarhet att Watson arbetar parallellt med flera steg. 4.4 Komponenternas samverkan Figur 2. Arkitektur för bearbetning samt hypotesgenerering (Kapoor, S., Bowen, Z. & Kantor, A., 2016). 12

14 Figur 2 beskriver den strategi som används inom deepqa för att generera hypoteser (Kapoor, S et al., 2016). I det här fallet är frågan vem vann super bowl 50?. I första lagret bryts meningar samt frågan isär för att delas upp utifrån den regelbaserade djupanalysen. Detta lager utgörs av ett BiGRU-nätverk där varje ord från en mening blir input. Det första ordet, i detta fall super, blir v1 som output då ordet tilldelats en representation bestående av resultatet av de samtliga ord-analyserna. Analyserna består av flera olika delar och en mängd algoritmer för att utföra denna uppdelning. Inbäddningen innebär att varje ord tilldelas en siffra som fungerar som en form av koordinat och placerar ordet på den angivna koordinaten i en rymd. Ord som har liknande betydelse bör representeras liknande i denna rymd samt i hjärnan för människor (Brownlee, 2017). I DeepQA tolkas detta bland annat genom kontext där liknande kontext till ett ord även tolkas som att ordet liknar eller är synonymt med andra ord i samma eller liknande kontext. Därav skapas en representation som gör att ord kan kopplas ihop endast utifrån denna koordinat där samma värde eller liknande värde innebär samma eller liknande ord. POS innebär att varje ord tilldelas en markering med sin ordklass eller ordtyp (The Stanford Natural Language Processing, 2017). Varje ord klassificeras utifrån beräkningar och givna grammatiska regler samt från redan inlärd grammatik. NER innebär att subjekt i meningar återkopplas till ett specifikt namn eller specifik person så att meningar kan säga något om denne utan att explicit behöva nämna exempelvis personens namn i varje mening (The Stanford Natural Language Processing, 2017). Det är så språk fungerar och Watson måste därför anpassas efter detta för att kunna lära av naturligt språk. Man utgår från att svaret på en fråga aldrig explicit uttrycks i frågan. I och med detta utesluts ord som finns med i frågan från att också vara svaret men dessa ord används för att hitta ledtrådar om svaret. Ord från frågan kopplas samman med ord från meningen för att slutligen skapa en enad representation. Den sista analysen behandlar framtagningen av lemma i frågan. Ett lemma är ett ord i dess grundform (Stanford, 2009). Genom att ta fram detta för frågan så begränsas inte senare sökningar till att endast leta efter den form som ett specifikt ord skrevs i frågan utan letar istället alla kombinationer av former av ordet. Även detta läggs till i den enade representationen. För Watson utvecklade IBM en egen förbättrad metod för att ta fram lemman. Man utgick dock från en redan befintlig så kallad Porters algoritm som utgår från de vanligaste omskrivningarna inom grammatiken (Snowball, 2014). Denna algoritm kollar bland annat antalet bokstäver i ett ord samt avståndet för sista bokstaven från närmsta vokal för att undersöka om ordet är i någon annan form än grundform. 13

15 Allt detta sker i första lagret i figur 2 och innebär att varje ord får en representation som beskriver dessa detaljer. Varje ord innehåller nyckelordet från frågan, det vill säga, frågans lemma. Detta för att underlätta hela sökningsprocessen. Orden från frågan samt orden från den bearbetade meningen blir input till nästa lager. I det andra lagret, uppmärksamhets-lagret (eng. attention layer), jämförs en mening åt gången med nyckelord från frågan som i detta fallet betecknas Beta (Yu et al., 2017). Beta innehåller en representation av varje ord inkluderat i frågan. Detta görs för att få fram vilka ord som bör bearbetas extra noggrant utifrån frågan och därmed ägnas mer uppmärksamhet, därav namnet på detta lager. För att få fram detta beräknas produkten utifrån de dolda lagren där det första steget är att få fram hur väl det bearbetade ordet överensstämmer med frågan. När denna produkt sedan slås samman med frågans vikter från det dolda lagret bildas en enad representation av fråga och mening. Uppmärksamhetslagret består också av ett BiGRUnätverk och indata är denna enade representationen. Det som sker i detta lager är att frågan och den mening som ska bearbetas kopplas samman genom bland annat bigram och trigram. Detta innebär att ordpar och trippelpar bildas för att sedan utifrån dessa ta reda på frekvensen då dessa ord förekommer tillsammans i meningar. När detta har beräknats bearbetas de ord som verkar vara relevanta för frågan vidare i det fjärde lagret genom att alla de möjliga svaren delas upp utifrån olika kriterier för att slutligen slås samman (eng. Chunking) utifrån dessa. Ett exempel på en vanlig uppdelning är ordklass. Detta görs utifrån information från tidigare lager som nätverket hämtar information från. Slutligen rankas de olika kriterierna för att komma fram till vad det är för typ av svar som söks. Den samling av ord (eng. chunk) som stämmer överens med svarstypen är den som slutligen värderas för svarsgenerering. Denna slutgiltiga värdering sker genom en softmax-funktion som beräknar ett värde mellan 0 och 1 för varje ord i samlingen. Det ord som får det högsta värdet är det som genereras som en hypotes och alltså ett möjligt svar. Ett givet tröskelvärde avgör om hypotesen ska genereras som ett svar av Watson eller ignoreras (Ferrucci et al., 2010). Detta tröskelvärde varierar beroende på Watsons tidigare prestationer i spelet och specifikt inom den givna frågekategorien samt på vilken nivå riskbedömningen är belägen. Det vill säga, är Watson i ett läge där det är värt att ta risker och svara trots en låg säkerhet i svaret eller krävs en hög precision för att det ska vara värt att försöka svara. 14

16 4.5 Sammanfattning Figuren nedan visar övergripande arkitekturen för DeepQA, från att Watson får en fråga till dess att ett svar genereras. Watsons metod är en parallell probabilistisk bevisbaserad struktur (Ferrucci, 2010). Den genererar sannolika dokument som i sin tur genererar de mest sannolika delarna av dokumentet och därefter sannolika svar och slutligen säkerheten för att detta svar är korrekt. Figur3. Översikt för DeepQA (Kapoor, S., Bowen, Z. & Kantor, A., 2016). Analysen av frågan är det första steget i Figur 3 och i detta steg tas alla möjliga tolkningar samt vad som efterfrågas fram. Från hypotesgenereringen letar Watson bland hundratals källor och får därmed fram hundratals möjliga svar (Ferrucci, 2010). I det fjärde steget görs kopplingarna mellan nyckelorden från frågan och nyckelorden från de möjliga svarskällorna och som tidigare nämnt så ger fler matchningar högre poäng och trovärdighet till svaret. Slutligen i sista steget så värderas säkerheten i det bästa svaret som Watson fått fram, det mest trovärdiga svaret. Först om denna säkerhet är hög nog och överstiger tröskelvärdet för att trycka på knappen så gör Watson detta. Annars anser Watson istället att hans kunskap inte är säker nog eftersom de bevis han hittat för svaret inte är tillräckligt övertygande och därmed inte värt att svara. Detta gör att Watson inte bara vet sina egna kunskaper utan också vet begränsningen i dessa (IBM, 2011). Om Watson får en fråga där svaret inte finns någonstans i den kunskapsbas han besitter så kommer han heller aldrig att kunna generera rätt svar. För precis som för människor, så är den svåraste frågan den man inte kan. Watson kan inte tillföra kunskap han inte besitter utan endast söka bland den informationsmängd han besitter för att se om svaret finns där. Detta gör att Watson precis som oss människor inte kan sådant han aldrig lärt sig, han kan precis som oss människor inte dra nya slutsatser om sådant han inte besitter någon som helst kunskap om. Däremot kan han använda den kunskap han har och med hjälp av denne härleda nya kopplingar och detta med viss säkerhet. 15

17 5. Diskussion Att bygga Watson har uppenbarligen krävt både tid och engagemang av de inblandade i IBM Teamet. DeepQA-arkitekturen beskriver bara ytan av en hel vetenskap. Varje delprocess som Watson utför för att så småningom generera ett svar kräver en expert inom sitt område eftersom varje liten enskild del är komplex på ett eller annat sätt. Detta visar på hur unik en människas hjärna är. Med alla dessa inbyggda funktioner så är den mycket liten till storlek men kan trots detta i dagsläget, överträffa komplexa verk av expertis såsom Watson. Watson besegrade visserligen mänskligheten i Jeopardy men människor är ännu överlägsna inom andra domäner. Watson och Jeopardy ansågs vara ett enormt framsteg för artificiell intelligens och trots detta var det bara början på vad som komma skall. Jag tror att utvecklingen kommer att fortgå och ta den artificiella intelligensen till nya dimensioner. Att bygga maskiner som lär sig på samma sätt som människan kan generera en kunskap utan begränsningar. Begränsningar som människan har men inte maskiner. Människor har inte obegränsad minnesförmåga vilket gör att vi lätt kan glömma saker som vi lärt oss. För att undvika detta krävs noggrann bearbetning utan distraktioner. Men distraktioner förekommer alltid och vi människor är i vår natur lättdistraherade. Genom maskiner som kan använda den data som är skriven av och till människor så blir tillgångarna enorma. Maskininlärning har öppnat nya dörrar inom AI eftersom det inte längre är upp till oss människor att programmera in alla regler och all kunskap som önskas hos en dator. De kan själva lära sig utifrån en mängd exempel. En sådan utmaning som Jeopardy-utmaningen hade troligtvis aldrig gått att genomföra utan denna grund att stå på. Watson består i tillägg till detta av flera delar, flera algoritmer och flera strategier inom AI där neurala nät och djupinlärning bara är grunden. En djupare analys har presenterats i denna rapport men för att gå ännu djupare krävs tillgång och behörighet till IBMs alla algoritmer och formler, vilket är hundratals där de flesta av dessa inte namnges eller beskrivs i litteratur som är öppen för allmänheten utanför IBMs portar. Detta har begränsat arbetet för denna rapport. Det som dock framkommit är att genom DeepQA-arkitekturen så blev något som ansågs omöjligt en möjlighet. Trots motgångar inom utvecklingen så fortsatte IBM teamet att kämpa och tur var väl det. Utmaningen genomfördes och framtiden ser ljus ut inom Artificiell intelligens. 16

18 6. Slutsats Idag har IBM Watson utvecklats till att utföra betydligt mer avancerade projekt än Jeopardy och med tanke på den artificiella intelligensen utveckling; vem vet vad som kan stoppa Watson. Men låt oss då minnas, att precis som med oss människor, måste Watson också själv lära sig för att generera sin kunskap och förståelse och allt började med Jeopardyutmaningen där deepqa-arkitekturen låg till grund. 17

19 Referenser AI Magazine [Aditya Siddhant] (24 novemer, 2017). Building Watson: An Overview of Deep QA Project. [Videoklipp] Hämtat från: Bakshi, T (4 december 2015). IBM Watson: Using the Natural Language Classifier in IBM Bluemix! [videoklipp]. Hämtat från: Brownlee, J. (11 oktober 2017). What Are Word Embeddings for Text?. Hämtat: Britz, D. (2015). Recurrent Neural Networks Tutorial, Part 1 Introduction to RNNs. Hämtat från: Kapoor, S., Bowen, Z. & Kantor, A. [Devoxx] (8 november 2016). Deep dive into Watson's Neural Networks by Sandhya Kapoor, Bowen Zhou and Arthur Kantor [videoklipp]. Hämtat från: Ferrucci, D. [IBM] (13 december 2010). Building Watson - A Brief Overview of the DeepQA Project [Videoklipp]. Hämtat från: Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., Lally, A., Murdock, W., Nyberg, E., Prager, J., Schlaefer, N. & Welty, C. (2010) Building Watson: An Overview of the DeepQA Project. AI Magazine. Hämtat från: Ha, J. (2010). Artificiella neurala nätverk - En undersökning av neurala nätverk som tillämpning för den finansiella marknaden. Hämtat från: 8.pdf High, R. (2012). The Era of Cognitive Systems: An Inside Look at IBM Watson and How it Works. Redguides for Business Leaders. Hämtat från: IBM (18 juli 2011). IBM Watson: The Science Behind an Answer [videoklipp]. Hämtat från: IBM (2015). The Deep QA Project. Hämtat från: 18

20 Jones, M. T. (2017a). A beginner's guide to artificial intelligence, machine learning, and cognitive computing. Hämtat från: Jones, M. T. (2017b). Recurrent Neural Networks Deep Dive. Hämtat från: McCord, M. C., Murdock, J. W. & Boguraev. B. K. (2012). Deep parsing in Watson. IBM Research Division; VOL. 56 NO. ¾. Hämtat från: Murdock, J. W., Fan, J., Lally, A., Shima, H & Boguraev, B. K. (2012). Textual evidence gathering and analysis. IBM Research Division; VOL. 56 NO. ¾. Hämtat från: s2-pdfs.s3.amazonaws.com/2dd8/7f f66ba18820c894f c.pdf Paddle. (u.å). Machine Translation. Hämtat från: Russell, S., Norvig, P. (2016). Artificial Intelligence: A Modern Approach (3 ed). Essex: Pearson Education Limited. Snowball. (2014). The Porter Stemming Algorithm. Hämtat den från: Stanford. (2009) Stemming and lemmatization. Hämtat den från: Spangler, S. W. (22 september 2011). DeepQA: The Technology Behind Watson [videoklipp]. Hämtat från: Tesauro, G. [IBM Research] (9 oktober 2015). How Watson Learns Superhuman Jeopardy! Strategies [Videoklipp]. Hämtat från: The Stanford Natural Language Processing group. (2017). Stanford Named Entity Recognizer (NER). Hämtat den från: Y, Yu., W, Zhang., B, Zhou., K, Hasan., M, Yu. & B, Xiang. (2017). END-TO-END ANSWER CHUNK EXTRACTION AND RANKING FOR READING COMPREHENSION. Hämtat från: 19