Maskininlärning. Regler eller ML?



Relevanta dokument
Data mining. Data mining Skillnaden mellan observationella och experimentella data

Word- sense disambiguation

Dialogsystem. Dialogsystem

Att använda Weka för språkteknologiska problem

de var svåra att implementera och var väldigt ineffektiva.

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Tentamen Marco Kuhlmann

Statistisk mönsterigenkänning

Klassificering av homonymer Inlämningsuppgift språkteknologi

Tentamen Del A. Marco Kuhlmann

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Partiell parsning Parsning som sökning

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Vad behövs för att skapa en tillståndsrymd?

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Bootstrapping för substantivtaggning

VIKTIG INFO GÄLLANDE OMKOPPLINGEN TILL DET ÖPPNA NÄTET

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Vindkraft och ML. - hur kan vindkraft dra nytta avml

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

DD1350 Logik för dataloger. Vad är logik?

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Automatisk Sentimentklassificering av Twitter-inlägg

Taggad eller otaggad fiberkonverter?

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

Del 1 Frågor om vad höghastighetsnät är:

Tro på dig själv Lärarmaterial

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

Algoritmer och maskininlärning

Sub-symbolisk kognition & Konnektionism. Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén,

I valfri objektlista börjar du med att markera det objekt du vill arbeta med. Klicka på Utför, välj Matrix och därefter Skicka order.

Regression med Genetiska Algoritmer

Grattis! Du bor i Sveriges snabbaste lägenhet! Guide till bredband

Var och bli den förändringen du vill se i omvärlden.


Köpguide för mobila växlar. Modern telefoni till företaget är långt ifrån vad det var för bara några år sedan.

Tekniker för storskalig parsning

Frågor och svar om Uppsägning av Telia Mobil plånbok och skaffa WyWallet (Extern)

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Kristian Almgren Artificiell Intelligens Linköpings Universitet Talstyrning

Kombinatorik Förenkla C(n+1,2)-C(n,2) och C(n+1,3)-C(n,3)

MagIQ Plan. Carola Liva Lind 2012

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

Tekniker för storskalig parsning

1 Begrepp och Hypoteser. 2 Inlärning genom sökning. 3 Objektiv inlärning. Inlärning av en boolsk funktion från exempel.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

Att installera din trådlösa router. Installationen tar bara en minut.

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Så registrerar du ditt företag

Handläggarmanual. Första sidan som öppnas då du öppnar ditt ärendehanteringssystem.

Manual Cellip 365 Mobil applikation Startsida Hänvisning Svarsgrupper Vidarekoppla pågående samtal Kontaktlista...

Ansök till förskola och familjedaghem med Mobilt BankID eller e-legitimation

Välkommen till SplitVision Borås Stadsnät!

IT-kurs för datorovana

IT-Café: SKYPE (videosamtal)

Kungliga Tekniska Högskolan Patrik Dallmann

Tre saker du behöver. Susanne Jönsson.

1 I Om telefoni. om telefoni

Vad måste jag göra som idag har avtal med bredbandsbolaget? Bredband Vi har 500/50 bredband, vad är priserna för

Foto: Pernille Tofte, Helén Karlsson, Folio bildbyrå Illustrationer: Gandini Forma Tryck: Danagårds Grafiska, 2009

FÖRKORTA DIN VÄG PÅ BANAN

Agent som lär sig. Maskininlärning. Genetiska algoritmer. Typer av återkoppling. ! Introduktion. ! Genetiska algoritmer!

Vi bygger fiber till dig i sommar!

framtidens bredband! Stadsnät från Borlänge Energi

Dependensregler - Lathund

Stina Nyman

AI utmaningar inom kvalitetssäkring. Henrik Emilsson Teststrateg, Nordic Medtest AB

Kort om World Wide Web (webben)

TV: Tjänster från Comhem, Canal Digital, Viasat, Boxer m.fl får du helt på egen hand styra avtalet med din leverantör.

1 I Om mobiltelefoni. om mobiltelefoni

Fält av referenser. Konstruktorerna används för att skapa Bilar och Trafikljus.

Artificiell Intelligens Lektion 7

Vanliga frågor för VoiceXpress

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

ParaGå-guide -kommunala utförare

Bostadsrättsföreningen Tre Högar. Presentation av triple-play tjänster till Brf Tre Högar

Dialogue Technologies April 2005

Slutrapport för Pacman

Spinderella Tarantella 1 - en dramatisering

VANLIGA FRÅGOR FRÅN BOENDE OM HSB BOLINA

Manual för beställning via Capitex

CRM i molnet. Nätverket för dig inom Marknad, Sälj & Kundservice Bli medlem kostnadsfritt på

VI FIRAR kr. Nu bygger vi fibernät! BREDBAND TILL ALLA FRÅN FÖRSTA KONTAKT TILL ANSLUTNING

Matematik inom tekniksektorn Adam Andersson, MY-dagen 2016

Information om Axets bredband och telefoni

Positiv Ridning Systemet Negativ eller positiv? Av Henrik Johansen

Jag vill forma goda läsare

Här kan du ta del mer information om vad fibernät, bredbandsanslutning med hög kapacitet, innebär.

Lathund Beställningsblankett AddSecure Control

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Användarhandbok. Telia Jobbmobil Växel

Probabilistisk logik 1

SB Bredband snabbast i huset!

Transkript:

Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna regler (labb 1 & 2 & 4) maskininlärning(labb 3 & 5) Handskrivna regler bygger på språklig intuition, expertkunskaper Maskininlärning är data-driven generaliserarfrån exempel inkluderar delar från statistik, artificiell intelligens, mm. 1

Exempel: OCR A Hur hittar vi skattefuskare? # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Sven: Ingen återbäring, skild, tjänar 120K? Särdrag (features) 2

POS-taggning Ett annat förslag, som i sigintespar pengar DT PN NN HP PP PN AB VB NN utan bara omfördelar resurser, är att KN AB VB NN VB IE organisera om befälen VB PL NN Två typer av inlärning Supervised(övervakad) vi vet rätt svar för ett antal exempel vi vill generalisera även till osedda exempel Unsupervised(oövervakad) en massa exempel, utan svar vi vet något mer, t.ex. möjliga värden 3

Supervised learning Klassificering vi försöker förutsäga en diskret variabel Regression vi försöker förutsäga en kontinuerlig variabel Unsupervised learning Data mining leta efter intressanta mönster kluster, vanliga fenomen, ovanliga fenomen, Reinforcement learning en agent som interagerar med sin omgivning lär sig av sina erfarenheter 4

Klassificering Givet en träningsmängd med ett antal objekt: Varje objekt har ett antal attributx+ ett ytterligare attribut som är objektets klass(y) Hitta en modell som förutsäger klassen ysom en funktion av de övriga attributen Mål: tidigare osedda objekt skall tilldelas en klass så korrekt som möjligt Klassificering # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej Inlärningsalgoritm 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 260K Ja 9 Nej Gift 240K Nej 10 Nej Singel 360K Ja 11 Nej Gift 250K? Träna modell Använd modell Modell 5

Metodik för klassificering 1. Samla en datamängd M med facit 2. Bygg en representation av exemplen/objekten 3. Välj en inlärningsalgoritm och träna den på M 4. Utvärdera på testmängd T 5. Applicera på nya exempel OBS! M och T är olika. Representation Det man vet om ett exempel kallas särdrag. # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Särdrag kan vara kontinuerliga eller diskreta(kategorier). Oväsentliga särdrag kallas brus. Att inse vad som är brus kan vara mycket svårt. Särdrag (features) 6

Exempel - betydelsebestämning Vad betyder fluga? insekt ( insect ) klädesplagg ( bowtie ) fiskedrag ( fishing ) kortlivad trend ( fad ) Exempel - betydelsebestämning "de dog som flugor", insect "jag menar självklart inte att Internet är en övergående fluga", fad "vi har exklusiva flugor för direkt leverans", bowtie "att knyta fluga är enklare än man tror", bowtie "hovmästaren bar en vit fluga", bowtie "hovmästaren det är en fluga i min soppa", insect "sudoku blev snabbt en fluga i Japan", fad "fluga sprutar larver i ögonen", insect "flugan är en tidlös herraccessoar", bowtie "Lydia Davis fjärde novellsamling heter samarbete med fluga", insect "konsten att knyta en fluga", bowtie "designade flugor i hundra procent ull", bowtie "är facebook en fluga eller en frälsare", fad "flugan är på väg att göra comeback", bowtie 7

Exempel - betydelsebestämning "blå flugor av högsta kvalitet", fishing "vita flugor av högsta kvalitet", bowtie "svarta flugor av högsta kvalitet", bowtie "oranga flugor av högsta kvalitet", fishing "abborren hugger på fluga", fishing "man smaskar till sig själv men flugan flyger och är strax tillbaka", insect "pojken är mycket beskedlig och skulle inte göra en fluga förnär", insect "en fluga gör ingen sommar", insect "när den första flugan kom till är man oense om", fishing "app stores en fluga eller framtiden", fad "spansk fluga är ingen fluga utan en skalbagge", insect "sociala medier är en fluga", fad osv(47 exempel) Bag/set-of-words-approach Låt varje ord vara ett särdrag Värdet på ett särdrag är antalet förekomster av motsvarande ord i meningen. T.ex. flyg fula fluga flyg har flyg=2, fula=1, fluga=1, alla andra ord=0 Detta kallas för en bag-of-words. Notera att ordföljd inte är representerat. Ofta tar man bort sk stoppord, (dt,kn,sn,pn,pp, vissa verb som har, är, mm.) 8

Klassificering: Utvärderingsmått # Fuskat? Blev klassificerad som: 1 Nej Nej 2 Nej Nej 3 Nej Ja 4 Nej Nej 5 Ja Nej 6 Nej Nej 7 Nej Ja 8 Ja Ja 9 Nej Ja 10 Ja Ja 11 Nej Ja 12 Ja Nej TN TrueNegative FP False positive FN False negative TP Truepositive Klassificering: Utvärderingsmått # Fuskat? Blev klassificerad som: 1 Nej Nej 2 Nej Nej Confusion matrix Sammanblandningsmatris 3 Nej Ja 4 Nej Nej 5 Ja Nej Klassificerat som Ja Nej 6 Nej Nej 7 Nej Ja 8 Ja Ja 9 Nej Ja 10 Ja Ja 11 Nej Ja Riktig klass Ja Nej TP 2 FP 4 FN 2 TN 4 12 Ja Nej 9

Klassificering: Utvärderingsmått Precision = TP TP + FP TP Recall = TP + FN Korrekthet (accuracy) = TP + TN TP + TN + FP + FN Fler än två klasser Klassificerat som insect fad bowtie fishing insect 14 0 0 0 Riktig klass fad 7 4 0 0 bowtie 10 0 2 0 fishing 8 0 0 2 10

Träningsdata Thereis no data like moredata Tumregel: Ju mer data, desto bättre resultat (dock logaritmiskt) Om man har för lite data kan slumpmässiga egenheter råka läras in Utvärdering Om man har data i överflöd: använd separat tränings- och testmängd Annars träna på t.ex. 90% av data, testa på 10% n-fold cross-validation Vid utveckling: Testa på träningsmängden kan ge missvisande resultat! 11

Algoritmer Beslutsträd Neurala nät Markovmodeller Regelinduktion (t.ex. TBL) Support Vector Machines Bayesianska metoder Genetiska algoritmer och många fler Beslutsträd # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej Nej Ja Återbäring Nej Civilstånd 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Singel, skild Inkomst <360K Nej 360K Ja Gift Nej Träningsdata Modell: beslutsträd 12

Generera beslutsträd 1,2,3,4,5,6,7,8,9,10 Återbäring # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Ja Nej 1, 4, 7 2,3,5,6,8,9,10 Civilstånd Singel, skild Gift 3,5,8,10 2,6,9 Inkomst <360K 360K 3 5,8,10 Flug-exemplet abborren Ja Nej fishing, 2 bara Ja Nej fad, 2 tillfällig Ja fad, 2 Nej knyta Ja Nej bowtie, 2 insect, 14, 25 13

Överträning Överträning = när hypotesen är alltför specialiserad Ger bra resultat på träningsdata, men generaliserar dåligt. När händer detta? Träningsdata är inte representativa Fel i träningsdata Vad kan man göra? Välj en enklare hypotes, och acceptera några fel för träningsexemplen Överträning 1,2,3,4,5,6,7,8,9,10 Återbäring # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Ja 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Nej 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Byte Ja Nej 1, 4, 7 2,3,5,6,8,9,10 Singel, skild 3,5,8,10 Civilstånd Kanske bästa trädet för att undvika överträning. Gift 2,6,9 14

Regelinduktion Transformation-based learning(tbl) Varje exempel ges en initial klassificering TBL försöker hitta transformationsregler som förändrar klassificeringen av vissa exempel, och gör den bättre Har applicerats på en mängd språkteknologiska problem, t.ex. POS-taggning TBL och POS-taggning Lexikon: Psykologin NN hade VB tidigare AB mannens NN utveckling NN som HP norm NN Rules: tag:ie>sn tag:pm@[1] tag:hp>kn tag:nn@[1] Input: Psykologin hade tidigare mannens utveckling som norm NN VB AB NN NN KN NN Resultat 15

TBL och POS-taggning Starta med en taggning direkt från lexikon Applicera varje transformationsregel på hela korpuset, en regel i taget Senare regler kan ogöra effekten av tidigare regler Motto: Gissa först, ändra sedan om det blir nödvändigt! Inlärda regler tag:ie>sn <- tag:pn@[1] jag tror att han tag:ie>sn <- tag:nn@[1] jag tror att bordet tag:hp>kn <- wd:som@[0] & tag:vb@[-1] jag bedömer som viktigt tag:pn>dt <- wd:de@[0] & tag:pp@[-1] på de flesta ställen tag:dt>pn <- tag:vb@[1] ingen tar mig på allvar tag:ie>sn <-tag:pm@[1] jag tror att Nisse tag:hp>kn <- tag:nn@[1] med mannen som norm tag:pn>dt <- tag:pc@[1] det hotande mörkret tag:dt>rg<-wd:av@[1] bara en av dem tag:hp>kn <- tag:dt@[1] mannen som en norm. tag:ie>sn <- tag:jj@[1] jag tror att rangliga bord tag:pn>dt <- tag:pp@[-1] & tag:jj@[1] på det hela taget 16

Regelmallar Bara regler som är instanser av någonmall kan läras T.ex. reglerna tag:ie>sn <- tag:pn@[1] tag:ie>sn <- tag:nn@[1] är instanser av tag:a>b <- tag:c@[1] Ändra tagg A till tagg B om efterföljande ord har tagg C Andra tillämpningar TBL har applicerats på en mängd språkteknologiska problem, t.ex. part-of-speech tagging(brill 1992) pp-attachment disambiguation(brill& Resnik 1994) text chunking(ramshaw& Marcus 1995) spelling correction(mangu& Brill 1997) dialogue act tagging(samuel et al. 1998) ellipsis resolution (Hardt 1998) Labb 4: Named-entity recognition 17

Klassificering med hjälp av sannolikheter Kan vi beräkna sannolikheten att ett objekt ska tillhöra en viss klass givet dess attribut? till exempel sannolikheten att en person har fuskat, givet att han inte fått återbäring, är gift, och tjänar 250K. dvs P(Fuskat=ja Åter=nej, Civil=gift, Inkomst=250) Sedan jämför vi denna sannolikhet med P(Fuskat=nej Åter=nej, Civil=gift, Inkomst=250) Om den översta sannolikheten är störst, så tror vi Fuskat=ja Annars tror vi Fuskat=nej. Använd Bayes sats Använd Bayes sats: P( ejåter, gift,250 Fusk) P( Fusk) P( Fusk ejåter, gift,250) = P( ejåter, gift,250) # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja 18

Ett problem Använd Bayes sats: P( ejåter, gift,250 Fusk) P( Fusk) P( Fusk ejåter, gift,250) = P( ejåter, gift,250) # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja Problem: Det finns inget sådant exempel i träningsmängden! Ett naivt antagande Lösning: Antag att attributen är oberoende. I stället för P( ejåter, gift,250 Fusk) P( Fusk) P( ejåter, gift,250) så beräknar vi P( ejåter Fusk) P( gift Fusk) P(250 Fusk) P( Fusk) P( ejåter) P( gift) P(250) Detta antagande är oftast inte korrekt(därav namnet Naïve Bayes), men visar sig fungera bra i praktiken 19

Naïve Bayes Givet attributvärden E1, E2, E3 vill vi klassificera ett exempel som positivt (+) eller negativt ( ). Vi jämför sannolikheterna P( + E, E2, E3) = P( E1 + ) P( E2 + ) P( E3 + ) P( P E, E, E ) = P( E ) P( E ) P( E ) P( 1. 2. 1 + ( 1 2 3 1 2 3 Om 1 är större än 2, så antar vi +, annars. OBS! Vi kan skippa nämnarna i Bayessats eftersom de är likadana i 1 och 2. ) ) Uppskattning av sannolikheter T.ex. P(skild fuskat) kan uppskattas med antal( skild fuskat) antal( fuskat) i träningsmaterialet. I detta fall: 1/3. Hur är det med P(gift fuskat)? # Återbäring Civilstånd Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja 20

Smoothing För att inte någon av de uppskattade sannolikheterna ska bli 0: Lägg till 1 i täljaren till varje uppskattad sannolikhet P(Attr=a Klass=k) Om Attrhar nmöjliga värden, lägg till n till nämnaren. T.ex. P(gift fusk) = 1/6 P(skild fusk) = 2/6 P(singel fusk) = 3/6 # Återbäring Civilstån d Inkomst Fuskat? 1 Ja Singel 600K Nej 2 Nej Gift 400K Nej 3 Nej Singel 300K Nej 4 Ja Gift 420K Nej 5 Nej Skild 380K Ja 6 Nej Gift 220K Nej 7 Ja Skild 800K Nej 8 Nej Singel 360K Ja 9 Nej Gift 240K Nej 10 Nej Singel 340K Ja En språkteknologisk applikation Klassificering av dokument är en viktig applikation identifiering av spam, e-mail-styrning, Net Nanny, nyhetsbevakning, Vi vill klassificera dokument i två klasser FLU dokument som handlar om influensa ~FLU resten Nr Ord Klass 1 cough, fever, temperature, flu FLU 2 cough, pneumonia, flu ~FLU 3 flu, cough, flu FLU 4 cold, flu FLU 21

Uppskattning av sannolikheter Nr Ord Klass 1 cough, fever, temperature, flu FLU 2 cough, pneumonia, flu ~FLU 3 flu, cough, flu FLU 4 cold, flu FLU Vi uppskattar P(FLU) till ¾ och P(~FLU) till ¼. Hur kan vi uppskatta P(flu FLU), P(fever FLU), osv? Ett sätt: Räkna antal förekomster av ordet i klassen, dividera med totalt antal ord i klassen. P(flu FLU) = 4/9. P(flu ~FLU) = 1/3. Klassificering Hur kan vi klassificera dokumentet flu influenza? Beräkna sannolikheterna: P(FLU) P(flu FLU) P(influenza FLU) = ¾ 4/9 0 = 0 P(~FLU) P(flu ~FLU) P(influenza ~FLU) = ¼ 1/3 0 = 0 Med smoothing: Det finns 7 olika ord lägg till 7 i nämnaren P(FLU) P(flu FLU) P(influenza FLU) = ¾ 5/16 1/16 P(~FLU) P(flu ~FLU) P(influenza ~FLU) = ¼ 2/10 1/10 Predicerad klass: FLU 22

Exempel: Samtalsstyrning Telefonibaserad kundtjänst för ett telekom-företag 14 milj samtal/år Fast telefoni, mobilt, bredband, mobilt bredband, uppringt Internet, IP-telefoni, digital-tv, triple play Knapptryckningsmenyer Speciellt telefonnummer för mobilkunder Flera direktnummer till olika självbetjäningstjänster Tryck 1 för beställning, tryck 2 för Tryck felanmälan 1 för fast eller telefoni, teknisk 2 support, för mobil tryck 3 telefoni, för fakturaärende, 3 for bredband tryck 4 eller för frågor om bredbandstelefoni, pågående leverans. 4 Gäller för uppringt ditt samtal Internet, någonting eller annat, 5 for tryck digital-tv. 5. Vad som fanns 23

Vad man ville ha i stället Välkommen till XXX. Beskriv kortfattat vad du vill ha hjälp med så kopplar jag fram dig. Vad gäller ditt ärende? Hej... jag skulle vilja hjälp att tolka några uppgifter på min mobilfaktura. Ett fakturaärende mobiltelefoni, stämmer det? Målet med projektet Ett enda ingångsnummer för alla kunder Öka nöjdheten hos betjänade kunder Öka utnyttjandet av självbetjäningstjänster få kunderna att hitta dit skapa nya typer av självbetjäningstjänster skapa fler självbetjäningstjänster Minska antal felaktiga samtalstyrningar Få färrekunder att lägga på luren 24

Vald teknik Taligenkänning för att identifiera orden i kundens yttrande Neuralt nätverk för att identifiera kundens ärende Datainsamling med Wizard-of-Oz-metodik. Implementation Samtalsstyrning Design av semantiska kategorier Transkription och uppmärkning Träning av taligenkännare och neuralt nätverk Dialogdesign Logiskt dialogflöde Persona och formuleringar Implementation 12 personer, ~ 12000 persontimmar 25

Uppmärkning av träningsdata Jag har en fråga på min Internet-räkning internet-wantinfo-billing Totalt fanns ca 140 sådana klasser. En klass motsvarande en kö till handläggare, eller en automatisk självbetjäningstjänst, eller en motfråga från systemet Klassificering abonnemang beställa bredband det inte flytta jag leverans men telefon vill överlåta broadband-order-subscription broadband-problem-unknown fixedtelephony-error-line telephony-problem-unknown telephony-order-subscription mobile-order-subscription mobile-wantinfo-subscription digitaltv-problem-unknown internet-support-modem internet-support-email mobile-order-pukcode mobile-refill-subscription 26

Hur bra blev det? I riktig drift klassificerades ca 82% av yttrandena helt rätt(137 kategorier) En version med 1500 kategorier hade ca 80% rätt Klassificerare med handskrivna regler hade 67% rätt (på 137 kategorier) Ca 7% av samtalen dirigerades fel Ökad kundnöjdhet Uppskattad ROI mindre än 1 år 27