729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

Relevanta dokument
729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens / Maskininlärning 1. Marco Kuhlmann

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens Maskininlärning. Arne Jönsson HCS/IDA

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

Artificiella Neuronnät

MATEMATIK GU. LLMA60 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht Block 5, översikt

SF1624 Algebra och geometri

Tavelpresentation. Gustav Hallberg Jesper Strömberg Anthon Odengard Nils Tornberg Fredrik Blomgren Alexander Engblom. Januari 2018

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

Lösningar till utvalda uppgifter i kapitel 1

av envariabelfunktionen g(t) och flervariabelfunktionen t = h(x, y) = x 2 + e y.)

Statistiska samband: regression och korrelation

P Q = ( 2, 1, 1), P R = (0, 1, 0) och QR = (2, 2, 1). arean = 1 2 P Q P R

Vektorgeometri för gymnasister

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Veckoblad 1, Linjär algebra IT, VT2010

Armin Halilovic: EXTRA ÖVNINGAR

AB2.1: Grundläggande begrepp av vektoranalys

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Vektorgeometri för gymnasister

1. Vi skriver upp ekvationssystemet i matrisform och gausseliminerar tills vi når trappstegsform,

Frågorna 1 till 6 ska svaras med ett kryss för varje korrekt påstående. Varje uppgift ger 1 poäng.

Linköpings universitet

Linjära avbildningar. Låt R n vara mängden av alla vektorer med n komponenter, d.v.s. x 1 x 2. x = R n = x n

Ekvationer och system av ekvationer

Objective:: Linjärt beroende och oberoende version 1.0

SKRIVNING I VEKTORGEOMETRI

14. Minsta kvadratmetoden

x +y +z = 2 2x +y = 3 y +2z = 1 x = 1 + t y = 1 2t z = t 3x 2 + 3y 2 y = 0 y = x2 y 2.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

October 9, Innehållsregister

Några saker som jag inte hann: Ur trigonometriska ettan kan vi uttrycka och i termer av. Vi delar båda led i trig. 1:an med :

Ortogonal dekomposition. Minstakvadratmetoden.

SKRIVNING I VEKTORGEOMETRI

= ( 1) ( 1) = 4 0.

MVE035. Sammanfattning LV 1. Blom, Max. Engström, Anne. Cvetkovic Destouni, Sofia. Kåreklint, Jakob. Hee, Lilian.

(x + 1) dxdy där D är det ändliga område som begränsas av kurvorna

DIGITAL KOMMUNIKATION

Vad behövs för att skapa en tillståndsrymd?

tal. Mängden av alla trippel av reella tal betecknas med R 3 och x 1 x 2 En sekvens av n reella tal betecknas med (x 1, x 2,, x n ) eller

Vektorgeometri. En vektor v kan representeras genom pilar från en fotpunkt A till en spets B.

1 Vektorer i koordinatsystem

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

En normalvektor till g:s nivåyta i punkten ( 1, 1, f(1, 1) ) är gradienten. Lektion 6, Flervariabelanalys den 27 januari z x=y=1.

Bestäm ekvationen för det plan som går genom punkten (1,1, 2 ) på kurvan och som spänns

MULTIPLIKATION AV MATRISER, BASER I RUMMET SAMT FÖRSTA MÖTET MED MATRISINVERSER = = =

Analys o Linjär algebra. Lektion 7.. p.1/65

SF1624 Algebra och geometri

Differentialens geometriska betydelse

7 Extremvärden med bivillkor, obegränsade områden

Karta över Jorden - viktigt exempel. Sfär i (x, y, z) koordinater Funktionen som beskriver detta ser ut till att vara

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

Dagens ämnen. Linjära ekvationssystem: Successiv elimination Vektorer Definitionen Grundläggande räkneoperationer Bas och koordinater Ortsvektorer

Lektion 1. Kurvor i planet och i rummet

Experimentella metoder, FK3001. Datorövning: Finn ett samband

Vektorgeometri för gymnasister

Mer om analytisk geometri

Lösningsförslag till övningsuppgifter, del V

1. (Dugga 1.1) (a) Bestäm v (3v 2u) om v = . (1p) and u =


SF1626 Flervariabelanalys

Lösningar till övningstentan. Del A. UPPSALA UNIVERSITET Matematiska institutionen Styf. Övningstenta BASKURS DISTANS

Parabeln och vad man kan ha den till

Frågorna 1 till 6 ska svaras med ett kryss för varje korrekt påstående. Varje uppgift ger 1 poäng. Använd bifogat formulär för dessa 6 frågor.

Uppsala Universitet Matematiska Institutionen Bo Styf. Svar till tentan. Del A. Prov i matematik Linj. alg. o geom

25 november, 2015, Föreläsning 20. Tillämpad linjär algebra

SKRIVNING I VEKTORGEOMETRI

SF1669 Matematisk och numerisk analys II Lösningsförslag till tentamen DEL A. r cos t + (r cos t) 2 + (r sin t) 2) rdrdt.

Linjär Algebra, Föreläsning 2

vilket är intervallet (0, ).

e x x + lnx 5x 3 4e x (0.4) x 0 e 2x 1 a) lim (0.3) b) lim ( 1 ) k. (0.3) c) lim 2. a) Lös ekvationen e x = 0.

Tentamen i tmv036c och tmv035c, Analys och linjär algebra C för K, Kf och Bt A =, = det(a λi) = e 2t + c 2. x(t) = c 1. = c 1.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

Enhetsvektorer. Basvektorer i två dimensioner: 1 1 Basvektorer i tre dimensioner: Enhetsvektor i riktningen v: v v

Linjär Algebra, Föreläsning 2

Andragradsekvationer. + px + q = 0. = 3x 7 7 3x + 7 = 0. q = 7

SKRIVNING I VEKTORGEOMETRI

Veckoblad 4, Linjär algebra IT, VT2010

x 2 x 1 W 24 november, 2016, Föreläsning 20 Tillämpad linjär algebra Innehåll: Projektionssatsen Minsta-kvadratmetoden

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Parabeln och vad man kan ha den till

Att programmera en Beethoven

2x+y z 5 = 0. e x e y e z = 4 e y +4 e z +8 e x + e z = (8,4,5) n 3 = n 1 n 2 =

Optimering, exempel. Funktionens enda stationära punkt är alltså origo. Den ligger också i det inre av mängden.

4x 1 = 2(x 1). i ( ) får vi 5 3 = 5 1, vilket inte stämmer alls, så x = 1 2 är en falsk rot. Svar. x = = x x + y2 1 4 y

Andragradskurvor. ax 2 + 2bxy + cy 2 + dx + ey + f = 0. Trots att ekvationen nu är betydligt mer komplicerad

Linjära ekvationer med tillämpningar

Om ellipsen och hyperbelns optiska egenskaper

Vektorgeometri för gymnasister

16.7. Nollrum, värderum och dimensionssatsen

16.7. Nollrum, värderum och dimensionssatsen

Rumsuppfattning är förmågan att behandla sinnesintryck av former

5 Linjär algebra. 5.1 Addition av matriser 5 LINJÄR ALGEBRA

SF1624 Algebra och geometri

A = (3 p) (b) Bestäm alla lösningar till Ax = [ 5 3 ] T.. (3 p)

SF1646 Analys i flera variabler Tentamen 18 augusti 2011, Svar och lösningsförslag

Transkript:

729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann

Förra gången: Linjär regression

Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna ut felfunktionens tangent i den punkt som motsvarar den aktuella modellparametern θ. Steg 2: Gå i motsatt riktning av tangenten: Om tangenten har positiv lutning, minska värdet på θ. Om tangenten har negativ lutning, höj värdet på θ. Detail: Lutningen multipliceras med en steglängdsfaktor. Upprepa steg 1 2 tills felet blir tillräckligt litet.

Gradientsökning 4 Steglängdsfaktor = 0,1 3 θ J(θ) Lutning 2,000 2,33 4,67 J(θ) 2 1 0-0,5 0 0,5 1 1,5 2 2,5 θ θ θ 0,467

Gradientsökning 4 Steglängdsfaktor = 0,1 3 θ J(θ) Lutning 2,000 2,33 4,67 J(θ) 2 1 0-0,5 0 0,5 1 1,5 2 2,5 θ θ θ 0,467

Gradientsökning 4 Steglängdsfaktor = 0,1 3 θ J(θ) Lutning 2,000 2,33 4,67 J(θ) 2 1,533 0,66 2,49 1 0-0,5 0 0,5 1 1,5 2 2,5 θ θ θ 0,249

Gradientsökning 4 Steglängdsfaktor = 0,1 3 θ J(θ) Lutning 2,000 2,33 4,67 J(θ) 2 1,533 0,66 2,49 1,284 0,19 1,33 1 0-0,5 0 0,5 1 1,5 2 2,5 θ θ θ 0,133

Gradientsökning 4 Steglängdsfaktor = 0,1 3 θ J(θ) Lutning 2,000 2,33 4,67 J(θ) 2 1,533 0,66 2,49 1 1,284 0,19 1,33 1,151 0,05 0,71 0-0,5 0 0,5 1 1,5 2 2,5 θ θ θ 0,071

Uppdateringsregeln för gradientsökning tangentens lutning i punkt θ steglängdsfaktor

Uppdateringsregeln för gradientsökning När vi räknar ut tangentens lutning explicit får vi: (För att räkna ut detta själv behöver man kunna ta derivator.)

Linjär regression med flera variabler

Linjär regression med flera variabler Linjär regression och gradientsökning kan generaliseras till modeller där man har flera särdrag x och parametrar θ. I många modeller flera miljoner särdrag och parametrar! I sådana situationer är det bekvämt att sammanfatta alla särdrag och parametrar i vektorer; dessa skrivs x och θ (fet stil). Tänk vektor = lista.

Träningsmängd Husets storlek (x1) Husets ålder (x2) Husets pris (y) 852 36 180 1000 45 170 1100 40 250 1200 30 299 träningsinstans = (särdragsvektor x, målvärde y)

Påminnelse: Linjär regression med en variabel Modellantagandet Sambandet mellan indata och utdata är en rät linje. Inlärningsuppgift Hitta den bästa räta linjen: den linje som minimerar det totala avståndet till datapunkterna.

Linjär regression med flera variabler Modellantagandet Sambandet mellan indata och utdata är ett hyperplan, ett plan i en flerdimensionell rymd. Vad betyder detta matematiskt? Inlärningsuppgift Hitta det bästa hyperplanet: det hyperplan som minimerar det totala avståndet till datapunkterna. Samma inlärningsuppgift som förr.

Plan i en tredimensionell rymd y θ 1 x 1 θ 2 x 2 x 1 x 2

Planets ekvation med tre variabler lutning i dimension 1 förskjutning från origo lutning i dimension 2

Låtsassärdraget Termen θ 0, förskjutningen från origo, står lite ensamt. Vi kan snygga till ekvationen genom att hitta på ett matchande särdrag x 0 som vi alltid sätter lika med 1. Denna ekvation är ekvivalent med den som vi hade innan. Varför?

Träningsmängd Special (x0) Husets storlek (x1) Husets ålder (x2) Husets pris (y) 1 852 36 180 1 1000 45 170 1 1100 40 250 1 1200 30 299 träningsinstans = (särdragsvektor x, målvärde y)

Modell med summanotation antalet variabler parameter i

Modell med vektornotation parametervektor särdragsvektor

Räkneövning Beräkna h(x) för de angivna parametrarna/särdragsvärden: θ 0 θ 1 θ 2 +2 +2 +2 2 +2 +2 0 +2 +2 x 0 x 1 x 2 1 +2 +1 1 2 1 1 2 +2

Åt vilket håll ska vi gå? Istället för en enskild parameter θ har vi nu en flerdimensionell parametervektor θ. Precis som innan vill vi med hjälp av gradientsökning gå ner i felets dal, dvs. uppdatera θ sådant att felet J(θ) blir mindre. Tidigare ändrade vi θ genom att addera eller subtrahera lutningen på tangenten till J(θ) i punkt θ. Hur blir det nu när vi har fler än en dimension?

Hur ser felfunktionen ut? 4 θ 2 höjdkurvor 3 J(θ) 2 1 J(θ 1, θ 2 ) 0-0,5 0 0,5 1 1,5 2 2,5 θ θ 1 ett särdrag = parabel två särdrag = paraboloid

Hur ser gradienten ut? 4 θ 2 3 J(θ) 2 1 J(θ 1, θ 2 ) 0-0,5 0 0,5 1 1,5 2 2,5 θ θ 1 ett särdrag = endimensionell vektor två särdrag = tvådimensionell vektor

Vad är gradienten? När vi endast hade en dimension var felfunktionens gradient i punkt θ lutningen på felfunktionens tangent i den punkten. Kan alternativt ses som en endimensionell vektor. När vi nu har flera dimensioner är gradienten i punkt θ den vektor som innehåller alla lutningar, en lutning per dimension.

Uppdateringsregeln för gradientsökning gradient i punkt θ steglängdsfaktor

Fråga Vad händer om vi inte ändrar alla parametrarna samtidigt, utan en parameter i taget?

Inte gradientsökning Om vi inte ändrar alla parametrarna samtidigt, utan en parameter i taget, närmar vi oss felets dal i sicksackfart. alla parametrar samtidigt en parameter i taget

Perceptroninlärning

Binär klassifikation H företag H V V skola

Träningsmängd Special (x0) skola (x1) företag (x2) Block (y) 1 3 1 vänster 1 1 3 höger 1 5 3 vänster 1 3 5 höger träningsinstans = (särdragsvektor x, målvärde y)

Beslutsträd Patrons? None Some Full No Yes Est. wait? >60 0 10 No Alternate? 30 60 10 30 Hungry? Yes No Yes No Yes Reservation? Fri/Sat? Yes Alternate? No Yes No Yes No Yes Bar? Yes No Yes Yes Raining? No Yes No Yes No Yes No Yes

Perceptron kombinerar linjär regression med en tröskelfunktion 1 1 1 0,5 0 0,75 + = 0,5 0,75 0,5-0,5 0,25 0,25-1 -1-0,5 0 0,5 1 0-1 -0,5 0 0,5 1 0-1 -0,5 0 0,5 1

Beslutsregel predicerat y-värde tröskelvärde

Beslutsregel predicerat y-värde (Tröskelvärdet kan bakas in i parametern θ 0.)

Inspiration: Neuron dendriter synapser med andra neuroner axon Källa: Wikipedia cellkropp

Kommunikation mellan neuroner Neuroner kan kommunicera via synapser och dendriter, kopplingar mellan en sändande och en mottagande neuron. De mottagna signalerna ackumuleras i cellkroppen. Om den ackumulerade signalen är tillräckligt stor alstras en nervimpuls. ackumulering = summering, tillräckligt stor = tröskelvärde Nervimpulsen alstrar signaler till andra neuroner.

Perceptron-modellen x 1 θ 1 Σ f h(x) x 2 θ 2 1. Beräkna den viktade summan av alla in-signaler: z = θ x. 2. Beräkna ut-signalen med tröskelfunktionen: h(x) = f(z).

Räkneövning Beräkna h(x) för de angivna parametrarna/särdragsvärden: θ 0 θ 1 θ 2 0 +2 +2 0 +2 +2 0 +2 +2 x 0 x 1 x 2 1 +2 +1 1 2 1 1 2 +2

Geometriskt perspektiv θ 1 θ 2 x 1 x 2 θ 1 θ 2 x 1 x 2 θ 1 θ 2 x 1 x 2 +2 +2 +2 +1 +2 +2 2 1 +2 +2 2 +2

Beslutsgräns Den viktade summan θ x är > 0 om vinkeln mellan θ och x är < 90 grader < 0 om vinkeln mellan θ och x är > 90 grader = 0 om vinkeln mellan θ och x är = 90 grader Den linje som går genom de punkter där den viktade summan är noll definierar perceptronens beslutsgräns.

Beslutsgräns θ klass 0 klass 1

Felfunktion för perceptroninlärning I samband med linjär regression mätte vi felet för en enskild datapunkt som det kvadrerade avståndet mellan det predicerade värdet h(x) och målvärdet y. Hur ser denna kurva ut för perceptronen? fel 2 1,5 1 0,5 0-1,25 0 1,25 avstånd

Felfunktion för perceptroninlärning 2 2 1,5 1,5 fel 1 fel 1 0,5 0,5 0-1,25 0 1,25 0-1,25 0 1,25 avstånd avstånd linjär regression perceptroninlärning

Omöjlighet av gradientsökning Vi kan inte använda gradientsökning för att träna en perceptron: Felfunktionen är inte längre deriverbar. Därför behöver vi en annan inlärningsalgoritm.

Perceptroninlärning Börja med att sätta θ 0 (nollvektorn). För varje särdragsvektor x och målvärde y i träningsmängden: 1. Beräkna h(x): h(x) f(θ x) 2. Uppdatera parametervektorn: θ θ (h(x) y)x Upprepa tills klassifikationsfelet är tillräckligt litet.

Uppdateringsregel Samma uppdateringsregel som för gradientsökning! (Men inte längre gradientsökning!)

Analys av inlärningsalgoritmen Fall 1: h(x) = 0, y = 0 θ θ 0 Fall 2: h(x) = 1, y = 1 θ θ 0 Parametervektorn förblir oförändrad. Fall 3: h(x) = 0, y = 1 θ θ + x Parametervektorn flyttas mot x. Fall 4: h(x) = 1, y = 0 θ θ x Parametervektorn flyttas bort från x.

Fall 1: Korrekt klassificerat negativt exempel h(x) y h(x) y 0 0 ±0 θ 0 1 1 1 0 +1 1 1 ±0 θ θ 0 Parametervektorn ändras inte. x

Fall 2: Korrekt klassificerat positivt exempel h(x) y h(x) y 0 0 ±0 0 1 1 θ 1 0 +1 1 1 ±0 θ θ 0 Parametervektorn ändras inte. x

Fall 3: Felaktigt klassificerat positivt exempel h(x) y h(x) y 0 0 ±0 θ 0 1 1 1 0 +1 1 1 ±0 θ θ + x Parametervektorn flyttas mot x. x

Fall 4: Felaktigt klassificerat negativt exempel h(x) y h(x) y 0 0 ±0 0 1 1 θ 1 0 +1 1 1 ±0 θ θ x Parametervektorn flyttas bort från x. x

Analys av inlärningsalgoritmen Fall 1: h(x) = 0, y = 0 θ θ 0 Fall 2: h(x) = 1, y = 1 θ θ 0 Parametervektorn förblir oförändrad. Fall 3: h(x) = 0, y = 1 θ θ + x Parametervektorn flyttas mot x. Fall 4: h(x) = 1, y = 0 θ θ x Parametervektorn flyttas bort från x.