Differentialens geometriska betydelse

Analys 360 En webbaserad analyskurs Differentialkalkyl Differentialens geometriska betydelse Anders Källén MatematikCentrum LTH anderskallen@gmail.com

Differentialens geometriska betydelse 1 (9) Introduktion Vi ska i det här kapitlet tolka differentialen mer geometriskt och då bl.a. ur ett vektorperspektiv. Mer precist, vi ska ge en alternativ beskrivning av vad differentialen i en punkt är för något. Vi har definierat den som en linjära avbildning, men nu ska vi betrakta den som en vektor, den s.k. gradienten. Det svarar mot när vi i endimen betraktar riktningskoefficienten f (a) istället för differentialen df(a) som är den linjära avbildningen h f (a)h. Vi ska studera den geomtriska betydelsen av gradienten. Vi ska se att den pekar i den riktning funktionen växer snabbast, och att den därmed är vinkelrät mot den nivåkurva punkten ifråga ligger på. Sedan ska vi använda gradienten till att bestämma vilken väg en klättrare på ett berg ska ta, om han hela tiden vill klättra där det är som brantast. Gradient och riktningsderivata Vi börjar med att påminna oss definitionen av differentialen. En reellvärd funktion f sägs vara differentierbar i en punkt a om vi kan skriva f(a + h) f(a) = A(a, h)h där h är en kolonnmatris och A(a, h) en radmatris (A 1 (a, h),..., A n (a, h)), och där A(a, h) är kontinuerlig i h = 0, Här vet vi att A k (a, 0) = k f(a) är den partiella derivatan i punkten a av f m.a.p. x k. Funktionen df(a)[h] = A(a, 0)h kallar vi differentialen av f i punkten a. Den är en linjär funktion av h. Radmatrisen A(a, 0) betecknas f (a) (och är f:s funktionalmatris). Vi har då att df(a) = f (a)dx = n k f(a)dx k, k=1 där dx är kolonnmatrisen med element dx k. En riktning i planet bestäms lämpligen av en vektor v av längd ett, alltså sådan att v = 1. Tar vi en sådan vektor och skriver h = tv får vi att f(a + tv) f(a) lim t 0 t = lim t v A(a, tv)v = A(a, 0)v = df(a)[v]. (1) Detta ger oss en geometrisk tolkning av differentialen uträknad i enhetsvektor v som riktningsderivatan av f i punkten a i riktning av v. I en tvådimensionell situation, med x = (x, y) mäter riktningsderivatan lutningen av ytan z = f(x, y) i punkten a i riktningen v. Med lutning menas hur stor ändring det sker i z-led när vi rör oss en längdenhet i riktningen ifråga.

Differentialens geometriska betydelse 2 (9) Anmärkning Låt oss jämföra detta med endim. I endim har vi df(a)[h] = f (a)h. Vi har två riktningar från a, nämligen ±1. Vi får då först att df(a)[1] = f (a), vilket betyder precis att f (a) är riktningsderivatan åt höger. Sedan har vi att df(a)[ 1] = f (a), vilket är riktningsderivatan åt vänster. Så riktningsderivatan är detsamma som riktningskoefficient, bara det att vi behöver specificera i vilken riktning vi mäter den. Speciellt ser vi (i två dimensioner) att df(a)[(1, 0)] = 1 f(a), df(a)[(0, 1)] = 2 f(a). De partiella derivatorna är alltså inget annat än speciella riktningsderivator, de i riktning av de positiva koordinataxlarna. Exempel 1 Vi ska beräkna riktningsderivatan i riktningen ( 3, 4) av funktionen f(x, y) = y 2 x 2 4x 3 i punkten (1, 5). Vi har då att df(x, y) = 2(x+6x 2 )dx+2ydy, vilket betyder att df(1, 5) = 14dx+ 10dy. För att beräkna riktningsderivatan måste vi först normera riktningsvektorn. Eftersom denna har längden 5, sätter vi v = ( 3, 4 ). Den sökta riktningsderivatan 5 5 ges nu at df(1, 5)[v] = 14v 1 + 10v 2 = 14 3 5 + 104 5 = 82 5. I punkten (1, 5) går det alltså uppför med lutningen 82/5 i riktningen ( 3, 4). Vi kan alternativt lösa uppgiften mer direkt genom att stoppa in uttrycket (1) för riktningsderivatan. Vi sätter då in (x, y) = (1, 5) + t( 3, 4)/5 i funktionen och får g(t) = ( 25 + 4t 5 ) 2 ( 5 3t 5 ) 2 4( 5 3t ) 3 = 20 + 82t 5 5 101t2 25 108t3 125. Den sökta riktningsderivatan ges då av g (0) = 82/5, vilket är samma resultat som ovan. För att få en bild av vad riktningsderivatan beskriver i två dimensioner betraktar vi en bergsklättrare som klättrar på ett berg som beskrivs av funktionsytan z = f(x, y). Antag att hans position på kartan är (a, b), och han alltså befinner sig i punkten (a, b, f(a, b)) i verkligheten. Om han på kartan tar ut en viss kompassriktning, beskriven av den normerade vektorn v = (v 1, v 2 ), så svarar riktningsderivatan i punkten (a, b) i riktningen v mot bergets stigning där, i den kompassriktningen. Om vi inför vektorn grad f(a) = ( 1 f(a),..., n f(a)) kan vi skriva riktningsderivatan som en skalärprodukt av två vektorer df(a)[v] = grad f(a) v.

Differentialens geometriska betydelse 3 (9) Här är skalärprodukten av två vektorer x = (x 1,..., x n ), y = (y 1,..., y n ) detsamma som summan n x y = x i y i. i=1 Anmärkning Skillnaden mellan gradienten grad f(a) och funktionalmatrisen f (a) är subtil: den senare är en radmatris, den förra en vektor. Bättre är att tänka på det som att vi har två olika beteckningar för samma sak, men att gradient är något som pekar ut en riktning. Diskussionen ger oss också en tolkning av gradienten. Vi vet nämligen att vi kan skriva x y = x y cos θ, där θ är vinkeln mellan vektorerna x, y. Ur detta får vi att för riktningsderivatan gäller att df(a)[v] = grad f(a) v = grad f(a) cos θ. Vi ser alltså att df(a)[v] grad f(a) med likhet precis då v och grad f(a) har samma riktning. Med andra ord Sats 1 Vektorn grad f(a) pekar i den riktning från punkten a i vilken funktionen växer fortast. Stigningshastigheten i den riktningen ges av dess absolutbelopp grad f(a). Exempel 2 Antag att vår bergsklättrares berg beskrivs av höjdfunktionen f(x, y) = 5 x 2 2y 2. Om han befinner sig i den punkt som på kartan är ( 3/2, 1) och vill gå i den riktning som har maximal stigning, vilken riktning ska han då välja? Enligt satsen ska vi först räkna ut df(x, y) = 2xdx 4ydy df( 3, 1) = 3dx + 4dy. 2 Det betyder att gradienten ges av grad f( 3, 1) = (3, 4), 2 så enligt observationen ovan är det den riktning ha ska gå i. Stigningen i denna punkt ges av grad f( 3 2, 1) = 3 2 + 4 2 = 5.

Differentialens geometriska betydelse 4 (9) Differentialen och nivåer Låt oss fortsätta med att betrakta en bergsklättraren som vill följa en väg som hela tiden har en så kraftig stigning som möjligt. På kartan är bergets höjd angivet genom höjdkurvor, dvs som nivåkurvor till funktionen. Intuitivt förefaller det nu klart att en väg som hela tiden har maximal stigning på kartan svarar mot en kurva som skär höjdkurvorna vinkelrät. Vi ska nu se att så är fallet, inte bara för funktioner av två variabler, utan också för funktioner av flera variabler (lämpligt omformulerat). Vi börjar med att betrakta en funktion av två variabler f och en punkt a sådan att f är differentierbar i den punkten. Då gäller att ekvationen f(x) = f(a) definierar en nivåkurva till funktionen f, nämligen den som går genom punkten a. Vi kan parametrisera den kurvan nära punkten a genom en funktion c : I R 2 så att c(0) = a. Då vet vi att p grad f(p) f(c(t)) = f(a), t I. f = 0 df(p) = 0 Deriverar vi den relationen med avseende på t får vi då att df(c(t))[c (t)] = 0 grad f(c(t)) c (t) = 0. Det betyder att vektorn grad f(c(t)) är vinkelrät mot vektorn c (t), vilken i sin tur är en tangentvektor till nivåkurvan. Slutsatsen blir att Sats 2 För en funktion av två variabler gäller att gradienten i en punkt är vinkelrät mot tangenten till den nivåkurva till funktionen som går genom punkten. Exempel 3 Vektorn n = (a, b) är normal till den räta linjen ax + by = c. Denna räta linje är nämligen nivåkurva till funktionen f(x, y) = ax+by vars gradient är (a, b) i alla punkter. Nästa exempel visar hur man kan använda detta till att bestämma tangenten till en kurva som är given på implicit form.

Differentialens geometriska betydelse 5 (9) Exempel 4 Vi ska bestämma ekvationen för tangenten i punkten (1, 5) till kurvan y 2 = x 2 + 4x 3 + 20. Vi gör detta genom att observera att kurvan är nivåkurva till funktionen f(x, y) = y 2 x 2 4x 3, nämligen för nivån 20. Räkningarna bygger nu på observationen att f(x, y) = C df(x, y) = 0. Vi har att df(x, y) = (2x + 12x 2 )dx + 2ydy df(1, 5) = 14dx + 10dy. Sista steget här är att sätta dx = x 1 och dy = y 5, så att vi får ekvationen 14(x 1) + 10(y 5) = 0 7x 5y = 18. Detta är ekvationen för tangenten till nivåkurvan i den punkten. I varje punkt där funktionen f är differentierbar finns alltså en gradientvektor. Det betyder att funktionen grad f är en funktion R n R n. I fallet n = 2 (och i princip i fallet n = 3 också) kan vi illustrera denna genom att i varje punkt a i kartan rita en vektor som beskriver gradienten grad f(a) i den punkten. Härigenom definieras ett vektorfält i kartan, gradientfältet. Genom att studera detta kan vi få en viss uppfattning om hur funktionsytan ser ut, eftersom gradienten alltid pekar i den riktning där stigningen är störst. Om vi t.ex. betraktar figuren till höger där både nivåkurvor och gradientfält är antydda (vi kan aldrig rita ut alla gradienter, lika lite som vi kan rita ut alla nivåkurvor). För att göra bilden tydligare har alla gradienter normerats till längd ett i figuren. Eftersom gradienten pekar i en riktning där ytan växer, ser vi att om vi går mot höger från centrum kommer vi att gå uppåt, medan om vi går mot vänster kommer vi att gå nedåt. Vi ser också att alla vektorer pekar bortåt från den röda punkten, vilket berättar att den punkten är ett lokalt minimum. Två andra punkter av intresse är de blå punkterna som båda ligger på två olika nivåkurvor som skär varandra i dessa punkter. Nära en sådan punkt delas omgivning upp i fyra delområden där det pekar uppåt i två och nedåt i två från punkten. De är sadelpunkter på ytan. Om alla pilarna i en omgivning av en punkt väsentligen pekar i riktning bort från punkten a (mer och mer ju närmre punkten vi kommer), så kommer a att vara ett lokalt minimum för funktionen. Detta därför att när vi rör oss uppåt så brant det går, rör vi oss hela tiden bort från punkten a. Om vi vänder på alla pilarna betyder figuren att om vi klättrar uppåt på ytan när vi närmar oss punkten a. I den situationen är a ett lokalt maximum.

Differentialens geometriska betydelse 6 (9) Motsvarande är sant även för funktioner av fler variabler. Antag nu t.ex. att vi har en funktion av tre variabler, a en punkt i vilken den är differentierbar och betrakta vad som nu är en nivåyta: f(x) = f(a). Betrakta nu en kurva i denna yta som går genom den aktuella punkten. Mer precist, betrakta en kurva c : I R 3 sådan att f(c(t)) = f(a) för alla t och c(0) = a. Samma resonemang som ovan ger då att grad f(a) är vinkelrät mot denna kurvas tangent. Men till varje tangentvektor till nivåytan kan vi hitta en sådan kurva, vilket betyder att Sats 3 För en funktion av tre variabler gäller att gradienten i en punkt är vinkelrät mot tangentplanet till den nivåyta till funktionen som går genom punkten. Exempel 5 Att bestämma tangentplanet till ytan z = f(x, y) i punkten (a, b, f(a, b)) kan göras genom att man noterar att ytan är nivåyta till funktionen g(x, y, z) = z f(x, y) i punkten ifråga. Denna bestämmer vi ur ekvationen dg(x, y, z) = 0, alltså dz df(x, y) = 0 dz = f (a, b)dx + 2 f(a, b)dy, varefter vi sätter in dx = x a, dy = y b, dz = z f(a, b) i detta. Det ger oss z f(a, b) = f (a, b)(x a) + 2 f(a, b)(y b), vilket är den vanliga ekvationen för tangentplanet till en funktionsyta. Naturligtvis kan man generalisera detta senare resonemang till att visa ett motsvarande påstående för funktioner av fler än tre variabler. Vägar med maximal stigning Vi kan utvidga diskussionen i förgående avsnitt till att bestämma hela vägar med maximal stigning på en funktionsyta. För att fixera beteckningarna, låt z = f(x, y) vara en funktionsyta och c(t) = (x(t), y(t)) en kurva i dess karta. Det innebär att r(t) = (x(t), y(t), f(x(t), y(t)) blir motsvarande kurva på ytan. Så r(t) betecknar kanske en stig på ett berg medan c(t) är dess beskrivning på kartan. Villkoret för att kurvan r(t) ska ha maximal stigning i varje punkt blir nu att kartkurvans tangent c (t) = (x (t), y (t)) ska ha samma riktning som gradienten, grad f(c(t)) i alla punkter på kurvan: c (t) = λ(t) grad f(c(t)) (x (t), y (t)) = (λ(t) 1 f(x(t), y(t)), λ(t) 2 f(x(t), y(t))).

Differentialens geometriska betydelse 7 (9) Utskrivet har vi alltså differentialekvationssystemet { x (t) = λ(t) 1 f(x(t), y(t)) y (t) = λ(t) 2 f(x(t), y(t)) att lösa. Proportionalitetskonstanten λ(t) kan här variera från punkt till punkt på kurvan, men om vi bara säker kurvan, alltså bilden γ = {c(t); a t b}, så kan vi sätta den till ett överallt. Det ger oss ett ekvationssystem som vi kan lösa, åtminstone numeriskt, för att finna vägen. Ett annat sätt att eliminera proportionalitetskonstanten är att istället titta på riktningskoefficienterna. Riktningskoefficienten för en vektor (a, b) är b/a, så tangentvektorn har riktningskoefficienten y (t)/x (t) medan gradienten har riktningskoefficienten 2 f(c(t))/ 1 f(c(t)). Det betyder att y (t) x (t) = 2f(x(t), y(t)) 1 f(x(t), y(t)). Med hjälp av detta kan vi ibland bestämma sådana vägar. Detta fr.a. om vi kan separera variablerna x(t) och y(t) som i följande exempel. Exempel 6 Betrakta åter bergsklättraren i Exempel 2. Han beslutar sig för att inte bara i första steget utan hela vägen välja den absolut brantaste vägen till toppen. Hur ska han välja den? Vi har sett att grad f(x, y) = ( 2x, 4y), så villkoret ovan blir y (t) x (t) = 4y(t) 2x(t) y (t) y(t) = (t) 2x x(t). Detta känner vi igen som allometriekvationen. Integrerar vi den finner vi att Här bestäms C av starvillkoret: Det följer att ln y(t) = 2 ln x(t) + C. ln 1 = 2 ln 3 2 + C C = ln 4 9. y(t) = 4 9 x(t)2. Eftersom kurvan ska starta i punkten ( 3, 1), måste y(t) vara negativ, åtminstone 2 i början. Det följer att kurvan beskrivs av de (x, y) som uppfyller y = 4 9 x2, 3 2 x 0. (Toppen ligger i (0, 0), så där slutar kurvan.) Vägen i kartan liksom på berget illustreras i figuren nedan.

Differentialens geometriska betydelse 8 (9) Vi kan använda ovanstående idéer till att numeriskt försöka finna en lokal extrempunkt för en funktion. Antag att funktionen f har ett lokalt maximum i punkten (a, b). Vi vet dock inte detta, men har gissat oss till en punkt (a 0, b 0 ) som bör ligga i närheten. För att finna (a, b) skulle vi då kunna förfara så att vi från startpunkten på kartan går rakt ut i gradientens riktning och betraktar f:s värden på denna linje, dvs funktionsvärdena φ(t) = f((a 0, b 0 ) + tgrad f(a 0, b 0 )). Vi bestämmer sedan det t som gör denna funktion så stor som möjligt. I praktiken söker man inte maximum av φ(t), utan nöjer sig med att hitta något t 1 som gör φ(t 1 ) > φ(0). Man börjar t.ex. med t = 1 och halverar t tills villkoret är uppfyllt. Sedan sätter man (a 1, b 1 ) = (a 0, b 0 ) + t 1 grad f(a 0, b 0 ). Därefter beräknar man gradienten i den nya punkten och skaffar sig nya värden. På detta sätt håller man på tills man kommit tillräckligt nära maximipunkten. Vilket man märker genom att gradienten blir försvinnande liten (och då är det svårt att gå vidare). Exempel 7 Vi söker maximipunkt för funktionen f(x, y) = 5 x 2 2y 2 och har som närmevärde ( 1.5, 1). Om vi använder metoden ovan med t = 0.2 som start för t ger de första 10 iterationerna följande tabell (se också polygonkurvan i den vänstra figuren ovan). n x n 1 grad f(x n 1 ) t f(x n ) 1 ( 1.500, 1.000) (3.000, 4.000) 0.2 4.110 2 ( 0.900, 0.200) (1.800, 0.800) 0.2 4.705 3 ( 0.540, 0.040) (1.080, 0.160) 0.2 4.895 4 ( 0.324, 0.008) (0.648, 0.032) 0.2 4.962 5 ( 0.194, 0.002) (0.388, 0.006) 0.2 4.986 6 ( 0.117, 0.000) (0.233, 0.001) 0.2 4.995 7 ( 0.070, 0.000) (0.140, 0.000) 0.2 4.998 8 ( 0.042, 0.000) (0.084, 0.000) 0.2 4.999 9 ( 0.025, 0.000) (0.050, 0.000) 0.2 5.000 6 ( 0.015, 0.000) (0.030, 0.000) 0.2 5.000

Differentialens geometriska betydelse 9 (9) Här har vi skrivit x n = (a n, b n ). Vi ser att vi närmar oss (0, 0), som sig bör, men det går långsamt mot slutet. Detta är typiskt för denna metod, vilket gör att den inte gärna används när man är nära en lokal extrempunkt. Då finns det snabbare numeriska metoder. Däremot har denna metod fördelen att den alltid letar sig uppåt, vilket är en god egenskap om vi har gjort en dålig första gissning av den lokala maximipunkten. Vi ser också ur tabellen ovan att gradienten går mot (0, 0). Detta stämmer väl med den tidigare gjorda observationen att en lokal extrempunkt är en stationär punkt.