Nr, april -, Amelia Minsta kvadratmetoden. Ekvationssystem med en lösning, -fallet Ett linjärt ekvationssystem, som ½ +7y = y = har en entydig lösning om koefficientdeterminanten, här 7, är skild från noll. I detta fall har vi 7 =( ) 7= 6=. Determinanten är skild från noll då och endast då kolumnvektorerna är linjärt beroende. Ty om determinanten är noll, dvs a b c d = ad bc =, så kan vi lösa ut d = bc/a. µ a Det ger kolonnvektorerna och b, µ c d µ c = = {bryt ut c/a} bc/a µ a = c/a. b µ µ µ a c a Så de två kolonnvektorerna och = c/a är linjärt beroende b d b den ena är en faktor ac av den andra. Om a =kan vi i stället lösa ut c. En geometrisk tolkning av ekvationssystemet ½ +7y = y = är skärningen av två räta linjer, +7y =och y =. Båda ekvationerna uppfyllda betyder att punkten (, y) måste ligga på båda linjerna, dvs i skärningspunkten.
y.. - -. - -. - -.... -. -. tlösningen är = 6 och y =. En annan geometrisk tolkning av ekvationssystemet ½ +7y = y = är µ µ 7 + y = µ. Vi väljer här talen och y så att vektorn kan bildas som en linjärkombination av och 7, som är kolonnvektorer i matrisen. Uppenbarligen kan detta ske på endast ett sätt (vi har redan löst ekvationssystemet), och då måste = 6 och y =. Denna senare tolkning bygger minsta kvadratmetoden på. y.7.. - -.7 -. -....7 6. 7. -. -. -.7 - Vektorerna (, ), (7, ), (, ) och (7, ) (streckad).
. Ekvationssystem utan lösning Ekvationssystemet + y = +y = y = har inte någon lösning, för det representerar tre räta linjer som inte har någon gemensam punkt. y - - - - - - Men vad är den minst dåliga lösningen, den som är "ganska nära" alla tre räta linjerna? Problemet kan skrivas A = b. Det finns alltså inget så att A b = i detta fall. I brist på eakt lösning söker vi då istället ett så att vektorn A b är så kort som möjligt (om vi har en lösning så är längden av denna vektor noll). Det är grundidén i minsta kvadratmetoden. Vilka har vi att välja på? Vi tolkar uttrycket A som en linjärkombination av A:s kolonnvektorer, som vi kan beteckna med A och A : A = a + a a + a = {matrislagar} a + a = a a + a a a a = A + A. Här är och två reella tal. Vi söker bland alla tänkbara linjärkombinationer A + A, för olika och. De bildar ett plan i rummet som går genom origo (ty med = =får vi A +A =). Vektorn b ligger inteidettaplan,tyomb gjorde det så skulle vi kunna välja och så att vi har A + A = b alltså A = b.
Vektorn A b går mellan b ochenpunkta iplanet. Dennavektor är kortast då A b är ortogonal mot planet. Att den är ortogonal betyder att den är ortogonal mot alla vektorer i planet, bl.a. mot A och A, dvs att skalärprodukten är noll. Skalärprodukt av kolonnvektorerna u och v kan skrivas i matrisnotation som u T v. Att skalärprodukten mellan A och A b är noll kan skrivas A T (A b) =. Vi har också A T (A b) =. Dessa två ekvationer kan skrivas som en ekvation: A T (A b) =, dvs A T A = A T b. Definition Ekvationen A T A = A T b kallas normalekvationen. Observera att argumentet ovan gäller i vilken dimension som helst (om vi byter "plan genom origo" mot "linjärt rum"), dvs vi kan anta att A har dimension n m. Vi har visat att Theorem En lösning till A T A = A T b minimerar (A b). Här är vektornorm: = p +... + n. Observera att koefficientmatrisen A T A till detta ekvationssystem alltid är kvadratisk och symmetrisk. Kvadratisk ty om A har dimension n m så har A T dimension m n och A T A har dimension m m. Symmetrisk ty (A T A) T = {för matriser gäller ju (AB) T = B T A T } = A T (A T ) T = A T A. Så matrisen A T A är oförändrad vid transponering, således symmetrisk. A T A är emellertid inte alltid inverterbar. Om t.e. A är nollmatrisen, så kommer även A T A att vara nollmatrisen (men med annorlunda dimension), som inte är inverterbar. Vi har inte ännu undersökt om det alltid finns någon lösning till normalekvationen, eller under vilka villkor det finns flera lösningar. Vi räknar först ett eempel det ekvationssystem som är omnämnt ovan. Eempel Beräkna en minsta kvadratlösning till + y = +y = y = och medelfelet. Lösning: Vi har evationssystemet µ = y, så vi får
A = A T A = som ger µ µ = 6. Högerledet blir b = A T b = som ger µ µ =. 9 Normalekvationen A T A = A T b är i detta fall µ µ µ =. 6 y 9 µ µ Detta ger lösingen =. Detta är minsta kvadratlösningen. Det är y inte nödvändigtvis en mittpunkt i den triangel som bildas av tre linjer som inte är parallella och inte skär varandra i en gemensam punkt. Detta syns i nedanstående figur. y - - - - - - Svar: µ y µ =.
. Normalekvationens lösbarhet Naturligtvis har inte alla ekvationssystem med kvadratiska koefficientmatriser lösningar, inte ens om matrisen är symmetrisk (tag eempelvis A som nollmatrisen och ett högerled som inte är endast nollor). Men normalekvationen är inte vilket sådant ekvationssystem som helst, ty det har alltid lösningar. Orsaken är att vi har inte vilket högerled som helst, det är transformerat med A T. Theorem Normalekvationen A T A = A T b har alltid minst en lösning. Satsen följer från härledningen av normalekvationen. Minimum av funktionen A b eisterar eftersom det är en nedåt begränsad funktion ( ) och mängden tillåtna värden är icke-tom och en sluten mängd. Ett sådant minimum realiseras av en lösning till A T A = A T b, ty om är en lösning till normalekvationen och en punkt vilken som helst, så gäller att (Pythagoras sats!) A b = A( + ) b = A b + A( ) = A b + A( ) +( ) T A T (A b) {A T (A b) är noll!} = A b + A( ). Hur kan vi nu välja så att A b = A b + A( ) är minimalt? Jo genom att välja =,ty då försvinner den andra termen: A b = A b +. Alltså har normalekvationen alltid någon lösning, ty den sammanfaller med ett minimum som eisterar. Theorem Normalekvationen A T A = A T b har minst två lösningar om och endast om kolonnerna i A är linjärt beroende. Observera att kravet är att kolonnerna i A är linjärt beroende, inte kolonnerna i A T A, vilket vore självklart. En kvadratisk matris är ju inverterbar om och endast om dess kolonner är linjärt oberoende om och endast om motsvarande ekvationssystem har eakt en lösning. Man kan alltså genom att studera A avgöra om normalekvationen har en eller flera lösningar. Vi utelämnar detta bevis... Kurvpassning Minsta kvadratproblem kan också uppstå ur ett motsatt problem: kurvpassing. Här anpassar man en kurva till ett antal punkter, så att summan av kvadratfelen är så litet som möjligt. 6
Eempel 6 Antag att vi vill finna en rät linje som går genom punkterna (, ), (, ), (, ) och (, 6). Dessa fyra punkter ligger inte på rät linje, så någon eakt lösning finns inte. Vi söker en minstakvadratlösning, och medelfelet. Lösning: Insättning av punkterna i y = k + l ger de fyra kraven = k + l = k + l = k + l 6 = k + l. Men detta är ett linjärt ekvationssystem: Här får vi och så normalekvationen är här med lösning µ k l =. µ k = l. 6 µ µ = µ 6 µ µ k l = µ 9 = µ 9, 7
y 7 6 - - - Räta linjen. Summan av kvadraterna på följande sträckor minimeras av lösningen y =..
y 7 6 - - - Sträckor vars kvadratsumma minimeras. Funktionen y =.. tar i punkterna,,, och värdena.9,.,. respektive., medan de önskade värdena är,,, respektive 6. Felen är alltså.,.,. respektive.6. Det linjära medelfelet är då medelvärdet av beloppen ( n ( e +... + e n )) (.+.+.+.6) =.7. Det kvadratiska medelfelet ( np e +... + e n)ärhär. +.6 +.69 +.6 =.79. Det kvadratiska medelfelet minimeras när man använder minstakvadratmetoden. Svar: Rät linje y =. med kvadratiskt medelfel är. 79. Eempel 7 Bestäm den andragradskurva som bäst anpassar sig till punkterna (, ), (, ), (, ), (, ) iminstakvadratmeningochberäknamedelfelet. Lösning: Medy = a + b + c får vi här följande fyra villkor. a b + c = c = a + b + c = a +b + c =. 9
Vi får det linjära ekvationssystemet a b =. c Vi får A T A = = 6 6 6 och A T b = = 6. Normalekvaitonen A T A = A T b är ekvationssystemet 6 6 a b = 6. 6 c Detta ekvationssystem kan lösas med eempelvis Gausselimination. Det ger a =,b=/ och c = /. Minstakvadratlösningen är alltså +. y 7.. -...
Eftersom punktena är tagna osymmetriskt runt y-aeln, kommer lösningen att vara osymmetrisk (pga att termen finns med). Funktionen + tar i punkterna =,,, värdena.,.6,.6, 7. jämfört med de önskade,,,. Vi har alltså det kvadratiska medelfelet. +.6 +.6 +. =. 6. Svar: Minstakvadratlösningen är + med kvadratiska medelfelet.6. Eempel Bestäm den andragradskurva som bäst anpassar sig till punkterna (, ), (, ), (, ), (, ), (, ) i minsta kvadratmening, och beräkna medelfelet. Till skillnad från förra problemet är dessa punkter symmetriskt placerad runt y-aeln, och vi får en symmetrisk minstakvadratlösning vi får b =. Lösning: Medy = a + b + c får vi från de fem punkterna fem villkor. a b + c = a b + c = c = a + b + c = a +b + c =. På liknande sätt får vi det linjära ekvationssystemet a b = c. Så A T A = =, och : A T b = = 66.
Normalekvationen blir nu a b = 66, c 7 som har lösning. Nu får vi alltså andragradskurvan 7, som är symmetrisk, till skillnad från i det förra fallet. y 7.. -. -... Vi har 7 = 76 och 7 r =, så får här det kvadratiska medelfelet ( 76 ) +( ) +( ) +( ) +( 76 ) =.9. Medelfelet blev något mindre med en punkt till. Man får inte nödvändigtvis bättreöverensstämmelsemedflera punkter, ty överensstämmelsen beror på vilken del av funktionen ( ) vi arbetar med hur bra den stämmer överens med approimerande funktion i området. Svar: y = 7, kvadratiskt medelfel.9.. Kvasiinvers Som bekant är en delmängd av de kvadratiska matriserna inverterbara. Om A är inverterbar så finns det en annan kvadratisk matris med samma dimension, inversen A, så att AA = E och A A = E.
För en icke inverterbar matris A, som inte ens behöver vara kvadratisk, kan man emellertid definera en kvasiinvers, betecknat med A +. Om A är inverterbarsåärinversenkvasiinversen(a + = A ). Om man vill lösa ekvationssystemet A = b för en generell matris A, så kommer = A + b att vara just en minsta kvadratlösning om ekvationssystemet saknar eakta lösningar. Dessutom, om det finns många minstakvadratlösningar, så kommer = A + b att vara den minstakvadratlösning som är närmast origo. Vi går här inte in på eplicit definition och beräkningsalgoritmer för kvasiinversen. Symboliska programvaror som MATLAB ger ofta kvasiinversen till en matris om den inte är inverterbar, utan någon särskild kommentar.