Multipel linjär regression

Relevanta dokument
förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 12: Regression

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Enkel linjär regression

Laboration 4: Lineär regression

Stokastiska vektorer och multivariat normalfördelning

15 september, Föreläsning 5. Tillämpad linjär algebra

Dagens program. Linjära ekvationssystem och matriser

Grundläggande matematisk statistik

10.1 Enkel linjär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 12: Linjär regression

Laboration 2: Styrkefunktion samt Regression

5 Linjär algebra. 5.1 Addition av matriser 5 LINJÄR ALGEBRA

Linjär Algebra M/TD Läsvecka 2

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Lektionsanteckningar 11-12: Normalfördelningen

Subtraktion. Räkneregler

1 Förberedelseuppgifter

1 Förberedelseuppgifter

14 september, Föreläsning 5. Tillämpad linjär algebra

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Enkel och multipel linjär regression

LÖSNINGAR TILL UPPGIFTER TILL RÄKNEÖVNING 1

Matematisk statistik, Föreläsning 5

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistisk försöksplanering

Regressions- och Tidsserieanalys - F4

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

2.1 Mikromodul: stokastiska processer

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 7: Stokastiska vektorer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

SKRIVNING I VEKTORGEOMETRI

Dagens program. Linjära ekvationssystem och matriser

MATRISTEORI. Pelle Pettersson MATRISER. En matris är ett rektangulärt schema med tal, reella eller komplexa, vilka kallas matrisens

Laboration: Vektorer och matriser

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

1 Linjära ekvationssystem. 2 Vektorer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Härledning av Black-Littermans formel mha allmänna linjära modellen

Laboration 2 multipel linjär regression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Examinationsuppgifter del 2

Enhetsvektorer. Basvektorer i två dimensioner: 1 1 Basvektorer i tre dimensioner: Enhetsvektor i riktningen v: v v

6.4. Linjära ekvationssytem och matriser

1. (Dugga 1.1) (a) Bestäm v (3v 2u) om v = . (1p) and u =

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Metod och teori. Statistik för naturvetare Umeå universitet

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

F13 Regression och problemlösning

Statistisk försöksplanering

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

6. Matriser Definition av matriser 62 6 MATRISER. En matris är ett rektangulärt schema av tal: a 11 a 12 a 13 a 1n a 21 a 22 a 23 a 2n A =

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning G60 Statistiska metoder

Laboration 5: Regressionsanalys

SKRIVNING I VEKTORGEOMETRI

Föreläsning 7: Punktskattningar

Matriser. En m n-matris A har följande form. Vi skriver också A = (a ij ) m n. m n kallas för A:s storlek. 0 1, 0 0. Exempel 1

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

5.7. Ortogonaliseringsmetoder

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

8 Minsta kvadratmetoden

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Laboration 4 R-versionen

MVE051/MSG Föreläsning 14

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

1 Grundläggande kalkyler med vektorer och matriser

Grundläggande matematisk statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Studiehandledning till linjär algebra Avsnitt 1

SKRIVNING I VEKTORGEOMETRI Delkurs

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

TMV166 Linjär algebra för M. Datorlaboration 2: Matrisalgebra och en mekanisk tillämpning

TANA09 Föreläsning 5. Matrisnormer. Störningsteori för Linjära ekvationssystem. Linjära ekvationssystem

TMS136. Föreläsning 13

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 7: Punktskattningar

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

STATISTISK ANALYS AV KOMPLEXA DATA

% Föreläsning 3 10/2. clear hold off. % Vi börjar med att titta på kommandot A\Y som löser AX=Y

Gausselimination fungerar alltid, till skillnad från mer speciella metoder.

Stokastiska vektorer

Statistiska metoder för säkerhetsanalys

Transkript:

Multipel linjär regression

Motiverande exempel: effekt av sjukhusstorlek

Multipel kausalitet En aktuell fråga: Svårare fall av urinblåsecancer behandlas ofta med cystektomi, det vill säga att man opererar bort urinblåsan. De senaste åren har man börjat koncentrera verksamheten till färre ställen. Frågan är nu om detta också gjort vården bättre.

Färgningen beror av antalet cystektomier de föregående tre åren

Centraliseringen är påtaglig

Resultatmått Knappast imponerande! Kan det dock vara så att man tagit sig an svårare patienter?

Lite spretigt! Fler äldre Fler med komorbiditet Men färre T3, och T-stadium är en viktig prediktor Kön är inte så viktigt

Varaktigheten av besöket på sjukhuset Ålder CCI T-stadium Kön VARAKTIGHET Sjukhusstorlek Statistisk modell i princip (Notera logaritmen!): log(varaktighet)=b0+b1*sjukhusstorlek+b2*ålder+ B3*CCI+B4*T-stadium+B5*kön+slumpfel Teknik: Uppskatta B0, B1,.,B5 och se hur stora de blir. Om B1 uppskattas större än vad man kan förvänta av en ren slump när B1 = 0, kallar vi effekten av Sjukhusstorlek statistiskt signifikant

Multipel linjär regression - - Ett försök att bringa reda i en oändligt komplex verklighet. Utför den med ödmjukhet! Resultaten kan och bör alltid ifrågasättas.

>> L = [0.21-0.86 0.76; -0.86 5.52-5.68; 0.76-5.68 6.31] L= 0.2100-0.8600 0.7600-0.8600 5.5200-5.6800 0.7600-5.6800 6.3100 >> R = [82.89 50.30 36.35]' R= 82.8900 50.3000 36.3500 >> L*R ans = 1.7749-0.0974 6.6609

2 Tre skattade parametrar: σ skattas med 30-3=27 frihetsgrader s2=q0/27=4.72/27=0.1748 s=0.4181

95 % konfidensintervall för β0, β1 och β2:

Alltså kan det givna ekvationssystemet Skrivas på det kompakta sätter. Lägg märke till att det inte gör något att den andra förklarande variabeln är kvadraten på den första. Ett kvadratiskt beroende görs alltså om till en term som fungerar precis som en linjär. Fråga till den som minns skolfysiken: Konfidensintervallet för β1 är (-2.11,1.92), dvs är inte signifikant skild från noll: Tolkning?

Multipel linjär regression Vi observationer av en responsvariabel y, som antas bero både på slump och på linjärt på ett antal förklarande variabler x1,...xp: Detta kan skrivas på matrisform:

Slutsats: Det vimlar av matriser. Låt oss ge dem några minuter.

Repetition av matriser

Matrisalgebra - addition och subtraktion Addition är bara att lägga ihop respektive element. Subtraktion fungerar analogt. Det är bara matriser av samma dimension som kan adderas och subtraheras.

Matlab >> [2 7 2;3-9 1/3] >> [2 7 2;3-9 1/3]+[-2 5 2;0 7 2/3] En smidigare lösning: Spara matriserna i variablerna L ( left ) och R ( Right ) ans = ans = 2.0000 7.0000 2.0000 3.0000-9.0000 0.3333 0 12 3-2 4 1 >> L = [2 7 2;3-9 1/3]; >> R = [-2 5 2;0 7 2/3]; >> [-2 5 2;0 7 2/3] >> L+R ans = ans = -2.0000 0 5.0000 7.0000 2.0000 0 12 4 0.6667 3-2 1

Matrismultiplikation Matrismultiplikation C = AB: Multiplicera - element 1 i rad As rad i med element 1 i Bs kolonn j element 2 i rad As rad i med element 2 i Bs kolonn j Summera till element (i,j)

Matlab >> [1 2 3;4 5 6] >> [1 2 3;4 5 6]*[7 10;8 11;9 12] ans = 1 2 En smidigare lösning: Spara matriserna i variablerna L ( left ) och R ( Right ) 3 ans = 4 5 6 >> L = [1 2 3;4 5 6]; >> R = [7 10;8 11;9 12]; >> L*R >> [7 10;8 11;9 12] 50 ans = 68 ans = 7 10 8 11 9 12 122 167 50 68 122 167

Matriser måste vara kompatibla >> [3 4;5 6] +[2 9 1;3 4 5] Matrix dimensions must agree. >> [3 4;5 6]*[2 9 1;3 4 5] ans = 18 43 23 28 69 35 >> [2 9 1;3 4 5]*[3 4;5 6] Error using * Inner matrix dimensions must agree. Matriserna A och B kan multipliceras om A har lika många kolonner som B har rader.

Transponering byter plats på rader och kolonner

Transponering är apostrof i Matlab

Regler för transponering av produkten av matriser (AB)T=BTAT. (ABC)T=CTBTAT (AT)T=A Nedanstående gäller visserligen inverser, men reglerna är analoga. (Inverser kommer vi till. Matriser där transponat och invers sammanfaller kallas ortogonala.)

Identitetsmatrisen Identitetsmatrisen fungerar alltså som en etta för matrismultiplikation. IB = B. Man kan lätt kolla att även BI=B. Detta gäller naturligtvis bara om I har lika många rader (och kolonner) som Bs rader i det första fallet och som Bs kolonner i det andra.

I Matlab heter identitetsmatrisen eye

Matrisinvers - bara för symmetriska matriser För kvadratiska matriser A med full rang (dvs. kolonnerna är linjärt oberoende) existerar en entydligt bestämd matris A-1 så att AA-1=A-1A=I, där I är identitetsmatrisen: Identitetsmatrisen har egenskapen att IB=B CI=C närhelst B och C har rätt dimension och fungerar alltså som en etta i matrismultiplikation.

Invers matris Det är alltid möjligt att invertera matriser för hand, även om det ofta är krångligt när de är stora. Men det behövs nästan aldrig. Matlab, eller något annat programm - eller en avancerad miniräknare - kan göra jobbet.

Här kommer en speciell form av inverser att dominera (För enkelhets skull visar jag för tre kolonner med n>3) ATA är inverterbar om och bara om kolonnerna i A är linjärt oberoende. Lägg för märke till att ATA är symmetrisk, dvs. (ATA)T=A^TA.

Ekvationssystem kan formuleras med matriser Om Ekvivalent skrivning: skriver vi Om n>3 har denna ekvation oftast ingen lösning.

Minsta kvadrat-lösning Även om denna ekvation saknar lösning, så kan man finna minsta kvadrat-lösningen, dvs det x som minimerar ur lösningen till ekvationen Denna ekvation har entydig lösning om A har oberoende kolonner. I så fall har över ATA full rang, och lösningen kan skrivas

Exempel, Olbjer 11:4, bromssträcka för en truck En platschef tror att bromsstäckan för en truck beror av farten och av lasten och sätter upp modellen: Bromssträcka = A+B*Fart+C*Last (Att denna modell bara kan gälla för begränsade värden på Fart och Last, eftersom bromssträckan är noll då Farten än noll.) Vederbörande platschef samlar in data och lägger i en vektor (kolonnmatris) och en

I Matlab ser det ut så här Bromssträckor: En kolonn med ettor, farten (m/s) och lasten (ton) Ettorna är där för att då kan ekvationen skrivas som:

Ingen äkta lösning, men minsta-kvadrat-lösning

Platschefen kan nu uppskatta bromssträckan Nu kan varje uppskattat värde jämföras med det verkliga. Inte så illa, men detta är ju en statistikkurs Vi behöver feluppskattningar!

Slumpvektorer Tidigare hade vi endimensionella slumpvariabler, som bland annat karaktäriserades av väntevärde och varians. En flerdimensionell slumpvariabel är helt enkelt flera endimensionella variabler samlade i en vektor, representerad som en kolonnmatris: Med väntevärdet menas bara de enskilda väntevärdena samlade i en vektor:

Variansen motsvaras av kovariansmatrisen Denna definition är inte så mycket att fästa sig vid. Notera att diagonalelementen är varianserna av komponenterna. De övriga elementen är kovarianser mellan elementen. Det man verkligen använder är räknerregler: om B är en konstant matris - dvs. inte en slumpmatris.

Allmänna räkneregler Om a är en konstant vektor (kolonnmatris), A en konstant matris och X en slumpvektor, så gäller om matriserna är kompatibla: Vi kommer inte att använda särskilt mycket matrisalgebra, men detta behövs. Om A är en radvektor, får vi tillbaka en endimensionell vektor.

Tillbaka till ursprungsproblemet Det enda som varierar slumpmässigt här är E, men notera att β består av okända parametrar, som vi kan vilja skatta. Detta kan skrivas på matrisform:

Notationen ser lite annorlunda ut i regression Nu låter skattar vi parametrarna som minsta kvadrat-lösningen till Y=Xβ. Annars brukar X vara slumpvariabeln. Nu är det E som varierar slumpmässigt. X består av kända kovariatvärden och de konstanter som ska skattas är samlade i vektorn β.

Formelsamlingen!

En enkel tillämpning Låt oss börja med ett intervall för β0. Även om det är ett omständligt sätt att skriva en enkel sak, gäller Precis samma logik gäller för β1*, β2*,...,βp*.

Age and weight are to be related to blood fat content. # # # # # # # D G Kleinbaum and L L Kupper, Applied Regression Analysis and Other Multivariable Methods, Duxbury Press, 1978, page 149. Helmut Spaeth, Mathematical Algorithms for Linear Regression, Academic Press, 1991, ISBN 0-12-656460-4.

Beror blodfett på ålder och vikt? 25 observationer. Data har laddats ned till:

Alltid plotta!

Skapa designmatrisen och (inte helt nödvändigt) Y

Inversmatrisen och skattningarna av β Kontroll att det stämmer:

Residualkvadratsumman och s

Man kan få ut diagonalelementen med diag Därför kan man få ut respektive gräns för konfidensintervallen på en enda rad: Kontroll:

Tolkning Vi satte vikt som första och ålder som andra förklarande variabel (kovariat). Detta tolkas som att ålder saknar betydelse för blodfett medan vikten har betydelse.

Eftersom ålder inte ser ut att ha effekt reduceras modellen

.. eller varför inte använda reggui? >> reggui(weight,bloodfat) En vag misstanke om seriellt beroende, men vi struntar i det.

Ännu fattas vi en del för att lösa nedanstående På detta vis kan vi lösa följande uppgifter: 6.26-6.22 a, b och d 6.26 a-e 6.27 a-c 6.27

Här är vad som fattas (ur formelsamlingen) Vi kan också behöva det analoga prediktionsintervall som bara beskrivs i boken och inte står med i formelsamlingen:

Truck-exemplet igen - omparametrisera

En statistisk modell Skattningen av x0tβ görs så här: Ett konfidensintervall för det förväntade värdet när när x1=0.85 m/s och x2=0.75 ton.

Samma beräkningar för prediktionsintervall 95 % CI: (0.41,0.49) 95 % PI: (0.38,0.51) Med ett så litet datamaterial är det förväntat att felet i uppskattningen av parametrarna dominerar över felet i prediktionen.

Residualanalys Är avvikelserna från modellen oberoende, likafördelade och rimligt normalfördelade?

Residualanalys När vi har enkel linjär regression är det ett verkligt alternativ att plotta data och se hur bra modellen stämmer. När vi har många förklarande variabler, faller den direkta undersökningen av grafen bort som alternativ, eftersom vi skulle behöva 3, 4 eller ännu fler dimensioner. (Tre är visserligen möjligt, men alls inte lika tilltalande som två.) Valet faller därför på att studera residualerna, som är de verkliga y-värdenas avvikeler från modellens förutsägelser. ri=yi-β0*-β1*x1i-...-βp*xpi

Vi kan hämta (fast modifiera) strategin från reggui - - - - Residualerna plottas mot sitt ordningsnummer. Detta är ett sätt att upptäcka om mätprocessen glidit. Residualerna plottas mot varje kovariat. De får inte vara så att residualerna ser annorlunda ut för stora som för små kovariatvärden. Residualerna plottas mot de predikterade värdena. (Jag har föreslagit och fått igenom en ändring av reggui till nästa version.) Residualerna läggs i en normalfördelningsplot.

Exempel med bussresande, ex 6.25 (Jag passar på att få med lite om beroende mellan kovariater medan jag illustrerar regressionsanalys.) addpath 'C:\Users\Oskar\Documents\undervisning\FMSF70\program\raknaMedVariation'; load Buss y = resandel X =[ones(length(resandel),1) avst restid ink bil] plotmatrix([y X(:,2:end]))

En första inspektion - - Det mest slående är att den första (restid, kolonn/rad 2) och den andra (avstånd, kolonn/rad 3) är starkt beroende. Surprise, surprise! Ett sätt att studera beroende på är genom att göra en korrelationsmatris:

Anpassa först modellen - - [b bint r] = regress(y,x) Notera att varken den första eller den andra kovariaten har signifikant effekt. Den första är närmast signifikans och behålls. X =[ones(length(resandel),1) restid ink bil] 2 1

Två kovariater återstår >> X =[ones(length(resandel),1) restid ink] - - - Restiden är alltså en positivt korrelerat med kollektivresande, vilket förvånar. Att inkomst har det förvånar mindre. Nu har vi en anpassad modell och kan studera hur väl den fungerar genom residualanalys. >> [b bint r] = regress(y,x) Låt oss för omväxlings skulle börja med normalfördelnigsplot. >> normplot(r)

Inga problem med normalfördelningen - Skulle det ha funnits problem, hade vi blivit tvungna att fundera över att transformera data.

Residualer mot ordningsnummer - scatter(1:length(r),r) En vag tendens till avtagande ger viss anledning till oro, men inget allvarligt.

Residualer mot restid -

Residualer mot inkomst - scatter(ink,r) Det här kan tyda på att det finns faktorer som vi inte hittat för områden med låg inkomst. Någon att ha i minnet för forskaren, men inget vi kan göra något åt här.

Residualer mot predikterade värden - scatter(x*b,r) Några förutsäger om högt resande har slagit rejält fel. Standardfrasen Mer forsning behövs kan användas.