Laboration 4: Lineär regression

Relevanta dokument
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

1 Syfte. 2 Enkel lineär regression MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Lineära regressionsmodeller i allmänhet

Laboration 5: Regressionsanalys

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Laboration 2: Styrkefunktion samt Regression

1 Förberedelseuppgifter

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

1 Förberedelseuppgifter

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Datorövning 5 Regression

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 4: Hypotesprövning och styrkefunktion

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Minsta-kvadratmetoden

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Enkel och multipel linjär regression

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 4 R-versionen

Laboration 3: Parameterskattning och Fördelningsanpassning

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

1.1 MATLABs kommandon för matriser

oberoende av varandra så observationerna är

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 12: Linjär regression

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Laboration 4 Regressionsanalys

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Matematisk statistik för B, K, N, BME och Kemister

LABORATION 3 - Regressionsanalys

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Föreläsning 13: Multipel Regression

TVM-Matematik Adam Jonsson

Matematisk statistik för D, I, Π och Fysiker

TAMS65 DATORÖVNING 2

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Matematisk statistik, Föreläsning 5

F13 Regression och problemlösning

LABORATION 3 - Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

TANA09 Föreläsning 5. Matrisnormer. Störningsteori för Linjära ekvationssystem. Linjära ekvationssystem

15 februari 2016 Sida 1 / 32

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 12: Regression

bli bekant med summor av stokastiska variabler.

InStat Exempel 4 Korrelation och Regression

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning 5. Approximationsteori

Datorövning 1 Fördelningar

Multipel linjär regression

6 Skattningar av parametrarna i en normalfördelning

3 Maximum Likelihoodestimering

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Instruktioner till arbetet med miniprojekt II

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Laboration 1: Beskrivande statistik

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

DN1212/numpm Numeriska metoder och grundläggande programmering Laboration 1 Introduktion

SF1901 Sannolikhetsteori och statistik: VT 2016 Lab 2 för CTFYS, CELTE

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Kurvanpassning. Kurvanpassning jfr lab. Kurvanpassning jfr lab

Datorövning 5 Exponentiella modeller och elasticitetssamband

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 1: Fördelningar

MMA132: Laboration 2 Matriser i MATLAB

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning G60 Statistiska metoder

x 2 x 1 W 24 november, 2016, Föreläsning 20 Tillämpad linjär algebra Innehåll: Projektionssatsen Minsta-kvadratmetoden

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Moment Viktiga exempel Övningsuppgifter

Demonstration av laboration 2, SF1901

SF1910 Tillämpad statistik, HT 2016 Laboration 2 för CSAMHS, CLGYM-TEMI

Rapportexempel, Datorer och datoranvändning

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 4: Lineär regression 1 Syfte Denna laboration handlar om regressionsanalys och är uppdelad i två delar Del ett handlar om enkel lineär regression medan del två, som är frivillig, handlar om multipel lineär regression, speciellt polynomregression De grundläggande modellerna presenteras och anpassas med minsta-kvadrat-metodens hjälp till givna datamaterial Laborationen syftar också till att visa på några av de egenskaper hos de skattade modellerna som man, under förutsättning att vissa grundläggande antaganden är uppfyllda, kan härleda med statistikteorins hjälp I detta sammanhang spelar även modellvalidering och residualanalys en viktig roll 2 Enkel lineär regression 21 Förberedelse och övningsuppgifter (a) Gå igenom laborationshandledningen innan laboration (b) Lös uppgift 1 i det utdelade materialet om linjär regression, för hand (c) Lös uppgift 2 i det utdelade materialet om linjär regression, för hand 22 Lineära regressionsmodeller i allmänhet Med matrisnotation kan en allmän lineär regressionsmodell, vare sig den är enkel eller multipel, skrivas y = Xb + e, där de ingående matriserna har följande form: y 1 1 x (1) 1 x (p) 1 y 2 y =, X = 1 x (1) 2 x (p) 2, y n 1 x n (1) x n (p) b = b 0 b 1 b p och e = e 1 e 2 e n Rent allmänt fås minsta-kvadratlösningen b till ett överbestämt ekvationssystem y = Xb via de så kallade normalekvationerna X t Xb = X t y, som b = (X t X) 1 X t y Man bör dock i möjligaste mån undvika att lösa ut b genom att invertera matrisen X t X Om matrisen är illa konditionerad kan man nämligen få en feltillväxt som gör resultatet helt oanvändbart Det finns bättre numeriska metoder för att hantera detta problem Det enklaste sättat för att skatta parametrarna i en regressionsmodell i matlab är att utnyttja funktionen regress, som automatiskt plockar fram minstakvadratskattningarna För att kunna utnyttja denna funktion måste vi dock ha formulerat problemet med hjälp av matrisnotationen enligt ovan Funktionen regress beräknar automatiskt punktskattningarna, konfidensintervall för respektive punktskattning samt residualerna En residual definieras som skillnaden mellan observationen och det skattade väntevärdet Det rekommenderade sättet att lösa matrisekvationen y = Xb + e är alltså >> [beta beta_ki residual]= regress(y,x,alfa) Konfidensintervallen för punktskattningarna får då konfidensgraden 1-alpha Med hjälp av regress får vi alltså fram all den information vi behöver om vår regressionsmodell Skattningen av variansen, s 2 i modellen får man enklast fram genom att dividera residualkvadratsumman med (n p) Där p motsvarar antalet parametrar, förklarande variabler, i modellen >> s2=sum(residual*residual)/(n-p)

23 Enkel lineär regression i matrisform Vid enkel lineär regression söker man anpassa en rät linje till datamaterialet, dvs modellen är y i = b 0 + b 1 x i + e i, i = 1,, n, där e i är oberoende likafördelade störningar med väntevärdet 0 och variansen s 2 Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen, vilket innebär att vi skriver det överbestämda ekvationssystemet ovan som y = Xb + e, där de ingående matriserna har följande form: y 1 y 2 y = b = y n ( b0 b 1 1 x 1, X = 1 x 2, 1 x n ) och e = e 1 e 2 e n observation x 1, x 2, x 3 y 1 y 2 y 3 x 4 y 4 1 100000 80400 91900 74600 80000 65800 2 80000 69500 81400 67700 80000 57600 3 130000 75800 87400 127400 80000 77100 4 90000 88100 87700 71100 80000 88400 5 110000 83300 92600 78100 80000 84700 6 140000 99600 81000 88400 80000 70400 7 60000 72400 61300 60800 80000 52500 8 40000 42600 31000 53900 80000 55600 9 120000 108400 91300 81100 80000 79100 10 70000 48200 72600 64200 80000 68900 11 50000 56800 47400 57300 190000 125000 Tabell 1: Anscombedata 24 Övningsuppgifter fortsättning För att bilda en kolonnvektor med tex element 2,4 och 6 skriver vi i MATLAB >> x=[2 4 6] Tecknet gör att vektorn (2 4 6) transponeras För att sedan bilda en matris med vektorn x i andra kolonnen och ettor i första kolonnen ger vi kommandot >> X=[ones(size(x)) x] Uppgift 22: Lös uppgift 2 med hjälp av regress och jämför med de handräknade svaren Ange också 95-procentiga konfidensintervall för a respektive b Uppgift 23: Lös uppgift 4 med hjälp av regress Tips! Logaritmera Uppgift 21: Lös nu uppgift 1 med hjälp av regress och jämför med de handräknade svaren 25 Fallgropar För att illustrera vådan av att okritiskt anpassa en lineär modell till ett givet datamaterial har F J Anscombe konstruerat ett datamaterial, se tabell 1, som finns lagrat i 2

filen anscombemat och kan laddas in i MATLAB med hjälp av kommandot load anscombe Med kommandot whos får du reda på aktuella variabler i minnet En lämplig början är alltid att ta sig en titt på datamaterialet Börja med att plotta y1 gentemot x1, dvs >> plot(x1,y1, + ) Plotta sedan y 2 mot x 2, y 3 mot x 3, samt y 4 mot x 4 (med hjälp av kommandot subplot kan du få alla fyra plottarna var för sig i samma fönster, det ger en bra överblick) Vi skall nu helt aningslöst till var och en av datamängderna anpassa en lineär modell enligt y i = a + bx i + e i, i = 1,, n, där e i är oberoende likafördelade störningar med väntevärdet 0 och variansen s 2 Vi börjar med att konstruera matrisen X (enligt notationen i det inledande avsnittet ovan) för den första datamängden på följande sätt: >> X1 = [ones(size(x1)) x1] Med MATLABs inbyggda function regress kan vi snabbt och enkelt få fram vår skattning av b >> b1 = regress(y1,x1,005) Detta anrop av funktionen regress innebär att MAT- LAB automatiskt beräknar minsta-kvadrat-skattningen av b Nu kan vi bestämma den skattade regressionslinjen och sedan rita in denna ovanpå punktdiagrammet över det första datamaterialet >> y1hat = X1*b1; >> hold on >> plot(x1,y1hat) >> hold off Är det rimligt att teckna sambandet mellan den förklarande variabeln x1 och den beroende variabeln y1 som ett lineärt samband? För att studera hur väl vår modell stämmer med givna data, beräknar vi först vektorn av residualer Om modellen är korrekt skall residualerna ungefärligen (vi använder skattade parametrar) vara observationer av likafördelade stokastiska variabler För att undersöka hur det förhåller sig med detta utför vi en residualanalys enligt beskrivningen i kurslitteraturen Vi kan, till exempel, plotta residualerna gentemot den förklarande variabeln >> figure >> res1 = y1-y1hat; >> plot(x1,res1, + ) Om vårt modellantagande är korrekt skall vi inte kunna skönja någon systematisk variation i diagrammet Kan du finna något beroende? Nu vill vi göra motsvarande för de övriga tre datamaterialen, det vill säga, lösa ekvationssystemen, skatta regressionslinjerna och rita ut residualerna För att du ska slippa göra alla dessa kommandon finns de sammanställda i MATLAB-filen anscombem Skriv alltså >> anscombe för att få skattningar och plottar och besvara sedan följande frågor: Uppgift 24: Jämför värdena på de skattade koefficienterna för var och en av de fyra regressionslinjerna Uppgift 25: Studera och jämför residualplottarna för de fyra olika fallen Passar det med lineära samband i alla de fyra fallen? Var passar det inte och varför? Uppgift 26: Vad har denna lilla studie att förtälja den som helt slentrianmässigt och okritiskt vill använda en lineär regressionsmodell? 3 Multipel lineär regression(* frivillig uppgift) I och med att vi redan vid enkel lineär regression arbetat med matrismodeller, erbjuder multipel lineär regression inget nytt vad beträffar parameterskattningarna Vi får utöka matrisen X med ytterligare en kolonn för varje ny 3

förklarande variabel, men minsta-kvadrat-problemet löser vi med benägen hjälp av MATLAB på samma sätt som tidigare 31 Polynomregression Vi skall nu avsluta denna laboration med ett exempel på polynomregression, som vi med ett lämpligt val av förklarande variabler kan behandla som ett specialfall av multipel lineär regression Olikheterna mellan fotogrammetrisk triangulerad höjdmätning före justering och terrestiellt beräknad förhöjning är ett exempel på mätningsfel i fotogrammetri De här skillnaderna, Y, i höjdberäkningarna, har observerats och teoretiskt visats att vara en ickelineär funktion av avståndet x längs centrumlinjen i en triangel enligt följande: Y a + bx + cx 2 Bestäm minsta-kvadrat-skattningarna av a, b, och c utgående från följande mätningar Avståndet längs centrumlinjen Fel i förhöjningen av triangelformad strip X Y (km) (m) 0 0 05 0 12 03 17 06 24 14 27 20 34 31 37 40 Läs in datafilen triangelmat i MATLABs arbetsarea med kommandot load triangel Avståndet från centrumlinjen finns i variabeln x och felet i förhöjningen i variabel y Uppgift 31: Hur ska matrisen X se ut om vi ska använda ett polynom i x av gradtalet 2? Vi skall återigen använda regress till att göra grovjobbet, så att vi kan koncentrera oss åt att tolka resultatet Vi vet att gradtalet på polynomet borde vara 2 Prova ändå med olika gradtal, tex 1, 2 och 3 samt studera respektive skattade parametrar och deras konfidensintervall -- X-matris för linjär modell -- >> X1=[ones(size(x)) x]; >> [b1 bint1 r1]=regress(y,x1,005); -- X-matris för kvadratisk modell -- >> X2=[ones(size(x)) x x^2]; >> [b2 bint2 r2]=regress(y,x2,005); -- X-matris för kubisk modell -- >> X3=[ones(size(x)) x x^2 x^3]; >> [b3 bint3 r3]=regress(y,x3,005); Nu är det hög tid att fundera och besvara några frågor: Uppgift 32: Undersök för varje modell vilka parametrar som är signifikant skilda från noll (till exempel på 5 %-nivån) På vilket sätt är denna undersökning beroende av antagandet om oberoende normalfördelade slumpfel? Uppgift 33: Använd normplot för att undersöka ifall residualerna från de olika polynommodellerna uppfyller kravet att de ska vara normalfördelade slumptal med väntevärdet 0 Uppgift 34: Välj utifrån en samlad bedömning av figurerna och de skattade parametrarna med konfidensintervallen ut den polynom-modell som du tycker är mest adekvat Ditt val skall vara väl motiverat! 4 Avslutning Lineära regressionsmodeller är på grund av sin enkelhet mycket populära Dock skall man alltid efter det att man anpassat en sådan modell och alltså innan man tar den i bruk utföra en ordentlig modellvalidering, det vill säga, kontrollera om modellen verkligen kan anses vara adekvat Syftet med denna datorlaboration har, förutom att medelst några få exempel presentera enkel och 4

multipel lineär regression samt polynomregression, varit att rikta uppmärksamheten mot diverse fallgropar, risken av förhastade slutsatser och vikten av en omsorgsfull modellvalidering Teorin för lineära statistiska modeller är i och med detta ingalunda uttömd, och de praktiska svårigheter man så gott som alltid stöter på i samband med modellanpassning har vi i denna laboration endast antydningsvis snuddat vid 5