Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08



Relevanta dokument
Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 4: Lineär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

1 Förberedelseuppgifter

Laboration 5: Regressionsanalys

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 5 Regression

1 Förberedelseuppgifter

Laboration 2: Styrkefunktion samt Regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 4 R-versionen

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 4 Regressionsanalys

LABORATION 3 - Regressionsanalys

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Föreläsning 12: Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Linjär regression

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik, Föreläsning 5

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Matematisk statistik för D, I, Π och Fysiker

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TVM-Matematik Adam Jonsson

bli bekant med summor av stokastiska variabler.

oberoende av varandra så observationerna är

Laboration 4: Hypotesprövning och styrkefunktion

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

1 Syfte. 2 Enkel lineär regression MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Lineära regressionsmodeller i allmänhet

Föreläsning 13: Multipel Regression

Instruktioner till arbetet med miniprojekt II

Härledning av Black-Littermans formel mha allmänna linjära modellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistik B Regressions- och tidsserieanalys Föreläsning 1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

LABORATION 3 - Regressionsanalys

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Matematikcentrum VT 2007 Matematisk statistik 14 januari Datorlaboration 1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

3 Maximum Likelihoodestimering

MVE051/MSG Föreläsning 14

TAMS65 DATORÖVNING 2

10.1 Enkel linjär regression

Grundläggande matematisk statistik

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Enkel och multipel linjär regression

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Statistiska samband: regression och korrelation

InStat Exempel 4 Korrelation och Regression

Laboration 4: Intervallskattning och hypotesprövning

TAMS65 - Seminarium 4 Regressionsanalys

Datorövning 5 Exponentiella modeller och elasticitetssamband

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F1

Föreläsning G60 Statistiska metoder

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Laboration 3: Enkel linjär regression och korrelationsanalys

Stokastiska vektorer

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

Laboration 3: Parameterskattning och Fördelningsanpassning

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Bayesiansk statistik, 732g43, 7.5 hp

Föreläsning 7: Punktskattningar

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen Enkel linjär regression Multipel linjär regression 1 Förberedelseuppgifter Som förberedelse till laborationen bör du läsa igenom Kapitel 14, Kompendiet om Grundläggande regressionsanalys och hela laborationshandledningen. Till laborationens start har du med dig lösningar, som du kan redogöra för, till uppgifterna (a) (c): (a) Ange modellen för enkel linjär regression med normalfördelade fel. Hur skattar man, och 2? Vilken fördelning får och? Hur gör man konfidensintervall för, ochñ0 = + x 0? Hur kan man testa huruvida linjens lutning är 0? (b) Residualanalys är ett centralt moment i all regressionsanalys. Hur bör residualerna se ut vid en korrekt regressionsanalys? Ange några tekniker för att kontrollera detta. (c) Lös uppgift ST35. De filer och specialrutiner du kommer att behöva till denna laboration hittar du som vanligt på kursens hemsida. 2 Enkel linjär regression Vid enkel linjär regression söker man anpassa en rät linje till datamaterialet, dvs modellen är y i = + x i + i, i = 1,..., n, där i är oberoende likafördelade (ofta normalfördelade) störningar med väntevärdet 0 och variansen 2. Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen, Y = X +e, där de ingående matriserna har följande form: y 1 1 x 1 y 2 Y =., X = 1 x 2.., 1 x n y n ( ) = och e = 2 1 Vi skall använda MATLAB-rutinen regress som skattar parametrar, beräknar konfidensintervall för dem, beräknar residualer och lite till. Görhelp regress för att se vad den gör. Uppgift 1: Använd regress för att räkna uppgift ST35. En n 1-kolumn med ettor fås med ones(n,1) och två kolumnerk1 ochk2 läggs bredvid varandra med[k1 k2]..... n.

2.1 Fallgropar För att illustrera vådan av att okritiskt anpassa en linjär modell till ett givet datamaterial har F. J. Anscombe konstruerat ett datamaterial, som ser ut på följande sätt: observation x 1, x 2, x 3 y 1 y 2 y 3 x 4 y 4 1 10 8.04 9.19 7.46 8 6.58 2 8 6.95 8.14 6.77 8 5.76 3 13 7.58 8.74 12.74 8 7.71 4 9 8.81 8.77 7.11 8 8.84 5 11 8.33 9.26 7.81 8 8.47 6 14 9.96 8.10 8.84 8 7.04 7 6 7.24 6.13 6.08 8 5.25 8 4 4.26 3.10 5.39 8 5.56 9 12 10.84 9.13 8.11 8 7.91 10 7 4.82 7.26 6.42 8 6.89 11 5 5.68 4.74 5.73 19 12.50 Datamaterialet finns lagrat i filenanscombe.mat och kan laddas in i MATLAB på vanligt sätt. Med kommandot who får du reda på aktuella variabler i minnet. En lämplig början är alltid att ta sig en titt på datamaterialet. Uppgift 2: Börja med att plottay1 motx1. Se det ut som om linjärt samband vore lämpligt? Plotta också de andra paren mot varandra. Uppgift 3: Vi skall nu helt aningslöst anpassa en linjär modell enligt y i = + x i + i, i = 1,..., n, där i är oberoende likafördelade störningar med väntevärdet 0 och variansen 2. (a) Konstruera matrisen X1 (enligt notationen i det inledande avsnittet ovan) för den första datamängden och beräkna skattningen av med MATLABs inbyggda funktionregress >> X1 = [ones(size(x1)) x1] >> beta1hat=regress(y1,x1) (b) Beräkna den skattade regressionslinjen y1hat=x1*beta1hat och rita in den i samma diagram som datamaterialet. Är det rimligt att teckna sambandet mellan den förklarande variabelnx1 och den beroende variabeln y1 som ett linjärt samband? För att studera hur väl vår modell stämmer med givna data beräknar vi först vektorn av residualer. Om modellen är korrekt skall residualerna ungefärligen (vi använder skattade parametrar) vara observationer av likafördelade stokastiska variabler. För att undersöka hur det förhåller sig med detta utför vi en residualanalys enligt beskrivningen i kurslitteraturen. Vi kan t.ex. plotta residualerna gentemot den förklarande variabeln. 2

Uppgift 4: Beräkna residualerna y1-y1hat och plotta dem mot x1. Om vårt modellantagande är korrekt skall vi inte kunna skönja någon systematisk variation i diagrammet. Kan du finna något beroende? Nu vill vi göra motsvarande för de övriga tre datamaterialen, dvs lösa ekvationssystemen, skatta regressionslinjerna och rita ut residualerna. För att du ska slippa göra alla dessa kommandon finns de sammanställda i MATLAB-filen anscombe.m. Skriv alltså >> anscombe för att få skattningar och plottar och besvara sedan följande frågor: Uppgift 5: Jämför värdena på de skattade koefficienterna för var och en av de fyra regressionslinjerna. Studera och jämför residualplottarna för de fyra olika fallen. Hur skulle man tolka resultaten om man bara fick de skattade modellparametrarna men ingen grafisk framställning? 3 Polynomregression Datamaterialet som du skall arbeta med i detta avsnitt är koldioxidhalter uppmätta över en vulkan varje månad under en period av 32 år, dvs totalt finns 32 12 = 384 mätvärden. Materialet finns i filen co2.dat, och den kan laddas in på vanligt sätt. Mätvärdena hamnar då i en vektor med namnet co2. Plotta mätvärdena. Det finns uppenbarligen en kraftig periodicitet (årsvariation) i mätningarna, och en sådan låter sig inte så lätt fångas med en polynomiell regressionsfunktion. Detta problem kan lösas på flera sätt. Ett är att införa en sinus-funktion som modellerar variationen, ett annat är att differentiera datasekvensen, dvs undersöka z i = y i y i 1 i stället för y-värdena själva. Vi skall dock välja den mycket enkla lösningen att medelvärdesbilda över varje år. Detta fordrar litet trixande i MATLAB. Uppgift 6: Först skapar vi en 12 32-matris med bara nollor. >> z=zeros(12,32); Sedan överför vi mätvärdena till denna matris. >> z(:)=co2 >> plot(z) Värdena i co2 överförs här kolonnvis, så att första kolonnen i z innehåller mätvärdena från första året osv. Kontrollera gärna detta. Vi kan nu använda funktionenmean för att beräkna årsmedelvärdena. >> y=mean(z) Slutligen vill vi att mätvärdena skall finnas i en kolonnvektor för att regressionsberäkningarna skall se ut som vanligt. >> y=y Kom ihåg att betecknar transponat. Vi har nu skapat den mätvärdesvektor vi skall arbeta med. Vi skapar även en vektor med den förklarande variabeln (årtalet, räknat från lämplig nollpunkt). 3

>> x=(1:32) ; Plotta mätvärdenaymotx. Uppenbarligen är den periodiska variationen borta, vilket också var syftet med medelvärdesbildningen. Vi skall nu göra polynomregression på materialet, dvs vår modell är y i = + 1x i + 2x 2 i + + kx k i + i, i = 1,..., n, där i är oberoende likafördelade störningar med väntevärdet 0 och variansen 2. Som modellen är skriven ovan är den olinjär, ty ett polynom är inte en linjär funktion, men vi kan göra den linjär genom att införa de nya förklarande variablerna x ij = x j i för j = 1,..., k, i = 1,..., n, och skriva y i = + 1x i1 + 2x i2 + + kx ik + i, i = 1,..., n. Detta är den modell vi skall arbeta med. 3.1 Enkel linjär regression Uppgift 7: Vi börjar med att anpassa en linjär funktion till datamaterialet, dvs polynomets ordningsgrad k = 1. Skattningarna av och = 1 erhålles med hjälp av funktionen regress som också kan ge konfidensintervall för dem, samt residualer (sehelp regress). Konstruera X-matrisen, skatta regressionsmodellen och rita upp den. Rita också upp residualerna. Verkar en rät linje vara en tillfredsställande regressionsmodell? Diagrammet visar att residualerna i mitten av mätserien tycks komma från en annan fördelning är residualerna i början och slutet av densamma. Alternativt finns en stark korrelation mellan störningarna vilket strider mot oberoendeantagandet. Vi drar alltså slutsatsen att en enkel linjär regressionsmodell inte passar det aktuella datamaterialet. 3.2 Kvadratisk regression Nästa steg är att försöka anpassa en kvadratisk funktion till mätvärdena, dvs vi använder ordningstalet k = 2 för regressionspolynomet. Uppgift 8: Skapa vektorer som innehåller de förklarande variablerna x i1 = x i och x i2 = xi 2. Skapa också den nyax-matrisen och gör om beräkningarna och plottarna för den nya modellen. (a) Verkar den kvadratiska modellen vara bättre än den linjära? Kan residualerna tänkas komma från samma fördelning? Finns något beroende? (b) Nästa steg är att undersöka om residualerna eventuellt kan komma från en normalfördelning. Gör detta genom att plotta dem i ett normalfördelningsdiagram (normplot). Verkar det rimligt att anta normalfördelade störningar? Är väntevärdet av dessa lika med 0? (c) Skatta felens varians 2 genom att dela residualkvadratsumman med n 3 = 29: 4

>> s2 = sum(res2.^2)/29 därres2 fås urregress. (d) Avsluta med att studera de 95 %-iga konfidensintervallen för, 1 och 2 (fås medregress). Är 2 signifikant skild från 0, dvs testa H 0 : 2 = 0 mot H 1 : 2 0 på nivån 5 %? I så fall kan vi med gott samvete anta den kvadratiska modellen före den linjära. På samma sätt kan man gå vidare och testa om en tredjegradsterm i regressionsfunktionen är relevant. Vi skall nu använda en färdigskriven funktionreggui och låta den göra grovjobbet. Uppgift 9: Undersök med help-kommandot vad funktionen reggui gör och vad den har för inparametrar. Undersök de olika möjligheterna reggui ger dig att studera en regressionsmodell och välj olika gradtal i modellen. (a) Fick du några varningsmeddelanden (Inte i reggui-fönstret utan i MATLAB-fönstret)? Vad kan det i så fall bero på? (b) Gör en bedömning av figurerna och utskriften med de skattade parametrarna och konfidensintervallen och avgör vilken polynommodell som är mest adekvat. 5