1 Förberedelseuppgifter

Relevanta dokument
Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 5: Regressionsanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Datorövning 5 Regression

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 4: Lineär regression

Laboration 2: Styrkefunktion samt Regression

1 Förberedelseuppgifter

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Föreläsning 12: Linjär regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 13: Multipel Regression

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Laboration 4 R-versionen

Grundläggande matematisk statistik

1 Syfte. 2 Enkel lineär regression MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Lineära regressionsmodeller i allmänhet

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

F13 Regression och problemlösning

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

oberoende av varandra så observationerna är

Statistik B Regressions- och tidsserieanalys Föreläsning 1

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

bli bekant med summor av stokastiska variabler.

Laboration 4 Regressionsanalys

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Enkel linjär regression

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

6 Skattningar av parametrarna i en normalfördelning

10.1 Enkel linjär regression

Matematisk statistik, Föreläsning 5

Enkel och multipel linjär regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

MVE051/MSG Föreläsning 14

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Tentamen för kursen. Linjära statistiska modeller. 17 februari

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Tentamen för kursen. Linjära statistiska modeller. 13 januari

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

TAMS65 - Seminarium 4 Regressionsanalys

Matematisk statistik för B, K, N, BME och Kemister

Finansiell statistik. Multipel regression. 4 maj 2011

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Multipel linjär regression

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning G60 Statistiska metoder

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Demonstration av laboration 2, SF1901

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Metod och teori. Statistik för naturvetare Umeå universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Regressions- och Tidsserieanalys - F1

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

TAMS65 DATORÖVNING 2

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

LABORATION 3 - Regressionsanalys

Bayesiansk statistik, 732g43, 7.5 hp

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Instruktioner till arbetet med miniprojekt II

Datorövning 1: Fördelningar

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Examinationsuppgifter del 2

Regressions- och Tidsserieanalys - F1

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

3 Maximum Likelihoodestimering

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORÖVNING 4 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03 Syfte: Syftet med den här laborationen är att du skall bli mer förtrogen med Enkel linjär regression Multipel linjär regression Specialrutiner och data finns att hämta på kursens hemsida: www.maths.lu.se/kurshemsida/fmsf45masb03/ 1 Förberedelseuppgifter 1. Repetera normalfördelningsdiagram, läsa igenom hela regressionsdelen i statistikkompendiet (avsnitt 4-6) och hela laborationshandledningen. 2. Ange modellen för enkel linjär regression med normalfördelade fel. (a) Mozquizto 1: Hur skattar vi α, β och σ 2? (b) Vilken fördelning får α och β? (c) Hur gör vi konfidensintervall för α, β? (d) Mozquizto 2: Hur kan vi testa huruvida linjens lutning är 0? 3. Mozquizto 3: (a) Hur ser ett konfidensintervall för μ 0 = α + βx 0 ut? (b) Vad är ett prediktionsintervall och hur räknas det ut? (c) Vad är ett kalibreringsintervall och hur kan det konstrueras? 4. Residualanalys är ett centralt moment i all regressionsanalys. Hur bör residualerna se ut vid en korrekt regressionsanalys? Ange några tekniker för att kontrollera detta. 5. Ange modellen för multipel linjär regression på matrisform. 6. Mozquizto 4: Hur ser normalekvationerna ut och hur löser vi dessa? Vad blir kovariansmatrisen för β? 7. Lös uppgift ST35. 2 Enkel linjär regression Vid enkel linjär regression söker anpassas en rät linje till datamaterialet, dvs modellen är y i = α + βx i + ε i, i = 1,..., n, där ε i är oberoende likafördelade störningar med väntevärdet 0 och variansen σ 2. Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen, Y = Xβ + ε,

2 Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 där de ingående matriserna har följande form: y 1 y 2 Y =. y n 1 x 1, X = 1 x 2.., β = 1 x n ( α β ) och ε = ε 1 ε 2. ε n. Vi skall använda MATLAB-funktionen regress som skattar parametrar, beräknar konfidensintervall för dem, beräknar residualer och litet till. Gör help regress för att se vad funktionen gör. 2.1 Uppgift ST35 Använd regress för att räkna uppgift ST35: >> x = [1:8] ; % En kolumn med x-värden. >> y = [1.5 2.3 1.7 2.0 2.5 1.9 2.2 2.4] ; % En kolumn med y-värden. >> X = [ones(size(x)) x]; % En kolumn med ettor och en med % x-värdena. >> [b,bint] = regress(y,x) % Skatta alfa och beta samt % konfidensintervall för dem. >> mu = X*b; % Beräkna den skattade linjen. >> plot(x,y, *,x,mu, - ) % Rita obervationer och skattad linje. >> refline(b(2), b(1)) % Alternativt kan vi addera en reference linje Identifiera β och I β i b och bint och jämför med dina tidigare beräkningar i förberedelseuppgift 7. Vill vi bara skatta parametrarna kan vi snabbt göra detta utan regress med X~y. Uppgift: Stämmer parameterskattningarna med beräkningar i förberedelseuppgift 7? Det finns en specialskriven funktion, reggui, som, förutom att skatta modellparametrarna, också ritar upp data, skattad linje, residualer och konfidens- och prediktionsintervall. Använd den för att lösa uppgift ST35 igen: >> help reggui >> reggui(x,y) Uppgift: Identifiera β och I β i figuren och jämför med dina tidigare beräkningar. 3 Polynomregression Datamaterialet som du skall arbeta med i detta avsnitt är koldioxidhalter uppmätta vid Mauna Loa 1 varje månad under 32 år, totalt finns 32 12 = 384 mätvärden. Materialet finns i filen co2.dat, och den kan laddas in i MATLAB med kommandot load co2.dat. Mätvärdena hamnar då i en vektor med namnet co2. Plotta mätvärdena. >> figure % Ny figur >> plot(co2) 1 www.co2.earth/monthly-co2

Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 3 Det finns uppenbarligen en kraftig periodicitet (årsvariation) i mätningarna, och en sådan låter sig inte så lätt fångas med en polynomiell regressionsfunktion. Detta problem kan lösas på flera sätt men det enklaste är att medelvärdesbilda över varje år. Först gör vi om vektorn co2 till en matris med 12 rader (en rad per månad och en kolonn för varje år). >> z = reshape(co2, 12, []); Notera att vi bara behöver ange antalet rader i reshape; [] markerar att antalet columer ska beräknas. Funktionen mean beräknar sen medel i varje column (d.v.s. årsmedelvärdena), och resultatet transponeras till en kolonn-vektor med. >> y = mean(z) Vi skapar även en vektor med den förklarande variabeln (årtalet, räknat från lämplig nollpunkt). >> x = (1:length(y)) ; (Utrycket a:s:b skapar en radvektor med värden från a till b i steg om s och length(y) ger antalet värden i y) Plotta mätvärdena. >> plot(x, y, o ) Uppgift: Vad kan vi säga om periodiciteten? Vi skall nu göra polynomregression på materialet, dvs vår modell är y i = β 0 + β 1 x i + β 2 x 2 i + + β k x k i + ε i, i = 1,..., n, där ε i är oberoende likafördelade störningar med väntevärdet 0 och variansen σ 2. För använda matrisformuleringen inför vi de nya förklarande variablerna x ij = x j i för j = 1,..., k, i = 1,..., n, och kan skriva skriva y i = β 0 + β 1 x i1 + β 2 x i2 + + β k x ik + ε i, i = 1,..., n. Vi ska nu använda funktionen reggui för att anpassa polynom av olika grad till datamaterialet. >> reggui(x, y) 1. Börja med en linjär funktion (k = 1). Verkar en rät linje vara en tillfredsställande regressionsmodell? 2. Nästa steg är att försöka anpassa en kvadratisk funktion till mätvärdena, dvs vi använder ordningstalet k = 2 för regressionspolynomet (använd knappen degree i reggui). 3. Pröva även med tredje (eller högre) grad på polynomet. Leder det till några varningsmeddelanden i kommandofönstret (testa k 5)? Vad kan det i så fall bero på? För att avgöra vilken modell som är lämpligt undersöker vi Om residualerna är oberoende (d.v.s. saknar mönster)? Om residualerna är normalfördelade? De 95 %-iga konfidensintervallen för β k (vad är det vi vill testa?)

4 Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 Mozquizto 5: Vad verkar vara ett lämpligt gradtal på polynomet för CO 2 datan? Mozquizto 6: Vad är β-koefficienterna för detta polynom? 4 Multipel regression Multipel linjär regression följer samma matrisform som linjär regression där vi utökar matrisen X med en kolonn för varje ny förklarande variabel. 4.1 Cementdata I ett klassiska experiment mättes, i 13 försök, värmeutvecklingen i stelnande cement som funktion av viktprocenten av några ingående ämnen. I filen cement finns följande variabler kolonnvis: >> load cement.dat >> cement cem1 viktprocent av 3CaO Al 2 O 3 cem2 viktprocent av 3CaO SiO 2 cem3 viktprocent av 4CaO Al 2 O 3 Fe 2 O 3 cem4 viktprocent av 2CaO SiO 2 värme utvecklad värme i kalorier per gram cement Vissa av de fyra cementvariablerna samvarierar kraftigt med varandra vilket påverkar regressionsanalysen. Utnyttja gärna corrcoef, som räknar ut korrelationsmatrisen. Plotta de olika cementvariablerna mot värme och även de olika cementvariablerna mot varandra. >> corrcoef(cement) >> x = cement(:,1:4); >> Y = cement(:,5); >> help plotmatrix >> plotmatrix(cement) Mozquizto 7: Vilka variabler verkar samvariera? Börja med att bestämma en full regressionsmodell med värme som responsvariabel och samtliga fyra cementvariabler som förklarande variabler. Först konstruerar vi X och beräknar β >> X = [ones(size(y)) x] >> beta = X\Y Residualer och variansskattning >> res = Y-X*beta >> [n, c] = size(x) >> f = n-c >> s2 = sum(res.^2)/f Varians för β och residualer

Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 5 >> Vbeta = s2*inv(x *X) >> plot(res, o ) Över och under gränser i konfidens intervall för β kan nu beräknas med (där t 0.05/2 (f )-kvantiler kan fås med tinv(1-0.05/2,f)) >> kvantil = tinv(1-0.05/2, f) >> IbetaL = beta - kvantil*sqrt(diag(vbeta)) >> IbetaH = beta + kvantil*sqrt(diag(vbeta)) Mozquizto 8: Vilka regressionskoefficienter är signifikant skilda från noll (på 5% nivån)? Givetvis kunde vi också använt funktionen regress direkt >> [beta,ibeta,res,resint,stats] = regress(y, X, 0.05) Förmodligen är du inte alls nöjd med den fulla regressionsmodellen du just bestämt för cementdata, t ex samvarierade några av de förklarande variablerna kraftigt och kanske skall inte alla vara med. Försök komma fram till en bra regressionsmodell, vilket ju inte är helt lätt... Funktionen stepwise kan vara till stor hjälp vid modellvalet >> help stepwise >> stepwise(x,y) Notera att stepwise alltid inkluderar ett intercept, därför använder vi x istället för X i anroppet. Vanligen tar inkluderas intercept även om det inte är signifikant om det inte finns mycket starka skäl att ta bort ett intercept. Mozquizto 9: Vilken modell kom du fram till? Använd regress för att skatta den nya modellen (ersätt? med index för variablerna, kom ihåg interceptet!) >> [betan, IbetaN] = regress(y, X(:,[?]), 0.05) Mozquizto 10: Vad blir skattningarna av β för modellen från stepwise? 5 Kalibrering av flödesmätare 5.1 Bakgrund Kalibrering av en flödesmätare genomförs i en speciell kalibreringsrigg där mätningarna från en referensmätare eller referensmetod kan jämföras med mätaren som håller på att kalibreras.

6 Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 5.2 Metod Vi har nu tillgång till data från en kalibrering av en ultraljudsflödesmätare. Datamaterialet, som kommer från institutionen för värme- och kraftteknik, omfattar 71 mätningar och är lagrat i filen flow.mat (load flow.mat); variabeln fx2 avser referensflödesmätningar från kalibreringsriggen och fy2 avser motsvarande flöden uppmätta med den testade ultraljudsflödesmätaren (flödeshastigheterna givna i enheten m/s). Tanken är här att vi med hjälp av de gjorda mätningarna med givare och referens skall skatta parametrarna i en enkel linjär regressionsmodell. Vi antar att referensmätningarnas fel kan försummas i jämförelse med ultraljudsgivarens (varför måste vi bekymra oss om detta?) och att ultraljudsgivarens fel är oberoende, likafördelade och har väntevärdet noll. För att studera detta datamaterial ska vi använda funktionen reggui. Observera att du automatiskt kan rita ut konfidensintervall och/eller prediktionsintervall genom att markera rutan mark ints; om du klickar under regressionslinjen fås intervall för μ och y medan klick över linjen ger intervall för x. För att bilden skall bli tydligare börjar vi med att studera en liten delmängd av materialet, 10 talpar av flödesmätningar som ges i variablerna fx1 och fy1. >> load flow.mat >> reggui(fx1,fy1) Använd nu funktionen interaktivt för att göra följande beräkningar: 1. Beräkna det förväntade värdet enligt ultraljudsmätaren, då flödet enligt kalibreringsriggen är 0.40m/s. Beräkna också ett 95%-igt konfidensintervall för detta förväntade värde. Beräkna dessutom ett 95%-igt prediktionsintervall för en framtida observation från ultraljudsmätaren, då kalibreringsriggen ger mätvärdet 0.40m/s. 2. Vid användning av den kalibrerade ultraljudsmätaren, behöver vi läsa baklänges i kalibreringskurvan. Antag att vi med ultraljudsmätaren får mätvärdet 0.48m/s. Beräkna ett 95%-igt konfidensintervall för den sanna flödeshastigheten (dvs det värde som kalibreringsriggen skulle ge). 3. Mozquizto 11: Notera värdena på de tre intervallen eftersom du ska använda dem senare i laborationen. μ 0 (0.40) = I μ0 (0.40) = I y0 (0.40) = I x0 (0.48) = 4. När vi enligt det ovanstående beräknat olika konfidens- och prediktionsintervall har vi förutsatt att mätfelen är normalfördelade med konstant varians. Var i beräkningarna utnyttjas detta antagande? Om vi vill använda kalibreringskurvan i seriösa sammanhang måste vi utföra en modellvalidering, d.v.s. vi måste kontrollera att den linjära regressionsmodellen ger en adekvat beskrivning av sambandet. Vi kan bland annat validera modellen genom en grafisk residualanalys. Vid en sådan residualanalys får följande tre diagram, som alla kan fås i reggui, anses vara standard: Residualer gentemot predikterade y-värden.

Laboration 4, Matstat D, I, Pi och Fysiker, HT-18 7 Residualer gentemot den oberoende variabelns värden. Residualer i normalfördelningsdiagram. >> reggui(fx2,fy2) Upprepa nu beräkningarna från första frågepunkten ovan. Mozquizto 12: Hur ser intervall och skattningar ut för det större data materialet? μ 0 (0.40) = I μ0 (0.40) = I y0 (0.40) = I x0 (0.48) = Jämför intervallbredderna baserade på de 10 mätningarna med motsvarande intervallbredder för den modell som är anpassad till alla de 71 mätpunkterna, Nu är det inte säkert att du lyckats pricka in precis samma x-värde i de två fallen, men vissa allmänna iakttagelser bör ändå vara möjliga. Uppgift: Jämför de två konfidensintervallen. Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Uppgift: Jämför de två prediktionsintervallen. Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Uppgift: Ser residualerna rimliga ut? För exakta beräkningar kan vi enkelt beräkna relevanta kvadrat-summor >> n = length(fx2) >> Sxx = sum( (fx2-mean(fx2)).^2 ) >> Syy = sum( (fy2-mean(fy2)).^2 ) >> Sxy = sum( (fx2-mean(fx2)).*(fy2-mean(fy2)) ) Mozquizto 13: Använd dessa för att beräkna (istället för att läsa av i reggui) μ 0 (0.40), I μ 0 (0.40), I y0 (0.40) och I x0 (0.48).