3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Relevanta dokument
Laboration 5: Regressionsanalys

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Datorövning 5 Regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

1 Förberedelseuppgifter

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 4: Lineär regression

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: Styrkefunktion samt Regression

1 Syfte. 2 Enkel lineär regression MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Lineära regressionsmodeller i allmänhet

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

1 Förberedelseuppgifter

oberoende av varandra så observationerna är

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 2: Sannolikhetsteori och simulering

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Laboration 4 R-versionen

F13 Regression och problemlösning

Matematisk statistik för D, I, Π och Fysiker

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Föreläsning 12: Linjär regression

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Föreläsning 12: Regression

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Laboration 4 Regressionsanalys

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

10.1 Enkel linjär regression

Laboration 4: Hypotesprövning och styrkefunktion

Föreläsning 15, FMSF45 Multipel linjär regression

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 13: Multipel Regression

TAMS65 - Seminarium 4 Regressionsanalys

Grundläggande matematisk statistik

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Laboration 4: Intervallskattning och hypotesprövning

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik, Föreläsning 5

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Instruktioner till arbetet med miniprojekt II

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Enkel och multipel linjär regression

Laboration 2: Sannolikhetsteori och simulering

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

MVE051/MSG Föreläsning 14

Föreläsning 7: Punktskattningar

Föreläsning G60 Statistiska metoder

Metod och teori. Statistik för naturvetare Umeå universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

bli bekant med summor av stokastiska variabler.

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Regressions- och Tidsserieanalys - F1

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning G60 Statistiska metoder

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Stapeldiagram. Stolpdiagram

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

3 Maximum Likelihoodestimering

Statistiska samband: regression och korrelation

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Regressions- och Tidsserieanalys - F1

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Föreläsning 15: Faktorförsök

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Modellering av en Tankprocess

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

LABORATION 3 - Regressionsanalys

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Enkel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Föreläsning 9: Linjär regression del II

Matematikcentrum VT 2007 Matematisk statistik 14 januari Datorlaboration 1

x + y + z = 0 ax y + z = 0 x ay z = 0

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 5 MATEMATISK STATISTIK AK FÖR CDIFYSIKER, FMS012/MASB03, HT12 Laboration 5: Regressionsanalys Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen Enkel linjär regression Multipel linjär regression 1 Förberedelseuppgifter Som förberedelse till laborationen bör du repetera normalfördelningsdiagram, läsa igenom hela regressionsstencilen och hela laborationshandledningen. Till laborationens start har du med dig lösningar till förberedelseuppgifterna. 1. Ange modellen för enkel linjär regression med normalfördelade fel. Hur skattar manα,β ochσ 2? Vilken fördelning fårα respektiveβ? Hur gör man konfidensintervall förαochβ? Hur kan man testa huruvida linjens lutning är 0? 2. Hur ser ett konfidensintervall förμ 0 =α+βx 0 ut? 3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras? 5. Residualanalys är ett centralt moment i all regressionsanalys. Hur bör residualerna se ut vid en korrekt regressionsanalys? Ange några tekniker för att kontrollera detta. 6. Ange modellen för multipel linjär regression på matrisform. Hur skattar man β-parametrarna? Vad blir kovariansmatrisen förβ? 7. Lös uppgift ST35. 2 Enkel linjär regression Vid enkel linjär regression söker man anpassa en rät linje till datamaterialet, dvs modellen är y i =α+βx i +ε i, i = 1,...,n, därε i är oberoende likafördelade störningar med väntevärdet 0 och variansenσ 2. Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen, Y = Xβ+ε, där de ingående matriserna har följande form: y 1 1 x 1 y 2 Y =., X = 1 x 2.., β = y n 1 x n ( ) α β ε 1 ε 2 och ε =.. ε n

2 Laboration 5, Matstat AK för CDIFysiker, HT12 Vi skall använda MATLAB-funktionen Ö Ö som skattar parametrar, beräknar konfidensintervall för dem, beräknar residualer och litet till. Gör ÐÔ Ö Ö för att se vad funktionen gör. Använd Ö Ö för att räkna uppgift ST35: Ü ½ ³ ± Ò ÓÐÙÑÒ Ñ Ü¹ÚÖ Òº Ý ½º ¾º ½º ¾º¼ ¾º ½º ¾º¾ ¾º ³ ± Ò ÓÐÙÑÒ Ñ Ý¹ÚÖ Òº ÓÒ Þ Üµµ Ü ± Ò ÓÐÙÑÒ Ñ ØØÓÖ Ó Ò Ñ ± ܹÚÖ Ò º ÒØ Ö Ö Ý µ ± Ë ØØ Ð Ó Ø ÑØ ± ÓÒ Ò ÒØ ÖÚ ÐÐ Ö Ñº ÑÙ ± Ö Ò Ò ØØ Ð Ò Òº ÔÐÓØ Ü Ý ³ ³ Ü ÑÙ ³¹³µ ± Ê Ø Ó ÖÚ Ø ÓÒ Ö Ó ØØ Ð Ò º Identifieraβ och I β i och ÒØ och jämför med dina tidigare beräkningar i förberedelseuppgift 7. Det finns en specialskriven funktion, Ö Ù, som, förutom att skatta modellparametrarna, också ritar upp data, skattad linje, residualer och konfidens- och prediktionsintervall. Använd den för att lösa uppgift ST35 igen: ÐÔ Ö Ù Ö Ù Ü Ýµ Identifieraβ och I β i figuren och jämför med dina tidigare beräkningar. 3 Kalibrering av flödesmätare Bakgrund Kalibrering av en flödesmätare genomförs oftast i en speciell kalibreringsrigg. Här finns en referensmätare eller referensmetod för att mäta flödet. För att erhålla en god bild av hur den testade flödesmätaren fungerar utförs kalibreringen vid ett stort antal flöden. Tyvärr kan man även vid kalibrering råka ut för situationer där den testade mätaren störs av testförhållandena. Om t.ex. pulsationer uppträder i flödet kommer detta att negativt påverka resultaten för den testade mätaren. Detta visar sig oftast vid låga flödeshastigheter, då ultraljudsmätare tenderar att överskatta flödeshastigheten. Detta orsakas av att vi erhåller en laminär flödesprofil i röret, vilket medför att en ultraljudsmätare kan överskatta flödet med upp till 33 % vid fullt utbildad laminär strömning. Vid låga flöden ser vi även att vi har stora fluktuationer i resultaten. Detta beror troligen på att vi har flödespulsationer i flödesriggen vilka kommer att orsaka fluktuerande resultat för ultraljudsflödesmätaren, bland annat orsakat av s.k. aliasproblem (d.v.s. mätsystemet arbetar med en för låg sampelfrekvens i förhållande till frekvenserna hos det uppmätta). Vid höga flöden uppträder troligen kavitation (ett slags bubbelbildning) inne i ultraljudsflödesmätaren vilket kan förklara de positiva felen och den ökade spridningen för strömningshastigheter över 6.3 m/s.

Laboration 5, Matstat AK för CDIFysiker, HT12 3 Metod Vi har nu tillgång till data från en kalibrering av en ultraljudsflödesmätare. Datamaterialet, som kommer från institutionen för värme- och kraftteknik, omfattar 71 mätningar och är lagrat i matrisen ÐÓÛ, där varje rad innehåller data från en mätning, variabeln ܾ avser referensflödesmätningar från kalibreringsriggen och ݾ avser respektive flöden uppmätta med den testade ultraljudsflödesmätaren (flödeshastigheterna givna i enheten m/s). Den använda kalibreringsriggen använder kontinuerlig vägning av det genomströmmande vattnet för att bestämma ett massflöde som sedan kan räknas om till medelhastighet i röret, vilket är vad ultraljudsmätaren mäter. Tanken är här att vi med hjälp av de gjorda mätningarna med givare och referens skall skatta parametrarna i en enkel linjär regressionsmodell. Vi antar då att referensmätningarnas fel kan försummas i jämförelse med ultraljudsgivarens (varför måste vi bekymra oss om detta?) och att ultraljudsgivarens fel är oberoende, likafördelade och har väntevärdet noll. För att studera detta datamaterial ska vi använda funktionen Ö Ù vars finesser du förhoppningsvis redan bekantat dig med. Observera att du t.ex. automatiskt kan rita ut konfidensintervall och prediktionsintervall genom att markera i tillämplig ruta. Genom att kryssa i Mark ints och sedan klicka (och dra) i figuren kan man låta Ö Ù beräkna och rita intervallen för ett visst x 0 -värde. För att bilden skall bli tydligare börjar vi med att studera en liten delmängd av materialet, 10 talpar av flödesmätningar som ges i variablerna ܽ och ݽ. ÐÓ ÐÓÛºÑ Ø Ö Ù Ü½ ݽµ Använd nu funktionen interaktivt för att göra följande beräkningar: Beräkna det förväntade värdet enligt ultraljudsmätaren, då flödet enligt kalibreringsriggen är 0.40 m/s. Beräkna också ett 95 %-igt konfidensintervall för detta förväntade värde. Beräkna dessutom ett 95 %-igt prediktionsintervall för en framtida observation från ultraljudsmätaren, då kalibreringsriggen ger mätvärdet 0.40 m/s. Identifiera dessa två intervall i figuren och förklara vad det är som skiljer dem åt (se förberedelseuppgift 2 och 3). Notera också värdena på de två intervallen eftersom du ska använda dem senare i laborationen. När vi sedan skall använda den kalibrerade ultraljudsmätaren, innebär det i princip att vi läser baklänges i kalibreringskurvan. Antag att vi med ultraljudsmätaren får mätvärdet 0.48 m/s. Beräkna ett 95 %-igt konfidensintervall för den sanna flödeshastigheten (dvs det värde som kalibreringsriggen skulle ge). Identifiera i figuren de kurvor som används vid den grafiska bestämningen av detta konfidensintervall och förklara varför det är just dem, man skall använda (se förberedelseuppgift 4). När vi enligt det ovanstående beräknat olika konfidens- och prediktionsintervall har vi stillatigande förutsatt att mätfelen hos ultraljudsmätaren är normalfördelade med konstant varians. Var i beräkningarna utnyttjas detta antagande?

4 Laboration 5, Matstat AK för CDIFysiker, HT12 Om vi vill använda kalibreringskurvan i seriösa sammanhang måste vi först utföra en modellvalidering, dvs vi måste kontrollera att den linjära regressionsmodellen ger en adekvat beskrivning av sambandet. Vi kan bland annat validera modellen genom en grafisk residualanalys. Vid en sådan residualanalys får följande tre diagram, som alla kan fås i Ö Ù, anses vara standard: Residualer gentemot observerade eller predikterade y-värden. Residualer gentemot den oberoende variabelns värden. Residualer i normalfördelningsdiagram. Detta skall vi nu ta itu med, men låt oss göra detta med en modell anpassad till hela datamaterialet. Då kan vi också passa på att studera vissa andra egenskaper hos de olika intervallskattningarna. Ö Ù Ü¾ ݾµ Upprepa nu beräkningarna från första frågepunkten ovan, dvs Beräkna det förväntade värdet enligt ultraljudsmätaren, då flödet enligt kalibreringsriggen är 0.40 m/s. Beräkna också ett 95 %-igt konfidensintervall för detta förväntade värde. Beräkna dessutom ett 95 %-igt prediktionsintervall för en framtida observation från ultraljudsmätaren, då kalibreringsriggen ger mätvärdet 0.40 m/s. Skriv ner de båda intervallen. Jämför intervallbredderna baserade på de 10 mätningarna med motsvarande intervallbredder för den modell som är anpassad till alla de 71 mätpunkterna. Nu är det inte säkert att du lyckats pricka in precis samma x-värde i de två fallen, men vissa allmänna iakttagelser bör ändå vara möjliga. Jämför de två konfidensintervallen. Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Jämför de två prediktionsintervallen. Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Innan vi törs använda den skattade regressionslinjen för prediktion, måste vi naturligtvis förvissa oss om att modellen är adekvat. Ger plottarna anledning att förkasta modellen eller anser du att du på goda grunder kan använda den skattade regressionslinjen för kalibrering av ultraljudsmätaren (se förberedelseuppgift 5)?

Laboration 5, Matstat AK för CDIFysiker, HT12 5 4 Polynomregression Datamaterialet som du skall arbeta med i detta avsnitt är koldioxidhalter uppmätta över en vulkan varje månad under en period av 32 år, dvs totalt finns 32 12 = 384 mätvärden. Materialet finns i filen Ó¾. Mätvärdena ligger i variabeln Ó¾ Ø. Plotta mätvärdena: ÐÓ Ó¾ ÔÐÓØ Ó¾ Ø µ Det finns uppenbarligen en kraftig periodicitet (årsvariation) i mätningarna, och en sådan låter sig inte så lätt fångas med en polynomiell regressionsfunktion. Detta problem kan lösas på flera sätt. Ett är att införa en sinus-funktion som modellerar variationen, ett annat är att differentiera datasekvensen, dvs undersöka z i = y i y i 1 i stället för y-värdena själva. Vi skall dock välja den mycket enkla lösningen att medelvärdesbilda över varje år. Årsmedelvärdena finns i variabeln Ó¾Ñ Ð. Vi skapar även en vektor med den förklarande variabeln (årtalet, räknat från lämplig nollpunkt). Ü ½ ¾µ³ ÔÐÓØ Ü Ó¾Ñ Ð ³ ³µ Uppenbarligen är den periodiska variationen borta, vilket också var syftet med medelvärdesbildningen. Vi skall nu göra polynomregression på materialet, dvs vår modell är y i =β 0 +β 1 x i +β 2 x 2 i +...+β k x k i +ε i, i = 1,...,n, därε i är oberoende likafördelade störningar med väntevärdet 0 och variansenσ 2. Som modellen är skriven ovan är den olinjär, ty ett polynom är inte en linjär funktion, men vi kan göra den linjär genom att införa de nya förklarande variablerna x ji = x j i för j = 1,...,k, i = 1,...,n, och skriva y i =β 0 +β 1 x 1i +β 2 x 2i +...+β k x ki +ε i, i = 1,...,n. Detta är den modell vi skall arbeta med. Vi börjar med att anpassa en linjär funktion till datamaterialet, dvs polynomets ordningsgrad k = 1. Skattningarna avβ 0 ochβ 1 erhålles med hjälp av funktionen Ö Ù. Ö Ù Ü Ó¾Ñ Ðµ Verkar en rät linje vara en tillfredsställande regressionsmodell? Diagrammet visar att residualerna i mitten av mätserien tycks komma från en annan fördelning är residualerna i början och slutet av densamma. Alternativt finns en stark korrelation mellan störningarna vilket strider mot oberoendeantagandet. Vi drar alltså slutsatsen att en enkel linjär regressionsmodell inte passar det aktuella datamaterialet. Nästa steg är att försöka anpassa en kvadratisk funktion till mätvärdena, dvs vi använder ordningstalet k = 2 för regressionspolynomet (använd knappen degree i reggui). Verkar den kvadratiska modellen vara bättre än den linjära? Kan residualerna tänkas komma från samma fördelning? Kan de tänkas vara normalfördelade?

6 Laboration 5, Matstat AK för CDIFysiker, HT12 Avsluta med att studera de 95 %-iga konfidensintervallen förβ 0,β 1 ochβ 2. Ärβ 2 signifikant skild från 0, dvs, om H 0 :β 2 = 0 och H 1 :β 2 0, kan vi då förkasta H 0 (på nivån 5 %)? I så fall kan vi med gott samvete anta den kvadratiska modellen före den linjära. På samma sätt kan man gå vidare och testa om en tredjegradsterm i regressionsfunktionen är relevant. Undersök de olika möjligheterna Ö Ù ger dig att studera en regressionsmodell och välj olika gradtal i modellen. Fick du några varningsmeddelanden i kommandofönstret? Vad kan det i så fall bero på? Gör en bedömning av figurerna och utskriften med de skattade parametrarna och konfidensintervallen och avgör vilken polynommodell som är mest adekvat. 5 Multipel regression Frost Hur beror antalet frostdagar i en ort på höjd och latitud? Om man känner höjden och latituden hos en ort kan man då förutsäga (prediktera) antalet frostdagar? Man noterade det genomsnittliga antalet frostdagar vid 20 olika väderstationer i West Virginia. Detta tillsammans med höjden över havet (feet) och stationens latitud finns i filen ÖÓ ØºÑ Ø. Väderstationens namn finns i variabeln Ò ÑÒ, höjden över havet i ܽ, latituden i ܾ och antalet frostdagar i Ý. 5.1 Vilken typ av modell? För att få en första uppfattning om eventuella samband, rita punktdiagram över den beroende variabeln gentemot de oberoende variablerna var och en för sig, dvs rita dels Frostduration mot Höjd över havet och dels Frostduration mot Latitud. Ger bilderna någon antydan om att ett linjärt samband skulle kunna råda mellan förklarande och beroende variabler? Multipel regression är en mycket vanlig teknik när man vill undersöka hur p uppmätta variabler, x 1,...,x p, påverkar en responsvariabel, y. I denna situation har vi två förklarande variabler, dvs p = 2. Regressionsmodellen är alltså av formen y i =β 0 +β 1 x 1i +β 2 x 2i +ε i, i = 1,...,n där man tänker sig att allaε i är oberoende och normalfördelade med väntevärde 0 och variansσ 2.

Laboration 5, Matstat AK för CDIFysiker, HT12 7 Identifiera de olika variablerna i modellen ovan i vårt frostproblem. Vad är alltså er ansatta modell i just detta exemplet? 5.2 Regression med regress Reggui är en specialskriven funktion för våra grundkurser i matematisk statistik. Den fungerar emellertid bara för enkel linjär regression och polynomregression, den går alltså inte att använda här. Om man vill arbeta med multipel linjär regression (flera x-variabler) måste man användamatlabs inbyggda funktion för regressionsanalys, regress. Använd regress för att skatta parametrarna i modellen ovan. Börja med att bygga upp matrisen X som, i det här fallet, är en (20 3)-matris (det finns 20 st observationer av x1-värden respektive x2-värden) med första kolumnen enbart ettor, andra kolumnen bestående av x1- värdena och tredje av x2-värdena. ÓÒ Þ Ü½µµ ܽ ܾ Á Ö Ö Ö Ý ¼º¼ µ Vektorn ger skattningarna av parametrarnaβ 0,β 1 ochβ 2 medan deras konfidensintervall, med konfidensgraden 95 % (= 1 0.05), finns i matrisen Á. Vektorn Ö ger residualerna. Vad är skattningarna avβ 0,β 1 ochβ 2? Ange också motsvarande konfidensintervall. Hur många av modellparametrarna är signifikant skilda från noll (på 5 %-nivån)? Kan vi förenkla modellen? Plotta residualerna mot var och en av x-variablerna och gör en normplot. Finner du något att anmärka på, eller anser du att regressionsmodellen är acceptabel? Stämmer denna modell överens med era slutsatser från 5.1? Försök förklara skillnaden t.ex. genom att plotta x1 mot x2.

8 Laboration 5, Matstat AK för CDIFysiker, HT12 Använd modellen för att skatta medelfrostdurationen för en ort som ligger på 1000 fots höjd på 40 nordlig latitud. Hur stor skulle medeldurationen varit om orten istället legat på 2000 fots höjd? ¼ ½ ½¼¼¼ ¼ ¼ ¼ ± ½¼¼¼ Ø ¼ Ö Ö Ni kan även rita det skattade regressionsplanet i en tredimensionell bild. Funktionen ÔÐ ÒÔÐÓØ är skriven just för denna uppgift, men den utnyttjar Matlabs standardfaciliteter för 3D-plottar, ÔÐ ÒÔÐÓØ ܽ ܾ ݵ ± Ö Ú ØÓÖÒ Ñ Ô Ö Ñ Ø Ö ØØÒ Ò Ö Om ni lyckas få fram en bild kan ni gärna försöka relatera den till de två första figurerna ni ritade, med frostduration gentemot höjd över havet respektive latitud. Ni kan rotera figuren som skapas av planplot. 6 Avslutning Linjära regressionsmodeller är på grund av sin enkelhet mycket populära. Dock skall man alltid efter det att man anpassat en sådan modell och alltså innan man tar den i bruk utföra en ordentlig modellvalidering, det vill säga, kontrollera ommodellen verkligen kan anses vara adekvat. Syftet med denna datorlaboration har, förutom att medelst några få exempel presentera enkel och multipel linjär regression, varit att rikta uppmärksamheten mot diverse fallgropar, risken av förhastade slutsatser och vikten av en omsorgsfull modellvalidering. Teorin för linjära statistiska modeller är i och med detta ingalunda uttömd, och de praktiska svårigheter man så gott som alltid stöter på i samband med modellanpassning har vi i denna laboration endast antydningsvis snuddat vid. Den som är intresserad kan lära sig mycket mer i kursen FMSN30 Linjär och logistisk regression.