1 Syfte. 2 Enkel lineär regression MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Lineära regressionsmodeller i allmänhet

Relevanta dokument
Laboration 4: Lineär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT09

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 5: Regressionsanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

1 Förberedelseuppgifter

Datorövning 5 Regression

Laboration 2: Styrkefunktion samt Regression

1 Förberedelseuppgifter

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Föreläsning 12: Regression

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Hypotesprövning och styrkefunktion

F13 Regression och problemlösning

Hemuppgift 2 ARMA-modeller

Hemuppgift 3 modellval och estimering

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Statistik B Regressions- och tidsserieanalys Föreläsning 1

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

TVM-Matematik Adam Jonsson

Laboration 4 Regressionsanalys

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Matematisk statistik, Föreläsning 5

Föreläsning 12: Linjär regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik för D, I, Π och Fysiker

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

LABORATION 3 - Regressionsanalys

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Statistiska samband: regression och korrelation

Matematikcentrum VT 2007 Matematisk statistik 14 januari Datorlaboration 1

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

LABORATION 3 - Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Lycka till!

Datorövning 5 Exponentiella modeller och elasticitetssamband

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Enkel och multipel linjär regression

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Matematisk statistik för B, K, N, BME och Kemister

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Laboration 2 multipel linjär regression

InStat Exempel 4 Korrelation och Regression

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning G60 Statistiska metoder

Grundläggande matematisk statistik

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Lektionsanteckningar 11-12: Normalfördelningen

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Obligatorisk uppgift, del 1

Föreläsning G60 Statistiska metoder

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Enkel linjär regression

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Härledning av Black-Littermans formel mha allmänna linjära modellen

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

TAMS65 - Seminarium 4 Regressionsanalys

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 5. Approximationsteori

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Föreläsning 15, FMSF45 Multipel linjär regression

3 Maximum Likelihoodestimering

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Regressions- och Tidsserieanalys - F1

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Analys av signalsubstanser i hjärnan

bli bekant med summor av stokastiska variabler.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Datorlaboration 2 Konfidensintervall & hypotesprövning

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistisk försöksplanering

Transkript:

* ) LUNDS TEKNISK HÖGSKOL MTEMTIKCENTRUM MTEMTISK STTISTIK MTEMTISK STTISTIK K ÖR L MS HT- " # 1 Syfte Detta projekt handlar om regressionsanalys och är uppdelad i två delar Del ett handlar om enkel lineär regression medan del två handlar om multipel lineär regression De grundläggande modellerna presenteras och anpassas med minsta-kvadrat-metodens hjälp till givna datamaterial Projektet syftar också till att visa på några av de egenskaper hos de skattade modellerna som man under förutsättning att vissa grundläggande antaganden är uppfyllda kan härleda med statistikteorins hjälp I detta sammanhang spelar även modellvalidering och residualanalys en viktig roll Enkel lineär regression 1 örberedelseuppgifter (a) Räkna uppgift 15 i kursboken Vad skulle du dra för slutsats om det visade sig att det beräknade konfidensintervallet för regressionslinjens lutning innehöll nollan? (b) Vad innebär det att utföra ett signifikanstest med den så kallade konfidensmetoden? (c) Räkna uppgift 1 i övningshäftet Beräkna förutom de tre efterfrågade konfidensintervallen också ett 95 -igt prediktionsintervall för torktiden om koncentrationen är 17 (d) Läs igenom föreläsningsanteckningarna så att du är väl förtrogen med matrisformuleringen av regressionsproblemet (e) Lös del (i) av uppgift 1 i övningshäftet genom att ställa upp det i matrisform och sedan lösa normalekvationerna X t X' X t y Lineära regressionsmodeller i allmänhet Med matrisnotation kan en allmän lineär regressionsmodell vare sig den är enkel eller multipel skrivas y X( e) (med samma beteckningar som i föreläsningsanteckningarna där de ingående matriserna har följande form: y ' * * y 1 y y n 1 p -/ -/ ) X och e * 1 x (1) 1 111 x (p) 1 1 x (1) 111 x (p) 1 x n (1) 111 x n (p) Rent allmänt fås minsta-kvadratlösningen 4 till ett överbestämt ekvationssystem y X via de så kallade normalekvationerna X t X5 X t y) som 647 (X t X)8 1 X t y Man bör dock i möjligaste mån undvika att lösa ut genom att invertera matrisen X t X Om matrisen är illa konditionerad kan man nämligen få en feltillväxt som gör resultatet helt oanvändbart Det finns bättre numeriska metoder för att hantera detta problem (se till exempel [1 ]) I MTLB finns visserligen en funktion 9;:=< för att invertera matriser men en numeriskt sett effektivare och mer stabil lösning får du om du i stället använder operatorn > som kan uppfattas som vänsterdivision (för en mer utförlig beskrivning se till exempel [ 4]) Det rekommenderade sättet att lösa matrisekvationen ovan är alltså BDCEG 1 n -/ 1 -/

) Enkel lineär regression i matrisform Vid enkel lineär regression söker man anpassa en rät linje till datamaterialet dvs modellen är y i ( 1x i ( i) i 1) 111 ) n) där i är oberoende likafördelade störningar med väntevärdet och variansen Vi kommer i den följande framställningen att arbeta med matrisformuleringen av modellen vilket innebär att vi skriver det överbestämda ekvationssystemet ovan som y X ( e) där de ingående matriserna har följande form (föreläsningsanteckningarna): y ' * y 1 y y n 1 -/ ) X och e * * 1 x 1 1 x 1 x n 1 n -/ 1 -/ ) ) observation x 1 x x y 1 y y x 4 y 4 1 1 84 919 746 8 658 8 695 814 677 8 576 1 758 874 174 8 771 4 9 881 877 711 8 884 5 11 8 96 781 8 847 6 14 996 81 884 8 74 7 6 74 61 68 8 55 8 4 46 1 59 8 556 9 1 184 91 811 8 791 1 7 48 76 64 8 689 11 5 568 474 57 19 15 Tabell 1: nscombedata 4 allgropar ör att illustrera vådan av att okritiskt anpassa en lineär modell till ett givet datamaterial har J nscombe konstruerat ett datamaterial se tabell 1 som finns lagrat i filen G: och kan laddas in i MTLB med hjälp av kommandot G: Med kommandot får du reda på aktuella variabler i minnet En lämplig början är alltid att ta sig en titt på datamaterialet Börja med att plotta gentemot dvs " ('#) # Plotta sedan y mot x y mot x samt y 4 mot x 4 (med hjälp av kommandot kan du få alla fyra plottarna var för sig i samma fönster det ger en bra överblick) Vi skall nu helt aningslöst till var och en av datamängderna anpassa en lineär modell enligt y i * ( x i ( i) i 1) 111 ) n) där i är oberoende likafördelade störningar med väntevärdet och variansen Vi börjar med att konstruera matrisen X (enligt notationen i det inledande avsnittet ovan) för den första datamängden C B- på följande sätt: G: /@91 Med MTLBs inbyggda minsta-kvadrat-lösare kan vi snabbt 4 och BCGE enkelt få fram vår skattning av som C C Denna vänsterdivision med matrisen innebär att MTLB beräknar vänsterinversen till och om systemet är överbestämt bestämmer MTLB automatiskt minsta-kvadrat-lösningen Nu kan vi bestämma den skattade regressionslinjen och sedan rita in denna ovanpå punktdiagrammet över det första datamaterialet BC 5;46

6 G: Är det rimligt att teckna sambandet mellan den förklarande variabeln och den beroende variabeln som ett lineärt samband? ör att studera hur väl vår modell stämmer med givna data beräknar vi först vektorn av residualer Om modellen är korrekt skall residualerna ungefärligen (vi använder skattade parametrar) vara observationer av likafördelade stokastiska variabler ör att undersöka hur det förhåller sig med detta utför vi en residualanalys enligt beskrivningen i kurslitteraturen Vi kan till exempel plotta residualerna gentemot den förklarande variabeln 5B 9 '#/ Om vårt modellantagande är korrekt skall vi inte kunna skönja någon systematisk variation i diagrammet Kan du finna något beroende? Nu vill vi göra motsvarande för de övriga tre datamaterialen det vill säga lösa ekvationssystemen skatta regressionslinjerna och rita ut residualerna ör att du ska slippa göra alla dessa kommandon finns de sammanställda i MTLB-filen G: Skriv alltså G: för att få skattningar och plottar och besvara sedan följande frågor: Uppgift 1: Jämför värdena på de skattade koefficienterna för var och en av de fyra regressionslinjerna Uppgift : Studera och jämför residualplottarna för de fyra olika fallen Passar det med lineära samband i alla de fyra fallen? Var passar det inte och varför? Uppgift : Vad har denna lilla studie att förtälja den som helt slentrianmässigt och okritiskt vill använda en lineär regressionsmodell? 5 Kalibrering av flödesmätare 51 Bakgrund Kalibrering av en flödesmätare genomförs oftast i en speciell kalibreringsrigg Här finns en referensmätare eller referensmetod för att mäta flödet ör att erhålla en god bild av hur den testade flödesmätaren fungerar utförs kalibreringen vid ett stort antal flöden Tyvärr kan man även vid kalibrering råka ut för situationer där den testade mätaren störs av testförhållandena Om till exempel pulsationer uppträder i flödet kommer detta att negativt påverka resultaten för den testade mätaren Detta visar sig oftast vid låga flödeshastigheter då ultraljudsmätare tenderar att överskatta flödeshastigheten Detta orsakas av att vi erhåller en laminär flödesprofil i röret vilket medför att en ultraljudsmätare kan överskatta flödet med upp till vid fullt utbildad laminär strömning Vid låga flöden ser vi även att vi har stora fluktuationer i resultaten Detta beror troligen på att vi har flödespulsationer i flödesriggen vilka kommer att orsaka fluktuerande resultat för ultraljudsflödesmätaren bland annat orsakat av så kallade aliasproblem Vid höga flöden uppträder troligen kavitation inne i ultraljudsflödesmätaren vilket kan förklara de positiva felen och den ökade spridningen för strömningshastigheter över 6 m/s 5 Metod Vi har nu tillgång till data från en kalibrering av en ultraljudsflödesmätare Datamaterialet som kommer från institutionen för värme- och kraftteknik omfattar 71 mätningar och är lagrat i matrisen där varje rad innehåller data från en mätning variabeln avser referensflödesmätningar från kalibreringsriggen och avser respektive flöden uppmätta med den testade ultraljudsflödesmätaren (flödeshastigheterna givna i enheten m/s) Den använda kalibreringsriggen använder kontinuerlig vägning av det genomströmmande vattnet för att be-

stämma ett massflöde som sedan kan räknas om till medelhastighet i röret vilket är vad ultraljudsmätaren mäter Tanken är här att vi med hjälp av de gjorda mätningarna med givare och referens skall skatta parametrarna i en enkel lineär regressionsmodell Vi antar då att referensmätningarnas fel kan försummas i jämförelse med ultraljudsgivarens (varför måste vi bekymra oss om detta?) och att ultraljudsgivarens fel är oberoende likafördelade och har väntevärdet noll 9 Vi skall nu använda en färdigskriven funktion och låta den göra grovjobbet Undersök med - kommandot vad funktionen 9 gör och vad den har för inparametrar Observera att du till exempel automatiskt kan rita ut konfidensintervall och prediktionsintervall genom att markera i tillämplig ruta ör att bilden skall bli tydligare börjar vi med att studera en liten delmängd av materialet 1 talpar av flödesmätningar som ges i variablerna och 94 nvänd nu funktionen interaktivt för att göra följande beräkningar: Uppgift 4: Beräkna det förväntade värdet enligt ultraljudsmätaren då flödet enligt kalibreringsriggen är 56 m/s Beräkna också ett 95 -igt konfidensintervall för detta förväntade värde Beräkna dessutom ett 95 -igt prediktionsintervall för en framtida observation från ultraljudsmätaren då kalibreringsriggen ger mätvärdet 56 m/s Identifiera dessa två intervall i figuren och förklara vad det är som skiljer dem åt Notera också värdena på de två intervallen eftersom du ska använda dem senare i laborationen Uppgift 5: När vi sedan skall använda den kalibrerade ultraljudsmätaren innebär det i princip att vi läser baklänges i kalibreringskurvan ntag att vi med ultraljudsmätaren får mätvärdet 61 m/s Beräkna ett 95 -igt konfidensintervall för den sanna flödeshastigheten (det vill säga det värde som kalibreringsriggen skulle ge) Identifiera i figuren de kurvor som används vid den grafiska bestämningen av detta konfidensintervall och förklara varför det är just dem man skall använda Uppgift 6: När vi enligt det ovanstående beräknat olika konfidensoch prediktionsintervall har vi stillatigande förutsatt att mätfelen hos ultraljudsmätaren är normalfördelade med konstant varians Var i beräkningarna utnyttjas detta antagande? Om vi vill använda kalibreringskurvan i seriösa sammanhang måste vi först utföra en modellvalidering det vill säga vi måste kontrollera att den lineära regressionsmodellen ger en adekvat beskrivning av sambandet Vi kan bland annat validera modellen genom en grafisk residualanalys Vid en sådan residualanalys får följande tre diagram som alla kan fås i 9 anses vara standard: Residualer gentemot observerade eller predikterade y-värden Residualer gentemot den oberoende variabelns värden Residualer i normalfördelningsdiagram Detta skall vi nu ta itu med men låt oss göra detta med en modell anpassad till hela datamaterialet Då kan vi också passa på att studera vissa andra egenskaper hos de olika intervallskattningarna 94 Upprepa nu beräkningarna från första frågepunkten ovan det vill säga Uppgift 7: Beräkna det förväntade värdet enligt ultraljudsmätaren då flödet enligt kalibreringsriggen är 56 m/s Beräkna också ett 95 -igt konfidensintervall för detta förväntade värde Beräkna dessutom ett 95 -igt prediktionsintervall för en framtida observation från ultraljudsmätaren då kalibreringsriggen ger mätvärdet 56 m/s Skriv ner de båda intervallen Jämför intervallbredderna baserade på de 1 mätningarna med motsvarande intervallbredder för den modell som är anpassad till alla de 71 mätpunkterna Nu är det inte säkert att du lyckats pricka in precis samma x-värde i de två fallen men vissa allmänna iakttagelser bör ändå vara möjliga 4

C Uppgift 8: Jämför de två konfidensintervallen Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Uppgift 9: Jämför de två prediktionsintervallen Skiljer de sig väsentligt åt (eller inte)? Hur kan det förklaras? Uppgift 1: Innan vi törs använda den skattade regressionslinjen för prediktion måste vi naturligtvis förvissa oss om att modellen är adekvat Ger plottarna anledning att förkasta modellen eller anser du att du på goda grunder kan använda den skattade regressionslinjen för kalibrering av ultraljudsmätaren? Multipel lineär regression I och med att vi redan vid enkel lineär regression arbetat med matrismodeller erbjuder multipel lineär regression inget nytt vad beträffar parameterskattningarna Vi får utöka matrisen X med ytterligare en kolonn för varje ny förklarande variabel men minsta-kvadrat-problemet löser vi med benägen hjälp av MTLB på samma sätt som tidigare 1 Huspriser I kursen fastighetsvärdering K använder man bland annat multipel lineär regression för att bedöma marknadsvärdet för småhus med den sk ortsprismetoden Vi skall nu undersöka hur försäljningpriset (tkr)för ett antal småhus i Lund under 1995 och 1996 beror på de förklarande variablerna: Bo-yta (m ) Standardpoäng Taxeringsvärde (tkr) och Husets ålder (år) Vi har även uppgifter om: hustyp där =1 innebär radhus = kedjehus och = fristående hus och i variablerna dag månad och år finns uppgifter om försäljningdatum för husen lagrade Data finns lagrade i filen 9 och du kan i vanlig ordning läsa in data med kommandot 9 Börja med att titta på data Plotta köpesumman mot boyta resp mot standardpoäng resp mot taxeringsvärdet och mot husets ålder exempelvis med kommandona: / ( / 9 9 "1 / @: 9 G: < ( / G: G: 9 9 "1 @: 9 G: < G: G: ( / ) 9 : < 9 9 "1 / @: 9 G: < 9;: < ( / / 9 9 "1 @: 9 G: < Uppgift 1: Ser sambanden ut som du förväntat dig? Verkar det finns lineära samband mellan huspriset och de förklarande variablerna? Uppgift : Kan man alltid räkna med att eventuella samband skall synas när man plottar den beroende variabeln gentemot de förklarande variablerna en i taget på detta sätt? örklara varför (eller varför inte) Uppgift : npassa en lineär regression till försäljningspriset med de förklarande variablerna: bo-yta standardpoäng taxeringsvärde och husets ålder Börja med att skapa -matrisen C B och -vektorn enligt: #6 B 6 4)@91 G: ör att snabbt komma vidare kan vi ta MT- LB-funktionen till hjälp Ta med - kommandot reda på vad funktionen gör och 5

B B B vad den har för in- och utparametrar innan du använder den B C 6 1 4 och motsva- och residua- De skattade parametrarna finns i vektorn rande konfidensintervall finns i vektorn lerna i vektorn Uppgift 4: När räknar ut konfidensintervall för b- parametrarna utnyttjas normalfördelingsantagandet Kontrollera om detta är uppfyllt genom att rita in residualerna i ett normalfördelningspapper med kommandot: : 1 Det kan här vara bra att repetera resultaten från avsnitt i laboration speciellt resultaten på uppgift 5 Verkar det som om residualerna är normalfördelade? Om inte vilken fördelning ser de ut att ha? Uppgift 5: Gör en lämplig transformation av -värdena och gör om regressionen 6 B C 6 < =9 1 4 : 1 Verkar residualerna vara normalfördelade nu? Uppgift 6: Hur många av modellparametrarna är signifikant skilda från noll (på 5 -nivån)? C B C 6 @9 : 9 9 : 9@B : 1 G: 4 C# Vi kan också skatta med hjälp av residualerna # Vilket antal frihetsgrader har vår -skattning? Uppgift 8: Vi skall nu studera residualerna närmare örst kontrollerar vi igen om de är normalfördelade Sen vill vi också kontrollera om det finns någon systematik hos residualerna 9 / : 1 @9 " 9 # 9 @911 " # " 9 @911 / # 9 @911 9;: /< " / 9 : < # 9 @911 9 9 Vilka slutsatser kan vi dra från ovanstående plottar? Verkar vår modell rimlig? 6 Uppgift 7: Gör om regressionen med bara de förklarande variabler som har b-koefficienter signifikant?skilda från noll 9 : # 9 : 9;: # 9 9 9 : : 1 Uppgift 9: ör att ytterligare testa vår modell har vi sparat några huspriser som vi inte hade med i datamaterialet då vi anspassade vår regressionsmodell Dessa finns i filen 9 Ladda in data med kommandot 9 Här heter variablerna samma saker som för det första datamaterialet fast med tillägg av på slutet av alla variabelnamn Således heter huspriserna 6

är husen ålder osv Välj ut något/några av husen och gör ett 95--igt prediktionsintervall för priset med hjälp din tidigare modell Ligger det verkliga priset i ditt prediktionsintervall? Är prediktionsintervallets bredd rimlig med tanke på om vill använda det praktiskt för att värdera hus? inns det något vi kan göra för att förbättra detta? 5 Polynomregression Vi skall nu avsluta denna laboration med ett exempel på polynomregression som vi med ett lämpligt val av förklarande variabler kan behandla som ett specialfall av multipel lineär regression Hur detta går till beskrivs i föreläsningsanteckningarna Vi skall använda data från uppgift 11 som exempel: Olikheterna mellan fotogrammetrisk triangulerad höjdmätning före justering och terrestiellt beräknad förhöjning är ett exempel på mätningsfel i fotogrammetri De här skillnaderna Y i höjdberäkningarna har observerats och teoretiskt visats att vara en ickelineär funktion av avståndet x längs centrumlinjen i en triangel enligt följande: Y a ( bx ( cx Bestäm minsta-kvadrat-skattningarna av a b och c utgående från följande mätningar vståndet längs centrumlinjen av triangelformad strip X (km) el i förhöjningen Y (m) 5 1 1 17 1 6 4 11 4 7 1 4 1 1 7 41 9 G: Läs in datafilen i MTLBs arbetsarea med kommandot 9 : vståndet från centrumlinjen finns i variabeln och felet i förhöjningen i variabel Vi skall återigen använda 9 till att göra grovjobbet så att vi kan koncentrera oss åt att tolka resultatet Vi vet att gradtalet på polynomet borde vara Prova ändå med olika gradtal och studera skattade parametrar och deras konfidensintervall Nu är det hög tid att fundera och besvara några frågor: Uppgift 1: ick du några varningsmeddelanden? Vad kan det i så fall bero på? Uppgift 11: Undersök för varje modell vilka parametrar som är signifikant skilda från noll (till exempel på 5 -nivån) På vilket sätt är denna undersökning beroende av antagandet om oberoende normalfördelade slumpfel? Uppgift 1: Välj utifrån en samlad bedömning av figurerna och de skattade parametrarna med konfidensintervallen ut den polynom-modell som du tycker är mest adekvat Ditt val skall vara väl motiverat 4 vslutning Lineära regressionsmodeller är på grund av sin enkelhet mycket populära Dock skall man alltid efter det att man anpassat en sådan modell och alltså innan man tar den i bruk utföra en ordentlig modellvalidering det vill säga kontrollera om modellen verkligen kan anses vara adekvat Syftet med denna datorlaboration har förutom att medelst några få exempel presentera enkel och multipel lineär regression samt polynomregression varit att rikta uppmärksamheten mot diverse fallgropar risken av förhastade slutsatser och vikten av en omsorgsfull modellvalidering Teorin för lineära statistiska modeller är i och med detta ingalunda uttömd och de praktiska svårigheter man så gott som alltid stöter på i samband med modellanpassning har vi i denna laboration endast antydningsvis snuddat vid Referenser [1] Torgil Ekman Numeriska metoder på dator och dosa Studentlitteratur Lund 1987 7

[] Lars Eldén and Linde Wittmeyer-Koch Numerisk analys en introduktion Studentlitteratur Lund 1987 [] George Lindfield and John Penny Numerical Methods Using MTLB Ellis Horwood Ltd Hemel Hempstead Hertfordshire 1995 En introduktion i numeriska metoder med MTLB-algoritmer som exempel [4] The Math Works Inc Natick Mass MTLB Reference Guide 199 5 Redovisning Rapport Projektet utförs i grupper om två eller tre personer och skall redovisas i form av en kort rapport koncentrerad kring de nyckelfrågor som är markerade med en bomb igurer och histogram som kan förtydliga resonemang och slutsatser skall givetvis också vara med Utformningen av rapporten skall i görligaste mån följa instruktionerna i den utdelade promemorian angående redovisning av datorlaborationer Rapporten skall bara omfatta väsentligheterna i projektet Det finns delmoment och Uppgifter som är till för att stödja nyckelmomenten Dessa behöver så klart ej redovisas i detalj och bör bara tas med för att stödja och förtydliga eventuella resonemang 8

LUNDS TEKNISK HÖGSKOL MTEMTIKCENTRUM MTEMTISK STTISTIK REDOVISNING V PROJEKT : LINEÄR REGRESSION MTEMTISK STTISTIK K ÖR L MS HT- Detta blad skall lämnas som försättsblad till rapporten Checklista 1 Är alla momenten i projektet (inklusive förberedelseuppgifter) utförda? Har rapporten blivit korrekturläst? Är språk- och skrivfel rättade? Är figurer tabeller och liknande försedda med figurtexter och tydlig numrering? 4 Har alla figurer storheter inskrivna på alla axlar? 5 Är de beräkningar som kan kontrollräknas kontrollräknade? 6 Har du gjort en rimlighetsbedömning av samtliga resultat? 7 Har eventuella orimliga resultat blivit vederbörligen kontrollerade och kommenterade? 8 Är den löpande texten väl strukturerad med tydliga avsnittsrubriker? 9 Är skriften försedd med: Sammanfattning? Innehållsförteckning? Referenslista? Sidnumrering? Datum? 1 Har förutsättningar förenklingar och gjorda antaganden tydligt redovisats? 11 Är din rapport läsbar utan tillgång till laborationshandledningen? 1 Har ni samarbetat med annan grupp? I så fall vilken? 1 Är detta försättsblad med checklista fullständigt ifyllt? [ort och datum] [underskrifter] [namnförtydliganden] Ja Nej Rättarens anteckningar Rättat av: Godkänt (datum):