Laboration 2 multipel linjär regression

Relevanta dokument
Datorövning 2 Multipel regressionsanalys, del 1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F4

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F3

Föreläsning 4. Kap 5,1-5,3

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Datorövning 1 Enkel linjär regressionsanalys

Regressions- och Tidsserieanalys - F7

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Metod och teori. Statistik för naturvetare Umeå universitet

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

TENTAMEN I MATEMATISK STATISTIK

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Laboration 3: Modellval i multipel regression

Multipel Regressionsmodellen

Kvadratisk regression, forts.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Regressions- och Tidsserieanalys - F1

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Regressions- och Tidsserieanalys - F1

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 5 Exponentiella modeller och elasticitetssamband

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

F19, (Multipel linjär regression forts) och F20, Chi-två test.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Skrivning i ekonometri torsdagen den 8 februari 2007

TENTAMEN I STATISTIK B,

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 29 mars 2008

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

LABORATION 3 - Regressionsanalys

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

TVM-Matematik Adam Jonsson

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F7 Polynomregression och Dummyvariabler

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Facit till Extra övningsuppgifter

LABORATION 3 - Regressionsanalys

Skrivning i ekonometri lördagen den 25 augusti 2007

TAMS 28 DATORÖVNING 2

Följande resultat erhålls (enhet: 1000psi):

Obligatorisk uppgift, del 1

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Laboration 2: Styrkefunktion samt Regression

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Bayesiansk statistik, 732g43, 7.5 hp

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Tentamen i matematisk statistik

Matematisk statistik, Föreläsning 5

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

DATORÖVNING 2: STATISTISK INFERENS.

Statistik 1 för biologer, logopeder och psykologer

TAMS65 DATORÖVNING 2

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Räkneövning 3 Variansanalys

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Tentamen i matematisk statistik

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F5

Tentamen i Matematisk statistik Kurskod S0001M

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

FACIT (korrekta svar i röd fetstil)

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Transkript:

Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera residualer från anpassade regressionsmodeller för att bestämma om någon/några modeller är lämpliga. Datamaterialet som används här finns i MINITAB. Om ni väljer File->Open Worksheet så får ni upp en dialogruta. Där ska ni klicka på ikonen längst ner vid texten Look in Minitab Sample Data folder, öppna mappen Student12 och sedan välja filen Assess. Mäklare baserar sina husvärderingar på många olika variabler. Denna datamängd består av ett antal sådana variabler samt den slutliga värderingen av huset samt tomten. Kolumn Namn (översatta) Antal Saknade värden Beskrivning C1 Tomtpris 81 2 Mäklarens värdering av tomten (mätt i dollar) C2 Totalpris 81 2 Mäklarens värdering av huset och tomten (mätt i dollar) C3 Tomtyta 81 0 Antal tunnland C4-T Hustyp 81 0 Antal och typ av våningar: 1Story, 1Stryatk (en våning plus vind), 1.5Story, 2Stories, 2Storatk (två våningar plus vind), SplitLev (skilda 1.5Story, 2Stories, 2Storatk (två våningar plus vind)), SplitLev (skilda nivåer), eller BiLevel (två nivåer) C5 Bottenplansyta 81 0 Storlek på bottenplan (mätt i kvadratfot) C6-T Skick 81 0 Husets skick: Mycket bra (Mkt bra), Bra, eller Medel C7-T Uppvärmning 81 0 Uppvärmningskälla: Gas (naturgas), El (elektricitet), Sol (Solenergi), eller Olja C8 Rum 81 0 Antal rum C9 Sovrum 81 0 Antal sovrum C10 Badrum 81 0 Antal badrum C11 Toalett 81 0 Antal WC (utan bad/dusch) C12 Eldstad 81 0 Antal eldstäder (kakelugnar) C13-T Garage 81 0 Förekomst av garage: Ja eller Nej Under denna övning kommer ni att lägga till nya variabler till denna datamängd. Spara då helst arbetsbladet som en ny fil i er hemkatalog. Gör detta genom att klicka på File->Save Current Worksheet As...

Anpassa modell a) Totalpriset ska förklaras, börja med att analysera fem stycken möjliga förklaringsvariabler: Tomtytan, Bottenplansytan, Rum, Sovrum, och Badrum. 1. Plotta de olika variablerna mot Totalpriset. 2. Vilka samband finns? 3. Vilka variabler tycks vara lämpliga i en regressionsmodel? b) Gör en enkel linjär regression där totalpriset förklaras av tomtytan. 1. Hur stor förklaringsgrad får man? 2. Vad betyder förklaringsgraden? 3. Ska tomtytan vara med som förklaringsvariabel? c) Gör om b) för de enskilda variablerna listade i a). Identifiera härmed alla förklaringsvariabler som bör vara med i modellen. d) Anpassa en regressionsmodell där ni tar med alla förklaringsvariabler som ni identifierade som viktiga i c). Vad blir resultatet? Prova genom att lägga till fler eller ta bort några variabler. Studera för varje kombination: 1. Förklaringsgraden (Förbättras den nämnvärt om man lägger till variabler?) 2. tecknen hos de skattade lutningsparametrarna (Stämmer dessa med era noteringar från plottarna?) 3. signifikansen hos de anpassade modellerna (F-test) och för var och en av de ingående parametrarna (t-test) (Är resultaten konsistenta med era anteckningar om starka och svaga samband?) Residualanalys e) Prova nu modellen med tre förklaringsvariabler (Tomtyta, Bottenplansyta och Badrum) och genomför en residualanalys (kolla filen MINITAB för regressionsanalys för att se hur man gör). Titta på följande (smidigast är att använda Four in one): 1. histogram över residualerna (Histogram of residuals) 2. plot över residualerna mot anpassade värden (Residuals versus fits) Bedöm utifrån ovanstående plottar om residualerna är: 3. normalfördelade 4. har konstant varians f) I rutan Graphs under Regression kan man också välja att plotta residualerna mot enskilda förklaringsvariabler. Plotta residualerna mot Tomtyta och fundera om ett krökt samband mellan totalpriset och tomtytan skulle ge bättre resultat? Vilket samband såg ni i a) mellan dessa variabler? g) Gör också grafer över residualerna mot Bottenplansyta och Badrum. Kan ni se några krökningar där?

Prediktion h) Mäklaren har nu fått in ett nytt hus, som ska värderas. Mäklaren får veta dessa värden: 1. Tomten är 1,6 tunnland stor 2. Bottenplansytan är 2000 kvadratfot 3. Huset har två kompletta badrum Använd regressionsmodellen för att beräkna ett 99 % prediktionsintervall för totaltpriset på detta hus. Kvadratiska termer i) Man kan med lite god vilja ana ett kvadratiskt samband mellan Tomtyta och Totalpris i a) eller f). För att ta med ett sådant samband i regressionsmodellen behöver man skapa en ny variabel (t.ex. Tomtyta i kvadrat = Tomtyta 2 ). Notera att denna variabel behöver skapas och vara i en egen kolumn. Pröva att anpassa dessa två modeller: Dummyvariabler 1. y= x 1 (x 1) 2 + (x 1 = Tomtyta) 2. y= x 1 (x 1) 2 + 3 x 2 + 4 x 5 + (x 1 = Tomtyta, x 2 = Bottenplansyta, x 5 = Badrum) 3. Bedöm om den kvadratiska termen behövs i modellen. Om den kvadratiska termen inkluderas i modellen, undersök vilka effekter detta har på residuelarna, speciellt på residualerna mot Tomtyta. j) Gör om variabeln Garage till en indikatorvariabel med lämpligt namn. Anpassa en regressionsmodell som förklarar totalpriset med Tomtyta och indikatorvariabeln för garage. 1. Ökar värdet av huset om det finns ett garage eller inte? 2. Är ökningen signifikant? Interaktioner Att ha eller inte ha garage kanske inte alltid spelar lika mycket roll. Man kan t.ex. tänka sig att stora hus med stora tomter ökar mer i värde om det dessutom finns ett garage, medan mindre hus med mindre tomter inte ökar lika mycket. k) Prova därför en modell som inkluderar en interaktionsterm, som beskriver den gemensamma effekten av garage och tomtyta på totalpriset. Gör en ny variabel, som ni t.ex. kallar för Tyta*Gar (Tomtyta*Garage), notera att indikatorvariabeln för Garage ska användas. l) Anpassa nu en regressionsmodel för Totalpris som förklaras av de tre variablerna Tomtyta, indikatorvariabeln för garage och interaktionsvariabeln Tyta*Gar. m) Tolka nu värdena på de skattade lutningsparametrarna. Verkar det som att det föreligger två olika linjära samband mellan pris och tomtyta? n) För att illustrera sambanden kan man plotta totalpriset mot tomtyta med olika symboler för fastigheter med garage och sådana utan. Detta görs via Graph Scatterplot With Groups, och väl där väljs Totalpris till Y, Tomtyta till X och Garage till Categorical Kan ni se om det finns två olika samband, beroende på huset har garage eller inte?

Partiella F-test o) I många fall är man inte riktigt säker vissa variabler ska vara med i modellen eller inte. Genom att bedöma signifikansnivåer på de enskilda variablerna kan vissa slutsatser dras, men ofta vill man veta om en hel grupp av variabler kan uteslutas. Då använder vi partiella F- test. Förut hade vi garage med som förklaringsvariabeln. Modellen var: y= x 1 6 x 6 + 7 x 1 x 6 + x 1 =Tomtyta, x 6 = Garage, x 1*x 6 = Tomtyta*Garage För att avgöra om det är olika linjära samband mellan pris och tomtyta beroende på om fastigheten har garage eller inte skulle vi vilja testa hypotesen: H 0: 6= 7=0 med hjälp av en (enda) testfunktion. Om H 0: 6= 7=0 är sann kan man visa att testfunktionen: F SSE SSE R C SSE C / 2 /( n 3 1) får en F-fördelning med 2 och n-3-1 frihetsgrader. SSE R = Residualkvadratsumman i en anpassad modell med enbart x 1 som förklaringsvariabel (Reduced model) SSE C = Residualkvadratsumman i modellen med alla tre variabler (Complete model). n är i detta fall 79 (totalt antal observationer, två observationer saknar värden) tvåan i täljaren står för att det är två variabler som ifrågasätts (x 6 och x 1 x 6 ) trean i nämnaren kommer från att den fulla modellen innehåller 3 förklarande variabler För att genomföra ett partiell F-test måste man först köra båda modellerna (den reducerade och den kompletta). Notera de aktuella residualkvadratsummorna från utskrifterna, sätt in i formeln och beräkna värdet av testfunktionen. Observera att värdena är mycket stora här. p) Kan ni förkasta nollhypotesen? Hade ni förväntat er att ni skulle kunna göra det?

Det verkar ju en aning krångligt att man skall behöva göra två regressionsanalyser för att kunna beräkna denna testfunktion. Det finns faktiskt en viktig genväg. Med den reducerade modellen borde vi få följande ANOVA (Analysis of variance)-tabell: Analysis of Variance Source DF SS MS F P Regression 1 2.05416E+11 2.05416E+11 45.16 0.000 Residual Error 77 3.50225E+11 4548375603 Total 78 5.55641E+11 och SSR R=2.05416 10 11 Med den fullständiga modellen får vi följande ANOVA-tabell: Analysis of Variance Source DF SS MS F P Regression 3 2.48772E+11 82924009775 20.27 0.000 Residual Error 75 3.06869E+11 4091583530 Total 78 5.55641E+11 Source DF Seq SS Acreage 1 2.05416E+11 Garage 1 24602764786 Acr*Gar 1 18753391907 Och vi ser att SSR(Tomtyta) är densamma som SSR R. SSR c = 2,48772*10 11 Testvariabeln kan då räknas ut enligt: (SSR C SSR R )/2 MSE = (2,48772 1011 2,05416 10 11 )/2 4 091 583 530 Stämmer detta värde överens med det ni tidigare beräknade? 5,298 Det går alltså att fixa ett partiellt F test utan att behöva göra två separata analyser, förutsatt att man matat in förklaringsvariablerna i rätt ordning. Vi hade inte kunnat göra detta om vi t ex hade matat in kolumnerna i ordningen C15, C16, C3.

Multikollinearitet Nu ska alla möjliga numeriska förklaringsvariabler undersökas, dessa är: Tomtpris, Tomtyta, Tomtyta 2, Bottenplansyta, Rum, Sovrum, Badrum, Toalett, Eldstad, Garage, Tyta*Gar. q) Börja med att göra ett gäng enkla linjär regressioner där Totalpris förklaras av var och en variablerna. r) Anpassa nu en multipel regressionsmodell där alla förklaringsvariabler listade ovan ingår. 1. Studera t-testen, stämmer dessa överens med det ni noterat från de enkla linjära regressionerna? 2. Undersök de skattade regressionsparametrarna, har någon/några av dessa bytt tecken jämfört med de enkla linjära regressionerna (eller, tänk logiskt)? Ni bör upptäcka att några konstiga saker skett ovan, och detta kan bero på multikollinearitet. s) Börja med att undersöka detta genom att kolla på korrelationerna mellan förklaringsvariablerna (Stat Basic Statistics Correlation). t) Ta fram de olika VIF-värdena med hjälp av Minitab, finns under Stat Regression Regression Options. Visar dessa på problem med modellen? u) Tag succesivt bort de variabler med högst VIF-värden. Tänk på att kvadrater och interaktioner inte ska vara kvar i modellen om grundvariablerna tas bort! v) Vilken slutlig modell landar ni på?