Datorövning 2 Multipel regressionsanalys, del 1

Relevanta dokument
Laboration 2 multipel linjär regression

Datorövning 1 Enkel linjär regressionsanalys

Datorövning 5 Exponentiella modeller och elasticitetssamband

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

DATORÖVNING 2: TABELLER OCH STANDARD-

10.1 Enkel linjär regression

Laboration 3: Modellval i multipel regression

DATORÖVNING 2: STATISTISK INFERENS.

Laboration med Minitab

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Datorövning 1 Introduktion till Minitab och Excel

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

TAMS 28 DATORÖVNING 2

LABORATION 3 - Regressionsanalys

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F4

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Metod och teori. Statistik för naturvetare Umeå universitet

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

DATORÖVNING 4: DISKRETA

DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS.

Laboration 4 R-versionen

Kvadratisk regression, forts.

DATORÖVNING 3: EXPERIMENT MED

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

TVM-Matematik Adam Jonsson

Obligatorisk uppgift, del 1

Regressions- och Tidsserieanalys - F7

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Marknadsinformationsmetodik Inlämningsuppgift

Föreläsning 4. Kap 5,1-5,3

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Läs noggrant informationen nedan innan du börjar skriva tentamen

Intro till SPSS Kimmo Sorjonen (0811)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

TAMS28 DATORÖVNING VT1

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Regressions- och Tidsserieanalys - F1

InStat Exempel 4 Korrelation och Regression

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

2.1 Minitab-introduktion

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Gran Canaria - Arbetsbeskrivning knapplänkar (Mediator 8)

LABORATION 3 - Regressionsanalys

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Följande resultat erhålls (enhet: 1000psi):

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F1

Arbeta med normalfördelningar

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Richard Öhrvall, 1

Tentamen i matematisk statistik

Marknadsinformationsmetodik Inlämningsuppgift

Laboration: Grunderna i Matlab

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Laboration 4 Regressionsanalys

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Introduktion och laboration : Minitab

En introduktion till och första övning for Excel

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 15 januari 2005

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Handledning för konstruktion av tabeller och diagram med Excel

Laboration med MINITAB, Del 2 Om Fyris ns global uppv rmning

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

*****************************************************************************

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

LABORATIONER. Det finns en introduktionsfilm till Minitab på

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Vad Betyder måtten MAPE, MAD och MSD?

Skrivning i ekonometri lördagen den 29 mars 2008

1 Förberedelseuppgifter

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Att skapa en bakgrundsbild och använda den i HIPP

Kort manual till SPSS 10.0 för Mac/PC

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Att arbeta med centralfiler i Revit AADA20 Rhino/Revit Workshop 2016 LTH Ludvig Hofsten

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Datoro vning 1-2 Statistisk analys av kodade svar

Datorövning 1 Statistik med Excel (Office 2010, svenska)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Laboration 1 Introduktion till Visual Basic 6.0

Till flera av ovanstående finns det dessutom varianter, vilka kommer att presenteras i de olika avsnitten.

Transkript:

Datorövning 2 Multipel regressionsanalys, del 1 Datorövningen utförs i grupper om två personer. I denna datorövning skall ni använda Minitab för att 1. analysera data enligt en multipel regressionsmodell 2. studera residualer från anpassade regressionsmodeller Multipel regressionanalys Starta Minitab Se till att ni kan skriva kommandon i Session-fönstret : klicka i Session-fönstret så att det blir aktivt. Öppna sedan menyn Editor (alltså inte menyn Edit) och välj där alternativet Enable Commands. Efter detta syns prompten MTB> i Session-fönstret efter vilken kommandon kan skrivas in. Datamaterial Ni skall börja med att ladda hem ett datamaterial som levereras i Minitab-distributionen och handlar om fastighetsvärdering. Nedanstående text förklarar datamaterialet och dess ingående kolumner: Assessors base their home assessments on many different variables. This data set includes a number of those variables, plus the final value of the home and land. Column Name Count Missing Description C1 Land$ 81 2 Assessed value of the land C2 Total$ 81 2 Assessed value of the home and 1 the land C3 Acreage 81 Number of acres C4-T Height 81 Story height (number and type of floors); 1Story, 1Stryatk (one story plus attic), 1.5Story, 2Stories, 2Storatk (two stories plus attic), SplitLev (split level), or BiLevel C5 1stFArea 81 Area of first floor, in square feet

C6-T Exterior 81 Exterior condition; Excellnt (excellent), Good, or Average C7-T Fuel 81 Type of fuel; NatGas (natural gas), Electric, Oil, or Solar C8 Rooms 81 Number of rooms C9 Bedrooms 81 Number of bedrooms C1 FullBath 81 Number of full baths C11 HalfBath 81 Number of half baths C12 Fireplace 81 Number of fireplaces C13-T Garage? 81 Presence of a garage; Garage or Nogarage Datamaterialet skall även användas i kommande datorövningar, men i just denna skall vi bara använda ett fåtal av variablerna. Observera 1! Variablerna ovan har engelska namn och vi kommer att även ge nya variabler engelska namn. I löpande text kommer vi dock då och då att använda svenska översättningar av namnen. Det är alltså samma variabler vi talar om men på olika språk. Observera 2! I datamaterialet saknas vissa värden för två av fastigheterna. Detta syns genom att rutorna har asterisker (*). En av finesserna med Minitab och annan statistisk programvara är att de flesta av procedurerna kan hantera detta problem. Programmet tar tillfälligt bort dessa observationer när analysen görs. Ni behöver alltså inte bli bekymrade om det då och då kommer information om att två observationer saknas. Ladda nu hem datamaterialet genom att göra följande: Öppna menyn File i Minitab, välj alternativet Open worksheet Ett fönster öppnas då på skärmen med ungefär följande utseende: 2

(Om inte fönstret öppnas med mappen Sample Data i fältet Look in: så hittar ni denna mapp under enhet C:\Program Files\Minitab 15\English) Öppna mappen student12 Välj sedan filen ASSESS i denna mapp och klicka på Open. Klicka på OK i den lilla dialogruta som påpekar att en kopia av filen kommer att adderas till ert pågående projekt. 3

Har ni gjort rätt skall ni nu ha laddat hem detta datamaterial så att det syns i Worksheetfönstret. Genomgående i analyserna skall ni använda variabeln Total$ (dvs kolumnen C2) som y- variabel (response, beroende variabel). Förklaringsvariablerna skall väljas bland övriga variabler. Grafisk analys Börja med att skapa er en uppfattning om hur priset borde kunna tänkas bero av följande förklaringsvariabler: Acreage (dvs tomtstorlek), 1stFArea (dvs bottenplansytan), Rooms, Bedrooms, Fullbath För att se hur priset kan tänkas bero av Acreage skall ni plotta C2 mot C3. Öppna menyn Graph och välj alternativet Scatterplot 4

Total$ Välj (som synes i figuren ovan) C2 som Y och C3 som X och klicka på OK. Resultatet ser ut enligt 5 Scatterplot of Total$ vs Acreage 4 3 2 1 1 2 3 Acreage 4 5 6 Ni hade också kunnat göra detta genom att skriva in kommandot plot c2*c3 Plotten anger att priset verkar bero positivt av tomtytan, men man ser också att det finns gott om variation. Anpassa nu en enkel linjär regressionsmodell där priset förklaras av tomtytan. Ni bör veta hur detta görs meny-vägen, men det går naturligtvis snabbast att bara ge kommandot: regress c2 1 c3 Studera utskriften i Session-fönstret. Vad kan ni säga om förklaringsgraden och signifikansen hos den anpassade modellen? Skall tomtytan vara med som förklaringsvariabel? Bör ytterligare variabler läggas till? Pröva nu i tur och ordning plotta C2 mot var och en av de övriga variablerna i listan ovan. Bedöm i varje fall hur ett eventuellt samband verkar se ut, dvs positivt eller negativt, starkt eller svagt. Notera allt detta. Multipla regressionsmodeller Bygg ut den enkla regressionsmodellen ovan genom att successivt lägga till flera variabler. För att t ex anpassa en modell där priset (C2) förklaras av variablerna Acreage (C3) och Rooms (C8) kan ni öppna menyn StatRegressionRegression och där välja C2 som Response och C3, C8 som Predictors. 5

Eller också kan ni ge kommandot regress c2 2 c3 c8 Pröva olika kombinationer och studera i varje fall: förklaringsgraden - Förbättras den nämnvärt då och då? tecknen hos de skattade lutningsparametrarna - Stämmer dessa med era noteringar från plottarna? signifikansen hos de anpassade modellerna (F-test) och för var och en av de ingående parametrarna (t-test) - Är resultaten konsistenta med era anteckningar om starka och svaga samband? Det händer säkert då och då att resultaten blir svårbegripliga. Det har att göra med diverse saker, som bl. a. kommer upp på nästa föreläsning, men i denna datorövning skall ni främst notera vad resultaten blir och fundera litet över orsakerna. Oavsett vad ni tycker om det prövade modellerna skall ni nu jobba med den modell där priset förklaras av de tre variablerna Acreage, 1stFArea och FullBath. Öppna åter dialogrutan för regression (Stat->Regression->Regression) 6

Välj variablerna enligt ovan och klicka sedan på Graphs Här kan ni välja att skapa diagram för residualerna Markera rutorna enligt ovan ( Histogram of residuals, Residuals versus fits, Residuals versus order ) och i fältet under Residuals versus the variables väljer ni som synes de tre förklaringsvariablerna. Klicka sedan på OK Klicka nu på Options (i den första dialogrutan) 7

Frequency Ni skall här välja en ny punkt i vilken prognos skall göras. Fyll i enligt rutan, dvs värdet 1.6 för Acreage värdet 2 för 1stFArea och värdet 2 för FullBath i den ordningen. Observera att det skall vara mellanslag mellan dessa värden. Denna nya punkt finns inte i datamaterialet (även om det förstås finns flera punkter där antalet badrum är 2). I fältet efter Confidence level skall ni se till att det står 99. Standard är 95 men detta skall alltså ändras. Klicka på OK och klicka sedan på OK i den första dialogrutan. Nu kommer skärmen att översvämmas med fönster. Dessa är de olika residualdiagram ni har valt och det blir totalt sex stycken. Börja med att ta fram fönstret med ett histogram över residualerna: 25 Histogram of the Residuals (response is Total$) 2 15 1 5-12 -6 Residual 6 12 Visar detta diagram på normalfördelning hos residualerna? Tag sedan fram diagrammet med Residuals Versus the Fitted Values 8

Residual Residual Residuals Versus the Fitted Values (response is Total$) 1 5-5 -1-15 1 15 2 25 3 Fitted Value 35 4 45 Detta diagram kan avslöja om residualerna verka ha konstant varians eller ej. Verkar det som att residualernas varians beror av prisnivån? Diagrammet Residuals Versus the Order of the Data används för att bedöma om residualerna har ett starkt inbördes beroende. Detta kan man anse om endera residualerna verkar följas åt (dvs ett böljande möster) eller om de går tvärs emot varandra (dvs ett tätt sick-sack-mönster). Hur ser det ut i detta fall? Studera nu diagrammet Residuals Versus Acreage Residuals Versus Acreage (response is Total$) 1 5-5 -1-15 1 2 3 Acreage 4 5 6 I detta diagram skall man leta efter krökningar i mönstret. Ev. skulle man kunna tycka att det är så ovan. Värden till vänster och till höger i diagrammet ser ut att ligga mer under än värdena i mitten. Om vi tror på detta skulle det i så fall innebära att priset beror såväl linjärt som kvadratiskt av tomtytan. Undersök på motsvarande sätt de sista två diagrammen. 9

Studera nu utskriften i Session-fönstret. Vad blir prognosen av priset för en fastighet med tomtyta 1.6 (acrs), bottenplanytan 2 (ft) och 2 badrum? Vad blir ett 99% konfidensintervall för det genomsnittliga priset på sådana fastigheter och vad blir det 99%- iga prognosintervallet för en enskild fastighet med dessa mått? Vi går nu vidare med antagandet att priset beror såväl linjärt som kvadratiskt av tomtytan. Ni skall då pröva att anpassa följande två modeller (instruktioner kommer nedan): y= x 1 (x 1 ) 2 + dvs pris förklaras av tomtyta och (tomtyta) 2 y= x 1 (x 1 ) 2 + 3 x 2 + 4 x 5 + dvs pris förklaras av tomtyta, (tomtyta) 2, bottenplanyta och antal badrum Observera att just modellerna ovan räknar upp beta-parametrarna en i taget även om numren på x-variablerna inte är korresponderande. (Variablerna x 3 och x 4 skulle i detta sammanhang vara antal rum resp. antal sovrum) För att skapa variabeln (tomtyta) 2 skriver ni följande kommando: let c14=c3**2 Variabeln lagras då i den nya kolumnen C14 som kan användas när ni öppnar dialogrutan för regression. Ge lämpligen sedan denna kolumn namnet Acreage-squared. Anpassa nu de två modellerna ovan, en i taget. Vad säger dessa två anpassningar om kvadrattermen? Verkar det vettigt att ha med den? Ni skall fortsätta med detta material under Datorövning 3. För att ni inte skall behöva göra om skapandet av nya variabler skall ni nu spara ert arbete som en Minitab Project File : välj FileSave Project As 1

I dialogrutan är det viktigt att ni gör följande: I fältet Save in: väljer ni er egen hemarea (enheten Z:), eventuellt någon undermapp, men det bestämmer ni. Det viktiga är att ni hittar dokumentet vid nästa datorövning. I fältet File name: välj ett annat namn än MINITAB.MPJ som hjälper er att hitta dokumentet vid nästa datorövning. Filändelsen.MPJ erhålls automatiskt och behöver inte skrivas in. Klicka på Save När ni vill öppna detta dokument igen räcker det med att dubbelklicka på ikonen för det. Minitab startas då automatiskt med alla kolumner och hela Session Window som det såg ut när ni sparade. Det går förstås också att i ett startat Minitab öppna denna projektfil genom att välja FileOpen Project Avslutning Avsluta alla program och logga ut från systemet. 11