Datorövning 2 Multipel regressionsanalys, del 1 Datorövningen utförs i grupper om två personer. I denna datorövning skall ni använda Minitab för att 1. analysera data enligt en multipel regressionsmodell 2. studera residualer från anpassade regressionsmodeller Multipel regressionanalys Starta Minitab Se till att ni kan skriva kommandon i Session-fönstret : klicka i Session-fönstret så att det blir aktivt. Öppna sedan menyn Editor (alltså inte menyn Edit) och välj där alternativet Enable Commands. Efter detta syns prompten MTB> i Session-fönstret efter vilken kommandon kan skrivas in. Datamaterial Ni skall börja med att ladda hem ett datamaterial som levereras i Minitab-distributionen och handlar om fastighetsvärdering. Nedanstående text förklarar datamaterialet och dess ingående kolumner: Assessors base their home assessments on many different variables. This data set includes a number of those variables, plus the final value of the home and land. Column Name Count Missing Description C1 Land$ 81 2 Assessed value of the land C2 Total$ 81 2 Assessed value of the home and 1 the land C3 Acreage 81 Number of acres C4-T Height 81 Story height (number and type of floors); 1Story, 1Stryatk (one story plus attic), 1.5Story, 2Stories, 2Storatk (two stories plus attic), SplitLev (split level), or BiLevel C5 1stFArea 81 Area of first floor, in square feet
C6-T Exterior 81 Exterior condition; Excellnt (excellent), Good, or Average C7-T Fuel 81 Type of fuel; NatGas (natural gas), Electric, Oil, or Solar C8 Rooms 81 Number of rooms C9 Bedrooms 81 Number of bedrooms C1 FullBath 81 Number of full baths C11 HalfBath 81 Number of half baths C12 Fireplace 81 Number of fireplaces C13-T Garage? 81 Presence of a garage; Garage or Nogarage Datamaterialet skall även användas i kommande datorövningar, men i just denna skall vi bara använda ett fåtal av variablerna. Observera 1! Variablerna ovan har engelska namn och vi kommer att även ge nya variabler engelska namn. I löpande text kommer vi dock då och då att använda svenska översättningar av namnen. Det är alltså samma variabler vi talar om men på olika språk. Observera 2! I datamaterialet saknas vissa värden för två av fastigheterna. Detta syns genom att rutorna har asterisker (*). En av finesserna med Minitab och annan statistisk programvara är att de flesta av procedurerna kan hantera detta problem. Programmet tar tillfälligt bort dessa observationer när analysen görs. Ni behöver alltså inte bli bekymrade om det då och då kommer information om att två observationer saknas. Ladda nu hem datamaterialet genom att göra följande: Öppna menyn File i Minitab, välj alternativet Open worksheet Ett fönster öppnas då på skärmen med ungefär följande utseende: 2
(Om inte fönstret öppnas med mappen Sample Data i fältet Look in: så hittar ni denna mapp under enhet C:\Program Files\Minitab 15\English) Öppna mappen student12 Välj sedan filen ASSESS i denna mapp och klicka på Open. Klicka på OK i den lilla dialogruta som påpekar att en kopia av filen kommer att adderas till ert pågående projekt. 3
Har ni gjort rätt skall ni nu ha laddat hem detta datamaterial så att det syns i Worksheetfönstret. Genomgående i analyserna skall ni använda variabeln Total$ (dvs kolumnen C2) som y- variabel (response, beroende variabel). Förklaringsvariablerna skall väljas bland övriga variabler. Grafisk analys Börja med att skapa er en uppfattning om hur priset borde kunna tänkas bero av följande förklaringsvariabler: Acreage (dvs tomtstorlek), 1stFArea (dvs bottenplansytan), Rooms, Bedrooms, Fullbath För att se hur priset kan tänkas bero av Acreage skall ni plotta C2 mot C3. Öppna menyn Graph och välj alternativet Scatterplot 4
Total$ Välj (som synes i figuren ovan) C2 som Y och C3 som X och klicka på OK. Resultatet ser ut enligt 5 Scatterplot of Total$ vs Acreage 4 3 2 1 1 2 3 Acreage 4 5 6 Ni hade också kunnat göra detta genom att skriva in kommandot plot c2*c3 Plotten anger att priset verkar bero positivt av tomtytan, men man ser också att det finns gott om variation. Anpassa nu en enkel linjär regressionsmodell där priset förklaras av tomtytan. Ni bör veta hur detta görs meny-vägen, men det går naturligtvis snabbast att bara ge kommandot: regress c2 1 c3 Studera utskriften i Session-fönstret. Vad kan ni säga om förklaringsgraden och signifikansen hos den anpassade modellen? Skall tomtytan vara med som förklaringsvariabel? Bör ytterligare variabler läggas till? Pröva nu i tur och ordning plotta C2 mot var och en av de övriga variablerna i listan ovan. Bedöm i varje fall hur ett eventuellt samband verkar se ut, dvs positivt eller negativt, starkt eller svagt. Notera allt detta. Multipla regressionsmodeller Bygg ut den enkla regressionsmodellen ovan genom att successivt lägga till flera variabler. För att t ex anpassa en modell där priset (C2) förklaras av variablerna Acreage (C3) och Rooms (C8) kan ni öppna menyn StatRegressionRegression och där välja C2 som Response och C3, C8 som Predictors. 5
Eller också kan ni ge kommandot regress c2 2 c3 c8 Pröva olika kombinationer och studera i varje fall: förklaringsgraden - Förbättras den nämnvärt då och då? tecknen hos de skattade lutningsparametrarna - Stämmer dessa med era noteringar från plottarna? signifikansen hos de anpassade modellerna (F-test) och för var och en av de ingående parametrarna (t-test) - Är resultaten konsistenta med era anteckningar om starka och svaga samband? Det händer säkert då och då att resultaten blir svårbegripliga. Det har att göra med diverse saker, som bl. a. kommer upp på nästa föreläsning, men i denna datorövning skall ni främst notera vad resultaten blir och fundera litet över orsakerna. Oavsett vad ni tycker om det prövade modellerna skall ni nu jobba med den modell där priset förklaras av de tre variablerna Acreage, 1stFArea och FullBath. Öppna åter dialogrutan för regression (Stat->Regression->Regression) 6
Välj variablerna enligt ovan och klicka sedan på Graphs Här kan ni välja att skapa diagram för residualerna Markera rutorna enligt ovan ( Histogram of residuals, Residuals versus fits, Residuals versus order ) och i fältet under Residuals versus the variables väljer ni som synes de tre förklaringsvariablerna. Klicka sedan på OK Klicka nu på Options (i den första dialogrutan) 7
Frequency Ni skall här välja en ny punkt i vilken prognos skall göras. Fyll i enligt rutan, dvs värdet 1.6 för Acreage värdet 2 för 1stFArea och värdet 2 för FullBath i den ordningen. Observera att det skall vara mellanslag mellan dessa värden. Denna nya punkt finns inte i datamaterialet (även om det förstås finns flera punkter där antalet badrum är 2). I fältet efter Confidence level skall ni se till att det står 99. Standard är 95 men detta skall alltså ändras. Klicka på OK och klicka sedan på OK i den första dialogrutan. Nu kommer skärmen att översvämmas med fönster. Dessa är de olika residualdiagram ni har valt och det blir totalt sex stycken. Börja med att ta fram fönstret med ett histogram över residualerna: 25 Histogram of the Residuals (response is Total$) 2 15 1 5-12 -6 Residual 6 12 Visar detta diagram på normalfördelning hos residualerna? Tag sedan fram diagrammet med Residuals Versus the Fitted Values 8
Residual Residual Residuals Versus the Fitted Values (response is Total$) 1 5-5 -1-15 1 15 2 25 3 Fitted Value 35 4 45 Detta diagram kan avslöja om residualerna verka ha konstant varians eller ej. Verkar det som att residualernas varians beror av prisnivån? Diagrammet Residuals Versus the Order of the Data används för att bedöma om residualerna har ett starkt inbördes beroende. Detta kan man anse om endera residualerna verkar följas åt (dvs ett böljande möster) eller om de går tvärs emot varandra (dvs ett tätt sick-sack-mönster). Hur ser det ut i detta fall? Studera nu diagrammet Residuals Versus Acreage Residuals Versus Acreage (response is Total$) 1 5-5 -1-15 1 2 3 Acreage 4 5 6 I detta diagram skall man leta efter krökningar i mönstret. Ev. skulle man kunna tycka att det är så ovan. Värden till vänster och till höger i diagrammet ser ut att ligga mer under än värdena i mitten. Om vi tror på detta skulle det i så fall innebära att priset beror såväl linjärt som kvadratiskt av tomtytan. Undersök på motsvarande sätt de sista två diagrammen. 9
Studera nu utskriften i Session-fönstret. Vad blir prognosen av priset för en fastighet med tomtyta 1.6 (acrs), bottenplanytan 2 (ft) och 2 badrum? Vad blir ett 99% konfidensintervall för det genomsnittliga priset på sådana fastigheter och vad blir det 99%- iga prognosintervallet för en enskild fastighet med dessa mått? Vi går nu vidare med antagandet att priset beror såväl linjärt som kvadratiskt av tomtytan. Ni skall då pröva att anpassa följande två modeller (instruktioner kommer nedan): y= x 1 (x 1 ) 2 + dvs pris förklaras av tomtyta och (tomtyta) 2 y= x 1 (x 1 ) 2 + 3 x 2 + 4 x 5 + dvs pris förklaras av tomtyta, (tomtyta) 2, bottenplanyta och antal badrum Observera att just modellerna ovan räknar upp beta-parametrarna en i taget även om numren på x-variablerna inte är korresponderande. (Variablerna x 3 och x 4 skulle i detta sammanhang vara antal rum resp. antal sovrum) För att skapa variabeln (tomtyta) 2 skriver ni följande kommando: let c14=c3**2 Variabeln lagras då i den nya kolumnen C14 som kan användas när ni öppnar dialogrutan för regression. Ge lämpligen sedan denna kolumn namnet Acreage-squared. Anpassa nu de två modellerna ovan, en i taget. Vad säger dessa två anpassningar om kvadrattermen? Verkar det vettigt att ha med den? Ni skall fortsätta med detta material under Datorövning 3. För att ni inte skall behöva göra om skapandet av nya variabler skall ni nu spara ert arbete som en Minitab Project File : välj FileSave Project As 1
I dialogrutan är det viktigt att ni gör följande: I fältet Save in: väljer ni er egen hemarea (enheten Z:), eventuellt någon undermapp, men det bestämmer ni. Det viktiga är att ni hittar dokumentet vid nästa datorövning. I fältet File name: välj ett annat namn än MINITAB.MPJ som hjälper er att hitta dokumentet vid nästa datorövning. Filändelsen.MPJ erhålls automatiskt och behöver inte skrivas in. Klicka på Save När ni vill öppna detta dokument igen räcker det med att dubbelklicka på ikonen för det. Minitab startas då automatiskt med alla kolumner och hela Session Window som det såg ut när ni sparade. Det går förstås också att i ett startat Minitab öppna denna projektfil genom att välja FileOpen Project Avslutning Avsluta alla program och logga ut från systemet. 11