Kvadratisk regression, forts. Vi fortsätter med materialet om fastigheter. Tidigare föreslog vi som en tänkbar modell y 0 + 3 x 3 + 5 x 3 2 + Vari ligger tanken att just använda en kvadratisk term? Det inses att priset knappast kan öka helt linjärt med antal rum. För många rum i en fastighet gör den ointressant för de flesta hushåll. Ł Priset borde mattas av då rummen blir för många
Det är fullt tänkbart att denna avmattning kan ha följande utseende: och då kan en andragradskurva vara en lämplig anpassning. Notera dock att anpassningen bara kan göras i det rumsintervall som existerar. Det finns ingen anledning att tro att priset skulle vända och gå ned till 0 så småningom.
Varför y 0 + 3 x 3 + 2 5 x 3 + och inte bara y 0 + 2 5 x 3 +? Med enbart x 32 med i modellen skulle vi försöka att anpassa följande typ av samband: 300000 _ 200000 00000 ty renodlade x 2 -kurvor har sitt max/min-värde då x0 0 3 8 Antal Rum 3 Med en x-term med i modellen tillåts max (el. min) att hamna på annat ställe.
Kombination av en andragradskurva med andra variabler. Vi kan nu tänka oss att kombinera x 3 och x 32 med andra variabler i en modell. Pröva först modellen y 0 + x + 3 x 3 + 2 5 x 3 + Ł Regression Analysis: Price versus Area, Rooms, Rooms_sq The regression equation is Price - 582 + 49.3 Area + 22544 Rooms - 529 Rooms_sq Predictor Coef SE Coef T P Constant -582 3448-0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -529. 63.6-2.49 0.04 S 29528 R-Sq 50.7% R-Sq(adj) 49.6%
b, b 3 och b 5 är alla signifikant 0 Hur kan vi tolka värdena på dessa koefficienter? Predictor Coef SE Coef T P Constant -582 3448-0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -529. 63.6-2.49 0.04 Såväl b som b 3 är positiva, vilket är i linje med hur de enskilda sambanden verkar se ut. b 5 är negativ och detta innebär att vi har en kvadratisk form med max-punkt. Hade koefficienten varit positiv hade vi haft en min-punkt. Om vi fixerar x 3 dvs. antal rum till ett visst värde (spelar ingen roll vilket) tolkas värdet b 49.326 som att priset ökar med i genomsnitt c:a 49 dollar då bostadsytan ökar med ft 2. Denna tolkning kan förstås skalas upp och blir liktydig med att priset ökar med c:a 49326 dollar då bostadsytan ökar med 000 ft 2. Om vi istället fixerar bostadsytan till ett visst värde finns inte samma enkla tolkning av b 3 och b 5 p g a att sambandet med x 3 ej är rent linjärt.
Predictor Coef SE Coef T P Constant -582 3448-0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -529. 63.6-2.49 0.04 Notera att i denna modell blir alltså b 3 signifikant skild från 0 (alt. variabeln x 3 ingår signifikant i modellen/är signifikant). Så var inte fallet i modellen med bara x och x 3. Den kvadratiska termen medför alltså förutom sin egen förklaring även att sambandet mellan y och x 3 som helhet blir tydligare. Vi kan också fundera på hur bostadsyta och antal rum skulle kunna samspela i att förklara prisets variation. En bostad med mycket stor yta, men endast ett rum skulle förmodligen vara mindre attraktiv än en bostad med måttligt stor yta men fler rum.
Denna effekt kan testas i regressionsmodellen genom att införa en samspelsterm. Vi bildar då nya variabeln x x 3 och analyserar modellen Ł y 0 + x + 3 x 3 + 5 x 3 2 + 6 x x 3 + MTB > let c7c2*c4 MTB > name c7 'Area*Rooms' Regression Analysis: Price versus Area, Rooms, Rooms_sq, Area*Rooms The regression equation is Price 862 + 63 Area - 9248 Rooms + 26 Rooms_sq - 4.0 Area*Rooms Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Area 62.78 39.23 4.5 0.000 Rooms -9248 4262-0.65 0.58 Rooms_sq 26 390.56 0.22 Area*Roo -4.002 4.759-2.94 0.004 S 28783 R-Sq 53.4% R-Sq(adj) 52.2%
Här får vi alltså en annan bild. Jämförelse med den föregående modellen: y 0 + x + 3 x 3 + 5 x 3 2 + Predictor Coef SE Coef T P Constant -582 3448-0.46 0.647 Area 49.326 7.379 6.68 0.000 Rooms 22544 9549 2.36 0.020 Rooms_sq -529. 63.6-2.49 0.04 y 0 + x + 3 x 3 + 5 x 3 2 + 6 x x 3 + Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Area 62.78 39.23 4.5 0.000 Rooms -9248 4262-0.65 0.58 I den nya modellen upphör b 3 och b 5 att vara sign. skilda från 0. Istället blir b 6 det. Det kvadratiska sambandet tas över av samspelstermen. Rooms_sq 26 390.56 0.22 Area*Roo -4.002 4.759-2.94 0.004
Räcker det då med modellen y 0 + x + 6 x x 3 +? Regression Analysis: Price versus Area, Area*Rooms The regression equation is Price 4208 + 84.7 Area - 3.07 Area*Rooms Predictor Coef SE Coef T P Constant 4208 2364 3.4 0.00 Area 84.70 6.08 5.27 0.000 Area*Roo -3.066.349-2.27 0.024 S 29533 R-Sq 50.3% R-Sq(adj) 49.6% Tydligen! Förklaringsgraden ändras något men är inte nämnvärt sämre än i den första av de tre modellerna.
The regression equation is Price 4208 + 84.7 Area - 3.07 Area*Rooms Predictor Coef SE Coef T P Constant 4208 2364 3.4 0.00 Area 84.70 6.08 5.27 0.000 Area*Roo -3.066.349-2.27 0.024 Blir denna modell enklare att tolka? Numeriskt: Nej, men konceptmässigt kan det vara enklare att förstå att bostadsyta och antal rum samverkar när det gäller prissättning. Den kvadratiska modellen tar egentligen bara hand om sambanden mellan de två olika förklaringsvariablerna var för sig. Samspel kallas på engelska interaction och på svenska säger man också ibland att variablerna interagerar.
Följande graf kan kanske illustrera hur det förhåller sig: För bostäder med 3, 4, 5 och 6 rum ter sig sambandet med bostadsyta vara ganska tydligt linjärt. För bostäder med 7 rum eller fler börjar det spreta ordentligt och det linjära sambandet är inte längre tydligt.
Man skulle t ex kunna tänka sig att det finns olika regressionslinjer mellan pris och bostadsyta beroende på vad antalet rum är.
En modell med en samspelsterm kan också ses som ett specialfall av kvadratisk regression. Det gäller nämligen att det kvadratiska kan vara i fler än en variabel. En fullständig kvadratisk modell i två variabler, x och x 2 (dvs. vilka som helst, inte just motsvarande variabler i vårt datamaterial) ser ut på följande sätt: y 0 + x + 2 x 2 + 3 x 2 + 4 x 22 + 5 x x 2 + Genom att plocka bort vissa av termerna i denna modell erhålls olika undermodeller Genom att plocka bort vissa av termerna i denna modell erhålls olika undermodeller där vissa fortfarande kan sägas tillhöra gruppen av kvadratiska regressionsmodeller.
Kvalitativa variabler Kvalitativa variabler har inte numeriskt tolkningsbara värden utan värdena är koder för olika klasser av observationer. Exempel är en variabel som är 0 för män och för kvinnor. Ett annat exempel är en variabel som är för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. (Andra namn är 0/-variabler resp. dikotoma variabler)
En kvalitativ variabel som bara har två värden behöver egentligen inte göras om, men ur tolkningssynpunkt är det bra om värdena transformeras till 0 och. Exempel: Kön kodas med 0 och. Vad som är 0 resp. spelar förstås ingen roll. Om vi har en kod som har värdet för små företag och 2 för större och stora företag görs värdena enkelt om till 0 resp. En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler.
Exempel: Företag antas vara kodade med för små företag, 2 för mellanstora företag och 3 för stora företag. Denna variabel görs om till för små företag D D 2 0 för andra företag 0 för mellanstora företag för andra företag Ł Företagstyp Ursprunglig kod D D 2 Små 0 Mellanstora 2 0 Stora 3 0 0 Grundregel: Om den kvalitativa variabeln har m olika koder eller värden (kallas också nivåer) skall m indikatorvariabler användas.
Minitab har funktioner för att manuellt koda om en variabels värden till andra värden skapa indikatorvariabler för att ersätta en kvalitativ variabel Exempel: Antag att vi i kolumnen C har en kvalitativ variabel med värdena, 2, 3, 4 och 5. Med kommandot MTB > indicator c c2 c3 c4 c5 c6 skapas fem indikatorvariabler (C2-C6), en för varje värde hos C I C2 är alltså värdet för de rader där värdet i C är och 0 i övriga rader I C3 är värdet för de rader där värdet i C är 2 och 0 i övriga rader osv. I regressionen används sedan fyra av dessa fem indikatorvariabler
Vi återvänder nu till vårt datamaterial om fastigheter. Antag att vi vill dela in fastigheterna i klasserna fastigheter med högst 6 rum fastigheter med fler än 6 rum För att göra detta kan vi skapa en indikatorvariabel som är 0 för fastigheter med högst 6 rum och för övriga, dvs D 0 då då x x 3 3 > 6 6
Vi behöver alltså koda om variabeln x 3 i Minitab. Detta kan göras med kommandon eller via menyer. Vi visar först med menyer: Manip Code Numeric to Numeric Ny kolumn anges här Värdena i x 3 går från 3 till 3
Med kommandon hade vi gett följande: MTB > code (3:6) 0 (7:3) c4 c8 (Observera mellanslagen) Den nya kolumnen ges här namnet D (för att få samstämmighet med det införda variabelnamnet) Vi prövar nu följande regressionsmodell y 0 + x + 7 D + Regression Analysis: Price versus Area, D The regression equation is Price 65668 + 44.2 Area + 0544 D Predictor Coef SE Coef T P Constant 65668 8072 8.4 0.000 Area 44.57 5.445 8. 0.000 D 0544 7098.49 0.40 S 29824 R-Sq 49.3% R-Sq(adj) 48.6%
Predictor Coef SE Coef T P Constant 65668 8072 8.4 0.000 Area 44.57 5.445 8. 0.000 D 0544 7098.49 0.40 Indikatorvariabeln D blir inte signifikant, men vi låter den kvarstå tills vidare. Hur kan vi tolka denna analys? D kommer att dela in materialet i två delar och ger faktiskt två skattade regressionsmodeller för sambandet mellan pris och bostadsyta: ) D 0 Ł yˆ b 0 + b x + b7 0 b0 + b x 65668 + 44. 57 x 2) D Ł yˆ b 0 + b (65668 + 0544) + x + b 7 ( b 0 + b 44.57 x 7 ) + b x 7622 + 44.57 x
Parallella linjer, med olika skärning med y-axeln.
För att inte tvingas in till parallella linjer inför vi nu en samspelsterm, x D, i modellen: y 0 + x + 7 D + 8 x D + Regression Analysis: Price versus Area, D, Area*D The regression equation is Price 0370 + 7.45 Area - 7259 D + 0.949 Area*D Predictor Coef SE Coef T P Constant 0370 3269 33.76 0.000 Area 7.454 2.306 3.23 0.002 D -7259 4856-24.5 0.000 Area*D 0.94940 0.03055 3.07 0.000 S 0846 R-Sq 93.3% R-Sq(adj) 93.2% Samtliga variabler är signifikanta och vi har en mycket bra förklaringsgrad
Predictor Coef SE Coef T P Constant 0370 3269 33.76 0.000 Area 7.454 2.306 3.23 0.002 D -7259 4856-24.5 0.000 Area*D 0.94940 0.03055 3.07 0.000 Hur blir nu tolkningen av denna modell? Även här skiljer vi på två fall som ger två olika regressionssamband mellan pris och bostadsyta: ) D 0 Ł 2) D Ł 0 8 7 0 454 7. 0370 0 0 ˆ x x b b b b x b b y + + + + + 8 7 0 8 7 0 8.4034 6889 0.94940) (7.454 7259) (0370 ) ( ) ( ˆ x x x b b b b x b b x b b y + + + + + + + + +
Icke-parallella linjer.
Vi får alltså olika tolkningar av bostadsytans betydelse beroende på om det är fastigheter med högst 6 rum eller fastigheter med mer än 6 rum. Högst 6 rum: yˆ 0370 + 7.454 x Ł Priset ökar med i genomsnitt 7454 dollar då bostadsytan ökar med 000 ft 2 Mer än 6 rum: y ˆ 6889 + 8.4034 x Ł Priset ökar med i genomsnitt 8403 dollar då bostadsytan ökar med 000 ft 2 Skärningen med y-axeln tolkas ej då detta bara är ett nivåjusterande värde. Notera hur koefficienten för bostadsyta kan ändras mellan olika modeller. I detta fall genomsnitträknar vi över litet större klasser av lägenheter, men får mycket bra förklaringsgrad.
Indikatorvariabler används alltså för att dela in ett material i olika klasser. Indelningen ger upphov till olika regressionssamband i de övriga variablerna. Dessa kan ha olika lutningar och intercept (skärningar med y-axel) om vi inför indikatorvariabeln själv och dess samspelstermer med övriga variabler. Vi kan givetvis använda indikatorvariabeln för att skapa olika regressionssamband mellan y och flera av de andra x-variablerna. Det blir då inte längre olika regressionslinjer utan olika plan, hyperplan etc.
Partiellt F test Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs. sådant som ingår i wellpapp och kartonger (facktermen inom svensk pappersproduktion är floating )? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal direkta personarbetstimmar (LABOR)
Insamlade månadsvisa data: MONTH COST PAPER MACHINE OVERHEAD LABOR 02 550 28 2 325 2 008 502 99 99 30 3 227 66 249 26 376 4 395 70 277 43 49 27 388 704 28 42 429
Grafisk illustration av ev. samband:
Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: MTB > regress c 4 c2-c5 Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST 5.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 5.72 2.70 2.38 0.026 PAPER 0.9479 0.200 7.90 0.000 MACHINE 2.470 0.4656 5.3 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030 -.26 0.223 S.08 R-Sq 99.9% R-Sq(adj) 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta
Analysis of Variance Source DF SS MS F P Regression 4 227423 567856 4629.7 0.000 Residual Error 22 2699 23 Total 26 227422 Source DF Seq SS PAPER 2255666 MACHINE 556 OVERHEAD 3 LABOR 93 F-testet anger att minst en av de ingående x-variablerna har betydelse. t-testen (på föreg. sida) visar att de två första har det, men inte de två andra.
Analysen antyder att det kanske räcker med modellen där COST förklaras av PAPER och MACHINE. Kan man vara säker på det? Pröva denna modell: MTB > regress c 2 c2 c3 Regression Analysis: COST versus PAPER, MACHINE The regression equation is COST 59.4 + 0.949 PAPER + 2.39 MACHINE Predictor Coef SE Coef T P Constant 59.43 9.64 3.03 0.006 PAPER 0.9489 0.0 8.62 0.000 MACHINE 2.3864 0.20.36 0.000 S 0.98 R-Sq 99.9% R-Sq(adj) 99.9% Analysis of Variance Source DF SS MS F P Regression 2 227227 3563 943.48 0.000 Residual Error 24 2895 2 Total 26 227422
Hur kan vi jämföra dessa modeller? Den fullständiga modellen kan skrivas: y β 0 + β x + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε där x PAPER, x 2 MACHINE, x 3 OVERHEAD, x 4 LABOR Den reducerade modellen kan skrivas y β 0 + β x + β 2 x 2 + ε Om vi vill testa om någon av x 3 och x 4 skall läggas till blir nollhypotesen: H 0 : β 3 β 4 0
Som testfunktion kan vi använda F ( SSER SSE C SSEC ) /( k /( n k ) där SSE R Residualkvadratsumman (SSE) i den Reducerade modellen och SSE C Residualkvadratsumman i den fullständiga modellen (Complete) kantal förklaringsvariabler i den fullständiga modellen gantal förklaringsvariabler i den reducerade modellen g) Om H 0 är sann får F en F-fördelning med k-g och n-k- frihetsgrader och vi kan alltså jämföra värdet på F med F [α] (k-g,n-k-)
Från utskrifterna kan vi nu ta SSE R och SSE C : Fullständig modell: Analysis of Variance Source DF SS MS F P Regression 4 227423 567856 4629.7 0.000 Residual Error 22 2699 23 Total 26 227422 Reducerad modell: SSE C Analysis of Variance Source DF SS MS F P Regression 2 227227 3563 943.48 0.000 Residual Error 24 2895 2 Total 26 227422 SSE R
Ł F (2895 2699) /(4 2) 2699 /(27 4 ) 96 / 2 2699 / 22 0.799 F [0.05] (2,22) 3.44>0.799 Ł H 0 kan ej förkastas! Ingen av x 3 och x 4 skall alltså vara med i modellen. Observera dock att detta inte är självklart bara för att t-testen för dessa variabler blev icke-signifikanta i den fullständiga modellen! Testmetoden kallas Partiellt F-test eftersom vi i ett test testar om en del (partition) av modellen skall uteslutas.
Förenklad beräkning i vissa sammanhang: Vi vet att SSTSSE+SSR Ł SSESST SSR Ł SSE R SSE C SSR C SSR R (fullständig utredning ges i instruktionen till Datorövning 2) Ł F ( SSER SSE C SSEC ) /( k /( n k ) g) ( SSRC SSE C SSRR ) /( k /( n k ) g) Det går alltså att använda regressionskvadratsummorna istället för residualkvadratsummorna.
Vad är vitsen med detta? Jo, vi vet sen tidigare att en regressionskvadratsumma kan beräknas sekventiellt i den ordning förklaringsvariablerna matas in. I den fullständiga modellen blir: SSR C SSR(PAPER) + SSR(MACHINE PAPER) + + SSR(OVERHEAD PAPER,MACHINE) + + SSR(LABOR PAPER,MACHINE,OVERHEAD) I den reducerade modellen blir: SSR R SSR(PAPER) + SSR(MACHINE PAPER) Ł SSR C SSR R SSR(OVERHEAD PAPER,MACHINE) + + SSR(LABOR PAPER,MACHINE,OVERHEAD)
Eftersom vi matat in förklaringsvariablerna i just denna ordning kan vi ta samtliga sekventiella kvadratsummor från utskriften i den fullständiga modellen: Analysis of Variance Source DF SS MS F P Regression 4 227423 567856 4629.7 0.000 Residual Error 22 2699 23 Total 26 227422 Source DF Seq SS PAPER 2255666 MACHINE 556 OVERHEAD 3 LABOR 93 SSR(PAPER) SSR(MACHINE PAPER) SSR(OVERHEAD PAPER,MACHINE) SSR(LABOR PAPER,MACHINE,OVERHEAD) Ł SSR C SSR R 3+9396 och F(96/2)/(2699/22)0.799 som tidigare.
AJÅ använder en annan formelvariant: F där R och R ( 2 2 ) RUR RR r ( 2 ) R ( n k ) 2 UR 2 R UR Förklaringsgraden i modellen med Förklaringsgraden i den reducerade alla variabler (unrestricted) modellen (restricted) r i denna formel står för k g (och alltså inte någon korrelationskoefficient!) Att formlerna är identiska ser vi genom att skriva om (utveckla) ovanstående F 2 2 ( RUR RR ) ( k g) 2 ( R ) ( n k ) UR C SST SSE SST ( SSR SSR ) ( k g) C R ( n k ) SSRC SSR SST SST SSRC SST R ( k g) ( n k ) ( SSRC SSRR ) ( k g) SSE ( n k ) C SSRC SST SSE SST C SSR SST R ( k g) ( n k )
Något om transformationer Antag att vi upptäcker i en residualanalys att slumpvariansen (σ 2 ) ej är konstant. Detta ser man alltså i ett diagram där residualerna plottas mot anpassade värden (fitted values). T ex var detta kanske fallet i Datorövning 2:
Eftersom alla utvecklade analyser (med t-test, F-test och prognosintervall) bygger på antagandet om konstant varians Ł Trubbel med tolkningar av den skattade modellen. Ofta kan man lösa detta problem genom att göra en s k transformation av y- värdena. Följande grupp av transformationer är vanligast: λ y λ 0 g( y) ln y λ 0 Det vanligaste valet av λ är 0.5, vilket innebär att g ( y) y Näst vanligast är nog att beräkna ln(y) (alternativet då λ0)
Kvadratrotstransformationen kräver att y är 0, men så är ofta fallet för just ekonomiskt anknutna data. Logaritmtransformationen kräver att y > 0 och kan ge problem för vissa variabler som ibland faktiskt är just 0. Andra värden kan också väljas på λ, men är mer sällsynta och definitivt ovanliga i en sådan här kurs. Vi prövar nu att ) Beräkna kvadratroten ur variabeln Total$ i Datorövning 2 och använda den resulterande variabeln som vårt nya y. 2) Logaritmera variabeln Total$ och använda den resulterande variabeln som vårt nya y.
) Kvadratrotstransformationen I Minitab gör vi detta med MTB > let c4sqrt(c2) MTB > name c4 rot_total$ Vi anpassar sedan modellen där rot_total$ förklaras av Acreage, stfarea och FullBath. Vi beräknar samtidigt den prognos, som gjordes i datorövningen, dvs för Acreage.600, stfarea2000 och FullBath2
Regression Analysis: rot_total$ versus Acreage, stfarea, FullBath The regression equation is rot_total$ 20 + 23.7 Acreage + 0.0799 stfarea + 8.2 FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant 20.49 4.60 4.42 0.000 Acreage 23.75 4.55 5.7 0.000 stfarea 0.079929 0.00903 8.85 0.000 FullBath 8.95 4.596 3.96 0.000 S 44.46 R-Sq 77.9% R-Sq(adj) 77.0% Analysis of Variance Source DF SS MS F P Regression 3 522225 74075 88.07 0.000 Residual Error 75 48242 977 Total 78 670467
Predicted Values for New Observations New Obs Fit SE Fit 99.0% CI 99.0% PI 444.68 6.0 ( 428.57, 460.80) ( 326.08, 563.29) Values of Predictors for New Observations New Obs Acreage stfarea FullBath.60 2000 2.00 Anpassningen blir ungefär lika bra som tidigare. Fundera dock vad det är vi har gjort prognos för. Hur skall vi transformera tillbaka prognosen och intervall gränserna till den riktiga skalan hos y?
Det aktuella residualdiagrammet blir: Residuals Versus the Fitted Values (response is rot_tota) 00 Residual 0-00 Jämför med det tidigare: 300 400 500 600 700 Fitted Value Ser knappast ut att vara mindre strutmönstrat nu än förut.
) Logaritmtransformationen I Minitab gör vi detta med MTB > let c5loge(c2) MTB > name c4 log_total$ Observera att den naturliga logaritmen ( ln(y) ) erhålls med kommandot loge. Vill man istället beräkna 0-logaritmen ( lg(y) ) görs detta med kommandot logt. Vilken logaritm man använder spelar egentligen mindre roll, men den naturliga logaritmen är den som matematiskt passar in när transformationen generellt definieras som g ( y) λ y
I samband med att vi inför logaritmisk transformation kan det vara bra att repetera logaritmlagarna: log( y x) log log y y x a log log y y a log y + log log x x Dessa gäller oavsett om det är ln eller lg som används. Det finns också formler för att räkna om ln till lg och vice versa: ln y ln 0 lg y lg ( lg y ) ( lg y) ln0 ( konstant lg y) ( ln y e ) (ln y) lg e ( konstant ln y) Vi ser alltså att valet av logaritm är bara en skalfråga. Ur transformationssynvinkel är det ingen skillnad.
Vi anpassar nu modellen där log_total$ förklaras av Acreage, stfarea och FullBath. Vi beräknar även här den prognos, som gjordes i datorövningen, dvs för Acreage.600, stfarea2000 och FullBath2 Regression Analysis: log_total$ versus Acreage, stfarea, FullBath The regression equation is log_total$. + 0.04 Acreage +0.00036 stfarea + 0.0856 FullBath 79 cases used 2 cases contain missing values Predictor Coef SE Coef T P Constant.0864 0.070 56.06 0.000 Acreage 0.0432 0.02022 5.6 0.000 stfarea 0.00036083 0.00004395 8.2 0.000 FullBath 0.08558 0.02237 3.83 0.000
S 0.264 R-Sq 75.3% R-Sq(adj) 74.3% Analysis of Variance Source DF SS MS F P Regression 3 0.684 3.564 76.07 0.000 Residual Error 75 3.54 0.0468 Total 78 4.955 : : Predicted Values for New Observations New Obs Fit SE Fit 99.0% CI 99.0% PI 2.46 0.0297 ( 2.0677, 2.2246) (.5689, 2.7233) Även här måste vi tänka på hur vi skall tillbakatransformera prognosen och intervallgränserna.
Det aktuella residualdiagrammet blir: Residuals Versus the Fitted Values (response is log_tota) 0.5 Residual 0.0-0.5.5 2.0 2.5 3.0 Jämför med de tidigare: Fitted Value Ej transformerad y: Rottransformerad y: Residuals Versus the Fitted Values (response is rot_tota) 00 Residual 0-00 300 400 500 Fitted Value 600 700 Ser faktiskt ut att bli litet bättre!