Multikolinjäritet: Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper. Vi plottar förklaringsvariablerna mot varandra: Graph Matrix Plot Trots att COST verkade ha ett tydligt positivt samband med var och en av variablerna PAPE, MACHINE, OVEHEAD och LABO blev endast de två första signifikanta.????? Kan det vara så att förklaringsvariablerna överlappar varandra när det gäller att förklara kostnaden? Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler: MTB > corr c-c5 Correlations: PAPE; MACHINE; OVEHEAD; LABO MACHINE 0.989 PAPE MACHINE OVEHEAD 0.000 OVEHEAD 0.978 0.994 0.000 0.000 LABO 0.933 0.945 0.938 0.000 0.000 0.000 Tydligt samband mellan alla par av förklaringsvariabler. Cell Contents: Pearson correlation P-Value och vi ser att samtliga korrelationer ligger mycket nära 1. 1
Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler blir modellen svår att analysera: konstiga värden på parameterskattningar ( t ex negativa lutningsparametrar där sambandet skall vara positivt) låga t-kvoter, dvs. svårt att påvisa signifikans för enskilda förklaringsvariabler. konstiga modeller ( självklara förklaringsvariabler blir inte av betydelse i modellen) Orsaken är att det är svårt i en anpassad modell att separera vad i varje förklaringsvariabel som främst förklarar variationen i y. Problemet har kommit att kallas multikolinjäritet Dock kan det räcka med namnet kolinjäritet, eller ännu hellre samlinjäritet. Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna Hur upptäcker man och hur åtgärdar man detta? Metod 1: Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs. även med y. Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y. I exemplet beräknar vi MTB > corr c1-c5 Correlations: COST, PAPE, MACHINE, OVEHEAD, LABO PAPE 0.996 COST PAPE MACHINE OVEHEAD 0.000 MACHINE 0.997 0.989 0.000 0.000 OVEHEAD 0.989 0.978 0.994 0.000 0.000 0.000 LABO 0.938 0.933 0.945 0.938 0.000 0.000 0.000 0.000 Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPE en mycket nära kandidat här.) Metod : Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en modell där den första förklaras av de andra. T ex om x 1 har starka samband med variablerna x, x 3, x 4 blir en modell: x 1 = β 0 + β 1 x +β x 3 +β 3 x 4 +ε Om denna modell anpassas erhålls en förklaringsgrad 1, som anger hur stor del av den totala variationen i x 1 som förklaras av de övriga x- variablerna. Är 1 stor borde man kunna utesluta x 1 ur modellen för y Cell Contents: Pearson correlation P-Value
Den s k Variance Inflation Factor, VIF, för variabeln x 1 definieras som 1 VIF1 = 1 1 Och vi ser att för ett stort värde hos 1 blir också VIF 1 stor. VIF kan som lägst bli 1 vilket inträffar då 1 =0. Om 1 =1 blir VIF oändligt stor, men detta inträffar i princip inte. Vi anpassar modellen x 1 = β 0 + β 1 x +β x 3 +β 3 x 4 +ε med Minitab: MTB > regress c 3 c3-c5 egression Analysis: PAPE versus MACHINE, OVEHEAD, LABO PAPE = 11 +.9 MACHINE - 1.66 OVEHEAD - 0.0186 LABO Constant 11.03 9.60 3.79 0.001 MACHINE.916 0.5333 5.47 0.000 OVEHEAD -1.6589 0.8440-1.97 0.06 LABO -0.01863 0.06990-0.7 0.79 S = 19.4 -Sq = 98.% -Sq(adj) = 98.0% Analysis of Variance 1 VIF = 1 0.98 Source DF SS MS F P egression 3 463679 154560 417.47 0.000 esidual Error 3 8515 370 Total 6 47194 1 = 55.56 VIF finns förstås definierad för varje ingående x-variabel som 1 VIFj = 1 där j = förklaringsgraden i en anpassad modell där x j förklaras av övriga x-variabler. Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kolinjäritet. VIF-värden kan fås automatiskt i Minitab-utskriften: j MTB > regress c1 4 c-c5; SUBC> vif. egression Analysis: COST versus PAPE, MACHINE, OVEHEAD, LABO COST = 51.7 + 0.948 PAPE +.47 MACHINE + 0.048 OVEHEAD - 0.0506 LABO VIF Constant 51.7 1.70.38 0.06 PAPE 0.9479 0.100 7.90 0.000 55.5 MACHINE.4710 0.4656 5.31 0.000 8.9 OVEHEAD 0.0483 0.550 0.09 0.97 104.1 LABO -0.05058 0.04030-1.6 0.3 9.3 S = 11.08 -Sq = 99.9% -Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kolinjäritet här! 3
I Datorövning fick vi litet konstiga resultat när vi försökte undersöka totalvärdets beroende av tomtyta med uppdelning på fastigheter med och utan garage: Är (multi)kolinjäritet alltid ett bekymmer? egression Analysis: Total$ versus Acreage, Garage, Acr*Gar Total$ = 135344 + 157 Acreage - 8766 Garage + 40871 Acr*Gar 79 cases used cases contain missing values VIF Constant 135344 35705 3.79 0.000 Acreage 157 1808 0.09 0.931 11.1 Garage -8766 376-0.3 0.816.8 Acr*Gar 40871 19091.14 0.036 1.8 När den anpassade modellen skall användas för att förklara variation och samband skall kolinjäritet undvikas. Tolkningarna blir annars lätt missvisande. När den anpassade modellen skall användas för prognoser i nya punkter är bekymret mindre eftersom anpassningen görs så att ingående x-variabler kopplar till värdet hos y så bra som möjligt. Den enda term som blir signifikant är samspelstermen, vilket känns konstigt, men vi ser höga VIF-värden för Acreage och Acr*Gar. Förmodligen är det så att Garage finns i betydligt högre utsträckning på större tomter och då blir Acreage och Acr*Gar väl mycket korrelerade. Val mellan olika modeller Modellbygge: Vi illustrerar med följande datamaterial: Ett företag undersöker 5 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) i volymenheter, dvs y med följande variabler: x 1 (TIME) = den tid (i månader) som säljaren (i distriktet) har varit anställd. x (POTENT) = total industriförsäljningens volym i distriktet x 3 (ADV) = annonskostnader (i dollar) x 4 (SHAE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x 5 (SHAECHG) = förändringen i marknadsandel i distriktet jämfört med perioden innan de senaste fyra åren. x 6 (ACCTS) = antal kontrakt som säljaren arbetat med x 7 (WOKLOAD) = faktor för arbetsbelastningen hos säljaren x 8 (ATING) = bedömningsmått på säljaren satt av av försäljningsansvarig SALES TIME POTENT ADV SHAE SHAE- ACCTS WOK- ATING CHG LOAD 3669.88 43.10 74065.1 458.9.51 0.34 74.86 15.05 4.9 3473.95 108.13 58117.3 5539.8 5.51 0.15 107.3 19.97 5.1 95.10 13.8 1118.5 950.4 10.91-0.7 96.75 17.34.9 4675.56 186.18 6851.3 43.1 8.7 0.17 195.1 13.40 3.4 615.96 161.79 57805.1 7747.1 9.15 0.50 180.44 17.64 4.6 134.94 8.94 37806.9 40.4 5.51 0.15 104.88 16. 4.5 5031.66 365.04 50935.3 3140.6 8.54 0.55 56.10 18.80 4.6 3367.45 0.3 3560.1 086. 7.07-0.49 16.83 19.86.3 799.97 1.14 809.5 355.0 9.14-0.74 88.6 4.96 3.9 4
Hur väljer man vilken av ett antal anpassade modeller som är bäst? 1) Studera varje modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra? ) Förklaringsgrader: Eftersom ökar för varje ny variabel som läggs till blir inte detta mått rättvist när man jämför olika modeller. Justerad förklaringsgrad: SSE /( n k 1) n 1 SSE = 1 = 1 SST /( n 1) n k 1 SST Måttet tar hänsyn till antal variabler, som ingår i modellen. Notera att kan skrivas som 1 (SSE/SST ), så analogi finns med detta mått. Exempel: I materialet anpassar vi modellerna: y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + ε (1) y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + β 7 x 7 + β 8 x 8 + ε () MTB > regress c1 6 c-c7 y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + ε MTB > regress c1 8 c-c9 y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + β 7 x 7 + β 8 x 8 + ε egression Analysis: SALES versus TIME, POTENT,... egression Analysis: SALES versus TIME, POTENT,... SALES = - 1165 +.7 TIME + 0.0383 POTENT + 0.141 ADV + SHAE + 85 SHAECHG + 4.38 ACCTS SALES = - 1508 +.01 TIME + 0.037 POTENT + 0.151 ADV + 199 SHAE + 91 SHAECHG + 5.55 ACCTS + 19.8 WOKLOAD + 8 ATING Constant -1165.5 40.4 -.77 0.013 Constant -1507.8 778.6-1.94 0.071 TIME.69 1.699 1.34 0.198 TIME.010 1.931 1.04 0.313 POTENT 0.03878 0.007547 5.07 0.000 POTENT 0.03705 0.0080 4.54 0.000 ADV 0.14067 0.03839 3.66 0.00 ADV 0.15099 0.04711 3.1 0.006 SHAE 1.60 50.58 4.38 0.000 SHAE 199.0 67.03.97 0.009 SHAECHG 85.1 160.6 1.78 0.093 SHAECHG 90.9 186.8 1.56 0.139 ACCTS 4.378 3.999 1.09 0.88 = 0.90 ACCTS 5.551 4.776 1.16 0.6 WOKLOAD 19.79 33.68 0.59 0.565 = 0.9 S = 48.0 -Sq = 9.0% -Sq(adj) = 89.4% = 0.894 ATING 8. 18.5 0.06 0.950 = 0.883 S = 449.0 -Sq = 9.% -Sq(adj) = 88.3% 5
Enligt den justerade förklaringsgraden är alltså den första modellen bättre. 3) Variansskattning Modell y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + ε 0.90 0.894 y=β 0 + β 1 x 1 + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6 + β 7 x 7 + β 8 x 8 + ε 0.9 0.883 Den modell som har lägst värde på MSE lyckas ju med att ha så litet slumpvariation som möjligt kvar. Dock gäller: MSE minskar om och endast om justerad förklaringsgrad ökar. Ł Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av 4) Måttet C p C p (eller bara kort C) är en något kryptiskt formulerad storhet som relaterar slumpvariansen i en anpassad modell till slumpvariansen hos den maximala modellen samt till antalet ingående parametrar. SSE C p = ( n ( k + 1)) s p där s p är variansskattningen (dvs. MSE) hos den maximala modellen (den med samtliga tillgängliga x-variabler) C p skall helst bli så liten som möjligt, och samtidigt k+1 I annat fall har den anpassade modellen en för stor bias, dvs. ligger snett i förhållande till verkligheten. För att beräkna C p krävs tydligen att såväl den aktuella som den maximala modellen anpassas. Ł Typisk uppgift för en datorkörning. Minitab: Kommandot breg kan användas för att ta fram de två bästa modellerna i varje modellstorlek, baserat på de största - värdena. Alltså, man jämför alla modeller med en x-variabel och tar ut de två bästa, alla modeller med två x-variabler och tar ut de två bästa etc. I de maximala modellstorleken finns förstås bara en modell och i denna kan visas att C p alltid är p+1 Kommandot ger förutom -värdena även justerade förklaringsgrader, s och dessutom just C p MTB > breg c1 c-c9 Best Subsets egression: SALES versus TIME, POTENT,... esponse is SALES S W H O P A O S A K A T T H E C L T I E A A C C O I M N D H T A N Vars -Sq -Sq(adj) C-p S E T V E G S D G 1 56.8 55.0 67.6 881.09 X 1 38.8 36.1 104.6 1049.3 X 77.5 75.5 7. 650.39 X X 74.6 7.3 33.1 691.11 X X 3 84.9 8.7 14.0 545.5 X X X 3 8.8 80.3 18.4 58.64 X X X 4 90.0 88.1 5.4 453.84 X X X X 4 89.6 87.5 6.4 463.95 X X X X 5 91.5 89.3 4.4 430.3 X X X X X 5 91. 88.9 5.0 436.75 X X X X X 6 9.0 89.4 5.4 48.00 X X X X X X 6 91.6 88.9 6.1 438.0 X X X X X X 7 9. 89.0 7.0 435.67 X X X X X X X 7 9.0 88.8 7.3 440.30 X X X X X X X 8 9. 88.3 9.0 449.03 X X X X X X X X C p k+1 6
I utskriften ser vi att i de 7 sista modellerna är C p k+1 (Lägg till en etta i kolumnen Vars ). Enligt reglerna skall vi välja modell så att C p blir så liten som möjligt. S W H O P A O S A K A T T H E C L T I E A A C C O I M N D H T A N Vars -Sq -Sq(adj) C-p S E T V E G S D G k+1 4 90.0 88.1 5.4 453.84 X X X X 5 4 89.6 87.5 6.4 463.95 X X X X 5 5 91.5 89.3 4.4 430.3 X X X X X 6 5 91. 88.9 5.0 436.75 X X X X X 6 6 9.0 89.4 5.4 48.00 X X X X X X 7 6 91.6 88.9 6.1 438.0 X X X X X X 7 7 9. 89.0 7.0 435.67 X X X X X X X 8 7 9.0 88.8 7.3 440.30 X X X X X X X 8 8 9. 88.3 9.0 449.03 X X X X X X X X 9 Ł Modellen med TIME, POTENT, ADV, SHAE och SHAECHG skall väljas eftersom denna har lägst värde på C p med villkoret C p k+1 bibehållet. Observera dock: Denna modell har inte det högsta värdet på vare sig förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s ). 5) Mer algoritmiska modellvalsprocedurer: Framåtvalsprincipen (Forward selection): 1. Välj först den x-variabel som har högst absolut korrelation med y. (Blir också den variabel som i en enkel linjär regressionsmodell ger högst eller lägst SSE.. Testa med t- eller F-test om denna variabel blir signifikant 3. Om den blir det, fixera denna variabel i modellen, kalla den x (1). Om inte, stanna utan modell. 4. Anpassa alla modeller med x (1) och ytterligare en x-variabel, välj tillfälligt den modell som har högst (eller lägst SSE) 5. Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant. 6. Om den blir det, fixera även denna, kalla den x (). Om inte, stanna vid modellen med x (1). 7. Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till. I vårt datamaterial: MTB > corr c1-c9 Correlations: SALES, TIME, POTENT, ADV, SHAE, SHAECHG, ACCTS, WOKLOAD, ATING SALES TIME POTENT ADV SHAE SHAECHG ACCTS WOKLOAD TIME 0.63 0.001 POTENT 0.598 0.454 0.00 0.03 ADV 0.596 0.49 0.174 0.00 0.30 0.405 SHAE 0.484 0.106-0.11 0.64 0.014 0.613 0.31 0.01 MTB > regress c1 1 c7 egression Analysis: SALES versus ACCTS SALES = 709 + 1.7 ACCTS Constant 709.3 515. 1.38 0.18 ACCTS 1.7 3.946 5.50 0.000 S = 881.1 -Sq = 56.8% -Sq(adj) = 55.0% ACCTS fixeras alltså i modellen signifikant SHAECHG 0.489 0.51 0.68 0.377 0.085 0.013 0.5 0.195 0.064 0.685 ACCTS 0.754 0.758 0.479 0.00 0.403 0.37 0.000 0.000 0.016 0.338 0.046 0.110 WOKLOAD -0.117-0.179-0.59-0.7 0.349-0.88-0.199 0.577 0.391 0.1 0.188 0.087 0.163 0.341 Nästa steg? Använd breg med vilken man också kan tvinga in en variabel och begränsa modellstorleken enligt: ATING 0.40 0.101 0.359 0.411-0.04 0.549 0.9-0.77 0.046 0.631 0.078 0.041 0.911 0.004 0.7 0.180 7
MTB > breg c1 c-c9; SUBC> include c7; SUBC> best 1; SUBC> nvars 1 1. Tvingar in ACCTS Visar bara en modell per storleksklass Visar bara modeller med en variabel fler än de inkluderade (dvs här med max variabler) MTB > regr c1 c7 c4 egression Analysis: SALES versus ACCTS, ADV Best Subsets egression: SALES versus TIME, POTENT,... esponse is SALES The following variables are included in all models: ACCTS S W H O P A O S K A T T H E L T I E A A C O I M N D H A N Vars -Sq -Sq(adj) C-p S E T V E G D G 1 77.5 75.5 7. 650.39 X SALES = 50 + 19.0 ACCTS + 0.7 ADV Constant 50.3 407.6 0.1 0.903 ACCTS 19.048.973 6.41 0.000 ADV 0.653 0.05039 4.50 0.000 S = 650.4 -Sq = 77.5% -Sq(adj) = 75.5% ADV blir signifikant och fixeras. Den bästa modellen med ACCTS och ytterligare en variabel är alltså den med ACCTS och ADV. MTB > breg c1 c-c9; SUBC> include c4 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets egression: SALES versus TIME, POTENT,... esponse is SALES The following variables are included in all models: ADV ACCTS S W H O P A O S K A T T H E L T I E A C O I M N H A N Vars -Sq -Sq(adj) C-p S E T E G D G MTB > regress c1 3 c7 c4 c3 egression Analysis: SALES versus ACCTS, ADV, POTENT SALES = - 37 + 15.6 ACCTS + 0.16 ADV + 0.019 POTENT Constant -37. 394.4-0.83 0.416 ACCTS 15.554.999 5.19 0.000 ADV 0.1607 0.04533 4.77 0.000 POTENT 0.019 0.008656.53 0.019 S = 58.6 -Sq = 8.8% -Sq(adj) = 80.3% POTENT blir signifikant och fixeras. 1 8.8 80.3 18.4 58.64 X Den bästa modellen med ACCTS, ADV och ytterligare en variabel är alltså den med ACCTS, ADV och POTENT. 8
MTB > breg c1 c-c9; SUBC> include c3 c4 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets egression: SALES versus TIME, POTENT,... esponse is SALES The following variables are included in all models: POTENT ADV ACCTS S W H O A S K A T H E L T I A C O I M H A N Vars -Sq -Sq(adj) C-p S E E G D G 1 90.0 88.1 5.4 453.84 X MTB > regress c1 4 c7 c4 c3 c5 egression Analysis: SALES versus ACCTS, ADV, POTENT, SHAE SALES = - 144 + 9.1 ACCTS + 0.175 ADV + 0.038 POTENT + 190 SHAE Constant -1441.9 43.6-3.40 0.003 ACCTS 9.14.865 3. 0.004 ADV 0.17499 0.03691 4.74 0.000 POTENT 0.03817 0.007977 4.79 0.000 SHAE 190.14 49.74 3.8 0.001 S = 453.8 -Sq = 90.0% -Sq(adj) = 88.1% SHAE blir signifikant och fixeras. Den bästa modellen med ACCTS, ADV, POTENT och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT och SHAE. MTB > breg c1 c-c9; SUBC> include c3 c4 c5 c7; SUBC> best 1; SUBC> nvars 1 1. Best Subsets egression: SALES versus TIME, POTENT,... esponse is SALES The following variables are included in all models: POTENT ADV SHAE ACCTS S W H O A K A T E L T I C O I M H A N Vars -Sq -Sq(adj) C-p S E G D G 1 91. 88.9 5.0 436.75 X Den bästa modellen med ACCTS, ADV, POTENT, SHAE och ytterligare en variabel är alltså den med ACCTS, ADV, POTENT SHAE och SHAECHG. MTB > regress c1 5 c7 c4 c3 c5 c6 egression Analysis: SALES versus ACCTS, ADV, POTENT, SHAE, SHAECHG SALES = - 186 + 8.3 ACCTS + 0.154 ADV + 0.0376 POTENT + 197 SHAE + 6 SHAECHG Constant -185.9 419.0-3.07 0.006 ACCTS 8.34.84.9 0.009 ADV 0.15444 0.03774 4.09 0.001 POTENT 0.037631 0.007685 4.90 0.000 SHAE 196.95 48.06 4.10 0.001 SHAECHG 6.5 16.9 1.61 0.14 S = 436.7 -Sq = 91.% -Sq(adj) = 88.9% SHAECHG blir inte signifikant och tas därför inte med. Ł Slutlig modell blir den med ACCTS, ADV, POTENT och SHAE Bra? 9
Bakåtelimineringsprincipen (Backward elimination ): 1. Anpassa modellen med samtliga tillgängliga förklaringsvariabler.. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen. 3. Om en eller flera variabler ej är signifikanta (ses i deras t-kvoter) tas den variabel bort som har lägst absolut t-kvot. 4. Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna är signifikanta Ł Slutlig modell 5. Om en eller flera variabler ej är signifikanta, ta bort den med lägst absolut t-kvot. 6. Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta. MTB > regress c1 8 c-c9 egression Analysis: SALES versus TIME, POTENT,... SALES = - 1508 +.01 TIME + 0.037 POTENT + 0.151 ADV + 199 SHAE + 91 SHAECHG + 5.55 ACCTS + 19.8 WOKLOAD + 8 ATING Constant -1507.8 778.6-1.94 0.071 TIME.010 1.931 1.04 0.313 POTENT 0.03705 0.0080 4.54 0.000 ADV 0.15099 0.04711 3.1 0.006 SHAE 199.0 67.03.97 0.009 SHAECHG 90.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.6 WOKLOAD 19.79 33.68 0.59 0.565 ATING 8. 18.5 0.06 0.950 S = 449.0 -Sq = 9.% -Sq(adj) = 88.3% TIME, SHAECHG, ACCTS, WOKLOAD och ATING är ickesignifikanta. Av dessa har ATING lägst absolut t-kvot MTB > regress c1 7 c-c8 egression Analysis: SALES versus TIME, POTENT,... MTB > regress c1 6 c-c7 egression Analysis: SALES versus TIME, POTENT,... SALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.15 ADV + 198 SHAE + 96 SHAECHG + 5.61 ACCTS + 19.9 WOKLOAD Constant -1485.9 677.7 -.19 0.043 TIME 1.974 1.796 1.10 0.87 POTENT 0.03790 0.007851 4.75 0.000 ADV 0.15196 0.0435 3.51 0.003 SHAE 198.31 64.1 3.09 0.007 SHAECHG 95.9 164.4 1.80 0.090 ACCTS 5.610 4.545 1.3 0.34 WOKLOAD 19.90 3.64 0.61 0.550 S = 435.7 -Sq = 9.% -Sq(adj) = 89.0% SALES = - 1165 +.7 TIME + 0.0383 POTENT + 0.141 ADV + SHAE + 85 SHAECHG + 4.38 ACCTS Constant -1165.5 40.4 -.77 0.013 TIME.69 1.699 1.34 0.198 POTENT 0.03878 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.00 SHAE 1.60 50.58 4.38 0.000 SHAECHG 85.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.88 S = 48.0 -Sq = 9.0% -Sq(adj) = 89.4% TIME, SHAECHG, ACCTS och WOKLOAD är ickesignifikanta. WOKLOAD har lägst absolut t-kvot. TIME, SHAECHG och ACCTS är icke-signifikanta. ACCTS har lägst absolut t-kvot. 10
MTB > regress c1 5 c-c6 egression Analysis: SALES versus TIME, POTENT, ADV, SHAE, SHAECHG MTB > regress c1 4 c-c5 egression Analysis: SALES versus TIME, POTENT, ADV, SHAE SALES = - 1114 + 3.61 TIME + 0.041 POTENT + 0.19 ADV + 57 SHAE + 35 SHAECHG Constant -1113.8 419.9 -.65 0.016 TIME 3.61 1.18 3.06 0.006 POTENT 0.04088 0.006731 6.5 0.000 ADV 0.1886 0.03704 3.48 0.003 SHAE 56.96 39.14 6.57 0.000 SHAECHG 34.5 157.3.06 0.053 S = 430. -Sq = 91.5% -Sq(adj) = 89.3% SALES = - 131 + 3.8 TIME + 0.0444 POTENT + 0.15 ADV + 59 SHAE Constant -131.3 440.7 -.98 0.007 TIME 3.816 1.70 3.01 0.007 POTENT 0.044396 0.007158 6.0 0.000 ADV 0.1548 0.03798 4.01 0.001 SHAE 59.47 4.18 6.15 0.000 S = 463.9 -Sq = 89.6% -Sq(adj) = 87.5% Endast SHAECHG är icke-signifikant. På gränsen, men för illustrationen tar vi ändå bort den. Alla förklaringsvariabler är signifikanta Ł Slutlig modell enligt bakåtelimineringsprincipen. Bra? Stegvis regression: Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas stegvis regression : Välj först den variabel som har högst korrelation med y Minitab har kommandot stepwise: MTB > stepwise c1 c-c9 Stepwise egression: SALES versus TIME, POTENT,... F-to-Enter: 4 F-to-emove: 4 esponse is SALES on 8 predictors, with N = 5 Sätter kritiska gränser för signifikanstest Behåll variabeln om den är signifikant Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant. Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort. Step 1 3 4 Constant 709.3 50.9-37.4-1441.94 ACCTS 1.7 19.0 15.6 9. T-Value 5.50 6.41 5.19 3. P-Value 0.000 0.000 0.000 0.004 ADV 0.7 0.16 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.019 0.038 T-Value.53 4.79 P-Value 0.019 0.000 SHAE 190 T-Value 3.8 P-Value 0.001 S 881 650 583 454 -Sq 56.85 77.51 8.77 90.04 -Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 7. 18.4 5.4 More? (Yes, No, Subcommand, or Help) SUBC> No Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHAE, dvs samma som framåtvalsprincipen gav. 11
Kommandot stepwise har underkommandona forward och backward som just ger framåtval resp. bakåteliminering. Det är dock klokt att försöka förstå dessa principer genom att välja litet för hand Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås. Det är inte heller så att någon med nödvändighet ger den bästa modellen. Algoritmerna skall kombineras med förnuft och residualanalys. Index Uttrycker värdet av en storhet relativt värdet av en annan storhet. Serier av värden i tid (eller rum) uttrycks i en viss enhet Index anger alla värden i serien relativt ett av dem blir enhetsoberoende Exempel Priset på Hasses superstrumpa 1996-000 i kronor 1996 35.00 1997 36.00 1998 37.50 1999 39.00 000 40.00 Priserna anges i kronor. Om Sverige under tiden haft en fast växelkurs i Euro, t ex 1 euro=8.70 kronor hade prisserien i euro blivit 1996 4.0 1997 4.14 1998 4.31 1999 4.48 000 4.60 Gör nu istället så att varje pris delas med priset för 1996 År Kronpris Europris 1996 35/35=1 4.0/4.0=1 1997 36/35=1.03 4.14/4.0=1.03 1998 37.50/35=1.07 4.31/4.0=1.07 1999 39/35=1.11 4.48/4.0=1.11 000 40/35=1.14 4.60/4.0=1.14 Notera att vi får samma värdeserie oavsett vilken valuta vi använder. Observera dock att fast växelkurs är ett nödvändigt villkor för detta De erhållna värdena kallas relativtal. 1
Omräkning till index Multiplicera de erhållna relativtalen med 100. Ł Indexserie 1996 100 1997 103 1998 107 Lättare för en del 1999 111 att förstå 000 114 Indexvärdet för 1996 är exakt 100 av naturliga orsaker. 1996 kallas därför basår. Varje indexvärde innehåller den procentuella förändringen av priset jämfört med basåret. T ex index för 1998=107 Ł Priset har ökat med 7% mellan 1996 och 1998. För att uttrycka den procentuella förändringen från år t1 till år t beräknas [(Index år t -Index år t 1 )/Index år t 1 ] 100 t ex från 1998 till 000: [(114-107)/107] 100=6.5 Ł 6.5% ökning Byte av basår Basåret kan bytas genom att dividera varje värde i indexserien med värdet för det nya basåret, samt multiplicera med 100 Index år t, basår t 1 = (Index år t, basår t 0 /Index år t 1, basår t 0 ) 100 = I t (t 1 ) = [I t (t 0 ) / I t1 (t 0 ) ] 100 Ex. Byte till basår 1998 År Basår 1996 Basår 1998 1996 100 (100/107) 100=93.5 1997 103 (103/107) 100=96.3 1998 107 100 1999 111 (111/107) 100=103 00 114 (114/107) 100=107 Notera att indextal < 100 förekommer Allmän formel: En enkel prisindexserie skapas genom I t = Pris år t / Pris basår t0 ) 100 = ( pt / pt ) 100 ( 0 Kvantiteter och försäljningsvärden Låt q t =försäljningskvantiteten och v t =försäljningsvärdet av en vara år t Ł v t =p t q t Ex. Priser, kvantiteter och försäljningsvärden för Hasses superstrumpa: År Pris Kvantitet Försäljn.värde 1996 35.00 150 550 1997 36.00 145 50 1998 37.50 165 6187.50 1999 39.00 160 640 000 40.00 155 600 13
Deflatering Försäljningsvärdena är uttryckta i s k löpande priser Ibland vill man uttrycka dem i priser för ett visst år (i s k fasta priser) Detta åstadkoms genom s k deflatering En värdeserie i löpande priser divideras värde för värde med en prisindexserie. Värden i fast pris erhålls genom att multiplicera samtliga deflaterade värden med prisindex för det år, vars priser skall användas Hasses superstrumpa, forts År Värden i Index Värden i 1997 års löpande priser priser 1996 550 100 (550/100) 103=5407.50 1997 50 103 50 1998 6187.50 107 (6187.50/107) 103=5956 1999 640 111 (640/111) 103=5790 000 600 114 (600/114) 103=560 Implicitprisindex Man kan också räkna baklänges Givet en värdeserie i löpande pris och motsvarande serie uttryckt i priser för år t Ett s k implicitprisindex erhålls genom att dividera löpande pris-serien värde för värde med fastpris-serien och sedan multiplicera med 100. Basåret blir t Hasses superstrumpa, forts År Värden i Värden i Implicitprisindex löpande 1998 års (Basår=1998) priser priser 1996 550 5617.50 (550/5617.50) 100 = 93.5 1997 50 543 (50/543) 100 = 96.3 1998 6187.50 6187.50 100 1999 640 6015 (640/6015) 100=104 000 600 5819 (600/5819) 100=107 Avvikelser från tidigare framräknad indexserie beror på avrundningsfel Deflaterad värdeserie och fast pris-serie uttrycker kvantitet Förutom prisindex kan kvantitetsindex och/eller värdeindex konstrueras Överhuvudtaget kan alla serier av värden omräknas till index, dvs indexbegreppet är inte knutet till ekonomi 14
Sammansatta prisindex Olika viktsystem Om ett företag (eller en bransch) säljer mer än en vara skall som regel prisindex baseras på flera (ev. samtliga) varor. Generell konstruktion: där = I I t i t, i wt, i I t,i =prisindex år t för vara i w t,i =vikt år t för vara i och summationen görs över alla ingående varor Laspeyre s viktsystem: w t,i =(p i,0 q i,0 )/Σ j (p j,0 q j,0 ) dvs vikten för vara i utgörs av varans andel av totalförsäljningen (av ingående varor) för basåret. Paasche s viktsystem: w t,i =(p i,0 q i,t )/Σ j (p j,0 q j,t ) dvs vikten för vara i utgörs av varans andel av totalförsäljningen för år t i basårspriser. Laspeyre s system är vanligast.vikterna baseras på försäljningsfördelningen under basåret. Dock problematiskt då försäljningen varierar starkt mellan varugrupper från år till år Paasche s system används i det senare fallet och är mindre stabilt. Exempel forts. Hasses kläder Priser och försäljningskvantiteter på Hasses superstrumpa och Hasses boxershorts Strumpor Boxershorts Pris Kvantitet Pris Kvantitet 1998 37.50 1400 85.00 630 1999 39.00 1310 90.00 488 000 40.00 149 93.00 513 Sammansatt prisindex med Laspeyre s viksystem (Basår 1998): År Index 1998 100 1999 39.00 37.50 100 000 39.00 5500 37.50 100 106050 37.501400 37.501400 + 85.00630 + + 90.00 85.00 100 90.00 85.00 100 53550 106050 = 85.00630 37.501400 + 85.00 630 104.95 40.00 5500 93.00 53550 37.50 100 106050+ 85.00 100 = 106050 108.05 = 15