Föreläsning 4. Kap 5,1-5,3

Relevanta dokument
Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F5

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Skrivning i ekonometri torsdagen den 8 februari 2007

10.1 Enkel linjär regression

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Skrivning i ekonometri lördagen den 15 januari 2005

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Kvadratisk regression, forts.

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F7

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Skrivning i ekonometri lördagen den 25 augusti 2007

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Datorövning 1 Enkel linjär regressionsanalys

Exempel 1 på multipelregression

TENTAMEN I STATISTIK B,

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Facit till Extra övningsuppgifter

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

F7 Polynomregression och Dummyvariabler

Metod och teori. Statistik för naturvetare Umeå universitet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressionsanalys av lägenhetspriser i Spånga

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen Tillämpad statistik A5 (15hp)

Linjär regressionsanalys. Wieland Wermke

Tentamen Tillämpad statistik A5 (15hp)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Föreläsning G60 Statistiska metoder

Räkneövning 3 Variansanalys

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

tentaplugg.nu av studenter för studenter

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i matematisk statistik

F19, (Multipel linjär regression forts) och F20, Chi-två test.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

LABORATION 3 - Regressionsanalys

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

LABORATION 3 - Regressionsanalys

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Datorövning 5 Exponentiella modeller och elasticitetssamband

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

tentaplugg.nu av studenter för studenter

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

8.1 General factorial experiments

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tentamen Tillämpad statistik A5 (15hp)

Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Exempel 1 på multipelregression

TAMS65 DATORÖVNING 2

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Lösningar till SPSS-övning: Analytisk statistik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

TVM-Matematik Adam Jonsson

Transkript:

Föreläsning 4 Kap 5,1-5,3

Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet (korrelationen) får inte bli för stark. Om två variabler är mycket strakt beroende av varann så förklarar de ungefär samma sak och detta medför problem med att t ex skatta regressions-koefficienterna. 2

Exempel: Vad påverkar kostnaden (COST) för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnaden (OVERHEAD) antal direkta personarbetstimmar (LABOR)

Månads-data: MONTH COST PAPER MACHINE OVERHEAD LABOR 1 1102 550 218 112 325 2 1008 502 199 99 301 3 1227 616 249 126 376 4 1395 701 277 143 419 27 1388 704 281 142 429 4

Starka samband mellan y och alla x-variabler 5

Pröva först en modell där kostnaden förklaras av samtliga förklaringsvariabler: Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030-1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Hög förklaringsgrad, men alla x-variabler är ej signifikanta 6

Varför kan vi inte hitta samma samband i regressionsmodellen som vi såg genom visuell inspektion? Kan det vara så att förklaringsvariablerna överlappar varandra när det gäller att förklara kostnaden? Vi kan undersöka detta genom att plotta de förklarande variablerna mot varandra. 7

Matrix (matris) -plot Tydligt samband mellan alla par av förklaringsvariabler. 8

Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler: Correlations: PAPER, MACHINE, OVERHEAD MACHINE 0.989 PAPER MACHINE OVERHEAD 0.978 0.994 Cell Contents: Pearson correlation och vi ser att samtliga korrelationer ligger mycket nära 1. 9

Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler kan modellen bli svår att analysera. Vi kan t.ex. få: konstiga värden på parameterskattningar (t. ex. negativa lutningsparametrar där sambandet skall vara positivt) förklaringsvariabler är inte signifikanta, fastän man kan se ett tydligt linjärt samband mellan x-variabeln och respons-variabeln Eftersom flera förklarande variabler representerar samma påverkan är det svårt att separera vad i varje förklaringsvariabel som främst förklarar variationen i y. 10

Detta problem kallas för multikollinearitet. Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra förklaringsvariablerna. Hur upptäcker man och hur åtgärdar man detta? Metod 1: Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs även med y. Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst korrelation med y. 11

I exemplet beräknar vi Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR COST PAPER MACHINE OVERHEAD PAPER 0.996 MACHINE 0.997 0.989 OVERHEAD 0.989 0.978 0.994 LABOR 0.938 0.933 0.945 0.938 Cell Contents: Pearson correlation Alla korrelationer är högre än 0.9. MACHINE har högst korrelation med COST och bör då vara den variabel som väljs. (Dock är PAPER en mycket nära kandidat här.) 12

Metod 2: Vi ska beräkna ett mått på hur starkt sambandet är mellan en av x-variablerna och de övriga x-variablerna. Anpassa en regressionsmodell för x 1 och låt de övriga x- variablerna x 2, x 3, x 4 förklara x 1 x 1 = 0 1 x 2 2 x 3 3 x 4 Då erhålls en förklaringsgrad R 1 2, som anger hur stor del av den totala variationen i x 1 som förklaras av de övriga x-variablerna. Är R 1 2 stor, borde man kunna utesluta x 1 ur modellen för y. 13

Den s k Variance Inflation Factor, VIF, för variabeln x 1 definieras som VIF 1 1 1 R Och vi ser att för ett stort värde hos R 1 2 blir också VIF 1 stor. 2 1 VIF kan som lägst bli 1 vilket inträffar då R 12 =0. Om R 12 =1 skulle VIF bli oändligt stor. Vi kan anpassa regressionsmodellen för att få R 2 1 x 1 = 0 1 x 2 2 x 3 3 x 4, förklaringsvariabler 14

Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR The regression equation is PAPER = 112 + 2.92 MACHINE - 1.66 OVERHEAD - 0.0186 LABOR Predictor Coef SE Coef T P Constant 112.03 29.60 3.79 0.001 MACHINE 2.9162 0.5333 5.47 0.000 OVERHEAD -1.6589 0.8440-1.97 0.062 LABOR -0.01863 0.06990-0.27 0.792 S = 19.24 R-Sq = 98.2% R-Sq(adj) = 98.0% Det enda intressanta i utskriften VIF 1 1 0.982 1 55.56 15

VIF finns förstås definierad för varje ingående x-variabel som VIF j 1 1 R 2 j där R j 2 = förklaringsgraden i en anpassad modell där x j förklaras av övriga x-variabler. Om det största av dessa VIF-värden är större än 10 eller om medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kollinearitet. VIF-värden kan fås automatiskt i Minitab-utskriften: 16

Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P VIF Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 55.5 MACHINE 2.4710 0.4656 5.31 0.000 228.9 OVERHEAD 0.0483 0.5250 0.09 0.927 104.1 LABOR -0.05058 0.04030-1.26 0.223 9.3 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Vi ser att det råder stora problem med (multi)kollinearitet här! 17

Metod 3: Transformera y och/eller x-variablerna. I vårt ex skulle man kunna pröva att dividera y=cost och machine, overhead och labor med paper. Detta har jag dock inte anpassat.

Är (multi)kollinearitet alltid ett bekymmer? När den anpassade modellen används för att förklara variation och tolka samband är det viktigt att multikollinearitet undviks. Tolkningarna blir annars lätt missvisande. Är målet med analysen att göra prognoser i nya punkter spelar det mindre roll om de inkluderade förklarande variablerna är korrelerade. 19

Val av modell Vi ska titta på flera olika metoder för att finna en bra modell utifrån en uppsättning med x-variabler. Responsvariabeln antas vara given. Först ska vi göra bedömningen av om y behöver transformeras. Om vi har flera dummyvariabler som beskriver en kvalitativ variabel så måste dessa hållas ihop. Kvadratiska termer och interaktionstermer får inte vara med om de ursprungliga variablerna inte är med. Vi följer ett ex:

Val mellan olika modeller modellbygge: Ett företag undersöker 25 säljdistrikt med avseende på försäljning. Man vill försöka förklara försäljningen (SALES) med följande variabler: x 1 (TIME) = den tid (i månader) som säljaren har varit anställd. x 2 (POTENT) = totala industriförsäljningens volym i distriktet x 3 (ADV) = annonskostnader (i dollar) x 4 (SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren) x 5 (SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden före de senaste fyra åren. x 6 (ACCTS) = antal kontrakt som säljaren arbetat med x 7 (WORKLOAD) = faktor för arbetsbelastningen hos säljaren x 8 (RATING) = bedömningsmått på säljaren satt av försäljningsansvarig 21

SALES TIME POTENT ADV SHARE SHARE- ACCTS WORK- RATING CHG LOAD 3669.88 43.10 74065.1 4582.9 2.51 0.34 74.86 15.05 4.9 3473.95 108.13 58117.3 5539.8 5.51 0.15 107.32 19.97 5.1 2295.10 13.82 21118.5 2950.4 10.91-0.72 96.75 17.34 2.9 4675.56 186.18 68521.3 2243.1 8.27 0.17 195.12 13.40 3.4 6125.96 161.79 57805.1 7747.1 9.15 0.50 180.44 17.64 4.6 2134.94 8.94 37806.9 402.4 5.51 0.15 104.88 16.22 4.5 5031.66 365.04 50935.3 3140.6 8.54 0.55 256.10 18.80 4.6 3367.45 220.32 35602.1 2086.2 7.07-0.49 126.83 19.86 2.3 2799.97 21.14 22809.5 3552.0 9.14-0.74 88.62 24.96 3.9 22

Hur väljer man den bästa modellen? 1) Studera varje relevant modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra? 2) Jämför justerade förklaringsgrader 3) Variansskattning: Den modell som har lägst värde på MSE är bäst. Dock gäller: MSE minskar om och endast om den justerade förklaringsgraden ökar. Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av justerad 2 förklaringsgrad R 23

Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS Predictor Coef SE Coef T P Constant -1165.5 420.4-2.77 0.013 TIME 2.269 1.699 1.34 0.198 POTENT 0.038278 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.002 SHARE 221.60 50.58 4.38 0.000 SHARECHG 285.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.288 0.920 2 R 0. 894 S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4% R 2 24

Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6-1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 R R 2 2 0.922 0.883 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3% 25

Best Subsets Regression: SALES versus TIME, POTENT,... Response is SALES S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G 1 56.8 55.0 67.6 881.09 X 1 38.8 36.1 104.6 1049.3 X 2 77.5 75.5 27.2 650.39 X X 2 74.6 72.3 33.1 691.11 X X 3 84.9 82.7 14.0 545.52 X X X 3 82.8 80.3 18.4 582.64 X X X 4 90.0 88.1 5.4 453.84 X X X X 4 89.6 87.5 6.4 463.95 X X X X 5 91.5 89.3 4.4 430.23 X X X X X 5 91.2 88.9 5.0 436.75 X X X X X 6 92.0 89.4 5.4 428.00 X X X X X X 6 91.6 88.9 6.1 438.20 X X X X X X 7 92.2 89.0 7.0 435.67 X X X X X X X 7 92.0 88.8 7.3 440.30 X X X X X X X 8 92.2 88.3 9.0 449.03 X X X X X X X X 26

Automatiserat modellval: Framåtval: Forward Selection Bakåteliminering: Backward Selection (elimination) Stegvis Regression: Stepwise regression Gemensamt för de här metoderna är att man testar en variabel i taget. Med hjälp av några kriterier som man bestämmer i förväg kan man sen avgöra om denna variabel ska läggas till i modellen (tas bort från modellen) eller inte. 27

Framåtvalsprincipen (Forward selection): 1. Välj först den x-variabel som har högst absolut korrelation med y. (Den variabel som ger högst R 2 och lägst SSE). 2. Testa med t- eller F-test om denna variabel blir signifikant 3. Om den blir det, behåll den i modellen. Om inte, så finns det ingen bra modell. 4. Anpassa alla modeller med ytterligare en x-variabel. Använd sen den variabel som har lägst p-värde. 5. Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant. 6. Om den blir det, behåll även denna variabel i modellen. Om inte, stanna vid den tidigare modellen med en förklarande variabel. 7. Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan läggas till. 28

Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD TIME 0.623 0.001 POTENT 0.598 0.454 0.002 0.023 ADV 0.596 0.249 0.174 0.002 0.230 0.405 SHARE 0.484 0.106-0.211 0.264 0.014 0.613 0.312 0.201 SHARECHG 0.489 0.251 0.268 0.377 0.085 0.013 0.225 0.195 0.064 0.685 ACCTS 0.754 0.758 0.479 0.200 0.403 0.327 0.000 0.000 0.016 0.338 0.046 0.110 WORKLOAD -0.117-0.179-0.259-0.272 0.349-0.288-0.199 0.577 0.391 0.212 0.188 0.087 0.163 0.341 RATING 0.402 0.101 0.359 0.411-0.024 0.549 0.229-0.277 0.046 0.631 0.078 0.041 0.911 0.004 0.272 0.180 29

Regression Analysis: SALES versus ACCTS The regression equation is SALES = 709 + 21.7 ACCTS Predictor Coef SE Coef T P Constant 709.3 515.2 1.38 0.182 ACCTS 21.722 3.946 5.50 0.000 signifikant S = 881.1 R-Sq = 56.8% R-Sq(adj) = 55.0% ACCTS är signifikant och utgör därför den första förklaringsvariabeln i modellen. Om vi testar de återstående variablerna, var och en i modellen med ACCTS, ser vi att den variabel som är mest signifikant är ADV. 30

Regression Analysis: SALES versus ACCTS, ADV The regression equation is SALES = 50 + 19.0 ACCTS + 0.227 ADV Predictor Coef SE Coef T P Constant 50.3 407.6 0.12 0.903 ACCTS 19.048 2.973 6.41 0.000 ADV 0.22653 0.05039 4.50 0.000 S = 650.4 R-Sq = 77.5% R-Sq(adj) = 75.5% Nu kan vi försöka utöka modellen med ytterligare en variabel. Vi testar alltså alla kvarstående variabler var och en tillsammans med ACCTS och ADV. 31

Enklare är det att använda sig av framåtvalen som finns i MINITAB. (Stat->Regression->Stepwise ) Forward selection. Alpha-to-Enter: 0.05 Response is SALES on 8 predictors, with N = 25 Step 1 2 3 4 Constant 709.32 50.29-327.24-1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004 ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4 32

Bakåtelimineringsprincipen (Backward elimination ): 1. Anpassa modellen med samtliga tillgängliga förklarande variabler. 2. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen. 3. Om en eller flera variabler ej är signifikanta ta bort den variabel som har lägst absolut t-kvot (högst p-värde). 4. Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna modell är signifikanta är det den slutliga modellen. 5. Om en eller flera variabler ej är signifikanta, ta bort den med högst p-värde. 6. Upprepa förfarandet till dess att samtliga ingående förklaringsvariabler är signifikanta. 33

I modellen med alla förklarande variabler: Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P Constant -1507.8 778.6-1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3% TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-signifikanta. Av dessa har RATING lägst absolut t-kvot. 34

Regression Analysis: SALES versus TIME, POTENT,... The regression equation is SALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.152 ADV + 198 SHARE + 296 SHARECHG + 5.61 ACCTS + 19.9 WORKLOAD Predictor Coef SE Coef T P Constant -1485.9 677.7-2.19 0.043 TIME 1.974 1.796 1.10 0.287 POTENT 0.037290 0.007851 4.75 0.000 ADV 0.15196 0.04325 3.51 0.003 SHARE 198.31 64.12 3.09 0.007 SHARECHG 295.9 164.4 1.80 0.090 ACCTS 5.610 4.545 1.23 0.234 WORKLOAD 19.90 32.64 0.61 0.550 S = 435.7 R-Sq = 92.2% R-Sq(adj) = 89.0% TIME, SHARECHG, ACCTS och WORKLOAD är ickesignifikanta. WORKLOAD har lägst absolut t-kvot. osv. 35

Step 1 2 3 4 5 Constant -1508-1486 -1165-1114 -1312 TIME 2.0 2.0 2.3 3.6 3.8 T-Value 1.04 1.10 1.34 3.06 3.01 P-Value 0.313 0.287 0.198 0.006 0.007 POTENT 0.0372 0.0373 0.0383 0.0421 0.0444 T-Value 4.54 4.75 5.07 6.25 6.20 P-Value 0.000 0.000 0.000 0.000 0.000 ADV 0.151 0.152 0.141 0.129 0.152 T-Value 3.21 3.51 3.66 3.48 4.01 P-Value 0.006 0.003 0.002 0.003 0.001 SHARE 199 198 222 257 259 T-Value 2.97 3.09 4.38 6.57 6.15 P-Value 0.009 0.007 0.000 0.000 0.000 SHARECHG 291 296 285 325 T-Value 1.56 1.80 1.78 2.06 P-Value 0.139 0.090 0.093 0.053 Vi börjar med modellen med alla förklarande variabler och tar bort RATING, WORKLOAD, ACCTS och SHARECHG en efter en. Den slutliga modellen inkluderar TIME, POTENT, ADV och SHARE. ACCTS 5.6 5.6 4.4 T-Value 1.16 1.23 1.09 P-Value 0.262 0.234 0.288 WORKLOAD 20 20 T-Value 0.59 0.61 P-Value 0.565 0.550 RATING 8 T-Value 0.06 P-Value 0.950 S 449 436 428 430 464 R-Sq 92.20 92.20 92.03 91.50 89.60 R-Sq(adj) 88.31 88.99 89.38 89.26 87.52 C-p 9.0 7.0 5.4 4.4 6.4 36

Stegvis regression: Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas stegvis regression : Välj först den variabel som har högst korrelation med y. Behåll variabeln om den är signifikant. Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant. Fortsätt att lägga till och ta bort variabler till dess att inga nya signifikanta kan hittas och inga gamla kan tas bort. 37

Step 1 2 3 4 Constant 709.32 50.29-327.24-1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004 ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 Slutlig modell är alltså den med ACCTS, ADV, POTENT och SHARE, dvs samma som framåtvalsprincipen gav. POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4 38

Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås. Det är inte heller så att någon med nödvändighet ger den bästa modellen. Algoritmerna skall kombineras med förnuft och residualanalys. Speciellt viktigt är det att inte utan att fundera stoppa in alla variabler man har i modellen, utan att börja med en vettig uppsättning relevanta variabler. 39