tentaplugg.nu av studenter för studenter Kurskod Kursnamn SM Matematisk statistik Datum LP - Material Laboration 4 Kursexaminator Adam Betygsgränser Tentamenspoäng Övrig kommentar
Försättsblad inlämningsuppgift / Cover sheet for assignments Laboration 4 Personnr Efternamn Förnamn Användarnamn Personal ID no. Family name First name e-mail address Kurskod/ SM Kursnamn/ Matematisk statistik Datum/ --4 Lärarens anteckningar/teacher s notes: Betyg/ Grade: Lärarens kommentarer/ Teacher s comments: Datum/ Date: Lärarens sign/ Teacher s sign:
Inledning Det här är en rapport som löser ett antal uppgifter i multipel regressionsanalys. Till hjälp har statistikprogrammet MiniTab använts, samt Vännman, K. Kompendium i regressionsanalys och Handledning för MiniTab. Syftet med rapporten är, förutom att ge träning i problemlösning, att ge träning tillämpning av standardprogramvara i statistik, samt att praktiskt tillämpa de kunskaper som givits vid det antalet föreläsningar inom regressionsanalys under kursen.
Innehållsförteckning Uppgift... a) Dummyvariabel för maskintyp... b) Residualplottsanalys för uppgiften i a)... C) Se sidan 4 I föreläsningen för hypoteser.... 4 Uppgift... 5 a) Ytskikt och logaritmen av viskositeten som förklarande variabler... 5 Utan asfalt... 5 Med asfalt... 5 b) Konfidensintervall... 5 c) Inflytelserika punkter... 6 Uppgift 3... 8 a) Multipel regressionsanalys av x samt x till x6 som förklarande variabler... 8 b) Vilka variabler går att utesluta?... 8 c) Modellantagande och residualplott för b)... 9 d) Jämför den nya modellen med den gamla förbättringar?...
Uppgift a) Dummyvariabel för maskintyp I uppgiften är förutom en definition av bakgrunden till dummyvariabel även modellantagande, skattad regressionsmodell, residualspridning samt förklaringsgrad med. Dummyvariabel gäller Modellantagandet ges av y = β + β x + β x Konfidensintervallet ges av β ± t (n k) sb samt β ± t (n k) sb där β, β och sb, sb ges av koefficienterna Coef och SE Coef i tabell. nedan som fåtts av regressionsanalysen. För vår data gäller att n= och k=3, vilket ger intervallen [-6.993, -8.9757] och [5.756, 7.668734]. För en fix ålder gäller Regression Analysis: Reparationstid versus Ålder; Dummy The regression equation is Reparationstid = 6,96 + 6,7 Ålder -,6 Dummy Constant 6,964,49 4,67, Ålder 6,73,4544 4,77, Dummy -,585,73-7,35, S = 3,7678 R-Sq = 9,8% R-Sq(adj) = 9,9% Tabell. regressionsanalys med dummyvariabel
b) Residualplottsanalys för uppgiften i a) Residualplottsanalys med 4 residualplotter. 99 Normal Probability Plot (response is Reparationstid) Percent 95 9 8 7 6 5 4 3 5-3 - - Standardized Residual 3 Figur. normalplott för standardiserat residual Residuals Versus Dummy (response is Reparationstid) Standardized Residual - -,,,4 Dummy,6,8, Figur. residualplott mot dummyvariabel
Versus Fits (response is Reparationstid) Standardized Residual - - 3 Fitted Value 4 5 Figur.3 standardiserad residual Residuals Versus Ålder (response is Reparationstid) Standardized Residual - - 3 4 Ålder 5 6 7 8 Figur.4 standardiserad residual mot ålder 3
C) Se sidan 4 I föreläsningen för hypoteser. Modellantagande: Hypoteser: Constant,668,79,49,55 Ålder 8,534,675,7, Dummy -5,,79 -,84,84 Produkt -,587,7996-3,3,5 Tabell. - P-värdet skall jämföras med.5, vilket innebär att produkten kan tas med in i modellen. Skattad regressionsmodell Allmänn formel: Reperationstid =,67 + 8,53 Ålder - 5, Dummy -,58 Produkt Maskintyp A Reparationstid =,67 + 8,53 Ålder Maskintyp B Reparationstid = -,34 + 8,53 Ålder -,58 Produkt 4
Uppgift a) Ytskikt och logaritmen av viskositeten som förklarande variabler Nedan en multipel regressionsanalys då andel asfalt i ytskiktet tas med tillsammans med logaritmen av viskositeten, samt modellantagande, skattad regressionsmodell, residualspridning och förklaringsgrad. Modellantagande: Utan asfalt The regression equation is ln_spår =,8 -,65 ln_visk Constant,8475,9673 9,, ln_visk -,6469,79 -,38, S =,33688 R-Sq = 94,5% R-Sq(adj) = 94,3% Tabell. regressionsanalys utan asfalt Med asfalt The regression equation is ln_spår = -,3 -,6 ln_visk +,633 Asfalt_ytskikt Constant -,96,77 -,3,89 ln_visk -,6,583-4,5, Asfalt_ytskikt,6335,586,45, S =,375 R-Sq = 95,5% R-Sq(adj) = 95,% Tabell. regressionsanalys med asfalt Hypotes: Slutsats: Ja, det har förbättrats. Asfalten är med 5% signifikansnivå skilt från noll, samt den justerade förklaringsgraden har ökat. b) Konfidensintervall Här ett 95% konfidensintervall för det förväntade värdet hos logratimen av förändringen i spårdjup och ett 95% prognosintervall för logaritmen av förändringen i spårdjup i det fall viskositeten är och andel asfalt i ytskiktet är 5%. 5
Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI -,337 5,964 (-3,77; -,893) (-3,79; -,8743)XX XX denotes a point that is an extreme outlier in the predictors. Values of Predictors for New Observations New Obs ln_visk Asfalt_ytskikt 5, Tabell. - c) Inflytelserika punkter Beräkning av inflytelserika punkter genom DFITS och Leverage-punkter. Referenslinjen har satts in genom ekvationen ges ges för detta i regressionsanalys-häftet. Boxplot of HI,,935, HI, -, -, -,935 Figur. leveragevärden Av lådadiagrammet i figur. för leveragevärdena framgår att det finns två inflytelserika punkter som ligger utanför den övre referenslinjen. Dessa hör till rad 5 respektive 3, så det kan vara en god idé att undersöka dessa närmare och vad orsaken till avvikelsen kan vara. 6
, Boxplot of DFIT,5,6 DFIT, -,5 -,6 Figur. DFIT-värden Av figur. framgår att det finns tre inflytelserika punkter; rad 5, 7 och 8. Likt leveragepunkterna är dessa tre punkter som bör undersökas närmare. 7
Uppgift 3 a) Multipel regressionsanalys av x samt x till x 6 som förklarande variabler Här motiveras om samtliga variabler bör ingå i modellen eller om några kan utesluta Modellantagandet ges av y = β + β x + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6, och regressionsanalysen med respektive variabler ses i tabell 3. nedan. The regression equation is ln_spår = - 5,78 -,53 ln_visk +,5 Asfalt_ytskikt +,37 Porer +,434 Finkornighet +,33 Asfalt_basskikt -,69 Tidsperiod Constant -5,78,459 -,35,7 ln_visk -,5333,736-7,3, Asfalt_ytskikt,469,656 4,3, Porer,366,3,87,8 Finkornighet,4343,788,55,587 Asfalt_basskikt,38,365,7,483 Tidsperiod -,689,944 -,,46 S =,64 R-Sq = 97,% R-Sq(adj) = 96,5% Tabell 3. regressionsanalys för alla variabler Ovan ser vi att P-värdet för finkornighet, asfalt och tidsperiod är förhållandevis högt och vi bör kunna misstänka att dessa inte ska tas med i modellen. Detta beror på vårt signifikansnivåantagande, vilket kommer att användas i uppgift b). b) Vilka variabler går att utesluta? Variabler plockas bort till dess att en bra modell hittas. För modellen upprättas ett 99% konfidensintervall I jämförelse med % signifikansnivå är P-värdet för finkornighet i tabell 3. för högt; vi väljer därför att plocka bort det. Den nya regressionsanalysen utan finkornighet ges i tabell 3. nedan. The regression equation is ln_spår = - 5,9 -,5 ln_visk +,6 Asfalt_ytskikt +,335 Porer +,98 Asfalt_basskikt -,65 Tidsperiod Constant -5,897,46 -,44, ln_visk -,597,735-7,4, Asfalt_ytskikt,568,6 4,43, Porer,3353,35 3,4,3 Asfalt_basskikt,978,3,99,33 Tidsperiod -,647,89 -,9,47 S =,56758 R-Sq = 97,% R-Sq(adj) = 96,6% Tabell 3. finkornighet bortplockad I jämförelse med % signifikansnivå är P-värdet för basskikt i tabell 3. för högt; vi väljer därför att plocka bort det likt vi gjorde med finkornigheten. Den nya regressionsanalysen ges i tabell 3.3. 8
The regression equation is ln_spår = - 4, -,547 ln_visk +,7 Asfalt_ytskikt +,33 Porer -,5 Tidsperiod Constant -4,,49 -,69, ln_visk -,54747,6547-8,36, Asfalt_ytskikt,76,463 4,35, Porer,339,34 3,,4 Tidsperiod -,5,735 -,87,73 S =,5668 R-Sq = 97,% R-Sq(adj) = 96,6% Tabell 3.3 basskikt bortplockad Sist men inte minst är det kvar att plocka bort variabeln för tidsperiod, då även detta P-värde är för högt i jämförelse med % signifikansnivå. Detta blir även den modell som vi väljer att använda, och dess ekvation ges i tabell 3.4 nedan. The regression equation is ln_spår = - 3,6 -,66 ln_visk +,997 Asfalt_ytskikt +,337 Porer Constant -3,66,54 -,34,7 ln_visk -,6687,59-5,49, Asfalt_ytskikt,997,54 3,9, Porer,3367,8 3,,4 S =,6835 R-Sq = 96,7% R-Sq(adj) = 96,3% Tabell 3.4 tidsperiod bortplockad, vald modell Ett 99% konfidensintervall upprättas i enlighet med som det gjordes i uppgift och med hjälp av koefficienterna från tabell 3.4, som för respektive variabel (ln_visk, asfalt_ytskikt och porer) beräknas till: [-.73, -.59], [.9,.7 ] och [.37,.636 ]. c) Modellantagande och residualplott för b) Här presenteras residualplottar med kommentarer, samt modellantagande. Finns det något att vara misstänksam emot? Fullständigt modellantagande från resultatet i uppgift b ges av ln(spår) = β + β x + β x + β 3 x 3 + x 4 + x 5 + x 6. Förklaringsgraden för den valda modellen är hög, spridningen låg samt P-värdena (förutom konstanten) är mindre än., vilket är bra då jämförelsen sker mot % signifikansnivå. På nästa sida ges residualplottarna. 9
Normal Probability Plot (response is ln_spår) 99 95 9 8 7 Percent 6 5 4 3 5-3 - - Standardized Residual 3 Figur 3. residualplott normal Versus Fits (response is ln_spår) Standardized Residual - - - Fitted Value 3 Figur 3. - Som kan ses i figur X och X, X3 och X4 är residualplottarna inte optimala. I figur X ligger tre värden nära värdet för, vilket kan vara i behov av en vidare utvärdering för eventuella uteliggare.
d) Jämför den nya modellen med den gamla förbättringar? Modellen i uppgift b) ska jämföras med modellen i uppgift. Vi väljer att jämföra med asfalts-modellen. I jämförelse med modellen i uppgift anser vi att den senare modellen är mer lämplig att använda. Anledningen är att förklaringsgraden är högre, men att även residualplottarna ges av ett mer jämntjockt moln. Dessutom kan vi i jämförelse med P-värde och signifikansnivå vara mer säker på att variablerna ska vara med i den senare modellen, för % signifikansnivå, men i den första modellen endast %.