TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet MINITAB. Förutom att ge träning i att lösa problem inom regressionsanalysen syftar laborationen till att ge träning i att tillämpa standardprogramvara i statistik. Litteratur: Vännman: Kompendium i regressionsanalys. Handledning för MINITAB 15. Lämna in fullständiga och läsliga lösningar till samtliga uppgifter. Varje uppgift ska innehålla fullständiga modellantaganden. Ett tips är att på varje uppgift börja med att skriva ner modellantagandet eftersom det då blir lättare att tolka kvantiteterna som efterfrågas. MINI- TAB-utskrifterna kan lämnas in som bilagor eller inklippta i texten om ni skriver i Word. Motivera tydligt tolkningarna från diagrammen och de slutsatser som görs. Laborationsredogörelsen för den första delen ska detaljgranskas av en annan laborationsgrupp på det schemalagda passet för KGB-3. Laborationsredogörelsen för hela laborationen lämnas in i pdf format senast onsdag den 14 januari 014. Första delen: Enkel linjär regression Uppgift 1 En underhållsingenjör ville beskriva reparationstiden per månad hos de maskiner hon ansvarade för och trodde att maskinens ålder (i år) och maskintypen skulle kunna användas som förklarande variabler. Två maskintyper förekom, som kallades typ A respektive typ B. Data från 0 olika maskiner samlades in. Resultatet framgår av tabell 1. Tabell 1. Reparationstid per månad (i timmar), ålder (i år) och maskintyp för 0 maskiner. Materialet är från Scheaffer & McClave: Probability and Statistics for Engineers. Ålder Maskintyp Reparationstid Ålder Maskintyp Reparationstid 1,0 A 10,0 B 10,0 A 0 4,0 B 0,7 A 30 5,0 B 30 4,1 A 40 8,0 B 44 1, A 9,4 B 9,5 A 5 5,1 B 5 1,9 A 19 3,5 B 0 5,0 A 41 7,0 B 4,1 A 4,0 B 0 1,1 A 1,1 B 13 Läs in värdena från tabell 1 i din MINITABfil eller hämta datamaterialet genom att gå till kursens Fronterrum och mappen Arkiv/Laborationer/Lab3. Filen heter REPTID.MTW. 1
Laboration 3 i matematisk statistik 014-1-09 a) Använd MINITAB-kommandot Stat/Regression/Fitted Line Plot och gör en enkel linjär regression med reparationstiden som beroende (eng: response) variabel och ålder som förklarande (eng: predictor) variabel. Se till att både 95% konfidensintervall för den förväntade reparationstiden och 95% prognosintervall reparationstiden kommer med i diagrammet. Använd sedan MINITAB-kommandot Stat/Regression/Regression för att ta fram ytterligare detaljerad information om regressionsanalysen. Ange fullständigt modellantagande och dessutom den skattade regressionslinjen, residualspridningen samt förklaringsgraden. Kan de två skattade regressionskoeffienterna b 0 och b 1 ges för sammanhanget meningsfulla tolkningar? (Se s. 4 i Regressionshäftet för tolkningar av b 0 och b 1. ) Om så är fallet, ge sådana tolkningar. Om det inte går, så motivera då detta. Kan man visa att åldern har en signifikant effekt på reparationstiden? Utgå från den analys som har gjorts med hjälp av MINITAB-kommandot Stat/Regression/Regression och besvara följande fråga med hjälp av ett lämpligt test på 5% signifikansnivå. I redogörelsen ska hypoteser, testvariabel och beslutsregel framgå tydligt. b) Utgå från modellen i a). Ange, i form av ett 95% konfidensintervall hur mycket reparationstiden ändras i genomsnitt om åldern ökar med 1 år. Tolka resultatet i ord. För att få konfidensintervallet krävs viss handräkning utgående från MINITABresultatet i a). c) Använd MINITABkommandot Stat/Regression/Predict för att beräkna både ett 95% konfidensintervall för den förväntade reparationstiden och 95% prognosintervall för reparationstiden i det fall ålder är 3.0 år. Tolka intervallen i ord. d) Gör en residualplott av residualerna mot ålder. Plotta även residualerna i ett normalfördelningsdiagram. Kommentera plotterna. Verkar modellantagandet rimligt? Hur skulle modellen kunna förbättras? Uppgift I tabell nedan finns värden som beskriver hållfasthet hos asfaltbeläggning. I ett laboratorieförsök ville man undersöka hur olika egenskaper hos asfaltbeläggning påverkar beläggningens hållfasthet. Totalt studerades olika egenskaper hos asfalten som kunde användas som tänkbara förklarande variabler. Vi ska här titta på en av dessa och återkommer till de övriga i laboration 4. Som mått på hållfastheten använde man förändringen i spårdjup, mätt i inches per en miljon passerade däck. Försöket gjordes i USA, därav enheten inches. Den förklarande variabel vi ska studera här är viskositeten hos asfalten. Vi söker här en modell för att beskriva hur förändringen i spårdjup beror av viskositeten. Läs in värdena från tabell i din MINITABfil eller hämta datamaterialet genom att gå till kursens Fronterrum och mappen Arkiv/Laborationer/Lab3. Filen heter ASFALT.MTW
Laboration 3 i matematisk statistik 014-1-09 Tabell. Förändringen i spårdjup, mätt i inches per en miljon passerade däck, samt viskositeten hos asfalten (mätt i lämplig enhet). Värdena kommer från ett laboratorieförsök. Observa- Förändring Viskositet Observa- Förändring i Viskositet tion i spårdjup tion spårdjup 1,75,80 17 0,7 88,00 13,00 1,40 18 1,35,00 3 14,75 1,40 19 1,44 50,00 4 1,0 3,30 0 1,0 58,00 5 8,5 1,70 1 1,10 90,00 10,7,90 0,85,00 7 7,8 3,70 3 1,0 140,00 8 1,7 1,70 4 0,5 40,00 9 1,58 0,9 5 0,7 40,00 10 0, 0,8 0,47 500,00 11 3,58,00 7 0,33 180,00 1 7,00 4,30 8 0, 70,00 13,0 0,0 9 0,7 170,00 14 11,7 1,80 30 0,80 98,00 15 7,7,00 31,00 35,00 1 1,5 4,40 a) Använd MINITAB-kommandot Stat/Regression/Regression och gör en enkel linjär regression där förändringen i spårdjup ska förklaras av viskositeten. Ange fullständigt modellantagande. Vad blir den skattade regressionslinjen, residualspridningen samt förklaringsgraden? Kan man avgöra om regressionsmodellen är en bra modell utifrån dessa storheter (dvs regressionslinjen, residualspridningen samt förklaringsgraden)? Om ditt svar är ja: På vilket sätt? Om ditt svar är nej: Varför inte? b) Använd MINITABkommandot Stat/Regression/Fitted Line Plot för att göra en plott av den skattade regressionslinjen tillsammans med observationsvärdena men utan konfidensintervall och prognosintervall. Gör samtidigt en residualplott av de standardiserade residualerna mot viskositeten. Verkar modellantagandet rimligt? Om inte vad i modellantagandet är fel? Hur påverkar detta ditt svar på deluppgift a)? Uppgift 3 Plotterna i uppgift b) antyder att man bör pröva med något annat än viskositeten som förklarande variabel i sin modell. När man tittar på viskositetvärdena så ser man att de varierar från värden mindre än 1 upp till värden kring 500. När kvoten mellan största och minsta värdet är så stor så brukar det vara värt att pröva och transformera sin variabel, dvs ändra skalan. En vanlig transformation som man kan pröva är logaritmen, dvs använda log-skala. Pröva detta genom att använda logaritmen av viskositeten som ny förklarande variabel. Välj själv om du vill använda e-logaritmen eller 10-logaritmen. a) Ange fullständigt modellantagande. Använd sedan MINITABkommandot Stat/Regression/Regression och gör en enkel linjär regression med förändringen i spårdjup som beroende variabel och logaritmen av viskositeten som förklarande variabel. Vad blir nu den skattade regressionslinjen, residualspridningen samt förklaringsgraden för den förklarande variabeln? Hur har dessa storheter förändrats jämfört med den skattade modellen i uppgift a)? 3
Laboration 3 i matematisk statistik 014-1-09 b) Använd MINITABkommandot Stat/Regression/Fitted Line Plot för att göra en plott av den skattade regressionslinjen tillsammans med observationsvärdena men utan konfidensintervall och prognosintervall. Gör samtidigt en residualplott av de standardiserade residualerna mot viskositeten. Ser du något mönster? Vilken förändring har skett jämfört med resultatet i uppgift b)? Verkar modellantagandet rimligt? Om inte vad i modellantagandet är fel? Uppgift 4 Resultatet i uppgift 3 b) antyder att man kan försöka att förbättra modellen något genom att pröva ytterligare transformationer. Eftersom även värdena som mäter förändringen i spårdjup varierar kraftigt så kan det vara värt att pröva att logaritmera även dessa. Använd samma logaritmfunktion som i uppgift 3. a) Ange fullständigt modellantagande. Använd sedan MINITABkommandot Stat/Regression/Regression och gör en enkel linjär regression med logaritmen av förändringen i spårdjup som beroende variabel och logaritmen av viskositeten som förklarande variabel. Vad blir nu den skattade regressionslinjen samt förklaringsgraden för den förklarande variabeln? Hur har dessa storheter förändrats jämfört med den skattade modellen i uppgift 3 a)? Observera att när man jämför den skattade modellen här med den i uppgift 3b) så kan man inte jämföra residualspridningarna eftersom den beroende variabeln är uttryckt i olika skalor i de två fallen. Däremot är förklaringsgraden dimensionslös och kan jämföras. b) Använd MINITABkommandot Stat/Regression/Fitted Line Plot för att göra en plott av den skattade regressionslinjen tillsammans med observationsvärdena men utan konfidensintervall och prognosintervall. Gör också en residualplott av residualerna mot viskositeten. Ser du något mönster? Vilken förändring har skett jämfört med resultatet i uppgift 3 b)? Verkar modellantagandet rimligt? Om inte vad i modellantagandet är fel? c) Vilken av de tre studerade modellerna för att beskriva hur förändringen i spårdjup beror av viskositeten föreslår du? Motivera ditt svar ordentligt. Redovisningen Redogörelsen för denna laboration ska göras mer utförlig än den för laboration 1 och. Laborationsredogörelsen för den första delen ska detaljgranskas av en annan laborationsgrupp på det schemalagda passet för KGB-3. Laborationsredogörelsen för hela laborationen lämnas in senast onsdag den 14 januari 015. Läs gärna igenom instruktionen för kamratgruppsbedömningen innan du skriver rapporten. Tänk på att vid redovisningen göra en snygg, överskådlig och läslig redogörelse. En slarvigt gjord redogörelse får göras om. definiera alla införda beteckningar i uppgifterna. ange fullständiga modellantaganden för varje regressionsanalys. 4
Laboration 3 i matematisk statistik 014-1-09 Andra delen: Multipel regressionsanalys Uppgift 1 Betrakta återigen underhållsingenjören som ville beskriva reparationstiden beroende på ålder (se Uppgift 1 på den första delen ovan). Du kommer nu att studera ålderns effekt på reparationstiden då hänsyn tas till maskintypen. a) Bilda en dummyvariabel för maskintypen i samband med inläsning av data. Ange tydligt hur dummyvariabeln är definierad. Genomför en multipel linjär regressionsanalys med både ålder och maskintyp som förklarande variabler. Ange fullständigt modellantagande och dessutom den skattade regressionsmodellen, residualspridningen samt förklaringsgraden. Vilken effekt på reparationstiden har åldern för en fix maskintyp? Vilken effekt på reparationstiden har maskintypen för en fix ålder? Besvara frågorna utgående från den skattade modellen genom att beräkna och i ord tolka två lämpliga 95% konfidensintervall. b) Gör samtliga residualplotter som ska göras och kommentera varje residualplott. Se avsnitt 10 i Regressionskompendiet vilka fyra plotter som avses. Vilka slutsatser drar du om modellen? Motivera utförligt ditt svar. c) Kan man påvisa att effekten av ålder på reparationstiden beror på maskintypen? För att kunna besvara den frågan så ska produkten av ålder och maskintyp införas som ny förklarande variabel i modellen, d v s en samspelsterm ska läggas till modellen i a). Ange fullständigt modellantagande samt den skattade regressionsmodellen. Beskriv för vardera maskintypen hur reparationstiden beror på åldern. Besvara frågan ovan genom att genomföra ett lämpligt test på 10% signifikansnivå. Hypoteser, testvariabel, beslutsregel och slutsats skall tydligt framgå för testet. Observera att det är endast ett test som ska göras. Uppgift I uppgifter -4 i första delen beskrevs hur man i ett laboratorieförsök undersökte hur olika egenskaper hos asfaltbeläggning påverkar beläggningens hållfasthet. Som mått på hållfastheten använde man förändringen, Y, i spårdjup, mätt i inches, efter att en miljon däck passerat. Där studerades endast viskositeten, eller logaritmen av den, hos asfalten som förklarande variabel. Förutom viskositeten, X 1, misstänker man att nedanstående variabler X till X kan påverka förändringen i spårdjup. Experimentet genomfördes vid två olika tidsperioder, som kallas för 1 och. För att skilja mellan dessa tidsperioder har även en dummyvariabel införts. X1 viskositet (mätt i lämplig enhet) X andel asfalt, i procent, i ytskiktet, X andel asfalt, i procent, i basskiktet, 3 5
Laboration 3 i matematisk statistik 014-1-09 X 4 andel finkornigt material, i procent, i ytskiktet, X andel porer, i procent, i ytskiktet, 5 X en dummy-variabel som antar värdet 0 vid tidsperiod 1 och värdet 1 vid tidsperiod. I tabell på sidan 4 ges värden på samtliga variabler, inklusive de som redan givits i laboration 3. Du kan hämta datamaterialet genom att gå till kursens Fronterrum och mappen Arkiv/Laborationer/Lab3. Filen heter ASFALT_STOR.MTW. I denna uppgift ska du undersöka om den skattade modellen från laboration 3 kan förbättras om man lägger till variabeln X andel asfalt i ytskiktet. Betrakta fortsättningsvis logaritmen av förändringen i spårdjup som beroende variabel. Använd dessutom logaritmen av viskositeten som förklarande variabel, istället för variabeln viskositet. a) Du skall nu genomföra en multipel linjär regressionsanalys då andel asfalt i ytskiktet tas med tillsammans med logaritmen av viskositeten som förklarande variabler. Ange fullständigt modellantagande och dessutom den skattade regressionsmodellen, residualspridningen samt förklaringsgraden. Kan man utgående från den skattade modellen påvisa att modellen från laboration 3 har förbättrats genom att den utvidgats med den nya variabeln? Besvara frågan genom att jämföra lämpliga storheter, samt med hjälp av ett lämpligt test på 5% signifikansnivå. Hypoteser, testvariabel, beslutsregel och slutsats för testet skall tydligt framgå. b) Beräkna både ett 95% konfidensintervall för det förväntade värdet hos logaritmen av förändringen i spårdjup och ett 95% prognosintervall för logaritmen av förändringen i spårdjup i det fall att viskositeten är 00 och andel asfalt i ytskiktet är 5%. (Observera att det är den icke-logaritmerade viskositeten som är 00. I modellen som studeras i denna uppgift är det den logaritmerade viskositeten som är förklarande variabel.) Transformera sedan intervallen så att de kan tolkas som förändring i spårdjup i enheten inches och tolka de två intervallen i ord. Uppgift 3 Här ska du fortsätta och arbeta med att försöka förbättra den skattade modellen från Uppgift. Fortsätt att betrakta logaritmen av förändringen i spårdjup som beroende variabel och att använda logaritmen av viskositeten som förklarande variabel istället för variabeln viskositet. a) Genomför en multipel linjär regressionsanalys med de sex variablerna logaritmen av X 1 samt X till X som förklarande variabler. Observera att variablerna X till X inte skall logaritmeras. Bör samtliga variabler ingå i modellen eller kan någon eller några uteslutas? Motivera tydligt ditt svar. b) Om någon eller några förklarande variabler kan uteslutas från modellen i a), så gör detta genom att ta bort en variabel i taget till dess att alla i modellen ingående variabler har signifikant betydelse. Använd 1% signifikansnivå. Redovisa den skattade modellen du kommer fram till, tillsammans med 99% konfidensintervall för var och en av regressionskoefficienterna för de förklarande variabler som ingår i modellen.
Laboration 3 i matematisk statistik 014-1-09 c) Ange fullständigt modellantagande för modellen du kom fram till i b) och genomför en fullständig residualanalys. Kommentera varje residualplott. Finns det anledning att vara misstänksam mot något i modellantagandet? I så fall vad? d) Jämför den modell du har kommit fram till i b) med modellen i uppgift. Har modellen förbättrats? Motivera tydligt ditt svar. Redovisningen Redogörelsen för denna laboration ska göras mer utförlig än den för laboration 1 och. Laborationsredogörelsen för den första delen ska detaljgranskas av en annan laborationsgrupp på det schemalagda passet för KGB-3. Laborationsredogörelsen för hela laborationen lämnas in senast onsdag den 14 januari 015. Tänk på att vid redovisningen göra en snygg, överskådlig och läslig redogörelse. En slarvigt gjord redogörelse får göras om. definiera alla införda beteckningar i uppgifterna. ange fullständiga modellantaganden för varje regressionsanalys. 7