tentaplugg.nu av studenter för studenter Kurskod Kursnamn SM Matematisk statistik Datum LP - Material Laboration Kursexaminator Adam Betygsgränser Tentamenspoäng Övrig kommentar
Försättsblad inlämningsuppgift / Cover sheet for assignments Laboration Personnr Efternamn Förnamn Användarnamn Personal ID no. Family name First name e-mail address Kurskod/ SM Course Code: Kursnamn/ Matematisk statistik Datum/ -- Lärarens anteckningar/teacher s notes: Betyg/ Grade: Lärarens kommentarer/ Teacher s comments: Datum/ Date: Lärarens sign/ Teacher s sign:
Inledning Det här är en rapport som löser ett antal uppgifter i enkel regressionsanalys. Till hjälp har statistikprogrammet MiniTab använts, samt Vännman, K. Kompendium i regressionsanalys och Handledning för MiniTab. Syftet med rapporten är, förutom att ge träning i problemlösning, att ge träning tillämpning av standardprogramvara i statistik, samt att praktiskt tillämpa de kunskaper som givits vid det antalet föreläsningar inom regressionsanalys under kursen.
Innehållsförteckning Uppgift... a) Renhet hos syre... b) Ändring hos syre i genomsnitt då andelen kolväte ökar... c) Konfidensintervall för den förväntade renheten hos syre... d) Residualplott mot andelen kolväte... Uppgift... 4 a) Förändringen i spårdjup mot viskositet... 4 b) Skattad regressionslinje tillsammans med observationsvärdena... 5 Uppgift... 6 a) Förändringen i spårdjup med logaritmen av viskositeten... 6 b) Förändringen i spårdjup mot logaritmerad viskositet... 6 Uppgift 4... 8 a) Logaritmen av både spårdjup och viskositet... 8 b) Residualplott av residualerna mot viskositeten... 8 c) Vilket modellantagande?... 9
Uppgift a) Renhet hos syre Linjär regression där syre är beroende variabel och andelen kolväte förklrande. För uppgiften används 95% konfidensintervall för den förväntande renheten hos syre. Även modellantagande anges. Modellantagande: y = β + β x + ε i där i=,,, Där y är renheten hos syre, x är andelen kolväte, β och β är konstanter samt ε i är felmarginalen fördelad enligt: ε i N(, σ). På intervallet [.87,.55] gäller att renligheten syre = 74, + 4,9x (andel kolväte) enligt figur. nedan. Ur samma figur kan också utläsas att S =,865 R-Sq = 87,7% Fitted Line Plot Renhet hos syre = 74,8 + 4,95 Andel kolväte Renhet hos syre, 97,5 95, 9,5 9, 87,5 Regression 95% CI 95% PI S,865 R-Sq 87,7% R-Sq(adj) 87,% 85,,8,9,,,, Andel kolväte,4,5,6 Figur. fitted line plot över renheten hos syre och andel kolväte Tabell. regressionsdata från Minitab I tabell. ovan ses de regressionsdata som fåtts ur Minitab, vilka används nedan för att bestämma antagandet.
Låt H : μ =, H : μ =.5. H förkastas om t >.9. I tabell. kan ses att T för andelen kolväte är.5 viket betyder att H förkastas. Då kan man med 5 % signifikansnivå påstå att kolväte har en signifikant effekt på renheten hos syre. b) Ändring hos syre i genomsnitt då andelen kolväte ökar Här beräknas hur mycket renheten hos syre ändras i genomsnitt om andelen kolväte ökar med procent. Intervallet blir [.7, 7.7] d.v.s. när andelen kolväte ökar med en procentenhet så ökar renligheten hos syret med.7 till 7.7. c) Konfidensintervall för den förväntade renheten hos syre Beräkning ett 95% konfidensintervall för den förväntade renheten hos syre och 95% prognosintervall för renheten hos syre i det fall andelen kolväte är.%. Resultatet beräknas av Minitab och kan ses i figur. samt tabell. nedan. 99 Normal Probability Plot (response is Renhet hos syre) 95 9 94,6 9,7 9,7 89,9 8 7 Percent 6 5 4 5 - - - Standardized Residual Figur.. referenslinjer för intervall Tabell. konfidensintervall samt förväntat intervall K. Vännman sid. för,5 och N= Detta beräknas precis som i tidigare laborationer enligt: b ± s b t,5 ( )
d) Residualplott mot andelen kolväte En residualplott av residualerna mot andelen kolväte. Plottat är också residualerna i ett normalfördelningsdiagram. Nedan i figur. visas en residualplott mot andelen kolväten. Rent spontant känns plotten bra, eftersom att figuren visar ett jämntjockt moln av data. Ett värde ligger utanför intervallet [-,] (ovanför ) vilket kan vara en eventuell uteliggare vilket bör undersökas närmare. Residuals Versus Andel kolväte (response is Renhet hos syre) Standardized Residual - -,8,9,,,, Andel kolväte,4,5,6 Figur. standardiserad residualplott mot andelen kolväte Även en normalplott har upprättats vilket kan ses i figur.4. Datan ligger ganska bra relativt linjen, vilket kunde förväntas då residualplotten gav ett Ok resultat. 99 Normal Probability Plot (response is Renhet hos syre) Percent 95 9 8 7 6 5 4 5 - - - Standardized Residual Figur.4. residualerna plottade i ett normalfördelningsdiagram
Uppgift a) Förändringen i spårdjup mot viskositet En enkel linjär regression där förändringen i spårdjup förklaras av viskositeten. Eftersökt är skattad regressionslinje, residualspridning samt förklaringsgrad. Dessutom; kan man visa att viskositetsvariabeln har en påvisbar effekt på förändringen i spårdjup på % signifikansnivå? Även modellantagande anges. Modellantagande: y = β + β x + i där i=,,, Där y är förändringen, x är viskositeten, β och β är konstanter samt ε i är felmarginalen fördelad enligt: ε i N(, σ). Plotten för förändringen i spårdjup, förklarandes av viskositet ses nedan i figur.. Fitted Line Plot Förändring = 8,98 -,99 Viskositet S 5,698 R-Sq,% R-Sq(adj) 8,7% Förändring - Viskositet 4 5 Figur. fitted line plot över förändring i spårdjup Ur figur. kan utläsas att spridningen ges av S = 5,7 och förklaringsgraden av R-Sq =,%. I tabell. nedan är den data som ges av Minitab vilka används för antagandet på nästa sida. Förändring = 8,9 -,99 Viskositet Predictor Coef SE Coef T P Constant 8,98, 7,, Viskositet -,9898,864 -,6, S = 5,698 R-Sq =,% R-Sq(adj) = 8,7% Tabell. data för förändring i spårdjup 4
Låt H : μ =, H : μ. H förkastas om t >.75. I tabellen ses att T =.6, vilket betyder att H förkastas. Då kan man med % signifikansnivå påstå att viskositeten har en påvisbar effekt i förändringen på spårdjupet och att den skall vara med i modellantagandet. Däremot är förklaringsgraden låg och spridningen hög, ett annat modellantagande kanske bör övervägas. b) Skattad regressionslinje tillsammans med observationsvärdena Här görs en plott av den skattade regrissionslinjen tillsammans med obeservationsvärdena, samt en residualplott av de standardiserade residualerna mot viskositeten. Den skattade regrissionslinjen ges nedan av figur. och residualplotten av figur.. Fitted Line Plot Förändring = 8,98 -,99 Viskositet S 5,698 R-Sq,% R-Sq(adj) 8,7% Förändring - Viskositet 4 5 Figur. skattad regrissionslinje 4 Residuals Versus Viskositet (response is Viskositet) Standardized Residual - Viskositet 4 5 Figur. residualplott mot viskositet K. Vännman sid. 5
Ett tydligt samband mellan graferna kan ses. Residualplotten i figur. tyder på att modellantagandet är fel. Förmodligen beror viskositeten på någon form av invers eller logaritmisk funktion av spårdjupet. Uppgift a) Förändringen i spårdjup med logaritmen av viskositeten Förändringen i spårdjup är den beroende variabeln, och logaritmen (ln) av viskositeten är den förklarande variabeln. Eftersökt är regressionslinje, residualspridning, förklaringsgrad samt t-kvot. Även modellantagande anges. Modellantagande: y = β + β ln (x) + i där i=,,, Där y är förändringen, x är Viskositeten, β och β är konstanter samt ε i är felmarginalen fördelad enligt: ε i N(, σ). De nya värdena ges av tabell. nedan. The regression equation is Förändring = 4, -,74 ln(visk) Predictor Coef SE Coef T P Constant,987,95 5,, ln(visk) -,744,688 -,, S =,58 R-Sq = 78,% R-Sq(adj) = 77,5% Tabell. data med logaritmen av viskositeten Dessa ska jämföras med tabell.. Som synes har vi nu mindre spridning S =,, och mycket bättre förklaringsgrad = 78,%. T-kvoten är större än jämfört med tidigare vilket innebär att den har större inflytande över spårdjups-förändringen. b) Förändringen i spårdjup mot logaritmerad viskositet På liknande vis som i a) görs en residualplott, men med viskositeten logaritmerad. Observera graf. och. nedan. Såväl spridning som förklaringsgrad har blivit bättre än motsvarande fall då viskositeten inte var logaritmerad(graf. samt.). Modellantagandet är rimligare än tidigare. Men grafens punkter tycks fortfarande följa en böjd form, dessutom ser det ut som att grafen består av två stycken grupper av mätdata. 6
5 Fitted Line Plot Förändring =,98 -,74 ln(visk) S,58 R-Sq 78,% R-Sq(adj) 77,5% Förändring 5 5 ln(visk) 4 5 6 7 Figur. residualplott av de standardiserade residualerna mot logaritmerade viskositeten.,5 Residuals Versus Förändring (response is Förändring), 7,5 Residual 5,,5, -,5-5, 5 5 Förändring 5 Figur. residualplott mot lagaritmerad viskositet 7
Uppgift 4 a) Logaritmen av både spårdjup och viskositet Samma tillvägagångssätt fortsätter, där nu spårdjupet blir logaritmerat i hopp om ett ännu bättre resultat. Eftersökt är regrissionslinje, förklaringsgrad samt t-kvoten. Modellantagande: ln(y) = β + β ln (x) + i där i=, Där y är förändringen, x är Viskositeten, β och β är konstanter samt ε i är felmarginalen fördelad enligt: ε i N(, σ). Predictor Coef SE Coef T P Constant 4,45, 6,85, ln(för) -,57,676 -,8, S =,57784 R-Sq = 94,5% R-Sq(adj) = 94,% Tabell 4. data med logaritmen av spårdjup och viskositet Detta är ett enastående resultat! Spridningen kan ju som bekant inte jämföras då skalan för y har ändrats, men förklaringsgraden har ökat från omkring 7 % till nära 95 %; en stor skillnad. T- kvoten är även här större än jämfört med tidigare vilket återigen innebär att den har större inflytande över spårdjupsförändringen. b) Residualplott av residualerna mot viskositeten Här ska de logaritmerade kolumnerna residualplottas och jämföras med tidigare uppgift. Jämförs graferna med varandra så ser även i figur 4. nedan ut som att grupperingar uppstår, om än något mindre tydligt jämfört med figur.. Fitted Line Plot ln(för) =,85 -,647 ln(visk) S,688 R-Sq 94,5% R-Sq(adj) 94,% ln(för) - - 4 5 6 7 ln(visk) Figur 4. fitted line plot för logaritmerade värden på såväl förändring som viskositet 8
Residuals Versus ln(för) (response is ln(för)),5,5 Residual, -,5 -,5 -,75 - - ln(för) Figur 4. residualplott av residualerna mot viskositeten (logaritmerad) I figur 4. så syns till skillnad från figur. ett jämntjockt moln centrerat kring x-axlen, något som är eftersträvansvärt. Detta är i sig inte något oväntat, då förklaringsgraden i graf nu stämmer överens bättre. Enligt vår uppfattning så är detta modellantagandet rimligt. c) Vilket modellantagande? Vi anser att det tredje modellantagandet är rimligast främst eftersom att fitted line plot passar mycket bättre med detta antagande. Men även data så som förklaringsgrad samt spridning tyder på att detta modellantagande är mest rimligt. Därmed inte sagt att modellantagandet är det rimligaste, men i jämförelse med de två tidigare antagandena är detta det bästa. Vidare antyder även förklaringsgraden samt spridningen att detta modellantagande är rimligast. 9