tentaplugg.nu av studenter för studenter

Relevanta dokument
tentaplugg.nu av studenter för studenter

TVM-Matematik Adam Jonsson

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys

Matematisk statistik, Föreläsning 5

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F3

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Tentamen i Matematisk statistik Kurskod S0001M

Metod och teori. Statistik för naturvetare Umeå universitet

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I STATISTIK B,

10.1 Enkel linjär regression

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Läs noggrant informationen nedan innan du börjar skriva tentamen

Exempel 1 på multipelregression

Föreläsning G60 Statistiska metoder

Skrivning i ekonometri torsdagen den 8 februari 2007

Exempel 1 på multipelregression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri lördagen den 25 augusti 2007

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F5

Regressions- och Tidsserieanalys - F1

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Regressions- och Tidsserieanalys - F1

Examinationsuppgifter del 2

Skrivning i ekonometri lördagen den 29 mars 2008

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Kompletterande kursmaterial till kursen Matematisk statistik.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri lördagen den 15 januari 2005

Läs noggrant informationen nedan innan du börjar skriva tentamen

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F3

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Multipel Regressionsmodellen

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Linjär regressionsanalys. Wieland Wermke

tentaplugg.nu av studenter för studenter

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 4. Kap 5,1-5,3

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Tentamen i Matematisk statistik Kurskod S0001M

Läs noggrant informationen nedan innan du börjar skriva tentamen

Transkript:

tentaplugg.nu av studenter för studenter Kurskod Kursnamn SM Matematisk statistik Datum LP - Material Laboration 4 Kursexaminator Adam Betygsgränser Tentamenspoäng Övrig kommentar

Försättsblad inlämningsuppgift / Cover sheet for assignments Laboration 4 Personnr Efternamn Förnamn Användarnamn Personal ID no. Family name First name e-mail address Kurskod/ SM Kursnamn/ Matematisk statistik Datum/ --4 Lärarens anteckningar/teacher s notes: Betyg/ Grade: Lärarens kommentarer/ Teacher s comments: Datum/ Date: Lärarens sign/ Teacher s sign:

Inledning Det här är en rapport som löser ett antal uppgifter i multipel regressionsanalys. Till hjälp har statistikprogrammet MiniTab använts, samt Vännman, K. Kompendium i regressionsanalys och Handledning för MiniTab. Syftet med rapporten är, förutom att ge träning i problemlösning, att ge träning tillämpning av standardprogramvara i statistik, samt att praktiskt tillämpa de kunskaper som givits vid det antalet föreläsningar inom regressionsanalys under kursen.

Innehållsförteckning Uppgift... a) Dummyvariabel för maskintyp... b) Residualplottsanalys för uppgiften i a)... C) Se sidan 4 I föreläsningen för hypoteser.... 4 Uppgift... 5 a) Ytskikt och logaritmen av viskositeten som förklarande variabler... 5 Utan asfalt... 5 Med asfalt... 5 b) Konfidensintervall... 5 c) Inflytelserika punkter... 6 Uppgift 3... 8 a) Multipel regressionsanalys av x samt x till x6 som förklarande variabler... 8 b) Vilka variabler går att utesluta?... 8 c) Modellantagande och residualplott för b)... 9 d) Jämför den nya modellen med den gamla förbättringar?...

Uppgift a) Dummyvariabel för maskintyp I uppgiften är förutom en definition av bakgrunden till dummyvariabel även modellantagande, skattad regressionsmodell, residualspridning samt förklaringsgrad med. Dummyvariabel gäller Modellantagandet ges av y = β + β x + β x Konfidensintervallet ges av β ± t (n k) sb samt β ± t (n k) sb där β, β och sb, sb ges av koefficienterna Coef och SE Coef i tabell. nedan som fåtts av regressionsanalysen. För vår data gäller att n= och k=3, vilket ger intervallen [-6.993, -8.9757] och [5.756, 7.668734]. För en fix ålder gäller Regression Analysis: Reparationstid versus Ålder; Dummy The regression equation is Reparationstid = 6,96 + 6,7 Ålder -,6 Dummy Constant 6,964,49 4,67, Ålder 6,73,4544 4,77, Dummy -,585,73-7,35, S = 3,7678 R-Sq = 9,8% R-Sq(adj) = 9,9% Tabell. regressionsanalys med dummyvariabel

b) Residualplottsanalys för uppgiften i a) Residualplottsanalys med 4 residualplotter. 99 Normal Probability Plot (response is Reparationstid) Percent 95 9 8 7 6 5 4 3 5-3 - - Standardized Residual 3 Figur. normalplott för standardiserat residual Residuals Versus Dummy (response is Reparationstid) Standardized Residual - -,,,4 Dummy,6,8, Figur. residualplott mot dummyvariabel

Versus Fits (response is Reparationstid) Standardized Residual - - 3 Fitted Value 4 5 Figur.3 standardiserad residual Residuals Versus Ålder (response is Reparationstid) Standardized Residual - - 3 4 Ålder 5 6 7 8 Figur.4 standardiserad residual mot ålder 3

C) Se sidan 4 I föreläsningen för hypoteser. Modellantagande: Hypoteser: Constant,668,79,49,55 Ålder 8,534,675,7, Dummy -5,,79 -,84,84 Produkt -,587,7996-3,3,5 Tabell. - P-värdet skall jämföras med.5, vilket innebär att produkten kan tas med in i modellen. Skattad regressionsmodell Allmänn formel: Reperationstid =,67 + 8,53 Ålder - 5, Dummy -,58 Produkt Maskintyp A Reparationstid =,67 + 8,53 Ålder Maskintyp B Reparationstid = -,34 + 8,53 Ålder -,58 Produkt 4

Uppgift a) Ytskikt och logaritmen av viskositeten som förklarande variabler Nedan en multipel regressionsanalys då andel asfalt i ytskiktet tas med tillsammans med logaritmen av viskositeten, samt modellantagande, skattad regressionsmodell, residualspridning och förklaringsgrad. Modellantagande: Utan asfalt The regression equation is ln_spår =,8 -,65 ln_visk Constant,8475,9673 9,, ln_visk -,6469,79 -,38, S =,33688 R-Sq = 94,5% R-Sq(adj) = 94,3% Tabell. regressionsanalys utan asfalt Med asfalt The regression equation is ln_spår = -,3 -,6 ln_visk +,633 Asfalt_ytskikt Constant -,96,77 -,3,89 ln_visk -,6,583-4,5, Asfalt_ytskikt,6335,586,45, S =,375 R-Sq = 95,5% R-Sq(adj) = 95,% Tabell. regressionsanalys med asfalt Hypotes: Slutsats: Ja, det har förbättrats. Asfalten är med 5% signifikansnivå skilt från noll, samt den justerade förklaringsgraden har ökat. b) Konfidensintervall Här ett 95% konfidensintervall för det förväntade värdet hos logratimen av förändringen i spårdjup och ett 95% prognosintervall för logaritmen av förändringen i spårdjup i det fall viskositeten är och andel asfalt i ytskiktet är 5%. 5

Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI -,337 5,964 (-3,77; -,893) (-3,79; -,8743)XX XX denotes a point that is an extreme outlier in the predictors. Values of Predictors for New Observations New Obs ln_visk Asfalt_ytskikt 5, Tabell. - c) Inflytelserika punkter Beräkning av inflytelserika punkter genom DFITS och Leverage-punkter. Referenslinjen har satts in genom ekvationen ges ges för detta i regressionsanalys-häftet. Boxplot of HI,,935, HI, -, -, -,935 Figur. leveragevärden Av lådadiagrammet i figur. för leveragevärdena framgår att det finns två inflytelserika punkter som ligger utanför den övre referenslinjen. Dessa hör till rad 5 respektive 3, så det kan vara en god idé att undersöka dessa närmare och vad orsaken till avvikelsen kan vara. 6

, Boxplot of DFIT,5,6 DFIT, -,5 -,6 Figur. DFIT-värden Av figur. framgår att det finns tre inflytelserika punkter; rad 5, 7 och 8. Likt leveragepunkterna är dessa tre punkter som bör undersökas närmare. 7

Uppgift 3 a) Multipel regressionsanalys av x samt x till x 6 som förklarande variabler Här motiveras om samtliga variabler bör ingå i modellen eller om några kan utesluta Modellantagandet ges av y = β + β x + β x + β 3 x 3 + β 4 x 4 + β 5 x 5 + β 6 x 6, och regressionsanalysen med respektive variabler ses i tabell 3. nedan. The regression equation is ln_spår = - 5,78 -,53 ln_visk +,5 Asfalt_ytskikt +,37 Porer +,434 Finkornighet +,33 Asfalt_basskikt -,69 Tidsperiod Constant -5,78,459 -,35,7 ln_visk -,5333,736-7,3, Asfalt_ytskikt,469,656 4,3, Porer,366,3,87,8 Finkornighet,4343,788,55,587 Asfalt_basskikt,38,365,7,483 Tidsperiod -,689,944 -,,46 S =,64 R-Sq = 97,% R-Sq(adj) = 96,5% Tabell 3. regressionsanalys för alla variabler Ovan ser vi att P-värdet för finkornighet, asfalt och tidsperiod är förhållandevis högt och vi bör kunna misstänka att dessa inte ska tas med i modellen. Detta beror på vårt signifikansnivåantagande, vilket kommer att användas i uppgift b). b) Vilka variabler går att utesluta? Variabler plockas bort till dess att en bra modell hittas. För modellen upprättas ett 99% konfidensintervall I jämförelse med % signifikansnivå är P-värdet för finkornighet i tabell 3. för högt; vi väljer därför att plocka bort det. Den nya regressionsanalysen utan finkornighet ges i tabell 3. nedan. The regression equation is ln_spår = - 5,9 -,5 ln_visk +,6 Asfalt_ytskikt +,335 Porer +,98 Asfalt_basskikt -,65 Tidsperiod Constant -5,897,46 -,44, ln_visk -,597,735-7,4, Asfalt_ytskikt,568,6 4,43, Porer,3353,35 3,4,3 Asfalt_basskikt,978,3,99,33 Tidsperiod -,647,89 -,9,47 S =,56758 R-Sq = 97,% R-Sq(adj) = 96,6% Tabell 3. finkornighet bortplockad I jämförelse med % signifikansnivå är P-värdet för basskikt i tabell 3. för högt; vi väljer därför att plocka bort det likt vi gjorde med finkornigheten. Den nya regressionsanalysen ges i tabell 3.3. 8

The regression equation is ln_spår = - 4, -,547 ln_visk +,7 Asfalt_ytskikt +,33 Porer -,5 Tidsperiod Constant -4,,49 -,69, ln_visk -,54747,6547-8,36, Asfalt_ytskikt,76,463 4,35, Porer,339,34 3,,4 Tidsperiod -,5,735 -,87,73 S =,5668 R-Sq = 97,% R-Sq(adj) = 96,6% Tabell 3.3 basskikt bortplockad Sist men inte minst är det kvar att plocka bort variabeln för tidsperiod, då även detta P-värde är för högt i jämförelse med % signifikansnivå. Detta blir även den modell som vi väljer att använda, och dess ekvation ges i tabell 3.4 nedan. The regression equation is ln_spår = - 3,6 -,66 ln_visk +,997 Asfalt_ytskikt +,337 Porer Constant -3,66,54 -,34,7 ln_visk -,6687,59-5,49, Asfalt_ytskikt,997,54 3,9, Porer,3367,8 3,,4 S =,6835 R-Sq = 96,7% R-Sq(adj) = 96,3% Tabell 3.4 tidsperiod bortplockad, vald modell Ett 99% konfidensintervall upprättas i enlighet med som det gjordes i uppgift och med hjälp av koefficienterna från tabell 3.4, som för respektive variabel (ln_visk, asfalt_ytskikt och porer) beräknas till: [-.73, -.59], [.9,.7 ] och [.37,.636 ]. c) Modellantagande och residualplott för b) Här presenteras residualplottar med kommentarer, samt modellantagande. Finns det något att vara misstänksam emot? Fullständigt modellantagande från resultatet i uppgift b ges av ln(spår) = β + β x + β x + β 3 x 3 + x 4 + x 5 + x 6. Förklaringsgraden för den valda modellen är hög, spridningen låg samt P-värdena (förutom konstanten) är mindre än., vilket är bra då jämförelsen sker mot % signifikansnivå. På nästa sida ges residualplottarna. 9

Normal Probability Plot (response is ln_spår) 99 95 9 8 7 Percent 6 5 4 3 5-3 - - Standardized Residual 3 Figur 3. residualplott normal Versus Fits (response is ln_spår) Standardized Residual - - - Fitted Value 3 Figur 3. - Som kan ses i figur X och X, X3 och X4 är residualplottarna inte optimala. I figur X ligger tre värden nära värdet för, vilket kan vara i behov av en vidare utvärdering för eventuella uteliggare.

d) Jämför den nya modellen med den gamla förbättringar? Modellen i uppgift b) ska jämföras med modellen i uppgift. Vi väljer att jämföra med asfalts-modellen. I jämförelse med modellen i uppgift anser vi att den senare modellen är mer lämplig att använda. Anledningen är att förklaringsgraden är högre, men att även residualplottarna ges av ett mer jämntjockt moln. Dessutom kan vi i jämförelse med P-värde och signifikansnivå vara mer säker på att variablerna ska vara med i den senare modellen, för % signifikansnivå, men i den första modellen endast %.