Föreläsning 3 Kap 3.4, 3.6, 4.2. 732G71 Statistik B



Relevanta dokument
Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Kvadratisk regression, forts.

Exempel 1 på multipelregression

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F3

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F3

Laboration 2 multipel linjär regression

Föreläsning 4. Kap 5,1-5,3

TENTAMEN I STATISTIK B,

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

10.1 Enkel linjär regression

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Regressions- och Tidsserieanalys - F4

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Statistik B Regressions- och tidsserieanalys Föreläsning 1

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Tentamen Tillämpad statistik A5 (15hp)

Läs noggrant informationen nedan innan du börjar skriva tentamen

Skrivning i ekonometri lördagen den 25 augusti 2007

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F5

tentaplugg.nu av studenter för studenter

Skrivning i ekonometri lördagen den 15 januari 2005

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen Tillämpad statistik A5 (15hp)

Skrivning i ekonometri lördagen den 29 mars 2008

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Skrivning i ekonometri torsdagen den 8 februari 2007

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen Tillämpad statistik A5 (15hp)

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen Tillämpad statistik A5 (15hp)

Regressions- och Tidsserieanalys - F1

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Statistisk undersökningsmetodik (Pol. kand.)

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Linjär regressionsanalys. Wieland Wermke

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Räkneövning 3 Variansanalys

Regressions- och Tidsserieanalys - F1

Föreläsning G60 Statistiska metoder

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Metod och teori. Statistik för naturvetare Umeå universitet

Läs noggrant informationen nedan innan du börjar skriva tentamen

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Tentamen i Matematisk statistik Kurskod S0001M

8.1 General factorial experiments

Datorlaboration 2 Konfidensintervall & hypotesprövning

Tentamen i matematisk statistik

Examinationsuppgifter del 2

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Multipel Regressionsmodellen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lösningar till SPSS-övning: Analytisk statistik

Uppgift 1. Deskripitiv statistik. Lön

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

7.5 Experiment with a single factor having more than two levels

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Uppgift a b c d e f (vet ej) Poäng

Tentamen i Matematisk statistik Kurskod S0001M

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

F7 Polynomregression och Dummyvariabler

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Transkript:

Föreläsning 3 Kap 3.4, 3.6, 4.2 732G71 Statistik B

Exempel 150 slumpmässigt utvalda fastigheter till salu i USA Pris (y) Bostadsyta Tomtyta Antal rum Antal badrum 179000 3060 0.75 8 2 285000 2516 8.1 7 2.5 190000 2473 1.25 9 2.5.......... 107000 1100 0.17 5 1 (Pris i $, bostadsyta och tomtyta i kvadratfot) 2

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum The regression equation is Pris = 64221 + 49.7 Bostadsyta - 141 Antal rum Predictor Coef SE Coef T P Constant 64221 12766 5.03 0.000 Bostadsyta 49.673 7.507 6.62 0.000 Antal rum -141 2934-0.05 0.962 S = 30047.0 R-Sq = 48.6% R-Sq(adj) = 47.9% Analysis of Variance Source DF SS MS F P Regression 2 1.25273E+11 62636682991 69.38 0.000 Residual Error 147 1.32715E+11 902824574 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 3

Pris Punktdiagram av pris mot antal rum 300000 Scatterplot of Pris vs Antal rum 250000 200000 150000 100000 2 4 6 8 Antal rum 10 12 14 Priset på en fastighet kan knappast öka helt linjärt med antal rum. För många rum i en fastighet gör den ointressant för de flesta hushåll: vid en viss gräns är det troligt att ytterligare utrymme bara ses som besvär, att möblera och städa och underhålla. Rimligt är alltså att priset borde mattas av då rummen blir för många sannolikt är det denna effekt vi ser! 4

Residualer mot antal rum 5

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum; Antal rum ** 2 The regression equation is Pris = - 15812 + 49.3 Bostadsyta + 22544 Antal rum - 1529 Antal rum ** 2 Predictor Coef SE Coef T P Constant -15812 34481-0.46 0.647 Bostadsyta 49.326 7.379 6.68 0.000 Antal rum 22544 9549 2.36 0.020 Antal rum ** 2-1529.1 613.6-2.49 0.014 S = 29528.4 R-Sq = 50.7% R-Sq(adj) = 49.6% Analysis of Variance Source DF SS MS F P Regression 3 1.30688E+11 43562529136 49.96 0.000 Residual Error 146 1.27301E+11 871924595 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 Antal rum ** 2 1 5414221428 6

Residualer mot antal rum Modell med bostadsyta, antal rum och antal rum**2 7

Interaktionstermer Ibland finns det anledning att misstänka att en variabels effekt varierar mellan olika grupper. Vi kan till exempel misstänka att högre utbildning leder till ett bättre betalt jobb. Men effekten är kanske olika för kvinnor och män utbildning kanske ger ett större hopp i lönen för kvinnor än för män, eller vice versa. Vi säger då att det finns en interaktionseffekt. Kön interagerar i det här fallet med utbildning. Man kan också säga att kön modifierar effekten av utbildning på lönen. Exempel: Samspelar bostadsyta och antal rum när det gäller priset på en villa? => En rimlig hypotes är att en bostad med mycket stor yta, men endast ett rum förmodligen är mindre attraktiv än en bostad med måttligt stor yta men fler rum. Alltså kan det finnas en interaktionseffekt. 8

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Antal rum;... The regression equation is Pris = 862 + 163 Bostadsyta - 9248 Antal rum + 2161 Antal rum ** 2-14.0 Bostadsyta*Antal rum Predictor Coef SE Coef T P Constant 862 34085 0.03 0.980 Bostadsyta 162.78 39.23 4.15 0.000 Antal rum -9248 14262-0.65 0.518 Antal rum ** 2 2161 1390 1.56 0.122 Bostadsyta*Antal rum -14.002 4.759-2.94 0.004 S = 28783.4 R-Sq = 53.4% R-Sq(adj) = 52.2% Analysis of Variance Source DF SS MS F P Regression 4 1.37859E+11 34464664907 41.60 0.000 Residual Error 145 1.20130E+11 828482198 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Antal rum 1 2071358 Antal rum ** 2 1 5414221428 Bostadsyta*Antal rum 1 7171072220 9

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; Bostadsyta*Antal rum The regression equation is Pris = 42108 + 84.7 Bostadsyta - 3.07 Bostadsyta*Antal rum Predictor Coef SE Coef T P Constant 42108 12364 3.41 0.001 Bostadsyta 84.70 16.08 5.27 0.000 Bostadsyta*Antal rum -3.066 1.349-2.27 0.024 S = 29532.9 R-Sq = 50.3% R-Sq(adj) = 49.6% Analysis of Variance Source DF SS MS F P Regression 2 1.29777E+11 64888368534 74.40 0.000 Residual Error 147 1.28212E+11 872189396 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 Bostadsyta*Antal rum 1 4505442444 10

Kvalitativa variabler Kvalitativa variabler har inte numeriskt tolkningsbara värden. Därmed kan kvalitativa förklaringsvariabler ej direkt införas i modellen, utan de måste kodas om till dummyvariabler (även kallat indikatorvariabler, 0/1-variabler eller dikotoma variabler). Exempel: Hur kan variabeln kön inkluderas i en regressionsmodell? Exempel: Vi studerar en population bestående av företag, som är antingen av typen små, mellanstora eller stora. Hur kan variabeln företagsstorlek inkluderas i modellen? Exempel: För vårt fastighetsexempel önskar vi dela upp fastigheterna i två klasser: fastigheter med högst 6 rum respektive fastigheter med fler än 6 rum. 11

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; D The regression equation is Pris = 65668 + 44.2 Bostadsyta + 10544 D Predictor Coef SE Coef T P Constant 65668 8072 8.14 0.000 Bostadsyta 44.157 5.445 8.11 0.000 D 10544 7098 1.49 0.140 S = 29824.2 R-Sq = 49.3% R-Sq(adj) = 48.6% Analysis of Variance Source DF SS MS F P Regression 2 1.27234E+11 63617119693 71.52 0.000 Residual Error 147 1.30754E+11 889485299 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 D 1 1962944763 12

Pris Modell med antal rum > 6 (D = 1) eller 6 (D = 0) och bostadsyta som förklaringsvariabler 320000 270000 220000 D = 0 D = 1 170000 120000 70000 0 500 1000 1500 2000 2500 3000 3500 4000 Bostadsyta 13

Fastighetsexempel (forts) Regression Analysis: Pris versus Bostadsyta; D; Bostadsyta*D The regression equation is Pris = 49362 + 57.5 Bostadsyta + 29762 D - 14.8 Bostadsyta*D Predictor Coef SE Coef T P Constant 49362 21971 2.25 0.026 Bostadsyta 57.55 17.64 3.26 0.001 D 29762 25105 1.19 0.238 Bostadsyta*D -14.80 18.55-0.80 0.426 S = 29861.1 R-Sq = 49.5% R-Sq(adj) = 48.5% Analysis of Variance Source DF SS MS F P Regression 3 1.27802E+11 42600752588 47.78 0.000 Residual Error 146 1.30186E+11 891687127 Total 149 2.57989E+11 Source DF Seq SS Bostadsyta 1 1.25271E+11 D 1 1962944763 Bostadsyta*D 1 568018378 14

Pris Modell med antal rum > 6 (D = 1) eller 6 (D = 0) och bostadsyta samt interaktionsterm bostadsyta * D 320000 270000 220000 D = 0 D = 1 170000 120000 70000 0 500 1000 1500 2000 2500 3000 3500 4000 Bostadsyta 15

Exempel Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Enligt en studie kan kostnaden (COST) förklaras av en eller flera av följande variabler: produktionsmängden (PAPER) maskintid (MACHINE) overhead-kostnader (OVERHEAD) antal personarbetstimmar (LABOR) Month Cost (y) Paper (x 1 ) Machine (x 2 ) Overhead (x 3 ) Labor (x 4 ) 1 1102 550 218 112 325 2 1008 502 199 99 301...... 27 1388 704 281 142 429 16

17

Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR The regression equation is COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR Predictor Coef SE Coef T P Constant 51.72 21.70 2.38 0.026 PAPER 0.9479 0.1200 7.90 0.000 MACHINE 2.4710 0.4656 5.31 0.000 OVERHEAD 0.0483 0.5250 0.09 0.927 LABOR -0.05058 0.04030-1.26 0.223 S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 4 2271423 567856 4629.17 0.000 Residual Error 22 2699 123 Total 26 2274122 Source DF Seq SS PAPER 1 2255666 MACHINE 1 15561 OVERHEAD 1 3 LABOR 1 193 18

Regression Analysis: COST versus PAPER, MACHINE The regression equation is COST = 59.4 + 0.949 PAPER + 2.39 MACHINE Predictor Coef SE Coef T P Constant 59.43 19.64 3.03 0.006 PAPER 0.9489 0.1101 8.62 0.000 MACHINE 2.3864 0.2101 11.36 0.000 S = 10.98 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF SS MS F P Regression 2 2271227 1135613 9413.48 0.000 Residual Error 24 2895 121 Total 26 2274122 19

Partiellt F-test För att simultant testa om fler än en men inte alla förklaringsvariabler platsar i modellen eller ej Full (komplett) modell: Reducerad modell: Steg 1: Formulera hypoteser Steg 2: Bestäm testfunktionen ( SSER SSEC ) /( k g) F SSEC /( n k 1) SSE C = Residualkvadratsumma i den kompletta modellen (C för Complete) SSE R = Residualkvadratsumma i den reducerade modellen (R för Reduced) k = antalet förklaringsvariabler i den kompletta modellen g = antalet förklaringsvariabler i den reducerade modellen n = stickprovsstorlek y y i i x H0 : g 1... k 0 H : åtminstone en av 1,..., 1 g k 0 1 i1 i1 x 2 i2 x x... x 0 1 0 2 i2... g xig g 1 xig 1... g ig i x k ik i 20

Partiellt F-test (forts) Steg 3: Ska vi tro på H 0 eller H 1? Förkasta H 0 om F > Steg 4: Dra slutsats F k g, n k 1 Exempel: Platsar förklaringsvariablerna Overhead och Labor simultant i modellen? Alternativ formulering av testfunktionen: ( SSRC SSRR ) /( k g) F SSE /( n k 1) C SSR C = Regressionskvadratsumman för full modell SSR R = Regressionskvadratsumman för reducerad modell 21

Partiellt F-test (forts) AJÅ uttrycker formeln för det partiella F-testet annorlunda: F där 2 R UR 2 R R r 2 2 RUR RR / r 2 1 R / n k 1 UR : Förklaringsgraden i den kompletta (unrestricted) modellen : Förklaringsgraden i den reducerade modellen k g H 0 förkastas om F > F r, n k 1 F k g, n k 1 Ger förstås samma resultat! 22

Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så inte är fallet? Exempel: Föreliggande är ett datamaterial där vi önskar beskriva sambandet mellan privatägda fastigheters värde (X, i tusentals dollar) och hur mycket man årligen spenderar på fastighetsskötsel (Y, i dollar). Skötsel (Y) Värde (X) 1412.08 237 797.2 153.08...... 1090.84 1980.2 2000 1500 1000 500 0 50 Scatterplot of Skötsel (y) vs Värde (x) 100 150 200 Värde (x) 250 300 23

Residual Exempel (forts) Transformationer Regression Analysis: Skötsel (y) versus Värde (x) The regression equation is Skötsel (y) = - 348 + 7.26 Värde (x) Predictor Coef SE Coef T P Constant -348.39 76.14-4.58 0.000 Värde (x) 7.2583 0.4156 17.47 0.000 S = 146.897 R-Sq = 88.9% R-Sq(adj) = 88.6% Analysis of Variance Source DF SS MS F P Regression 1 6582759 6582759 305.06 0.000 Residual Error 38 819996 21579 Total 39 7402755 300 200 100 Residuals Versus Värde (x) (response is Skötsel (y)) 0-100 -200-300 50 100 150 Värde (x) 200 250 300 24

Residual Exempel (forts) Transformationer Regression Analysis: ln(y) versus Värde (x) The regression equation is ln(y) = 5.03 + 0.00951 Värde (x) Predictor Coef SE Coef T P Constant 5.0270 0.1098 45.80 0.000 Värde (x) 0.0095054 0.0005990 15.87 0.000 S = 0.211744 R-Sq = 86.9% R-Sq(adj) = 86.5% Analysis of Variance Source DF SS MS F P Regression 1 11.290 11.290 251.80 0.000 Residual Error 38 1.704 0.045 Total 39 12.993 0.4 0.2 Residuals Versus Värde (x) (response is ln(y)) Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 7.1182 0.0432 (7.0308; 7.2056) (6.6807; 7.5557) 0.0-0.2-0.4 Values of Predictors for New Observations New Värde Obs (x) 1 220-0.6-0.8 50 100 150 Värde (x) 200 250 300 25

Residual Exempel (forts) Transformationer Regression Analysis: y**0.5 versus Värde (x) The regression equation is y**0.5 = 7.20 + 0.127 Värde (x) Predictor Coef SE Coef T P Constant 7.201 1.205 5.98 0.000 Värde (x) 0.127047 0.006577 19.32 0.000 S = 2.32479 R-Sq = 90.8% R-Sq(adj) = 90.5% Analysis of Variance Source DF SS MS F P Regression 1 2016.8 2016.8 373.17 0.000 Residual Error 38 205.4 5.4 Total 39 2222.2 5.0 Residuals Versus Värde (x) (response is y**0.5) Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 35.151 0.474 (34.191; 36.111) (30.348; 39.954) 2.5 0.0-2.5 Values of Predictors for New Observations New Värde Obs (x) 1 220-5.0 50 100 150 Värde (x) 200 250 300 26