732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, 2015. IDA, Linköpings universitet

Relevanta dokument
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Regressions- och Tidsserieanalys - F4

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Skrivning i ekonometri lördagen den 25 augusti 2007

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Exempel 1 på multipelregression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Föreläsning 14: Försöksplanering

Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t. The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F3

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F3

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistik 1 för biologer, logopeder och psykologer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Exempel 1 på multipelregression

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

TENTAMEN I STATISTIK B,

Laboration 2 multipel linjär regression

Laboration 3: Modellval i multipel regression

Skrivning i ekonometri torsdagen den 8 februari 2007

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Regression med kvalitativa variabler. Jesper Rydén

TENTAMEN I MATEMATISK STATISTIK

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Metod och teori. Statistik för naturvetare Umeå universitet

Skrivning i ekonometri lördagen den 15 januari 2005

Tentamen i Matematisk statistik Kurskod S0001M

Räkneövning 3 Variansanalys

Tentamen i Matematisk statistik Kurskod S0001M

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 4. Regressionsanalys

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen i Matematisk statistik Kurskod S0001M

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

tentaplugg.nu av studenter för studenter

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen i matematisk statistik

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Examinationsuppgifter del 2

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Tentamen Tillämpad statistik A5 (15hp)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistisk undersökningsmetodik (Pol. kand.)

Läs noggrant informationen nedan innan du börjar skriva tentamen

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Tentamen Tillämpad statistik A5 (15hp)

8.1 General factorial experiments

Tentamen i Matematisk statistik Kurskod S0001M

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F5

Datorövning 2 Statistik med Excel (Office 2003, engelska)

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

7.5 Experiment with a single factor having more than two levels

Kvadratisk regression, forts.

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Tentamen i matematisk statistik

Lösningar till SPSS-övning: Analytisk statistik

Läs noggrant informationen nedan innan du börjar skriva tentamen

Uppgift a b c d e f (vet ej) Poäng

1. Frekvensfunktionen nedan är given. (3p)

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Uppgift 1. Deskripitiv statistik. Lön

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen Tillämpad statistik A5 (15hp)

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Datorövning 2 Multipel regressionsanalys, del 1

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Transkript:

732G71 Statistik B Föreläsning 2 Bertil Wegmann IDA, Linköpings universitet November 13, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 1 / 26

Kap. 4.1-4.5, multipel linjär regressionsanalys y = µ y x1,x 2,...,x k + ɛ = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ I stället för en förklarande variabel kan vi inkludera era. Det är dock viktigt att inte inkludera variabler som inte har någon eller endast marginell betydelse för den beroende variabeln y. Återigen inkluderas en felterm ɛ i modellen, som står för den del av variationen i y som inte kan förklaras med hjälp av regressionsmodellen. Enligt modellantagandena ska följande egenskaper vara uppfyllda: 1. För varje kombination av värden x 1, x 2,..., x k är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje kombination av värden x 1, x 2,..., x k har värdena på feltermen konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje kombination av värden x 1, x 2,..., x k följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 2 / 26

Minstakvadratskattningar för multipel linjär regression Även i multipel linjär regression används minstakvadratmetoden för att hitta skattningar på parametrarna β 0, β 1, β 2,..., β k, och det som ska minimeras är: SSE = (y i ŷ i ) 2 = (y i (b 0 + b 1 x 1 + b 2 x 2 + + b k x k )) 2 SSE brukar även kallas för den oförklarade variationen. Formlerna för att skatta regressionsparametrarna blir väldigt omständiga, så därför förlitar vi oss till statistiska programpaket för detta. Statistiska programpaket beräknar även dessa kvadratsummor: Total variation i y = SST = (y i ȳ) 2 F örklarad variation i y = SSR = (ŷ i ȳ) 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 3 / 26

Kap. 4.4, F-testet (the overall F-test) F-testet testar om den linjära regressionsmodellen är signikant eller inte. Om vi bara har en förklarande variabel är det samma som att testa om parametern till denna variabel är signikant skild från noll. Om vi har era förklarande variabler används dessa hypoteser: H 0 : β 1 = β 2 = = β k = 0 H a : åtminstone någon av β 1, β 2,..., β k är inte lika med noll Testvariabel: SSR/k F = SSE / (n k 1) = MSR MSE, där k är antalet förklarande variabler i modellen. Förkasta H 0 på signikansnivån α om F > F [α],k,n k 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 4 / 26

Kap. 4.5, t-testet Om F-testet är signikant innebär det att minst en förklaringsvariabel signikant påverkar den beroende variabeln y. Det är då intressant att undersöka vilken/vilka förklaringsvariabler som påverkar y signikant. Detta görs med hjälp av enskilda t-test för varje variabel j: Testvariabel: H 0 : β j = 0 H a : β j = 0 t = b j s bj Förkasta H 0 på signikansnivån α om t > t [α/2],n k 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 5 / 26

Exempel Följande datamaterial innehåller uppgifter om 150 slumpmässigt valda fastigheter i USA. Column Name Count Description Variabel Översättning C1 Price 150 Price y pris C2 Area 150 Area in square feet x 1 bostadsyta C3 Acres 150 Acres x 2 tomtyta C4 Rooms 150 Number of rooms x 3 antal rum C5 Baths 150 Number of baths x 4 antal badrum Källa: MTBWIN/Student12/HOMES.MTW Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 6 / 26

Spridningsdiagram (scatterplot) Pris mot bostadsyta: Scatterplot of Price vs Area 300000 250000 Price 200000 150000 100000 500 1000 1500 2000 Area 2500 3000 3500 4000 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 7 / 26

Spridningsdiagram (scatterplot) Pris mot tomtyta: Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 8 / 26

Spridningsdiagram (scatterplot) Pris mot antal rum: Scatterplot of Price vs Rooms 300000 250000 Price 200000 150000 100000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 9 / 26

Spridningsdiagram (scatterplot) Pris mot antal badrum: Scatterplot of Price vs Baths 300000 250000 Price 200000 150000 100000 1,0 1,5 2,0 2,5 Baths 3,0 3,5 4,0 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 10 / 26

Exempel, regressionsmodell Vi börjar med en modell som inte inkluderar alla förklarande variabler, utan endast de som verkar viktigast: bostadsyta och antal rum. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 11 / 26

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Price versus Area; Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1,25273E+11 62636682991 69,38 0,000 Area 1 39528404917 39528404917 43,78 0,000 Rooms 1 2071358 2071358 0,00 0,962 Error 147 1,32715E+11 902824574 Lack-of-Fit 122 1,07866E+11 884149951 0,89 0,673 Pure Error 25 24848918333 993956733 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 30047,0 48,56% 47,86% 45,43% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 64221 12766 5,03 0,000 Area 49,67 7,51 6,62 0,000 3,21 Rooms -141 2934-0,05 0,962 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 12 / 26

Förklaringsgraden R 2 Vi kommer ihåg kvadratsummorna: SST = Total variation i y SSR = Förklarad variation i y SSE = Oförklarad variation i y Med hjälp av dessa kan förklaringsgraden beräknas på samma sätt som för enkel linjär regression: R 2 = SSR SST Förklaringsgraden beskriver hur stor andel av den totala variationen i den beroende variabeln y som kan förklaras med hjälp av de förklarande variablerna i regressionsmodellen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 13 / 26

Justerad förklaringsgrad R 2 När man anpassar en regressionsmodell har man oftast två mål: 1) att hitta en modell som beskriver datamaterialet så bra som möjligt (de anpassade värdena ŷ från regressionsmodellen ska ligga nära de faktiska observationerna y.) 2) att hitta en modell som kan göra bra prognoser för nya observationer, d.v.s. göra bra punktprediktioner. Genom att inkludera er och er förklarande variabler i regressionsmodellen kan man ofta få en bättre och bättre anpassning till datamaterialet. Men, detta till bekostnad på att prognoserna för nya observationer blir ofta sämre (överanpassning). Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 14 / 26

Justerad förklaringsgrad R 2 Förklaringsgraden R 2 ökar alltid då man lägger till er förklarande variabler. Den justerade förklaringsgraden R 2 ökar inte alltid om man lägger till er förklarande variabler, eftersom denna innehåller en korrektion för antalet förklarande variabler k och antalet observationer n i modellen. Den justerade förklaringsgraden beräknas som R 2 = ( R 2 k n 1 ) ( n 1 n k 1 ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 15 / 26

Exempel, regressionsmodell Vi återgår till exemplet med fastigheterna med bostadsyta och antal rum som förklarande variabler i regressionsmodellen. Regression Analysis: Price versus Area; Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 1,25273E+11 62636682991 69,38 0,000 Area 1 39528404917 39528404917 43,78 0,000 Rooms 1 2071358 2071358 0,00 0,962 Error 147 1,32715E+11 902824574 Lack-of-Fit 122 1,07866E+11 884149951 0,89 0,673 Pure Error 25 24848918333 993956733 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 30047,0 48,56% 47,86% 45,43% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 64221 12766 5,03 0,000 Area 49,67 7,51 6,62 0,000 3,21 Rooms -141 2934-0,05 0,962 3,21 Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 16 / 26

Exempel, regressionsmodell Ett 100(1 α)% kondensintervall för medelvärdet av y och ett 100(1 α)% prognosintervall för ett enskilt värde på y beräknas på liknande sätt som för den enkla linjära regressionsmodellen: Konfidensintervall : [ ŷ ± t [α/2],(n k 1) s ] Distance value Prognosintervall : [ ŷ ± t [α/2],(n k 1) s ] 1 + Distance value Men, Distance value kan inte beräknas lika enkelt som i fallet enkel linjär regression. Däremot kan man ta den direkt från datorutskriften i Minitab. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 17 / 26

Exempel, kondens- och prediktionsintervall från Minitab Nu vill vi göra en prognos (prediktion) för priset på en fastighet med bostadsytan 3000 square feet och antal rum lika med 6 med tillhörande 95% prognosintervall (prediktionsintervall) i MINITAB. Prediction for Price Regression Equation Price = 64221 + 49,67 Area - 141 Rooms Variable Setting Area 3000 Rooms 6 Fit SE Fit 95% CI 95% PI 212396 12306,7 (188076; 236717) (148229; 276564) XX XX denotes an extremely unusual point relative to predictor levels used to fit the model. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 18 / 26

Exempel, varning för extrema värden från Minitab Varning för att den typ av fastighet vi valt har extrema värden på förklaringsvariablerna. Vi kan endast göra tillförlitliga prognoser på fastigheter där vi har liknande fastigheter med i ursprungliga datamaterialet. Bostadsyta med 3000 feet square är inte särskilt ovanligt i datamaterialet. Fastighet med 6 stycken rum är inte alls ovanligt i datamaterialet. Vad är då problemet? Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 19 / 26

Exempel, varning för extrema värden från Minitab Om vi tittar på datamaterialet så ser vi att de fastigheter som ingår och har exakt 6 rum har en bostadsyta mellan 1008 och 1900 square feet. Det är alltså kombinationen 3000 square feet och 6 stycken rum som är extrem i datamaterialet. Vi måste därför ta ställning till om det är rimligt att anta att modellen är giltig även för denna typ av fastighet. Annars måste vi ta bort denna extrema observation från datamaterialet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 20 / 26

Kap. 4.7, kvadratisk regressionsmodell Om sambandet till en variabel inte är linjärt så kan vi även inkludera en kvadratisk term i regressionsmodellen. Exempel, fastighetsdatat: antag att vi misstänker att antalet rum inte påverkar priset på fastigheter i USA på ett linjärt sätt. Därför lägger vi till variabeln antalet rum i kvadrat för att testa om ett krökt samband är lämpligare för regressionsmodellen. Alltså vill vi undersöka hur variablerna x 3 = antal rum och x 5 = x 2 3 förklarar variationen i den beroende variabeln y = pris. Som jämförelse börjar vi dock först med att skatta en enkel linjär regressionsmodell med endast antal rum som förklarande variabel. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 21 / 26

Exempel, enkel linjär regressionsmodell Vi börjar med en enkel linjär regressionsmodell utan kvadratisk term. y = β 0 + β 3 x 3 + ɛ Regression Analysis: Price versus Rooms Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 85744961064 85744961064 73,68 0,000 Rooms 1 85744961064 85744961064 73,68 0,000 Error 148 1,72244E+11 1163808224 Lack-of-Fit 8 11542276823 1442784603 1,26 0,271 Pure Error 140 1,60701E+11 1147866717 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 34114,6 33,24% 32,78% 31,33% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 37969 13776 2,76 0,007 Rooms 15966 1860 8,58 0,000 1,00 Regression Equation Price = 37969 + 15966 Rooms Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 22 / 26

Exempel, enkel linjär regressionsmodell Fitted Line Plot Price = 37969 + 15966 Rooms 300000 S 34114,6 R-Sq 33,2% R-Sq(adj) 32,8% 250000 Price 200000 150000 100000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 23 / 26

Exempel, kvadratisk regressionsmodell Multipel linjär regressionsmodell med kvadratisk term. Vi behåller originalvariabeln x 3 för att göra modellen mer exibel. y = β 0 + β 3 x 3 + β 5 x 2 3 + ɛ Regression Analysis: Price versus Rooms; RoomsSquared Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 91722934386 45861467193 40,55 0,000 Rooms 1 16224550005 16224550005 14,34 0,000 RoomsSquared 1 5977973322 5977973322 5,29 0,023 Error 147 1,66266E+11 1131058802 Lack-of-Fit 7 5564303501 794900500 0,69 0,678 Pure Error 140 1,60701E+11 1147866717 Total 149 2,57989E+11 Model Summary S R-sq R-sq(adj) R-sq(pred) 33631,2 35,55% 34,68% 33,31% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -45920 38935-1,18 0,240 Rooms 39680 10477 3,79 0,000 32,64 RoomsSquared -1606 699-2,30 0,023 32,64 Regression Equation Price = -45920 + 39680 Rooms - 1606 RoomsSquared Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 24 / 26

Exempel, kvadratisk regressionsmodell Fitted Line Plot Price = - 45920 + 39680 Rooms - 1606 Rooms^2 300000 S 33631,2 R-Sq 35,6% R-Sq(adj) 34,7% 250000 200000 Price 150000 100000 50000 2 4 6 8 Rooms 10 12 14 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 25 / 26

Exempel, kvadratisk regressionsmodell Kvadratisk regression ger dock svårtolkade parametrar. I modellen ŷ = b 0 + b 3 x 3 kan vi säga att priset för en fastighet förväntas öka med b 3 USD för varje ytterligare rum. I modellen ŷ = b 0 + b 3 x 3 + b 5 x 5 förväntas priset för fastigheten öka för varje ytterligare rum, men bara upp till ett visst antal rum, sen stabiliseras priset. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 13, 2015 26 / 26