F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Relevanta dokument
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Exempel 1 på multipelregression

Regressions- och Tidsserieanalys - F4

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F3

Multipel Regressionsmodellen

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F7

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 25 augusti 2007

TENTAMEN I MATEMATISK STATISTIK

Föreläsning 4. Kap 5,1-5,3

Metod och teori. Statistik för naturvetare Umeå universitet

TENTAMEN I STATISTIK B,

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressions- och Tidsserieanalys - F5

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Exempel 1 på multipelregression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Räkneövning 3 Variansanalys

F7 Polynomregression och Dummyvariabler

Följande resultat erhålls (enhet: 1000psi):

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i matematisk statistik

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Examinationsuppgifter del 2

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Föreläsning G60 Statistiska metoder

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen Tillämpad statistik A5 (15hp)

F11. Kvantitativa prognostekniker

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Kvadratisk regression, forts.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Tentamen i matematisk statistik

Tentamen Tillämpad statistik A5 (15hp)

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen i matematisk statistik

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen Tillämpad statistik A5 (15hp)

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Laboration 2 multipel linjär regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Tentamen i Matematisk statistik Kurskod S0001M

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

8.1 General factorial experiments

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

tentaplugg.nu av studenter för studenter

Tentamen i Matematisk statistik Kurskod S0001M

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Transkript:

Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler (x 1, x,, x K ). Ex.: Försäljning i åtta distrikt. Två förklarande variabler (K=). y = försäljning (milj. kr); x 1 = folkmängd (100 000 pers.); x = annonsvolym (10 000 kr.). Distrikt Försäljning Folkmängd Annonsvolym nr. (y) (x 1 ) (x ) 1 5,4 5,0 5,0 3,8 4, 3,0 3 10,6 10,0 9,0 4 5, 4,4 3,5 5 4,5 3,6 5,0 6,7 1,3,0 7,5,7 1,8 8 4,5 3,0 4,7 1

Exempel på frågor: Hur mycket av variationen mellan distrikt i fråga om försäljning förklaras av folkmängd och annonsvolym? Hur mycket skulle försäljningen öka om annonsvolymen ökade med ett visst belopp, givet att folkmängden är oförändrad? Allmänt har vi data av följande slag (n observationer, K förklarande variabler): y x 1 L x K y 1 x 11 L x K1 M M M y n x 1n L x Kn Med minsta-kvadratmetoden anpassar vi en linjär funktion y = b 0 + b 1 x 1 + b x + + b K x K till våra givna data. Görs med Minitab (eller annat statistiskt programpaket).

Varje y i (i = 1,,, n) approximeras med y ˆ = b + b x + b x + K+ b x, i 0 1 1i där koefficienterna b 0, b 1, b,, b K bestäms så att summan av de kvadrerade avvikelserna, ( y i yˆ i), minimeras. Minitab gör detta. i K Ki I fortsättningen tänker vi oss att b 0, b 1, b,, b K har beräknats enligt minsta-kvadratmetoden utifrån givna data. Ex.: Försäljning i åtta distrikt (forts.). y = försäljning (milj. kr.) x 1 = befolkning (100 000 pers.) x = annonsvolym (10 000 kr.)) Anpassning av linjär funktion med Minitab ger: Regression Analysis: y versus x1; x The regression equation is y = 0,430 + 0,546 x1 + 0,50 x dvs. b 0 = 0,430; b 1 = 0,546; b = 0,50. 3

Tolkning: När x 1 ökar med en enhet, dvs. 100 000 personer, (och x är oförändrad), så ökar y i genomsnitt med b 1 = 0,546 enheter, dvs. med 0,546 milj. kr. När x ökar med en enhet, dvs. 10 000 kr, (och x 1 är oförändrad), så ökar y i genomsnitt med b = 0,50 enheter, dvs. med 0,50 milj. kr. När x 1 =x =0, så är y i genomsnitt lika med b 0. OBS Sådan tolkning är inte alltid meningsfull. Hur är det i detta exempel? Ex.: (Forts.) Vi kan också få anpassade, predicerade, värden ( yˆ i ) och residualer ( ei = yi yˆ i) med Minitab: y e=y- 5,4 5,673-0,73 3,8 4,31-0,431 10,6 10,413 0,187 5, 4,59 0,608 4,5 4,908-0,408,7,145 0,555,5,809-0,309 4,5 4,49 0,071 OBS Summan av residualerna skall bli 0. 4

Hur mycket förklarar de förklarande variablerna? Liksom vid enkel linjär regression kan vi dela upp den totala kvadratsumman för y i två delar: ( yi y) = ( yˆ i y) + 1443 SST 1443 SSR e { i SSE SST = total variation (hos y-värdena) SSR = förklarad variation SSE = oförklarad variation SSE = 0, om vi har perfekt anpassning (dvs. alla e i = 0). SSR = 0, om x 1, x,, x K inte förklarar någonting av variationen hos y (dvs. b 1 =b = =b K = 0). Som mått på graden av linjär anpassning används determinationskoefficienten: R SSR = = 1 SST SSE SST [R = R = r y y, multipla korrelationskoefficienten] ˆ 5

ANOVA-tablån bli (OBS frihetsgraderna): Variationsorsak SS df MS F Regression SSR K MSR F Residual SSE n-k-1 MSE Totalt SST n-1 Residualvarians: s e = ei = n K 1 MSE Ex.: Försäljning i åtta distrikt (forts.). Minitabutskrift: S = 0,49813 R-Sq = 97,% R-Sq(adj) = 96,1% Analysis of Variance Source DF SS MS F P Regression 43,719 1,860 88,10 0,000 Residual Error 5 1,41 0,48 Total 7 44,960 6

Jämförelse enkel/multipel regression Ex.: Försäljning i åtta distrikt (forts.). 1) Enkel regression. Anpassa rät linje y = b 0 + b 1 x 1. Regression Analysis: y versus x1 The regression equation is y = 0,855 + 0,946 x1 Predictor Coef SE Coef T P Constant 0,8551 0,5180 1,65 0,150 x1 0,946 0,1055 8,97 0,000 S = 0,71071 R-Sq = 93,1% R-Sq(adj) = 91,9% ) Multipel regression. Anpassa linjärt uttryck y = b 0 + b 1 x 1 + b x. Regression Analysis: y versus x1; x The regression equation is y = 0,430 + 0,546 x1 + 0,50 x Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,30 x1 0,5464 0,165 3,36 0,00 x 0,501 0,185,75 0,040 S = 0,49813 R-Sq = 97,% R-Sq(adj) = 96,1% 7

Värdet på b 0 och b 1 ändrades när vi lade till en förklarande variabel. (Om korrelationen mellan x 1 och x varit exakt noll, så hade värdet på b 1 blivit oförändrat.) Värdet på R ökade när vi lade till en förklarande variabel. (Kan aldrig minska när vi lägger till en förklarande variabel.) Tillägg om R adj: Minitab ger också ett justerat R -värde, vilket definieras som (se NCT sid. 475) SSE /( n K 1) R adj = 1 = R SST /( n 1) Det används mest när man prövar sig fram till en lämplig regressionsanpassning genom att lägga till en ny förklarande variabel i taget. I sådana fall ökar i regel R något, varje gång man lägger till en ny förklarande variabel, även om denna inte är särskilt betydelsefull. (R kan i alla fall aldrig bli mindre.) Men adj R kan minska när man lägger till en ny förklarande variabel och därigenom kanske ge en sorts varningssignal. ( R adj kan inte tolkas som förklaringsgrad, på det sätt som det vanliga R kan.) 8

Ex.: Konstruerade data: y x 1 x 1 1 5 4 3 5 8 6 4 5 8 4 3 10 4 10 11 6 7 13 6 1) Enkel regression. Anpassa rät linje y = b 0 + b 1 x 1. Regression Analysis: y versus x1 The regression equation is y = 1,83 + 0,463 x1 Predictor Coef SE Coef T P Constant 1,835,115 0,87 0,419 x1 0,4631 0,586 1,79 0,14 S =,58465 R-Sq = 34,8% R-Sq(adj) = 4,0% 9

) Multipel regression. Anpassa linjärt uttryck y = b 0 + b 1 x 1 + b x. Regression Analysis: y versus x1; x The regression equation is y = 1,04-1, x1 + 3,65 x Predictor Coef SE Coef T P Constant 1,0355 0,8946 1,16 0,99 x1-1,3 0,387-3,7 0,014 x 3,6493 0,67 5,43 0,003 S = 1,07831 R-Sq = 90,5% R-Sq(adj) = 86,8% Koefficienten för x 1 fick olika tecken i de båda fallen. Hur förklaras det? Se följande diagram. 10 8 6 Spridningsdiagram y mot x1 y 4 0 4 6 8 x1 10 1 14 10

Att komma fram till en lämplig modell Säg att vi har data på en beroende y-variabel och på ett stort antal andra variabler, som kanske skulle kunna fungera som förklarande x-variabler i en modell. Hur många, och vilka, av x-variablerna skall vi ta med i modellen? Svårt att svara på. Några punkter att tänka på är följande: Vi vill förstås ha ett högt värde på R. Ofta eftersträvansvärt med enkel modell, dvs en modell med få (men väsentliga) förklarande variabler. Ta alltså inte med extra x-variabler som gör att R bara ökar litegrann. Varning för överanpassning. Varning för multikollineraritet, dvs. x-variabler som är starkt korrelerade med varandra. 11

Minitabexempel En följd av månadsdata för 5 ekon. variabler, Singapore. y = US exports to Singapore (billions of Singapore dollars) x 1 = Money supply (billions of Singapore dollars) x = Minimum Singapore bank lending rate (percentages) x 3 = Index of local prices (base year 1974) x 4 = Exchange rate of Singapore dollars per US dollar Data: Row Y X1 X X3 X4 1,6 5,1 7,8 114,16,6 4,9 8,0 116,17 3,7 5,1 8,1 117,18.................. 67 5,6 8, 10,1 146,15 1

Se på korrelationen mellan variablerna. Hur är de korrelerade med y? Är några av x-variablerna starkt korrelerade med varandra? Korrelationsmatris: Y X1 X X3 X1 0,775 X 0,335-0,11 X3 0,770 0,447 0,745 X4-0,433-0,410-0,79-0,40 Vad skulle kunna vara en lämplig modell? Pröva Minitabs Best subsets regression : Best Subsets Regression: Y versus X1; X; X3; X4 Response is Y Mallows X X X X Vars R-Sq R-Sq(adj) C-p S 1 3 4 1 60,1 59,5 78,4 0,495 X 1 59,3 58,6 81,3 0,5004 X 8,5 81,9 1,1 0,3306 X X 78,1 77,4 16,6 0,36970 X X 3 8,5 81,7 3,0 0,33311 X X X 3 8,5 81,6 3,1 0,3333 X X X 4 8,5 81,4 5,0 0,33577 X X X X 13

Pröva en modell med x 1 och x 3 som förklarande variabler: Regression Analysis: Y versus X1; X3 The regression equation is Y = - 3,4 + 0,361 X1 + 0,0370 X3 Predictor Coef SE Coef T P Constant -3,430 0,5409-6,33 0,000 X1 0,3614 0,0395 9,1 0,000 X3 0,037033 0,004094 9,05 0,000 S=0,33061 R-Sq=8,5% R-Sq(adj)=81,9% Analysis of Variance Source DF SS MS F P Regression 3,940 16,470 150,67 0,000 Res.Error 64 6,996 0,109 Total 66 39,936 Vad säger residualerna? 14

Residual Plots for Y Normal Probability Plot of the Residuals Residuals Versus the Fitted Values Percent 99,9 99 90 50 10 Residual 1,0 0,5 0,0-0,5 1 0,1-1,0-0,5 0,0 Residual 0,5 1,0-1,0 3,0 3,6 4, Fitted Value 4,8 5,4 Histogram of the Residuals Residuals Versus the Order of the Data 1,0 Frequency 0 15 10 5 Residual 0,5 0,0-0,5 0-0,8-0,4 0,0 Residual 0,4 0,8-1,0 1 5 10 15 0 5 30 35 40 45 50 Observation Order 55 60 65 Vad blir följden om vi även tar med x i modellen? (Vi såg att x är ganska starkt korrelerad med x 3.) 15

Regression Analysis: Y versus X1; X; X3 The regression equation is Y = -3,40 + 0,363 X1 + 0,001 X + 0,0367 X3 Predictor Coef SE Coef T P Constant -3,4047 0,681-4,99 0,000 X1 0,36339 0,05940 6,1 0,000 X 0,0011 0,04753 0,04 0,965 X3 0,036666 0,00931 3,97 0,000 S=0,33330 R-Sq=8,5% R-Sq(adj)=81,6% Analysis of Variance Source DF SS MS F P Regression 3 3,940 10,980 98,88 0,000 Res.Error 63 6,996 0,111 Total 66 39,936 Typiska effekter av multikollinearitet: Parameterskattningarna blir mer osäkra ( SE Coef ökar). Parametern för x inte signifikant skild från noll. 16