Regressions- och Tidsserieanalys - F3

Relevanta dokument
Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F7

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Exempel 1 på multipelregression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

TENTAMEN I STATISTIK B,

10.1 Enkel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Regressions- och Tidsserieanalys - F5

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Exempel 1 på multipelregression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning G60 Statistiska metoder

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Skrivning i ekonometri torsdagen den 8 februari 2007

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Examinationsuppgifter del 2

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Föreläsning 4. Kap 5,1-5,3

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 15 januari 2005

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Laboration 2 multipel linjär regression

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Tentamen Tillämpad statistik A5 (15hp)

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Tentamen i matematisk statistik

F7 Polynomregression och Dummyvariabler

Tentamen i matematisk statistik

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Räkneövning 3 Variansanalys

Tentamen i Matematisk statistik Kurskod S0001M

Kvadratisk regression, forts.

Tentamen i Matematisk statistik Kurskod S0001M

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

TENTAMEN I MATEMATISK STATISTIK

Tentamen Tillämpad statistik A5 (15hp)

Skrivning i ekonometri lördagen den 25 augusti 2007

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

tentaplugg.nu av studenter för studenter

tentaplugg.nu av studenter för studenter

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

8.1 General factorial experiments

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i matematisk statistik

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Uppgift a b c d e f (vet ej) Poäng

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Multipel Regressionsmodellen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Transkript:

Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26

Lite som vi inte hann med när vi pratade om enkel linjär regression (från F1): Prognosintervall för ett värde på y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y vid x 0 [ ŷ ± t [α/2](n 2) s ] 1 + Distancevalue Distancevalue = 1 n + (x 0 x) 2 SS xx Wänström (Linköpings universitet) F3 7 maj 2 / 26

Konfidensintervall för medelvärdet för y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% konfidensintervall för µ y x0 [ ŷ ± t [α/2](n 2) s ] Distancevalue Wänström (Linköpings universitet) F3 7 maj 3 / 26

Nu tillbaka till multipel regressionsanalys: Prognosintervall för ett enskilt värde y vid specifika x-värden Punktskattning för ett enskilt värde för y när värdena på de oberoende variablerna är x 01, x 02,..., x 0k ŷ = b 0 + b 1 x 01 + b 2 x 02 +... + b k x 0k Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y [ ŷ ± t [α/2](n k 1) s ] 1 + Distance value Wänström (Linköpings universitet) F3 7 maj 4 / 26

Konfidensintervall för medelvärdet för y vid specifika x-värden Punktskattning för medelvärdet för y när värdena på de oberoende variablerna är x 01, x 02,..., x 0k ŷ = b 0 + b 1 x 01 + b 2 x 02 +... + b k x 0k Om antagandena är uppfyllda är ett 100(1 α)% konfidensitvervall för µ y x01,x 02,...,x 0k [ ŷ ± t [α/2](n k 1) s ] Distance value Wänström (Linköpings universitet) F3 7 maj 5 / 26

Minitab-utskrift Regression Analysis: Försäljning versus Annonsering; Kundkrets The regression equation is Försäljning = 0,430 + 0,502 Annonsering + 0,546 Kundkrets Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,320 Annonsering 0,5021 0,1825 2,75 0,040 Kundkrets 0,5464 0,1625 3,36 0,020 S = 0,498123 R Sq = 97,2% R Sq(adj) = 96,1% Analysis of Variance Source DF SS MS F P Regression 2 43,719 21,860 88,10 0,000 Residual Error 5 1,241 0,248 Total 7 44,960 Source DF Seq SS Annonsering 1 40,914 Kundkrets 1 2,805 Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 3,074 0,301 (2,301; 3,847) (1,578; 4,569) Wänström (Linköpings universitet) F3 7 maj 6 / 26

Interaktion Ibland ser sambandet mellan en förklaringsvariabel och responsvariabeln olika ut beroende på vad värdet på en annan förklaringsvariabel är. Då kan vi lägga till en interaktionsterm som är produkten av de två förklaringsvariablerna. y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ɛ Wänström (Linköpings universitet) F3 7 maj 7 / 26

Exempel: Samband mellan IQ och betyg Individ Betyg IQ 1 1.52 85.42 2 2.57 88.59 3 3.74 95.45 4 4.68 110.64 5 4.02 105.63.................. Wänström (Linköpings universitet) F3 7 maj 8 / 26

Spridningsdiagram 5 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 9 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ The regression equation is Betyg = 1,22 + 0,0428 IQ Predictor Coef SE Coef T P Constant 1,2191 0,1131 10,78 0,000 IQ 0,042758 0,001113 38,40 0,000 S = 0,544549 R Sq = 56,7% R Sq(adj) = 56,7% Analysis of Variance Source DF SS MS F P Regression 1 437,26 437,26 1474,57 0,000 Residual Error 1125 333,60 0,30 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 10 / 26

Interaktion och dummyvariabel Kan sambandet mellan betyg och IQ se olika ut för de med hög socioekonomisk status (SES) och övriga? Individ Betyg IQ SEShög 1 4.68 110.64 Hög 2 4.02 105.63 Hög 3 3.74 95.45 Övriga 4 1.52 85.42 Övriga 5 2.57 88.59 Övriga...... { 1 om hög SES D = 0 annars } Wänström (Linköpings universitet) F3 7 maj 11 / 26

Spridningsdiagram uppdelat på SES 5 SEShög 0 1 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 12 / 26

Signifikanstest för (dummyvariabeln) SES Först kan vi testa om det finns någon skillnad i betyg för de med hög SES och övriga, givet att de har samma IQ. Modellen ser då ut som följer och vi vill testa om det finns någon effekt av dummyvariabeln D. H 0 : β 2 = 0 H a : β 2 = 0 y = β 0 + β 1 x + β 2 D + ɛ t = b 2 s b2, Förkasta H 0 om t > t [α/2](n 2 1) Wänström (Linköpings universitet) F3 7 maj 13 / 26

Minitab-utskrift Regression Analysis: Betyg versus IQ; SEShög The regression equation is Betyg = 1,13 + 0,0413 IQ + 0,164 SEShög Predictor Coef SE Coef T P Constant 1,1299 0,1135 9,95 0,000 IQ 0,041256 0,001147 35,96 0,000 SEShög 0,16435 0,03450 4,76 0,000 S = 0,539371 R Sq = 57,6% R Sq(adj) = 57,5% Analysis of Variance Source DF SS MS F P Regression 2 443,86 221,93 762,86 0,000 Residual Error 1124 327,00 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 14 / 26

Signifikanstest för interaktionstermen Nu kan vi testa om sambandet mellan betyg och IQ ser olika ut för de med hög SES och övriga. Modellen ser då ut som följer och vi vill testa om det finns någon effekt av interaktionstermen xd. H 0 : β 3 = 0 H a : β 3 = 0 y = β 0 + β 1 x + β 2 D + β 3 xd + ɛ t = b 3 s b3, Förkasta H 0 om t > t [α/2](n 3 1) Wänström (Linköpings universitet) F3 7 maj 15 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ; SEShög; IQ*SEShög The regression equation is Betyg = 0,856 + 0,0384 IQ 0,742 SEShög + 0,00880 IQ*SEShög Predictor Coef SE Coef T P Constant 0,8559 0,1362 6,28 0,000 IQ 0,038441 0,001384 27,78 0,000 SEShög 0,7419 0,2543 2,92 0,004 IQ*SEShög 0,008799 0,002446 3,60 0,000 S = 0,536530 R Sq = 58,1% R Sq(adj) = 58,0% Analysis of Variance Source DF SS MS F P Regression 3 447,59 149,20 518,29 0,000 Residual Error 1123 323,27 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 16 / 26

Signifikanstest för ett set av förklaringsvariabler Ibland vill vi testa flera förklaringsvariabler på samma gång. Vi kanske vill testa om det finns en effekt av en kvalitativ variabel med tre kategorier. Då måste vi lägga till två dummyvariabler till regressionsmodellen. Då vill vi inte testa om dessa två dummyvariabler är signifikanta var och en för sig, utan om de som ett set är signifikanta. Vi börjar med att ställa upp två modeller: En komplett (som innehåller alla variabler) och en reducerad (som inte innehåller variablerna vi vill testa för). Komplett modell: y = β 0 + β 1 x 1 +... + β g x g + β g +1 x g +1 +... + β k x k + ɛ Reducerad modell: y = β 0 + β 1 x 1 +... + β g x g + ɛ Wänström (Linköpings universitet) F3 7 maj 17 / 26

Partiellt F-test H 0 : β g +1 = β g +2 =... = β k = 0 H a :Minst en av β g +1, β g +2,..., β k är skild från 0 F = (SSE R SSE C )/(k g ) SSE C /(n k 1)) Förkasta H 0 om F > F [α] (k g; n k 1) Wänström (Linköpings universitet) F3 7 maj 18 / 26

Exempel Säg att vi i stället för att ha delat in SES i hög och övrig, så har vi delat in det i hög, medel och låg. Då har vi en kvalitativ variabel med tre nivåer. Individ Betyg IQ SES 1 4.68 110.64 Hög 2 4.02 105.63 Hög 3 3.74 95.45 Medel 4 1.52 85.42 Låg 5 2.57 88.59 Låg...... { 1 om hög SES D 1 = 0 annars { 1 om låg SES D 2 = 0 annars } } Wänström (Linköpings universitet) F3 7 maj 19 / 26

Partiellt F-test Vi tänker oss att vi vill testa om SES har någon effekt på betyg givet att IQ finns med i modellen. Då har vi följande kompletta och reducerade modeller: Komplett modell: y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + ɛ Reducerad modell: y = β 0 + β 1 x 1 + ɛ Wänström (Linköpings universitet) F3 7 maj 20 / 26

Partiellt F-test H 0 : β 2 = β 3 = 0 H a :Minst en av β 2, β 3 är skild från 0 F = (SSE R SSE C )/(3 1) SSE C /(n 3 1)) Förkasta H 0 om F > F [α] (3 1; n 3 1) Wänström (Linköpings universitet) F3 7 maj 21 / 26

Minitabutskrift komplett modell Regression Analysis: Betyg versus IQ; SEShög; SESlåg The regression equation is Betyg = 1,09 + 0,0411 IQ + 0,138 SEShög 0,0563 SESlåg Predictor Coef SE Coef T P Constant 1,0920 0,1168 9,35 0,000 IQ 0,041144 0,001149 35,79 0,000 SEShög 0,13815 0,03937 3,51 0,000 SESlåg 0,05625 0,04080 1,38 0,168 S = 0,539155 R Sq = 57,7% R Sq(adj) = 57,5% Analysis of Variance Source DF SS MS F P Regression 3 444,42 148,14 509,61 0,000 Residual Error 1123 326,44 0,29 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 22 / 26

Minitabutskrift reducerad modell Regression Analysis: Betyg versus IQ The regression equation is Betyg = 1,22 + 0,0428 IQ Predictor Coef SE Coef T P Constant 1,2191 0,1131 10,78 0,000 IQ 0,042758 0,001113 38,40 0,000 S = 0,544549 R Sq = 56,7% R Sq(adj) = 56,7% Analysis of Variance Source DF SS MS F P Regression 1 437,26 437,26 1474,57 0,000 Residual Error 1125 333,60 0,30 Total 1126 770,86 Wänström (Linköpings universitet) F3 7 maj 23 / 26

Interaktionsmodell Om vi tror att sambandet mellan Betyg och IQ ser olika ut för de tre SES-grupperna kan vi undersöka följande modell: y = β 0 + β 1 x + β 2 D 1 + β 3 D 2 + β 4 xd 1 + β 5 xd 2 + ɛ Wänström (Linköpings universitet) F3 7 maj 24 / 26

Spridningsdiagram 5 SES 1 2 3 4 Betyg 3 2 1 50 75 100 IQ 125 150 Wänström (Linköpings universitet) F3 7 maj 25 / 26

Minitabutskrift Regression Analysis: Betyg versus IQ; SEShög;... The regression equation is Betyg = 0,787 + 0,0380 IQ 0,811 SEShög 0,108 SESlåg + 0,00919 IQ*SEShög + 0,00045 IQ*SESlåg Predictor Coef SE Coef T P Constant 0,7866 0,1886 4,17 0,000 IQ 0,038047 0,001892 20,10 0,000 SEShög 0,8111 0,2858 2,84 0,005 SESlåg 0,1076 0,2738 0,39 0,695 IQ*SEShög 0,009193 0,002766 3,32 0,001 IQ*SESlåg 0,000454 0,002785 0,16 0,871 S = 0,536419 R Sq = 58,2% R Sq(adj) = 58,0% Analysis of Variance Source DF SS MS F P Regression 5 448,297 89,659 311,59 0,000 Residual Error 1121 322,562 0,288 Total 1126 770,860 Wänström (Linköpings universitet) F3 7 maj 26 / 26