F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Relevanta dokument
F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F1

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Metod och teori. Statistik för naturvetare Umeå universitet

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Examinationsuppgifter del 2

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F7

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I MATEMATISK STATISTIK

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Räkneövning 3 Variansanalys

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Matematisk statistik, Föreläsning 5

Tentamen i Matematisk statistik Kurskod S0001M

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

2. Test av hypotes rörande medianen i en population.

Tentamen i matematisk statistik

Laboration 2 multipel linjär regression

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Skrivning i ekonometri torsdagen den 8 februari 2007

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Skrivning i ekonometri lördagen den 29 mars 2008

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

TENTAMEN I STATISTIK B,

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F11. Kvantitativa prognostekniker

Grundläggande matematisk statistik

7.5 Experiment with a single factor having more than two levels

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

tentaplugg.nu av studenter för studenter

Introduktion till statistik för statsvetare

Tentamen i Matematisk statistik Kurskod S0001M

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i Matematisk statistik Kurskod S0001M

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Industriell matematik och statistik, LMA /14

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Regressions- och Tidsserieanalys - F5

Föreläsning G60 Statistiska metoder

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är en linjär funktion av x 1i,, x Ki plus ett slumpfel ε i : y i = β + β x + β x + K + β x + 14 0 4444 1 1i 4 i 4444 K 3Ki { i linjär funktion slumpfel 3) Slumpfelen ε 1, ε,, ε n är oberoende normalfördelade stokastiska variabler med väntevärde 0 och med samma standardavvikelse σ ε : ε 1, ε,, ε n är oberoende och N(0; σ ). ε ε 1

Modellen säger att om t.ex. variabeln x 1 ökar med en enhet (och övriga förklarande variabler är oförändrade) så förväntas y öka med β 1 enheter. Men i verkligheten blir det inte exakt så, på grund av slumpfelet. (Slumpfelet kan kanske ses som en sammanfattning av alla övriga saker, som påverkar y, men som inte finns med i modellen.) Punktskattning av modellparametrar Koefficienterna b 0, b 1, b,, b K (beräknade från observerade data) är väntevärdesriktiga skattningar av motsvarande modellparametrar β 0, β 1, β,, β K, ifall modellen stämmer. Vidare är den observerade residualvariansen [= MSE = SSE/(n-K-1)] en väntevärdesriktig skattning av modellens slumpfelsvarians σ. ε s e

Konfidensintervall för en enstaka modellparameter Konfidensintervall för var och en av β 0, β 1,, β K beräknas såsom b b ± t s 0 b 0 ± t s etc. 1 b 1 där s s etc. är skattade standardavvikelser b, 0 b 1 för b 0, b 1 etc. Dessa beräknas inte för hand, utan erhålls i Minitabutskriften (= SE Coef ). Konstanten t hämtar vi från tabell över t-fördelningen med n-k-1 fg, så att vi får önskad konfidensnivå. (Om fg > 30, använd z i stället för t.) 3

Hypotesprövning rörande en enstaka modellparameter Vi kan t.ex. fråga oss om variabeln x 1 bidrar till att (linjärt) förklara variationen hos y, givet att alla övriga förklarande variabler x, x 3,, x K redan finns med i modellen. Nollhypotesen är då att x 1 inte förklarar något av y-variationen, dvs. vi testar H 0 : β 1 = 0 H 1 : β 1 0 Som testvariabel används b 1 t = (= T i Minitab-utskriften) s b 1 vilken är t-fördelad med n-k-1 fg, när H 0 är sann. 4

På analogt sätt kan man för varje annan enskild x-variabel testa om just den variabeln bidrar till att förklara variationen hos y (givet att alla övriga förklarande variabler redan finns med i modellen). Vi kan alltså testa nollhypoteserna H 0 :β =0, H 0 :β 3 =0 etc. Vi kan också testa H 0 : β j = β * j H 1 : β j * * β j [eller H 1 : β j > (eller <) β j] * (där β j står för ett givet numeriskt värde) med testvariabeln t = b j s β b j * j som är t-fördelad med n-k-1 fg, när H 0 är sann. * (OBS I detta senare fall, när β j 0, beräknas testvariabelns värde inte av Minitab.) 5

Exempel på konfidensintervall och hypotesprövning Samma försäljningsdata som tidigare. Minitab ger: Regression Analysis: y versus x1; x The regression equation is y = 0,430 + 0,546 x1 + 0,50 x Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,30 x1 0,5464 0,165 3,36 0,00 x 0,501 0,185,75 0,040 S = 0,49813 R-Sq = 97,% R-Sq(adj) = 96,1% a) Beräkna ett 99% konfidensintervall för β i modellen y = β 0 + β 1 x 1 + β x + ε. b) Pröva på 5% signifikansnivå om parametern β är lika med 0 eller ej i modellen ovan. 6

Hypotesprövning rörande β 1, β,, β K tillsammans En fråga av intresse är om x 1, x,, x K tillsammans kan (linjärt) förklara något av variationen hos y (eller om man lika gärna kunde strunta i allihop). Det är kanske den frågan man ställer sig allra först vid regressionsanalys. Nollhypotesen är då att x 1, x,, x K tillsammans inte förklarar någonting alls: H 0 : β 1 = β = = β K = 0 H 1 : Ej alla lika med noll (dvs. minst en är 0) Som testvariabel används MSR F = (= F i ANOVA-tablån) MSE vilken är F-fördelad med K fg i täljaren och n-k-1 fg i nämnaren, när H 0 är sann. H 0 förkastas om (och endast om) vi får ett högt observerat värde på F. 7

Ex.: Samma försäljningsdata som tidigare. The regression equation is y = 0,430 + 0,546 x1 + 0,50 x Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,30 x1 0,5464 0,165 3,36 0,00 x 0,501 0,185,75 0,040 S=0,49813 R-Sq=97,% R-Sq(adj)=96,1% Analysis of Variance Source DF SS MS F P Regression 43,719 1,860 88,10 0,000 Resid. Error 5 1,41 0,48 Total 7 44,960 Pröva om x 1 och x tillsammans kan förklara variationen hos y. 8

Hypoteser: H 0 : β 1 = β = 0 H 1 : Ej båda lika med noll. Sign.-nivå: 1% Testvariabel: F = MSE/MSR ( fg i täljaren; 5 fg i nämnaren) Beslutsregel: H 0 förkastas om F obs > 13,7 Resultat: F obs = 88,10 > 13,7 Slutsats: H 0 förkastas på 1 % sign.-nivå. Starkt stöd för att x 1 och x tillsammans förklarar en del av variationen hos y. Alternativt: Se på p-värdet. Eftersom p-värdet här är < 0,01, så förkastar vi H 0 på 1% sign.- nivå. 9

Dummyvariabler Bland de förklarande variablerna i regressionsanalys kan vi också ha kategoriska (kvalitativa) variabler. Dessa kodas med nollor och ettor, varvid vi får s.k. dummyvariabler (0/1-variabler), som sedan används som vanliga x-variabler i beräkningarna. Ex.: Variabeln kön, som antar värdena man och kvinna, kan kodas om till en dummyvariabel som antar värdet 0 för man och 1 för kvinna. Hur gör man med en kategorisk variabel som antar fler än två värden? T.ex. de fyra värdena hyresrätt, bostadsrätt, egen villa och annan bostadsform? Det tar vi inte upp på den här kursen. (Men vanligt är att man låter en kategorisk variabel med c kategorier ge upphov till c-1 dummyvariabler.) 10

Ex.: Data över oljeförbrukning under en månad i tio villor. (Olika månad för olika villor.) y = oljeförbrukn. under månaden (liter) x 1 = medeltemp. under månaden ( C) x = bostadsyta (m ) x 3 = tilläggsisoler. eller ej (dummyvar.) Villa y x1 x Isolering x3 1 70 17,8 170 Nej 0 100 16,6 10 Ja 1 3 185 1, 150 Nej 0 4 300 7,1 190 Ja 1 5 310,8 110 Ja 1 6 650 0,1 50 Ja 1 7 55 -,9 140 Ja 1 8 640-3,1 155 Nej 0 9 550-0,7 180 Nej 0 10 75 4,4 130 Ja 1 Regression Analysis: y versus x1; x; x3 The regression equation is y = 46-7,9 x1 + 1,8 x - 67,7 x3 Predictor Coef SE Coef T P Constant 46,1 37,94 6,49 0,001 x1-7,875 1,167-3,89 0,000 x 1,8181 0,198 8,7 0,000 x3-67,68 17,43-3,88 0,008 S=6,591 R-Sq=99,0% R-Sq(adj)=98,5% 11

Tolkning av värdena på b 1, b och b 3 : b 1 = -7,9: När medeltemperaturen ökar en grad, så minskar oljeförbrukningen med ungefär 8 liter per månad, vid oförändrad bostadsyta och oförändrad isoleringstyp. b = 1,8: När bostadytan ökar med en m, så ökar oljeförbrukningen med ungefär 1,8 liter per månad, vid oförändrad medeltemperatur och oförändrad isoleringstyp. b 3 = -67,7: Tilläggsisolering ger en minskad oljeförbrukning med ungefär 68 liter per månad, vid oförändrad medeltemperatur och oförändrad bostadsyta. När x 3 = 0, så blir det predicerade y-värdet: y ˆ = b + b x + b 0 1 1 När x 3 = 1, så blir det predicerade y-värdet: x yˆ = ( b 1443 0 + b3 ) OBS + b x 1 1 + b x 1

Korrelationsanalys Se avsnitt 1.1 i NCT. Data: (x 1, y 1 ), (x, y ),, (x n, y n ) Antag: Stickprov från en bivariat normalfördelning med okänd korrelation, ρ, mellan x och y. Då kan vi testa ifall populationskorrelationen är skild från noll. Testvariabel: H 0 : ρ = 0 H 1 : ρ 0 (eller H 1 : ρ > 0, eller H 1 : ρ < 0) t = r n 1 r som är t-fördelad med n- frihetsgrader, ifall H 0 är sann. 13

Ex.: I ett stickprov på 30 personer har man mätt två olika variabler och fått korrelationskoefficienten r = 0,34. Testa på 5% signifikansnivå ifall korrelationen mellan variablerna i populationen, ρ, kan tänkas vara större än noll. Förutsättning: Populationen har en bivariat normalfördelning. Hypoteser: H 0 : ρ = 0 H 1 : ρ > 0 Sign.-nivå: 5% Testvariabel: t = r n 1 r Frihetsgrader: n = 30 = 8 Beslutsregel: H 0 förkastas om t obs > 1,701 Resultat: t obs = 0,34 1 8 0,34 = 1,913 > 1,701 Slutsats: H 0 förkastas på 5% signifikansnivå. Signifikant pos. korrelation. 14

Kommentarer till kursboken: 1. Avsnittet 493-494 ( Test on a Subset of Regression Coefficients ) hoppar vi över på den här kursen.. Avsnitt 13.6 ( Prediction ) gås inte igenom på föreläsningarna. Läs igenom själva. Lär er framför allt hur man gör med Minitab, och hur utskriften skall tolkas. Se exempel på Minitab-utskrift på sid 499. 3. Avsnitt 13.7 ( Transformations for Nonlinear Regression Models ) gås inte igenom på föreläsningarna. Läs igenom kursivt. 15