732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Relevanta dokument
Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

10.1 Enkel linjär regression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F3

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F4

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen i matematisk statistik

Multipel Regressionsmodellen

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen Tillämpad statistik A5 (15hp)

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Examinationsuppgifter del 2

Föreläsning G60 Statistiska metoder

Skrivning i ekonometri torsdagen den 8 februari 2007

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

F7 Polynomregression och Dummyvariabler

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Skrivning i ekonometri lördagen den 29 mars 2008

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

Föreläsning 4. Kap 5,1-5,3

Räkneövning 3 Variansanalys

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Tentamen i matematisk statistik

7.5 Experiment with a single factor having more than two levels

F13 Regression och problemlösning

Föreläsning 12: Linjär regression

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

F11. Kvantitativa prognostekniker

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

oberoende av varandra så observationerna är

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen Tillämpad statistik A5 (15hp)

tentaplugg.nu av studenter för studenter

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Grundläggande matematisk statistik

8.1 General factorial experiments

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12: Regression

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Exempel 1 på multipelregression

Bayesiansk statistik, 732g43, 7.5 hp

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri lördagen den 15 januari 2005

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 2 multipel linjär regression

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Matematisk statistik, Föreläsning 5

TENTAMEN I STATISTIK B,

Statistik 1 för biologer, logopeder och psykologer

Tentamen Tillämpad statistik A5 (15hp)

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Regressions- och Tidsserieanalys - F5

Finansiell statistik. Multipel regression. 4 maj 2011

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Kvadratisk regression, forts.

Tentamen i Matematisk statistik Kurskod S0001M

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Skrivning i ekonometri lördagen den 25 augusti 2007

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Datorövning 1 Enkel linjär regressionsanalys

Transkript:

732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Exempel, enkel linjär regressionsanalys Ett företag vill veta hur mängden lokalt inriktad annonsering påverkar företagets försäljning i ett område. Hur mycket förväntas försäljningen öka för varje extra tusenlapp som företaget lägger på annonseringskostnader? Hur stor försäljning kan företaget förvänta sig för en annonseringskostnad på 40 000 kr? Bertil Wegmann (IDA, LiU) 732G71, Statistik B 2 / 20

Kap. 3.1, enkel linjär regressionsmodell y = beroende variabel, responsvariabel, undersökningsvariabel (exemplet: försäljning) x = oberoende variabel, prediktorvariabel, förklaringsvariabel (exemplet: annonseringskostnad) Modellen antar att det linjära sambandet mellan x och y kan beskrivas med en rät linje. Vi kan visuellt inspektera om sambandet ser linjärt ut genom att titta på ett spridningsdiagram (scatter plot). Bertil Wegmann (IDA, LiU) 732G71, Statistik B 3 / 20

Exempel, enkel linjär regressionsanalys y = försäljning (miljontals kr), x = annonsering (tiotusentals kr) Distrikt y i x i 1 5.4 5 2 3.8 3 3 10.6 9 4 5.2 3.5 5 4.5 5 6 2.7 2 7 2.5 1.8 8 4.5 4.7 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 4 / 20

Spridningsdiagram Bertil Wegmann (IDA, LiU) 732G71, Statistik B 5 / 20

Kap. 3.1, enkel linjär regressionsmodell y = β 0 + β 1 x + ɛ µ y x = β 0 + β 1 x är medelvärdet för den beroende variabeln y då värdet på den oberoende variabeln är x. β 0 är linjens skärning med y-axeln då x = 0. β 1 är linjens lutning som anger hur mycket den beroende variabeln y förväntas förändras vid en enhets ökning av den oberoende variabeln x. ɛ är en felterm som anger hur mycket ett värde på den beroende variabeln avviker från linjen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 6 / 20

Kap. 3.2, minstakvadratskattningar för skärning och lutning Utifrån ett stickprov om n stycken observationer på x och y kan vi beräkna skattningar för β 0 och β 1, vilka vi betecknar som b 0 och b 1. b 1 = SS xy SS xx = (x i x) (y i ȳ) (x i x) 2 b 0 = ȳ b 1 x = x iy i ( x i )( y i ) n x 2 i ( x i ) 2 n Bertil Wegmann (IDA, LiU) 732G71, Statistik B 7 / 20

Summan av de kvadrerade avvikelserna från linjen SSE = e 2 i = (y i ŷ i ) 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 8 / 20

Spridningsdiagram med inritad skattad regressionslinje Bertil Wegmann (IDA, LiU) 732G71, Statistik B 9 / 20

Minitab-utskrift för den skattade regressionslinjen Regression Analysis: Forsaljning versus Annonsering Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 40,9143 40,9143 60,68 0,000 Annonsering 1 40,9143 40,9143 60,68 0,000 Error 6 4,0457 0,6743 Lack-of-Fit 5 3,6407 0,7281 1,80 0,511 Pure Error 1 0,4050 0,4050 Total 7 44,9600 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,821147 91,00% 89,50% 73,51% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 0,436 0,642 0,68 0,523 Annonsering 1,050 0,135 7,79 0,000 1,00 Regression Equation Forsaljning = 0,436 + 1,050 Annonsering Bertil Wegmann (IDA, LiU) 732G71, Statistik B 10 / 20

Kap. 3.3, uppskattningar och prognoser Anpassad/Skattad regressionslinje: ŷ = b 0 + b 1 x, där ŷ är en punktskattning av medelvärdet för y då värdet på den oberoende variabeln är x. ŷ är också en punktskattning för ett enskilt värde på y då värdet på den oberoende variabeln är x. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 11 / 20

Kap. 3.4, modellantaganden för regressionsmodellen y = β 0 + β 1 x + ɛ 1. För varje x-värde är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje x-värde har värdena på feltermen en konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje x-värde följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 12 / 20

Variansskattning: MSE och standard error (standardfel) Om antagandena är uppfyllda för regressionsmodellen och SSE är summan av de kvadrerade avvikelserna från linjen så gäller följande: Punktskattning för σ 2 (MSE) är s 2 = SSE n 2 Punktskattning för σ (standardfel) är s = s 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 13 / 20

Kap. 3.5, signikanstest för skärning och lutning Test för lutning (om antagandena håller) på signikansnivån α. H 0 : β 1 = 0 H a : β 1 = 0 t = b 1 s, där b s b1 = s 1 SSxx. H 0 förkastas om t > t [α/2],(n 2) Test för skärning (om antagandena håller) på signikansnivån α. H 0 : β 0 = 0 H a : β 0 = 0 t = b 0 1 s, där b s b0 = s 0 n + x2 SS xx. H 0 förkastas om t > t [α/2],(n 2) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 14 / 20

Kap. 3.6, kondensintervall Om modellantagandena håller är ett 100(1 α)% kondensintervall för lutningen β 1 lika med [b 1 ± t [α/2],(n 2) s b1 ] Bertil Wegmann (IDA, LiU) 732G71, Statistik B 15 / 20

Distance value Distance value är ett mått på avståndet mellan ett värde x 0 på den oberoende variabeln till dess genomsnitt x: Distance value = 1 n + (x 0 x) 2 SS xx Bertil Wegmann (IDA, LiU) 732G71, Statistik B 16 / 20

Kondensintervall för medelvärdet av y för x 0 Det skattade medelvärdet för y är ŷ = b 0 + b 1 x 0 Om modellantagandena håller är ett 100(1 α)% kondensintervall för det sanna medelvärdet av y, µ y x0, lika med [ ŷ ± t [α/2],(n 2) s ] Distance value Bertil Wegmann (IDA, LiU) 732G71, Statistik B 17 / 20

Prognosintervall för ett enskilt värde på y för x 0 Det skattade medelvärdet för y är ŷ = b 0 + b 1 x 0 Om modellantagandena håller är ett 100(1 α)% prognosintervall för y vid värdet x 0 lika med [ ŷ ± t [α/2],(n 2) s ] 1 + Distance value Bertil Wegmann (IDA, LiU) 732G71, Statistik B 18 / 20

Kap. 3.7, förklaringsgrad (determinationskoecienten) Förklaringsgraden, r 2, är ett mått på hur stor andel av variationen i den beroende variabeln y som kan förklaras med hjälp av den oberoende variabeln x. Total variation = F örklarad variation + Of örklarad variation SST = SSR + SSE (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 r 2 = SSR SST Bertil Wegmann (IDA, LiU) 732G71, Statistik B 19 / 20

Kap. 3.7, korrelationskoecienten Korrelationskoecienten, r, är ett mått på hur starkt det linjära sambandet är mellan y och x: r = r = ± r 2 SS xy SSxx SS yy Bertil Wegmann (IDA, LiU) 732G71, Statistik B 20 / 20