MVE051/MSG Föreläsning 14

Relevanta dokument
MVE051/MSG Föreläsning 7

Föreläsning 12: Linjär regression

Matematisk statistik för D, I, Π och Fysiker

F13 Regression och problemlösning

Tenta i Statistisk analys, 15 december 2004

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 11: Mer om jämförelser och inferens

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Grundläggande matematisk statistik

Föreläsning 12: Regression

Enkel och multipel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F9 Konfidensintervall

Föreläsning 13: Multipel Regression

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Formler och tabeller till kursen MSG830

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Exempel på tentamensuppgifter

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Industriell matematik och statistik, LMA /14

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematisk statistik, Föreläsning 5

Regressions- och Tidsserieanalys - F1

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Stokastiska processer med diskret tid

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i Matematisk Statistik, 7.5 hp

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 7: Punktskattningar

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Regressions- och Tidsserieanalys - F1

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Föreläsning 7: Punktskattningar

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 12: Repetition

Föreläsning 12, FMSF45 Hypotesprövning

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

8 Inferens om väntevärdet (och variansen) av en fördelning

40 5! = 1, ! = 1, Om man drar utan återläggning så kan sannolikheten beräknas som 8 19

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Matematisk statistik TMS064/TMS063 Tentamen

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Metod och teori. Statistik för naturvetare Umeå universitet

TMS136. Föreläsning 13

Tentamen MVE302 Sannolikhet och statistik

FÖRELÄSNING 8:

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

AMatematiska institutionen avd matematisk statistik

TMS136. Föreläsning 10

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Tentamen MVE301 Sannolikhet, statistik och risk

Statistik B Regressions- och tidsserieanalys Föreläsning 1

TMS136. Föreläsning 11

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Tentamen MVE301 Sannolikhet, statistik och risk

Formel- och tabellsamling i matematisk statistik

GMM och Estimationsfunktioner

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsning G60 Statistiska metoder

Finansiell statistik. Multipel regression. 4 maj 2011

Lycka till!

4 Diskret stokastisk variabel

Föreläsning 15: Faktorförsök

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

SF1901 Sannolikhetsteori och statistik I

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Transkript:

MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016

Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska variable. Variablerna antas vara stickprov från modeller med vissa parametrar. Vi estimerar dessa parametrar, och kan sen göra prediktioner från modellerna när parametrarna är lika med estimaterna. Ett alternativ är att vi bara modellerar hur vissa variabler (de beroende variablerna) beror på andra variabler (de oberoende variablerna). Denna typ modeller kallas regressionsmodeller. Oberoende variablar kan även kallas förklarande variablar, eller prediktorer. De är inte stokastiska variabler, men vanliga matematiska variabler. Vid experiment är de värden som fastställs av experimenteraren oberoende variabler. Beroende variabler kan även kallas responsvariabler. De är stokastiska variable med en sannolikhetsfördelning för varje kombination av värden för de oberoende variablen. Märk: Det är inte alltid uppenbart vilka variable som skall vara oberoende eller beroende. Men valet gör skillnad i analysen!

Enkel regression I denna kursen tittar vi bara på situationen där vi har en oberoende variabel x och en beroende variabel Y : Detta kallas enkel regression (simple regression). I denna kursen tittar vi bara på situationen där väntevärdet för Y givet x, µ Y x, är en linjär funktion av x, alltså där det finns konstanter β 0 och β 1 så att för alla värden av x har vi µ Y x = β 0 + β 1 x. Detta kallas enkel linjär regression (simple linear regression). Det finns metoder för att undersöka om en sådan modell är rimlig för data: För oss gäller att vi behöver göra ett scatterplot för att värdera om linjär regression kan vara en rimlig modell. Kanske kan en transformation av data göra att en linje passar bättre?

Minimum residualkvadratsumma Anta vi har observerade data (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) och vill hitta interceptet β 0 och lutningskvoten β 1 så att linjen β 0 + β 1 x passar till data. För fixerade värden β 0 och β 1 så kan vi för i = 1, 2..., n skriva där e 1, e 2,..., e n är residualerna. y i = β 0 + β 1 x i + e i En standard metod för att estimera β 0 och β 1 är att välja de som minimerar residulalkvadratsumman n i=1 e2 i (kallas även SSE). Minimum kan hittas genom att sätta lika med noll de partiella deriverade med hänsyn till β 0 och β 1 av residualkvadratsumman.

β 0 och β 1 som minimerar residualkvadratsumman Om vi definerar n S xx = (x i x) 2 n S yy = (y i y) 2 n S xy = (x i x)(y i y) i=1 i=1 i=1 ˆβ 1 = S xy /S xx ˆβ 0 = y ˆβ 1 x så minimerar ˆβ 0 och ˆβ 1 residualkvadratsumman. Med dessa ˆβ 0 och ˆβ 1 får vi tex. att n i=1 e i = 0. Märk: Om vi innan beräkningarna centrerar data, dvs. drar av x från alla värden x i och motsvarande för y, så blir formlerna mycket enkla: ˆβ 1 = ˆβ 0 = 0 n x i y i / i=1 n i=1 x 2 i

Beräkningsformler för ˆβ 0 och ˆβ 1 Det snabbaste sättet att beräkna ˆβ 0 och ˆβ 1 direkt från data är följande formler: ˆβ 1 = n n i=1 x iy i ( n i=1 x ( n i) i=1 y ) i n n i=1 x i 2 ( n i=1 x ) 2 i ˆβ 0 = y ˆβ 1 x I praktiken: 1. Beräkna n i=1 x i, n i=1 x i 2, n i=1 y i, och n i=1 x iy i från data. 2. Sätt in i formlerna över.

Modellantagningar Vi önskar göra som vi brukar: Titta på egenskaperna till estimatorerna över för β 0 och β 1 som stokastiska variabler. Därmed måste vi beskriva exakt de stokastiska variablerna Y 1, Y 2,..., Y n : Vi antar Y 1, Y 2,..., Y n är oberoende och, för i = 1,..., n, Y i Normal(β 0 + β 1 x i, σ) där σ är en tredje parameter i modellen. En (väntevärdesrätt) estimator för σ 2 är ˆσ 2 = n i=1 e2 i n 2 = SSE n 2.

Estimatorernas fördelningar Estimatorerna ˆβ 1, ˆβ 0 och ˆσ 2 har med antagningarna över oberoende fördelningar som kan specificeras med σ ˆβ 1 Normal β 1, n i=1 (x i x) 2 ˆβ 0 Normal β 0, (n 2)ˆσ 2 n σ i=1 x i 2 /n n i=1 (x i x) 2 σ 2 χ 2 (n 2) Genom att kombinera dessa fördelningar kan vi ta fram formler för konfidensintervaller och tester för β 0, β 1 och andra värden.

Hypotestest och konfidensintervall för lutningskvoten β 1 Antag vi vill jämföra H 0 : β 1 = b 1 med H 1 : β 1 b 1 för någon känd b 1 (oftast b 1 = 0). Test statistikan är ( ˆβ 1 b 1 )/(ˆσ/ S xx ) och den har fördelning T (n 2) när H 0 är sann. Förkastningsområdet ligger därför utanför ett intervall [ t α/2, t α/2 ] på samma sätt som liknande hypotestest. Vi får även ett konfidensintervall för β 1 på formen ˆβ 1 ± t α/2ˆσ/ S xx Märk: Nollhypotesen H 0 : β 1 = 0 motsvarar att det inte finns något (linjärt) samband mellan x och Y!

Hypotestest och konfidensintervall för interseptet β 0 Antag vi vill jämföra H 0 : β 0 = b 0 med H 1 : β 0 b 0 för någon känd b 0 (oftast b 0 = 0). Test statistikan är ( ˆβ ( n 0 b 0 )/ ˆσ i=1 x i 2/ ns xx ), och den har fördelning T (n 2) när H 0 är sann. Förkastningsområdet ligger därför utanför ett intervall [ t α/2, t α/2 ] på samma sätt som liknande hypotestest. Vi får även ett konfidensintervall för β 0 på formen n ˆσ i=1 ˆβ 0 ± t x i 2 α/2 nsxx Märk: För vissa tillämpningar är det naturligt med en modell β 0 = 0.

Konfidensintervall för väntevärdet µ Y x för ny observation Antag vi vill studera väntevärdet µ Y x för en ny observation Y givet ett (nytt) värde av x. Vi har estimatorn ˆµ Y x = ˆβ 0 + ˆβ 1 x. Vi får ett konfidensintervall på formen 1 (x x)2 ˆµ Y x ± t α/2ˆσ + n S xx där t α/2 är kvantil i en T (n 2) fördelning. Innan man använder modellen som över måste man diskutera om den är giltig för den givna x: Det är lättare att argumentera för interpolation än extrapolation!

Konfidensintervall för ny observation Y Antag vi vill studera värdet för en ny observation Y givet ett (nytt) värde av x. Estimatorn har samma väntevärde som över: Ŷ x = ˆµ Y x = ˆβ 0 + ˆβ 1 x. Men variansen är större! Vi får ett konfidensintervall på formen Ŷ x ± t α/2ˆσ 1 + 1 n där t α/2 är kvantil i en T (n 2) fördelning. + (x x)2 S xx Innan man använder modellen som över måste man diskutera om den är giltig för den givna x: Det är lättare att argumentera för interpolation än extrapolation!