MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016
Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska variable. Variablerna antas vara stickprov från modeller med vissa parametrar. Vi estimerar dessa parametrar, och kan sen göra prediktioner från modellerna när parametrarna är lika med estimaterna. Ett alternativ är att vi bara modellerar hur vissa variabler (de beroende variablerna) beror på andra variabler (de oberoende variablerna). Denna typ modeller kallas regressionsmodeller. Oberoende variablar kan även kallas förklarande variablar, eller prediktorer. De är inte stokastiska variabler, men vanliga matematiska variabler. Vid experiment är de värden som fastställs av experimenteraren oberoende variabler. Beroende variabler kan även kallas responsvariabler. De är stokastiska variable med en sannolikhetsfördelning för varje kombination av värden för de oberoende variablen. Märk: Det är inte alltid uppenbart vilka variable som skall vara oberoende eller beroende. Men valet gör skillnad i analysen!
Enkel regression I denna kursen tittar vi bara på situationen där vi har en oberoende variabel x och en beroende variabel Y : Detta kallas enkel regression (simple regression). I denna kursen tittar vi bara på situationen där väntevärdet för Y givet x, µ Y x, är en linjär funktion av x, alltså där det finns konstanter β 0 och β 1 så att för alla värden av x har vi µ Y x = β 0 + β 1 x. Detta kallas enkel linjär regression (simple linear regression). Det finns metoder för att undersöka om en sådan modell är rimlig för data: För oss gäller att vi behöver göra ett scatterplot för att värdera om linjär regression kan vara en rimlig modell. Kanske kan en transformation av data göra att en linje passar bättre?
Minimum residualkvadratsumma Anta vi har observerade data (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) och vill hitta interceptet β 0 och lutningskvoten β 1 så att linjen β 0 + β 1 x passar till data. För fixerade värden β 0 och β 1 så kan vi för i = 1, 2..., n skriva där e 1, e 2,..., e n är residualerna. y i = β 0 + β 1 x i + e i En standard metod för att estimera β 0 och β 1 är att välja de som minimerar residulalkvadratsumman n i=1 e2 i (kallas även SSE). Minimum kan hittas genom att sätta lika med noll de partiella deriverade med hänsyn till β 0 och β 1 av residualkvadratsumman.
β 0 och β 1 som minimerar residualkvadratsumman Om vi definerar n S xx = (x i x) 2 n S yy = (y i y) 2 n S xy = (x i x)(y i y) i=1 i=1 i=1 ˆβ 1 = S xy /S xx ˆβ 0 = y ˆβ 1 x så minimerar ˆβ 0 och ˆβ 1 residualkvadratsumman. Med dessa ˆβ 0 och ˆβ 1 får vi tex. att n i=1 e i = 0. Märk: Om vi innan beräkningarna centrerar data, dvs. drar av x från alla värden x i och motsvarande för y, så blir formlerna mycket enkla: ˆβ 1 = ˆβ 0 = 0 n x i y i / i=1 n i=1 x 2 i
Beräkningsformler för ˆβ 0 och ˆβ 1 Det snabbaste sättet att beräkna ˆβ 0 och ˆβ 1 direkt från data är följande formler: ˆβ 1 = n n i=1 x iy i ( n i=1 x ( n i) i=1 y ) i n n i=1 x i 2 ( n i=1 x ) 2 i ˆβ 0 = y ˆβ 1 x I praktiken: 1. Beräkna n i=1 x i, n i=1 x i 2, n i=1 y i, och n i=1 x iy i från data. 2. Sätt in i formlerna över.
Modellantagningar Vi önskar göra som vi brukar: Titta på egenskaperna till estimatorerna över för β 0 och β 1 som stokastiska variabler. Därmed måste vi beskriva exakt de stokastiska variablerna Y 1, Y 2,..., Y n : Vi antar Y 1, Y 2,..., Y n är oberoende och, för i = 1,..., n, Y i Normal(β 0 + β 1 x i, σ) där σ är en tredje parameter i modellen. En (väntevärdesrätt) estimator för σ 2 är ˆσ 2 = n i=1 e2 i n 2 = SSE n 2.
Estimatorernas fördelningar Estimatorerna ˆβ 1, ˆβ 0 och ˆσ 2 har med antagningarna över oberoende fördelningar som kan specificeras med σ ˆβ 1 Normal β 1, n i=1 (x i x) 2 ˆβ 0 Normal β 0, (n 2)ˆσ 2 n σ i=1 x i 2 /n n i=1 (x i x) 2 σ 2 χ 2 (n 2) Genom att kombinera dessa fördelningar kan vi ta fram formler för konfidensintervaller och tester för β 0, β 1 och andra värden.
Hypotestest och konfidensintervall för lutningskvoten β 1 Antag vi vill jämföra H 0 : β 1 = b 1 med H 1 : β 1 b 1 för någon känd b 1 (oftast b 1 = 0). Test statistikan är ( ˆβ 1 b 1 )/(ˆσ/ S xx ) och den har fördelning T (n 2) när H 0 är sann. Förkastningsområdet ligger därför utanför ett intervall [ t α/2, t α/2 ] på samma sätt som liknande hypotestest. Vi får även ett konfidensintervall för β 1 på formen ˆβ 1 ± t α/2ˆσ/ S xx Märk: Nollhypotesen H 0 : β 1 = 0 motsvarar att det inte finns något (linjärt) samband mellan x och Y!
Hypotestest och konfidensintervall för interseptet β 0 Antag vi vill jämföra H 0 : β 0 = b 0 med H 1 : β 0 b 0 för någon känd b 0 (oftast b 0 = 0). Test statistikan är ( ˆβ ( n 0 b 0 )/ ˆσ i=1 x i 2/ ns xx ), och den har fördelning T (n 2) när H 0 är sann. Förkastningsområdet ligger därför utanför ett intervall [ t α/2, t α/2 ] på samma sätt som liknande hypotestest. Vi får även ett konfidensintervall för β 0 på formen n ˆσ i=1 ˆβ 0 ± t x i 2 α/2 nsxx Märk: För vissa tillämpningar är det naturligt med en modell β 0 = 0.
Konfidensintervall för väntevärdet µ Y x för ny observation Antag vi vill studera väntevärdet µ Y x för en ny observation Y givet ett (nytt) värde av x. Vi har estimatorn ˆµ Y x = ˆβ 0 + ˆβ 1 x. Vi får ett konfidensintervall på formen 1 (x x)2 ˆµ Y x ± t α/2ˆσ + n S xx där t α/2 är kvantil i en T (n 2) fördelning. Innan man använder modellen som över måste man diskutera om den är giltig för den givna x: Det är lättare att argumentera för interpolation än extrapolation!
Konfidensintervall för ny observation Y Antag vi vill studera värdet för en ny observation Y givet ett (nytt) värde av x. Estimatorn har samma väntevärde som över: Ŷ x = ˆµ Y x = ˆβ 0 + ˆβ 1 x. Men variansen är större! Vi får ett konfidensintervall på formen Ŷ x ± t α/2ˆσ 1 + 1 n där t α/2 är kvantil i en T (n 2) fördelning. + (x x)2 S xx Innan man använder modellen som över måste man diskutera om den är giltig för den givna x: Det är lättare att argumentera för interpolation än extrapolation!