Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x i x i : oberoende variabel (prediktor, kovariat) kända, inga slumpvariabler! y i : målvariabel (responsvariabel) behäftade med brus (mätningar), slumpvariabler 1
Linjär Regression mätvärden x i, y i regressionslinje Vi antar att det finns ett linjärt sammanhang mellan x och y: y = α + β x α och β är okända, vi söker skattningar för dem skattningarna görs baserad på stickprovet stickprov = mätningar av talpar x i, y i y i Modell för bruset ε 3 ε 4 ε 5 ε 6 mätvärden regressionslinje ε 1 ε 2 α + β x 3 x 1 x 2 x 3 x 4 x 6 x i Modell för att hantera bruset: y i = α + β x i + ε i i = 1, 2,, n n = antal mätningar (stickprovsstorlek) ε i = brus ε i ~ N 0, σ E ε i = 0 V ε i = σ 2 2
Modell för bruset Antaganden: ε i normalfördelade ε i oberoende ε i har alla samma varians ( homoscledasticity ) Att hitta den bästa regressionslinjen Minsta-kvadrat metoden (least squares method): Idè Q = i ε i 2 Min Q : kvadratsumma (sum of squares) regressionslinjen ( ------ ) ska läggas så att Q mimimeras använder kvadraten av ε i så att positiva och negativa värden inte jämnas ut Att bestämma α och β så att Q mimimeras: Q α, β = i ε i 2 = y i α β x 2 i Min i 3
ҧ ҧ 2018-10-04 Att hitta den bästa regressionslinjen Q α, β = i ε i 2 = y i α β x 2 i Min i partiella deriveringar måsta vara noll linjära ekvationer för α och β (allt annat känt från stickprovet) två ekvationer, 2 variabler Att hitta den bästa regressionslinjen Lösningar: β = S xy α = തy β xҧ S xx (det är faktiskt ekvation 1) skattningar för α och β n S xy = x i x y i തy = x i y i nxҧ തy i=1 n i=1 i=1 S xx = x i x 2 = x 2 i nxҧ 2 n i=1 OBS!: α och β är slumpvariabler (beror på stickprovet) : nytt stickprov ändrar ε i y i S xy α n För varje x 0 får man nu en skattning av målvariabeln (x 0 måste inte överensstämma med någon x i ): 4
ҧ 2018-10-04 Skattning av brusets varians Vi ville minimera Q. Hur stor blev det?: Q α, β = y i α β x 2 i Mata in värden som minimerar Q, alltså α och β : i Q 0 = y i α β x 2 i = y i തy + β x β x i i Q 0 = S yy S xy 2 S xx i α helt känd från stickprovet 2 = Man kan använda ML-metoden för att hitta en skattning för σ 2 i N μ, σ. Detta ger Q 0 Τ n. Skattningen måste dock korrigeras för att bli väntevärdesriktigt: s r 2 = Q 0 n 2 E s r 2 = σ 2 s r 2 är en väntevärdesriktigt skattning för σ 2 (och s r en väntevärdesriktigt skattning för σ) σ 2 = s r 2 σ = s r skattning för varians av bruset i N μ, σ Denna formel är åskadligt: ju större Q = σ i ε i 2, desto större σ (se bild ovan). Att hitta den bästa regressionslinjen 5
Exempel, fortsättning även för x som aldrig mätts Beräkning av regressionslinjen μ 0 y i För varje x 0 får man nu en skattning av målvariabeln: regressionslinje: lutning: β intercept: α α x 0 x i o x 0 kan även ligga mellan de mätna x i -värden o α och β är slumpvariabler μ 0 är en slumpvariabel (förändras när nytt stickprov tas). 6
ҧ ҧ ҧ 2018-10-04 Fördelning för de skattade variabler Vi har sett att α, β, μ 0, är slumpvariabler. Vilken fördelning har dem? y i = α + β x i + ε i y i ~ N i = 1, 2,, n ε i ~ N målvariablerna y i är normalfördelade, eftersom bruset ε i är normalfördelad Man kan räkna ut att (lite krångligt, se Appendix): α och β är linjärkombinationer av normalfördelade slumpvariabler (y i ) α, β, μ 0 ~ N Regressionsvariablerna α, β, μ 0 är normalfördelade. Fördelning för de skattade variabler Regressionsvariablerna α, β, μ 0 är normalfördelade. Vi kan räkna ut deras väntevärde, varians och standardavvikelse: E β V β = = β = = σ2 S xx väntevärdesriktig skattning (se Appendix för härledning) konsistent, eftersom n S xx = x i i=1 x 2 när n n E μ 0 = E α + β x 0 = E d i + c i x 0 Y i = = α + β x 0 = μ 0 i=1 n V μ 0 = V α + β x 0 = V i=1 1 n + c i x 0 x Y i = = σ 2 1 n + x 0 xҧ 2 S xx utnyttjat att d i = 1 c n i x (Variansen är stor när x 0 ligger långt ifrån x ҧ ) Väntevärde och varians för α följer från uttrycket för μ 0 genom att sätta x 0 = 0. 7
Fördelning för de skattade variabler Vi vet nu att α, β, μ 0 är normalfördelade, och vi vet vilka väntevärden och vilka standardavvikelser de har. Det betyder att vi känner till deras fördelning: fördelning för skattning av lutningen (om ε i ~N) fördelning för skattning av interceptet fördelning för skattning av målvariabeln om x 0 = 0 blir detta fördelningen för α Alla skattningar är väntevärdesriktiga och konsistenta. Konfidensintervall för β Vi vill räkna ut ett intervall som omfattar det sanna värdet β med en viss sannolikhet (oftast med 95% sannolikhet) = konfidensintervall. Vi utnyttjar fördelningen för β, som vi har fått ovan: fördelning för skattning av lutningen Om σ var känt hade detta varit en referensvariabel. Om σ inte är känt ersätts σ med respektive skattning s r. Som vi har sett förut (föreläsning intervallskattning) måste vi samtidigt ändra fördelningen: σ s r Om σ är okänt är detta en referensvariabel (följer t-fördelningen med f = n 2 frihetsgrader). 8
Konfidensintervall för β referensvariabel σ s r Allmän metod för att härleda ett KI (se föreläsning intervallskattning): stäng in referensvariabeln mellan kvantilerna (för t-fördelningen) omforma i parantesen P tills β stängs in mellan kända storheter I β = β ± tα 2 n 2 s r S xx 1 α 100% konfidensintervall för lutningen (när σ är okänd) punktskattning kvantil medelfel Analogt kan vi härleda ett konfidensintervall för interceptet α : I α = α ± tα Τ2 n 2 s r 1 + x2 ҧ n 1 α 100% konfidensintervall S xx för interveptet när σ är okänd Mest är lutningen viktigare: om lutningen inte är noll (dvs. om KI:et inte går över noll) betyder det att det finns ett samband mellan x och y. Exempel, KI för β 9
Konfidensintervall för μ 0 referensvariabel σ s r där medelfel Allmän metod för att härleda ett konfidensintervall : stäng in referensvariabeln mellan kvantilerna (för t(n 2)-fördelningen) omforma i parantesen P tills μ 0 stängs in mellan kända storheter I μ0 = μ 0 ± tα n 2 d 1 α 100% konfidensintervall 2 för målvariabeln (σ okänd) punktskattning kvantil medelfel Sammanfattning KI 10
Exempel, KI för μ 0 Konfidensintervall för μ 0 I μ0 = μ 0 ± tα n 2 s 2 r 1 n + x 0 xҧ 2 S xx 1 α 100% konfidensintervall för målvariabeln x 0 är den punkt på x-axeln för den vi vill ha ett KI för målvariabeln. Ovanstående formel visar att konfidensintervallet blir bredare om x 0 är längre bort från x ҧ (från medelvärdet av alla x-värden), eftersom medelfelet blir större. Konfidesintervallet har följande (typisk) form: o längre bort från xҧ blir skattningarna mera osäkra (KI blir bredare) o en extrpolation långt bort från alla x i borde inte göras bild från https://rpubs.com/aaronsc32/regress ion-confidence-prediction-intervals 11
Förklaringsgrad (R) Hur bra fungerade regressionslinjen? (How good is the fit?) R nära noll R nära ett S xy 2 2 R 2 = = 1 σ y i y i S xx S yy σ y i തy 2 förklaringsgrad, definition dålig anpassning 0 R 2 1 bra anpassning R 2 = r 2 xy (för enkel linjär regression) r xy = c xy s x s y korrelationskoefficient c xy = kovarians Icke-linjär sammanhang mellan x och y o inget problem alls! o vi kan ändå använda linjär regression o med linjär menas att koefficienterna α och β uppträder linjärt Exempel 1: kvadratiskt samband y i = α + β x i 2 + ε i z i = x i 2 y i = α + β z i + ε i kvadratisk term för x x i är ju kända, z i = nya mätvärden vanlig linjär regression α, β beräknas μ 0 = α + β z 0 = α + β x 0 2 blir en parabel! Exempel 2: exponentiellt samband y i = α + β e x i 2 + ε i z i = e x i 2 OBS!: I R kan man beräkna icke-linjära samband direkt: funktion : lm() 12
Motivering för linjär Regression o det måste kollas om linjär regression kan användas o rent tekniskt fungerar det alltid att räkna ut en regressionslinje (dvs. α och β ) alla fyra stickprov ger samma regressionslinje! Det är därför viktikt att rita en diagram! Dessutom borde värdet på R 2 vara nära 1. Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att ε i ~ N 0, σ, dvs. att alla ε i har samma varians: V ε i = σ 2 För att kolla om detta stämma kan man plotta ε i mot x-värden: bruset borde skingras runt noll, och inte bli systematiskt större eller mindre med x (borde inte se ut som ett strut) residuals = resid(lm.out) plot(residuals, x) 13
Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att ε i ~ N 0, σ, dvs. att bruset (ε i ) är normalfördelat. För att kolla om detta stämmer kan man rita en så kallad QQ-plot: inte bra! flertalet av punkterna borde ligga på den röda linjen residuals = resid(lm.out) qqnorm(residuals) qqline(residuals) Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att brusets värden ε i är oberoende. För att kolla om detta stämmer kan man rita en autokorrelations-plot: övre konfidensgräns Flertalet (helst alla) värden på autokorrelation borde vara små, dvs. mindre än konfidensgränserna (blå linje -------) nedre konfidensgräns auto.cor = acf(resid(lm.out)) plot(auto.cor) 14
Appendix Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Skattning β är en linjärkombination av y i : orna 15
Skattning α är en linjärkombination av y i : orna Skattning β är väntevärdesriktig 16
Skattning β är konsistent Variansen för β är liten om x - värdena är utspredda (stor S xx )! Referensvariabel för beräkning av KI för β 17
Referensvariabel för beräkning av KI för β Z Konfidensintervall för β 18
Konfidensintervall för μ 0 19