Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017
Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera termisk energi) beror av temperaturen. För var och en av fem temperaturer gör man två mätningar av värmepakaciteten med fäljande resultat: Temperatur (C) 30 40 50 60 70 värmeskapacitet 0.70 0.74 0.78 0.80 0.82 0.72 0.73 0.75 0.78 0.81
Modellbeskrivning Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x i ), i = 1,..., n: Y i = β 0 + β 1 x i + ε i (1) ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet Parametern β 0 kallas för intercept. Parameternβ 1 kallas för lutningskoefficient.
Modellbeskrivning Ett annat sätt att skriva upp modellen på är Y i N(β 0 + β 1 x i, σ 2 ), Vi har ett linjärt samband som bestämmer väntevärdet hos Y och en mätfelsvarians σ 2 som beskriver de enskilda observationernas variation kring väntevärdet β 0 + β 1 x. Givet ett stickprov (Y 1, x 1 ), (Y 2, x 2 ),..., (Y n, x n ) vill vi nu skatta linjen, alltså parametrarna β 0 och β 1, samt spridningen kring linjen, σ 2. När vi skattat parametrarna kan vi för ett givet värde på x skatta Y.
Minsta-kvadratmetoden Antag den lite mer generella modellen att väntevärdet för Y ges av en funktion f: E(Y i ) = f(θ 1,..., θ k, x i ) Parametrarna θ 1,..., θ k skattas enligt minsta-kvadratmetoden genom att minimera kvadratfelet för den datan vi har S(θ 1,..., θ k ) = n (y i f(θ 1,..., θ k, x i )) 2 med avseende på parametrarna θ 1,..., θ k. Lösningen brukar fås som lösningen till ekvationerna S θ i = 0, för i = 1,..., k Ekvationssystemet löses av θ1,..., θ k MK-skattningarna av θ 1,..., θ k. som kallas för
Sats 1 MK-skattningarna av β 0 och β 1 ges av β1 = S xy/s xx och β0 = ȳ β 1 x där S xx = S yy = S xy = n n (x i x) 2 = x 2 i n x 2 n (y i ȳ) 2 = n yi 2 nȳ 2 n (x i x)(y i ȳ) = n x i y i n xȳ Variansparametern σ 2 skattas som s 2 = Q 0 n 2 där Q 0 = n (y i β 0 β 1x i ) 2 = S yy β 1S xx = S yy S2 xy S xx
Skattningar för exemplet Vi skattar nu linjen i exemplet ovan. Vi har x = 50, ȳ = 0.763 och S xx = S yy = S xy = 10 10 10 och får därför skattningarna x 2 i 10 x 2 = 27000 10 50 2 = 2000 y 2 i 10ȳ 2 = 5.8367 10 0.763 2 = 0.01501 x i y i 10 xȳ = 386.8 10 50 0.763 = 5.3 β 1 = S xy /S xx = 5.3/2000 = 0.00265 β0 = ȳ β1 x = 0.6305 ( ) s 2 = 1 S yy S2 xy n 2 S xx = 0.00012, s = 0.00012 = 0.011
Den skattade regressionslinjen β 0 + β 1 x
Sats 2 Vi har att E(Ȳ ) = β 0 + β 1 x och V(Ȳ ) = σ2 n. Dessutom är E(β 1) = β 1 Vi ser alltså att β 1 V(β 1) = σ2 S xx = är väntevärdesriktig. σ 2 n (x i x) 2 Sats 3 Med µ Y (x 0) = β 0 + β 1 x 0 är E(µ Y (x 0 )) = β 0 + β 1 x 0 samt [ 1 V(µ Y (x 0 )) = σ 2 n + (x 0 x) 2 ] S xx Med x 0 = 0 ser vi β 0 är väntevärdesriktig.
Skattningarnas fördelningar Sats Om ε i är normalfördelade gäller att Ȳ, β 0, β 1 och β 0 + β 1 x 0 också är normalfördelade. Eftersom skattarna är summor av Y i så gäller enligt CGS satsen approximativt även om ε i avviker från normalfördelningen. Sats Om ε i är normalfördelade så gäller att (n 2)s 2 σ 2 χ 2 (n 2) vidare är s 2 oberoende av Ȳ, β 0, β 1 och β 0 + β 1 x 0.
Konfidensintervall och test Låt θ vara någon av β 0, β 1 eller β 0 + β 1 x 0. Vi vet att dessa skattningar är normalfördelade och vi har tagit fram variansen av skattningarna. Låt d(θ ) vara standardavvikelsen för skattningen, vi har då att T = θ θ d(θ ) t(n 2) vilken på vanligt sätt används för att göra test och bilda konfidensintervall, I θ = (θ ± t α/2 (n 2)d(θ ))
Konfidensintervall Konfidensintervall för β 0 : I β0 = β 0 ± t α/2 (n 2)s 1 n + x2 S xx Konfidensintervall för β 1 : ( ) I β1 = β1 s ± t α/2 (n 2) Sxx Konfidensintervall för µ Y (x 0 ) = β 0 + β 1 x 0 : I µy (x 0 ) = β 0 + β1x 1 0 ± t α/2 (n 2)s n + (x 0 x) 2 S xx
Prediktionsintervall Ibland vill man veta var en framtida observation kommer vara för ett visst värde på x, då används ett prediktionsintervall. Skillnaden mellan ett prediktionsintervall I Y (x0 ) och ett konfidensintervall I µy (x 0 ) är att I µy (x 0 ) talar om var väntevärdet troligen ligger, medan I Y (x0 ) talar om var en framtida observation troligen ligger. Eftersom observationerna har en viss spriding kring linjen så måste prediktionsintervallet vara bredare än konfidensintervallet, och man kan visa att Y (x 0 ) N (β 0 + β 1 x 0, σ 2 (1 + 1n + (x 0 x) 2 ) ). S xx Ett prediktionsintervall bildas nu som I Y (x0 ) = β 0 + β1x 0 ± t α/2 (n 2)s 1 + 1 n + (x 0 x) 2 S xx
Konfidensintervall och prediktionsintervall
Modellvalidering En mycket viktig komponent i en regressionsanalys är validering av modellen, vilket betyder att vi måste försäkra oss om att det är lämpligt att ansätta en enkel regressionsmodell. Det vanligaste sättet att göra detta på är att beräkna de så kallade residualerna e i = y i β 0 β 1x i Om modellen är korrekt bör dessa residualer vara ungefär normalfördelade med väntevärde noll. inte uppvisa någon speciell struktur som funktion av x. ha ungefär samma variation för alla olika värden på x, vi får till exempel inte ha att variansen verkar vara större för stora värden på x. Undersök visuellt genom att plotta residualerna som funktion av x och använda normalfördelningsdiagram. Modellvalidering