Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017
Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x i ), i = 1,..., n: Y i = β 0 + β 1 x i + ε i (1) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β 0 och β 1 är parametrar som beskriver det linjära sambandet. Ett annat sätt att skriva upp modellen på är alltså att Y i N(β 0 + β 1 x i, σ 2 ), det vill säga att vi har ett linjärt samband som bestämmer väntevärdet hos Y och en viss mätfelsvarians σ 2 som beskriver de enskilda observationernas variation kring väntevärdet β 0 + β 1 x. Linjär regression
Ett exempel från fysikalisk kemi Hastigheten för en kemisk reaktion ökar ofta då temperaturen höjs. En grov tumregel är att hastigheten fördubblas för varje ökning av temperaturen med 10 K. Hastighetskonstantens temperaturberoende kan för en reaktion i de flesta fall modelleras med Arrhenius ekvation k = Ae Ea/(RT ) där E a är den så kallade (skenbara) aktiveringsenergin, R är den allmänna gaskonstanten och T är temperaturen. Aktiveringsenergin kan bestämmas experimentellt genom att man mäter k vid ett antal temperaturer och ansätter: log(k i ) = log(a) E a R 1 T i + ε i Med Y i = log(k i ) och x i = Ti 1 ser vi att detta är en regressionsmodell! Linjär regression Exempel
Mätningar från laborationer 2014 0 0.5 1 log(k) 1.5 2 2.5 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 1/T x 10 3 I kursen Fysikalisk kemi ingår en laboration om bestämning av hastighetskonstant för reaktionen mellan väteperoxid och jodidjon. Ovan ses datan från alla sju grupper från höstterminen 2014. Linjär regression Exempel
Resultat 0 0.5 1 log(k) 1.5 2 2.5 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 1/T x 10 3 Baserat på datan får vi β0 = log(a) = 25.6260 samt β1 = E a R = 8107. Alltså är A = 1.34 10 11 och Ea = 67kJ/mol. Linjär regression Exempel
Extrapolering En mycket viktig komponent i en regressionsanalys är validering av modellen, det är också viktigt att inse att vi inte kan vara säkra på att den linjära modellen stämmer för x utanför mätområdet. Linjär regression Modellvalidering
Modellbeskrivning Vi har gjort mätningar av en responsvariabel Y för fixerade värden på förklarande variabler x 1,..., x p, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i, x 1,i,..., x p,i ), i = 1,..., n: Y i = β 0 + β 1 x 1,i +... + β p x p,i + ε i (2) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β i är parametrar som beskriver beroendet. Vi kan formulera modellen på matrisform som där Y 1 Y =. Y n X = Y = Xβ + E 1 x 1,1 x p,1...... 1 x 1,n x p,n E = ε 1. ε n β = β 0. β p Multipel linjär regression
Parameterskattning Sats Givet att X T X är inverterbar fås minstakvadrat-skattningen av β som β = (X T X) 1 X T Y. Skattningarna är väntevärdesriktiga och vi har V (β i ) = σ 2 (diagonalelement nummer i+1 i (X T X) 1 ). Vidare är s 2 = Q 0 /(n p 1) där Q 0 = n (y i β0 β1x 1,i... βpx p,i ) 2 = Y T Y β T X T Y. i=1 Sats Med µ Y (x 0) = β 0 + β 1 x 0,1 + + β px 0,p är V(µ Y (x 0)) = σ 2 x 0 T (X T X) 1 x 0 Multipel linjär regression
Polynomregression 250 200 150 100 50 0 50 10 8 6 4 2 0 2 4 6 8 10 Multipel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x. Ansätt modellen Y i = β 0 + β 1 x i + β 2 x 2 i +... + β p x p i + ε i (3) Specialfall av multipel regerssion med x k = x k.
Förklaringsgrad och modellval För en given modell har vi Q 0 = Y T Y β T X T Y = S yy SSR Alltså kan den totala variationen i datan, S yy delas upp i en del som förklaras av linjen, SSR, och en del som är residualvariationen: S yy = Q 0 + SSR Andelen av variationen som förklaras av modellen brukar betecknas R 2 = SSR S yy. En viktig fråga är hur vi väljer vilka förklarande variabler som ska ingå i en multipel regressionsmodell. För att undersöka om x p bör tas med kan vi utföra hypotestest H 0 : β p = 0 H 1 : β p 0 genom att bilda teststorheten β p/d(β p) med kritiskt område C α = {T : T > t α/2 (n p 1)}. Multipel linjär regression
Stegvis regression (I) Låt (β 0, β i, β j ) beteckna modellen Y = β 0 + β i x i + β j x j + ε och låt Q 0 (β 0, β i, β j ) vara residualvariationen för modellen. Steg 1 Välj (β 0, β i1 ) där i 1 = arg min i Q 0 (β 0, β i ). Om β i1 är signifikant, gå till Steg 2a, annars välj (β 0 ) som modell och avsluta modellval. Steg 2a Välj (β 0, β i1, β i2 ) där i 2 = arg min i Q 0 (β 0, β i1, β i ). Om β i2 är signifikant, gå till Steg 2b, annars välj (β 0, β i1 ) som modell och avsluta modellval. Steg 2b Testa om β i1 är signifikant i (β 0, β i1, β i2 ). Behåll modellen om så är fallet, annars välj (β 0, β i2 ). Gå till steg 3a. Multipel linjär regression
Stegvis regression (II) Fortsätt iterera stegen i modellvalet: Steg m:a Aktuell modell är (β 0, β i1,..., β ik ). Välj (β 0, β i1,..., β ik, β ik+1 ) där i k+1 = arg min i Q 0 (β 0, β i1,..., β ik, β i ). Om β ik+1 är signifikant, gå till Steg m:a, annars välj (β 0, β i1,..., β ik ) som modell och avsluta modellval. Steg m:b Testa om någon parameter β j är icke-signifikant i (β 0, β i1,..., β ik, β ik+1 ). Om så är fallet, välj bort den med lägst värde på teststorheten, annars behåll alla parametrar. Gå till Steg (m + 1) : a. Multipel linjär regression