Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011
Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi är intresserade av. Låt y vara vårt studieobjekt. Låt x 1, x 2,..., x K vara K variabler som möjligen påverkar y. För att undersöka vilka variabler som påverkar y mest och på vilket sätt har vi två viktiga redskap: korrelationsmatrisen beräknad för samtliga variabler y och x 1, x 2,..., x K. Det är den vanliga korrelationen mellan alla par av variabler som har stoppats in i en matris. spridningsdiagram mellan samtliga variabler y och x 1, x 2,..., x K. Vissa program tillhandahåller en s k matrisplot.
Korrelationsmatrisen Stickprovets korrelationsmatris y x 1 x 2 x 3... x K y 1 r y,x1 r y,x2 r y,x3... r y,xk x 1 1 r x1,x 2 r x1,x 3... r x1,x K x 2 1 r x2,x 3... r x2,x K x 3 1... r x3,x K....... x K 1 Korrelationsmatrisen i populationen y x 1 x 2 x 3... x K y 1 ρ y,x1 ρ y,x2 ρ y,x3... ρ y,xk x 1 1 ρ x1,x 2 ρ x1,x 3... ρ x1,x K x 2 1 ρ x2,x 3... ρ x2,x K x 3 1... ρ x3,x K....... x K 1
Exempel på en korrelationmatris: Datamaterialet Vi använder exempel 12.3 (Profit Margins of Savings and Loan Association) på sidan 515 i boken. Variablerna är vinst (Y ), inkomst (X 1 ) och antal kontor (X 2 ). Datamaterialet ges i SAS-utskriften:
Korrelationsmatrisen
Multipel regression Vi har en beroende variabel y och K stycken oberoende variabler x 1, x 2,..., x K. Då ges den multipla regressionsmodellen som y = β 0 + β 1 x 1 + β 2 x 2 + + β K x K + ε där feltermerna ε uppfyller: E (ε t) = 0 (störningsantagandet); modellen är i genomsnitt korrekt. Var (ε t) = σ 2 (homoskedasticitetsantagandet); feltermerna har samma ändliga varians. De stokastiska variablerna ε t är oberoende. (feltermerna korrelerar ej med varandra). ε N(0, σ 2 ); feltermerna ε är normalfördelade. Dessutom ska det inte vara möjligt att någon av de oberoende variablerna x 1, x 2,..., x K kan skrivas som lineärkombination av de andra.
Multipel regression Vi skattar parametrarna β 0, β 1, β 2,..., β K, σ med minsta-kvadrat metoder. De skattade parametrarna betecknas b 0, b 1, b 2,..., b K. (Lägg märke till att σ saknas)
Multipel regression skriven med hjälp av matriser Den multipla regressionsmodellen med K st oberoende variabler y i = β 0 + β 1 x i1 + β 2 x i2 + + β K x ik + ɛ i i = 1,..., n d v s y 1 = β 0 + β 1 x 11 + β 2 x 12 + + β k x 1k + ɛ 1 y 2 = β 0 + β 1 x 21 + β 2 x 22 + + β k x 2k + ɛ 2. y n = β 0 + β 1 x n1 + β 2 x n2 + + β k x nk + ɛ n Vi skriver ekvationssystemet med hjälp av matriser: β y 1 1 x 11 x 12 x 0 1k y 2 = 1 x 21 x 22 x 2k β 1 β 2 + y n 1 x n1 x n2 x nk β k ɛ 1 ɛ 2 ɛ n.
Multipel regression skriven med hjälp av matriser Vi kan alltså skriva modellen som där y = y 1 y 2 y n, β = X = β 0 β 1 β 2 β k y = Xβ + ɛ, 1 x 11 x 1k 1 x 21 x 2k 1 x n1 x nk och ɛ = ɛ 1 ɛ 2 ɛ n.
Multipel regression skriven med hjälp av matriser Minimera S (β) = ɛ ɛ = (y Xβ) (y Xβ) vilket ger normalekvationerna ( X X ) b = X y. Om inversen av matrisen (X X) existerar, så kan vi lösa ekvationen så att vi får: b = ( X X ) 1 X y. Residualerna e i där e = e 1 e 2 e n, ŷ= ŷ 1 ŷ 2 ŷ n e = y ŷ, = Xb = X (X X) 1 X y = Hy, där H = X ( X X ) 1 X.
Normalekvationerna-enkel lineär regression Vi minns ekvationssystemet för att hitta b 0 och b 1. ( n ) n nb 0 + x i b 1 = i=1 ( n ) ( n x i b 0 + ) i=1 xi 2 b 1 = i=1 i=1 i=1 y i n x i y i Vi kan skriva ( n n i=1 x i n i=1 x i n i=1 x i 2 ) ( b0 b 1 ) = ( n i=1 y ) i n i=1 x iy i