1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet
2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys. Vi har nu er än en oberoende variabel. I Svårare att välja bästa modell I Svårare att visualisera skattad modell I Tolkningar kan vara svårare I Krångligare beräkningar - men vi har datorer!
3/23 Multipel regressionsmodell I En beroende variabel Y och k oberoende variabler X 1, X 2,..., X k. Y = β 0 + β 1 X 1 + β 2 X 2 +...β k X k + E
4/23 Exempel med 2 oberoende variabler Vi vill beskriva sambandet mellan sparande och inkomst och utgift där Y = sparande, X 1 = inkomst, och X 2 = utgift. Vi funderar på följande modell: Y = β 0 + β 1 X 1 + β 2 X 2 + E Möjliga (men inte alla) alternativa modeller är Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 2 1 + β 4 X 2 2 + E Vilken modell ska vi välja? Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 1 X 2 + E
5/23 Exempel med 2 oberoende variabler forts. Om vi börjar med den enklaste modellen vill vi hitta det plan som bäst passar data. I Ett sätt: minimera de kvadrerade avvikelserna från planet: n i=1 (Y i by i ) 2 = n i=1 (Y i bβ 0 bβ 1 X i1 bβ 2 X i2 ) 2
6/23 Statistiska antaganden för en multipel linjär modell I Existence I Oberoende I Linjäritet I Homoskedasticitet I Normalfördelning
7/23 Statistiska antaganden för en multipel linjär modell Existence För varje kombination av värden på X 1, X 2,..., X k är Y en stokastisk variabel med en viss sannolikhetsfördelning med ändligt medelvärde och varians.
8/23 Statistiska antaganden för en multipel linjär modell Oberoende Y -observationerna är statistiskt oberoende
9/23 Statistiska antaganden för en multipel linjär modell Linjäritet µ Y jx1,x 2,...,X k = β 0 + β 1 X 1 + β 2 X 2 +... + β k X k
10/23 Statistiska antaganden för en multipel linjär modell Homoskedasticitet Variansen för Y är densamma för varje x kombination av X 1, X 2,..., X k, dvs σ 2 Y jx 1,X 2,...,X k = σ 2
11/23 Statistiska antaganden för en multipel linjär modell Normalfördelning Y är normalfördelad för varje x kombination av X 1, X 2,..., X k.
12/23 Hur skattas parametrarna? Att bestämma en multipel regressionsekvation I Minsta kvadratmetoden
13/23 Minsta kvadratmetoden Bästa ekvationen är den som minimerar summan av de kvadrerade avvikelserna mellan de observerade Y -värdena och de skattade Y -värdena. Låt by i = bβ 0 + bβ 1 X 1i + bβ 2 X 2i +... + bβ k X ki Summan av de kvadrerade avvikelserna kan skrivas n i=1(y i by ) 2 = n i=1(y i bβ 0 bβ 1 X 1i bβ 2 X 2i... bβ k X ki ) 2 Minsta kvadratskattningarna är de värden bβ 0, bβ 1,...,bβ k som minimerar nämnda kvadratsumma.
14/23 ANOVA-tabell Uppdelning av variation i Y Total variation i Y kan delas upp i av regressionen förklarad variation i Y och oförklarad variation i Y n i=1 SSY = SSR + SSE (Y i Y ) 2 = n i=1 ( by i Y ) 2 + n i=1 (Y i by i ) 2
15/23 ANOVA-tabell Källa df SS MS F Modell k SSR MSR=SSR/k MSR/MSE Fel n k 1 SSE MSE=SSE/(n k 1) Total n 1 SSY=SSR+SSE R 2 = SSY SSE SSY
16/23 Exempel med sparande, inkomst och utgift Vi samlar in data från 8 distrikt data one; input fors bef annons; cards; 5.4 5 5 3.8 4.2 3 10.6 10 9 5.2 4.4 3.5 4.5 3.6 5 2.7 1.3 2 2.5 2.7 1.8 4.5 3 4.7 ; proc gplot; plot fors*bef fors*annons; proc reg; model fors=bef annons; run;
17/23 Spridningsdiagram fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 annons
18/23 Spridningsdiagram fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 10 bef
19/23 Exempel med sparande, inkomst och utgift forts. Modell: MODEL1 Beroendevariabel: sparande Antal lästa observationer 13 Antal använda observationer 13 Variansanalys Modell 2 71.92534 35.96267 17.87 0.0005 Fel 10 20.12235 2.01223 Korrigerad total 12 92.04769 Rot MSE 1.41853 R kvadrat 0.7814 Beroende medel 3.76923 Just. R kvadr. 0.7377 Koeff.var. 37.63454 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 18.85816 5.08556 3.71 0.0041 inkomst 1 0.11676 0.01964 5.95 0.0001 boende 1 0.02642 0.03170 0.83 0.4241
20/23 Uppgift En ekonom är intresserad av att undersöka sambandet mellan låneinstituts vinster, avkastning samt antal kontor. Hon samlar in uppgifter om vinst, Y (1000-tals kr.), avkastning, X 1 (1000-tals kr.) och antal kontor, X 2. Följande tre modeller beaktas Y = β 0 + β 1 X 1 + E Y = β 0 + β 2 X 2 + E Y = β 0 + β 1 X 1 + β 2 X 2 + E Se datautskrifter på följande sidor. 1. Vad är SSY samt SSE i regressionsanalyserna? 2. Bestäm R 2 -värdena för respektive modell 3. Använd minsta kvadrat-ekvationen med två oberoende variabler. Vad är den uppskattade vinsten för ett institut med en avkastning på 5000 kr samt 10 kontor?
21/23 Uppgift Modell 1 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 2 0.40151 0.20076 70.66 0.000 Fel 22 0.06250 0.00284 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.56450 0.07940 19.70 0.000 x1 1 0.23720 0.05556 4.27 0.000 x2 1 0.00025 0.00003 7.77 0.000
22/23 Uppgift Modell 2 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 1 0.22990 0.22990 22.59 0.000 Fel 23 0.23412 0.01018 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.2362 0.1386 9.57 0.000 x1 1 0.16913 0.03559 4.75 0.000
23/23 Uppgift Modell 3 Beroendevariabel: y Antal lästa observationer 25 Antal använda observationer 25 Variansanalys Modell 1 0.34973 0.34973 70.38 0.000 Fel 23 0.11429 0.00497 Korrigerad total 24 0.46402 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 1.5460 0.1048 14.75 0.000 x2 1 0.00012 0.000014 8.39 0.000