1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet
2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att undersöka samband mellan en beroende variabel Y och en eller era oberoende variabler X 1, X 2,..., X k. Regressionsanalys kan användas vid följande situationer: I Man vill undersöka sambandet mellan en beroende variabel Y och era oberoende variabler X 1, X 2,..., X k I Man vill uttrycka en beroende variabel Y som en funktion av oberoende variabler X 1, X 2,..., X k. I Man vill undersöka sambandet mellan X 1, X 2,..., X k och Y och samtidigt kontrollera för andra variabler C 1, C 2,..., C p som man tror skulle kunna ha ett samband med Y
3/31 Kap 4: Introduktion till regressionsanalys. Introduktion I Man vill bestämma den bästa matematiska modellen för att beskriva sambandet mellan en beroende variabel och en eller era oberoende variabler. I Man vill jämföra regressionssamband mellan olika grupper. I Man vill undersöka interaktionse ekter för två eller era oberoende variabler på den beroende variabeln.
4/31 Kap 4: Introduktion till regressionsanalys. Introduktion I Korrelation innebär inte kausalitet. I Statistiska modeller är inte deterministiska modeller
5/31 Kap 4: Introduktion till regressionsanalys. Introduktion Historia I Galton (1886) I I I Samband mellan föräldrars och barns längder Barn till korta föräldrar tenderade att vara lite längre, i genomsnitt, än sina föräldrar, medan barn till långa föräldrar tenderade att vara lite kortare, i genomsnitt, än sina föräldrar regress toward the mean
6/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel I Vi vill veta om kundkretsens storlek (befolkning i 100 000 pers) samt mängden lokalt inriktad annonsering (i 10 000 kr) påverkar företagens försäljning (i milj kr). I Hur mycket skulle vi gissa att försäljningen skulle vara för ett företag som hade en kundkretsstorlek på 300 000 samt en annonsering på 20 000 kr?
7/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Vi samlar in data från 8 distrikt data one; input fors bef annons; cards; 5.4 5 5 3.8 4.2 3 10.6 10 9 5.2 4.4 3.5 4.5 3.6 5 2.7 1.3 2 2.5 2.7 1.8 4.5 3 4.7 ; proc gplot; plot fors*bef fors*annons; proc reg; model fors=bef annons; run;
Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 10 bef 8/31
Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. fors 11 10 9 8 7 6 5 4 3 2 1 2 3 4 5 6 7 8 9 annons 9/31
10/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. F örsäljning \ = 0.86 + 0.95 Befolkning F örsäljning \ = 0.45 + 1.05 Annonsering F örsäljning \ = 0.43 + 0.55 Befolkning + 0.50 Annonsering
11/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Slutsats I Vi kan se att företag i distrikt med större kundkretsar har högre försäljning än företag i distrikt med mindre kundkretsar I Vi kan se att företag som annonserar mera har högre försäljning än företag som annonserar mindre I Det kan vara så att storlek på kundkrets samt annonsering påverkar försäljning
12/31 Kap 4: Introduktion till regressionsanalys. Introduktion Exempel forts. Hur ser vår bästa uppskattning ut? I Hur mycket skulle vi gissa att försäljningen skulle vara för ett företag som hade en kundkretsstorlek på 300 000 samt en annonsering på 20 000 kr? I Om vi inte tar hänsyn till de förklarande variablerna skulle vår bästa gissning bli medelvärdet för försäljningen i de 8 distrikten: 4.9 milj. kr. I Tar vi hänsyn till de förklarande variablerna blir vår bästa gissning: \ F örsäljning = 0.43 + 0.55 3 + 0.50 2 = 3.08
13/31 Enkel linjär regressionsanalys En beroende variabel Y och en oberoende variabel X n observationer (individer, företag, tidpunkter... ) med värden på X och Y. y x 1 L x k y 1 x 11 L x k1 M M M y n x 1n L x kn
14/31 Enkel linjär regressionsanalys. Två grundläggande frågor: 1. Vilken matematisk modell är mest lämplig? 2. Hur skattar vi parametrarna i denna modell?
15/31 1. Vilken matematisk modell är mest lämplig? I Forward Method I Backward Method I Teori
16/31 Räta linjens ekvation y = β 0 + β 1 x
17/31 Statistisk modell Y = β 0 + β 1 X + E
18/31 Statistiska antaganden för en linjär modell I Existence I Oberoende I Linjäritet I Homoskedasticitet I Normalfördelning
19/31 Statistiska antaganden för en linjär modell Existence För varje x värde på X är Y en stokastisk variabel med en viss sannolikhetsfördelning med ändligt medelvärde och varians.
20/31 Statistiska antaganden för en linjär modell Oberoende Y -observationerna är statistiskt oberoende
21/31 Statistiska antaganden för en linjär modell Linjäritet µ Y jx = β 0 + β 1 X
22/31 Statistiska antaganden för en linjär modell Homoskedasticitet Variansen för Y är densamma för varje X, dvs för alla X. σ 2 Y jx = σ2
23/31 Statistiska antaganden för en linjär modell Normalfördelning Y är normalfördelat för varje x värde på X.
2. Hur skattas parametrarna? Att bestämma en rät linje I Minsta kvadratmetoden I Minsta variansmetoden 8 6 Sparande 4 2 0 2 180 190 200 210 220 230 Inkomst 240 250 260 270 24/31
Minsta kvadratmetoden Bästa linjen är den som minimerar summan av de kvadrerade avvikelserna från linjen i Y -led. Låt by i vara det skattade värdet på Y vid X i baserat på den skattade regressionslinjen: by i = bβ 0 + bβ 1 X i där bβ 0 är den skattade linjens skärning och bβ 1 är den skattade linjens lutning. Summan av de kvadrerade avvikelserna från linjen kan skrivas n i=1(y i by ) 2 = n i=1(y i bβ 0 bβ 1 X i ) 2 Minsta kvadratskattningarna är de bβ 0 och bβ 1 som minimerar nämnda kvadratsumma. 25/31
26/31 Minsta kvadratskattningar Bästa linjen bestäms av formlerna: bβ 1 = n i=1(x i X )(Y i Y ) n i=1(x i X ) 2 bβ 0 = Y bβ 1 X där Y är stickprovsmedelvärdet för Y -observationerna och X är stickprovsmedelvärdet för X -observationerna.
27/31 Minsta kvadratskattningar Exempel. Inkomst Sparande 181 2,2 190 1,0 200 0,0 210 6,0 220 3,1 225 3,5 226 4,4 228 5,1 228 5,4 233 4,7 237 3,9 240 6,1 260 8,0
28/31 Minsta kvadratskattningar Exempel forts. 8 6 Sparande 4 2 0 2 180 190 200 210 220 230 Inkomst 240 250 260 270
29/31 Minsta kvadratskattningar Exempel forts. Modell: MODEL1 Beroendevariabel: sparande Antal lästa observationer 13 Antal använda observationer 13 Variansanalys Modell 1 70.52804 70.52804 36.05 <.0001 Fel 11 21.51965 1.95633 Korrigerad total 12 92.04769 Rot MSE 1.39869 R kvadrat 0.7662 Beroende medel 3.76923 Just. R kvadr. 0.7450 Koeff.var. 37.10808 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 21.20274 4.17709 5.08 0.0004 inkomst 1 0.11280 0.01879 6.00 <.0001
30/31 Minsta kvadratskattningar Exempel forts. bβ 0 = 21.203 I Linjens skärning av Y -axeln I Det förväntade värdet på sparande för en person med en inkomst på 0 kronor: I Om en person har en inkomst på 0 kronor förväntar vi oss att sparandet är 21203 kronor (dvs negativt sparande) I Obs! Är detta rimligt? Om värdet 0 ej nns i vårt undersökta material är tolkningen ej rimlig. Riskabelt att extrapolera utanför det undersökta området
31/31 Minsta kvadratskattningar Exempel forts. bβ 1 = 0.113 I Lutningen/riktningen I Om inkomsten ökar med 1000 kronor ökar i genomsnitt sparandet med 113 kronor I En person som har 1000 kr mer i inkomst än en annan person sparar i genomsnitt 113 kr mer. I Obs! Sambandet behöver ej vara kausalt!