1/11 REGRESSIONSANALYS Exempel från F6 Linda Wänström Statistiska institutionen, Stockholms universitet
2/11 Datamaterial Amerikanskt datamaterial från 1970 "Income guarantees and the working poor" där man bl.a. tittade på mäns arbetsval. Man uppskattade bl.a. en regressionsmodell med antal arbetade timmar under ett år (T) som beroende variabel och timlön (TL), partners årsinkomst (PI), övrig famils årliga inkomst (FI), årlig inkomst exklusive lön (I), likvida medel (L) samt ålder (A) som oberoende variabler.
3/11 Analys I Frågeställning: Vi vill, för varje variabel, undersöka om variabeln bidrar till att skatta antalet arbetade timmar, utöver bidragen från de andra variablerna. I Typ av test: Partiellt F-test I Se SAS-utskriften (the GLM procedure) från föreläsning 6 (F6)
4/11 Vi gör ett partiellt F -test för att testa om timlön bidrar till att skatta antalet arbetade timmar utöver bidragen från partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder. Full modell: T = β 0 + β 1 TL + β 2 PI + β 3 FI + β 4 I + β 5 L + β 6 A + E Reducerad modell: T = β 0 + β 2 PI + β 3 FI + β 4 I + β 5 L + β 6 A + E H 0 : β 1 = 0 i full modell H 1 : β 1 6= 0 i full modell α = 0.05
5/11 F (TLjPI, FI, I, L, A) = SSR(TL, PI, FI, I, L, A) SSR(PI, FI, I, L, A) = MSE (TL, PI, FI, I, L, A) SS(TLjPI, FI, I, L, A) = MSE (TL, PI, FI, I, L, A) = 981.762303 941.2824 = = 1.04
6/11 Vi förkastar H 0 om vårt observerade värde är större än F 1,n p 2,1 α = F 1,35 5 2,0.95 = F 1,28,0.95 = 4.20 1.04 4.20. H 0 kan inte förkastas på 5% signi kansnivå. Vi får inget stöd för att timlön hjälper oss att skatta antalet arbetade timmar under året utöver bidragen från partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder. (Alternativt: vi får inget stöd för att timlön förklarar någon variation i antalet arbetade timmar under året utöver den variation som kan förklaras av partners årsinkomst, övrig familjs årsinkomst, årlig inkomst exklusive lön, likvida medel, samt ålder.)
7/11 Förklaring Täljaren i uträkningen ovan (981.762303) kom från Type III SS vilket ger SSR för varje variabel givet att alla andra variabler är med i modellen. Dessa typer av test kallar boken för variables added last test. Nämnare i uträkningen ovan (941.2824) kom från ANOVA-tablån från totala modellen (full).
8/11 Variabel added last test Gör vi nu på motsvarande sätt för varje variabel kan vi skapa en tabell för variable added last tests. Källa df SS MS F R 2 TLjPI, FI, I, L, A 1 981.76 981.76 1.04 0.811 PI jpi, FI, I, L, A 1 2388.86 2388.86 2.54 FI jpi, FI, I, L, A 1 7474.74 7474.74 7.94 I jpi, FI, I, L, A 1 115.32 115.32 0.12 LjPI, FI, I, L, A 1 2401.84 2401.84 2.55 AjPI, FI, I, L, A 1 1737.663 1737.663 1.85 Fel 28 26355.91 941.28 Total 34 139673.89
9/11 Slutsats Vi kan se att de oberoende variablerna tillsammans förklarar 81.13% av variationen i antal arbetade timmar. Men behövs alla oberoende variabler i modellen? Jämför vi F -värdena i tabellen ovan med det kritiska värdet 4.20 ser vi att det är bara en regressionskoe cient som är signi kant skild från 0 givet att alla variabler ingår i regressionsmodellen: koe cienten framför FI. Vi kan dessutom se detta direkt från p-värdena som nns i SAS-utskriften som hänger samman med dessa F -test: endast p-värdet för denna variabel är mindre än 0.05. Vilken slutsats kan vi då dra? Vi har endast stöd för att övrig familjs årliga inkomst bidrar till att förklara variation i antalet arbetade timmar utöver bidragen från övriga varaibler. Ska vi då modi era vår modell och ta bort alla icke-signi kanta variabler? Inte nödvändigtvis.
10/11 Slutsats Ett nästa steg skulle kunna vara att ta bort en variabel (exempelvis I som är den variabel vars test visar på högst p-värde (lägst F -värde). Här kan även teori spela in. Vilken variabel är minst viktig"? Efter att vi tagit bort en variabel kan vi skatta en ny regressionsekvation och titta på F -testen igen.
11/11 Alternativ till F-testen Tittar vi på SAS-utskriften ser vi att p-värdena för t-testen är exakt desamma som p-värdena för F -testen (Type III SS). Dessa test är ekvivalenta. Dessa F -värden är kvadraterna på dessa t-värden. Således spelar det ingen roll, när vi vill göra variable added last test, om vi använder partiella F -test eller dessa t-test.