LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN Lktionsuppgiftr i rgrssionsanalys A A ENKEL LINJÄR REGRESSION Från n undrsökning av vilka faktorr som påvrkar prist på villor i n sydsvnsk ort insamlads n dl data som rdovisas ndan tillsammans md några summor. Hus Pris, y ( kr) Boyta, x ( kvm) r 3 3,4 7,4 3 4 4 6, 4 4???,89 6 9 7 -,3 7 8 9??? 8 7 4 -, 9 3 -,89 4,43 4 -,68 3 -,7 3 3 -,79 4 3 8,64 9 -,46 Summa: 7, y = 38 x = 3 xy = 479 -- a) Bstäm dn linjära rgrssionn av huspris på boyta. Tolka riktningskofficntns numriska värd i ord på tt bgripligt sätt. b) Ställ upp n fullständig ANOVA-tablå och tsta om dt finns något linjärt samband mllan huspris och boyta. c) Bräkna md hjälp av ANOVAn rsidualspridningn och dtrminationskofficintn ( R ). G n vrbal tolkning av d båda värdna. d) Bräkna korrlationskofficintn nligt kap 6.3 i Praktisk statistik. Kontrollra att sambandt dtrminationskofficintn R = korrlationn i kvadrat vrklign stämmr. ) Tsta om dt är statistiskt säkrställt att korrlationn är skild från noll. Använd mtodn från kapitl 8.7 i Statistisk dataanalys. f) Bstäm tt 9 % konfidnsintrvall för β. Tolka intrvallt i ord. g) Uppskatta prist för hus md n boyta på kvm. Bstäm ävn tt 9 % konfidnsintrvall för dt gnomsnittliga prist för hus md dnna boyta. h) Bstäm tt intrvall som md 9 % sannolikht ringar in prist för tt slumpmässigt valt hus md boytan kvadratmtr. i) Bräkna d två rsidualr som saknas. Tolka d framräknad värdna i ord. j) Plotta rsidualrna mot boyta i tt spridningsdiagram. Kommntra din figur. Finns dt något som tydr på avviklsr från modllantagandna.
3 4 B MULTIPEL LINJÄR REGRESSION A För vilkn/vilka av ndanstånd fyra figurr gällr att x = 9, och y = 7, samt att yˆ = 3, +, x r =,86 s =, 4 B Lös följand kvationssystm a) x + y = x y = 6 b) 3 = b + 3b 6 = 4b + b c) 3 = 7b + 4b 34 = 4b + 9b A3 För tt matrial omfattand 3 obsrvationr gjords n analys av sambandt mllan två variablr x och y. Följand rsultat kund utläsas ur rdovisningn. (i) variansn i y-variabln är (ii) rgrssionslinjn skrivs yˆ = 4 x (iii) och dtrminationskofficintn är 8 % a) Bräkna korrlationskofficintn. b) Bräkna rsidualspridningn. Ldning: Forml..4 i formlsamlingn llr ställ upp ( ) ANOVAn. Då kan dt vara bra att vta att variansn för y = y y SST s y = n n. c) Tsta om dt linjära sambandt är statistiskt säkrställt. B Från n undrsökning av vilka faktorr som påvrkar prist på villor i n sydsvnsk ort insamlads n dl data som rdovisas ndan tillsammans md några summor. S ävn A. Hus Pris, y ( kr) Boyta, x ( kvm) Tomt, x ( kvm) 3 7 3 4 4 9 4 4 4 8 6 9 7 8 7 8 9 8 7 4 6 9 3 4 4 4 4 3 4 3 3 4 4 3 8 9 4 Summa: 7 y = 38 x = 3 x = 9 x y = 479 x y = 77 x x = 47 a) Bstäm rgrssionn av huspris på boyta och tomtyta. Tolka på tt bgripligt sätt värdt på d båda b-kofficintrna. Jämför värdt på b md värdt i uppgift Aa. b) Ställ upp n fullständig ANOVA-tablå. Bräkna rsidualspridningn och dtrminationskofficintn. Jämför md motsvarand värdn från dn nkla rgrssionn i uppgift A. Kommntar! c) Tsta md hjälp av ANOVAn om modlln ska utökas md ävn tomtyta, dvs tsta hypotsn H : β = givt att boyta rdan finns i modlln. d) Bräkna rsidualrna för samma två obsrvationr som i uppgift A. Kommntar!
6 B3 a) Vad innbär bgrppt multikollinjäritt? b) Vilka följdr får multikollinjäritt på skattningarna och dras variansr? B4 En jämställdhtsdlgation vill härom årt undrsöka om kvinnor i n viss bransch had lägr lönr än männn. I n första pilotstudi valds slumpmässigt prsonr ut och man notrad dras värdn på d fyra variablrna lön (y, -tal kr), kön (x, =M =K), yrksrfarnht i år (x) samt utbildningsnivå (x3). Utbildningsnivån satts till antalt skolår plus llr minus några år bl. a. brond på typ av utbildning/xamn. Data och Minitabutskriftr finns i bilaga -3. Använd dssa! a) S bilaga övr. Hur stor är dn gnomsnittliga lönskillnadn mllan män och kvinnor? Är skillnadn statistiskt säkrställd? Tolka rsultatt av dt t-tst som är gnomfört md SPSS. b) S bilaga ndr. Ang rgrssionslinjn som visar hur inkomst (y) bror på kön (x). Rita in obsrvationrna och rgrssionslinjn och i tt spridningsdiagram. Tolka värdt på riktningskofficintn i ord. Jämför md a-uppgiftn! c) S bilaga ndr. Bräkna rsidualspridningn ur ANOVA-tablån. Tsta om β är skild från noll. Jämför md a-uppgiftn! d) S bilaga 3. Nu ska modlln ovan utökas md yttrligar n förklarand variabl, yrksrfarnht (x) llr utbildning (x3). Använd utskriftrna för att välja dn av variablrna som gr bäst modll tillsammans md kön (x). Valt av variabl ska tydligt motivras. Bstäm dn skattad rgrssionsmodlln md två förklarand variablr. Tolka värdt på b och b för dn nyinförda variabln i ord. ) Ställ upp n fullständig ANOVA-tablå och ang hur myckt dtrminationskofficintn ökat från modlln md n förklarand variabl till modlln md två förklarand variablr. Tsta också om tillskottt i förklaringsgrad är signifikant, dvs om dt är lönt att ta md ävn dn andra variabln. Tstt kan göras på flra sätt. Alla siffror som bhövs finns i bilaga 3. f) Rita in punktrna och d båda linjrna rgrssionsmodlln i d-uppgiftn motsvarar ju två paralllla linjr i tt spridningsdiagram. Använd olika symbolr för män rsp. kvinnor. C C C ICKE-LINJÄR REGRESSION Sambandt mllan vinst och produktionsvolym av n viss produkt var vid tt antal tidpunktr Vinst 33 38 3 37 3 Volym (-tal) 6 4 3 7 a) Rita in punktrna i tt spridningsdiagram. b) Anpassa n andragradskurva till punktrna samt rita in kurvan i figurn. c) Vilkn produktionsvolym gr störst vinst nligt dn anpassad kurvan? d) I vilkt intrvall ska produktionsvolymn hållas om vi vill hålla vinstn övr 3-nivån? Följand data för n vara förliggr, där Q = ftrfrågad kvantitt ( kg), P = prist och I = kundkrtsns inkomst i fast pnningvärd ( kr): År 99 996 997 998 999 Q 4, 4,9 4,8 46,8 47,7 P 6,3 6, 6,,6, I 7 6 66 66 6 log Q,64,63,66,67,679 log P,,4,7,93,8 log I,96,,,,7 Md hjälp av SPSS skattads dn multipla rgrssionsmodlln av log Q på log P och log I. Använd utskriftn ndan för att lösa uppgiftn. a) Skriv dn skattad lasticittsmodlln på dn ick-logaritmrad formn (SD sid 37). b) Vad blir pris- rspktiv inkomstlasticittrna? Tolka innbördn av dm i ord. c) Vad händr md ftrfrågan om inkomstrna ökar md 3 % och prisrna går upp 4 %? B Från tt stickprov om obsrvationr har vi bräknat följand. (i) s =, 8 y (ii) yˆ = 6,3,4x R =, 7 (iii) y ˆ = 4,,x +, x R =, 8 a) Bräkna s vid rgrssion av y på x. b) Bräkna s vid rgrssion av y på x och x. c) Tsta om dn multipla modlln är signifikant bättr än dn nkla. Log_P Log_I a. Dpndnt Variabl: Log_Q a -,844,97 -,99,8 -,97,67 -,38-3,636,68,6,34,7 6,698,
7 8 BILAGA BILAGA Prson Lön (y) (x) Erfarnht (x) Utbildning (x3) 99 8 4 89 8 3 9 8 4 4 4 8 7 6 6 8 6 7 36 9 8 3 8 9 99 7 3 9 3 38 4 3 3 7 4 4 9 9 6 6 6 396 7 6 7 6 6 8 338 7 9 493 7 99 9 Summa 3 8 3 Några summor för dn som vill kontrollräkna för hand = = = 3 3 = ( y y) 33 ( x x ) 4, 8 ( x x ) 66, ( x x ) 74, 9 ( x x)( y y) = ( x x )( y y), ( x x3)( y y) 8, ( = 3 = x x )( x x ) = 6, x x )( x x ) = 7, 4 x x )( x x ) = 86, ( 3 3 ( 3 3 T-Tst Lön Lön Equal variancs assumd Group Statistics Std. Error N Man Std. Dviation Man 98,7 79,36,9 8 94, 6,6 3, t df Indpndnt Sampls Tst Sig. (-taild) t-tst for Equality of Mans Man Diffrnc 9% Confidnc Intrval of th Std. Error Diffrnc Diffrnc Lowr Uppr 3,7 8,7 4,7 33,93 3,89 7,44 Summary Adjustd Std. Error of R R Squar R Squar th Estimat,86 a,344,37 74,33 a. Prdictors:, Total a. Prdictors:, b. Dpndnt Variabl: Lön ANOVA b Sum of Squars df Man Squar F Sig. 83,3 83,3 9,47,7 a 99449,7 8, 33, 9 a. Dpndnt Variabl: Lön a 98,7,46 3,896, -4,7 33,93 -,86-3,7,7
9 BILAGA 3 Svar till d numriska uppgiftrna Summary Adjustd Std. Error of R R Squar R Squar th Estimat??? a?????? 76, a. Prdictors:, Erfarnht, Total b. Dpndnt Variabl: Lön Erfarnht a. Dpndnt Variabl: Lön ANOVA b Sum of Squars df Man Squar 69,8 634,9 9884, 7 84, 33, 9 a 3,946 9,3,337, -,79 4,3 -,63 -,7,4??? 3,7 -,73 -,34,7 Summary Adjustd Std. Error of R R Squar R Squar th Estimat??? a?????? 4,44 a. Prdictors:, Utbildning, A a) yˆ =, +, x Hus vars boyta är kvm störr kostar i gnomsnitt kr mr. b) Orsak SS fg MS F R 33, 33, 36,8 E 6,89 3 8,99 T 448, 4 p-värdt <, % Ho förkastas, Dt är statistiskt säkrställt att dt finns tt linjärt samband mllan boyta och pris. c) s = 3, R = 73,9 % d) r =, 86 ) t = 6, 7 3 fg p <, % Ja, skild från noll f),±, 39 llr,7 < β <, g) ˆ µ =,496 +,74 =, 78,78 ±, 8 llr,9 µ 7, 6 3 < y x= < h),78 ± 6, 73 llr 9, < y x= <, i) 4 = y yˆ = 8, = + 4, 7 = y yˆ = 8 3,4 =, 4 Dn fjärd villan kostad ca 4 kr mr än förväntat pris för villor på 4 kvm. Dn sjund kostad ca 4 kr mindr än förväntat pris för villor på 9 kvm. j) Möjlign n svag tndns till att spridningn är lägr för d minsta husn mn dt är int spcillt tydlgt. Dt finns ingt som tydr på att n ick-linjär modll är bättr. 6, 4,, Uppgift Aj Total b. Dpndnt Variabl: Lön ANOVA b Sum of Squars df Man Squar 437,4 668,7 739,6 7 6, 33, 9, -, -4, -6, 8 4 6 8 Boyta a Utbildning a. Dpndnt Variabl: Lön 8,46 34,6,38,33-78,67 8,7 -,443-4,4,???,473,74 6,687, A3 a) r =,894 b),44 c) R 3 3 F = p <, % Alltså ska Ho förkastas E 8 8,7 Dt linjära sambandt är signifikant T 9 9
B a) x = 8 y = b) b = b = 7 c) b = 3, 6383 b = 4, 383 B a) y ˆ =,63+,93x +, 6x Givt samma tomtyta kostar hus md tio kvm störr boyta i gnomsnitt 93 kr mr (,93 ggr kr). Givt samma boyta kostar hus md tio kvm störr tomt i snitt 6 kr mr. B a),4 b),37 c) Ja F =, fg = (/8) p < % C b) yˆ = 3,7 + 3, x,7x c) 448 d) mllan 34 och 6 b) Orsak SS fg MS F R (x, x) 394, 97, 44, *** Först x 33, Tillskott x 63,9 63,9 4, ** E 3,8 4,483 T 448, 4 s =, R = 88, % n ökning md 4, %-nht c) F = 4, Kritiskt F =4,7 ( %, fg = /) p < % Ho förkastas. (Tabllvärdt på %- nivån är 9,33 så p < % också.) Vi har sålds påvisat att β, dvs att ävn x (tomtyta) ska inkludras i modlln. d) = y yˆ =,34 =, 34 = y yˆ = 8,4= 3, 4 4 7 Vinst 4 3 3 Uppgift C 3 4 6 7 Volym Obsrvd Quadratic B3 a) och b) s Statistisk dataanalys sid 38 36,97 +, C a) Q = a p I (där a =,844 ) b),97 rspktiv +, c) ftrfrågan förväntas öka,44 % B4 a) 4, p =,7 =,7 % vilkt mdför att Ho förkastas b) yˆ = 98, 4, x c) s = 74, 3 F = 9,47 p =,7 <, % llr t = 3,7 p =,7 <, % dvs xakt samma tstrsultat som i a-uppgiftn d) välj (x och x3), lägr SSE och MSE som gr lägr s, högr SSR som gr högr y ˆ = 8, 78,7x + 6, x3 ) Orsak SS fg MS F R (x, x3) 437 669 38, Enbart x 83 Tillskott x3 74 74 44,7 p <, E 7396 7 6 T 33 9 ökning i R = 47,6 %. Eftrsom p =, <, % Ho förkastas. Ja, β 3, dvs dn nya variabln gr tt signifikant tillskott till förklaringsgradn. R