Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet
Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden ökar med 1000 invånare så ökar medelpriset per kvadrat med i genomsnitt 83 öre per kvadratmeter, givet att alla andra variabler hålls oförändrade. B) (8p) Mål: Undersöka om det finns ett samband mellan befolkningsstorlek i den lokala arbetsmarknaden och medelpris per kvadratmeter. Modell: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε där x 1 -x 4 är specificerade i Bilaga 2. Parameter: β 3 Estimator: ˆβ 3 Hypoteser: H 0 : β 3 = 0 vs H 1 : β 3 0 Förutsättningar: Stickprovsstorleke n = 290. Regressionen med k = 4 oberoende variabler. Antagande som är uppfyllda enligt uppgiften: (i) linjär modell (ii) oberoende observationer (iii) E(ε x) = 0 för alla x (iv) feltermen har konstant varians samt (v) normalfördelad felterm. Testfunktion: t = ˆβ 3 0 ˆV ( ˆβ, vilken är t-fördelad med n (k + 1) 3 ) frihetsgrader om H 0 är sann. Beslutsregel: Vi testar på signifikansnivån α = 0.05 och har en tvåsidig mothypotes. Förkasta om t obs > t krit = t 285,0.025 1.96. Beräkningar: Insättning av värden från Bilaga 2 ger t obs = 0.833 0.391 = 2.13 Beslut: Eftersom t obs = 2.13 > 1.96 förkastas H 0 : β 3 = 0. Svar: Testresultatet tyder, på 5% signifikansnivå, på att givet att alla andra variabler är oförändrade så finns det ett samband mellan befolkning i lokalarbetsmarknad och bostadspris. C) Normalitetsantagandet för feltermen är den minst restriktiva förutsättningen och behövs enbart för test och konfidensintervall. Dessutom är stickprovet ganska stort, n = 290, relativt antalet variabler k = 4. Såvida inte feltermen har en väldigt skev fördelning kan vi i det här fallet hänvisa till CGS som säger att ˆβ 3 är approximativt normalfördelad. D) (2p) Förklaringsgraden är 84,8%. E) (4p) Aggregerade data innebär i regel att spridningen i x och y minskar, vilket innebär att korrelation på gruppnivå kan bli mycket starkare än korrelation på individnivå. Konsekvensen blir i ett sådant fall en hög förklaringsgrad. 2
Uppgift 2 (16 poäng) 3
Uppgift 3 (20 poäng) A) (6p) B) (10p) Mål: Undersöka om det finns en korrelation mellan SBP och DBP. Parameter: ρ xy Estimator: r xy Hypoteser: H 0 : ρ xy = 0 vs H 1 : ρ xy 0 Förutsättningar: Slumpmässigt urval från en bivariat normalfördelning. n 2 Testfunktion: t = r xy 1 rxy 2, vilken är t-fördelad med n 2 frihetsgrader om H 0 är sann. Beslutsregel: Vi testar på signifikansnivån α = 0.05 och har en tvåsidig mothypotes. Förkasta om t obs > t krit = t 4,0.025 = 2.776. Beräkningar: Skattningen är r xy = s xy 57.8 = s x s y 5.99 11.08 = 0.871, 4 vilket innebär att t obs = 0.871 1 0.871 2 = 3.545. Beslut: Eftersom t obs = 3.545 > 2.776 förkastas H 0 : ρ xy = 0. Svar: Pearsons korrelation skattas till 0.871 och på 5% signifikansnivå tyder testresultatet på att det finns en korrelation mellan SBP och DBP i populationen. Mål: Att med linjär regression göra en prediktion för en ny observation tillsammans med ett prediktionsintervall, dvs skatta y i för individ i Estimator: ŷ i = ˆβ 0 + ˆβ 1 x i. Förutsättningar: (i)-(v) måste vara uppfyllda. Beräkningar: Ett 95% prediktionsintervall för y i ges av ŷ i ± t n (k+1),α/2 ˆV (ŷ) + s 2 ε där t n (k+1),α/2 = 2.776. Vi börjar med punktskattningen ŷ i. Eftersom ˆβ 1 = SS xy = 5 57.8 SS xx 5 5.99 2 = 1.61 och ˆβ 0 = ȳ ˆβ 1 x = 16.6 ges den skattade regression modellen av ŜBP = 16.6 + 1.61DBP. Således har vi efter insättning av DBP = 75 att punktskattningen för individ i är ŷ i = 137.36. Variansen för punktskattningen är ( 1 ˆV (ŷ) + s 2 ε = s 2 ε n + (x p x) 2 ) + s 2 ε SS xx = 6.08349 2 ( 1 6 + (75 72.5)2 5 5.99 2 ) + 6.08349 2 = 44.46632. 4
Insättning av värden ger prediktionsintervallet 137.36 ± 2.776 44.46632 137.36 ± 18.51122 Svar: Individen med 75 mmhg i diastoliskt blodtryck har med 95% säkerhet ett systoliskt blodtryck mellan 119 till 156 mmhg. C) (4p) Eftersom DBP och SBP är stark korrelerade finns risk för multikollinjäritet. En lösning är at utöka stickprovsstorleken. En annan lösning är att ha med enbart SBP eller DBP i regressionen. 5
Uppgift 4 (24 poäng) A) (10p) Felmarginalen ges av 1.96 V (N ) n p(1 p) (N ˆp) = 1.96 N N 1 n (58000 ) n 0.288(1 0.288) = 1.96 58000 58000 1 n Om felmarginalen får vara maximalt 300, dvs (58000 ) n 0.288(1 0.288) 300 1.96 58000, 58000 1 n får vi genom ekvationslösning (alternativt genom att iterativt pröva för olika värden på n) att n = 19530. B) (a) (6p) Mål: Skatta det totala antalet asylsökande 2014 som deltar i svenskundervisning. Parameter: N p = τ Estimator: N ˆp st Förutsättning: (i) OSU-UÅ från respektive stratum ger E(N ˆp st ) = τ. Beräkningar: I uppgiften är N = 58000, N 1 = 0.25 58000 = 14500, N 2 = 0.75 58000 = 43500 samt ˆp 1 = 0.2 och ˆp 2 = 0.2. Vi skattar det totala antalet: N ˆp st = N ( N1 N ˆp 1 + N 2 N ˆp 2 ) = 58000 ( ) 14500 43500 0.2 + 58000 58000 0.35 = 18125 (b) Svar: Totalt deltar 18125 asylsökande 2014 i svenskundervisning. Mål: Intervallskatta med 95% konfidensgrad det totala antalet asylsökande 2014 som deltar i svenskundervisning. Förutsättningar: (i) i a). (ii) oberoende stickprov (för kunna att skatta variansen för ˆp st ). (iii) n j p j (1 p j ) > 5 i alla strata vilket innebär pga CGS att ˆp st är approx. normalfördelad. ÄK ska alltid använads enligt instruktioner i uppgiften. Beräkningar: Ett 95% KI för τ = N p ges av N ˆp st ± z α/2 ˆV (N ˆp st ) vilket kan skrivas N ˆp st ± z α/2 N ˆV (ˆp st ) 6
Variansen för N ˆp st skattas med ( ) 2 ( ) 2 N1 N2 ˆV (ˆp st ) = ˆV (ˆp1 ) + ˆV (ˆp2 ) N N ( ) 2 ( N1 = 1 n ) ( ) 2 ( 1 ˆp1 (1 ˆp 1 ) N2 + 1 n ) 2 ˆp2 (1 ˆp 2 ) N N 1 n 1 1 N N 2 n 2 1 ( ) 2 ( 14500 = 1 1000 ) 0.2(1 0.2) 58000 14500 1000 1 ( ) 2 ( 43500 + 1 1000 ) 0.35(1 0.35) = 0.0001344718 58000 43500 1000 1 Insättning av värden, där z α/2 = 1.96, ger intervallet N ˆp st ± 1.96 58000 0.0001344718 18125 ± 1318 Svar: Med 95% säkerhet deltog mellan 16807 och 19443 asylsökande 2014 i någon svenskundervisning. 7
Uppgift 5 (20 poäng) 8