Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Upplysningar 1. Tillåtna hjälpmedel: Miniräknare, A4/A8 Tabell- och formelsamling (alternativ Statistik för samhällsplanerare Tabell- och formelsamling) samt nuvarande formelsamling för A5. Formelsamlingar för A4/A8 samt A5 som användes HT2014-VT2015 är också tillåtna. Inga anteckningar är tillåtna i formelsamlingarna. 2. Skrivtid: 8.00-13.00. Skrivningen omfattar 5 uppgifter, om sammanlagt 100 poäng. 3. För varje uppgift anges den maximala poäng som kan erhållas. Om en uppgift är uppdelad på deluppgifter anges den maximala poängen för varje deluppgift. Ibland kan inte deluppgifterna bedömas oberoende av varandra, vilket kan innebära att poäng inte utdelas på en senare uppgift om inte tidigare deluppgift lösts på ett i princip riktigt sätt. Dock gäller att utdelad poäng för varje deluppgift aldrig kan vara negativ. 4. Om du känner dig osäker på någonting (skrivningens genomförande, någon formulering i en uppgift, om något hjälpmedel är otillåtet), fråga då jourhavande skrivningsvakt eller den skrivningsansvariga läraren (besök, alternativt telefon). 5. Efter skrivningens slut får du behålla sidorna med frågeställningarna. Preliminära lösningar anslås på Studentportalen. Uppmaningar 1. Följ noga de anvisningar som finns på skrivningsförsättsbladet. 2. Alla lösningar ska redovisas i en form som gör det lätt att följa din tankegång! Motivera alla väsentliga steg i lösningen. Ange alla antaganden du gör och alla förutsättningar du utnyttjar. Alla uppgifter kräver en verbal slutsats. 3. Vid konfidensintervall måste du ange vad intervallet avser att täcka samt teckna intervallet i symbolform innan de numeriska uppgifterna insätts. 4. Vid alla hypotestest måste du ange H 0, H 1, signifikansnivå, testfunktion (inklusive antal frihetsgrader), förkastelseområde och resultat. 5. Vid variansanalys måste du ange modell.
Uppgift 1 (20 poäng) I SOU 2015:58 1 vill utredarna förklara 2012 års medelpris för småhus (kr/m 2 ) med kommunernas egenskaper. Besvara med hjälp av Bilaga 2 på sidan 3 (och förstorad tabell på sidan 4) följande frågor: A) (4p) Ge en verbal tolkning av parameterskattningen för β 3. B) (8p) Genomför en klassisk hypotesprövning på 5% signifikansnivå för att undersöka om finns ett samband mellan befolkningsstorlek och medelpris för småhus i populationen. Ge en verbal slutsats! (Utgå från att en granskning av residualerna har gjorts och denna granskning tyder på att alla nödvändiga förutsättningar är uppfyllda.) C) (2p) I Bilaga 2 står att ε antas vara normalfördelad. Är detta en viktig förutsättning i denna studie? Motivera! D) (2p) Vilken förklaringsgrad har regressionsmodellen? E) (4p) Ekologisk korrelation innebär korrelation baserad på aggregerade data. På samma sätt kallas regression baserad på aggregerade data för ekologisk regression. På vilket sätt kan aggregerade data påverka förklaringsgraden? Motivera med ord och/eller en figur. 1 Uppgiften är baserad på: SOU 2015:58. EU och kommunernas bostadspolitik 2
SOU 2015:58 Bilaga 2 Modellteknisk dokumentation Multipel linjär regressionsanalys - teori Multipel linjär regression är en teknik inom statistik med vilken man kan undersöka om det finns ett statistiskt samband mellan en beroendevariabel (Y) och två eller flera oberoende variabler (förklarande variabler) (X). Till förfogande finns sammanhörande mätvärden på X- och Y-variablerna, och syftet är att undersöka huruvida följande linjära modell kan antas beskriva detta samband: Y = β 0 + β 1X 1 + + β mx m + ε. I denna modell antas den sista termen (ε) vara en stokastisk variabel som är normalfördelad; som sådan beskriver den de små avvikelser mellan observerade Y-värden och de Y-värden som X-värdena förväntas ge upphov till, nämligen: β 0 + β 1X 1 + + β mx m. Modellen som används för estimering av bostadsmarknadernas styrka Efter att ha tillämpat multipel linjär regressionsanalys framstår följande linjära samband som det som bäst förklarar variationen i småhuspris år 2012 i Sveriges samtliga 290 kommuner: Y = β 0 + β 1*Kommunens riktning + β 2*Kommunens nivå + β 3*Befolkning i den lokala arbetsmarknaden + β 4*Tillgänglighet till arbetsplatser. Modellprestanda och de oberoende variablernas koefficienter för ovanstående modell redovisas nedan: Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,921 a,848,846 3411,240 a. Predictors: (Constant), Tillgängliga arbetsplatser (000) 2012, Kommunens riktning 2004-2012, Kommunens nivå 2012 ny modell, Befolkning i LA 75 2012 (tusental) Coefficients a Standardized Unstandardized Coefficients Coefficients 95,0% Confidence Interval for B Model B Std. Error Beta t Sig. Lower Bound Upper Bound 1 (Constant) -52749,833 4295,852-12,279,000-61205,455-44294,211 Kommunens riktning 2004-407,129 40,255,340 10,114,000 327,896 486,363 2012 Kommunens nivå 2012 ny 173,101 30,129,196 5,745,000 113,797 232,406 modell Befolkning i LA 75 2012,833,391,078 2,128,034,062 1,603 (tusental) Tillgängliga arbetsplatser 28,835 2,533,440 11,385,000 23,850 33,820 (000) 2012 a. Dependent Variable: Medelpris småhus 2012 (kr/kvm) 655 3
Samma tabell som på sidan 3 men förstorad. 4
Uppgift 2 (16 poäng) En försäljningschef för en större affärskedja vill veta om en viss vara säljs lika mycket oavsett var den placeras i butiken. Till att börja med ska försäljningen för fyra olika placeringar (V, X, Y, och Z) jämföras. Tjugo affärer väljs slumpmässigt ut för att delta i undersökningen. Placeringarna slumpas sedan till fem affärer vardera. Efter undersökningsperiodens slut noteras försäljningen, i tusentals kronor, i de tjugo affärerna. Summor som kan vara användbara redovisas i anslutning till resultatet nedan. Observationsnummer inom stickprov V X Y Z Summa 1 100 94 120 90 404 2 86 82 102 102 372 3 83 84 95 92 354 4 80 88 110 86 364 5 82 100 88 94 364 Summa 431 448 515 464 1 858 Summan av alla kvadrerade observationer är 174 642. Undersök, på 5% signifikansnivå, om försäljningen i genomsnitt är densamma för de fyra placeringarna. 5
Uppgift 3 (20 poäng) Några forskare är intresserade sambandet mellan systoliskt blodtryck (SBP) och diastoliskt blodtryck (DBP). 2 Vi vet från tidigare studier att SBP och DBP följer en bivariat normalfördelning. Till studien valdes 6 patienter ut slumpmässigt och följande utfall erhölls efter mätningar: DBP 65 73 67 81 72 77 SBP 119 129 132 147 127 146 A) (6p) Undersök på 5% signifikansnivå om Pearsons korrelationskoefficient i populationen är skild från noll. B) (10p) En ny patient rekryteras till studien och patienten har DBP 75. Dessvärre saknas värdet på SBP. Skatta med hjälp av enkel linjär regression ett 95% prediktionsintervall för denna patients saknade värde. Tolka intervallet! Ange förutsättningar! Tips: Utnyttja att residualvariansen i regressionen är s 2 ɛ = 6,08349 2. C) (4p) Anta att forskarna även samlar in vilopuls-data för de 6 patienterna för att med linjär regression skatta den linjära modellen V ilopuls = γ 0 + γ 1 DBP + γ 2 SBP. Ser du något eventuellt problem vid skattning av denna modell? Ge två förslag på lösningar till det eventuella problemet. 2 Uppgiften är löst baserad på: Gavish, B., Ben-Dov, I. Z., & Bursztyn, M. (2008). Linear relationship between systolic and diastolic blood pressure monitored over 24 h: assessment and correlates. Journal of hypertension, 26(2), 199-209. 6
Uppgift 4 (24 poäng) Anta att Migrationsverket önskar göra en uppföljning på Riksrevisionsverkets rapport Hur mottas de asylsökande? 3 som utvärderade den organiserade verksamheten (OV) på Migrationsverket. Specifikt önskar Migrationsverket undersöka deltagande i svenskundervisning bland de 58000 individer som sökte asyl 2014. 4 A) (10p) Anta att Migrationsverket vill skatta det totala antalet asylsökande som deltar i svenskundervisning. Hur stort måste ett obundet slumpmässigt urval utan återläggning (OSU-UÅ) vara om en felmarginal får vara högst 300 individer? Utgå från konfidensgraden 95%. Använd informationen från Tabell 8.1 på sidan 9. Använd ändlighetskorrektion i beräkningarna trots att stickprovsstorleken eventuellt är liten jämfört med populationsstorleken. B) Anta att Migrationsverket bestämde sig för att stratifiera utifrån utbildningsnivå och utgå från att 25% i populationen hade högst förgymnasial utbildning medan 75% i populationen hade gymnasial utbildning eller högre. Ett OSU-UÅ bestående av 1000 individer drogs från respektive stratum. Undersökningen gav att andelen som deltog i svenskundervisning bland dem med förgymnasial utbildning var 20% medan bland asylsökande med minst gymnasial utbildning deltog 35% i svenskundervisning. (a) (6p) Gör en punktskattning av det totala antalet asylsökande 2014 som deltar i svenskundervisning. (b) (8p) Beräkna ett 95% konfidensintervall för det totala antalet asylsökande 2014 som deltar i svenskundervisning. Tolka intervallet! Använd ändlighetskorrektion i beräkningarna trots att stickprovsstorleken eventuellt är liten jämfört med populationsstorleken. 3 Dnr 23-2001-0798. Hur mottas de asylsökande? Den organiserade verksamheten för asylsökande inom Migrationsverket. Riksrevisionsverket 4 Data är hämtat från www.migrationsverket.se samt www.scb.se. Värden är avrundade för att bättre passa uppgiften. Andelar i svenskundervisning 2014 är påhittade. 7
Från Dnr 23-2001-0798. 8
Uppgift 5 (20 poäng) Uppgiften bygger på årliga data för Sveriges befolkningsmängd. Variabeln av intresse är y t = Sveriges befolkningsmängd. A) (8p) Utifrån figuren, förklara vilken av de tre typerna av exponentiell utjämning som är lämplig att använda i det här fallet. Demonstrera därefter hur E 2011 och T 2011 har beräknats (använd 0,5 för alla eventuella utjämnings-konstanter) med hjälp av följande tabell: År y t E t T t.... 2008 9256347 9237590 65972 2009 9340682 9322122 75252 2010 9415570 9406472 79801 2011 9482855 9484564 78947 B) (8p) Baserat på tabellen ovan, gör prognoser för 2012, 2013 och 2014. C) (4p) SCB publicerar årligen befolkningsprognoser. Prognoserna för 2012, 2013 och 2014 var 9565519, 9652709, 9737738. När ett år är slut kan en prognos jämföras med det faktiska utfallet. Utfallen för 2012, 2013 och 2014 var 9555893, 9644864 och 9747355. Beräkna rotmedelkvadratfelet för dina prognoser från B) samt för SCBs prognoser. Var dina eller SCBs prognoser bäst? 9