Tentamen Tillämpad statistik A5 (15hp)

Relevanta dokument
Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Samhällsvetenskaplig metod, 7,5 hp

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i matematisk statistik

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F1

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Lösningar till SPSS-övning: Analytisk statistik

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

OBS! Vi har nya rutiner.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Höftledsdysplasi hos dansk-svensk gårdshund

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 4 R-versionen

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Statistisk försöksplanering

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Medicinsk statistik II

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Uppgift 1. Deskripitiv statistik. Lön

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M MAM801 IEK309 Institutionen för matematik Datum Skrivtid

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

TENTAMEN I MATEMATISK STATISTIK

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

TENTAMEN I STATISTIK B,

Multipel Regressionsmodellen

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Läs noggrant informationen nedan innan du börjar skriva tentamen

Matematisk statistik, Föreläsning 5

Föreläsning G60 Statistiska metoder

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Räkneövning 3 Variansanalys

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

OBS! Vi har nya rutiner.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

TENTAMEN I STATISTIKENS GRUNDER 2

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Stockholms Universitet Statistiska institutionen Termeh Shafie

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Sänkningen av parasitnivåerna i blodet

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen i Matematisk statistik Kurskod S0001M

Statistisk försöksplanering

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Multipel regression och Partiella korrelationer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Omtentamen i Metod C-kurs

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Stockholms Universitet Statistiska institutionen Termeh Shafie

Forsknings- och undersökningsmetodik Skrivtid: 4h

Matematisk statistik för B, K, N, BME och Kemister

Transkript:

Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Upplysningar 1. Tillåtna hjälpmedel: Miniräknare, A4/A8 Tabell- och formelsamling (alternativ Statistik för samhällsplanerare Tabell- och formelsamling) samt nuvarande formelsamling för A5. Formelsamlingar för A4/A8 samt A5 som användes HT2014-VT2015 är också tillåtna. Inga anteckningar är tillåtna i formelsamlingarna. 2. Skrivtid: 8.00-13.00. Skrivningen omfattar 5 uppgifter, om sammanlagt 100 poäng. 3. För varje uppgift anges den maximala poäng som kan erhållas. Om en uppgift är uppdelad på deluppgifter anges den maximala poängen för varje deluppgift. Ibland kan inte deluppgifterna bedömas oberoende av varandra, vilket kan innebära att poäng inte utdelas på en senare uppgift om inte tidigare deluppgift lösts på ett i princip riktigt sätt. Dock gäller att utdelad poäng för varje deluppgift aldrig kan vara negativ. 4. Om du känner dig osäker på någonting (skrivningens genomförande, någon formulering i en uppgift, om något hjälpmedel är otillåtet), fråga då jourhavande skrivningsvakt eller den skrivningsansvariga läraren (besök, alternativt telefon). 5. Efter skrivningens slut får du behålla sidorna med frågeställningarna. Preliminära lösningar anslås på Studentportalen. Uppmaningar 1. Följ noga de anvisningar som finns på skrivningsförsättsbladet. 2. Alla lösningar ska redovisas i en form som gör det lätt att följa din tankegång! Motivera alla väsentliga steg i lösningen. Ange alla antaganden du gör och alla förutsättningar du utnyttjar. Alla uppgifter kräver en verbal slutsats. 3. Vid konfidensintervall måste du ange vad intervallet avser att täcka samt teckna intervallet i symbolform innan de numeriska uppgifterna insätts. 4. Vid alla hypotestest måste du ange H 0, H 1, signifikansnivå, testfunktion (inklusive antal frihetsgrader), förkastelseområde och resultat. 5. Vid variansanalys måste du ange modell.

Uppgift 1 (20 poäng) I SOU 2015:58 1 vill utredarna förklara 2012 års medelpris för småhus (kr/m 2 ) med kommunernas egenskaper. Besvara med hjälp av Bilaga 2 på sidan 3 (och förstorad tabell på sidan 4) följande frågor: A) (4p) Ge en verbal tolkning av parameterskattningen för β 3. B) (8p) Genomför en klassisk hypotesprövning på 5% signifikansnivå för att undersöka om finns ett samband mellan befolkningsstorlek och medelpris för småhus i populationen. Ge en verbal slutsats! (Utgå från att en granskning av residualerna har gjorts och denna granskning tyder på att alla nödvändiga förutsättningar är uppfyllda.) C) (2p) I Bilaga 2 står att ε antas vara normalfördelad. Är detta en viktig förutsättning i denna studie? Motivera! D) (2p) Vilken förklaringsgrad har regressionsmodellen? E) (4p) Ekologisk korrelation innebär korrelation baserad på aggregerade data. På samma sätt kallas regression baserad på aggregerade data för ekologisk regression. På vilket sätt kan aggregerade data påverka förklaringsgraden? Motivera med ord och/eller en figur. 1 Uppgiften är baserad på: SOU 2015:58. EU och kommunernas bostadspolitik 2

SOU 2015:58 Bilaga 2 Modellteknisk dokumentation Multipel linjär regressionsanalys - teori Multipel linjär regression är en teknik inom statistik med vilken man kan undersöka om det finns ett statistiskt samband mellan en beroendevariabel (Y) och två eller flera oberoende variabler (förklarande variabler) (X). Till förfogande finns sammanhörande mätvärden på X- och Y-variablerna, och syftet är att undersöka huruvida följande linjära modell kan antas beskriva detta samband: Y = β 0 + β 1X 1 + + β mx m + ε. I denna modell antas den sista termen (ε) vara en stokastisk variabel som är normalfördelad; som sådan beskriver den de små avvikelser mellan observerade Y-värden och de Y-värden som X-värdena förväntas ge upphov till, nämligen: β 0 + β 1X 1 + + β mx m. Modellen som används för estimering av bostadsmarknadernas styrka Efter att ha tillämpat multipel linjär regressionsanalys framstår följande linjära samband som det som bäst förklarar variationen i småhuspris år 2012 i Sveriges samtliga 290 kommuner: Y = β 0 + β 1*Kommunens riktning + β 2*Kommunens nivå + β 3*Befolkning i den lokala arbetsmarknaden + β 4*Tillgänglighet till arbetsplatser. Modellprestanda och de oberoende variablernas koefficienter för ovanstående modell redovisas nedan: Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate 1,921 a,848,846 3411,240 a. Predictors: (Constant), Tillgängliga arbetsplatser (000) 2012, Kommunens riktning 2004-2012, Kommunens nivå 2012 ny modell, Befolkning i LA 75 2012 (tusental) Coefficients a Standardized Unstandardized Coefficients Coefficients 95,0% Confidence Interval for B Model B Std. Error Beta t Sig. Lower Bound Upper Bound 1 (Constant) -52749,833 4295,852-12,279,000-61205,455-44294,211 Kommunens riktning 2004-407,129 40,255,340 10,114,000 327,896 486,363 2012 Kommunens nivå 2012 ny 173,101 30,129,196 5,745,000 113,797 232,406 modell Befolkning i LA 75 2012,833,391,078 2,128,034,062 1,603 (tusental) Tillgängliga arbetsplatser 28,835 2,533,440 11,385,000 23,850 33,820 (000) 2012 a. Dependent Variable: Medelpris småhus 2012 (kr/kvm) 655 3

Samma tabell som på sidan 3 men förstorad. 4

Uppgift 2 (16 poäng) En försäljningschef för en större affärskedja vill veta om en viss vara säljs lika mycket oavsett var den placeras i butiken. Till att börja med ska försäljningen för fyra olika placeringar (V, X, Y, och Z) jämföras. Tjugo affärer väljs slumpmässigt ut för att delta i undersökningen. Placeringarna slumpas sedan till fem affärer vardera. Efter undersökningsperiodens slut noteras försäljningen, i tusentals kronor, i de tjugo affärerna. Summor som kan vara användbara redovisas i anslutning till resultatet nedan. Observationsnummer inom stickprov V X Y Z Summa 1 100 94 120 90 404 2 86 82 102 102 372 3 83 84 95 92 354 4 80 88 110 86 364 5 82 100 88 94 364 Summa 431 448 515 464 1 858 Summan av alla kvadrerade observationer är 174 642. Undersök, på 5% signifikansnivå, om försäljningen i genomsnitt är densamma för de fyra placeringarna. 5

Uppgift 3 (20 poäng) Några forskare är intresserade sambandet mellan systoliskt blodtryck (SBP) och diastoliskt blodtryck (DBP). 2 Vi vet från tidigare studier att SBP och DBP följer en bivariat normalfördelning. Till studien valdes 6 patienter ut slumpmässigt och följande utfall erhölls efter mätningar: DBP 65 73 67 81 72 77 SBP 119 129 132 147 127 146 A) (6p) Undersök på 5% signifikansnivå om Pearsons korrelationskoefficient i populationen är skild från noll. B) (10p) En ny patient rekryteras till studien och patienten har DBP 75. Dessvärre saknas värdet på SBP. Skatta med hjälp av enkel linjär regression ett 95% prediktionsintervall för denna patients saknade värde. Tolka intervallet! Ange förutsättningar! Tips: Utnyttja att residualvariansen i regressionen är s 2 ɛ = 6,08349 2. C) (4p) Anta att forskarna även samlar in vilopuls-data för de 6 patienterna för att med linjär regression skatta den linjära modellen V ilopuls = γ 0 + γ 1 DBP + γ 2 SBP. Ser du något eventuellt problem vid skattning av denna modell? Ge två förslag på lösningar till det eventuella problemet. 2 Uppgiften är löst baserad på: Gavish, B., Ben-Dov, I. Z., & Bursztyn, M. (2008). Linear relationship between systolic and diastolic blood pressure monitored over 24 h: assessment and correlates. Journal of hypertension, 26(2), 199-209. 6

Uppgift 4 (24 poäng) Anta att Migrationsverket önskar göra en uppföljning på Riksrevisionsverkets rapport Hur mottas de asylsökande? 3 som utvärderade den organiserade verksamheten (OV) på Migrationsverket. Specifikt önskar Migrationsverket undersöka deltagande i svenskundervisning bland de 58000 individer som sökte asyl 2014. 4 A) (10p) Anta att Migrationsverket vill skatta det totala antalet asylsökande som deltar i svenskundervisning. Hur stort måste ett obundet slumpmässigt urval utan återläggning (OSU-UÅ) vara om en felmarginal får vara högst 300 individer? Utgå från konfidensgraden 95%. Använd informationen från Tabell 8.1 på sidan 9. Använd ändlighetskorrektion i beräkningarna trots att stickprovsstorleken eventuellt är liten jämfört med populationsstorleken. B) Anta att Migrationsverket bestämde sig för att stratifiera utifrån utbildningsnivå och utgå från att 25% i populationen hade högst förgymnasial utbildning medan 75% i populationen hade gymnasial utbildning eller högre. Ett OSU-UÅ bestående av 1000 individer drogs från respektive stratum. Undersökningen gav att andelen som deltog i svenskundervisning bland dem med förgymnasial utbildning var 20% medan bland asylsökande med minst gymnasial utbildning deltog 35% i svenskundervisning. (a) (6p) Gör en punktskattning av det totala antalet asylsökande 2014 som deltar i svenskundervisning. (b) (8p) Beräkna ett 95% konfidensintervall för det totala antalet asylsökande 2014 som deltar i svenskundervisning. Tolka intervallet! Använd ändlighetskorrektion i beräkningarna trots att stickprovsstorleken eventuellt är liten jämfört med populationsstorleken. 3 Dnr 23-2001-0798. Hur mottas de asylsökande? Den organiserade verksamheten för asylsökande inom Migrationsverket. Riksrevisionsverket 4 Data är hämtat från www.migrationsverket.se samt www.scb.se. Värden är avrundade för att bättre passa uppgiften. Andelar i svenskundervisning 2014 är påhittade. 7

Från Dnr 23-2001-0798. 8

Uppgift 5 (20 poäng) Uppgiften bygger på årliga data för Sveriges befolkningsmängd. Variabeln av intresse är y t = Sveriges befolkningsmängd. A) (8p) Utifrån figuren, förklara vilken av de tre typerna av exponentiell utjämning som är lämplig att använda i det här fallet. Demonstrera därefter hur E 2011 och T 2011 har beräknats (använd 0,5 för alla eventuella utjämnings-konstanter) med hjälp av följande tabell: År y t E t T t.... 2008 9256347 9237590 65972 2009 9340682 9322122 75252 2010 9415570 9406472 79801 2011 9482855 9484564 78947 B) (8p) Baserat på tabellen ovan, gör prognoser för 2012, 2013 och 2014. C) (4p) SCB publicerar årligen befolkningsprognoser. Prognoserna för 2012, 2013 och 2014 var 9565519, 9652709, 9737738. När ett år är slut kan en prognos jämföras med det faktiska utfallet. Utfallen för 2012, 2013 och 2014 var 9555893, 9644864 och 9747355. Beräkna rotmedelkvadratfelet för dina prognoser från B) samt för SCBs prognoser. Var dina eller SCBs prognoser bäst? 9