Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tentamen Tillämpad statistik A5 (15hp)

Föreläsning 5. Kapitel 6, sid Inferens om en population

F13 Regression och problemlösning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

, s a. , s b. personer från Alingsås och n b

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 12: Linjär regression

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Höftledsdysplasi hos dansk-svensk gårdshund

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik II

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för D, I, Π och Fysiker

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Tentamen Tillämpad statistik A5 (15hp)

Matematisk statistik, Föreläsning 5

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TMS136. Föreläsning 11

Tenta i Statistisk analys, 15 december 2004

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 11: Mer om jämförelser och inferens

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Grundläggande matematisk statistik

Formel- och tabellsamling i matematisk statistik

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Formler och tabeller till kursen MSG830

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TENTAMEN I STATISTIKENS GRUNDER 2

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Stockholms Universitet Statistiska institutionen Termeh Shafie

Föreläsning 12: Regression

TMS136. Föreläsning 13

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Hur skriver man statistikavsnittet i en ansökan?

TMS136. Föreläsning 10

Föreläsning G60 Statistiska metoder

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Finansiell statistik. Multipel regression. 4 maj 2011

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen Tillämpad statistik A5 (15hp)

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Matematisk statistik KTH. Formelsamling i matematisk statistik

MVE051/MSG Föreläsning 14

Föreläsning 15, FMSF45 Multipel linjär regression

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Medicinsk statistik II

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Statistisk försöksplanering

Examinationsuppgifter del 2

F22, Icke-parametriska metoder.

Tentamen Tillämpad statistik A5 (15hp)

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen Tillämpad statistik A5 (15hp)

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F9 Konfidensintervall

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F1

F10 Problemlösning och mer om konfidensintervall

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

F3 Introduktion Stickprov

Urvalsmetoder: Stratifierat urval (kap 9.5)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Föreläsningsanteckningar till kapitel 9, del 2

Tentamen för kursen. Linjära statistiska modeller. 22 februari

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 7: Punktskattningar

Repetitionsföreläsning

Statistisk försöksplanering

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Thomas Önskog 28/

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

Tentamen i Matematisk statistik Kurskod S0001M


Transkript:

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet

Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden ökar med 1000 invånare så ökar medelpriset per kvadrat med i genomsnitt 83 öre per kvadratmeter, givet att alla andra variabler hålls oförändrade. B) (8p) Mål: Undersöka om det finns ett samband mellan befolkningsstorlek i den lokala arbetsmarknaden och medelpris per kvadratmeter. Modell: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε där x 1 -x 4 är specificerade i Bilaga 2. Parameter: β 3 Estimator: ˆβ 3 Hypoteser: H 0 : β 3 = 0 vs H 1 : β 3 0 Förutsättningar: Stickprovsstorleke n = 290. Regressionen med k = 4 oberoende variabler. Antagande som är uppfyllda enligt uppgiften: (i) linjär modell (ii) oberoende observationer (iii) E(ε x) = 0 för alla x (iv) feltermen har konstant varians samt (v) normalfördelad felterm. Testfunktion: t = ˆβ 3 0 ˆV ( ˆβ, vilken är t-fördelad med n (k + 1) 3 ) frihetsgrader om H 0 är sann. Beslutsregel: Vi testar på signifikansnivån α = 0.05 och har en tvåsidig mothypotes. Förkasta om t obs > t krit = t 285,0.025 1.96. Beräkningar: Insättning av värden från Bilaga 2 ger t obs = 0.833 0.391 = 2.13 Beslut: Eftersom t obs = 2.13 > 1.96 förkastas H 0 : β 3 = 0. Svar: Testresultatet tyder, på 5% signifikansnivå, på att givet att alla andra variabler är oförändrade så finns det ett samband mellan befolkning i lokalarbetsmarknad och bostadspris. C) Normalitetsantagandet för feltermen är den minst restriktiva förutsättningen och behövs enbart för test och konfidensintervall. Dessutom är stickprovet ganska stort, n = 290, relativt antalet variabler k = 4. Såvida inte feltermen har en väldigt skev fördelning kan vi i det här fallet hänvisa till CGS som säger att ˆβ 3 är approximativt normalfördelad. D) (2p) Förklaringsgraden är 84,8%. E) (4p) Aggregerade data innebär i regel att spridningen i x och y minskar, vilket innebär att korrelation på gruppnivå kan bli mycket starkare än korrelation på individnivå. Konsekvensen blir i ett sådant fall en hög förklaringsgrad. 2

Uppgift 2 (16 poäng) 3

Uppgift 3 (20 poäng) A) (6p) B) (10p) Mål: Undersöka om det finns en korrelation mellan SBP och DBP. Parameter: ρ xy Estimator: r xy Hypoteser: H 0 : ρ xy = 0 vs H 1 : ρ xy 0 Förutsättningar: Slumpmässigt urval från en bivariat normalfördelning. n 2 Testfunktion: t = r xy 1 rxy 2, vilken är t-fördelad med n 2 frihetsgrader om H 0 är sann. Beslutsregel: Vi testar på signifikansnivån α = 0.05 och har en tvåsidig mothypotes. Förkasta om t obs > t krit = t 4,0.025 = 2.776. Beräkningar: Skattningen är r xy = s xy 57.8 = s x s y 5.99 11.08 = 0.871, 4 vilket innebär att t obs = 0.871 1 0.871 2 = 3.545. Beslut: Eftersom t obs = 3.545 > 2.776 förkastas H 0 : ρ xy = 0. Svar: Pearsons korrelation skattas till 0.871 och på 5% signifikansnivå tyder testresultatet på att det finns en korrelation mellan SBP och DBP i populationen. Mål: Att med linjär regression göra en prediktion för en ny observation tillsammans med ett prediktionsintervall, dvs skatta y i för individ i Estimator: ŷ i = ˆβ 0 + ˆβ 1 x i. Förutsättningar: (i)-(v) måste vara uppfyllda. Beräkningar: Ett 95% prediktionsintervall för y i ges av ŷ i ± t n (k+1),α/2 ˆV (ŷ) + s 2 ε där t n (k+1),α/2 = 2.776. Vi börjar med punktskattningen ŷ i. Eftersom ˆβ 1 = SS xy = 5 57.8 SS xx 5 5.99 2 = 1.61 och ˆβ 0 = ȳ ˆβ 1 x = 16.6 ges den skattade regression modellen av ŜBP = 16.6 + 1.61DBP. Således har vi efter insättning av DBP = 75 att punktskattningen för individ i är ŷ i = 137.36. Variansen för punktskattningen är ( 1 ˆV (ŷ) + s 2 ε = s 2 ε n + (x p x) 2 ) + s 2 ε SS xx = 6.08349 2 ( 1 6 + (75 72.5)2 5 5.99 2 ) + 6.08349 2 = 44.46632. 4

Insättning av värden ger prediktionsintervallet 137.36 ± 2.776 44.46632 137.36 ± 18.51122 Svar: Individen med 75 mmhg i diastoliskt blodtryck har med 95% säkerhet ett systoliskt blodtryck mellan 119 till 156 mmhg. C) (4p) Eftersom DBP och SBP är stark korrelerade finns risk för multikollinjäritet. En lösning är at utöka stickprovsstorleken. En annan lösning är att ha med enbart SBP eller DBP i regressionen. 5

Uppgift 4 (24 poäng) A) (10p) Felmarginalen ges av 1.96 V (N ) n p(1 p) (N ˆp) = 1.96 N N 1 n (58000 ) n 0.288(1 0.288) = 1.96 58000 58000 1 n Om felmarginalen får vara maximalt 300, dvs (58000 ) n 0.288(1 0.288) 300 1.96 58000, 58000 1 n får vi genom ekvationslösning (alternativt genom att iterativt pröva för olika värden på n) att n = 19530. B) (a) (6p) Mål: Skatta det totala antalet asylsökande 2014 som deltar i svenskundervisning. Parameter: N p = τ Estimator: N ˆp st Förutsättning: (i) OSU-UÅ från respektive stratum ger E(N ˆp st ) = τ. Beräkningar: I uppgiften är N = 58000, N 1 = 0.25 58000 = 14500, N 2 = 0.75 58000 = 43500 samt ˆp 1 = 0.2 och ˆp 2 = 0.2. Vi skattar det totala antalet: N ˆp st = N ( N1 N ˆp 1 + N 2 N ˆp 2 ) = 58000 ( ) 14500 43500 0.2 + 58000 58000 0.35 = 18125 (b) Svar: Totalt deltar 18125 asylsökande 2014 i svenskundervisning. Mål: Intervallskatta med 95% konfidensgrad det totala antalet asylsökande 2014 som deltar i svenskundervisning. Förutsättningar: (i) i a). (ii) oberoende stickprov (för kunna att skatta variansen för ˆp st ). (iii) n j p j (1 p j ) > 5 i alla strata vilket innebär pga CGS att ˆp st är approx. normalfördelad. ÄK ska alltid använads enligt instruktioner i uppgiften. Beräkningar: Ett 95% KI för τ = N p ges av N ˆp st ± z α/2 ˆV (N ˆp st ) vilket kan skrivas N ˆp st ± z α/2 N ˆV (ˆp st ) 6

Variansen för N ˆp st skattas med ( ) 2 ( ) 2 N1 N2 ˆV (ˆp st ) = ˆV (ˆp1 ) + ˆV (ˆp2 ) N N ( ) 2 ( N1 = 1 n ) ( ) 2 ( 1 ˆp1 (1 ˆp 1 ) N2 + 1 n ) 2 ˆp2 (1 ˆp 2 ) N N 1 n 1 1 N N 2 n 2 1 ( ) 2 ( 14500 = 1 1000 ) 0.2(1 0.2) 58000 14500 1000 1 ( ) 2 ( 43500 + 1 1000 ) 0.35(1 0.35) = 0.0001344718 58000 43500 1000 1 Insättning av värden, där z α/2 = 1.96, ger intervallet N ˆp st ± 1.96 58000 0.0001344718 18125 ± 1318 Svar: Med 95% säkerhet deltog mellan 16807 och 19443 asylsökande 2014 i någon svenskundervisning. 7

Uppgift 5 (20 poäng) 8