1. Ned i avgrunden (12p). Greklands ekonomi har minst sagt varit på tapeten det senaste året på grund av landets problem med statsskulden. Vill man ha aktuella data för EU-länderna så är Eurostats 1 databaser rätt plats att leta på. Greklands statsskuld (uttryckt i procent av BNP) under åren 2000-2010 framgår av Figur 1. Resultatet av en linjär regressionsanalys åternns efter Figur 1. Den skattade trendmodellen i har skattas med en tidsskala t = 0, 1, 2,...., 10 där t = 0 representerar år 2000. Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t P r e d i c t o r Coef SE Coef T P C o n s t a n t 2,941 1,267 2,32 0,045 t 0,8609 0,2142 4,02 0,003 S = 2,24646 R Sq = 64,2% R Sq ( a d j ) = 60,2% A n a l y s i s o f V a r i a n c e S o u r c e DF SS MS F P R e g r e s s i o n 1 81,528 81,528 16,16 0,003 R e s i d u a l E r r o r 9 45,419 5,047 T o t a l 10 126,947 Unusual O b s e r v a t i o n s Obs t S k u l d F i t SE F i t R e s i d u a l St R e s i d 10 9,0 15,800 10,689 1,092 5,111 2,60R R d e n o t e s an o b s e r v a t i o n w i t h a l a r g e s t a n d a r d i z e d r e s i d u a l. 1 http://epp.eurostat.ec.europa.eu/portal/page/portal/eurostat/home 1
(a) Skriv ned den teoretiska modell som analysen baseras på. (1p) (b) Vilka antaganden görs i analysen?. (2p) (c) Vad uttrycker koecienten med värdet -2,941? (1p) (d) Vad uttrycket koecienten med värdet -0,8609? (2p) (e) Bestäm en punktskattning av underskottet år 2011. (1p) (f) Bestäm ett 95% kondensintervall för underskottet år 2011. (3p) (Lite hjälp: Om x = 0, 1,..., 10 så är x = 5 och (x x) 2 = 110.) (g) Modellens kvaliteter kan till viss del bedömas utifrån residualstudier. I Figur 2 nns fyra standardgrafer som är vanliga i detta sammanhang. Vad säger dessa om modellens kvalitet i relation till modellantagandena. Motivera ditt svar! (2p) Figur 2: 2
2. Att bli vuxen (12p). En människa är, åtminstone i fysisk mening, fullvuxen vid 18 års ålder. I en studie observerades bland annat barns kroppslängd (cm) vid 2, 9 och 18 års ålder. Det kan vara av intresse att undersöka hur bra man kan förutsäga den slutliga kroppslängden utifrån de mätningar som gjorts under barndomen. Detta gjordes med en linjär regressionsmodell där man också tog hänsyn till barnets kön. Variabler i modellen är Sex (0 = Man, 1 Kvinna), och observerade kroppslängder vid n-mnda åldrar, HT2, HT9 samt HT18. HT18 är då beroende variabel. En analys med Minitab gav följande utskrift: R e g r e s s i o n A n a l y s i s : HT18 v e r s u s Sex ; HT2 ; HT9 The r e g r e s s i o n e q u a t i o n i s HT18 = 47,3 11,7 Sex + 0,043 HT2 + 0,941 HT9 P r e d i c t o r Coef SE Coef T P C o n s t a n t 47,263 8,265 5,72 0,000 Sex 11,6621 0,6009 19,41 0,000 HT2 0,0431 0,1292 0,33 0,739 HT9 0,94129 0,07806 12,06 0,000 S = 3,44390 R Sq = 85,2% R Sq ( a d j ) = 84,8% A n a l y s i s o f V a r i a n c e S o u r c e DF SS MS F P R e g r e s s i o n 3 8994,3 2998,1 252,78 0,000 R e s i d u a l E r r o r 132 1565,6 11,9 T o t a l 135 10559,8 S o u r c e DF Seq SS Sex 1 5252,4 HT2 1 2017,2 HT9 1 1724,6 Unusual O b s e r v a t i o n s Obs Sex HT18 F i t SE F i t R e s i d u a l St R e s i d 2 0,00 195,100 187,026 0,627 8,074 2,38R 28 0,00 178,700 183,271 1,143 4,571 1,41 X 57 0,00 180,800 173,783 0,563 7,017 2,07R 69 1,00 162,200 172,651 0,540 10,451 3,07R 76 1,00 183,200 183,336 1,074 0,136 0,04 X 102 1,00 181,100 170,631 0,477 10,469 3,07R 109 1,00 163,700 170,480 0,702 6,780 2,01R 123 1,00 175,600 167,757 0,916 7,843 2,36R 129 1,00 177,500 167,233 0,451 10,267 3,01R R d e n o t e s an o b s e r v a t i o n w i t h a l a r g e s t a n d a r d i z e d r e s i d u a l. X d e n o t e s an o b s e r v a t i o n whose X v a l u e g i v e s i t l a r g e l e v e r a g e. P r e d i c t e d V a l u e s f o r New O b s e r v a t i o n s New Obs F i t SE F i t 95% CI 95% PI 1 182,703 0,821 ( 1 8 1, 0 7 9 ; 1 8 4, 3 2 7 ) ( 1 7 5, 7 0 0 ; 1 8 9, 7 0 6 ) 2 175,962 0,704 ( 1 7 4, 5 7 0 ; 1 7 7, 3 5 5 ) ( 1 6 9, 0 0 9 ; 1 8 2, 9 1 6 ) V a l u e s o f P r e d i c t o r s f o r New O b s e r v a t i o n s New Obs Sex HT2 HT9 1 0,00 85,0 140 2 1,00 90,0 145 3
(a) Skriv ned den teoretiska modell som analysen baseras på. (1p) (b) Tolka de skattade koecienterna i ord som rör det aktuella problemet. (3p) (c) Avgör med hjälp av hypotesprövning vilka förklarande variabler som kan betraktas som linjärt relaterade till responsvariabeln och vilken/vilka variabler som inte behöver anses vara linjärt relaterade till responsvariabeln. (3p) (d) Av prediktionerna i slutet av listan avser barnen Kalle och LIsa. Vilka av intervallen väljer du som kondensintervall för Kalles respektive LIsas kropplängd vid 18 års ålder. Motivera ditt svar! (3p) (e) Avgör utifrån graken i Figur 3 om modellantagandena kan anses uppfyllda. Motivera ditt svar! (2p) Figur 3: 4
3. Born to Run (8p). I en artikel 2 studerar Paul M. Sommers vid Middlebury College, (Middlebury, Vermont, USA) strukturen i sångtexter av Bruce Springsteen och Michael Jackson. Han utgår ifrån arbeten av matematikern och kryptologen Robert E. Lewand. För varje bokstav i engelska språket bestämde Lewand bokstavens frekvens i standardengelskan. Sommers räknade frekvensen av bokstäverna i Bruce Springsteens Born to Run och jämförde med Lewands frekvenstabell. 6 Table 1. Distribution of letters, vowels and consonants in Bruce Springsteens Born to Run Observed R.E. Lewands Expected Letter frequency relative frequency frequency (O i ) (p i ) (E i = 1178 p i ) a 85.08167 96.207 b 28.01492 17.576 c 19.02782 32.772 d 49.04253 50.100 e 144.12702 149.630 f 11.02228 26.246 g 26.02015 23.737 h 57.06094 71.787 i 82.06966 82.059 j 0.00153 1.802 k 15.00772 9.094 l 56.04025 47.415 m 27.02406 28.343 n 83.06749 79.503 o 86.07507 88.432 p 17.01929 22.724 q 0.00095 1.119 r 81.05987 70.527 s 68.06327 74.532 t 102.09056 106.680 u 43.02758 32.489 v 14.00978 11.521 w 53.02360 27.801 x 0.00150 1.767 y 32.01974 23.254 z 0.00074 0.872 vowels * 472.40074 472.072 consonants 706.59925 705.917 * Vowels include a, e, i, o, u, and y. 2 http://www.middlebury.edu/services/econ/repec/mdl/ancoec/1007.pdf 5
För att avgöra om Springsteens text motsvarar standardengelskan enligt Lewand gjordes ett χ 2 -test. Testkvantiteten beräknades enligt formeln till värdet χ 2 = 70.703. χ 2 = (observed count expected count) 2 expected count (a) Skriv ned den modell som analysen bygger på. (1p) (b) Avgör om förutsättningarna för användning av χ 2 -testet kan anses uppfyllda. Om inte, ange på vilket sätt användningen är tveksam. Motivera ditt svar! (2p) (c) Under antagande om att förutsättningarna för χ 2 -testet är uppfyllda, genomför testet och tolka resultatet i ord som är relaterade till själva sakproblemet. Redovisa varje steg i testförfarandet noggrannt! (5p) 6
4. Automobiler (8p). I den ociella statistiken (Källa: SCB) nns data över antalet nyregistrerade personbilar månadsvis från januari 1795 tom november 2011. Dessa data utsattes för en analys med en multiplikativ säsongsmodell med linjär trend. Resultatet av analysen framgår av följande Minitabutskrift och gurerna 4-7. (a) Skriv ned den modell som ligger till grund för analysen. (1p) (b) Ge en tolkning av den skattade koecienten 18665 i Fitted Trend Equation. (1p) (c) Ge en tolkning av den skattade koecienten 13,9 i Fitted Trend Equation. (1p) (d) Förklara hur man kommit fram till värdet 28514,2 som prognos för period 448. När infaller period 448? (3p) (e) Vad kan sägas om modellens relevans utifrån graferna i gur 7? Motivera ditt svar! (2p) Time S e r i e s D e c o m p o s i t i o n f o r A n t a l M u l t i p l i c a t i v e M o d e l Data A n t a l Length 443 NMissing 0 F i t t e d Trend E q u a t i o n Yt = 18665 + 13,9 t S e a s o n a l I n d i c e s P e r i o d I n d e x 1 0,80755 2 0,89294 3 1,12836 4 1,14493 5 1,12992 6 1,11821 7 0,79789 8 0,80174 9 1,01384 10 1,12025 11 1,03845 12 1,00594 A c c u r a c y M e a s u r e s MAPE 23 MAD 4175 MSD 27371449 F o r e c a s t s P e r i o d F o r e c a s t 444 24996,7 445 20078,0 446 22213,5 447 28085,8 448 28514,2 449 28156,1 450 27879,8 7
Figur 4: Figur 5: 8
Figur 6: Figur 7: 9
5. Konsumentbeteende (10p). I en studie observerades var individer vanligen gjorde sina inköp, i ett närbeläget köpcentrum eller någon annanstans (Near: 0 = Ej nära, 1 = Nära). Samtidigt observerades ålder (Age: 0 = ung, 1 = äldre), inkomst (Income: 0 = låg, 1 = hög) och om man ägde bil (Car: 0 = Nej, 1 = Ja). Resultaten analyserades med logistisk regression i Minitab med följande resultat. B i n a r y L o g i s t i c R e g r e s s i o n : Near ; T o t a l v e r s u s Age ; Income ; Car L i n k F u n c t i o n : L o g i t Response I n f o r m a t i o n V a r i a b l e Value Count Near Event 106 Non e v e n t 301 T o t a l T o t a l 407 L o g i s t i c R e g r e s s i o n Table Odds 95% CI P r e d i c t o r Coef SE Coef Z P R a t i o Lower Upper C o n s t a n t 1,56368 0,250931 6,23 0,000 Age 0,367140 0,247440???? 0,138???? 0,89 2,34 Income 0,191452 0,432482 0,44 0,658 0,83???????? Car 0,521485 0,251541 2,07 0,038 1,68 1,03 2,76 Log L i k e l i h o o d = 228,354 Test t h a t a l l s l o p e s a r e z e r o : G = 1 0, 1 3 6, DF = 3, P Value = 0,017 Goodness of F i t T e s t s Method Chi Square DF P P e a r s o n 3,96352 4 0,411 D e v i a n c e 3,93907 4 0,414 Hosmer Lemeshow 0,29589 2 0,862 Table o f Observed and E x p e c t e d F r e q u e n c i e s : ( See Hosmer Lemeshow Test f o r t h e P e a r s o n Chi Square S t a t i s t i c ) Group Value 1 2 3 4 T o t a l Event Obs 15 22 17 52 106 Exp 15,9 20,2 16,9 52,9 Non e v e n t Obs 81 67 48 105 301 Exp 80,1 68,8 48,1 104,1 T o t a l 96 89 65 157 407 Measures o f A s s o c i a t i o n : ( Between t h e Response V a r i a b l e and P r e d i c t e d P r o b a b i l i t i e s ) P a i r s Number P e r c e n t Summary Measures Concordant 15052 47,2 Somers ' D 0,19 D i s c o r d a n t 8945 28,0 Goodman K r u s k a l Gamma 0,25 T i e s 7909 24,8 K e n d a l l ' s Tau a 0,07 T o t a l 31906 100,0 10
(a) Skriv ned den teoretiska modell som analysen baseras på. (1p) (b) Beräkna de???-markerade värdena i raden för Age. Vad står dessa värden för? (2p) (c) Beräkna de???-markerade värdena i raden för Income. VAd står dessa värden för? (2p) (d) Avgör vilken/vilka förklaringsvariabler som kan anses ha ett statistiskt säkerställt samband med köpbeteendet och vilken/vilka som inte kan anses ha det. Motivera ditt svar! (3p) (e) Bestäm utifrån modellen sannolikheten att en yngre individ som har hög inkomst och äger bil handlar i ett närbeläget köpcentrum. (2p) 11