TENTMEN Kurs: Plats: Dataanalys och statistik 2 distans 7,5 hp HiG sal 5:525 B eller annan ort Datum: 2 6 9 Tid: 9: 4: Lärare: Tommy Waller ( tel: 26-64 89 65 eller 74 3 86 3 ) Hjälpmedel: Miniräknare av valfri modell Tabeller och formler (bilaga som fås tillsammans med tentan) Tentan är uppdelad på del och del 2. Del har fyra frågor vilka inte bedöms vara särskilt tidskrävande. Poängsumman på denna del är 8 p. Del 2 har fyra uppgifter som kräver mer beräkningar än frågorna i del. Poängsumman på denna del är 3 p. I resultatet för tentan adderas poängen från del och del 2, så att maximalt 48 p kan uppnås. Vid betygsättningen på hela kursen tillkommer bonuspoängen från KS och inlämningsuppgifterna så att max 6 p kan erhållas. I helkursbetygen används följande gränser för godkända betyg: E: 24 p, D: 32 p, C: 4 p, B: 48 p, : 55 p ( Bonuspoängen från KS och inlupparna är giltiga till och med första omtentan. Sedan blir det alltså svårare att erhålla de högre betygen, men man blir dock alltid godkänd på kursen om minst 5% av tentans max-poäng uppnås.) LYCK TILL!
Del av tentan består av följande fyra frågor Fråga (2 + 2 = 4 p) Signifikansnivån α i statistiska test brukar ibland kallas felrisknivå därför att den är lika med sannolikheten för typ I fel. a) Mest exakt kan α = P( typ I fel ) anges med en viss betingad sannolikhet. Vilken är denna betingade sannolikhet? b) Statistisk hypotesprövning brukar ibland jämföras med en domstolsförhandling. Vilken tolkning har sannolikheten α i detta fall? Fråga 2 (2 + 2 = 4 p) I prognoskompendiet används data för försäljning av sparkling wine i ustralien 99 994. För kvartalens ordningsnummer 2 fås medelvärdet t =, 5 och försäljningen per kvartal (milj. liter) har medelvärdet y = 7, 465. Regressionsanalys med indikatorvariabler gav följande modell, som visar att försäljningen hade högsäsong under kvartal 4 och lågsäsong under övriga tre kvartal: yˆ = 3, +,8 t 8,5 Ind 8,32 Ind2 7, Ind3 a) Vilken ekvation på formen T ˆ = b + b t erhålls för trendkomponenten (d.v.s. den genomsnittliga linjen, som är baserad på data för alla fyra kvartalen)? b) Vilket värde har säsongskomponenten (S 4 ) som gäller för det 4:e kvartalet? Fråga 3 (2 + 2 = 4 p) Under sju månader vinterhalvåret (28-29) gjordes multipel regressionsanalys av energiförbrukningen i sju villor. I varje villa gjordes mätningar under en slumpmässigt vald månad för variablerna: y = energiförbrukning (kwh), x = medeltemperatur ute (Celsius), x2 = bostadsyta (m 2 ). Följande data erhölls: okt nov dec jan febr mars april y 3 3 65 525 64 55 275 x 7, 2,8, -2, -3, -,7 4,4 x2 9 25 4 55 8 3 Regressionsekvationen( y ˆ = b + b x + b2 x2 ) blev: y ˆ = 22 37,6x +, 75x2 Din uppgift är att tolka innebörden av de erhållna värdena för koefficienterna b och b 2. Fråga 4 (6 p) nge sant eller falskt för följande sex påståenden. Varje rätt svar ger poäng.. Enligt centrala gränsvärdessatsen (Central Limit Theorem) är ett stickprovs-medelvärde ( y ) alltid ungefär normalfördelat oberoende av urvalets storlek. y µ 2. För alla slumpmässiga urval av storlek minst n = 2, gäller det att kvoten har s / n fördelningen Student s t om data är ungefär normalfördelade. 3. Type II error i statistisk hypotesprövning, kan liknas vid att man i domstolen frikänner en person som är skyldig. 4. P-värdet i statistiska test anger sannolikheten att testvariabelns värde blir minst lika extremt som beräknat värde (från observerade data), givet att H är sann. 5. Vid linjär regression fås alltid stor residual för observationer med high leverage. 6. Om man har samma data och samma signifikansnivå (α) så är det mer troligt att H förkastas vid dubbelsidig alternativ hypotes än vid enkelsidig alternativ hypotes.
Del 2 av tentan består av följande fyra uppgifter ---------------------------------------------------------------------------------------------------------------- Uppgift (2 + 3 + 3 = 8 p) Vanligen finns ett negativt samband mellan pris och efterfrågan för en viss vara, så att försäljningen minskar om priset ökar. Nedanstående beräkningsresultat och diagram erhölls i enkel linjär regression med Minitab (x är kilopris för ost och y är antal kilo ost som såldes). Predictor Coef SE Coef T P Constant 262,5 5, 5,5,2 x -2,36,99-2,6,4 Fitted Line Plot: y = 262,5-2,36 x Scatterplot of RESI vs x 225 5 2 4 75 3 2 y 5 25 RESI 75 - -2-3 5 3 4 5 x 6 7 8-4 3 4 5 x 6 7 8 a) För att linjär regression ska vara meningsfull, behöver koefficienten för x i populationsmodellen ( y = β + β x + ε ) vara signifikant skild från noll. Hur ser man enklast i ovanstående Minitab-utskrift att β är signifikant skild från noll på nivån α =,5? b) lternativt kan man avgöra huruvida β är signifikant skild från noll på nivån α =,5 med ett 95% konfidensintervall för β. Beräkna detta konfidensintervall och tala om varför det visar att β är signifikant skild från noll. c) Förklara varför diagrammen från Minitab tyder på att allt är Okej med de första tre, av de fyra assumptions som ska vara uppfyllda vid inferences for regression. Uppgift 2 (4 + 3 = 7 p) Vid ishockeymatcher i elitserien borde det vara så att hemmalaget och bortalaget i långa loppet har lika stor andel av utvisningarna. För att undersöka detta gjordes under säsongen 28-29 ett slumpmässigt urval av matcher, där totalt n = 36 utvisningar förekommit. ntal utvisningar för hemmalaget var 38 (och alltså 36 38 = 68 för bortalaget). Man kan misstänka att hemmalaget favoriseras så att enkelsidigt test vore mest naturligt. Dock skulle nog domarkåren protestera mot detta, så vi tar med båda typerna av test: Låt p vara den andel av utvisningarna som drabbar hemmalaget i långa loppet. a) Utför det enkelsidiga testet ( H : p, 5, H : p <, 5 ) på signifikansnivån α =,5. = b) Utför det dubbelsidiga testet ( H : p, 5, H : p, 5) på signifikansnivån α =,5. =
Uppgift 3 ( + 2 + 4 = 7 p) En viss högskolekurs i Statistik hade vid ett tillfälle 8 studenter både på kursens campusversion och på distans-versionen. Med följande data (observerade antal) vill man testa huruvida en och samma betygsfördelning kan anses gälla för båda kursversionerna: Betyg campus distans Summa B C D E F-Fx 4 7 2 22 27 8 6 3 2 26 9 6 2 32 48 36 4 Summa 8 8 6 a) Vilken är rätt typ av test i denna situation ska det vara test av goodness-of-fit, homogenitet eller oberoende? b) Formulera testets nollhypotes ( H ) och alternativa hypotes ( H ). c) Utför testet (med α =,5) genom att beräkna expected counts och värdet för testvariabeln (χ 2 ) och dra sedan slutsats om huruvida H ska förkastas eller inte. Uppgift 4 (6 + 2 = 8 p) På masterutbildningen i psykologi vid en svensk högskola skulle C-uppsatsen handla om olika aspekter på begreppet intelligens. En av studenterna hade valt att närmare undersöka frågan: Är det möjligt att på kort tid träna upp sin intelligenskvot (IQ)? Studien lades upp som en urvalsundersökning med tio slumpmässigt valda försökspersoner, för vilka man inledningsvis gjorde en intelligensmätning ( IQ före ). Därefter genomförde försökspersonerna en veckas intensivutbildning. De fick lära sig filosofin med intelligensproven och varje dag avslutades med att alla i övningssyfte gjorde ett IQ-prov. vslutningsvis gjordes en sista intelligensmätning som inte var övning ( IQ efter ). Tabellen visar mätvärdena och diagrammet avser differenserna: d = IQ efter IQ före Person 2 3 4 5 6 7 8 9 IQföre 88 3 5 26 82 94 95 2 95 IQ 29 82 6 2 9 24 2 efter 99 99 Normal Probability Plot of: d = IQ-efter - IQ-före 95 9 8 7 6 5 4 3 2 5-2 - 2 3 a) Utför på nivån α =,5 det statistiska test som är mest lämpligt för dessa data. Välj enkelsidig alternativ hypotes ( H : µ d = och H : µ d > ). b) Kommentera huruvida förutsättningarna för testet kan anses vara uppfyllda.