Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2017-10-25 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Mykola Shykula, Lennart Karlberg, Leif Ruckman Jourhavande lärare: Mykola Shykula Tel: 0920-493056 Examinator: Mykola Shykula Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen (del 1), som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs minst 17 poäng på del 1. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in även lösningar och bifogas oavsett om du lämnat in lösningar eller ej. OBS! Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen (del 2), som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på del 1 samt minst 13 poäng på del 2. För betyg 5 krävs godkänt på del 1 samt minst 23 poäng på del 2. OBS! Det går inte att kompensera underkänt på del 1 av tentamen med poäng från del 2. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (7)
1. Vid tillverkning av kakelplattor kan tre sorters fel A, B och C förekomma. Vi vet att P (A) = 0.2, P (B) = 0.05 och P (C) = 0.1. Dessa tre fel antas uppträda oberoende av varandra. Bestäm sannolikheten att kakelplattan har precis två sorters fel. 2. En basketspelare skjuter 12 straffkast. Antag att sannolikheten att hen sätter ett straffkast är 0.8 och att sannolikheten inte förändras för olika kast. Antag också att händelserna att sätta ett straffkast är oberoende av varandra. Bestäm sannolikheten att antalet satta straffkast överstiger 7 men ej 10. 3. Väntetiden (enhet: minut) från öppningsdags till dess första kunden kommer in i en affär är en stokastisk variabel med fördelningsfunktionen { 1 e 0.1x om x 0, F (x) = 0 annars. (a) Bestäm den förväntade väntetiden (väntevärdet) från öppningsdags till dess första kunden kommer in. (b) Bestäm väntetiden som den första kunden anländer inom med 95% sannolikhet. 4. Sara ska veckohandla i en stor affär och göra ett inköp på 48 artiklar. Antag att alla belopp avrundas vart och ett till hela kronor. Avrundningsfelen ζ 1,..., ζ 48 antas vara oberoende slumpvariabler som är rektangelfördelade på intervallet ( 0.5, 0.5). Saras totala avrundningsfel betecknas ζ = ζ 1 +... + ζ 48. Bestäm P ( 6 ζ 6). 5. Antalet inkommande samtal ξ per 18-minutersperiod antas följa Poisson fördelning med väntevärde 3. Bestäm sannolikheten att det under en slumpmässigt vald 18-minutersperiod kommer minst två samtal. 6. Läkaren Edvin är skeptisk mot homeopatmediciner. Han beslutar sig för att prova om ett nylanserat preparat har någon effekt på kolesterolnivån fär 9 slumpmässigt utvalda patienter. Resultatet, i kodade enheter, återges nedan. Patient 1 2 3 4 5 6 7 8 9 Före 4.29 4.25 3.81 5.02 3.57 3.16 3.98 4.37 3.86 Efter 4.69 4.80 2.47 5.17 3.31 3.36 4.46 3.99 3.84 Beräkna ett 95%-igt konfidensintervall för preparatets genomsnittliga effekt (dvs för skillnad mellan Efter och Före) under rimliga normalfördelningsantaganden. Svara med den övre gränsen. 7. Antag att vi vill undersöka om längden på pekfinger skiljer sig i genomsnitt mellan dominant och icke-dominant hand, utan att göra något antagande om normalfördelning. Värden på 18 slumpmässigt utvalda LTU studenter samlas in och det visade sig att alla individer i stickprovet har olika långa pekfingrar på vänster och höger hand. Vi gör ett teckentest och testar H 0 : det finns ingen skillnad i pekfingrets längd 2 (7)
mellan dominant och icke-dominant hand mot H 1 : det finns en skillnad. Som testvariabel tas antalet studenter med längre pekfinger på den dominanta handen. Vi ser att det finns 13 personer i stickprovet med denna egenskap. (a) Kan man på 5% signifikansnivå påvisa att det finns en signifikant skillnad i längden på dominanta och icke-dominanta pekfinger? Ange JA i svarsbladet om nollhypotesen skall förkastas och NEJ om den inte skall förkastas. (b) Ange P -värdet (i Vännman används beteckningen α 0 ) i testet ovan. 8. Det är känt att mjölk har en fryspunkt som kan variera enligt en normalfördelning med väntevärdet 0.45 o C. En mjölkproducent misstänker att en av bönderna späder ut mjölken med vatten. Ett sätt att undersöka detta är att mäta fryspunkten. Om vatten är tillsatt till mjölken bör vätskans fryspunkt närma sig vattnets (0 o C). Mjölkproducenten bestämmer sig för att testa hypoteserna: H 0 : µ = 0.45 mot H 1 : µ > 0.45. För att utföra hypotestestet tas ett stickprov på 16 prover, och resultatet av dessa prover gav ett medelvärde på fryspunkten som var 0.35 o C med en skattad stickprovs standardavvikelse 0.2 o C. Man vill genomföra ett t-test på 5% signifikansnivå. (a) Beräkna det observerade värdet på testvariabeln (t-kvoten). (b) Vilken är den kritiska gränsen för att förkasta nollhypotesen? Ange i svaret detta värde samt JA om nollhypotesen skall förkastas och NEJ om den inte skall förkastas, baserat på resultatet av t- testet. 9. Antag att ξ 1, ξ 2,..., ξ 6 är oberoende och kontinuerliga stokastiska variabler. För att bilda ett konfidensintervall för medianen i fördelningen har man bestämt sig för att använda metoden med teckenintervall. Bestäm konfidensgraden för intervallet [ξ(2), ξ(5)]. 10. Man har studerat oljeförbrukningen (för uppvärmning av fastigheten) för 10 slumpmässigt valda villor. Den varierar över året så observationerna för olika villor har gjorts vid olika tidpunkter under året och man har 1 observation per villa. Följande variabler har studerats: Y =oljeförbrukning i liter; X 1 =medeltemperatur (utomhus) för den månad då villans förbrukning studeras, o C; X 2 =bostadsyta, m 2 ; X 3 =isolering, 1 om villan är tilläggsisolerad och 0 annars. Med hjälp av ett datorprogram genomfördes en regressionsanalys. Minsta-kvadratskattningarna av regressionskoefficienterna samt deras skattade standardavvikelser blev: Coef SE Coef b 0 = 246.117 s b0 = 37.937 b 1 = 27.875 s b1 = 1.167 b 2 = 1.818 s b2 = 0.220 b 3 = 67.677 s b3 = 17.425 3 (7)
Regressionskvadratsumman blev 417229.962 och den totala kvadratsumman blev 421472.500. (a) Bestäm residualspridningen s e. (b) Bestäm den justerade förklaringsgraden R 2 a. (c) För att avgöra om X 2, bostadsyta, ska vara med i modellen som förklarande variabel vill man genomföra ett t-test på 5% signifikansnivå. Beräkna det observerade värdet på t-kvoten. Ange i svaret detta värde samt JA om variabeln X 2 skall ingå i modellen och NEJ om den inte skall ingå baserat på resultatet av t-testet. (d) Finn ett 99% konfidensintervall för hur oljeförbrukningen förändras i genomsnitt om medeltemperaturen stiger med en grad och övriga variabler hålls konstanta. Svara med den undre gränsen. Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 4 (7)
Tabell för svar till del 1 Lägg detta blad först i tentamen Namn:................................................................... Personnummer:.......................................................... Sannolikheter anges som ett tal mellan 0 och 1 i decimalform om inte annat anges. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 2 2 Sannolikhet (tre decimaler) 2 3 a Väntevärde (i minut, en decimal) 1 b Väntetid (i minut, två decimaler) 2 4 Sannolikhet (tre decimaler) 2 5 Sannolikhet (tre decimaler) 1 6 Övre gräns (tre decimaler) 2 7 a JA eller NEJ 2 b P -värdet (tre decimaler) 1 8 a Värde på t-kvot (två decimaler) 1 b Kritisk gräns (tre decimaler) JA eller NEJ 2 9 Konfidensgrad (fyra decimaler) 2 10 a Residualspridning (två decimaler) 1 b Just. förklaringsgrad (i %, två decimaler) 1 c Värde på t-kvot (tre decimaler) JA eller NEJ 2 d Undre gräns (tre decimaler) 1 Totalt antal poäng 25 5 (7)
Tentamen i Matematisk statistik, S0001M, del 2 2017-10-25 Till uppgifterna på del 2 krävs fullständiga lösningar. 11. Nisse köper en julgransbelysning. Han vet av erfarenhet att livslängden för var och en av lamporna är exponentialfördelad med parametern λ. Belysningen består av n oberoende (i statistisk mening) seriekopplade lampor. Livslängden X för belysningen är då livslängden för den lampa som går sönder först. (a) Vilken fördelning har livslängden av julgransbelysningen? Ange fördelningsfunktionen F (x) = P (X x). (b) Beräkna sannolikheten att belysningen fungerar vid tiden t, dvs P (X t). (c) Vad blir den förväntade livslängden E(X) av belysningen? (6p) 12. Två studenter, Frasse och Klara, gör en statistisk undersökning för att skatta väntevärdet µ i en viss fördelning med den kända standardavvikelsen σ. Frasse har n 1 observationer, medan Klara har n 2 observationer. Både använder sig av stickprovsmedelvärdet, ˆµ F och ˆµ K respektive, som skattningen för det okända väntevärdet µ. De vill vikta ihop sina resultat, dvs. skattningen ˆµ av µ skall vara ˆµ = kˆµ F + (1 k)ˆµ K, där k är en konstant mellan 0 och 1. Frasse föreslår att k skall vara 0.5, dvs. de skall ta medelvärdet av sina resultat. Klara invänder att det är smartare att ge större vikt åt det mätvärde som är baserat på flest observationer. Hur skall konstanten k väljas för att minimera standardavvikelsen för skattningen ˆµ? Motivera ditt svar. (10p) 13. För att undersöka hur oljeförbrukningen för villor varierar har man studerat 10 villor. I del 1 av tentamen har du sett en modell för detta. Man jobbar dock vidare med denna problemställning och funderar över två alternativa modeller. Modell 1: Det är den modell du sett i del 1 av tentan. Modell 2: Man vill att modellen skall vara så enkel som möjligt och tar därför enbart med medeltemperatur som förklaringsvariabel. Minstakvadrat-skattningarna av regressionskoefficienterna, deras skattade standardavvikelser samt motsvarande t-kvoterna och P -värden blev då: Coef SE Coef T P b 0 = 500.930 s b0 = 33.628 14.896 0.000 b 1 = 25.862 s b1 = 3.675-7.038 0.000 Den justerade förklaringsgraden och residualspridningen för Modell 2 blev 84.4% respektive 85.5954. 6 (7)
Tentamen i Matematisk statistik, S0001M, del 2 2017-10-25 Modell 3: Man tänker att det kanske kan finnas ett samspel mellan utomhustemperatur och tilläggsisolering så för modell 1 lägger man till X 4 = X 1 X 3. Minsta-kvadrat-skattningarna av regressionskoefficienterna, deras skattade standardavvikelser samt motsvarande t-kvoterna och P -värden blev då: Coef SE Coef T P b 0 = 235.154 s b0 = 42.416 5.544 0.003 b 1 = 27.140 s b1 = 1.591-17.063 0.000 b 2 = 1.856 s b2 = 0.235 7.892 0.001 b 3 = 58.246 s b3 = 22.428-2.597 0.048 b 4 = 1.784 s b4 = 2.486-0.718 0.505 Den justerade förklaringsgraden och residualspridningen för Modell 3 blev 98.4% respektive 27.7355. (a) Vilken av modellerna 1, 2 eller 3 skulle du föreslå? Motivera. (b) Variabeln isolering kan enbart anta värdena 0 och 1. Vad kallas denna typ av variabel? (c) Ange modellantaganden för den föreslagna modellen? (7p) 7 (7)