Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2014-10-28 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: A. Jonsson, M. Shykula, J. Martinsson Jourhavande lärare: Adam Jonsson Tel: 0920-491948 Jesper Martinsson Tel: 0920-491425 Tillåtna hjälpmedel: Räknedosa, Kursboken Vännman: Matematisk statistik. I kursboken får anteckningar och post-it lappar finnas, men inte lösta exempel. Kompendium om regressionsanalys Formelblad Tabeller Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, behöver enbart svar lämnas in, men om korta lösningar bifogas så finns det vid gränsfall möjlighet att få delpoäng på en uppgift. Delpoäng ges i första hand om en uppgift i stort sett behandlats korrekt men slarvfel begåtts. Om kortfattade lösningar ej bifogas så finns inga möjligheter att få delpoäng på en uppgift. För godkänt krävs minst 17 poäng på del 1. Svaren för del 1 ska fyllas i på det blad som bifogas tentamen. Det ifyllda svarsbladet skall läggas först om du lämnar in lösningar och bifogas oavsett om du lämnat in lösningar eller ej. Om inte det ifyllda svarsbladet lämnas in bedöms tentamen som underkänd. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst 13 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 23 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för de sista tre uppgifterna. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL! 1 (9)
1. Inför en viss tenta har det visat sig att 75 % av studenterna förberder sig genom att plugga gamla tentor. En student som förberett sig på detta sätt klarar tentan med sannolikhet 0.72. En student som inte pluggat gamla tentor klarar tentan med sannolikhet 0.45. Vad är sannolikheten att en slumpmässigt vald student klarar tentan? 2. Stefan ska kasta en tärning tills han får en sexa. Vad är sannolikheten att han måste göra fler än tre kast? 3. Laddare till mobiltelefoner av ett visst märke är ganska ofta defekta. I en låda ligger 15 laddare av det aktuella märket, där 5 är defekta. Om du tar 3 laddare på måfå, vad är då sannolikheten att minst 2 fungerar? 4. Slumpvariabeln ξ är Exponentialfördelad Exp(λ), där λ = 0.05. En ny slumpvariabel ζ, som är en linjär funktion av ξ, bildas enligt ζ = ξ + 20. (a) Bestäm väntevärde och varians för ζ, dvs E(ζ) och V (ζ). (b) Bestäm sannolikheten att ζ antar ett värde som är större än 40. Dvs bestäm P (ζ > 40). 5. I en viss bank samlas uppgifter in om handläggningstiden av olika slags ärenden. Det har visat sig att handläggningstiden kan beskrivas med en normalfördelning där den förväntade handläggningstiden är 9 timmar och standardavvikelsen är 1.4 timmar. Hur lång är den längsta tiden för de 4 % kortaste handläggningstiderna? 6. En snickare har kommit fram till att när brädor av längd 1 meter kapas så blir det ett slumpmässigt fel som har väntevärde 0 och standardavvikelse 0.05. Felen är oberoende och likafördelade. Snickaren ska kapa upp 40 brädor, som sedan ska sammansättas. Vad är sannoliketen att den totala längden för de 40 brädorna blir minst 39.5 meter? 7. I ett laboratorium används ett visst instrument för att bestämma halten µ av ett ämne i en råvara. De tio mätningarna x 1,..., x 10 kan betraktas som ett observerat stickprov från N(µ, σ). Från ett stort antal tidigare mätningar med instrumentet i fråga vet man att σ = 0.3. För att testa H 0 : µ = 2.2 mot H 1 : µ < 2.2 på 5% signifikansnivå har man bestämt sig för att använda testvariabeln z = x 2.2 0.3/ 10, där x är stickprovsmedelvärdet. (a) Bestäm det kritiska värdet på testvariabeln z. (1p) De uppmätta värdena x 1,..., x 10 ges i tabellen nedan: 2 (9)
i 1 2 3 4 5 6 7 8 9 10 x i 2.6 1.5 1.5 1.9 2.1 2.6 1.8 1.8 2.2 2.6 (b) Bestäm det observerade värdet på testvariablen. Skall H 0 förkastas? (1p) På uppgift (b) krävs rätt värde och rätt svar (JA eller NEJ) för 1p. 8. En forskare har bildat ett konfidensinervall för en viss fysikalisk konstant µ. De uppmätta värdena x 1,..., x 5 kan betraktas som observationer från en normalfördelning N(µ, σ), där både µ och σ är okända, och ges i tabellen nedan: i 1 2 3 4 5 x i 2.9 4.8 4.4 3.3 3.9 Forskarens har angivit konfidensintervallet [3.12, 4.60], men glömt att ange konfidensgraden. Vad är konfidensgraden för det angivna intervallet? 9. I en forskargrupp vill man testa H 0 : θ = 3.1 mot H 1 : θ = 3.2, där θ är en viss konstant. Forskargruppen består av 8 forskare som var och en tillämpar ett test med 1 % signifikansnivå och 90% styrka. Dom 8 testen baseras på oberoende stickprov som vart och ett består av 25 observationer. Antag att H 0 är falsk. Hur stor är sannolikheten att minst tre forskare felaktigt drar slutsatsen att H 0 ska accepteras? 10. I en studie ville man undersöka hur olika egenskaper hos asfaltsbeläggning påverkar beläggningens hållfasthet. Som mått på hållfastheten använde man förändringen i spårdjup (Y =FÖRÄNDR SPÅRDJUP), mätt i inches per en miljon passerade däck. Försöket gjordes i USA, därav enheten inches. Man var främst intressead av hur förändringen i spårdjup berodde på viskositeten hos asfalten (V =VISKOSITET). Spridningsdiagrammet (Figur 1) visar sambandet mellan Y och V för 31 prov. Spridningsdiagrammet antyder att förändringen i spårdjup inte kan antas bero linjärt på viskositeten. Man bestämde sig därför för en enkel regressionsmodell med Y som beroende variabel och X = 1/V som förklarande variabel. En regressionsanalys för de 31 observationerna redovisas i Tabell 1 nedan. (Vissa uppgifter har där medvetet ersatts med frågetecken.) (a) Bestäm förklaringsgraden R 2. (b) Bestäm residualspridning s e. (1p) (c) För att testa om X påverkar Y så kan man titta på en lämlig t- kvot och jämföra dess absolutbelopp med ett värde från t-tabellen på sidan 311 i kursboken. Kan man på 0.1% signifikansnivå påstå att viskositeten påverkar förändring i spårdjupet? Svara med (Ja/Nej) samt värdet på t-kvoten. Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! 3 (9)
Scatterplot of FÖRÄNDR_SPÅRDJUP vs VISKOSITET 25 FÖRÄNDR_SPÅRDJUP 20 15 10 5 0 0 100 200 VISKOSITET 300 400 500 Figur 1: Förändringen i spårdjup gentemot viskositeten hos asfalten Tabell 1: Regression Analysis: Y versus X Analysis of Variance Source DF SS MS F-Value P-Value Regression??? 176,30 0,000 Error 29 193,03 6,66 Total? 1366,52 Model Summary S R-Sq R-Sq(adj)??? Coefficients Term Coef SE Coef T-Value P-Value VIF Constant? 0,571?? X? 1,08?? 1,0 Regression Equation Y = 2,072 + 14,30 X 4 (9)
Tabell för svar till del 1 Riv ut och lägg svarsbladet först i tentamen Namn:................................................................... Personnummer:.......................................................... Sannolikheter skall anges som ett tal mellan 0 och 1 i decimalform. Fråga Svar Poäng 1 Sannolikhet (tre decimaler) 0.653 (0.652 OK) 2 2 Sannolikhet (tre decimaler) 0.579 2 3 Sannolikhet (tre decimaler) 0.758 2 4 a Väntevärde (en decimal) 40.0 1 Varians (en decimal) 400.0 1 b Sannolikhet (tre decimaler) 0.368 2 5 Den längsta tiden (tre decimaler) 6.550 2 6 Sannolikhet (tre decimaler) 0.943 2 7 a Kritiskt värde (tre decimaler) -1.645 1 b Observerat värde (tre decimaler) -1.476 JA eller NEJ NEJ 1 8 Konfidensgrad (två decimaler) 0.90 (90.0 OK) 2 9 Sannolikhet (tre decimaler) 0.038 2 10 a Förklaringsgrad (%, tre decimaler) 85.874 2 b Residualspridning (tre decimaler) 2.580 1 c Värde på t-kvot (tre decimaler) 13.241 1 JA eller NEJ JA 1 Totalt antal poäng 25 Klicka här för lösningsskisser och kommentarer till vissa uppgifter. 5 (9)
6 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2014-10-28 Till uppgifterna på del 2 krävs fullständinga lösningar 11. Antag att ξ 1, ξ 2,..., ξ n är oberoende slumpvariabler med samma sannolikhetsfördelning, där P (ξ i = x) = θ x (1 θ) 1 x, x = 0, 1. Här är θ en okänd konstant (0 < θ < 1) som skall skattas. (a) Bestäm E(ξ 1 ) och V (ξ 1 ). (b) Som skattning av θ vill man använda medelvärdet θ = ξ. Avgör om θ är en väntevärdesriktig skattning av θ. (8p) Lösning (a) Vi har E(ξ 1 ) = 0 P (ξ 1 = 0) + 1 P (ξ 1 = 1) = 0 (1 θ) + 1 θ = θ. Variansen är V (ξ 1 ) = (0 θ) 2 P (ξ 1 = 0)+(1 θ) 2 P (ξ 1 = 1) = (0 θ) 2 (1 θ)+(1 θ) 2 θ. Förenkling ger V (ξ 1 ) = θ(1 θ). (b) Vi ska avgöra om E(θ ) = θ, dvs om E( ξ) = θ. Om så är fallet är θ väntevärdesriktig. Deluppgift (a) och Sats 5A ger E( 1 n n ξ i ) = 1 n n E( ξ i ) = 1 n i=1 i=1 n E(ξ i ) = 1 n ne(ξ 1) = E(ξ 1 ) = θ. i=1 Alltså är θ väntevärdesriktig. 12. Under kursen har du lärt dig en metod som baseras på ordnade mätvärden x(1) < x(2) <... < x(n) för att bestämma konfindensintervall för medianen i en godtycklig kontinuerlig fördelning. Man skulle kunna tänka sig en liknande metod för att bestämma nedre eller övre krartil i en kontinuerlig fördelning, eller för den p:te percentilen (med bokens beteckning: L p ) för ett godtyckligt p. Antag att du har ett stickprov ξ 1, ξ 2,..., ξ 20 från en kontinuerlig fördelning och att du vill bestämma ett konfidensintervall för den nedre kvartilen, dvs för L 25. Valet står mellan något av de tre intervallen I 1 = [ξ(1), ξ(10)], I 2 = [ξ(2), ξ(9)] och I 3 = [ξ(3), ξ(8)]. Antag också att en konfidensgrad nära 95% söks. Vilket intervall passar bäst? (12p) Lösning Inför slumpvariabeln η =antal variabler av dom 20 som tar ett värde som är mindre än L 25. Att intervallet I 1 innehåller L 25 är samma sak som att 1 η 9. Mer allmänt: att intervallet I k innehåller L 25 är samma sak som att k η 10 k, k = 1, 2, 3. Så vi får att konfidensgraden för I k är lika med P (k η 10 k). Här gäller att η Bin(20, 0.25). Det ger konfidensgraderna: 0.9829644 för I 1, 0.9347622 för I 2, 0.8069277 för I 3. Så I 2 är det intervall vi söker. 7 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2014-10-28 13. Vi återvänder till studien från uppgift 10 på del 1 om hur asfaltsbeläggning påverkar beläggningens hållfasthet. (a) Ange modellantagandet för den modell som analyserats i uppgift 10. (b) Figur 2 visar en normalfördelningsplot på dom standardiserade residualerna för modellen i uppgift 10. Dra en slutsats från denna plot. Hur påverkar slutsatsen hur dina svar på uppgift 10 ska tolkas? Du ska här ange vilken betydelse dina slutser om normalfördelningsplotten har för svaren på 10 (a), 10 (b) och 10 (c). Lösning (a) Modellantagandet är Y i = β 0 + β 1 (1/X i ) + ε i, där ε 1, ε 2,..., ε 31 är oberoende stokastiska variabler, ε i N(0, σ), σ är en okänd konstant; Y = FÖRÄNDR SPÅRDJUP, X = VIS- KOSITET. Eftersom datat inte redovisades i uppgiften kan vi inte ange i vilket spann på variabeln X (eller 1/X) som modellen är definierad. (b) Enligt normalfördelningsplotten i Figur 2 är det inte rimpligt att anta att residualerna är normalfördelade. För om dom vore normalfördelade så skulle punkterna ligger mer längs linjen. Mer exakt kan vi säga att man kan påsta att värdena inte kommer från normalfördelning på t.ex. 1% risknivå, då det redovisade P-värdet är mindre än 0.005. Detta betyder att det inte finns stöd för att modellantagandet för den modell som analyserats är uppfyllt. Storheterna förklaringsgad och residualspridning kan tolkas även om modellantandena inte är uppfyllda, så normalfördelningsplottens utseende betyder inte att dessa kvantiteter är irrelevanta i sammanhanget. För att genomföra hypotestestet i uppgift (c) krävs dock att modellantandena är uppfyllda för att t-kvoten ska ha t-fördelning. Så normalfördelningsplottens utseende gör att vi inte kan dra slutsatser med hjälp av testet i 10 (c). (6p) 8 (9)
Tentamen i Matematisk statistik, S0001M, del 2 2014-10-28 Probability Plot of SRES1 Normal - 95% CI Percent 99 95 90 80 70 60 50 40 30 20 Mean -0,008883 StDev 1,015 N 31 AD 1,357 P-Value <0,005 10 5 1-3 -2-1 0 SRES1 1 2 3 Figur 2: Normalfördelningsplot för standardiserade residualer 9 (9)