Tentamen i Matematisk statistik Ämneskod-linje S0001M Poäng totalt för del 1 5 (8 uppgifter) Poäng totalt för del 0 ( uppgifter) Tentamensdatum 009-10-6 Adam Jonsson Lärare: Lennart Karlberg Robert Lundqvist Kerstin Vännman Skrivtid 09.00-1.00 Jourhavande lärare: Robert Lundqvist Tel: ankn 0/ tel 076-89 0 56 Tillåtna hjälpmedel: Räknedosa Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys. Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, ska enbart svar lämnas in, men lösningar får bifogas. Observera dock att dessa kommer ej att bedömas utan enbart användas vid gränsfall för att avgöra om någon uppgift kan rättas upp på grund av slarvfel. Svaren ska fyllas i på det blad som bifogas tentamen. Detta blad måste lämnas in. Lägg detta blad först bland lösningarna. Om inte det ifyllda svarsbladet har lämnats in så bedöms tentamen som underkänd. För godkänt krävs minst 19 poäng. Med extrapoäng från laborationerna och KGB så räcker det med 15 poäng av de 5 möjliga för godkänt. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg krävs godkänt på den första obligatoriska delen samt minst 1 poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del genom att kryssa för uppgifterna 9, 10 eller 11. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL!
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 1. Annika och Bo överväger att gå ut på ett lokalt nöjesetablissemang en lördag kväll. De går inte tillsammans, utan tar beslut på egen hand. Sannolikheten att Annika kommer att gå ut är 0.8, sannolikheten att Bo kommer att gå ut är 0.6. Bo uppskattar Annikas sällskap, så sannolikheten att han går ut om han vet att Annika kommer att göra detsamma är 0.7. Bestäm sannolikheten att a) båda går ut; (1p) b) Annika går ut om hon får veta att Bo kommer att gå ut; (p) c) minst en av Annika och Bo kommer. (p) Ange dina svar i procent med en decimal.. En viss typ av trästavar till golv har en längd som kan beskrivas med en normalfördelning med väntevärdet 5 cm och standardavvikelsen 0.6 cm Antag att stavarnas längder är oberoende av varandra. a) Hur stor är sannolikheten att en slumpmässigt utvald trästav har en längd som överstiger. cm? b) Man lägger 0 slumpmässigt valda stavar intill varandra utan fogar. Hur stor är sannolikheten att den sammanlagda längden överstiger 50 cm? Ange dina svar i procent med två decimaler. (p) (p). År 1910 visade Rutherford & Geiger i ett berömt experiment att antalet alfapartiklar som utsöndras från ett radioaktivt preparat kan beskrivas med en Poissonfördelning. Anta att det förväntade antalet partiklar under en sekund är 0.5. a) Hur stor är sannolikheten att högst två partiklar utsöndras i ett intervall på en sekund? b) Hur stor är sannolikheten att det av 5 stycken sekundlånga intervall är minst två intervall där ingen partikel utsöndras? Ange dina svar i procent med två decimaler. (1p) (p). Draghållfastheten för ett plastblock antas kunna beskrivas med en normalfördelning där väntevärdet är 150 kg och standardavvikelsen är 55 kg. Vilken är den maximala belastning som gör att högst 5% av blocken går av för den maxbelastningen? Ange ditt svar med en decimal. (p) 5. I många sammanhang mäts andelar. Det kan vara andelen defekta enheter, andelen anställda som råkar ut för en olycka, andelen som röstar på ett visst parti eller liknande. Tänk dig att du ska räkna på andelen defekta enheter i en tillverkningsprocess. Tillverkningen går till så att 5 enheter tillverkas och packas. Antag att sannolikheten att en enhet blir defekt är 1% och att varje enhet är oberoende av alla andra enheter. Andelen definieras förstås som kvoten - 1 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 mellan antalet defekta och antal enheter i en förpackning, dvs om ξ står för antalet defekta bland 5 tillverkade enheter så är p = den sökta andelen. 5 * ξ * a) Vad blir standardavvikelsen för andelen defekta enheter, dvs för p? Ange ditt svar i procent med tre decimaler. (p) b) Vad blir sannolikheten att andelen defekta i en förpackning är högst %? Ange ditt svar i procent med två decimaler. (p) 6. Aluminiumburkar återvinns genom att burkar krossas och körs till smältverk där detta blir en del av råvaran i tillverkningen av ny aluminium. Prover tas regelbundet ut på inkommande burkkross, och en viktig egenskap är smältpunkten. Anta att det har visat sig rimligt att beskriva smältpunkten med en normalfördelning. I en sändning av burkkross tas fem prover ut slumpmässigt där man mäter smältpunkten. Följande värden erhölls (enhet C): 660 667 65 66 66 Vad blir den övre gränsen i ett tvåsidigt 99% konfidensintervall för den förväntade smältpunkten? Ange ditt svar med en decimal. (p) 7. En tillverkare av pingisbollar gör två typer av bollar, en av god kvalitet och en av hög kvalitet. En kund hävdar efter att ha gjort vissa mätningar att bollarna av god kvalitet är något större. Tillverkaren beslutar sig för att mäta radien hos tolv par bollar. För de utvalda bollarna visade det sig att medelvärdena blev.81 och.7 cm för bollar av god respektive hög kvalitet; och standardavvikelserna blev 0.161 respektive 0.17 cm. Beräkna den övre gränsen i ett 98 % konfidensintervall för skillnaden mellan de förväntade radierna. Du kan utgå från att de uppmätta radierna kan beskrivas med normalfördelningar där standardavvikelsen för båda grupperna är lika stor. Ange ditt svar med två decimaler. (p) 8. I en undersökning av sambandet mellan lufttryck och kokpunkt gjorde den skotske fysikern James D. Forbes en serie mätningar mellan 180 och 1850, totalt 17 mätningar på olika platser i Skottland och i Alperna. En regressionsanalys med kokpunkt (enhet: grader Fahrenheit) som förklarande variabel och lufttryck (enhet: tum kvicksilver) som beroende ger med det materialet följande resultat: - -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Regression Analysis: lufttryck versus kokpunkt The regression equation is lufttryck = - 81,1 + 0,5 kokpunkt Predictor Coef SE Coef Constant -81,06,05 kokpunkt 0,589 0,01011 Analysis of Variance Source DF SS MS F P Regression? 15,1 15,1 677,11 0,000 Residual Error? 0,81 0,05 Total? 15,9 a) Vad blir förklaringsgraden med denna analys? Ange ditt svar i procent med två decimaler. b) För att testa om kokpunkten har en signifikant effekt på lufttrycket så används ett t-test. Bestäm värdet på testvariabeln i det testet. Ange testvariabelns värde med två decimaler. (1p) c) För att testa om kokpunkten har en signifikant effekt på lufttrycket så används ett t-test. När man ska avgöra om nollhypotesen kan förkastas så ska man jämföra testvariabeln med ett kritiskt värde som hämtas ur t-fördelningstabellen. Hur många frihetsgrader har den t-fördelning som ska användas? (1p) (1p) Slut på del 1. Glöm inte att bifoga svarsbladet med tentan! - -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Tabell för svar till del 1. Riv ut och lägg svarsbladet först i tentamen! Namn... Personnummer... Fråga Svar Poäng 1 a Sannolikhet 57.6% 1 b Sannolikhet 96.0% c Sannolikhet 8.% a Sannolikhet 89.% b Sannolikhet 8.11% a Sannolikhet 98.56% 1 b Sannolikhet 91.79% Maximal belastning 1159.5 kg 5 a Standardavvikelse 1.99% b Sannolikhet 97.% 6 Övre gräns 671.1 (671.0101 med fyra decimaler) 7 Övre gräns 0. (0.185 med fyra decimaler) alternativt 0.08 (0.0796 med fyra decimaler) med grupperna i omvänd ordning 8 a Förklaringsgrad 99.% 1 b Testvariabel t = 51.7 1 c Antal frihetsgrader 15 frihetsgrader 1 Totalt antal poäng 5 Lycka till! - -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Vid bedömningen av lösningarna av uppgifterna i del läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 9. I ett system finns tre komponenter som har exponentialfördelade livslängder. Komponenterna fungerar oberoende av varandra. Två av komponenterna är av en typ (A) och den tredje är av en annan typ (B). Komponenterna av typ A har en förväntad livslängd på 5 tidsenheter och motsvarande för komponent B är 10 tidsenheter. För att systemet ska fungera krävs att minst en av komponenterna av typ A fungerar och att B-komponenten fungerar. a) Vad blir sannolikheten att systemet fungerar i minst tidsenheter? b) Antag att man har observerat att systemet inte fungerar efter tidsenheter. Vilken tidpunkt systemet slutade att fungera vet man dock inte. Vad blir den betingande sannolikheten för att livslängden för B-komponenten understeg tidsenheter? (10p) 10. Ämnet hydrobromid kan användas som sömnmedel. Det finns två former, d-hyoscyamin hydrobromid och l-hyoscyamin hydrobromid. Enligt gängse uppfattning ska l-formen ge bättre effekt, dvs längre sömn, närmare bestämt i genomsnitt 1 timme längre sömn. Man misstänker dock att effekten är större än detta. För att få underlag för att se om antagandet om en större effekt håller görs en serie mätningar. Sömntiden för tio personer undersöks. Först bestäms deras genomsnittliga sömntid utan sömnmedel, sedan mäts sömntiden för var och en med de två preparaten. I nedanstående tabell ges resultatet i form av genomsnittlig förlängd sömntid med de två preparaten. Person d-form l-form Differens l- och d-form 1 0,7 1,9 1, 1,6 0,8, 0, 1,1 1, 1, 0,1 1, 5 0,1 0,1 0,0 6,, 1,0 7,7 5,5 1,8 8 0,8 1,6 0,8 9 0,0,6,6 10,0, 1, - 5 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Några beskrivande mått: Descriptive Statistics: d-form; l-form; diff ld-form Variable Mean SE Mean StDev Minimum Q1 Median Q Maximum d-form 0,750 0,566 1,789-1,600-0,50 0,50,50,700 l-form,0 0,6,00-0,100 0,65 1,750,50 5,500 diff ld-form 1,580 0,89 1,0 0,000 0,950 1,00 1,950,600 Kan man med dessa mätningar som grund påvisa att den genomsnittliga förlängningen av sömntid med l-formen är större än 1 timme jämfört med d- formen? Besvara frågan genom att utföra ett lämpligt hypotestest där du använder 5% signifikansnivå. Du kan utgå från lämpliga normalfördelningsantaganden. Beskriv tydligt hypoteser, testvariabel och beslutsregel. Uttryck dina slutsatser tydligt i ord. (8p) 11. Vid en kemisk industri gjordes ett planerat försök där man studerade hur utbytet av en kemisk process beror av variablerna temperatur, katalysatorkoncentration och tryck. I de inledande försöken valde man att låta de förklarande variablerna anta två nivåer, en låg nivå och en hög nivå, enligt tabell 1 nedan Tabell 1. Nivåer för de ingående föklarande variablerna. Variabelnummer Förklarande variabel Låg nivå ( 1) 1 Temperatur, enhet: C 0 Katalysatorkoncentration, enhet: mols 0.6 1.0 Tryck, enhet: 100 psi 7 10 Hög nivå (+1) Man utförde sedan försöket så att för varje kombination av de tre förklarande variablerna så mättes utbytet av processen och detta upprepades två gånger så att totalt fick man 16 mätvärden. I den fortsatta statistiska analysen valde man sedan att transformera eller koda de förklarande variablerna så att den låga nivån fick värdet 1 och den höga fick värdet +1. Detta för att underlätta analysen. I tabell nedan ges resultaten av försöken för varje kombination av nivåer, där 1 om variabel i är på sin låga nivå i =. + 1 om variabel i är på sin höga nivå Man gjorde först en multipel regressionsanalys med enbart de tre förklarande variablerna 1,, i modellen. Resultatet av framgår i tabell nedan. - 6 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Tabell. Resultaten av utbytet Utbytet 1 (kodade enheter) 1 1 1 6 +1 1 1 88 1 1 1 6 +1 1 1 8 1 +1 1 88 +1 +1 1 80 1 +1 1 99 +1 +1 1 9 1 1 +1 65 +1 1 +1 1 1 1 +1 65 +1 1 +1 11 1 +1 +1 97 +1 +1 +1 105 1 +1 +1 9 +1 +1 +1 117 a) Man misstänkte att det kunde finnas samspel mellan några av variablerna och prövade med att införa samspelstermen 1. Resultatet framgår av tabell. Var det värt att utöka modellen med variabeln 1? Besvara frågan med ett lämpligt hypotestest på 5% signifikansnivå och genom att jämföra två andra lämpliga mått. Hypoteser, beslutsregel och slutsats ska framgå tydligt. b) Man prövade även de andra tänkbara samspelstermerna och kom fram till den slutliga skattade modellen i tabell 5. Ange det modellantagande som ligger till grund för analysen i tabell 5. I figur 1 finns en residualplott. Ange vilka delar av modellantagandena som kan undersökas med den residualplotten. Vilka slutsatser drar du från denna plott? Finns det någon del av modellantagandet som inte ser ut att vara uppfylld utgående från plotten i figur 1? c) Genom att man valt att göra regressionsanalysen i de kodade variablerna så blir alla de skattade regressionskoefficienterna stokastiskt oberoende. Det i sin tur innebär att man enkelt kan beräkna konfidensintervall för effekten av de olika variablerna. Utgå från den skattade modellen i tabell 5 och beräkna ett 95% konfidensintervall för förväntade effekten som fås på utbytet om variabeln ändras en enhet samtidigt som variabeln 1 hålls på sin låga nivå och variabel hålls på ett fixt värde. (1p) - 7 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Tabell Regression Analysis: Y versus 1; ; The regression equation is Y = 90.0 + 11.1 1 + 6.5 + 8.1 Predictor Coef SE Coef T Constant 90.000.56 5.5 1 11.15.56.15 6.50.56 1.77 8.15.56.0 S = 1.16 R-Sq = 60.% R-Sq(adj) = 50.5% Tabell Regression Analysis: Y versus 1; ; ; 1* The regression equation is Y = 90.0 + 11.1 1 + 6.5 + 8.1-8.87 1* Predictor Coef SE Coef T P Constant 90.000.55 5.6 0.000 1 11.15.55.7 0.001 6.50.55.6 0.0 8.15.55.19 0.009 1* -8.875.55 -.9 0.005 Analysis of Variance Source DF SS MS F P Regression 91.7 10. 11.87 0.001 Residual Error 11 110. 10.7 Total 15 606.0 Tabell 5 Regression Analysis: Y versus 1; ; ; 1*; 1* The regression equation is Y = 90.0 + 11.1 1 + 6.5 + 8.1-8.87 1* + 7.5 1* Predictor Coef SE Coef T P Constant 90.000 1.68 65.81 0.000 1 11.15 1.68 8.1 0.000 6.50 1.68.57 0.001 8.15 1.68 5.9 0.000 1* -8.875 1.68-6.9 0.000 1* 7.50 1.68 5.0 0.000 S = 5.707 R-Sq = 95.1% R-Sq(adj) = 9.6% Analysis of Variance Source DF SS MS F P Regression 5 576.7 115.5 8.51 0.000 Residual Error 10 99. 9.9 Total 15 606.0-8 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 Residuals Versus the Fitted Values (response is Y) Standardized Residual 1 0-1 - 60 70 80 90 Fitted Value 100 110 10 Figur 1. Residualplott som hör till den skattade modellen i tabell 5-9 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 9. Låt ξ stå för livslängden för komponent A och η för livslängden för komponent B. De variablerna är exponentialfördelade med väntevärde 5 respektive 10. I ett system finns tre komponenter som har exponentialfördelade livslängder. Komponenterna fungerar oberoende av varandra. Två av komponenterna är av en typ (A) och den tredje är av en annan typ (B). Komponenterna av typ A har en förväntad livslängd på 5 tidsenheter och motsvarande för komponent B är 10 tidsenheter. För att systemet ska fungera krävs att minst en av komponenterna av typ A fungerar och att B-komponenten fungerar. a) Sannolikheten att systemet fungerar i minst tidsenheter kan skrivas som P( minst en A - komponent B - komponenten fungerar minst enheter), vilket på grund av oberoendet mellan komponenterna är detsamma som P minst en A - komponent P B - komponent. ( ) ( ) Där gäller att P ( minst en A - komponent) = 1 P( ingen A - komponent) = 1 ( P( ξ < ) ) = 0.6967 och P B - komponent = P η > = 0. sannolikheten är 6.71% ( ) ( ) 670 ( < systemetslivslängd < ). Detta betyder att den sökta b) Det som söks är P η. Med definitionen på betingade sannolikheter betyder det att P ( η < systemets livslängd < ) = 1 P 1 P( η > ) ( systemets livslängd > ) = P P( η < ) ( systemets livslängd < ) = 1 0.670 = = 0.6187. 1 0.671 10. Låt ξ i stå för genomsnittlig förlängd sömntid för patient i när denna fått d- formen av preparatet, och η i för motsvarande när patienten fått l-formen. Här är det fråga om en parvis jämförelse, dvs man måste bilda differensen ζ i = ηi ξi. För dessa variabler måste gälla att ξi N( μi,σ 1 ), ηi N ( μi + Δ, σ ) och följaktligen att ζ i N( Δ, σ ) där σ = σ 1 + σ. Dessutom förutsättas att resultaten från varje försöksperson är oberoende av resultaten från andra försökspersoner. Det som ska utföras är ett hypotestest där hypoteserna kan formuleras som z 1 H 0 : Δ = 1 och H1 : Δ > 1. Som testvariabel kan man då använda t = s / 10 ζ 1 eftersom den är en observation från som följer en känd fördelning, * σ / 10 närmare bestämt t() 9 -fördelningen. En lämplig beslutsregel bör då vara att om t är stort, dvs om t > c så förkastas nollhypotesen. Med 5% signifikansnivå betyder det att c = t 0 () 9 = 1. 8..05 = - 10 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 0, Distribution Plot T; df=9 0, 0, 0,1 0,0 0 1,8 0,05 Här är z = 1. 580 och s = 1. 0, så värdet på testvariabeln blir t = 1.91. Eftersom det är lägre än gränsen 1.8 kan man inte förkasta nollhypotesen, dvs man kan inte hävda att l-formen ger en timmes längre genomsnittlig sömntid än d-formen som väntades när ett test med 5% signifikansnivå använts. (8p) 11. a) Frågan var om det var det värt att utöka modellen med variabeln 1? Ett lämpligt hypotestest på 5% signifikansnivå och genom att jämföra två andra lämpliga mått ska tas fram. R adj När samspelstermen tas med i modellen blir den justerade förklaringsgraden SSE / = 1 SST / ( n 5) ( n 1) 110. /11 = 1 = 0.75 606 /15 SSE 110. och residualspridningen blir s e = = = 10. 181. n K 11 Detta ska jämföras med 60.% respektive 1.16, vilket i båda fallen visar att modellen blivit bättre med samspelstermen. Dessutom kan man se att samspelstermen har signifikant effekt på svarsvariabeln. Utöver detta kan man också göra ett hypotestest av H 0 : β = 0 mot H1 : β 0. Ett sätt att ta ställning mellan hypoteserna är att se till p-värdet för samspelstermen: eftersom det värdet är lågt (0.005) kan man på goda grunder säga att samspelstermen ska vara med i modellen. b) Modellantagande: Y β + β + β + β + β + β + ε där det ska gälla = 0 1 1 1 5 1 ε N 0,σ och att ε, ε, ε,, ε n 1 att ( ) 1 K är oberoende av varandra. Här står Y för utbytet i kodade enheter, för temperaturen, för koncentration av katalysator och för trycket. De förklarande variablerna har alla satts till låg respektive hög nivå enligt mönstret i 1om variabeli är på sin låga nivå = + 1om variabeli är på sin höga nivå - 11 -
Tentamen i Matematisk statistik, S0001M, del 1, 009-10-6 c) Residualplotten visar på residualerna mot fitted values dvs mot Y ˆ. Den kan i första hand användas för att se om det linjära sambandet är någorlunda rimligt. Om så är fallet ska residualerna inte uppvisa några icke-linjära mönster, vilket verkar vara fallet. Dessutom kan denna plott användas för att se om residualerna verklingen har konstant varians. Om så är fallet ska det inte finnas mönster där punkter är olika väl samlade runt mittlinjen för olika värden på Yˆ. Här kan man ana att spridningen är mindre för låga värden än för högre, vilket inte är optimalt. Det går också att se en annan aspekt av normalfördelningsantagandet: om för många residualer hamnar utanför ett band på ± s e (eller ± om residualerna är standardiserade) är det ett tecken på att normalfördelningsantagandet kanske inte är uppfyllt eftersom detta innebär att cirka 95% av alla residualer ska hamna inom detta band. Här är residualerna standardiserade, och inga hamnar utanför det aktuella området, dvs det finns ingen anledning att säga att den delen av modellen är tvivelaktig. Ett 95% konfidensintervall för förväntade effekten som fås på utbytet om variabeln ändras en enhet samtidigt som variabeln 1 hålls på sin låga nivå och variabel hålls på ett fixt värde ska beräknas. Annorlunda uttryckt: det som ska beräknas är ett konfidensintervall för β β. Ett sätt att kolla är att bilda differensen E( Y 1 ) E( Y 0 ) där E( Y0 ) = β 0 + β1( 1) + β + β + β ( 1) + β 5 ( 1) och E( Y1 ) = β 0 + β1( 1) + β ( + 1) + β + β ( 1)( + 1) + β 5 ( 1). Bildas differensen återstår bara β β. Eftersom variablerna är kodade på det som nu gjorts kommer koefficientskattningarna att vara oberoende av varandra, och det innebär att det sökta b b ± t0.05 11 SE b + b där konfidensintervallet blir ( ) SE b 1.68 1.68.78 + b = SE + = + = b SE b. Detta sammantaget ger intervallet [ 6.887,.6]. (1p) - 1 -