Tentamen i Matematisk statistik Ämneskod-linje S000M Poäng totalt för del 25 (8 uppgifter) Poäng totalt för del 2 0 ( uppgifter) Tentamensdatum 200-0-5 Ove Edlund Lärare: Adam Jonsson Robert Lundqvist Kerstin Vännman Skrivtid 09.00-4.00 Jourhavande lärare: Adam Jonsson Tel: ankn 948 Tillåtna hjälpmedel: Räknedosa Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys). Tentamen består av två delar. På den första delen, som är obligatorisk för att kunna bli godkänd, ska enbart svar lämnas in, men lösningar får bifogas. Observera dock att dessa kommer ej att bedömas utan enbart användas vid gränsfall för att avgöra om någon uppgift kan rättas upp på grund av slarvfel. Svaren ska fyllas i på det blad som bifogas tentamen. Detta blad måste lämnas in. Lägg detta blad först bland lösningarna. Om inte det ifyllda svarsbladet har lämnats in så bedöms tentamen som underkänd. För godkänt krävs minst 9 poäng. Med 4 extrapoäng från laborationerna och KGB så räcker det med 5 poäng av de 25 möjliga för godkänt. På den andra delen, som gäller tentamen för överbetyg, ska fullständiga lösningar lämnas in. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt och motivera resonemangen. Vid bedömningen av lösningarna läggs stor vikt vid hur lösningarna är motiverade och redovisade. För betyg 4 krävs godkänt på den första obligatoriska delen samt minst poäng från den andra delen för överbetyg. För betyg 5 krävs godkänt på den första obligatoriska delen samt minst 2 poäng från den andra delen för överbetyg. OBS! Det går inte att kompensera underkänt på den första korta delen av tentamen med poäng på den andra delen. Ange på tentamensomslaget om du har lämnat in lösningar på del 2 genom att kryssa för uppgifterna 9, 0 eller. Om du plussar för överbetyg så skriv detta på tentamensomslaget. LYCKA TILL!
Tentamen i Matematisk statistik, S000M, del, 200-0-5. Ett begrepp i statistisk processtyrning är statistisk jämvikt vilket ofta definieras som ett tillstånd i processen där variationen inte har några särskilda orsaker utan kan betraktas som slumpmässig. I tillverkningen av en viss del till bakaxlar till lastbilar ingår två processer, en för pressning av detaljerna och en där axeltappar svetsas fast. Det har visat sig att pressningen i ett givet ögonblick är i statistisk jämvikt med sannolikheten 7%, att motsvarande sannolikhet för svetsprocessen är 6%. Det har också visat sig att sannolikheten att båda processerna är i statistisk jämvikt är 5%. a) Hur stor är sannolikheten att ingen av processerna är i statistisk jämvikt? (p) b) Hur stor är sannolikheten att exakt en av processerna är i statistisk jämvikt? (p) c) Vid kontroll visar det sig att svetsprocessen är i statistisk jämvikt. Hur stor är då sannolikheten att pressprocessen också är i statistisk jämvikt? (p) Ange dina svar i procent med två decimaler. 2. Du är ansvarig för att följa upp olyckor i organisationen. Det har upprättats en definition på vad som avses med olyckor minst en av följande konsekvenser: ) person får uppsöka vård; 2) person får lämna arbetet minst en dag; ) händelse med påtaglig risk för allvarlig personskada. Med den definitionen har det visat sig att antalet olyckor per månad inom organisationen kan beskrivas med nedanstående (ofullständiga) fördelning, där ξ betecknar antalet olyckor per månad: k 0 2 P ( ξ = k) 0.25 0.5 0.25 a) Hur stor är sannolikheten att det blir minst 2 olyckor under en månad? Ange ditt svar i procent med två decimaler. (p) b) Vad blir standardavvikelsen för antalet olyckor per månad? Ange ditt svar med två decimaler. c) Vad är sannolikheten att det under en period på 6 månader inte är några olyckor under minst av månaderna? Antag att antalet olyckor en viss månad är oberoende av motsvarande antal alla andra månader. Ange ditt svar i procent med två decimaler.. Anna behöver såga upp 0 plankor som ska läggas ihop efter varandra. Antag att standardavvikelsen för en plankas längd vid sågning är 0.5 cm. Plankornas längder kan också antas vara oberoende av varandra. a) Vad blir standardavvikelsen för den sammanlagda längden? Ange ditt svar i centimeter med två decimaler. b) Om du antar att längden när en planka kapas är normalfördelad, vad måste då väntevärdet vara för att det ska vara 5% sannolikhet för att en planka blir längre än.005 meter? Antag att standardavvikelsen för en plankas - -
Tentamen i Matematisk statistik, S000M, del, 2009-0-26 längd vid sågning är 0.5 cm. Ange ditt svar i centimeter med två decimaler. 4. Havsguden Poseidon strör ut snäckor på havsbotten så att antalet snäckor på en godtycklig yta blir Po(λ)-fördelat, där λ är proportionell mot ytans area. Om det i genomsnitt ligger 0.2 snäckor per kvadratmeter, hur stor är då sannolikheten att det finns minst en snäcka på en slumpmässigt utvald kvadratmeter? Ange ditt svar i procent med två decimaler. 5. En forskare mäter 0 slumpmässigt utvalda personers längd före och efter en hormonbehandling. Med de uppmätta längderna bildas sedan differenserna mellan längderna (längd efter längd före). N, 0. -fördelning Antag att längden före behandling kan beskrivas med en ( ) och att längden efter behandling kan beskrivas med en N(.5, 0.) -fördelning. Antag också att längderna är oberoende av varandra. Hur stor blir sannolikheten att längden ökat efter hormonbehandlingen, d v s för en positiv differens? Ange ditt svar i procent med två decimaler. 6. I en studie av hur C-vitaminhalten förändras i sojabönor när de lagras gjordes ett urval av 27 förpackningar. C-vitaminhalten i dessa mättes både direkt innan förpackningarna slöts och fem månader senare. I nedanstående tabell ges resultaten: Förp nr Färsk Lagrad Förp nr Färsk Lagrad Förp nr Färsk Lagrad 44 40 0 45 8 9 9 4 2 50 7 2 40 20 52 8 48 9 2 47 5 2 45 8 4 44 5 40 8 22 7 8 5 42 5 4 8 4 2 8 4 6 47 4 5 4 5 24 44 40 7 49 7 6 4 7 25 4 5 8 50 7 7 40 4 26 9 8 9 9 4 8 7 40 27 44 6 I följande sammanställning ges resultatet från beräkning av några mått på dessa variabler: Variable N Mean StDev Q Median Q Range färsk 27 42,852 4,79 9,000 4,000 47,000 20,000 lagrad 27 7,59 2,440 5,000 8,000 40,000 9,000 diff f-l 27 5, 5,59 2,00 6,00 9,00 22,00-2 -
Tentamen i Matematisk statistik, S000M, del, 2009-0-26 Bestäm den övre gränsen i ett 98 % konfidensintervall för den förväntade skillnaden i C-vitaminhalt när du jämför halten för färska med lagrade bönor. Du kan anta att C-vitaminhalten är normalfördelad i båda fallen. Ange ditt svar med två decimaler. 7. För att se hur ledningsförmågan hos en polymer påverkas av tillsatser av olika metaller görs en serie försök. I ett visst försök med 8 provbitar fick man följande resistanser (enhet: ohm): 55.7 55.8 55.2 54.5 55.4 55. 55. 54.9 Enligt teoretiska beräkningar ska ledningsförmågan med den aktuella metallen vara 56 ohm, men du misstänker att den blir lägre än så. För att se om det finns stöd för dessa misstankar ska ett hypotestest utföras där man som testvariabel x 56 använder t =. Vad blir den kritiska gränsen för den testvariabeln om signifikansnivån sätts till %? Ange ditt svar med tre decimaler. Du kan utgå från s / n att resistansen kan beskrivas med en normalfördelning. (p) 8. I en undersökning av hur underhållskostnaderna för en viss typ av truck beror av åldern har man fått följande resultat: Ålder (år) 6 4 8 9 6 Kostnader (kr/mån) 64 5 6 92 25 78 72 När en analys med hjälp av enkel linjär regressionsanalys görs fås följande resultat: The regression equation is kostnader = 5,40 + 9,5 ålder Predictor Coef SE Coef T P Constant 5,96 8,94?? ålder 9,50,005?? S =? R-Sq =? R-Sq(adj) =? Analysis of Variance Source DF SS MS F P Regression? 7448, 7448, 89,95 0,000 Residual Error? 496,8 82,8 Total? 7944,9 TSS x = 52 a) Vad blir residualspridningen? Ange ditt svar med tre decimaler. (p) b) För att testa om variabeln ålder har någon signifikant betydelse för kostnaderna kan man använda den så kallade t-kvoten. Vad blir värdet på denna t-kvot? Ange ditt svar med två decimaler. (p) - -
Tentamen i Matematisk statistik, S000M, del, 2009-0-26 c) Bestäm den övre gränsen för ett 99% konfidensintervall för den förväntade förändringen av månadskostnaden då åldern ökar med ett år. Ange ditt svar med tre decimaler. d) Det framkom att truckarna var tillverkade i olika länder, och det verkade då rimligt att se om det fanns någon skillnad mellan underhållskostnadernas beroende av ålder. Därför togs variabeln land med i analysen (land = 0 om land A, land = om land B), vilket gav följande resultat: The regression equation is kostnader = 9,4 + 7,8 alder + 7,4 land Predictor Coef SE Coef T P Constant 9,45 4,647 0,098 alder 7,800 0,708 0,000 land 7,40 4,55 0,02 S =? R-Sq =? R-Sq(adj) =? Analysis of Variance Source DF SS MS F P Regression? 788,6 909, 54,76 0,000 Residual Error? 26, 25, Total? 7944,9 Vad blir den justerade förklaringsgraden? Ange ditt svar i procent med två decimaler. Slut på del. Glöm inte att bifoga svarsbladet med tentan! - 4 -
Tentamen i Matematisk statistik, S000M, del, 2009-0-26 Tabell för svar till del. Riv ut och lägg svarsbladet först i tentamen! Namn... Personnummer... Fråga Svar Poäng a Sannolikhet 92.00% b Sannolikhet.00% c Sannolikhet 8.% 2 a Sannolikhet 40.00% b Standardavvikelse.00 stycken olyckor 2 c Sannolikhet 6.94% 2 a Standardavvikelse.58 centimeter 2 b Väntevärde 99.68 centimeter 2 4 Sannolikhet 8.% 2 5 Sannolikhet 88.07% 2 6 Övre gräns 7.997 2 7 Kritisk gräns -2.998 8 a Residualspridning 9.099 b Testvariabel 9.48 c Övre gräns.256 2 d Justerad förklaringsgrad 97.77% 2 Totalt antal poäng 25 Lycka till! - -
Tentamen i Matematisk statistik, S000M, del 2, 2009-0-26 Vid bedömningen av lösningarna av uppgifterna i del 2 läggs stor vikt vid hur lösningarna är motiverade och redovisade. Tänk på att noga redovisa införda beteckningar och eventuella antaganden. 9. Ett parti bestående av 0 000 komponenter levereras till köparen, där det kontrolleras enligt följande provtagningsschema: Först tas ett slumpmässigt urval av 50 komponenter utan återläggning ut för prövning. Om alla är felfria godkänns hela partiet. Om tre eller fler är defekta så underkänns det. Om en eller två komponenter är defekta så görs ett nytt urval utan återläggning på 25 nya komponenter. Om alla dessa är felfria så godkänns partiet, annars underkänns det. Vad blir sannolikheten att ett parti med 500 defekta komponenter godkänns? (0p) 0. I tillverkningen av tabletter vill läkemedelsföretaget att tabletterna ska ha en bestämd ythårdhet. Den egenskapen bedöms som så viktig att den följs kontinuerligt i tillverkningsprocessen. Målvärdet för den förväntade hårdheten är.5 enheter, men man befarar att det kan bli lägre än den nivån. Du får i uppgift att bestämma en procedur för övervakning av ythårdheten. Som testvariabel ska du använda medelvärdet av ythårdheten hos några slumpmässigt utvalda tabletter. De krav som ställs är att falsklarm ska ske med (högst) 5% sannolikhet och att det ska vara (högst) 0 % chans att man inte får larm när den förväntade hårdheten är. enheter. Hur många enheter är det minsta antal som måste tas ut i varje stickprov för att ovanstående krav ska vara uppfyllda? Du kan utgå från att hårdheten är normalfördelad med standardavvikelsen 0.2 enheter. (8p). I en studie av miljöeffekter vid överföring av bensin från cisterner till tankbilar uppmättes följande variabler: X = temperatur i cisternen, X 2 = temperatur hos överförd bensin, X = Ångtryck hos överförd bensin, Y = kolväteutsläppets storlek. Totalt gjordes 2 mätningar. a) En person, som ansågs insatt i problemet, föreslog att temperaturen i cisternen, X, borde förklara mycket av variationen i kolväteutsläppets storlek. En regressionsanalys gjordes med X som förklarande variabel. Resultatet framgår av tabell I. Ange det modellantagande som ligger till grund för analysen i tabell I. Hur stor andel av den totala Y-variationen förklarar temperaturen i cisternen? Kan man på % signifikansnivå påstå att temperaturen i cisternen påverkar kolväteutsläppets storlek? Den andra frågan ska besvaras med hjälp av ett lämpligt test där hypoteser, testvariabel, beslutsregel samt slutsats tydligt ska framgå. - 2 -
Tentamen i Matematisk statistik, S000M, del 2, 2009-0-26 b) En annan person ansåg att ångtrycket hos överförd bensin, X, borde också vara en väsentlig variabel att ta med i en regressionsmodell, varpå denna variabel las till som förklarande variabel. Resultatet framgår av tabell II. Jämför den effekt som X har på kolväteutsläppets storlek för fixt värde på X med den effekt som variabeln X ensamt har på kolväteutsläppets storlek. Kan man på % signifikansnivå påstå att temperaturen i cisternen, för fixt värde på X, påverkar kolväteutsläppets storlek? Ge en tänkbar förklaring till varför resultaten från den första och andra analysen skiljer sig åt vad gäller variabeln X :s effekt. Beskriv vad du skulle göra för att få den förklaringen bekräftad. c) En tredje modell prövades också, där variablerna X 2 och X användes som förklarande variabler. Resultatet framgår av tabell III. Ange det modellantagande som ligger till grund för analysen i tabell III. Bör både variablerna X 2 och X ingå samtidigt i modellen? Bilda ett 99% konfidensintervall för att uppskatta den effekt som enheters ökning av ångtrycket hos överförd bensin har på kolväteutsläppets storlek, för fixt värde på temperaturen hos överförd bensin. d) I figur visas ett diagram över så kallade inflytelserika observationer. Finns det observationer som är inflytelserika enligt figur? Motivera tydligt slutsatsen. Tabell I The regression equation is Y = 8.5 + 0.97 X Predictor Coef SE Coef T Constant 8.5.05 2.70 X 0.9670 0.0494 8.0 Analysis of Variance Source DF SS MS Regression 857. 857. Residual Error 0 864.4 28.8 Total 272.5 - -
Tentamen i Matematisk statistik, S000M, del 2, 2009-0-26 Tabell II Regression Analysis: Y versus X; X The regression equation is Y = 4.47-0.28 X + 7.88 X Predictor Coef SE Coef T P Constant 4.47 2.40 2.09 0.045 X -0.284 0.0990 -.7 0.82 X 7.884.6 5.99 0.000 S =.6502 R-Sq = 85.8% R-Sq(adj) = 84.8% Analysis of Variance Source DF SS MS F P Regression 2 25. 67.5 87.62 0.000 Residual Error 29 86.4. Total 272.5 Tabell III Regression Analysis: Y versus X2; X The regression equation is Y = 0.9 + 0.275 X2 +.60 X Predictor Coef SE Coef T P Constant 0.92.90 0.0 0.920 X2 0.2747 0.05989 4.59 0.000 X.6020 0.677 5.2 0.000 S = 2.86709 R-Sq = 9.2% R-Sq(adj) = 90.6% Analysis of Variance Source DF SS MS F P Regression 2 248. 24.6 5.04 0.000 Residual Error 29 28.4 8.2 Total 272.5-4 -
Tentamen i Matematisk statistik, S000M, del 2, 2009-0-26.5 Boxplot of DFIT.0 0.5 DFIT 0.0-0.5 -.0 Figur. DFITs-värden som hör till den skattade modellen i tabell III - 5 -
Tentamen i Matematisk statistik, S000M, del 2, 200-0-5 Lösning till uppgifterna i del 2 9. Låt N beteckna partiets storlek, n storleken på det första urvalet och n 2 storleken på det andra urvalet. Den fråga som är ställd, P( parti godkänns), handlar om en händelse som har flera möjliga orsaker. Ett sätt att ta fram svaret är att summera följande: ( parti godkänns) = ( parti godkänns direkt) + ( parti godkänns efter andra urval) P P P. p. avvisas p. avvisas p. godk () def urval 2 def urval p. godk (2) p. avvisas p. godk () Låt ξ = antalet defekta i urval. Fördelningen för ξ blir då Hyp (0000, 50, 0.05). Den sannolikhet som ska beräknas är 50 9950 ( ) 0 50 P ξ = 0 =, men den är uppenbarligen lite svår att få fram. Ett 0000 50 bättre sätt är att approximera fördelningen med en binomialfördelning, närmare bestämt Bin(50, 0.05). Med den modellen blir 50 0 50 P( parti godkänns direkt) = P( ξ = 0) 0.05 0.95 = 0.07694. 0 En annan möjlighet att godkänna partiet är att det blir exakt defekt i urval och sedan alla felfria i urval 2. I urval 2 finns det 9950 komponenterna kvar. Om η betecknar antalet defekta i urval 2 efter det att defekt dragits i urval kan den variabeln beskrivas med en hypergeometrisk fördelning η Hyp( 9950, 25, 499 / 9950). Om ζ på motsvarande sätt står för antalet defekta i urval 2 efter det att 2 defekta dragits i urval så gäller att ζ Hyp (9950, 25, 498 / 9950. Båda fördelningarna kan approximeras med ) - 6 -
Tentamen i Matematisk statistik, S000M, del 2, 200-0-5 binomialfördelningar: Bin ( 25, p) där p är antingen 499/9950 eller 498/9950. (Villkoret för denna approximation, d v s att n / N < 0., är förstås uppfyllt.) Detta ger att ( ξ η 0) ( η 0 ξ ) ( ξ ) P = = = P = = P = = 50 = = = 9950 25 499 49 0.05 0.95 0.276 0.2025 0.0560 På motsvarande sätt blir ( ξ 2 ζ 0) ( ζ 0 ξ 2) ( ξ 2) P = = = P = = P = = 50 = = = 9950 2 25 498 2 48 0.05.95 0.2770 0.26 0.072 Detta ger P ( partiet godkänns) = 0.0769 + 0.0560 + 0.072 = 0.2052. 0. Låt ξ beteckna ythårdheten hos en tablett. För denna variabel gäller att den kan beskrivas med en N( μ, 0. 2) -fördelning. Uppgiften går ut på att bestämma egenskaper för ett hypotestest där hypoteserna H 0 : μ =. 5 ställs mot mothypotesen H :.5 μ <. Som testvariabeln skulle medelvärdet ( x ) användas, och en rimlig beslutsregel blir förstås att nollhypotesen förkastas om medelvärdet blir lågt, d v s om x < k. Medelvärdet är en observation på den stokastiska variabeln ξ N ( μ, 0.2 / n ), där n stickprovsstorleken. De krav som ställdes på testproceduren var att P ( falsklarm) 0. 05 och P ( inget larm när μ =.) 0. 0. Detta betyder att k.5 P ( ξ < k μ =.5) = 0. 05. Detta ger i sin tur att Φ = 0. 05. Eftersom 0.2 / n k.5 Φ (.6449) = 0. 05 måste då =. 6449. På motsvarande sätt gäller att 0.2 / n k. =.286. Dessa samband tillsammans ger då att n 8.56, vilket ger 0.2 n en stickprovsstorlek på 9 tabletter.. a) Modellantagande: - 7 -
Tentamen i Matematisk statistik, S000M, del 2, 200-0-5 Y = β + β X + ε,där ε N(0, σ) =, 2,...,2. i 0 i i i ε, ε..., ε är oberoende stokastiska variabler, 2, Y = kolväteutsläppets storlek X n = temperatur i cisternen Temperaturen i cisternen förklarar 857./ 272.5 = 68.24% av den totala Y- variationen. För att testa H0: β = 0 mot H: β 0används T-kvoten = T = b s som testvariabel. / b Beslutsregel: Förkasta H 0 om T > t 0.005 (0) = 2.750. Eftersom det observerade värdet på T är 8,0 kan man förkasta på signifikansnivån %. H 0 b) Vi ser att P-värdet för variabeln X är 0.82. Direktmetoden ger att hypotesen H0 : β = 0 givet att X är med i modellen inte kan förkastas på % signifikansnivå. Det beror antagligen på att det finns ett linjärt samband mellan variablerna X och X. Detta kan man bekräfta med hjälp av enkel linjär regression med X som beroende variabel och X som oberoende variabel eller genom att beräkna korrelationskoefficienten mellan dessa två variabler. c) Modellantagande: Yi = β0 + β2x2i + βxi + εi,där εi N(0, σ) =,2,...,2. ε, ε2,..., εn är oberoende stokastiska variabler, Y = kolväteutsläppets storlek X 2 = temperatur hos överförd bensin, X = Ångtryck hos överförd bensin, Direktmetoden ger att båda variablerna bör vara med i modellen eftersom motsvarande P-värden är mycket små. Vi söker ett 99 % konfidensintervall för β. Det gäller att b β t(29). (Se sidan 40 i regressionskompendiet.) sb b β Detta ger att t(29) och ett 99 % konfidensintervall för β ges därför s b av ± (29) =.6020 ± 2.756 0.677 = 0.806 ± 5.598 = [5.20,6.4] b t0.005 s b d) Här gäller att en observation är inflytelserik om beloppet av DFITS-värdet är större än 0,62. (Se sid. 4 i kompendiet.) Det finns således åtminstone två stycken inflytelserika observationer, vilket gäller även om vi använder kriteriet DFITS >. - 8 -