Tentamen i matematisk statistik

Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser: 12-15,75 p ger betyget 3, 16-19,75 ger betyget 4, 20-24 ger betyget 5. VIKTIGT! Lösningarna ska presenteras på ett sådant sätt att beräkningar och resonemang blir lätta att följa. Glöm ej att definera upp alla variabler ni använder. Avsluta varje lösning med ett tydligt svar i de fall där det är möjligt. Svaren ska följa av lösningen eller från ytterligare motivering utgående från lösningen.

Sid 2 (7) Uppgift 1 Vid en telefonväxel inkommer det i genomsnitt 24 samtal /minut. För att modellera detta används ofta poisson fördelningen. Låt X = antal samtal/(minut) och X~po(λ) där λ=24 är väntevärdet. Med hjälp av nedanstående Minitab utskrifter beräkna. x P( X <= x ) 20 0.24 30 0.90 x P( X = x ) 20 0.06 a) P(X > 30) (1 p) b) P(20 < X 30) (1 p) c) P(X 19) (1 p) a) P(X > 30) = 1 P(X 30) = 1 0.90 = 0.1 b) P(20 < X 30) = P(X 30) P(X 20) = 0.90 0.24 = 0.66 c) P(X 20) = P(X 19) + P(X = 20) P(X 19) = P(X 20) P(X = 20) = 0.24 0.06 = 0.18 Uppgift 2 Nämn två statistiska verktyg som är användbara inom kvalitetsteknik. Beskriv kort hur de valda verktygen kan tillämpas. (3 p) Se Film 8 under Kvalitetsteknik på kurshemsidan. Uppgift 3 Vad står bokstäverna i DMAIC för? Förklara kortfattat vad de olika momenten innebär. (3 p) Define Measure Analyze Improve Control. För beskrivningar, se kavlitetsfilmerna 9-14 på kurshemsidan. Uppgift 4 Efter ett elhaveri, misstänks att en av resistorerna inte längre har den märkta resistansen 30 ohm. För att undersöka om så är fallet mättes resistansen 20 ggr. Följande Minitabutskrift erhölls.

Sid 3 (7) One-Sample T Test of mu = 30 vs not = 30 N Mean StDev SE Mean 95% CI T P 20 29.9554 0.0512 0.0114 (29.9314, 29.9794) -3.90 0.001 a) Utgående från utskriften ovan finns det tre ekvivalenta sätt att testa hypoteserna bekriv kortfattat två av dessa sätt. (1 p) b) Vad är slutsatsen av testet om signifikansnivån är 1%? (1 p) c) Beskriv kortfattat ett av testen som kan användas då normalfördelningsantagandet inte är uppfyllt. (1 p) a) 1. Förkasta nollhypotesen om p-värdet är mindre än den givna signifikansnivån 2. Förkasta nollhypotesen om test statistika (T) är större/mindre än den ett kritiskt värde på t-fördelningen 3. Förkasta nollhypotesen om värdet under nollhypotesen ej finns i konfidensintervallet. b) Hypoteserna som testas är att resistorn har resistansen 30 ohm mot resistorn har inte resistansen 30 ohm, eftersom pvärdet är mindre än signifikansnivån 1% kan vi förkasta nollhypotesen. Slutsatsen är att resistorn har en resistans som är statistiskt signifikant skilld från 30 ohm. c) 1. tecken-test räkna antalet mätningar över resistansen 30 ohm och utför ett binomial test på antalet där nollhypotesen är att andelen ovanför är 50% 2. Wilcoxons (tecken) test. Rangordna alla observationer, räkna summan av rangerna ovan 30 ohm. Jämför summan mot kritiskt värde från tabell. Uppgift 5 På ett läkemedelsföretag så fylls en läkemedelsubstans på i en lösning. Kravet är att koncentrationen högst får avvika med ±5 µg/ml från det önskade värdet 250 µg/ml. För att undersöka processen tas 40 flaskor ut och koncentrationen mäts. Besvara följande frågor med motivering, med hjälp av nedanstående Minitabutskrift. a) Är processen under kontroll? (1 p) b) Är processen duglig? (1 p) c) Beskriv kortfattat de två sätten man kan gå till väga för att uppskatta den förväntade andelen utanför specifikationsgränserna? (0.5 p)

Sid 4 (7) d) Är antagandet som behövs för ett av sätten i c) rimligt i detta fall? (0.5 p) Process Capability Sixpack Individual Value 252 250 248 1 5 9 13 17 I Chart 21 25 29 33 37 UCL=253.245 _ X=250.088 LCL=246.931 244.8 Capability Histogram LSL Target USL 246.6 248.4 250.2 252.0 253.8 Specifications LSL 245 Target 250 USL 255 4 Moving Range Chart UCL=3.878 Normal Prob Plot A D: 0.554, P: 0.143 Moving Range 2 0 1 5 9 13 17 21 25 29 33 37 MR=1.187 LCL=0 248 250 252 254 Values 252 250 248 5 Last 40 Observations 15 25 Observation 35 Within StDev 1.052 Cp 1.58 Cpk 1.56 PPM 2.19 Capability Plot Within Overall Specs Overall StDev 1.125 Pp 1.48 Ppk 1.46 Cpm 1.48 PPM 9.30 Lösningsförslag a) Ja processen är duglig, inga varningar förekommer i kontrolldiagrammen, (inga punkter utanför kontroll linjerna). b) Processen är duglig då alla kabailitetsmått är större än tumregeln 1.33. c) 1. Skatta utifrån data andelen som observerats vara utanför 2. Anpassa en normalfördelning och beräkna sannolikheten att observera ett värde utanför specifikationsgränserna. d) I normalfördelnings plotten ligger punkterna längs linjen, normalfördelningstestet ger också ett p-värde på 0.143 vilket är större än 0.05 och vi kan inte förkasta nollhypotesen observationerna kommer från normalfördelning. Antagandet om normalfördelning är rimligt. Uppgift 6 En produkts kvalitet misstänks minska om den lagras. Produkten anses ha ett kvalitetenvärde på 5 måttenheter vid tillverkning (0 dagar).för att avgöra hur produktens kvalitet påverkas av lagring utfördes en studie då kvaliteten mättes på dag 10,20, 30,60 och 360. Vid varje mätning mättes 3 prover (olika prover för varje

Sid 5 (7) mätning). För dessa anpassades sedan en regressionmodell. Besvara följande frågor, motivera svaren utifrån utskriften nedan. The regression equation is kvalitetsmått = 4.97-0.00981 tid (dagar) Predictor Coef SE Coef T P Constant 4.97230 0.03698 134.48 0.000 tid (dagar) -0.0098147 0.0001986-49.43 0.000 S = 0.0964686 R-Sq = 99.6% R-Sq(adj) = 99.6% Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 4.0890 0.0286 (4.0253, 4.1527) (3.8648, 4.3132) Values of Predictors for New Observations tid New Obs (dagar) 1 90.0 a) Hur stor är den genomsnittliga minskningen av produktens kvalitetsvärde per dag? (0.5 p) b) Är minskningen statistiskt signifikant? (0.5 p) c) Kan man utifrån analysen säga att mer än 97.5% av produkterna vid 90 dagars lagring förväntas ha ett kvalitetsvärde större än 4? (0.5 p) d) Finns det fog gör påståendet: med 97.5% säkerhet så förväntas produktens genomsnittliga kvalitetvärde vid 90 dagar vara större än 4? (0.5 p) e) Hur stor del av variationen i kvaliten beror på andra orsaker än lagringstid i denna studie? (1 p) a) Lutningen på regressionslingen är -0.0098. Detta ger oss en minskning i kvalitet på 0.0098 enheter/dag. b) Ja, p-värdet för testet lutningen (nollhypotesen: lutninhen är 0, mothypotesen: lutningen är skild från 0) är mindre än 0.05 och vi kan förkasta nollhypotesen. Slutsats: Lutningen är signifikant skild från 0. c) Nej, det 95%-iga prediktionsintervallet täcker värdet 4. d) Ja, det 95%-iga konfidensintervallet innehåller inte 4. e) 0.4%, R-sq anger andelen som förklaras av regressionslinjen dvs lagringstid tiden. Variationen som beror på andra orsaker är då 1 - R-sq = 1-0.996 =0.004 dvs 0.4%

Sid 6 (7) Uppgift 7 I en konsumentundersökning kontrolleras om det är någon skillnad i energiförbrukningen som går till uppvärmning för fyra olika märken av eldrivna element. De fyra olika märkena betecknas A, B, C och D. För att bestämma energiförbrukningen så installerades elementen i 4 stycken testkammare där yttertemperaturen regleras, därefter beräknades energiförbrukningen i kwh/kvadratmeter. Ett försök utfördes med 4 olika yttertemperaturer och analyserades med hjälp av Minitab. Följand utskrift erhölls. General Linear Model: energiförbrukning versus Märke, Temperatur Factor Type Levels Values Märke fixed 4 A, B, C, D Temperatur fixed 4-20, 0, 15, 30 Analysis of Variance for energiförbrukning, using Adjusted SS for Tests Source DF Seq SS Adj SS Adj MS F P Märke 3 243.5 243.5 81.2 7.50 0.008 Temperatur 3 15416.1 15416.1 5138.7 475.03 0.000 Error 9 97.4 97.4 10.8 Total 15 15757.0 S = 3.28903 R-Sq = 99.38% R-Sq(adj) = 98.97% Grouping Information Using Tukey Method and 95.0% Confidence Märke N Mean Grouping C 4 104.76 A D 4 102.60 A B 4 101.24 A B A 4 94.33 B a) Vilka är de två hypoteserna som testas i denna ANOVA? (1 p) b) Vilken slutsats kan vi dra från denna ANOVA? (1 p) c) Vilken slutsats kan vi dra från post-hoc testen angående märke? (1 p) a) Nollhypoteserna är ingen skillnad i energiförbrukning mellan märken och ingen skillnad i energiförbrukning i olika yttertemperaturer. Mot hypoteserna är att någon av märkena har en energiförbrukning som är skilld från de övriga och någon av yttertemperaturerna ger en energiförbrukning som är skilld från de övriga Alternativt: Vi ansätter följande modell, Y = μ + β 1i + β 2j + ε ij

Sid 7 (7) Där Y är den observerade energiförbrukningen, μ är den genomsnittliga energiförbrukningen β 1i är effekten av Märke i = A, B, C, D och β 2,j är effekten av Temperatur j =-20, 0, 15, 30. Hypoteserna för märke är H0: β 1A = β 1B = β 1C = β 1D = 0 H1: β 1i 0 i = A, B, C, D Hypoteserna för Temperatur är H0: β 2, 20 = β 2,0 = β 2,15 = β 1,30 = 0 H1: β 1,j 0 j = 20, 0, 15, 30 b) P-värdet för båda testen är mindre än signifikinsnivån 0,05. Slutsats: Både märke och yttertemperatur påberkar energiförbrukningen c) Slutsats: Märke A har en energi förbrukning som är signifikant skild från alla märken utom B. Övriga märken är ej signifikant skilda åt. Märke A har den lägsta energiförbrukningen. Uppgift 8 Centrala gränsvärdessatsen är ett viktigt resultat. Förklara kortfattat vad satsen säger och vilken praktisk innebörd den har. (3 p) Fördelningen för summor (och medelvärden) av oberoende likafördelade slumpvariabler konvergerar mot normalfördelningen, oavsett vilken fördelning ursprungsvariablerna har. Eftersom många av de vanligaste statistiska metoderna bygger på att medelvärdet av oberoende mätningar är normalfördelat, går det att använda metoderna även om ursprungsmätningarna inte är normalfördelade om man bara har nog många mätningar. Detta eftersom medelvärdet blir approximativt normalfördelat för stora n enligt CGS.