Sid 1 (10) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 Betrakta nedanstående täthetsfunktion för en normalfördelad slumpvariabel X med väntevärde 4 och varians 4. 0,20 Distribution Plot Normal; Mean=4; StDev=2 0,15 0,4332 Density 0,10 0,05 0,00 4 X 7 a) Bestäm sannolikheten att få ett observerat värde som är mindre än 4. µ = 4 medför att P(X < 4) = 0.5. b) Bestäm sannolikheten att få ett observerat värde som är större än 7 eller mindre än -7. P(X > 7) = 1 0,5 0,4332 = 0,0668. Av symmetriskäl är då även P(X < -7) = 0,0668. P(X < -7 U X > 7) = 2(0,0668) = 0,1336. c) Bestäm sannolikheten att få ett observerat värde som är exakt 7. Sannolikheten att en kontinuerlig slumpvariabel antar ett enskilt värde är alltid 0.
Sid 2 (10) Uppgift 2 Två stickprov om vardera 10 tomater, togs för att undersöka om kadmiumhalten hos biodynamiskt odlade tomater är lägre än den hos traditionellt odlade. Följande resultat erhölls (enhet: µg/mm 3 ) Biodynamiskt odlade 3,8 3,9 3,7 4,2 3,3 3,6 3,8 3,7 3,9 3,7 Traditionellt odlade 4,1 3,7 4,2 3,8 3,8 4,1 3,6 4,2 4,1 3,9 Följande utskrift erhölls från Minitab. Paired T-Test and CI: Biodynamiskt odlade; Traditionellt odlade Paired T for Biodynamiskt odlade - Traditionellt odlade N Mean StDev SE Mean Biodynamiskt odlade 10 3,7600 0,2319 0,0733 Traditionellt odlade 10 3,9500 0,2173 0,0687 Difference 10-0,190 0,341 0,108 95% CI for mean difference: (-0,434; 0,054) T-Test of mean difference = 0 (vs 0): T-Value = -1,76 P-Value = 0,112 Det valda testförfarandet är felaktigt. Förklara varför och ange vilket testförfarande man istället borde ha använt. Man har förutsatt att det är stickprov i par. I detta fall är det inte parat data, utan två oberoende stickprov och man skulle istället ha använt den förutsättningen och gjort two-sample -t-test.
Sid 3 (10) Uppgift 3 Man är intresserad av att finna sambandet dels mellan nedfall av SO 4 och ph-halt och dels mellan NO 3 och ph-halt i svenska städer. Man har tagit prover av SO 4 och NO 3 (mg/l) samt av ph-halt (medelvärde av nivåerna i ett antal stilla stående vattendrag) i 34 svenska städer under 2012. Man anpassade ph som en linjär funktion av mängd NO 3 och som en linjär funktion av SO 4. Följande utskrifter erhölls. Coefficients Term Coef SE Coef T-Value P-Value Constant 6.91859 0.03309 209.08 0.000 NO3-0.77239 0.08587-10.16 0.000 Regression Equation Ph = 6.92-0.772 NO3 Model Summary S R-sq R-sq(adj) 0,19184 66,4% 65,7% Coefficients Term Coef SE Coef T-Value P-Value Constant 6.96161 0.03987 174.61 0.000 SO4-0.60266 0.05426-11.11 0.000 Regression Equation Ph = 6.96-0.603 SO4 Model Summary S R-sq R-sq(adj) 0.06766 83.3% 82.5% a) Prediktera hur stort ph-värdet blir, först om mängden SO 4 = 0.7 och sedan när mängden NO 3 = 0.7. SO 4 : y (0,7) = 6,96 0,603(0,7) = 6,54 NO 3 : y (0,7) = 6,92 0,772(0,7) = 6,38
Sid 4 (10) b) Om du endast fick använda en av de förklarande variablerna för att prediktera ph så bra som möjligt, vilken skulle du välja med hänsyn tagen till den information du har från utskrifterna? Motivera ditt val. SO 4 -modellen ger högre förklaringsgrad (R 2 ) och lägre skattad residualvarians (s 2 ). Med den givna informationen är den modellen att föredra. c) Anta att du hade tillgång till de mätvärden som analysen ovan baserar sig på. Hur skulle du använda dem för att få bättre underlag till valet i b)? Motivera. Man borde göra en residualanalys för att verifiera de modellantaganden som gjorts, dvs antagandena om oberoende normalfördelade slumpfel med lika varians. En residualanalys kan ge information om det saknas någon förklarande variabel i den valda modellen. Uppgift 4 Beskriv det s.k. Kvalitetshuset och dess byggstenar. Kvalitetstekniken är en angelägenhet inte bara för produktionen utan för samtliga anställda i ett företag, en förvaltning eller organisation. En lyckad kvalitetsstrategi bygger på att man sätter kunderna i centrum, baserar beslut på fakta och engagerar samtliga anställda i ett ständigt arbete med att förbättra företagets alla processer. Kvalitetshuset illustrerar detta med byggstenarna kunderna i centrum beslut grundat på fakta allas medverkan ständiga förbättringar processer helhetssyn/värderingar ledarskap
Sid 5 (10) Uppgift 5 a) Nämn ett statistiskt verktyg som kan användas i DMAIC-metodikens Analys-fas. Vid kvalitetsarbete är det viktigt att hitta problemets orsak och inte bara lösa problemets symptom. I Analys-fasen vill man hitta potentiella rotorsaker till symptomen. Vid kvantitativa data handlar det om att identifiera vilka X (orsaker) som påverkar projekts olika Y (symptom), samt hur dessa (orsaks-)samband ser ut. Här finns många verktyg man kan använda, t.ex. 5 Varför, regressionsanalys, hypotestest, grafer, försöksplanering b) Nämn ett statistiskt verktyg som kan användas i DMAIC-metodikens Kontroll-fas. Syftet med (control-) styrfasen är bland annat att ta fram verktyg för att övervaka att förbättringarna blir bestående och att symptomen inte återuppstår. Här vill man också påvisa att förändringen har gett kvalitetsförbättring. Här är styrdiagram ett väldigt viktigt verktyg. Även kapabilitetsanalys (duglighetsanalys) är ett viktigt verktyg framförallt för att påvisa förbättring. Uppgift 6 I tabellen nedan anges viktminskningar (i mg) pga friktion hos en viss typ av maskindelar, när 3 olika smörjmedel (1, 2 och 3) använts. Smörjmedel 1 Smörjmedel 2 Smörjmedel 3 12,2 10,9 12,7 11,8 5,7 19,9 13,1 13,5 13,6 11,0 9,4 11,7 3,9 11,4 18,3 4,1 15,7 14,3 10,3 10,8 22,8 8,4 14,0 20,4 Datamaterialet analyserades i Minitab och följande utskrift erhölls:
Sid 6 (10) One-way ANOVA: smörjmedel 1; smörjmedel 2; smörjmedel 3 Method Null hypothesis All means are equal Alternative hypothesis At least one mean is different Significance level α = 0,05 Equal variances were assumed for the analysis. Factor Information Factor Levels Values Factor 3 smörjmedel 1; smörjmedel 2; smörjmedel 3 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Factor 2 230,6 115,29 8,75 0,002 Error 21 276,8 13,18 Total 23 507,4 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,63058 45,45% 40,25% 28,75% Means Factor N Mean StDev 95% CI smörjmedel 1 8 9,35 3,59 ( 6,68; 12,02)
Sid 7 (10) smörjmedel 2 8 11,42 3,09 ( 8,76; 14,09) smörjmedel 3 8 16,71 4,14 (14,04; 19,38) Pooled StDev = 3,63058 Tukey Pairwise Comparisons Grouping Information Using the Tukey Method and 95% Confidence Factor N Mean Grouping smörjmedel 3 8 16,71 A smörjmedel 2 8 11,42 B smörjmedel 1 8 9,35 B Means that do not share a letter are significantly different. a) Vilka antaganden görs vid en sådan variansanalys? Finns det någonting i residualplottarna ovan som motsäger något av antagandena?
Sid 8 (10) Vi antar att mätfelen är oberoende och normalfördelade med samma varians oavsett smörjmedel. Det finns ingenting i residualplottarna som tydligt motsäger detta. b) Vilka slutsatser kan man dra, på signifikansnivån 5%, från variansanalysen ovan under förutsättning att alla modellantaganden är uppfyllda (motivera)? p-värdet i ANOVA:n är 0,002. Eftersom det är mindre än 0,05 förkastar vi på 5% signifikansnivå nollhypotesen att alla smörjmedel ger samma genomsnittliga viktminskning. Tukeys test visar att Smörjmedel 3 ger signifikant högre viktminskning än de andra två. Smörjmedel 1 och 2 ger ej signifikant skilda minskningar.
Sid 9 (10) Uppgift 7 På ett läkemedelsföretag fylls en läkemedelsubstans på i en lösning. Substansen som används kommer från två olika leverantörer. Kravet är att koncentrationen högst får avvika med ±5 μg/ml från det önskade värdet 250 μg/ml. För att undersöka processen tas 50 flaskor ut (en flaska om dagen) och koncentrationen mäts. Besvara följande frågor med motivering, med hjälp av nedanstående Minitabutskrift. a) Är processen under kontroll enligt styrdiagrammen? Formellt ja, eftersom inga observationer hamnar utanför styrgränserna. Dock visar en närmare studie av diagrammen att något är skumt. Observationerna ligger längs två parallella linjer, en ovan och en under målvärdet. b) Är processen duglig enligt kapabilitetsanalysen? Nej, C pk = 0,42 är för lågt för att processen ska kunna anses vara duglig. Bilderna till höger visar också att stor andel flaskor har innehåll med koncentration utanför specifikationsgränserna.
Sid 10 (10) c) Vilka antaganden ska vara uppfyllda för att man ska kunna säga att sannolikheten är 0,0027 att hamna utanför styrgränserna i a) (få ett falskt larm")? Vilka av dessa är uppfyllda och inte uppfyllda? Motivera! Mätvärdena ska vara oberoende och normalfördelade med målvärdet som väntevärde och konstant varians. Samtliga antaganden förefaller vara ouppfyllda. Analysen ovan tyder på att vi har olika väntevärden för flaskor från olika leverantörer. Vi har två fördelningar som möjligen var för sig är normala, men med olika väntevärden. Inget av väntevärdena förefaller vara lika med målvärdet, utan den ena ger för höga värden och den andra för låga. Uppgift 8 Vid en tillverkningsindustri misstänker man att en leverantör av komponenter inte uppfyller kravet att högst 1% av de levererade komponenterna är defekta. För att testa detta har man i en kvalitetskontroll tagit ut 500 levererade komponenter. Av dessa visar sig 10 stycken vara defekta. Vilken av nedanstående Minitabutskrifter (1 eller 2) bör man använda för att testa om leverantören uppfyller kravet? Motivera valet. 1) Test and CI for One Proportion Test of p = 0,01 vs p > 0,01 Exact Sample X N Sample p 95% Lower Bound P-Value 1 10 500 0,020000 0,010890 0,031 2) Test and CI for One Proportion Test of p = 0,01 vs p 0,01 Exact Sample X N Sample p 95% CI P-Value 1 10 500 0,020000 (0,009631; 0,036472) 0,071 Vi är endast intresserade av att upptäcka avvikelser uppåt i felkvoten. Vi använder därför test 1, som visar att andelen defekta är signifikant högre än 1%.