Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Relevanta dokument
Tentamen i matematisk statistik

Tentamen i matematisk statistik

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

7.5 Experiment with a single factor having more than two levels

Metod och teori. Statistik för naturvetare Umeå universitet

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

8.1 General factorial experiments

Räkneövning 3 Variansanalys

Tentamen i matematisk statistik

Tentamen i matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik

Examinationsuppgifter del 2

TENTAMEN I MATEMATISK STATISTIK

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Statistik för teknologer, 5 poäng Skrivtid:

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Följande resultat erhålls (enhet: 1000psi):

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

10.1 Enkel linjär regression

7.5 Experiment with a single factor having more than two levels

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F3

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F1

3.1 Beskrivande statistik

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen i Matematisk statistik Kurskod S0001M

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Skrivning i ekonometri torsdagen den 8 februari 2007

Tentamen Tillämpad statistik A5 (15hp)

Samhällsvetenskaplig metod, 7,5 hp

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F7

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Exempel 1 på multipelregression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Regressions- och Tidsserieanalys - F4

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F3

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Exempel 1 på multipelregression

Statistisk försöksplanering

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen Tillämpad statistik A5 (15hp)

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Statistisk försöksplanering

TENTAMEN I STATISTIK B,

6.1 Process capability

Tentamen i Matematisk statistik Kurskod S0001M

7.3.3 Nonparametric Mann-Whitney test

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Föreläsning G60 Statistiska metoder

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Styr- och kontrolldiagram ( )

ANOVA Mellangruppsdesign

Tentamen i Matematisk statistik Kurskod S0001M

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Sid 1 (10) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 Betrakta nedanstående täthetsfunktion för en normalfördelad slumpvariabel X med väntevärde 4 och varians 4. 0,20 Distribution Plot Normal; Mean=4; StDev=2 0,15 0,4332 Density 0,10 0,05 0,00 4 X 7 a) Bestäm sannolikheten att få ett observerat värde som är mindre än 4. µ = 4 medför att P(X < 4) = 0.5. b) Bestäm sannolikheten att få ett observerat värde som är större än 7 eller mindre än -7. P(X > 7) = 1 0,5 0,4332 = 0,0668. Av symmetriskäl är då även P(X < -7) = 0,0668. P(X < -7 U X > 7) = 2(0,0668) = 0,1336. c) Bestäm sannolikheten att få ett observerat värde som är exakt 7. Sannolikheten att en kontinuerlig slumpvariabel antar ett enskilt värde är alltid 0.

Sid 2 (10) Uppgift 2 Två stickprov om vardera 10 tomater, togs för att undersöka om kadmiumhalten hos biodynamiskt odlade tomater är lägre än den hos traditionellt odlade. Följande resultat erhölls (enhet: µg/mm 3 ) Biodynamiskt odlade 3,8 3,9 3,7 4,2 3,3 3,6 3,8 3,7 3,9 3,7 Traditionellt odlade 4,1 3,7 4,2 3,8 3,8 4,1 3,6 4,2 4,1 3,9 Följande utskrift erhölls från Minitab. Paired T-Test and CI: Biodynamiskt odlade; Traditionellt odlade Paired T for Biodynamiskt odlade - Traditionellt odlade N Mean StDev SE Mean Biodynamiskt odlade 10 3,7600 0,2319 0,0733 Traditionellt odlade 10 3,9500 0,2173 0,0687 Difference 10-0,190 0,341 0,108 95% CI for mean difference: (-0,434; 0,054) T-Test of mean difference = 0 (vs 0): T-Value = -1,76 P-Value = 0,112 Det valda testförfarandet är felaktigt. Förklara varför och ange vilket testförfarande man istället borde ha använt. Man har förutsatt att det är stickprov i par. I detta fall är det inte parat data, utan två oberoende stickprov och man skulle istället ha använt den förutsättningen och gjort two-sample -t-test.

Sid 3 (10) Uppgift 3 Man är intresserad av att finna sambandet dels mellan nedfall av SO 4 och ph-halt och dels mellan NO 3 och ph-halt i svenska städer. Man har tagit prover av SO 4 och NO 3 (mg/l) samt av ph-halt (medelvärde av nivåerna i ett antal stilla stående vattendrag) i 34 svenska städer under 2012. Man anpassade ph som en linjär funktion av mängd NO 3 och som en linjär funktion av SO 4. Följande utskrifter erhölls. Coefficients Term Coef SE Coef T-Value P-Value Constant 6.91859 0.03309 209.08 0.000 NO3-0.77239 0.08587-10.16 0.000 Regression Equation Ph = 6.92-0.772 NO3 Model Summary S R-sq R-sq(adj) 0,19184 66,4% 65,7% Coefficients Term Coef SE Coef T-Value P-Value Constant 6.96161 0.03987 174.61 0.000 SO4-0.60266 0.05426-11.11 0.000 Regression Equation Ph = 6.96-0.603 SO4 Model Summary S R-sq R-sq(adj) 0.06766 83.3% 82.5% a) Prediktera hur stort ph-värdet blir, först om mängden SO 4 = 0.7 och sedan när mängden NO 3 = 0.7. SO 4 : y (0,7) = 6,96 0,603(0,7) = 6,54 NO 3 : y (0,7) = 6,92 0,772(0,7) = 6,38

Sid 4 (10) b) Om du endast fick använda en av de förklarande variablerna för att prediktera ph så bra som möjligt, vilken skulle du välja med hänsyn tagen till den information du har från utskrifterna? Motivera ditt val. SO 4 -modellen ger högre förklaringsgrad (R 2 ) och lägre skattad residualvarians (s 2 ). Med den givna informationen är den modellen att föredra. c) Anta att du hade tillgång till de mätvärden som analysen ovan baserar sig på. Hur skulle du använda dem för att få bättre underlag till valet i b)? Motivera. Man borde göra en residualanalys för att verifiera de modellantaganden som gjorts, dvs antagandena om oberoende normalfördelade slumpfel med lika varians. En residualanalys kan ge information om det saknas någon förklarande variabel i den valda modellen. Uppgift 4 Beskriv det s.k. Kvalitetshuset och dess byggstenar. Kvalitetstekniken är en angelägenhet inte bara för produktionen utan för samtliga anställda i ett företag, en förvaltning eller organisation. En lyckad kvalitetsstrategi bygger på att man sätter kunderna i centrum, baserar beslut på fakta och engagerar samtliga anställda i ett ständigt arbete med att förbättra företagets alla processer. Kvalitetshuset illustrerar detta med byggstenarna kunderna i centrum beslut grundat på fakta allas medverkan ständiga förbättringar processer helhetssyn/värderingar ledarskap

Sid 5 (10) Uppgift 5 a) Nämn ett statistiskt verktyg som kan användas i DMAIC-metodikens Analys-fas. Vid kvalitetsarbete är det viktigt att hitta problemets orsak och inte bara lösa problemets symptom. I Analys-fasen vill man hitta potentiella rotorsaker till symptomen. Vid kvantitativa data handlar det om att identifiera vilka X (orsaker) som påverkar projekts olika Y (symptom), samt hur dessa (orsaks-)samband ser ut. Här finns många verktyg man kan använda, t.ex. 5 Varför, regressionsanalys, hypotestest, grafer, försöksplanering b) Nämn ett statistiskt verktyg som kan användas i DMAIC-metodikens Kontroll-fas. Syftet med (control-) styrfasen är bland annat att ta fram verktyg för att övervaka att förbättringarna blir bestående och att symptomen inte återuppstår. Här vill man också påvisa att förändringen har gett kvalitetsförbättring. Här är styrdiagram ett väldigt viktigt verktyg. Även kapabilitetsanalys (duglighetsanalys) är ett viktigt verktyg framförallt för att påvisa förbättring. Uppgift 6 I tabellen nedan anges viktminskningar (i mg) pga friktion hos en viss typ av maskindelar, när 3 olika smörjmedel (1, 2 och 3) använts. Smörjmedel 1 Smörjmedel 2 Smörjmedel 3 12,2 10,9 12,7 11,8 5,7 19,9 13,1 13,5 13,6 11,0 9,4 11,7 3,9 11,4 18,3 4,1 15,7 14,3 10,3 10,8 22,8 8,4 14,0 20,4 Datamaterialet analyserades i Minitab och följande utskrift erhölls:

Sid 6 (10) One-way ANOVA: smörjmedel 1; smörjmedel 2; smörjmedel 3 Method Null hypothesis All means are equal Alternative hypothesis At least one mean is different Significance level α = 0,05 Equal variances were assumed for the analysis. Factor Information Factor Levels Values Factor 3 smörjmedel 1; smörjmedel 2; smörjmedel 3 Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Factor 2 230,6 115,29 8,75 0,002 Error 21 276,8 13,18 Total 23 507,4 Model Summary S R-sq R-sq(adj) R-sq(pred) 3,63058 45,45% 40,25% 28,75% Means Factor N Mean StDev 95% CI smörjmedel 1 8 9,35 3,59 ( 6,68; 12,02)

Sid 7 (10) smörjmedel 2 8 11,42 3,09 ( 8,76; 14,09) smörjmedel 3 8 16,71 4,14 (14,04; 19,38) Pooled StDev = 3,63058 Tukey Pairwise Comparisons Grouping Information Using the Tukey Method and 95% Confidence Factor N Mean Grouping smörjmedel 3 8 16,71 A smörjmedel 2 8 11,42 B smörjmedel 1 8 9,35 B Means that do not share a letter are significantly different. a) Vilka antaganden görs vid en sådan variansanalys? Finns det någonting i residualplottarna ovan som motsäger något av antagandena?

Sid 8 (10) Vi antar att mätfelen är oberoende och normalfördelade med samma varians oavsett smörjmedel. Det finns ingenting i residualplottarna som tydligt motsäger detta. b) Vilka slutsatser kan man dra, på signifikansnivån 5%, från variansanalysen ovan under förutsättning att alla modellantaganden är uppfyllda (motivera)? p-värdet i ANOVA:n är 0,002. Eftersom det är mindre än 0,05 förkastar vi på 5% signifikansnivå nollhypotesen att alla smörjmedel ger samma genomsnittliga viktminskning. Tukeys test visar att Smörjmedel 3 ger signifikant högre viktminskning än de andra två. Smörjmedel 1 och 2 ger ej signifikant skilda minskningar.

Sid 9 (10) Uppgift 7 På ett läkemedelsföretag fylls en läkemedelsubstans på i en lösning. Substansen som används kommer från två olika leverantörer. Kravet är att koncentrationen högst får avvika med ±5 μg/ml från det önskade värdet 250 μg/ml. För att undersöka processen tas 50 flaskor ut (en flaska om dagen) och koncentrationen mäts. Besvara följande frågor med motivering, med hjälp av nedanstående Minitabutskrift. a) Är processen under kontroll enligt styrdiagrammen? Formellt ja, eftersom inga observationer hamnar utanför styrgränserna. Dock visar en närmare studie av diagrammen att något är skumt. Observationerna ligger längs två parallella linjer, en ovan och en under målvärdet. b) Är processen duglig enligt kapabilitetsanalysen? Nej, C pk = 0,42 är för lågt för att processen ska kunna anses vara duglig. Bilderna till höger visar också att stor andel flaskor har innehåll med koncentration utanför specifikationsgränserna.

Sid 10 (10) c) Vilka antaganden ska vara uppfyllda för att man ska kunna säga att sannolikheten är 0,0027 att hamna utanför styrgränserna i a) (få ett falskt larm")? Vilka av dessa är uppfyllda och inte uppfyllda? Motivera! Mätvärdena ska vara oberoende och normalfördelade med målvärdet som väntevärde och konstant varians. Samtliga antaganden förefaller vara ouppfyllda. Analysen ovan tyder på att vi har olika väntevärden för flaskor från olika leverantörer. Vi har två fördelningar som möjligen var för sig är normala, men med olika väntevärden. Inget av väntevärdena förefaller vara lika med målvärdet, utan den ena ger för höga värden och den andra för låga. Uppgift 8 Vid en tillverkningsindustri misstänker man att en leverantör av komponenter inte uppfyller kravet att högst 1% av de levererade komponenterna är defekta. För att testa detta har man i en kvalitetskontroll tagit ut 500 levererade komponenter. Av dessa visar sig 10 stycken vara defekta. Vilken av nedanstående Minitabutskrifter (1 eller 2) bör man använda för att testa om leverantören uppfyller kravet? Motivera valet. 1) Test and CI for One Proportion Test of p = 0,01 vs p > 0,01 Exact Sample X N Sample p 95% Lower Bound P-Value 1 10 500 0,020000 0,010890 0,031 2) Test and CI for One Proportion Test of p = 0,01 vs p 0,01 Exact Sample X N Sample p 95% CI P-Value 1 10 500 0,020000 (0,009631; 0,036472) 0,071 Vi är endast intresserade av att upptäcka avvikelser uppåt i felkvoten. Vi använder därför test 1, som visar att andelen defekta är signifikant högre än 1%.