UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk statistisk Statistik för ingenjörer, poäng, Anders Lundquist 7-- Examinationsuppgifter del Redovisas muntligt den / (Ö-vik) samt / (Lycksele). Varje student redovisar en uppgift (slumpmässigt vald av mig) och har maximalt minuter till sitt förfogande.. En biolog önskar (av någon anledning ) undersöka om vänster framben och vänster bakben hos hjortar är lika långa. För detta ändamål mättes benen på djur. Följande resultat erhölls: Djur 7 8 9 Framben (cm) 8 Bakben (cm) 9 7 9 7 Testa (under normalfördelningsantagande) på % -nivån hypotesen om att benen är lika långa.. Ett företag A levererar glasburkar till företag B med lastbil. Företag B har iakttagit att antalet förstörda glasburkar är speciellt stort vid vissa transporter och gör påståendet att lastbilens hastighet vid transporten har en avgörande betydelse. Företagen kommer överens om att pröva påståendet. Man ställer upp en regressions-modell och gör vissa mätningar för att kunna skatta och pröva modellens relevans. Mätningarna genomfördes för leveranser varvid följande data erhölls: Körtid från A till B (x) Antal skadade burkar (y) 8 8 9 7 7 8 7 7 8 7 MINITAB gav följande utskrift: Regression Analysis antal skadade =,9 +?? körtid Predictor Coef StDev T P Constant,9,9,7, körtid??,???? S =,987 R-Sq = 89,9% R-Sq(adj) = 88,8%
Model Diagnostics antal skadade 8 7 - - Normal Plot of s - - Histogram of s I Chart of s - - - - s vs. s,sl=,89 X=, -,SL=-,89 körtid -, -, -,,,,, - - 7 8 9 a) Testa H : β = mot H a : β på %-nivån. b) Är företagets påstående om att hastigheten har en avgörande betydelse sant? c) Man har beräknat korrelationen mellan körtid och antal skadade burkar och fått ett av värdena.98,. eller.98. Vilket av värdena är det riktiga? Motivera!. Aluminiumstavar utsattes för uppvärmningsbehandlingar enligt fyra olika standarder. Efter behandlingen uppmättes dragstyrkan hos varje stav. Fem upprepningar gjordes för varje behandling. Följande resultat erhölls (enhet: psi): Behandling A B C D 9 9 7 8 Följande utskrifter erhölls från en analys i MINITAB: One-way Analysis of Variance Analysis of Variance for C Source DF SS MS F P C 7,, 9,9, Error, 7, Total 9 7,8 Individual 9% CIs For Mean Based on Pooled StDev Level N Mean StDev --+---------+---------+---------+---- A,8, (---*---) B,,8 (---*----) C,,77 (---*---) D,8,8 (---*---) --+---------+---------+---------+---- Pooled StDev =,,,, 8, Tukey's pairwise comparisons Family error rate =, Individual error rate =, Critical value =,
Intervals for (column level mean) - (row level mean) B -, -,97 A B C C -, -9, -,7, D -,8,97 9,7 7,8, 9, Model Diagnostics Normal Plot of s I Chart of s,sl=9,7 X=, - - - - -,SL=-9,7 Histogram of s s vs. s - - - - - a) Redogör för vilka antaganden man gör när man genomför en variansanalys. Verkar de vara uppfyllda i detta fall? Motivera. b) Antag att antagandena i a) är uppfyllda. Vilka slutsatser kan man då dra på %-nivån från ovanstående analys?. Under våren utförde Statistiska centralbyrån en undersökning av ingångslönerna för nyexaminerade högskoleingenjörer. Ett syfte med undersökningen var att jämföra populationen av kvinnor (A) och populationen av män (B) som tagit ingenjörexamen och börjat sin första anställning efter år. Från dessa populationer drogs stickprov av kvinnor och män. För variabeln X = månadslön (kronor före skatt), gav stickproven följande resultat: Kvinnor ( n = ): medelvärde ( x A ) =, varians ( ) = 9 A Män ( n = ): medelvärde ( x B ) =, varians ( ) = B a) Beräkna ett 9% konfidensintervall för skillnaden μ A μ B mellan kvinnornas och männens förväntade ingångslöner. b) Är männens löner högre än kvinnornas? Testa hypotesen på %-nivån. s A s B
. För att jämföra smältpunkterna μ och μ hos två legeringar L och L sänder ett företag prov av den ena legeringen och prov av den andra till ett laboratorium. Laboratoriet missförstår emellertid det hela och gör separata 99% konfidensintervall för smältpunkterna hos och L. Resultat: L L : L : I μ = ( ; 7 ) I = ( ; ) Mätvärdena på de två legeringarna antas vara två oberoende stickprov från normalfördelningar med lika men okänd varians. μ a) Använd de givna uppgifterna för att beräkna ett 99% konfidensintervall för skillnaden mellan smältpunkterna. b) Testa på %-nivån om legering har högre förväntad smältpunkt än legering.. Vid tillverkning av byggelement varierar dessas längder slumpmässigt och kan ses som utfall av oberoende likafördelade slumpvariabler med väntevärdet μ = meter och standardavvikelsen σ =. meter. Vid ett tillfälle vill man ha element som ska placeras intill varandra till en sammanlagd längd av meter. Man väljer mellan följande två metoder:. Man tar på måfå ut ett element (längd= X ). Därefter tar man ut 9 element och slipar av dessa så att de blir exakt lika långa som det första. Sammanlagda längden blir då Y = X.. Man tar ut element på måfå (element i av längd X i, i =,, K,. ). Sammanlagda längden blir då Z = X + X + K + X. a) Är de två metoderna väntevärdesriktiga? Motivera. b) Vilken av de två metoderna skulle ni föredra? Varför? 7. Ett läkemedelsföretag tänker starta en tillverkning av vitaminpiller, som skall väga g. Pillren förpackas i burkar med exakt piller i varje. På burken fästs en etikett: Vikt g. Vikten av olika piller kan anses vara oberoende slumpvariabler med väntevärde g och standardavvikelse σ g. Företaget vet att konsumentverket kommer att kräva att minst 9% av burkarna ska ha ett viktinnehåll mellan 9 g och g. Hur stor precision måste man ha vid tillverkningen av pillren; dvs, vilket är det största värdet på σ som man kan tillåta om man skall uppfylla konsumentverkets krav? 8. Vid en geotermisk undersökning erhöll man följande observationer av temperaturen vid olika borrdjup: borrdjup (x) : 9 temperatur (y) : 7 7 77 För att beskriva sambandet mellan borrdjup och temperatur kan man använda en linjär modell: yi = β + βx i + ε i, i=,,,n, där ε N(, σ ) i
Från MINITAB erhölls följande utskrift: Regression Analysis: y versus x y =, +, x Predictor Coef SE Coef T P Constant,98,9,7, x,998,,, S =,897 R-Sq = 97,% R-Sq(adj) = 9,% Predicted Values for New Observations New Obs SE 9% CI 9% PI,9, (,9;,) (,87; 9,),9,9 (7,;,) (9,7;,8) 7,9,78 (,9;,9) (,; 7,8) Values of Predictors for New Observations New Obs x??? Percent Normal Probability Plot of the s 99 9 - - Plots for y s Versus the ted Values,,, -, -, 8 ted Value Histogram of the s, s Versus the Order of the Data,, -, -, -,,,, -, Observation Order 7 8 a) Vad är det skattade värdena av β, β och σ i modellen. Verkar modellantagandena vara uppfyllda. Kommentera. b) Ta fram ett 9%-igt konfidensintervall för det förväntade värdet av temperaturen på meters djup samt ett 9%-igt prediktionsintervall för meters djup. (Observera att det finns skattade värden för olika värden i MINITAB-utskriften ovan men att dessa värden är ersatta med ett?.) c) Vad är förklaringsgraden för denna modell och vad beskriver den? d) Man önskar göra prediktion för borrdjupet meter. Finns det någon fara med att göra det, och i så fall vilken?
9. Antag att X, X,, X n är oberoende slumpvariabler med väntevärde µ och varians σ. n Betrakta medelvärdet X = X i. n i= a) Visa att X är en väntevärdesriktig punktskattning av µ. σ b) Visa att variansen för X är n c) Antag att X och X är oberoende slumpvariabler med väntevärde µ och varians σ. Två olika väntevärdesriktiga skattningar av µ är tillgängliga: ˆ μ = (X + X ), ˆ μ = (8X + X ) Vilken av skattningarna är effektivast (dvs har minst varians)?. För att jämföra två olika odlingsmetoder av gran används totalt plantor. En metod A tillämpas på slumpmässigt utvalda plantor och resterande odlas enlig metod B. Låt X och Y vara två slumpvariabler som beskriver tillväxterna för metod A respektive metod B. Ingen speciell fördelning förutsätts för X och Y, utan endast att väntevärdena μ =E[X] och μ =E[Y] samt att varianserna σ =Var[X] och σ =Var[Y] existerar. Låt de observerade värdena på medelvärdena och standardavvikelserna vara: x =., y =., s =. och s = 7. 9 Undersök om det finns någon systematisk skillnad mellan odlingsmetoderna A och B (α=.). Vid ett försök vill man testa H : μ = mot H A : μ. Som testvariabel använder man stickprovsmedelvärdet x, baserat på observationer från slumpvariabeln X. Väntevärde och varians för X antas vara μ respektive. Om det observerade stickprovsmedelvärdet blev och H förkastas på signifikansnivån %, vilket av dess uttryck beskriver bäst situationen? Motivera ditt val.. Sannolikheten är. att μ =.. Sannolikheten att X eller X - är högst., då μ =.. Sannolikheten att X eller X - är exakt., då μ =.. Sannolikheten att X eller X - är högst., då μ =
. Man ville undersöka hur halten X av styren påverkar viskositeten Y hos en blandning av styren och en viss polyestermonomer. Man bestämde sig för att använda olika styrenhalter och göra mätningar av viskositeten för vardera halt. Resultatet redovisas i tabellen: Styrenhalt i % x Viskositet (enhet: cs) y 9,9,,7,8,, 9, 8,,,,,,,,8,, 9,9 7,9,,,9,,8,,,8,,, Nedan bifogas MINITAB-utskrifter från tre olika modeller. MODELL : MODELL : MODELL : variabler Linjär regression med styrenhalt som förklarande variabel Linjär regression med styrenhalt i kvadrat som förklarande variabel Linjär regression med styrenhalt och styrenhalt i kvadrat som förklarande MODELL Regression Analysis viskositet =, -,7 styrenhalt Predictor Coef StDev T P Constant,,8,9, styrenhalt -,777,9 -,, S =,7 R-Sq = 8,% R-Sq(adj) = 8,9% RESIDUALPLOT FÖR MODELL Normal Plot of s I Chart of s,sl=9,9 X=, - - - Histogram of s - -8 - - - 8 - - 8 -,SL=-9,9 s vs. s
MODELL Regression Analysis viskositet =, -, styrenhalt^ Predictor Coef StDev T P Constant,,87,, Styrenhalt^ -,,79 -,7, S = 8,7 R-Sq = 9,% R-Sq(adj) = 7,7% RESIDUALPLOT FÖR MODELL Normal Plot of s I Chart of s - - - - -,SL=, X=, -,SL=-, 9 8 7 Histogram of s - - - - s vs. s MODELL Regression Analysis viskositet = 8, -,7 styrenhalt +,9 styrenhalt^ Predictor Coef StDev T P Constant 7,977,9,88, styrenhalt -,7, -,9, styrenhalt^,99, 9,, S =,7 R-Sq = 9,% R-Sq(adj) = 9,8% RESIDUALPLOT FÖR MODELL Normal Plot of s I Chart of s,sl=8, X=, - - - - -,SL=-8, Histogram of s s vs. s - - - - - -
a) Ange fullständiga modellantaganden för de tre modellerna. b) Jämför de tre modellerna. Redovisa hur du jämför modellerna. Vilken modell skulle du föredra och varför? c) Använd den modell som du valde i b) till att prediktera viskositeten då styrenhalten är 77 %. Kommentera resultatet. d) För Modell gjordes ett konfidensintervall och ett prediktionsintervall för viskositeten då styrenhalten är %. Följande utskrift erhölls: StDev 9,% CI 9,% PI 8,9,77 (,99; 9,88) (,7;,7) Hur ska man tolka de två intervallen? Varför är prediktionsintervallet bredare än konfidensintervallet?