Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Relevanta dokument
Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

7.5 Experiment with a single factor having more than two levels

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

8.1 General factorial experiments

Statistik för teknologer, 5 poäng Skrivtid:

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen i matematisk statistik

Examinationsuppgifter del 2

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i matematisk statistik

10.1 Enkel linjär regression

7.5 Experiment with a single factor having more than two levels

Följande resultat erhålls (enhet: 1000psi):

7.3.3 Nonparametric Mann-Whitney test

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

TENTAMEN I MATEMATISK STATISTIK

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Räkneövning 3 Variansanalys

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen Tillämpad statistik A5 (15hp)

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Tentamen i matematisk statistik

Föreläsning 12: Regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i Matematisk statistik Kurskod S0001M

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F1

Parade och oparade test

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri torsdagen den 8 februari 2007

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Skrivning i ekonometri lördagen den 29 mars 2008

Statistisk försöksplanering

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Regressions- och Tidsserieanalys - F4

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Statistisk försöksplanering

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TMS136. Föreläsning 13

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F7

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamen Tillämpad statistik A5 (15hp)

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik B Regressions- och tidsserieanalys Föreläsning 1

3.1 Beskrivande statistik

F13 Regression och problemlösning

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i Matematisk statistik Kurskod S0001M

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys).

Tentamen i Matematisk statistik Kurskod S0001M

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

F3 Introduktion Stickprov

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F3

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning G60 Statistiska metoder

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

TENTAMEN I MATEMATISK STATISTIK

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Transkript:

Sid 1 (9) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 a) Nämn en kontinuerlig och en diskret fördelning. Exempelvis normalfördelningen respektive binomialfördelningen b) Vad är skillnaden mellan kontinuerliga och diskreta fördelningar? En diskret variabel kan endast anta uppräkneligt många värden (i praktiken oftast heltal), medan en kontinuerlig variabel kan anta vilket värde som helst i ett intervall som dessutom kan vara oändligt långt. Det innebär att diskreta fördelningar kan beskrivas med sannolikhetsfunktionen som talar om sannolikheten att anta de olika värdena. Det fungerar inte för de kontinuerliga fördelningarna (sannolikhetsfunktionen vore meningslöst eftersom alla värden skulle få sannolikhet 0), där vi istället använder täthetsfunktionen. Med hjälp av denna kan man genom att göra integralberäkningar, räkna ut sannolikheter för att hamna i intervall. Uppgift 2 Vid införandet av ett nytt produktionsprotokoll gjordes en undersökning om andelen felaktigt tillverkade produkter har förändrats. Andelen felaktigt tillverkade produkter var innan bytet av protokoll uppskattat till 2% (från ett stickprov på 500 enheter). Efter bytet togs ett nytt stickprov om 600 observationer och man fann då att 8 stycken var felaktiga. Analysen gav följande utskrift. Test and CI for Two Proportions Sample X N Sample p 1 10 500 0,020000 2 8 600 0,013333 Difference = p (1) - p (2) Estimate for difference: 0,00666667 95% lower bound for difference: -0,00619330

Sid 2 (9) Test for difference = 0 (vs > 0): Z = 0,85 P-Value = 0,197 a) Vilken slutsats kan dras från utskriften? Eftersom p-värdet 0,197 > 0,05, kan vi inte förkasta H0: p1 = p2 till förmån för H1: p1 > p2 på 5% signifikansnivå. Vi kan alltså inte statistiskt säkert förkasta att andelen felaktiga är oförändrad trots den minskade andelen i det senare stickprovet. b) Vilken fördelning förutsätter vi att antalet defekta i respektive stickprov har? Bin(500, p1) respektive Bin(600, p2). c) Vad hade testets p-värde blivit om vi använt en tvåsidig mothypotes? Motivera. Det hade blivit 2 0,197 = 0,394 eftersom vi då även räknat med lika extrem avvikelse i andra svansen av fördelningen (symmetrin erhålls tack vare normalapproximationen). Uppgift 3 15 vuxna män i åldrarna 35 till 50 år deltog i en studie för att se hur motion och kostvanor påverkade kolesterolvärdena i blodet. Kolesterolhalten mättes hos var och en innan de började med lätt motion och kost med lite fett, samt tre månader efter att programmet startat. Följande data och resultat erhölls: Person nr i 1 2 3 4 5 6 7 8 9 10 Före xi 265 240 258 295 251 245 287 314 260 279 Efter yi 229 231 227 240 238 241 234 256 247 239 Person nr i 11 12 13 14 15 Före xi 283 240 238 225 247 Efter yi 246 218 219 226 233 Paired T-Test and CI: Före; Efter Paired T for Före - Efter N Mean StDev SE Mean Före 15 261,80 24,96 6,45 Efter 15 234,93 10,48 2,71 Difference 15 26,87 19,04 4,92 95% lower bound for mean difference: 18,21 a) Kan man med utskriften ovan på signifikansnivån 5% säkerställa att kolesterolhalten sänks med motion och fettsnål kost? Motivera.

Sid 3 (9) Ett 95% ensidigt nedåt begränsat konfidensintervall för den förväntade kolesterolsänkningen är [18,21 ; ]. Eftersom det 95%-iga intervallet inte täcker värdet 0, kan man konstatera att H0: = 0 förkastas på 5%-nivån till förmån för H1: > 0, dvs sänkningen är signifikant. Alternativt resonemang: Konfidensintervallet [18,21; ] ska ge oss en uppfattning var den sanna differensen ligger. Eftersom intervallet bara täcker in positiva differenser drar vi slutsatsen att den sanna differensen är positiv. Hade intervallet täckt in både positiva och negativa differenser skulle vi inte ha kunna dra någon slutsats. b) Anta att man inte kan anta normalfördelning. Nämn ett alternativt ickeparametriskt test som kan användas i detta fall. Teckentest eller Wilcoxons ettstickprovstest är två alternativ som inte förutsätter normalfördelning. c) Vad är nackdelen med att använda testet i b) om data är normalfördelat? De icke-parametriska testen är svagare, dvs det krävs normalt fler observationer eller större observerade skillnader för att H0 ska förkastas, jämfört med om man använder det parametriska testet som förutsätter normalfördelning. Uppgift 4 Vad står bokstäverna i DMAIC för? Förklara kortfattat vad de olika delarna innebär. DMAIC är ett systematiskt arbetssätt för att hitta orsaker till problem. Sker vanligtvis i projektform. DMAIC skapar ett gemensamt språk och ett enhetligt arbetssätt som underlättar tvärfunktionella samarbeten och samarbeten med leverantörer. DMAIC består av de fem faserna: Definiera, Mäta, Analysera, Förbättra (Improve) och Styra (Control). Definiera. Syftet med denna fas är att tydligt definiera vad problemet är och hur det kan kvantifieras. Problemet och dess symptom studeras och analyseras noga. Mäta. Syftet med mätfasen är att samla mätdata för att skapa en utgångspunkt (läget innan förbättring) och för analys. Förbättringsarbetet skall baseras fakta och frågor som vilket data och hur data ska samlas är viktiga att besvara. Analysera. Syftet med analysfasen är att svara på frågan: Vad är det som påverkar symptomen? Därmed också varför den uppstår. Vid kvantitativa data handlar det om att identifiera

Sid 4 (9) vilka X som påverkar projekts olika Y, samt hur dessa (orsaks-)samband ser ut. Med denna kunskap kan man sedan ta fram lämpliga åtgärder. Förbättra (Improve). När nuläget är kartlagt i mätfasen och orsakerna är identifierade i analysfasen går man vidare med att ta fram förbättringar. Det kan finnas flera olika lösningar som måste jämföras. Föreslagen lösning ska sedan noga testas och införas. Styra (Control). Syftet med styrfasen är att ta fram verktyg för att övervaka att förbättringarna blir bestående och att symptomen inte återuppstår. Metoder och verktyg för styrning av processen införs. Här sker också projektuppföljningen med bland annat uppnådda resultat. Uppgift 5 Man vill avgöra om en metalltråd är gjord av ren koppar eller ej genom att undersöka trådens resistans. Teoretiska beräkningar ger att trådens resistans är 55 m om den är gjord av ren koppar. Om mätapparaturen vet man att den ger ett mätresultat som kan betraktas som N(, )-fördelat, där är den sanna resistansen och är mätfelets (okända) standardavvikelse. Man gör 8 mätningar av resistansen och får resultatet: One-Sample T: C1 Test of μ = 55 vs 55 53,7 55,1 56,1 51,9 54,2 52,3 55,2 50,8 Variable N Mean StDev SE Mean 95% CI T P C1 8 53,663 1,845 0,652 (?;?) -2,05 0,079 a) Kommer ett 95% konfidensintervall att täcka värdet 55 m? Motivera. Eftersom p-värdet > 5% kan vi inte förkasta H0: μ = 55 på 5%-nivån. Det innebär även att ett 95% konfidensintervall täcker över värdet 55. b) Förklara vad som menas med SE Mean i utskriften. SE Mean är medelfelet eller den skattade standardavvikelsen för medelvärdet. Den beräknas enligt SE Mean = s n. Uppgift 6

Sid 5 (9) Vid en studie av preparat mot klåda gavs fem försökspersoner fyra olika preparat (A, B, C och D) vardera varefter de utsattes för klimedel på huden. Tiden (sekunder) tills klådan upphörde mättes. Följande resultat erhölls: Person Preparat 1 2 3 4 5 A 206 241 280 255 175 B 105 103 135 102 130 C 188 143 113 225 176 D 125 350 169 155 299 I MINITAB analyserades datamaterialet som en randomiserad blockdesign och följande utskrift erhölls: General Linear Model: Tid versus Person; Preparat Method Factor coding (-1; 0; +1) Factor Information Factor Type Levels Values Person Random 5 1; 2; 3; 4; 5 Preparat Fixed 4 A; B; C; D Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Person 4 5862 1465 0,37 0,827 Preparat 3 43764 14588 3,66 0,044 Error 12 47837 3986 Total 19 97463 Model Summary S R-sq R-sq(adj) R-sq(pred) 63,1383 50,92% 22,29% 0,00% Comparisons for Tid

Sid 6 (9) Tukey Pairwise Comparisons: Response = Tid, Term = Preparat Tukey Simultaneous Tests for Differences of Means Difference of Preparat Difference SE of Simultaneous Adjusted Levels of Means Difference 95% CI T-Value P-Value B - A -119,0 39,9 (-237,6; -0,4) -2,98 0,049 C - A -65,0 39,9 (-183,6; 53,6) -1,63 0,400 D - A -14,4 39,9 (-133,0; 104,2) -0,36 0,983 C - B 54,0 39,9 ( -64,6; 172,6) 1,35 0,550 D - B 104,6 39,9 ( -14,0; 223,2) 2,62 0,091 D - C 50,6 39,9 ( -68,0; 169,2) 1,27 0,599 Individual confidence level = 98,83% a) Vilka antaganden görs vid en sådan variansanalys? Finns det någonting i residualplottarna ovan som motsäger något av antagandena? Vi antar att slumpfelen är oberoende normalfördelade och med samma varians oavsett behandling, person och uppmätt värde på klådtid. Det finns en tendens att variansen ökar med uppmätt klådtid (övre residualplotten till höger).

Sid 7 (9) b) Vilka slutsatser kan man dra, på signifikansnivån 5%, från variansanalysen ovan om alla modellantaganden är uppfyllda (motivera)? Det finns en signifikant effekt av preparatet (p = 0,044 < 0,05). Tukeys test visar att Behandling B ger signifikant längre klådtid än Behandling A. Vid övriga parvisa jämförelser går det inte att dra några statistiskt säkerställda slutsatser. Om man ska välja någon behandling bör det vara B, men den är som konstaterat inte signifikant bättre än C och D. c) I variansanalysen ovan är försöksperson satt som en slumpmässig (random) effekt. Redogör för vad som menas med slumpmässiga effekter. Om man har slumpmässiga effekter kan man se det som om faktornivån är slumpmässigt vald ur en stor population av tänkbara nivåer. Det är inte just den valda faktornivån vi är intresserade av att uttala oss om utan vi vill endast konstatera om det finns en skillnad i responsvariabeln mellan olika nivåer, dvs om det tillförs en varianskomponent som beror på faktornivå. Uppgift 7 Iden med styrdiagram är att med jämna tidsmellanrum ta ut ett eller flera enheter ur produktionen och mäta kritiska mått på dessa. a) Beskriv vilka antaganden som skall vara uppfyllda för att man skall kunna säga att sannolikheten är 0,0027 att få ett falskt larm"? Genomsnittsnivån (väntevärdet) och variansen ska vara konstanta. Den slumpmässiga variationen ska vara normalfördelad och observationerna oberoende. b) Vad ska gälla för processen när man praktiskt skapar ett styrdiagram? Den ska vara under kontroll, dvs uppträda som den förväntas göra i långa loppet, dvs centrerad kring sitt målvärde och med konstant varians. c) I vilken DMAIC-fas är det särskilt lämpligt att använda styrdiagram. Motivera även varför detta är lämpligt. Framför allt i Control-fasen, när man vill kontrollera att de förändringar man gjort fått processen att uppträda på önskat sätt och för att kontrollera att förbättringen blir bestående (inte faller tillbaka till hur det var innan). Uppgift 8

Sid 8 (9) En ingenjör upptäckte att hon genom att tillsätta små mängder av en lösning vid tillverkningen av en viss sorts batterier, kunde förlänga batteriernas livslängder. Hon experimenterade med några olika halter av tillsatsen och fick följande resultat Halt tillsats 0 0 1 1 2 2 3 3 4 4 Livslängd (h) 29,7 29,9 30,9 30,4 31,1 30,8 31,1 31,1 32,2 31,8 Hon anpassade en enkel linjär regressionsmodell i MINITAB och fick följande resultat. Regression Analysis: Livslängd versus Tillsats Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 4,7045 4,70450 61,15 0,000 Tillsats 1 4,7045 4,70450 61,15 0,000 Error 8 0,6155 0,07694 Lack-of-Fit 3 0,3455 0,11517 2,13 0,215 Pure Error 5 0,2700 0,05400 Total 9 5,3200 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,277376 88,43% 86,98% 82,06% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 29,930 0,152 197,00 0,000 Tillsats 0,4850 0,0620 7,82 0,000 1,00 Regression Equation Livslängd = 29,930 + 0,4850 Tillsats a) Anta att alla modellantaganden är uppfyllda. Testa på lämpligt sätt om det finns ett linjärt samband mellan halt av tillsats och livslängd. Använd signifikansnivån 5%. Ange vilken hypotes som testas och vilken slutsats som kan dras. H0: β1 = 0 testas i tabellen ovan. p-värdet är 0,000 vilket innebär att vi på alla rimliga signifikansnivåer kan förkasta hypotesen om att det inte finns något linjärt samband mellan halt av tillsats och livslängd. b) Punktskatta den förväntade livslängden för ett batteri med tillsatsen 5 (samma enhet som i analysen). Varför är det riskabelt att använda den skattning du tagit fram?

Sid 9 (9) Den uppskattade livslängden blir 29,93 + 0,485(5) = 32,26 timmar. Vi har ingen kontroll över hur livslängden uppför sig utanför observationsområdet, dvs när halten av tillsats överstiger 4. När vi använder den skattade modellen förutsätter vi att den rätlinjiga modellen fortsätter även utanför observationsintervallet. c) Beräkna residualen för den tredje observationen (x = 1, y = 30,9). Det skattade värdet blir 29,93 + 0,485(1) = 30,42 timmar. Motsvarande residual blir 30,90 30,42 = 0,58.