TAMS38 Datorövning 4

Relevanta dokument
TAMS38 Computer exercises 4

TAMS28 DATORÖVNING VT1

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

TAMS38 Datorövning 2

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Laboration med Minitab

TAMS 28 DATORÖVNING 2

Introduktion och laboration : Minitab

Datorövning Power curve 0,0305 0, Kvantiler, kritiska regioner

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TAMS65 - Föreläsning 6 Hypotesprövning

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Datorövning 1 Enkel linjär regressionsanalys

TAMS65 - Föreläsning 6 Hypotesprövning

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

8.1 General factorial experiments

Obligatorisk uppgift, del 1

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

7.5 Experiment with a single factor having more than two levels

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Styr- och kontrolldiagram ( )

Metod och teori. Statistik för naturvetare Umeå universitet

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

7.3.3 Nonparametric Mann-Whitney test

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Examinationsuppgifter del 2

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Statistik för teknologer, 5 poäng Skrivtid:

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Föreläsning 12: Regression

7.5 Experiment with a single factor having more than two levels

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Tentamen i matematisk statistik

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

LABORATION 3 - Regressionsanalys

TMS136. Föreläsning 13

Föreläsning 12, FMSF45 Hypotesprövning

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Skrivning i ekonometri torsdagen den 8 februari 2007

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i Matematisk statistik Kurskod S0001M

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen i matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

FÖRELÄSNING 8:

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik

TAMS65 - Föreläsning 12 Test av fördelning

Datorövning 2 Multipel regressionsanalys, del 1

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Föreläsning 11: Mer om jämförelser och inferens

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

TAMS65 - Föreläsning 12 Test av fördelning

Gamla tentor (forts) ( x. x ) ) 2 x1

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F4

LABORATION 1. Syfte: Syftet med laborationen är att

F3 Introduktion Stickprov

Följande resultat erhålls (enhet: 1000psi):

Matematisk statistik för D, I, Π och Fysiker

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

TAMS65 - Seminarium 4 Regressionsanalys

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik för B, K, N, BME och Kemister

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Skrivning i ekonometri lördagen den 29 mars 2008

Datorövning 5 Exponentiella modeller och elasticitetssamband

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F3

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Tentamen i matematisk statistik

Föreläsning 12: Linjär regression

Repetition 2, inför tentamen

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Lösningar till SPSS-övning: Analytisk statistik

Laboration 2 multipel linjär regression

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

tentaplugg.nu av studenter för studenter

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Transkript:

TAMS38 Datorövning 4 Förberedelser: Läs igenom uppgifterna i förväg och fundera över modeller och analyser. Läs igenom teorin för val av stickprovsstorlek, regressionsanalys, responsytor och logistisk regression. Gör hemuppgifterna 5b (samt 6a och f). Ta med formelsamling och miniräknare till datorövningen. 1 Analys av en responsyta Följande datamaterial ger försöksdata för det avslutande försöket i en serie där man via steepest ascent försökt hitta optimala värden på temperatur och ph för en kemisk reaktion. Purity data from uniform-precision rotable Central Composite Design x 1 x 2 Temp. ph Purity Y Factorial -1-1 53 5.0 90.1 portion +1-1 55 5.0 91.8-1 +1 53 5.8 90.7 +1 +1 55 5.8 93.6 Centre 0 0 54 5.4 94.1 portion 0 0 54 5.4 94.6 0 0 54 5.4 94.2 0 0 54 5.4 93.9 0 0 54 5.4 94.0 Axial -1.414 0 52.59 5.4 89.0 portion +1.414 0 55.41 5.4 92.3 0-1.414 54 4.83 90.7 0 +1.414 54 5.96 92.5 1

Visar 2 2 -försöket med fem observationer i centrumpunkten tendens till krökning? Gå in under STAT/DOE/Factorial/Create Factorial Design... Antalet faktorer är två. Klicka på Designs och välj Number of Center Points: 5. Skriv in de nio y-värdena i c7 i rätt ordning genom att titta på A- och B-nivåerna. Kalla c7 för Y. Vänta med de fyra extrapunkterna. Gå in under STAT/DOE/Factorial/Analyze Factorial Design... Under Response ange c7. a) Genomför test av krökning på nivån 0.01. Slutsats? Döp om c5 och c6 till x1 och x2. Fyll på med extrapunkterna i c5-c7. Skapa sedan nya kolumner genom att skriva i sessionsfönstret let c8=c5*c6 let c9=c5**2 let c10=c6**2 b) Döp de nya kolumnerna till x1*x2, x1**2 och x2**2. Du kan nu anpassa en andragradsyta till dina data. Gå in under Stat/Regression/Regression och fyll i Response: c7, Predictors: c5 c6 c8-c10. c) Går det att med hjälp av denna andragradsyta hitta en optimal punkt? Räkna om värdena på x1 och x2 för den optimala punkten till verklig temperatur och verkligt ph. d) Det kan vara trevligt att titta efter hur den anpassade andragradsytan ser ut. Gå in under Calc/Make Mesh Data... Lägg x1-värden i c11 från -1.5 till 1.5 med 21 punkter och x2-värden likadant i c12 (inget för Z). Som Z-funktion ska du ha det skattade regressionsuttrycket. Skriv i sessionsfönstret let c13=...+...*c11+...*c12+...*c11*c12... Fyll i rätt koefficienter från regressionsanalysen och ta med alla termerna. Gå in under Graph/3D Surface Plots/Wireframe plot och fyll i Z: c13 Y: c12 X: c11. Vad får ni? 2

2 Bestämning av stickprovsstorlek vid normalfördelning En forskargrupp vill studera om regelbunden träning kan öka mineralinnehållet i skelettet hos unga kvinnor. Man tänker välja ut n unga kvinnor, mäta deras mineralinnehåll i skelettet, låta dem träna enligt ett visst program i sex månader och sedan på nytt mäta mineralinnehållet i skelettet. Låt x i och y i beteckna deras mineralinnehåll (enhet:%) före respektive efter träningsperioden. Då beskriver z i = y i x i förändringen. Tidigare mätningar har visat att det är rimligt att anta att Z i N(µ, 4). Man vill testa H 0 : µ = 0 mot H 1 : µ 0 på nivån 0.05, så att styrkan för testet är minst 0.90 om µ = 2. Hur ska man välja n? a) Gå in i Minitabmenyn Stat/Power and Sample Size/1-sample Z. Fyll i Differences: 2 Power values: 0.90 Standard deviation: 4.0 Klicka på Options och välj Alternative Hypothesis: Not equal samt Significance level: 0.05. Klicka på Graphs: och välj Display Power Curve. Sedan OK. Ger n 1 =....... b) Gör om proceduren men välj ett ensidigt test. Ger n 2 =....... c) Bestäm också styrkan för det tvåsidiga testet om n = 25 genom att utnyttja samma Minitabrutin. Styrka:....... d) Gör om a) med rutinen 1-sample t. Ger n 3 =....... 3 Stickprovsstorlek vid binomialfördelning a) Vid behandling av en kronisk sjukdom med ett gammalt beprövat läkemedel upplever 20% av patienterna en tydlig lindring. Man har tagit fram ett nytt läkemedel och man hoppas att det tillsammans med den traditionella behandlingen ska hjälpa fler patienter. 3

Genom att låta n patienter pröva den nya kombinationsbehandlingen och ta reda på hur många som upplever en förbättring vill man pröva H 0 : p = 0.2 mot H 1 : p > 0.2 på nivån 0.01 och man vill att styrkan för testet ska vara 0.99 om p = 0.4. Bestäm n genom att utnyttja Stat/Power and Sample Size/One proportion med rätt mothypotes. Ger n a =....... Titta också på styrkefunktionen. b) Lös uppgift 60 i Problemsamlingen, med hjälp av Stat/Power and Sample Size/Two proportions. Ger n b =....... 4 Bestämning av stickprovsstorlek vid enfaktorförsök Lös uppgift 3-44 i Design and Analysis of Experiments Montgomery, med hjälp av Stat/Power and Sample Size/ Oneway ANOVA. Ger n =....... Detta stämmer inte med vårt gamla resultat, vilket beror på att Minitab arbetar med parvisa jämförelser mellan µ i och µ j, medan vi diskuterade F-test av H 0 : µ 1 =... = µ 4 på nivån 0.05. 5 Logitisk regression, blandmodell 1974 och 1975 gjordes två undersökningar av National Opinion Research Center, University of Chicago, Illinios där människors attityd mot kvinnor betraktades. Varje tillfrågad skulle ta ställning till följande påstående: Women should take care of running their homes and leave running the country up to men. Observationer från 1305 män och 1566 kvinnor är sammanställda i tabellen nedan. 4

Antal Män, j = 1 Kvinnor, j = 2 utbildningsår, k positiva negativa positiva negativa 0 4 2 4 2 1 2 0 1 0 2 4 0 0 0 3 6 3 6 1 4 5 5 10 0 5 13 7 14 7 6 25 9 17 5 7 27 15 26 16 8 75 49 91 36 9 29 29 30 35 10 32 45 55 67 11 36 59 50 62 12 115 245 190 403 13 31 70 17 92 14 28 79 18 81 15 9 23 7 34 16 15 110 13 115 17 3 29 3 28 18 1 28 0 21 19 3 13 1 2 20 3 20 2 4 Datan ovan finns på kurshemsidan att ladda ner. Efter en snabb titt på data så verkar det som att ju längre utbildning desto mindre andel positiva till påståendet. Vi ska nu analysera data med logistisk regression och svara på några frågor om hur utbildningslängden och kön har betydelse. Vi inför dummyvariabeln { 0 om j = 1 (man) z j = 1 om j = 2 (kvinna) för att separera de två grupperna män och kvinnor. Namge kolumnerna y jk för de positiva, x jk för de negativa, dummyvariabeln z j och antalet utbildingsår k. Där finns även en kolumn för det totala antalet n jk = y jk + x jk tillfrågade för varje kön j och utbildningsår k. Bilda en kolumn med andelen positiva ˆp jk = y jk /n jk. a) Plotta andelen positiva ˆp jk mot antalet utblidningsår k. Välj Graph/Scatterplot/With Gropus så att vi kan se skillnaden mellan män och kvinnor. b) Skriv upp modellen där konstantterm och lutning kan vara olika för de två grupperna (logit p jk =...). Använd dummyvariabeln för att separera grupperna. (Hemuppgift) Genomför en logit-analys för den givna modellen med dummyvariabeln. Gå in under Stat/Regression/Binary Log... 5

c) Vilka parametrar i din modell är signifikanta? Är du nöjd med deviansen? D =......... P =......... Slutsats? Extra uppgift En anledning till att modellen inte är så bra kan vara att vissa celler har färre än tio observationer och påverkar resultatet mer än vad som är önskvärt. Ett sätt att hantera denna problematik skulle kunna vara att helt enkelt ta bort dessa observationer. Gör om analysen för samma modell men där alla observationer som är tio eller färre per cell är bortagna. Kopiara all data i datafönstret till nya kolumner och ta bort de som ej ska ingå (alla där n 10). Gå in under Stat/Regression/Binary Log... och gör en ny analys med de nya kolumnerna. d) Vilka parametrar i din modell är signifikanta? Är du nöjd med deviansen? D =......... P =......... Slutsats? 6 Användning av dummyvariabler vid additiv modell (Extra uppgift) Vid tillverkning av tvål görs en kvalitetsklassning av tvålens utseende enligt en skala från 1 till 10, ju högre värde desto bättre. Man tror att skillnader mellan operatörer samt hastigheten på produktionslinjen har betydelse. Resultat: Appearance Operator Line Speed (Sum for 30 Bars) 1 150 255 1 175 246 1 200 249 2 150 260 2 175 223 2 200 231 3 150 265 3 175 247 3 200 256 6

Genomför en regressionsanalys svarande mot en additiv tvåfaktormodell genom att utnyttja förklaringsvariablerna { { 1 för operatör 1 1 för operatör 2 x 1 =, x 0 annars 2 =, 0 annars { { 1 för hastighet 1 1 för hastighet 2 z 1 =, z 0 annars 2 =. 0 annars Lägg in data i datafönstret och skriv in variabelnamnen i namnraden. Kalla den aktuella responsvariabeln för Y. Gå in under Stat/Regression/Regression och beställ en regressionsanalys med Y som responsvariabel och x 1, x 2, z 1, z 2 som prediktorer. Under Graphs beställer du plott av residualerna mot de skattade väntevärdena (fits) samt normalfördelningsplott av residualerna. Under Storage beställer du lagring av (X X) 1. Ta sedan OK. Titta överst i analysen var (X X) 1 har hamnat och skriv i sessionsfönstret print m1 om den finns i m1. a) Ställ upp den aktuella modellen. (Hemuppgift) b) Gör konfidensintervall för samtliga β-koefficienter vart och ett med konfidensgrad 95%. Finns det påvisbara skillnader mellan operatörer? c) Vilka parametrar beskriver skillnaden mellan hastighet 1 och 2? Punktskatta den? d) Titta på residualplottarna. e) Skapa två kolumner med nivåer för operatör respektive hastighet. Gå in under Stat/ANOVA/Balanced ANOVA och genomför en analys enligt en additiv tvåfaktormodell med lagring av medelvärden för de olika faktorerna (beställs under Results). f) Ställ upp modellen. (Hemuppgift) g) Skatta skillnaderna i kvalitetsbedömningen mellan hastigheterna och jämför med motsvarande parameterskattningar i c). h) Kan vi rekommendera någon hastighet? Konstruera lämpliga konfidensintervall med simultan konfidensgrad exakt 90%. 7

7 Styrka hos t-test (Extra uppgift) Låt x 1,..., x n vara observationer från N(µ, σ). Vi kan då pröva hypotesen H 0 ; µ = 5 mot H 1 : µ 5 med teststorheten w = x 5 s/ n. H 0 förkastas om w > t, där t ges i t(n 1)-tabell av villkoret F (t) = 0.975, då testet har nivån 0.05. Vi ska dels studera signifikansnivån, d v s P ( W > t om µ = 5), dels testets styrka då µ = 6, dvs. P ( W > t om µ = 6). Styrkan beror inte bara på det alternativa µ-värdet utan även på standardavvikelsen σ. Styrkeberäkningar är bl a intressanta då man planerar en undersökning och vill kunna bedöma hur många mätningar som behövs. För t-testet är det besvärligt att räkan på styrkan för hand och då har man nytta av simuleringar. a) Rensa fönsterna. Gå in under Calc-Random data-normal distribution och generera 1000 rader i c1-c16 med väntevärde 5 och standardavvikelse 1.2. I varje rad har man sedan 16 observationer från N(5, 1.2). Ta sedan Calc-Row Statistics, välj alternativet mean med Input Variables c1-c16 och lagra i c17. Ta sedan Calc-Row Statistics, välj alternativet stdev med Input Variables c1-c16 och lagra i c18. Beräkna teststorhetens värde för varje rad genom att skriva i sessionsfönstret let c19 = (c17-5)/(c18/4) För att få fram t-värdet kan man gå in under Calc-Probability Distribution-t; välj Inverse cumulative probability. Fyll också i Noncentrality parameter: 0.0, frihetsgrad och Input constant: 0.975. Skriv i sessions-fönstret let k1 =... let c20 = c19 < -k1 let c21 = c19 > k1 sum c20 sum c21 Då är sum c20 + sum c21 =......... antalet gånger nollhypotesen förkastats. Stämmer denna summa med vad ni väntade er med hänsyn till signifikansnivån? b) Rensa datafönstret, men inte sessionsfönstret. Gör om proceduren med data från N(6, 1.2). OBS! Ni ska fortfarande pröva H 0 : µ = 5. med samma teststorhet w. Med hjälp av y = sum c20 + sum c21 kan man beräkna ett approximativt värde y/1000 =......... på styrkan för µ = 6. Är ni nöjda med styrkan? c) Bestäm också styrkan genom att utnyttja lämplig rutin under Stat/Power and Sample Size. Styrkan blir......... 8