TAMS28 DATORÖVNING 1-2015 VT1

TAMS28 DATORÖVNING 1-2015 VT1 Datorövningen behandlar simulering av observationer från diskreta och kontinuerliga fördelningar med hjälp av dator, illustration av skattningars osäkerhet, analys vid parvisa mätningar, undersökning av konfidensgrad vid normalapproximation samt undersökning av styrka för t-test. Förberedelser: (i) Läs om punktskattning i normalfördelningsfallet. Läs om konfidensintervall, särskilt vid parvisa mätningar samt för p i binomialfördelningsfallet då normalapproximation används. Läs om t-test vid normalfördelade data. (ii) Fyll i väntevärdet E(X i ) och standardavvikelsen D(X i ) för ett tärningskast på redovisningsbladet för uppgift 1. (iii) Ställ upp hjälpvariablerna som används i uppgift 3c) respektive 4b) och fyll i på redovisningsbladet. (iv) Fyll formeln för konfidenesintervallet i uppgift 5 på redovisningsbladet. Innan du loggar in på windowsmaskinen bör du kopiera filen mobiltelefon.mpj till ditt directory. Observera att Minitab utnyttjar. som decimalkomma. Uppgift 1. Simulering av observationer från en diskret fördelning. Vi har ofta utnyttjat tärningskast för att illustrera olika räknelagar för sannolikheter. Du ska nu med hjälp av Minitab simulera sådana kast. Logga in på Windows-maskinen och starta Minitab. Klicka i sessionsfönstret, gå in under Editor och välj Enable Commands. Du får då upp MTB> i sessionsfönstret, vilket ger dig möjlighet att skriva Minitabkommandon där. Skriv följande kommandon i sessionsfönstret och gör radbyten med returtangenten set c1 1:6 end set c2 6(1) end let c2=c2/6 Gå in under Calc-Random Data-Discrete och lägg 600 tärningskast (Number of rows: 600) i c3; Values in: c1 och Probabilities in: c2. Det kan nu vara intressant att titta på frekvenserna f i för de olika utfallen. Skriv i sessionsfönstret table c3. så får du frekvenserna. Beräkna stickprovsmedelvärdet och stickprovsstandardavvikelsen 1

för c3 och jämför med det teoretiska väntevärdet och den teoretiska standardavvikelsen för ett tärningskast, se Fö 2. Skriv i sessionsfönstret mean c3 stdev c3 Fyll i resultaten på resultatbladet som finns sist i det här häftet och redovisa uppgiften så snart någonlärare är ledig. Uppgift 2. Punktskattning vid normalfördelning. Rensa sessionsfönstret genom att markera allt utom den sista raden och sedan använda delete-knappen (förutsätter att Editor Output editable är aktiverad). Rensa datafönstret genom att dra med musen i den översta raden (där det står C1 C2 etc) så att allt markeras och sedan använda delete-knappen. Du ska nu generera 100 observationer från N(µ, σ) i var och en av c1-c20. Gå in under Calc-Random Data och Generate: 100 rows, välj själv µ- och σ-värden och fyll i, Store in: c1-c20. Då har Du i varje rad 20 observationer frånn(µ, σ). Vi vet att ˆµ = x och ˆσ = s = n 1 (x i x) 2 1 n 1 ger approximativa värden på µ och σ. Du ska nu se hur dessa båda skattningar fungerar för n=20 genom att beräkna dem för var och en av de 100 raderna. Gå in under Calc-Row Statistics, välj alternativet Mean med Input variables c1-c20 och Store Results in c21. Gå in under Calc-Row Statistics, välj alternativet Stdev med Input variables c1-c20 och Store Results in c22. Skriv i sessionsfönstret (radbyte med returtangenten): set c23 1:100 end För att få en bild av hur skattningarnas värden varierar från stickprov till stickprov plottar vi dem mot de nummer vi skapat i c23, i två diagram. Gå in under Graph- Scatter plots-simple och beställ plottar av c21 mot c23 och c22 mot c23. Skriv ut plottarna via File-Print Graph eller spara dem så att du kan visa upp dem vid redovisningen. a) Hur tycker du att skattningarna ser ut att fungera? Diskutera! b) I C21 har du värdena på ˆµ = x för de olika stickproven. Med hjälp av stdev c21 får du ett approximativt värde på D(X). Jämför med det teoretiska värdet. Ta bort eventuellt skräp i sessionsfönstret och skriv eventuellt ut det via File-Print Session Window i två exemplar. Välj skrivaren i det rum där du sitter. Fyll i resultaten på resultatbladet. 2

Uppgift 3. Parvisa mätningar. I en studie av hur användning av mobiltelefon påverkar bilkörning har 32 försökspersoner genomfört körningar i en bilsimulator och man har mätt reaktionstiderna vid en viss typ av trafikincidenter både vid normal bilkörning och då de talade i mobiltelefon. Innan mätningarna gjordes fick man träna en stund, så man behöver inte räkna med någon inlärning mellan de två mättillfällena. För säkerhets skull genomfördes dessutom de två mätningarna i slumpmässig ordning för varje person. Resultat i millisekunder: Row xi yi 1 604 636 2 556 623 3 540 615 4 522 672 5 459 601 6 544 600 7 513 542 8 470 554 9 556 543 10 531 520 11 599 609 12 537 559 13 619 595 14 536 565 15 554 573 16 467 554 17 525 626 18 508 501 19 529 574 20 470 468 21 512 578 22 487 560 23 515 525 24 499 647 25 448 456 26 558 688 27 589 679 28 814 960 29 519 558 30 462 482 31 521 527 32 543 536 Här är x i mätvärden utan användning av mobiltelefon och y i mätvärden med mobiltelefon. Vi ska undersöka om användning av mobiltelefon har någon systematisk inverkan på reaktionstiden. Rensa fönsterna. Gå in under File-Open Project och öppna mobiltelefon.mpj som ska finnas på din hemarea om du följt instruktionerna. a) Motivera kortfattat varför vi här har så kallade parvisa mätningar. b) Skriv sedan i sessionsfönstret let c3=c2-c1 Kalla c3 för di. Ställ upp en modell för de stokastiska variablerna D i. Tänk efter vilken parameter som beskriver effekten av användning av mobiltelefon. c) Du ska undersöka om det finns systematisk skillnad mellan reaktionstiderna med och utan användning av mobiltelefon genom att utnyttja ett lämpligt 95% konfidensintervall. 3

Gå in under Stat-Basic statistics-1-sample t och skriv in Samples in columns: c3; klicka för Perform hypothesis test; fyll i... mean: 0 ; gå under Options: och välj Confidence level: 95.0; Alternative: not equal. Klicka sedan på OK så får Du resultatet i sessionsfönstret. Observera att SE Mean = sd n (standard error of the mean är alltså ett approximativt värde på standardavvikelsen för den s.v. D.) Leta upp konfidensintervallet för den systematiska effekten på reaktionstiden vid användning av mobiltelefon. Vilken hjälpvariabel används? Skriv eventuellt ut innehållet i sessionsfönstret i två exemplar; gå in under File- Print Session Window. d) Vad är Din slutsats beträffande reaktionstiden vid användning av mobiltelefon? Fyll i resultaten på redovisningsbladet. Uppgift 4. Jämförelse av väntevärden. På två olika lösningar A och B gjordes upprepade oberoende mätningar av phvärdet med en standardmetod. Avsikten var att undersöka om de båda lösningarna hade olika ph-värden. Man fick följande mätvärden Lösning A (x i ) : 6.38 6.47 6.42 6.50 6.52 Lösning B (y j ) : 7.01 6.90 6.97 6.93 6.84 Du får anta att du har två slumpmässiga stickprov från normalfördelningar med samma standardavvikelse, vilket innebär att du kan anta att de stokastiska variablerna X i N(µ 1, σ) och Y j N(µ 2, σ) samt att alla mätningar är oberoende. a) Förklara vad parametrarna µ 1 och µ 2 beskriver. Finns det skäl att hävda att de båda lösningarna har olika ph-värden? Du ska med hjälp av Minitab undersöka detta genom att konstruera ett konfidensintervall för µ 1 µ 2 d.v.s. skillnaden mellan väntevärdena. Rensa fönsterna. Lägg in mätvärdena för de båda lösningarna i C1 och C2. Gå in under STAT Basic statistics 2-sample t, klicka på Samples in different columns och fyll i C1 och C2, klicka på Assume equal variances och kontrollera under Options att konfidensgraden är inställd på 95.0. Ta sedan OK, så får du analysen. b) Leta upp konfidensintervallet och skriv in det på redovisningsbladet. Vilken hjälpvariabel utnyttjas vid konstruktionen av konfidensintervallet? Vad blir din slutsats beträffande ph-värdena för de båda lösningarna? c) Vad är det för skillnad mellan mätsituationerna i uppgift 3 och uppgift 4 som gör att vi använder olika metoder? Motivera kortfattat. Skriv eventuellt ut innehållet i sessionsfönstret och fyll i redovisningsbladet. 4

Användbart i de två följande uppgifterna där du ska upprepa likartade simuleringar. Om man vill köra om en kommandosvit i Minitab kan man göra så här: Markera kommandosviten. Gå in under Edit och välj Command Line Editor. Ändra det som ska ändras. Klicka på Submit commands. Uppgift 5. Konfidensgrad vid normalapproximation. Då vi konstruerar konfidensintervall i binomialfördelningsfallet (se Fö8 eller läroboken), så utnyttjar vi normalapproximation och vi kräver att npq > 10 där q = 1 p. Det är intressant att se vad som händer med konfidensgraden om detta villkor inte är uppfyllt. a) Rensa förnsterna. Gå in under Calc-Random-Binomial Number of rows: 1000 Store in: c1 Number of trials: 16 Event probability: 0.3 så får du1000 rader med observationer från Bin(16,0.3) i c1 Lägg p-skattningarna i c2 med hjälp av kommandot let c2=c1/16 och de båda gränserna för konfidensintervallet i c3 och c4 let c3=c2 1.96 sqrt(c2 (1 c2)/16) let c4=c2+1.96 sqrt(c2 (1 c2)/16) Om det sanna värdet p = 0.3 ligger nedanför den undre konfidensgränsen eller ovanför den övre, så har intervallet missat sin parameter. Följande kommandon hjälper oss att räkna ut hur många gånger p = 0.3 hamnade nedanför den undre konfidengränsen respektive ovanför den övre: let c5=c3>0.3 let c6=c4<0.3 sum c5 sum c6 Då är sum c5+sum c6 = antalet intervall som missade det sanna parametervärdet. Jämför detta antal med det förväntade antalet för den aktuella konfidensgraden. b) Rensa datafönstret. Gör om hela proceduren för 1000 observationer från Bin(80,0.3). Jämför resultaten. Fyll i resultaten på resultatbladet. 5

Uppgift 6. Styrka hos t-test. Låt x 1,..., x n vara observationer från N(µ, σ). Vi kan då pröva hypotesen H 0 : µ = 5 mot H 1 : µ 5 med hjälp av teststorheten t 0 = x 5 s/ n H 0 förkastas om t 0 > c, där c ges i t(n 1)-tabell av villkoret F (c) = 0.975, då testet har nivån 0.05. Vi ska dels studera signifikansnivån, d.v.s P ( T 0 > c om µ = 5), dels testets styrka då µ = 6, d.v.s P ( T 0 > c om µ = 6) då vi har σ = 1.2 Styrkeberäkningar är bl.a. intressanta då man planerar en undersökning och vill kunna bedöma hur många mätningar som behövs. För t-testet är det besvärligt att räkan på styrkan för hand och då har man nytta av simuleringar. a) Rensa fönsterna. Gå in under Calc-Random data-normal distribution och generera 1000 rader i c1-c16 med väntevärde 5 och standardavvikelse 1.2. I varje rad har man sedan 16 observationer från N(5, 1.2). Ta sedan Calc-Row Statistics, välj alternativet mean med Input Variables c1- c16 och lagra i c17. Ta sedan Calc-Row Statistics, välj alternativet stdev med Input Variables c1-c16 och lagra i c18. Beräkna teststorhetens värde för varje rad genom att skriva i sessionsfönstret let c19=(c17 5)/(c18/4) vilket alltså innebär att du har n =...... i t-testet. För att få fram c-värdet kan man gå in under Calc-Probability Distribution- t ; välj Inverse cumulative probability. Noncentrality parameter: 0.0. Fyll också i frihetsgrad och Input constant: 0.975. Skriv i sessionsfönstret let k1=c (byt c mot värdet du fått fram nyss) let c20=c19< k1 let c21=c19> k1 sum c20 sum c21 Då är sum c20+sum c21 antalet gånger nollhypotesn förkastats för de 1000 mätseriernasom skapats med µ = 5, d.v.s. då nollhypotesen är sann. b) Rensa datafönstret, men inte sessionsfönstret. Gör om proceduren med data från N(6, 1.2). OBS! Du ska även nu pröva H 0 : µ = 5. med samma teststorhet t 0. Nu är sum c20+sum c21 antalet gånger nollhypotesn förkastats för de 1000 mmätseriernamed µ = 6, d.v.s. ett värde från mothypotesen. Med hjälp av y = sum c20+sum c21 kan man beräkna ett approximativt värde ˆγ på styrkan, då µ = 6 och σ = 1.2. Det sanna värdet på styrkan får man via Stat/Power and sample size/1-sample t. Är Du nöjd med styrkan i det här fallet? Fyll i redovisningsbladet. OBS! Att styrkan är γ innebär, att om man samlar in sexton mätvärden, då µ är 6, och genomför testet ovan, så är sannolikheten att H 0 förkastas lika med γ. Det är bara när H 0 förkastas som man märker att något hänt med µ, så man vill att denna sannolikhet ska vara stor. 6

REDOVISNINGSBLAD Fyll i namn och personnr med bläck. 1)... 2)... Du ska även kunna visa upp analyserna för de olika uppgifterna som utskrift eller i datorn. UPPGIFT 1 Frekvenserna för de olika resultaten är f 1 =...... f 2 =...... f 3 =...... f 4 =...... f 5 =...... f 6 =...... Medelvärdet x =.........; väntevärdet E(X i ) =......... Stickprovsstandardavvikelsen s =.........; standardavvikelsen D(X i ) =............ OK...... UPPGIFT 2 a) Sanna värden: µ =...... respektive σ =...... (Fyll i de värden du valde.) Är du nöjd med plottarna?......... b) Approximativt värde på D( X) :......... samt sant värde på D( X) :......... OK...... UPPGIFT 3 a) Parvisa mätningar eftersom...... b) Modell: D i N(...,...) c) Konfidensintervall I... =... Hjälpvariabel: t(...). d) Slutsats:... OK...... 7

UPPGIFT 4 a) µ 1 =.............................., µ 2 =.............................. b) I µ1 µ 2 =.................. Hjälpvariabel: t(...). Slutsats:..................................................................... c) I uppgift 4 har vi............................................................ medan vi i uppgift 3 har......................................................... UPPGIFT 5 OK...... Låt x vara observation av X där X Bin(n, p). Ställ upp ett 95% konfidensintervall för p. Formel: I p = där ˆp = Det förväntade antalet intervall som missar p om konfidensgraden är 95%:...... a) Värde på npq:...... Antalet intervall som missade parametern då n = 16:...... b) Värde på npq:...... Antalet intervall som missade parametern då n = 80:...... OK...... UPPGIFT 6 a) Förväntat antalet fall då H 0 förkastas:...... ; n=......; tabellvärde c=...... Antalet fall då H 0 förkastats:...... b) Antalet fall då H 0 förkastats:...... ˆγ =...... Sant värde på styrkan: γ =...... OK...... Då alla uppgifterna är godkända ska Du skriva upp Dig på lablistan. 8