MATEMATIK OCH STATISTIK NV1 2005 02 07 UPPSALA UNIVERSITET Matematiska institutionen Silvelyn Zwanzig, Tel. 471 31 84 Laboration med Minitab I denna laboration skall du få stifta bekantskap med ett statistiskt programpaket som heter Minitab. Programmet är ett av många statistiska paket. Andra kända statistiska program är R, S-PLUS, SPSS, STAT-view och SAS. Vi har valt att använda Minitab för att är relativt lätt att arbeta med utan förkunskaper. Det första du skall göra är att starta programpaketet Minitab. När du gjort det visar sig något som ser ut så här. Figur 1: Så här ser det ut då du startat Minitab. I Figur 1 ser du att Minitab visar två fönster. Ett kallas Session och ett kallas Worksheet eller Data. I datafönstret kan du skriva in tal som du vill att Minitab skall bearbeta. Datafönstret används också för att lagra resultat som Minitab räknat fram. Sessionfönstret kan användas för att skriva kommandon till Minitab. I den här
laborationen kommer vi enbart att ge kommandon via menyer, men ett bra sätt att lära sig hur kommandon skrivs i Minitab är att ha kommandospråket aktivt. När du då ger något kommando via en meny så kommer motsvarande skrivna kommando att visas i sessionsfönstret. För att aktivera kommandospråket, se först till att sessionsfönstret är aktivt (klicka på det). Klicka sedan på Editor och välj Enable Commands. 1. Tärningskast Du skall nu få börja med att låta Minitab generera ett datamaterial. Hur kan resultatet av 60 tärningskast se ut? Minitab kan utföra dina tärningskast genom att du utför följande moment. Klicka på rubriken Calc i menyn. Då fälls en rullgardin ned och du kan välja rubriken Random Data genom att klicka på den. En ny rullgardin uppenbaras och du väljer nu alternativet Integer. Om allt är som det skall så visas nu menyn i Figur 2. Figur 2: Fönster efter sekvensen Calc Random Data Integer. Minitab kommer nu att generera lika många tärningskast som du skriver i rutan vid Generate... rows of data. Prova först att göra 60 tärningskast. Resultatet lagras i kolumnen som du skriver i den stora rutan vid Store in column(s). Kolumnen kan anges endera med sin beteckning (C1, C2, C3, osv) eller med ett namn. Om ingen kolumn har det namn som anges kommer Minitab automatiskt att döpa en ledig kolumn till detta namn och spara dina data där. För att verkligen generera tärningskast skriver du värdet 1 vid Minimum value och värdet 6 vid Maximum value och klickar slutligen på OK. Ett sätt att titta på det genererade datamaterialet är att låta Minitab göra en grafisk illustration. Sekvensen Graph Histogram ger dig fönstret i Figur 3.
Figur 3: Fönster efter sekvensen Graph Histogram. Välj Simple, du får då fönstret i Figur 4. Välj den kolumn som du sparat dina tärningsvärden i under Graph variables. Under Data View ska du markera Project lines och av markera Bars. Nu ritar Minitab ett stolpdiagram över ditt datamaterial. Stämmer resultatet med vad du förväntade dig att se? Hur många 1:or, 2:or osv borde det bli? Undersök hur stolpdiagrammet ser ut om du gör 600 tärningskast. Hur blir det vid 6000 tärningskast? Figur 4: Tips: Om man vill få upp den senast använda menyn igen kan man använda kortkommandot Ctrl E. Av en oktaeder går det att göra en 8-sidig tärning. Vad behöver förändras jämfört med vad du gjort ovan? Låt Minitab utföra 100 kast med en 8-sidig tärning.
Vad ändrade du? 2. Egendefinierad sannolikhetsfördelning Nästa datamaterial skall du få bilda utifrån följande sannolikhetsfunktion: 6 (x 2)2 p(x) =, x = 0, 1, 2, 3, 4. 20 Sannolikhetsfunktionen beskriver hur data borde fördela sig teoretiskt. För att generera data från den fördelningen konstaterar vi först att p(0) = 0.10, p(1) = 0.25, p(2) = 0.30, p(3) = 0.25 och p(4) = 0.10. Skriv in följande värden i datafönster i t. ex. kolumn C1 och C2. Observera att Minitab använder decimalkomma och inte decimalpunkt! C1 C2 0 0,10 1 0,25 2 0,30 3 0,25 4 0,10 Generera 50 slumptal från denna fördelning genom att använda sekvensen Calc Random Data Discrete. Vid Values in skriver du in kolumnen där dina möjliga x-värden (0, 1, 2, 3, 4) ligger, och vid Probabilities in anger du kolumnen där sannolikheterna finns. Titta på datamaterialet genom att göra ett stolpdiagram. (Kom ihåg sekvensen Graph Histogram.) Väntevärdet för fördelningen beräknas som E(X) = 4 x=0 xp(x) = 2. Väntevärdet kan tolkas som det värde medelvärdet x närmar sig då antalet observationer går mot oändligheten. Vad blir medelvärdet av dina 50 observationer? Prova sekvensen Stat Basic Statistics Display Descriptive Statistics. Vilket medelvärde x fick du? (Medelvärde heter mean på engelska.) Ligger det nära 2? Generera 500 observationer i stället. Hamnar medelvärdet närmare 2? Hur blir det om du genererar 5000 observationer? Standardavvikelsen för fördelningen beräknas som σ = V ar(x) = E(X 2 ) (EX) 2 1.140 (E(X 2 ) = 4 x 2 p(x) = 5.3). x=0 Den är ett mått på spridningen i sannolikhetsfördelningen för X. I Kapitel 8 i läroboken (sid 102) fick du lära dig att beräkna standardavvikelsen för ett observerat dataset,
1 s = n n 1 i=1 (x i x) 2 (för att inte blanda ihop den med σ borde den heta stickprovsstandardavvikelsen). Stickprovsstandardavvikelsen s är ett mått på spridningen i ett datamaterial. Efter sekvensen Stat Basic Statistics Display Descriptive Statistics kan du hitta värdet s under rubriken StDev. Hur har s ändrats då du ökat antalet observationer från n = 50 till n = 5000? Ligger det i närheten av 1.140? 3. Slumptal från binomialfördelningen Antag att vi tillverkar någon teknisk mojäng. I början av tillverkningen blir det ganska ofta fel, så sannolikheten att en mojäng blir felfri är p = 0.7. Vi vill studera antalet felfria mojänger genom att ta stickprov om n = 10 mojänger åt gången och räkna hur många av dem som är felfria (X). Minitab kan hjälpa oss att generera fiktiva X- värden (dvs antal felfria mojänger av 10 möjliga) om vi noterar att X har fördelningen Bin(n = 10, p = 0.7). Vi vill generera 100 stycken stickprov om 10 mojänger, dvs 100 slumptal från fördelningen Bin(n = 10, p = 0.7). Använd sekvensen Calc Random Data Binomial. Hur tror du att ett stolpdiagram över data borde se ut? Låt Matlab rita upp ett stolpdiagram. Ser det ut som du trodde? Generera nu 100 slumptal från Bin(n = 10, p = 0.3)-fördelningen. Rita gärna ett stolpdiagram över dem. Jämför med resultatet ovan. Hur kan dessa mätvärden tolkas i mojäng -exemplets termer? Vilken effekt har parametern p på resultatet? Vad händer om du varierar n i binomialfördelningen (dvs tar fler eller färre än 10 mojänger åt gången)? Tänk efter först och prova sedan. Prova att generera 1000 slumptal från en binomialfördelning (välj n och p själv). Beräkna medelvärdet x och stickprovsstandardavvikelsen s. Hamnar värdena i närheten av E(X) = np respektive σ = V ar(x) = np(1 p)? 4. Binomialfördelningens sannolikhetsfunktion Det du sett i dina stolpdiagram är inte sannolikhetsfunktionens värden utan hur 100
slumptal från fördelningen råkar fördela sig. För att verkligen se hur sannolikhetsfunktionen till X Bin(n = 10, p = 0.3) ser ut måste du först mata in talen 0, 1, 2,..., 10 i en kolumn. Du kan antingen göra det för hand eller via sekvensen Calc Make Patterned Data Simple Set of Numbers. När detta är klart använder du sekvensen Calc Probability Distributions Binomial och markerar Probability. Lagra data i en ny kolumn med hjälp av Optional storage. För att titta på denna sannolikhetsfunktion i ett stolpdiagram måste du använda en ny sekvens. Utför följden Graph Scatterplot, välj här simple, försök förstå vad som skall vara X och Y. Under Data View ska du markera Project lines. Påminner detta om ditt stolpdiagram över 100 slumptal från X Bin(n = 10, p = 0.3)? Varför blir det skillnad? Utför sekvensen Calc Probability Distributions Binomial igen. Välj n = 10 och p = 0.3 och markera Cumulative probability. Vad har du nu beräknat? 5. Normalfördelningen Förhoppningsvis känner du dig så pass bekant med Minitab så att du nu kan generera 20 slumptal från en normalfördelning med väntevärde µ = 5 och standardavvikelse σ = 2. Du behöver känna till att det engelska ordet mean kan betyda både medelvärde och väntevärde och att standard deviation betyder standardavvikelse. Normalfördelningen är en kontinuerlig fördelning. För att åskådliggöra ett datamaterial från en kontinuerlig fördelning brukar man rita ett histogram. Detta står i lärobokens Kapitel 8. I Minitab görs detta med sekvensen Graph Histogram, välj här simple, under Data View ska du markera Bars. Gör ett histogram över ditt datamaterial med 20 normalfördelade slumptal. Ser det ut som en normalfördelning? Vad ser det ut som? Prova att generera fler normalfördelade slumptal än 20. Hur många behövs det innan ditt histogram ser någorlunda normalfördelat ut? Beräkna medelvärdet x samt stickprovsstandardavvikelsen s i ditt datamaterial. Har x samma värde som µ? Har s samma värde som σ? Varför inte? Fördelningsfunktionen till en N(0, 1)-fördelad slumpvariabel betecknas Φ(x). Den finns sammanställd i Tabell 3 i formelsamlingen och boken. Försök nu att få Minitab
att beräkna värdena som står på första raden i Tabell 3. Sekvensen Calc Probability Distributions Normal kan vara värd att undersöka närmare med valet Cumulative probability. 6. Kombinera normalfördelade slumpvariabler Tiden X det tar att tillverka en vaniljglasspinne anses vara normalfördelad med väntevärde 3 sek och varians 0.01 sek 2. Generera 5000 slumptal från fördelningen N(3, 0.01). (Om variansen är 0.01, vad är då standardavvikelsen? Kom ihåg att Minitab frågar efter standardavvikelsen, inte variansen.) Lägg resultatet i kolumn C1 i datafönstret. Titta på datamaterialet med hjälp av ett histogram. Tiden Y det sedan tar att doppa glasspinnarna i choklad är normalfördelad med väntevärdet 0.5 sek och variansen 0.01 sek 2. Generera därför 5000 chokladdoppningstider Y, lägg dessa i kolumn C2 och titta på dem med ett histogram. Vad är det för skillnad mellan detta och det förra histogrammet? För att undersöka hur lång tid hela processen tar skall du nu addera slumptalen i kolumn C1 och C2. Detta görs enklast med sekvensen Calc Calculator. Skriv in C1+C2 och lägg resultatet i kolumn C3. Hur tror du ett histogram över datamaterialet skulle se ut? Titta på datamaterialet i kolumn C3 med hjälp av ett histogram. Vilken fördelning tror du slumpvariabeln Z = X + Y har om X och Y är oberoende och normalfördelade? Adderar man oberoende normalfördelade slumpvariabler får man nya normalfördelade slumpvariabler. Driftkostnaden för glassmaskinen är 10 öre per sekund, och för chokladmaskinen 5 öre per sekund. Dessutom kostar materialet (glasspinnen, glassen och chokladen) sammanlagt 50 öre. Hur stort tror du att väntevärdet för den totala produktionskostnaden är? Gissa först, studera sedan histogram! Generellt kan man beräkna väntevärdet för en slumpvariabel Y = ax 1 + bx 2 + c med formeln E(Y ) = E(aX 1 + bx 2 + c) = E(aX 1 ) + E(bX 2 ) + E(c) = ae(x 1 ) + be(x 2 ) + c.
Motsvarande formel för variansen är V ar(y ) = V ar(ax 1 + bx 2 + c) = V ar(ax 1 ) + V ar(bx 2 ) + V ar(c) = a 2 V ar(x 1 ) + b 2 V ar(x 2 ). Beräkna variansen och standardavvikelsen för produktionskostnaden med formeln. Stämmer resultatet för din stickprovsstandardavvikelse i Minitab? (Använd sekvensen Stat Basic Statistics Display Descriptive Statistics.) Vilken blir fördelningen för produktionskostnaden (inklusive parametrarna)?