DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). DEL 1: BESKRIVANDE STATISTIK MED MINITAB Öppna Start-menyn igen. Välj All Programs och sök upp alternativet Minitab Solutions. Detta val öppnar ytterligare en undermeny, där du väljer alternativet Minitab 18. Ett liknande fönster som nedan öppnas på skärmen: 1
Det du ser är två delfönster: det övre heter Session och det nedre Worksheet. I Session-fönstret presenteras resultaten av dina analyser. I Worksheet-fönstret hamnar (så gott som) alla data som matas in eller skapas i programmet. Worksheet-fönstret är uppbyggt med ett stort antal kolumner som numreras C1, C2, etc. Minitab är i sina kommandon uppbyggt runt analys av kolumner, men har också med tiden utvecklat vissa operationer för rader. Till skillnad från Excel är inte ett Worksheet i Minitab något kalkylblad. Det går alltså inte att flytta eller kopiera celler hur som helst, eller införa kalkylbladsformler. För att kunna skriva något i Worksheet-fönstret krävs att det aktiveras och det gör ni genom att klicka på det, lämpligen i titelraden (den blå). BESKRIVANDE MÅTT OCH LÅDAGRAM Klicka nu i Worksheet-fönstret och skriv in följande värden i den första kolumnen (C1). Börja i raden med nummer 1 (längst t v): 2, 4, 14, 3, 0, 1, 8, 12, 1, 3 (kommatecknen skall inte skrivas in). Gå nu längst upp i Minitab-fönstret och öppna menyn med titel Stat. I denna meny finns en stor mängd av alla möjliga statistiska procedurer av vilka vi endast skall använda några i denna första kurs, men under din utbildnings gång kommer du att stöta på de flesta av dem. Välj alternativet Basic Statistics, varvid följande undermeny öppnas: 2
Välj alternativet Display Descriptive Statistics (dvs beskrivande mått) och följande fönster öppnas på skärmen: Detta fönster visar hur en typisk s k dialogruta i Minitab kan se ut. Längst till vänster finns ett vitt fält i vilket det står C1 överst. Detta fält är en lista över alla kolumner som är aktiva i Minitab. Ni har ju skrivit in värden i kolumn C1, men ingen annanstans och följaktligen är endast just kolumnen C1 aktiv. Fältet till höger har rubriken Variables. Till detta fält skall du välja de kolumner (variabler) du vill göra analyser på (i detta fall deskriptiva mått). Det gör du genom att endera markera de kolumner du vill analysera i listan till höger och sedan klicka på knappen Select eller 3
dubbelklicka på de kolumner du vill analysera. Gör något av detta med C1 så kommer du att se att den hamnar i listan till höger. Under det högra fältet finns en ruta märkt By variable: följt av ett mindre vitt fält. Den används för att sortera variablerna efter en kolumn som anger någon form av klassificering, men vi väntar ett slag med detta. Klicka istället på knappen Graphs Markera rutan Boxplot of data (lådagram) och klicka på OK. Klicka sedan på OK i den första dialogrutan. Observera nu vad som händer i Session-fönstret samtidigt som ett lådagram dyker upp på skärmen. Du får flytta på det senare för att se innehållet i Session-fönstret. Där bör du ha fått följande utskrift: Descriptive Statistics: C1 Statistics Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum C1 10 0 4,80 1,54 4,87 0,00 1,00 3,00 9,00 14,00 och lådagrammet bör se ut så här: Boxplot of C1 4
Titta nu på utskriften i Session-fönstret. Där listas för variabeln (kolumnen) C1 ett antal beskrivande mått (Descriptive Statistics). Först anges antal värden i C1 betecknat N som här är 10. Vi ser medeltalet (Mean) som är 4.8 och medianen (Median) som är 3. StDev är standardavvikelse, beräknad enligt formeln med n-1 i nämnaren, SEMean är ett speciellt spridningsmått för själva medeltalet: medelfelet, Minimum, Maximum, Q1 som står för första kvartilen (25e percentilen) och Q3 som står för tredje kvartilen (75e percentilen). Alla dessa beskrivande mått är alltså förvalda av Minitab och utgör en standarduppsättning, som väl ganska ofta efterfrågas. Vill man beräkna ytterligare beskrivande mått måste detta göras mer manuellt. Vi återkommer till det senare. Lådagrammet lämnar kanske inte så mycket att kommentera. Dock bör sägas att detta diagram inte kan hanteras så enkelt som med ett diagram i Excel. Det går t ex inte att ändra på skalor eller ändra indata till diagrammet. Nu skall du pröva att göra ett lådagram direkt. Öppna menyn Graph längst upp i Minitab-fönstret. Välj alternativet Boxplot 5
och tryck OK så får du fram dialogrutan Kolumnlistan med Select till vänster ser ut och fungerar som tidigare. Välj kolumn C1 så att den hamnar i fältet Graph variables. Välj tills vidare inget mer utan klicka bara på OK. Resultatet blir följande lådagram: 6
Det kan ju kännas litet trist med variabelnamnet C1. Låt oss anta att de data ni matat in är åldrarna hos en barnaskara till ett ovanligt produktivt par. Ni kan då t ex välja namnet ålder för denna kolumn. Gå då till Worksheet-fönstret igen och klicka i den rad som ligger mellan det första värdet och raden med alla kolumnnummer. Detta är rubrikraden för kolumnerna och i denna kan man skriva in valfria rubriker för kolumnerna. Dock kan inte samma namn användas för flera kolumner. Skriv in Ålder i rubriken för C1: Gör nu om proceduren med lådagrammet. Det räcker att välja Boxplot från Graph-menyn och sedan klicka på OK, men observera att i listan över kolumner har nu C1 försetts med sin rubrik. Rubriker är praktiska när man han många aktiva kolumner och vill vara säker på att man väljer rätt kolumn i en dialogruta. 7
För att spara allt arbete man gjort, t ex för att enkelt kunna återuppta det senare, krävs att man skapar en s k Projekt-fil. Välj från File-menyn alternativet Save Project As Du får då upp en dialogruta liknande den tidigare, men här finns bara ett filformat, MPJ (som står för Minitab Project). Skriv in ett lämpligt filnamn (t ex syskon) och klicka på Save. Den fil som då skapas syns som vanligt i Windows Explorer, men observera att den är betydligt större (i minnesutrymme) än de andra. Detta kan vara värt att komma ihåg om man behöver skicka projektfiler mellan varandra. De kan bli rätt stora och man tjänar på att rensa bort onödiga fönster och kolumner innan man sparar arbetet. Avsluta nu Minitab genom att välja Exit från File-menyn. Svara Nej på eventuella frågor. Starta sedan Minitab igen. Du är nu åter i ett tomt arbetsfält, men denna gång skall du hämta det arbete ni nyss sparade. Välj från File-menyn alternativet Open Project. Se till att du hamnar i den katalog där du sparade den senaste projektfilen (normalt din hemkatalog). Dubbelklicka på filen med det namn du gav (syskon) och du kommer att se att allt du tidigare gjorde laddas in igen. DEL 2: SANNOLIKHETSLÄRA I MINITAB I denna övning skall du med hjälp av ett så kallat makro, en kort programsekvens, simulera ett försök och med hjälp av detta uppskatta sannolikheter för ett antal händelser (och kombinationer/betingningar på dessa). Dessa sannolikheter skall du sedan beräkna teoretiskt med hjälp av de modeller som ligger till grund för simuleringarna. För att kunna köra makrot måste du förbereda Minitab för att ta emot kommandosekvenser i Sessionfönstret. Det gör du genom att klicka i Sessionfönstret, välja menyn Editor och markera alternativet Show Command Line. EXPERIMENT På kurshemsidan finns makrot events.mac. Ladda hem detta och spara den i enheten med ditt användarnamn. Se sedan till att Minitab använder detta som arbetsmapp genom att i Sessionfönstret ge kommandot cd enheten med ditt användarnamn. TVÅ HÄNDELSER Events.mac genomför ett antal oberoende slumpmässiga försök som vart och ett kan resultera i minst en av händelserna A och B. Makrot anropas med kommandot MTB > %events c1 c2 n där C1 och C2 kan bytas mot i princip vilka kolumner som helst (det viktiga är att två kolumner anges) och n är det antal försök man vill ha. Resultatet kommer att ges i just dessa två kolumner som automatiskt får rubrikerna A och B. I varje kolumn står det en etta (1) om motsvarande händelse har inträffat och en nolla (0) om den inte har inträffat. Pröva genom att ge kommandot %events c1 c2 3 Du skall nu ha fått data motsvarande tre rader i C1 och C2 från vilka du kan avläsa vad som inträffade i de tre försöken. 8
Din uppgift är att med hjälp av makrot genomföra ett stort antal försök från vilka du skall kunna: a) uppskatta sannolikheten att A inträffar, dvs. P(A) b) uppskatta sannolikheten att B inträffar, dvs. P(B) c) uppskatta sannolikheten att båda inträffar, dvs. P(A B) = P(A och B) d) uppskatta sannolikheten att minst en av dem inträffar, dvs. P(A B) = P(A eller B) e) uppskatta sannolikheten att A inträffar betingat av att B har inträffat, dvs. P(A B) f) uppskatta sannolikheten att B inträffar betingat av att A har inträffat, dvs. P(B A) g) bedöma om A och B kan vara oberoende händelser Börja inte försöka lösa dessa uppgifter ännu. Det kan vara lämpligt att genomföra 10 000 försök. Detta tar i och för sig en stund men inte längre än att du orkar vänta (det är alltså inget fel med att det dröjer). Efter att försöken gjorts (och ni alltså har era data i C1 och C2) kan ni ha hjälp av följande: Kommandot mean c1 beräknar medeltalet av alla värden i C1. Eftersom värdena är ettor och nollor kommer detta medelvärde att vara detsamma som proportionen ettor i kolumnen, dvs. en uppskattning av sannolikheten för A. Fundera på vad du får för resultat i kolumnen C3 om du ger kommandot MTB > let c3=c1*c2 Kan du använda C3 för att lösa någon av uppgifterna a) g)? Fundera på vad du får för resultat i kolumnen C4 om du ger kommandot MTB > let c4=c1+c2 Kan du använda C4 för att lösa någon av uppgifterna a) g)? Prova att ge kommandot: MTB > table c1 c2; SUBC> counts; SUBC> rowpercents; SUBC> colpercents; SUBC> totpercents. Alternativt kan du menyvägen välja Stat Tables Cross Tabulation and Chi-Square och bocka för rutorna Counts, Row percents, Column percents och Total percents. 9
DEL 3: STATISTISK INFERENS MED MINITAB Starta ett nytt projekt i Minitab genom FILE NEW MINITAB PROJECT. Vi skall nu utnyttja ett hyggligt stort datamaterial. Datamaterialet finns i en fil inlagd på kurshemsidan i Excelformat och heter HUS_rensad.xls. Öppna Excelfilen och kopiera hela datafilen. Ställ dig sedan högst upp (i den grå raden i kolumn C1) i Minitabs datablad och klistra in. Datamaterialet innehåller 11 kolumner och antalet observationer (rader) är 503. Datamaterialet avser försäljning av bostadshus i en stad i USA år 2002, och man var främst intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver huset och dess omgivning. I filen ingår följande variabler i tur och ordning. 1. Löpnummer (identifikationsnummer) 2. Försäljningspris (dollar) 3. Bostadsyta (kvadratfot) 4. Antal sovrum 5. Antal badrum 6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars 7. Antal bilar som garaget är konstruerat för 8. Förekomst av pool, 1 = pool finns, 0 annars 9. Byggår 10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg 11. Tomtstorlek (kvadratfot) I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att beräkna konfidensintervall. UPPGIFT 1 Vi ska börja med att granska data. a) Rita lämpliga diagram för att studera variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitets fördelning. Graph b) Beräkna lämpliga beskrivande mått för variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitet. Basic Statistics Display Descriptive Statistics UPPGIFT 2 a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Beräkna ett 99%igt konfidensintervall för det sanna försäljningsmedelvärdet. Använd Stat Basic Statistics 1-Sample t (ändra konfidensgraden från 95 till 99 under Options). Studera konfidensintervallet. Hur tolkar du det? 10
b) Vi vill nu göra ett enkelsidigt intervall, där vi vill uttala oss om att medelvärdet är större än 250 000. Beräkna ett 99%igt enkelsidigt konfidensintervall genom att göra lämplig justering under Options. Hur tolkar du intervallet? UPPGIFT 3 Vi vill nu bilda konfidensintervall för försäljningspriset för dels villor med hög konstruktionskvalitet (kod 1) och dels de som inte har denna kvalitet (kod 2 och 3). a) Vi måste därför koda om kvalitetsvariabeln (den näst sista kolumnen) till en ny variabel där t.ex. 1 kan betyda hög kvalitet medan 0 betyder att kvaliteten är lägre. För att göra denna omkodning kan du utnyttja fliken Data och under den Code-Numeric to Numeric. Kolla att den nya kolumnen fick bara värdena 0 och 1 och att det ser korrekt ut. Ge den ett lämpligt namn. b) Vi vill nu ha två kolumner, där den ena innehåller försäljningspriser för alla objekt med kvalitet 1 och den andra priserna för objekt med kvalitet 0. Utnyttja under fliken Data kommandot Copy-Columns to Columns. Ange i rutan Copy from columns Försäljningspris och tryck sedan på knappen Subset the Data. Markera Rows that match och tryck sedan på knappen Condition. Fyll nu i rutan som öppnar sig så att Minitab kopierar de rader där den nya kvalitetsvariabeln antar värdet 1. Tryck OK och sedan OK igen. Under rutan Store Copied Data in Columns, välj In current worksheet, in columns och skriv sedan in den kolumn som ni vill spara de utsorterade försäljningspriserna i. Tryck OK. Gör om för kvalitet 0. Sätt lämpliga rubriker på kolumnerna. c) Beräkna ett 95% konfidensintervall för det förväntade försäljningspriset vid kvalitet 1 och vid kvalitet 0. Utnyttja t-fördelningen och observera att båda beräkningarna kan göras i samma körning. Studera resultaten. Verkligen stor skillnad mellan intervallen, eller hur? (högst naturligt) UPPGIFT 4 Vi går nu över till att göra konfidensintervall för andelar. Vi är intresserade av förekomsten av pool och vill se om denna förekomst är olika beroende på husens kvalitet. Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion. Beräkna ett 99% konfidensintervall för andelen hus med pool. Tolka resultatet. DEL 4: CENTRALA GRÄNSVÄRDESSATSEN (VID MÅN AV TID) Enligt Centrala gränsvärdessatsen (CGS) skall en summa av slumpvariabler bli ungefär normalfördelad om antalet variabler i summan är tillräckligt stort. Vidare gäller att dessa variabler skall vara av samma sort, man brukar säga likafördelade, och inte bero av varandra. Det enklaste exemplet på detta är att man gjort ett urval om n observationer. Var och en av dessa är som regel oberoende tagna. Detta gäller om populationen är oändligt stor eller åtminstone mycket stor. Varje enskild observation är ett oskrivet kort och detta brukar modelleras med att 11
det värde man får är en observation av en slumpvariabel, som gäller enbart just för denna observation. Antag t ex att vi skall göra ett urval av n personer bosatta i Sverige och undersöka hur många syskon de har. För varje urvalsdragning är antalet syskon en slumpvariabel och det innebär att vi har totalt n slumpvariabler i vårt urval. Innan vi har valt en person och frågat honom/henne om antalet syskon vet vi ju inte hur många de är och det gör detta till en slumpvariabel. Om vi nu vill göra en bedömning av det totala antalet angivna syskon i vårt urval kan vi skriva detta som n i=1 X i där X 1 är en slumpvariabel som mäter antal syskon för den första utvalda personen i vårt urval, X 2 är en slumpvariabel som mäter antal syskon för den andra utvalda personen i vårt urval o.s.v. för var och en av de n personerna. Denna summa är nu enligt CGS ungefär normalfördelad med väntevärde n och standardavvikelse n där och är medeltal och standardavvikelse för antalet syskon i hela populationen, dvs bland antalet bosatta i Sverige, om n är tillräckligt stor. (Vi bryr oss i detta fall inte om det faktum att två eller flera personer i populationen kan vara syskon och därmed ha lika många syskon, vilket egentligen komplicerar det hela men kan bedömas vara ett mindre problem eftersom populationen är så stor.) Vidare gäller att urvalsmedeltalet av antalet syskon, dvs X 1 n n X i i 1 blir ungefär normalfördelad med väntevärde och standardavvikelse σ/ n. Man kan (och ska) naturligtvis lita på dessa resultat, eftersom det handlar om ganska lång tids forskning och matematiskt ovedersägliga resultat, men det är ändå nyttigt att empiriskt studera hur bra denna approximation är och vad ett stort n kan vara. Börja med att mata in värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 och 10 i kolumn C1 i Minitab. Antag att detta är det antal syskon som kan förekomma i en viss population, dvs ingen i populationen har fler än 10 syskon, och det finns de som inte har några syskon alls. Antag vidare att följande proportioner gäller: Antal syskon Frekvens i populationen 0 16% 1 35% 2 29% 3 10% 4 6% 5 2% 12
6 0,5% 7 0,5% 8 0,4% 9 0,4% 10 0,2% Med hjälp av denna frekvenstabell, räkna för hand ut medeltalet,, och standardavvikelsen,, i populationen av antalet syskon. Notera dessa värden. Lägg nu proportionerna som decimaltal i kolumnen C2, dvs. mata in värdena 0,16, 0,35 etc. i C2. Antag nu att vi skall göra ett urval om 10 personer från populationen och bestämma hur många syskon var och en av dessa har. Via slumpvariabelbegreppet kan detta utföras genom att slumpmässigt generera 10 observationer från den slumpvariabel som antar värdena i C1 med sannolikheter motsvarande värdena i C2. Praktiskt kan vi göra detta med kommandot random enligt följande: MTB > random 10 c3; SUBC> discrete c1 c2. Kommandot innebär att vi slumpar 10 observationer från kolumnen C1 och lägger dessa i C3 och att slumpningen görs så att varje värde dras med en sannolikhet som motsvarar värdet i C2. Ni bör därför få observationer i C3 som till större delen är något av värdena 0, 1, 2, 3 och 4, eftersom dessa värden har betydligt högre sannolikheter än de övriga (motsvarar högre frekvenser i populationen). Beräkna sedan medelvärdet av värdena i C3 och lagra detta i första raden av C4 med följande kommando: MTB > let c4(1)=mean(c3) Stämmer detta medelvärde någorlunda överens med medeltalet i populationen? Borde det göra det? För att se hur väl CGS stämmer måste vi på något sätt uppskatta samplingfördelningen hos detta urvalsmedeltal och då krävs att vi upprepar urvalsförfarandet ett stort antal gånger. Kunde vi till exempel skapa 10000 urval av detta slag borde motsvarande urvalsmedeltal ge en hyfsad bild över hur ett urvalsmedeltal kan variera. Nu är det ganska arbetskrävande att upprepa ovanstående 10000 gånger varför det åter är dags för ett makro. Öppna Notepad (Start All programs Accessories Notepad) och skriv in följande rader: 13
gmacro syskon_cgs do k20=1:10000 let c5(1)=k20 random 10 c3; discrete c1 c2. let c4(k20)=mean(c3) enddo endmacro Studera raderna i detta makro och försök förstå dem. Vad gör till exempel raden let c5(1)=k20? Var framgår det att det är 10000 urval som skall göras? Var beräknas medeltalet? I vilken kolumn sparar vi de 10000 medeltalen? Spara makrot (välj Save as type: All files ) med namnet syskon_cgs.mac på enheten med ditt användarnamn. Se till att Minitabs arbetsmapp är din hemarea genom att ge kommandot cd enheten med ditt användarnamn (detta behöver du bara göra en gång under en och samma Minitab-session). Kör nu makrot med kommandot %syskon_cgs. Det tar en liten stund för Minitab att göra alla 10000 urval. När makrot är klart ska du ha 10000 medeltal i C4. Gör ett histogram över dessa. Ser histogrammet ut att motsvara en normalfördelning? Beräkna vidare medelvärdet och standardavvikelsen av värdena i C4 med hjälp av kommandona mean och stdev. Verkar medelvärdet överensstämma någorlunda med populationsmedeltalet? Verkar standardavvikelsen överensstämma någorlunda med 10? Teorin säger ju att dessa överensstämmelser skall finnas, och detta gäller oavsett om populationen är normalfördelad eller ej. Redigera makrot så att du i tur och ordning får urvalsstorlekarna a) 30 observationer b) 50 observationer c) 100 observationer Kör makrot för varje fall och jämför fördelningsform, medelvärde och standardavvikelse med motsvarande värden i den teoretiska normalfördelningen. Försök säga något om från och med vilken urvalsstorlek CGS verkar fungera. Spara Minitab-projektet under FILE SAVE PROJECT AS... 14