DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS.

Relevanta dokument
DATORÖVNING 2: STATISTISK INFERENS.

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

DATORÖVNING 3: MER OM STATISTISK INFERENS.

DATORÖVNING 3: EXPERIMENT MED

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

DATORÖVNING 3: MER OM STATISTISK INFERENS.

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

Datorövning 1 Introduktion till Minitab och Excel

Laboration med Minitab

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

DATORÖVNING 2: TABELLER OCH STANDARD-

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Datorövning 1 Enkel linjär regressionsanalys

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Marknadsinformationsmetodik Inlämningsuppgift

*****************************************************************************

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Obligatorisk uppgift, del 1

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Introduktion och laboration : Minitab

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Datorövning 2 Multipel regressionsanalys, del 1

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

En introduktion till och första övning for Excel

LABORATION 1. Syfte: Syftet med laborationen är att

TAMS28 DATORÖVNING VT1

Marknadsinformationsmetodik Inlämningsuppgift

Intro till SPSS Kimmo Sorjonen (0811)

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

DATORÖVNING 1: INTRODUKTION TILL

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Introduktion till. Minitab version 14

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

2.1 Minitab-introduktion

Arbeta med normalfördelningar

Richard Öhrvall, 1

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

Mata in data i Excel och bearbeta i SPSS

Beskrivande statistik

Datoro vning 1-2 Statistisk analys av kodade svar

Slumpmässiga urval med Minitab LWn /

Datorövning 5 Exponentiella modeller och elasticitetssamband

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Datorövning 2 Statistik med Excel (Office 2007, svenska)

F9 SAMPLINGFÖRDELNINGAR (NCT

Lektionsanteckningar 11-12: Normalfördelningen

Medelvärde, median och standardavvikelse

Laborationer i statistik för A:1, Lab 1

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

Handledning för konstruktion av tabeller och diagram med Excel

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Föreläsning G60 Statistiska metoder

Inledning till OpenOffice Calculator Datorlära 2 FK2005

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Kom igång. Readyonet Lathund för enkelt admin. Logga in Skriv in adressen till din webbsida följt av /login. Exempel:

Datorövning 1 Calc i OpenOffice 1

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

Laboration 1 Introduktion till Visual Basic 6.0

Hämtning av sekundärdata och introduktion till Excel

Föreläsning G60 Statistiska metoder

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Laboration 3: Urval och skattningar

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Grundläggande statistik kurs 1

DATORÖVNING 4: DISKRETA

Introduktion till statistik för statsvetare

Skoladmin kom igång! Innehåll

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

F3 Introduktion Stickprov

INSPIRA. Microsoft. Excel 2007 Grunder

Datorövning 1: Fördelningar

Automatisera uppgifter med Visual Basic-makron

Laboration 1: Introduktion till R och Deskriptiv statistik

Statistik för Brandingenjörer. Laboration 1

samma sätt. Spara varje uppgift som separat Excelfil. För att starta Excel med Resampling-pluginet, välj Resampling Stats for Excel i Start-menyn.

Excel-guide. Introduktion

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Laboration 2 Inferens S0005M VT18

Datorlaboration 2 Konfidensintervall & hypotesprövning

Valresultat Riksdagen 2018

2 Dataanalys och beskrivande statistik

Att göra före det schemalagda labpasset.

STOCKHOLMS UNIVERSITET. Handbok 2. Funktionaliteter moveon 4

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

Information efter genomgång av Microsoft Excel 2010

Laboration 2 multipel linjär regression

TMS136. Föreläsning 7

Kapitel 15: Data/Matrix Editor

Transkript:

DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). DEL 1: BESKRIVANDE STATISTIK MED MINITAB Öppna Start-menyn igen. Välj All Programs och sök upp alternativet Minitab Solutions. Detta val öppnar ytterligare en undermeny, där du väljer alternativet Minitab 18. Ett liknande fönster som nedan öppnas på skärmen: 1

Det du ser är två delfönster: det övre heter Session och det nedre Worksheet. I Session-fönstret presenteras resultaten av dina analyser. I Worksheet-fönstret hamnar (så gott som) alla data som matas in eller skapas i programmet. Worksheet-fönstret är uppbyggt med ett stort antal kolumner som numreras C1, C2, etc. Minitab är i sina kommandon uppbyggt runt analys av kolumner, men har också med tiden utvecklat vissa operationer för rader. Till skillnad från Excel är inte ett Worksheet i Minitab något kalkylblad. Det går alltså inte att flytta eller kopiera celler hur som helst, eller införa kalkylbladsformler. För att kunna skriva något i Worksheet-fönstret krävs att det aktiveras och det gör ni genom att klicka på det, lämpligen i titelraden (den blå). BESKRIVANDE MÅTT OCH LÅDAGRAM Klicka nu i Worksheet-fönstret och skriv in följande värden i den första kolumnen (C1). Börja i raden med nummer 1 (längst t v): 2, 4, 14, 3, 0, 1, 8, 12, 1, 3 (kommatecknen skall inte skrivas in). Gå nu längst upp i Minitab-fönstret och öppna menyn med titel Stat. I denna meny finns en stor mängd av alla möjliga statistiska procedurer av vilka vi endast skall använda några i denna första kurs, men under din utbildnings gång kommer du att stöta på de flesta av dem. Välj alternativet Basic Statistics, varvid följande undermeny öppnas: 2

Välj alternativet Display Descriptive Statistics (dvs beskrivande mått) och följande fönster öppnas på skärmen: Detta fönster visar hur en typisk s k dialogruta i Minitab kan se ut. Längst till vänster finns ett vitt fält i vilket det står C1 överst. Detta fält är en lista över alla kolumner som är aktiva i Minitab. Ni har ju skrivit in värden i kolumn C1, men ingen annanstans och följaktligen är endast just kolumnen C1 aktiv. Fältet till höger har rubriken Variables. Till detta fält skall du välja de kolumner (variabler) du vill göra analyser på (i detta fall deskriptiva mått). Det gör du genom att endera markera de kolumner du vill analysera i listan till höger och sedan klicka på knappen Select eller 3

dubbelklicka på de kolumner du vill analysera. Gör något av detta med C1 så kommer du att se att den hamnar i listan till höger. Under det högra fältet finns en ruta märkt By variable: följt av ett mindre vitt fält. Den används för att sortera variablerna efter en kolumn som anger någon form av klassificering, men vi väntar ett slag med detta. Klicka istället på knappen Graphs Markera rutan Boxplot of data (lådagram) och klicka på OK. Klicka sedan på OK i den första dialogrutan. Observera nu vad som händer i Session-fönstret samtidigt som ett lådagram dyker upp på skärmen. Du får flytta på det senare för att se innehållet i Session-fönstret. Där bör du ha fått följande utskrift: Descriptive Statistics: C1 Statistics Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum C1 10 0 4,80 1,54 4,87 0,00 1,00 3,00 9,00 14,00 och lådagrammet bör se ut så här: Boxplot of C1 4

Titta nu på utskriften i Session-fönstret. Där listas för variabeln (kolumnen) C1 ett antal beskrivande mått (Descriptive Statistics). Först anges antal värden i C1 betecknat N som här är 10. Vi ser medeltalet (Mean) som är 4.8 och medianen (Median) som är 3. StDev är standardavvikelse, beräknad enligt formeln med n-1 i nämnaren, SEMean är ett speciellt spridningsmått för själva medeltalet: medelfelet, Minimum, Maximum, Q1 som står för första kvartilen (25e percentilen) och Q3 som står för tredje kvartilen (75e percentilen). Alla dessa beskrivande mått är alltså förvalda av Minitab och utgör en standarduppsättning, som väl ganska ofta efterfrågas. Vill man beräkna ytterligare beskrivande mått måste detta göras mer manuellt. Vi återkommer till det senare. Lådagrammet lämnar kanske inte så mycket att kommentera. Dock bör sägas att detta diagram inte kan hanteras så enkelt som med ett diagram i Excel. Det går t ex inte att ändra på skalor eller ändra indata till diagrammet. Nu skall du pröva att göra ett lådagram direkt. Öppna menyn Graph längst upp i Minitab-fönstret. Välj alternativet Boxplot 5

och tryck OK så får du fram dialogrutan Kolumnlistan med Select till vänster ser ut och fungerar som tidigare. Välj kolumn C1 så att den hamnar i fältet Graph variables. Välj tills vidare inget mer utan klicka bara på OK. Resultatet blir följande lådagram: 6

Det kan ju kännas litet trist med variabelnamnet C1. Låt oss anta att de data ni matat in är åldrarna hos en barnaskara till ett ovanligt produktivt par. Ni kan då t ex välja namnet ålder för denna kolumn. Gå då till Worksheet-fönstret igen och klicka i den rad som ligger mellan det första värdet och raden med alla kolumnnummer. Detta är rubrikraden för kolumnerna och i denna kan man skriva in valfria rubriker för kolumnerna. Dock kan inte samma namn användas för flera kolumner. Skriv in Ålder i rubriken för C1: Gör nu om proceduren med lådagrammet. Det räcker att välja Boxplot från Graph-menyn och sedan klicka på OK, men observera att i listan över kolumner har nu C1 försetts med sin rubrik. Rubriker är praktiska när man han många aktiva kolumner och vill vara säker på att man väljer rätt kolumn i en dialogruta. 7

För att spara allt arbete man gjort, t ex för att enkelt kunna återuppta det senare, krävs att man skapar en s k Projekt-fil. Välj från File-menyn alternativet Save Project As Du får då upp en dialogruta liknande den tidigare, men här finns bara ett filformat, MPJ (som står för Minitab Project). Skriv in ett lämpligt filnamn (t ex syskon) och klicka på Save. Den fil som då skapas syns som vanligt i Windows Explorer, men observera att den är betydligt större (i minnesutrymme) än de andra. Detta kan vara värt att komma ihåg om man behöver skicka projektfiler mellan varandra. De kan bli rätt stora och man tjänar på att rensa bort onödiga fönster och kolumner innan man sparar arbetet. Avsluta nu Minitab genom att välja Exit från File-menyn. Svara Nej på eventuella frågor. Starta sedan Minitab igen. Du är nu åter i ett tomt arbetsfält, men denna gång skall du hämta det arbete ni nyss sparade. Välj från File-menyn alternativet Open Project. Se till att du hamnar i den katalog där du sparade den senaste projektfilen (normalt din hemkatalog). Dubbelklicka på filen med det namn du gav (syskon) och du kommer att se att allt du tidigare gjorde laddas in igen. DEL 2: SANNOLIKHETSLÄRA I MINITAB I denna övning skall du med hjälp av ett så kallat makro, en kort programsekvens, simulera ett försök och med hjälp av detta uppskatta sannolikheter för ett antal händelser (och kombinationer/betingningar på dessa). Dessa sannolikheter skall du sedan beräkna teoretiskt med hjälp av de modeller som ligger till grund för simuleringarna. För att kunna köra makrot måste du förbereda Minitab för att ta emot kommandosekvenser i Sessionfönstret. Det gör du genom att klicka i Sessionfönstret, välja menyn Editor och markera alternativet Show Command Line. EXPERIMENT På kurshemsidan finns makrot events.mac. Ladda hem detta och spara den i enheten med ditt användarnamn. Se sedan till att Minitab använder detta som arbetsmapp genom att i Sessionfönstret ge kommandot cd enheten med ditt användarnamn. TVÅ HÄNDELSER Events.mac genomför ett antal oberoende slumpmässiga försök som vart och ett kan resultera i minst en av händelserna A och B. Makrot anropas med kommandot MTB > %events c1 c2 n där C1 och C2 kan bytas mot i princip vilka kolumner som helst (det viktiga är att två kolumner anges) och n är det antal försök man vill ha. Resultatet kommer att ges i just dessa två kolumner som automatiskt får rubrikerna A och B. I varje kolumn står det en etta (1) om motsvarande händelse har inträffat och en nolla (0) om den inte har inträffat. Pröva genom att ge kommandot %events c1 c2 3 Du skall nu ha fått data motsvarande tre rader i C1 och C2 från vilka du kan avläsa vad som inträffade i de tre försöken. 8

Din uppgift är att med hjälp av makrot genomföra ett stort antal försök från vilka du skall kunna: a) uppskatta sannolikheten att A inträffar, dvs. P(A) b) uppskatta sannolikheten att B inträffar, dvs. P(B) c) uppskatta sannolikheten att båda inträffar, dvs. P(A B) = P(A och B) d) uppskatta sannolikheten att minst en av dem inträffar, dvs. P(A B) = P(A eller B) e) uppskatta sannolikheten att A inträffar betingat av att B har inträffat, dvs. P(A B) f) uppskatta sannolikheten att B inträffar betingat av att A har inträffat, dvs. P(B A) g) bedöma om A och B kan vara oberoende händelser Börja inte försöka lösa dessa uppgifter ännu. Det kan vara lämpligt att genomföra 10 000 försök. Detta tar i och för sig en stund men inte längre än att du orkar vänta (det är alltså inget fel med att det dröjer). Efter att försöken gjorts (och ni alltså har era data i C1 och C2) kan ni ha hjälp av följande: Kommandot mean c1 beräknar medeltalet av alla värden i C1. Eftersom värdena är ettor och nollor kommer detta medelvärde att vara detsamma som proportionen ettor i kolumnen, dvs. en uppskattning av sannolikheten för A. Fundera på vad du får för resultat i kolumnen C3 om du ger kommandot MTB > let c3=c1*c2 Kan du använda C3 för att lösa någon av uppgifterna a) g)? Fundera på vad du får för resultat i kolumnen C4 om du ger kommandot MTB > let c4=c1+c2 Kan du använda C4 för att lösa någon av uppgifterna a) g)? Prova att ge kommandot: MTB > table c1 c2; SUBC> counts; SUBC> rowpercents; SUBC> colpercents; SUBC> totpercents. Alternativt kan du menyvägen välja Stat Tables Cross Tabulation and Chi-Square och bocka för rutorna Counts, Row percents, Column percents och Total percents. 9

DEL 3: STATISTISK INFERENS MED MINITAB Starta ett nytt projekt i Minitab genom FILE NEW MINITAB PROJECT. Vi skall nu utnyttja ett hyggligt stort datamaterial. Datamaterialet finns i en fil inlagd på kurshemsidan i Excelformat och heter HUS_rensad.xls. Öppna Excelfilen och kopiera hela datafilen. Ställ dig sedan högst upp (i den grå raden i kolumn C1) i Minitabs datablad och klistra in. Datamaterialet innehåller 11 kolumner och antalet observationer (rader) är 503. Datamaterialet avser försäljning av bostadshus i en stad i USA år 2002, och man var främst intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver huset och dess omgivning. I filen ingår följande variabler i tur och ordning. 1. Löpnummer (identifikationsnummer) 2. Försäljningspris (dollar) 3. Bostadsyta (kvadratfot) 4. Antal sovrum 5. Antal badrum 6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars 7. Antal bilar som garaget är konstruerat för 8. Förekomst av pool, 1 = pool finns, 0 annars 9. Byggår 10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg 11. Tomtstorlek (kvadratfot) I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att beräkna konfidensintervall. UPPGIFT 1 Vi ska börja med att granska data. a) Rita lämpliga diagram för att studera variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitets fördelning. Graph b) Beräkna lämpliga beskrivande mått för variablerna försäljningspris, förekomst av pool samt byggkonstruktionens kvalitet. Basic Statistics Display Descriptive Statistics UPPGIFT 2 a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Beräkna ett 99%igt konfidensintervall för det sanna försäljningsmedelvärdet. Använd Stat Basic Statistics 1-Sample t (ändra konfidensgraden från 95 till 99 under Options). Studera konfidensintervallet. Hur tolkar du det? 10

b) Vi vill nu göra ett enkelsidigt intervall, där vi vill uttala oss om att medelvärdet är större än 250 000. Beräkna ett 99%igt enkelsidigt konfidensintervall genom att göra lämplig justering under Options. Hur tolkar du intervallet? UPPGIFT 3 Vi vill nu bilda konfidensintervall för försäljningspriset för dels villor med hög konstruktionskvalitet (kod 1) och dels de som inte har denna kvalitet (kod 2 och 3). a) Vi måste därför koda om kvalitetsvariabeln (den näst sista kolumnen) till en ny variabel där t.ex. 1 kan betyda hög kvalitet medan 0 betyder att kvaliteten är lägre. För att göra denna omkodning kan du utnyttja fliken Data och under den Code-Numeric to Numeric. Kolla att den nya kolumnen fick bara värdena 0 och 1 och att det ser korrekt ut. Ge den ett lämpligt namn. b) Vi vill nu ha två kolumner, där den ena innehåller försäljningspriser för alla objekt med kvalitet 1 och den andra priserna för objekt med kvalitet 0. Utnyttja under fliken Data kommandot Copy-Columns to Columns. Ange i rutan Copy from columns Försäljningspris och tryck sedan på knappen Subset the Data. Markera Rows that match och tryck sedan på knappen Condition. Fyll nu i rutan som öppnar sig så att Minitab kopierar de rader där den nya kvalitetsvariabeln antar värdet 1. Tryck OK och sedan OK igen. Under rutan Store Copied Data in Columns, välj In current worksheet, in columns och skriv sedan in den kolumn som ni vill spara de utsorterade försäljningspriserna i. Tryck OK. Gör om för kvalitet 0. Sätt lämpliga rubriker på kolumnerna. c) Beräkna ett 95% konfidensintervall för det förväntade försäljningspriset vid kvalitet 1 och vid kvalitet 0. Utnyttja t-fördelningen och observera att båda beräkningarna kan göras i samma körning. Studera resultaten. Verkligen stor skillnad mellan intervallen, eller hur? (högst naturligt) UPPGIFT 4 Vi går nu över till att göra konfidensintervall för andelar. Vi är intresserade av förekomsten av pool och vill se om denna förekomst är olika beroende på husens kvalitet. Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion. Beräkna ett 99% konfidensintervall för andelen hus med pool. Tolka resultatet. DEL 4: CENTRALA GRÄNSVÄRDESSATSEN (VID MÅN AV TID) Enligt Centrala gränsvärdessatsen (CGS) skall en summa av slumpvariabler bli ungefär normalfördelad om antalet variabler i summan är tillräckligt stort. Vidare gäller att dessa variabler skall vara av samma sort, man brukar säga likafördelade, och inte bero av varandra. Det enklaste exemplet på detta är att man gjort ett urval om n observationer. Var och en av dessa är som regel oberoende tagna. Detta gäller om populationen är oändligt stor eller åtminstone mycket stor. Varje enskild observation är ett oskrivet kort och detta brukar modelleras med att 11

det värde man får är en observation av en slumpvariabel, som gäller enbart just för denna observation. Antag t ex att vi skall göra ett urval av n personer bosatta i Sverige och undersöka hur många syskon de har. För varje urvalsdragning är antalet syskon en slumpvariabel och det innebär att vi har totalt n slumpvariabler i vårt urval. Innan vi har valt en person och frågat honom/henne om antalet syskon vet vi ju inte hur många de är och det gör detta till en slumpvariabel. Om vi nu vill göra en bedömning av det totala antalet angivna syskon i vårt urval kan vi skriva detta som n i=1 X i där X 1 är en slumpvariabel som mäter antal syskon för den första utvalda personen i vårt urval, X 2 är en slumpvariabel som mäter antal syskon för den andra utvalda personen i vårt urval o.s.v. för var och en av de n personerna. Denna summa är nu enligt CGS ungefär normalfördelad med väntevärde n och standardavvikelse n där och är medeltal och standardavvikelse för antalet syskon i hela populationen, dvs bland antalet bosatta i Sverige, om n är tillräckligt stor. (Vi bryr oss i detta fall inte om det faktum att två eller flera personer i populationen kan vara syskon och därmed ha lika många syskon, vilket egentligen komplicerar det hela men kan bedömas vara ett mindre problem eftersom populationen är så stor.) Vidare gäller att urvalsmedeltalet av antalet syskon, dvs X 1 n n X i i 1 blir ungefär normalfördelad med väntevärde och standardavvikelse σ/ n. Man kan (och ska) naturligtvis lita på dessa resultat, eftersom det handlar om ganska lång tids forskning och matematiskt ovedersägliga resultat, men det är ändå nyttigt att empiriskt studera hur bra denna approximation är och vad ett stort n kan vara. Börja med att mata in värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 och 10 i kolumn C1 i Minitab. Antag att detta är det antal syskon som kan förekomma i en viss population, dvs ingen i populationen har fler än 10 syskon, och det finns de som inte har några syskon alls. Antag vidare att följande proportioner gäller: Antal syskon Frekvens i populationen 0 16% 1 35% 2 29% 3 10% 4 6% 5 2% 12

6 0,5% 7 0,5% 8 0,4% 9 0,4% 10 0,2% Med hjälp av denna frekvenstabell, räkna för hand ut medeltalet,, och standardavvikelsen,, i populationen av antalet syskon. Notera dessa värden. Lägg nu proportionerna som decimaltal i kolumnen C2, dvs. mata in värdena 0,16, 0,35 etc. i C2. Antag nu att vi skall göra ett urval om 10 personer från populationen och bestämma hur många syskon var och en av dessa har. Via slumpvariabelbegreppet kan detta utföras genom att slumpmässigt generera 10 observationer från den slumpvariabel som antar värdena i C1 med sannolikheter motsvarande värdena i C2. Praktiskt kan vi göra detta med kommandot random enligt följande: MTB > random 10 c3; SUBC> discrete c1 c2. Kommandot innebär att vi slumpar 10 observationer från kolumnen C1 och lägger dessa i C3 och att slumpningen görs så att varje värde dras med en sannolikhet som motsvarar värdet i C2. Ni bör därför få observationer i C3 som till större delen är något av värdena 0, 1, 2, 3 och 4, eftersom dessa värden har betydligt högre sannolikheter än de övriga (motsvarar högre frekvenser i populationen). Beräkna sedan medelvärdet av värdena i C3 och lagra detta i första raden av C4 med följande kommando: MTB > let c4(1)=mean(c3) Stämmer detta medelvärde någorlunda överens med medeltalet i populationen? Borde det göra det? För att se hur väl CGS stämmer måste vi på något sätt uppskatta samplingfördelningen hos detta urvalsmedeltal och då krävs att vi upprepar urvalsförfarandet ett stort antal gånger. Kunde vi till exempel skapa 10000 urval av detta slag borde motsvarande urvalsmedeltal ge en hyfsad bild över hur ett urvalsmedeltal kan variera. Nu är det ganska arbetskrävande att upprepa ovanstående 10000 gånger varför det åter är dags för ett makro. Öppna Notepad (Start All programs Accessories Notepad) och skriv in följande rader: 13

gmacro syskon_cgs do k20=1:10000 let c5(1)=k20 random 10 c3; discrete c1 c2. let c4(k20)=mean(c3) enddo endmacro Studera raderna i detta makro och försök förstå dem. Vad gör till exempel raden let c5(1)=k20? Var framgår det att det är 10000 urval som skall göras? Var beräknas medeltalet? I vilken kolumn sparar vi de 10000 medeltalen? Spara makrot (välj Save as type: All files ) med namnet syskon_cgs.mac på enheten med ditt användarnamn. Se till att Minitabs arbetsmapp är din hemarea genom att ge kommandot cd enheten med ditt användarnamn (detta behöver du bara göra en gång under en och samma Minitab-session). Kör nu makrot med kommandot %syskon_cgs. Det tar en liten stund för Minitab att göra alla 10000 urval. När makrot är klart ska du ha 10000 medeltal i C4. Gör ett histogram över dessa. Ser histogrammet ut att motsvara en normalfördelning? Beräkna vidare medelvärdet och standardavvikelsen av värdena i C4 med hjälp av kommandona mean och stdev. Verkar medelvärdet överensstämma någorlunda med populationsmedeltalet? Verkar standardavvikelsen överensstämma någorlunda med 10? Teorin säger ju att dessa överensstämmelser skall finnas, och detta gäller oavsett om populationen är normalfördelad eller ej. Redigera makrot så att du i tur och ordning får urvalsstorlekarna a) 30 observationer b) 50 observationer c) 100 observationer Kör makrot för varje fall och jämför fördelningsform, medelvärde och standardavvikelse med motsvarande värden i den teoretiska normalfördelningen. Försök säga något om från och med vilken urvalsstorlek CGS verkar fungera. Spara Minitab-projektet under FILE SAVE PROJECT AS... 14