S0004M Statistik 1 Undersökningsmetodik. Laboration 3: Urval och skattningar Denna laboration handlar om slumpmässiga urval. Dessa urval ska användas för att uppskatta egenskaper hos en population. Statistiska programvaran Minitab kommer att användas. Den stora svårigheten vid urval är att det skall bli slumpmässigt och representativt för populationen. Det är oftast den praktiska situationen vid insamling av data som är den kritiska (t.ex att det är frivilligt att svara på frågor) vilket gör att det lätt skapas bias. Resultaten av alla uppgifter nedan tillsammans med efterfrågade kommentarer ska sammanställas i en kort skriftlig rapport. Lämna in rapporten i inlämningsmappen (som en Gruppinlämning, med högst 3 studenter per labgrupp) i Fronterrummet senast två veckor efter laborationstillfället. Rapporten ska vara kortfattad och bestå av: Titelblad med en beskrivande rubrik, namn på alla gruppmedlemmar, kurs, kurskod och datum. Inledning/Syfte några meningar om vad laborationen handlar om, vad som undersöks/studeras. Resultat som efterfrågas med kommentarer/diskussion. Sammanfattning vad är de viktigaste resultaten? Eventuella bilagor. Förberedelser: Läs igenom Kap. 3.1 3.4 i Moore, samt repetera Föreläsning 7 och 8. Påminn dig om hur vi har använt Minitab i tidigare laborationer. Läs igenom laborationens uppgiftsspecifikationer och Minitab tipsen som finns längst bak i detta dokument. Datamaterialet till lab 3 som skall användas hittar du i Fronter. 1
Uppgifter: Tänk dig att du ska intervjua ett antal individer i en population. Det enklaste slumpmässiga urvalet är ett så kallat obundet slumpmässigt urval (OSU), (eng: simple random sample (SRS)). För att välja ut personerna måste du ha en urvalsram, dvs. en förteckning över populationens individer och dessutom information om hur de kan nås adresser, telefonnummer eller annan kontaktväg. En sådan (fiktiv) urvalsram för en population på 3012 individer har konstruerats och ligger på Fronter. Den innehåller en numrerad lista över populationens individer med fiktiva data: Ordningsnummer För och efternamn Kön Åsikter om användning av kosttillskott (p=positiv, n=negativ, o=osäker) Vilopuls Hur mycket de kan tänka sig att betala för en ny musiktjänst till mobiltelefonen (kr/mån) 1. Obundet slumpmässigt urval a. Utgå från informationen i urvalsramen och ange vilken datatyp (skalnivå) som inryms i variablerna kön, kosttillskott, vilopuls och musiktjänst. Välj mellan Nominalskala, Ordinalskala, Intervallskala eller Kvotskala. Motivera dina val. b. Gör ett urval (OSU) av 120 individer ur urvalsramen: med hjälp av slumpgeneratorn i Minitab (se Minitabtips i slutet av detta dokument). Välj variablerna nr, kön, kosttillskott, musiktjänst och vilopuls eller alla. Redovisa ditt urval som en bilaga i rapporten. c. Använd Minitab för att sammanställa uppgifter om kön, åsikt om kosttillskott, betalning för musiktjänst och vilopuls för alla individer i urvalet, (t ex med tabeller och lämpliga grafer). d. Ange andelen i stickprovet som är positiva till kosttillskott. Validera resultatet genom att göra motsvarande för hela populationen och jämföra resultatet. e. Finns det samband mellan kön och åsikt om kosttillskott? Gör ett diagram (alt. korstabell) för stickprovet som visar på sambandet. (Använd Graph/Bar Chart alt. Stat/Tables/Cross Tabulation ). Validera resultatet, dvs jämför med motsvarande resultat för hela populationen. 2
2. Stratifierat urval En nackdel med ett OSU är att det kan ge ganska stor spridning eftersom alla i urvalet har samma sannolikhet att komma med. Med en heterogen population kommer spridningen bland de som valts ut också att vara stor, och det kan leda till att större urval måste tas för att få en tillräcklig precision. Ett alternativ kan vara ett så kallat stratifierat urval. Det grundar sig på att populationen delas in i strata (latin för ʺskiktʺ) som är homogena med avseende på den variabel man studerar. Indelningen i strata kräver dock både bakgrundsinformation och mer arbete i förväg. Antag att det finns anledning att tro att åsikten om kosttillskott skiljer sig mellan könen. Då är det lämpligt att göra separata stickprov i de två grupperna män och kvinnor. I detta fall är det 830 kvinnor och 2182 män i populationen. a. Antag att vi skall välja ut totalt 120 personer. Bestäm hur många kvinnor och män som ska väljas ut från de två undergrupperna. En enkel princip är att välja stickprovstorlekar i förhållande till undergruppernas storlekar i populationen. Använd slumpgeneratorn i Minitab för att göra ett urval med 120 personer där andelarna av män respektive kvinnor är lika som andelarna i hela populationen. Redovisa ditt urval som en bilaga i rapporten. (Ett tips är att först dela upp hela urvalsramen i två olika grupper genom att använda Data/Split Worksheet i Minitab). b. Räkna ut andelen i stickprovet som är positiva till kosttillskott. Beräkna även andelen positiva i stickprovet uppdelat på kön (dvs. för män respektive kvinnor). Validera dessa tre stickprovsberäknade skattningar genom att jämföra med hela populationens andelar. c. Vad är vilopulsen i det stratifierade urvalet? Besvara frågan med att ange medelvärdet i stickprovet och även uppdelat på kön. Jämför med medelvärde av populationens vilopuls samt motsvarande resultat i urvalet med OSU i föregående uppgift. d. Vilket slumpmässigt urval är att föredra: OSU eller stratifierat urval? Motivera. 3. Stickprovsstorlekens betydelse för skattningen av populationens egenskaper För att, utifrån ett stickprov, beskriva en populations egenskaper är det viktigt att använda bra ʺmätinstrumentʺ, dvs de mått som används för att beskriva populationens egenskaper. De skall helst ge en bra bild av populationens egenskaper trots att man inte har data från hela populationen utan bara från en mindre grupp. 3
ʺMätinstrumentenʺ kallas i statistiksammanhang ofta för skattningar eller punktskattningar (ʺestimatesʺ). Hur fungerar dessa? I vilken grad kan man lita på att resultatet från ett urval beskriver populationsegenskapen i fråga? Sådana frågor besvaras genom att studera hur metoden uppför sig, eller med andra ord, metodens ʺurvalsfördelningʺ. Vi skall i denna del undersöka hur stickprovsmedelvärdet kan användas för att skatta medelvärdet hos en hel population. a. Gör fem nya urval ur urvalsramen (OSU, ej stratifierat). Varje urval skall omfatta 4 individer. Beräkna för vart och ett av de fem stickproven/urvalen stickprovsmedelvärdet för vilopulsen. b. Jämför de fem ovanstående stickprovsmedelvärdena med hela populationens medelvärde och beräkna även spridningen bland de fem stickprovsmedelvärdena i form av en standardavvikelse. c. Gör om a b) men låt nu vart och ett av de fem urvalen innehålla 25 individer. d. Gör om a b) men låt nu vart och ett av de fem urvalen innehålla 100 individer. e. Sammanfatta era resultat, gärna med tydliga diagram (Minitab tips: Graph/Individual Value Plot), och besvara frågan hur stickprovens storlek påverkar: i) spridningen bland stickprovsmedelvärdena, ii) hur väl ett stickprovsmedelvärde kan användas till att skatta hela populationens medelvärde. Minitab tips Så här gör du ett OSU (SRS) ur en population Gå till menyn Calc/Random Data/Sample From Columns. Då ska du få nedanstående fönster (första på nästa sida). I Number of rows to sample så anger du värdet på n. I rutan From columns anger du den population du ska göra urvalet ur. I rutan Store samples in anger du de kolumner som urvalet ska sparas i. Klicka sedan på OK. Hint: Man kan alltid prova på innan man börjar använda. Alltså skapa t.ex. en kolumn Heltal som har värde 1, 2, 3,, 10 och slumpa fyra tal m.h.a. den här menyn. Sedan skapa tre påhittade kolumner (blanda gärna kvantitativa och kvalitativa variabler) och testa att slumpa då. Observera att du kan lägga flera kolumner i rutan From columns i fönstret nedan.) 4
Att dela upp kalkylbladet i delmaterial (split worksheet) Gå till menyn Data/Split Worksheet. I rutan By variables: ska du ange den variabel (OBS! Vanligtvis en kategorisk variabel) du vill göra uppdelningen efter genom att välja från variablerna i den vänstra kolumnen. Alternativt: Data/Unstack columns. Under subscripts ska stratifieringsvariabeln stå. Välj att spara data efter sista kolumnen som används istället för i ett nytt worksheet. Se nedan. 5