S0004M Statistik 1 Undersökningsmetodik. Laboration 3: Urval och skattningar Denna laboration handlar om slumpmässiga urval. Dessa urval ska användas för att uppskatta egenskaper hos en population. Statistiska programvaran Minitab kommer att användas. Den stora svårigheten vid urval är att det skall bli slumpmässigt och representativt för populationen. Det är oftast den praktiska situationen vid insamling av data som är den kritiska (t.ex att det är frivilligt att svara på frågor) vilket gör att det lätt skapas bias. Resultaten av alla uppgifter nedan tillsammans med efterfrågade kommentarer ska sammanställas i en kort skriftlig rapport. Lämna in rapporten (som en Gruppinlämning, med högst 3 studenter per labgrupp) i Canvas senast två veckor efter laborationstillfället. Rapporten ska vara kortfattad och bestå av: Titelblad med en beskrivande rubrik, namn på alla gruppmedlemmar, kurs, kurskod och datum. Inledning/Syfte några meningar om vad laborationen handlar om, vad som undersöks/studeras. Resultat som efterfrågas med kommentarer/diskussion. Sammanfattning vad är de viktigaste resultaten? Eventuella bilagor. Förberedelser: Kap. 3.1 3.4 i Moore samt Föreläsning 10 (repetera även 9). Påminn dig om hur vi har använt Minitab i tidigare laborationer. Läs igenom laborationens uppgiftsspecifikationer och Minitab tipsen som finns längst bak i detta dokument. Datamaterialet till Laboration 3 som skall användas hittar du i Canvas. Filen är i Excel format, vilket i Minitab läses in genom att i Open worksheet ändra filformat till Excel. 1
2
Uppgifter: Tänk dig att du ska intervjua ett antal individer i en population. Det enklaste slumpmässiga urvalet är ett så kallat obundet slumpmässigt urval (OSU), (eng: simple random sample (SRS)). För att välja ut personerna måste du ha en urvalsram, dvs. en förteckning över populationens individer och dessutom information om hur de kan nås adresser, telefonnummer eller annan kontaktväg. En sådan (fiktiv) urvalsram för en population på 3018 individer har konstruerats och ligger i Canvas. Den innehåller en numrerad lista över populationens individer med fiktiva data: Ordningsnummer För och efternamn Kön Åsikter om användning av kosttillskott (p=positiv, n=negativ, o=osäker) Hur mycket de kan tänka sig att betala för en ny musiktjänst till mobiltelefonen (kr/mån) Vilopuls 1. Obundet slumpmässigt urval a. Utgå från informationen i urvalsramen och ange vilken datatyp (skalnivå) som inryms i variablerna kön, kosttillskott, vilopuls och musiktjänst. Välj mellan Nominalskala, Ordinalskala, Intervallskala eller Kvotskala. Motivera dina val. b. Gör ett urval (OSU) av 130 individer ur urvalsramen: med hjälp av slumpgeneratorn i Minitab (se Minitabtips i slutet av detta dokument). Välj variablerna nr, kön, kosttillskott, musiktjänst och vilopuls eller alla. Redovisa ditt urval som en bilaga i rapporten. c. Använd Minitab för att sammanställa uppgifter om kön, åsikt om kosttillskott, betalning för musiktjänst och vilopuls för alla individer i urvalet, (t ex med tabeller och lämpliga grafer). d. Ange andelen i stickprovet som är positiva till kosttillskott. Validera resultatet genom att göra motsvarande för hela populationen och jämföra resultatet. e. Finns det samband mellan kön och åsikt om kosttillskott? Gör ett diagram (alt. korstabell) för stickprovet som visar på sambandet. (Använd Graph/Bar Chart alt. Stat/Tables/Cross Tabulation ). Validera resultatet, dvs jämför med motsvarande resultat för hela populationen. 3
2. Stratifierat urval Ett alternativ till OSU kan vara ett så kallat stratifierat urval. Det grundar sig på att populationen delas in i strata (latin för ʺskiktʺ) som är homogena med avseende på den variabel man studerar. Det viktigaste argumentet för stratifiering är att reducera urvalsfel. Stratifiering kan också minska konstnaden för datainsamling och förbättra precisionen. Indelningen i strata kräver dock både bakgrundsinformation och mer arbete i förväg. Antag att det finns anledning att tro att åsikten om kosttillskott skiljer sig mellan könen. Då är det lämpligt att göra separata stickprov i de två grupperna män och kvinnor. I detta fall är det 835 kvinnor och 2183 män i populationen. a. Antag att vi skall välja ut totalt 130 personer. Bestäm hur många kvinnor och män som ska väljas ut från de två undergrupperna. En enkel princip är att välja stickprovstorlekar i förhållande till undergruppernas storlekar i populationen. Använd slumpgeneratorn i Minitab för att göra ett urval med 130 personer där andelarna av män respektive kvinnor är lika som andelarna i hela populationen. Redovisa ditt urval som en bilaga i rapporten. (Ett tips är att först dela upp hela urvalsramen i två olika grupper genom att använda Data/Split Worksheet i Minitab). b. Räkna ut andelen i stickprovet som är positiva till kosttillskott. Beräkna även andelen positiva i stickprovet uppdelat på kön (dvs. för män respektive kvinnor). Validera dessa tre stickprovsberäknade skattningar genom att jämföra med hela populationens andelar. c. Vad är vilopulsen i det stratifierade urvalet? Besvara frågan med att ange medelvärdet i stickprovet och även uppdelat på kön. Jämför med medelvärde av populationens vilopuls samt motsvarande resultat i urvalet med OSU i föregående uppgift. 3. Stickprovsstorlekens betydelse för skattningen av populationens egenskaper För att beskriva en populations egenskaper är det viktigt att använda bra mätinstrument, som enkäter eller telefonintervjuer etc. Frågorna ska formuleras så att de inte kan tolkas olika vid olika tillfällen (tydliga i tid och rum) och där de fasta 4
svarsalternativen är uttömmande och ömsesidigt uteslutande. Frågorna är de variabler som används för att beskriva populationens egenskaper och ska helst ge en bra bild av populationens egenskaper trots att man inte har data från hela populationen utan bara från en mindre grupp. Resultaten från stickproven kallas i statistiksammanhang ofta för skattningar eller punktskattningar ( estimates ). Hur fungerar dessa i jämförelse med populationens resultat? I vilken grad kan man lita på att resultatet från ett urval beskriver populationsegenskapen i fråga? Sådana frågor besvaras genom att studera hur metoden uppför sig, eller med andra ord, metodens urvalsfördelning. Vi skall i denna del undersöka hur stickprovsmedelvärdet kan användas för att skatta medelvärdet hos en hel population. Vi tänker oss att vi gjort fem olika stickprov på vid olika tillfällen ur samma population och ska se hur resultaten varierar beroende på stickprovens storlek. a. Gör fem nya urval ur urvalsramen (OSU, ej stratifierat). Varje urval skall omfatta 7 individer. Beräkna för vart och ett av de fem stickproven/urvalen stickprovsmedelvärdet för vilopulsen. b. Jämför de fem ovanstående stickprovsmedelvärdena med hela populationens medelvärde och beräkna även spridningen bland de fem stickprovsmedelvärdena i form av en standardavvikelse. (Dvs sätt in de fem värdena i formeln för stickprovsstandardavvikelsen.) c. Gör om a b) men låt nu vart och ett av de fem urvalen innehålla 70 individer. d. Gör om a b) men låt nu vart och ett av de fem urvalen innehålla 350 individer. e. Sammanfatta era resultat, gärna med tydliga diagram (Minitab tips: Graph/Individual Value Plot), och besvara frågan hur stickprovens storlek påverkar: i) spridningen bland stickprovsmedelvärdena, ii) hur väl ett stickprovsmedelvärde kan användas till att skatta hela populationens medelvärde. 5
Minitab tips Så här gör du ett OSU (SRS) ur en population Gå till menyn Calc/Random Data/Sample From Columns. Då ska du få nedanstående fönster (första på nästa sida). I Number of rows to sample så anger du värdet på n. I rutan From columns anger du den population du ska göra urvalet ur. I rutan Store samples in anger du de kolumner som urvalet ska sparas i. Klicka sedan på OK. Hint: Man kan alltid prova på innan man börjar använda. Alltså skapa t.ex. en kolumn Heltal som har värde 1, 2, 3,, 10 och slumpa fyra tal m.h.a. den här menyn. Sedan skapa tre påhittade kolumner (blanda gärna kvantitativa och kvalitativa variabler) och testa att slumpa då. Observera att du kan lägga flera kolumner i rutan From columns i fönstret nedan.) Att dela upp kalkylbladet i delmaterial (split worksheet) Gå till menyn Data/Split Worksheet. I rutan By variables: ska du ange den variabel (OBS! Vanligtvis en kategorisk variabel) du vill göra uppdelningen efter genom att välja från variablerna i den vänstra kolumnen. Alternativt: Data/Unstack columns. Under subscripts ska stratifieringsvariabeln stå. Välj att spara data efter sista kolumnen som används istället för i ett nytt worksheet. Se nedan. 6
7