Prmär- och sekundärdata Undersöknngsmetodk Prmärdataundersöknng: användnng av data som samlas n för första gången Sekundärdata: användnng av redan nsamlad data Termeh Shafe ht01 F1-F KD kap 1-3 Olka slag av undersöknngar Utgångspunkten är ett problem Två grundläggande sätt att samla n data på Expermentella Icke-expermentella Valet är kopplat tll syftet, frågeställnngar och praktska förutsättnngar Beskrvande, cke-expermentella undersöknngar V vll beskrva egenskaper, atttyder, åskter, hos en populaton av ndvder, företag Hur många (är postva)? Hur stor andel personer mellan 0 och 64 bor området? Hur har andelen (tveksamma) ändrats sedan förra mätnngen? Hur mycket har bolåneräntan (stgt)? Hur skljer sg åskterna mellan könen? Mellan olka nkomstgrupper? Mellan olka åldrar? Beskrvande forts. Observatonsstuder Surveys (Undersöknngar av surveytyp) Totalundersöknng, total survey. Urvalsundersöknng, sample survey Beskrvande forts. Urvalsundersöknngar görs av olka Opnons- och marknadsundersöknngsföretag Statstska centralbyrån (SCB) Övrga statstkansvarga myndgheter Forskare, organsatoner, närngslvet Den som beställer undersöknngen avgör om den får publceras Olka bra uppläggnngar ger olka möjlgheter att dra slutsatser tll den bakomlggande populatonen 1
Beskrvande forts. Kända undersöknngar: Väljarbarometrar Beställs av olka tdnngar och av parterna. Även en som görs av SCB, två gånger om året. De vanlga redovsar svar från ca 1500-000 personer, medan SCB har ett urval om ca 9000 personer. Större säkerhet slutsatserna. Opnonsundersöknngar Ex. vll kartlägga svenska folkets nställnng tll trängselavgfter. Även olka frågeställnngar nom en och samma enkät: omnbusundersöknngar Marknadsundersöknngar Ex. företag vll veta hur olka reklamkampanjer mottas av eventuella kunder Arbetskraftundersöknngen, AKU, från SCB Görs varje månad. Mycket detaljerad nformaton om arbetsmarknaden Undersöknngen om levnadsförhållanden (ULF) Olka välfärdskomponenter. Besöksntervju Förklarande, expermentella undersöknngar V gör experment för att Förklara olka (orsaks)samband Vad kännetecknar ett experment? Kontroll över hur försöket görs/vem som är med Mätnngarna kan upprepas Klassskt experment: Jordbruksförsök 1930-talet. Vlket gödnngsmedel och mängd är bäst? Provytor som är så lka varandra som möjlgt Men, ändå skllnader jordmån, bevattnng, solljus osv Slumpmässg fördelnng av olka behandlngar på olka provytor: randomserng Förklarande forts. Socala experment Ovanlga, svårt att erbjuda olka välfärdspaket tll olka slumpmässgt ndelade grupper Kvas-experment Försöker efterlkna experment Kan nte alltd slumpa (randomsera) ndvder tll experment- och kontrollgrupper. Försöker htta tvllngpersoner så lka varandra som möjlgt med avseende på kända egenskaper Rsk att ej mätbara/okända egenskaper stör jämförelser Framåtblckande V vll göra prognoser/predktoner, tex om Framtda befolknng Arbetslöshet Prognoser behöver nte vara dålga för att de nte slår n. Mer eller mndre påverkbart utfall Ej påverkbart utfall (ex väderprognoser) Olka slag av varabler Varabel: en egenskap som kan varera mellan olka enheter populatonen Egenskaperna hos varablerna avgör Val av läges- och sprdnngsmått Val av mått på samband Val av dagram Olka slag av varabler forts.
Datanvåer Varablerna nnehåller olka mycket nformaton: är på olka datanvåer Olka bearbetnngar/beräknngar kan göras för varabler på olka nvåer omnalskala (klassfcerng) Ordnalskala (klass., rangordnng) Intervallskala (klass., rang., dentska skalsteg) Kvotskala (klass., rang., d. skalst., absolut nollpunkt) Varabler som har kodats sfferkategorer nnehåller nte mer nformaton än nnan Datanvåer Särsklja Rangordna Konstant skalsteg Absolut nollpunkt Exempel omnal Ja ej ej ej Kön, stad Ordnal Ja Ja ej ej Betyg Intervall Ja Ja Ja ej Temp celcus Kvot Ja Ja Ja Ja Vkt, td, lön Olka slag av varabler Typ av tabell och dagram väljs utfrån varablernas egenskaper, men också utfrån praktska aspekter Är varabeln kvanttatv (numersk) eller kvaltatv? Om kvanttatv- är den dskret eller kontnuerlg? Vlken datanvå mäts varablerna på? Vad vll v belysa med tabellen eller dagrammet? amn f Wlma 9 Maja 907 Ella 860 Emma 835 Jula 816 Alce 806 Alva 781 Lnnéa 778 Ida 763 Ebba 758 Källa: SCB: namnstatstk Frekvenstabell I Word kan man göra dessa typer av tabeller enkelt genom att gå tll Tabell Infoga Tabell. Man kan sedan välja format (vlken typ av lnjer man vll ha osv.). Stapeldagram Stapeldagram ( bar chart ), lggande och stående Om syftet är att vsa olka frekvenser Höjden på stapeln vsar frekvensen Grupperat stapeldagram ( cluster bar chart ) V kan också kombnera flera varabler stapeldagram för att exempelvs belysa skllnader mellan grupper Andel befolknngen med en nettoförmögenhet över 1 mljon kr fördelad över utbldnngsnvå och ålder (5-74) 005. Procent 1000 800 600 400 00 Källa: SCB: Flest andel mljonärer bland 0 Wlma Maja Ella Emma Jula Alce Alva Lnnéa Ida Ebba Källa: SCB: namnstatstk högutbldade, webmagasn Artkulerat 3
frekvens 01-11-08 Ackumulerat stapeldagram ( stacked bar chart ) Crkeldagram Istället för grupperat stapeldagram kan man välja ackumulerat stapeldagram Om v har olka frekvenser kan staplarna vara olka höga 100 90 80 70 60 50 40 30 0 Övrga Oppostonen Allansen 10 0 maj-08 val -06 Källa: SCB: PSU Hstogram: Dagram där staplarna är sammanhängande Höjden motsvarar frekvensen klassen (om samma klassbredd) Trappstegsdagram 1 10 8 6 4 0 40 43 444 456 468 Poäng på SAT-prov Stambladdagram Exempel: Baby Ruth konfektyrer styck Fyrto Babe Ruth konfektyrer vägdes och vkterna sorterades storleksordnng. De 40 observatonerna (rangordnade): 0.5 0.7 0.8 1.0 1.0 1.4 1.5.0.1.5.6.6.7.7.9.9 3.1 3.3 3.4 3.5 3.6 3.6 3.6 3.9 4.1 4.3 4.5 4.5 4.8 4.8 4.9 4.9 5.1 5.1 5. 5.6 5.8 5.9 6.1 6.7 4
Fördelnngens form Exempel: Baby Ruth konfektyrer styck Varje observaton delas två delar: stam (0, 1,, osv) och blad (0.1, 0., 0.3, 0.4 osv). Stam Blad 3 0 5 7 8 7 1 0 0 4 5 16 0 1 5 6 6 7 7 9 9 (8) 3 1 3 4 5 6 6 6 9 16 4 1 3 5 5 8 8 9 9 8 5 1 1 6 8 9 6 1 7 Symmetrsk Varabelns fördelnng är symmetrsk om observatonerna är balanserade, eller ungefärlgt jämt fördelade runt mtten Sned Fördelnngen är sned tll höger (postvt) om svansen lgger tll höger, och sned åt vänster (negatvt) om svansen lgger tll vänster Fördelnngens form påverkar vlket centralmått v väljer Beskrvnng av ett datamateral med hjälp av lägesmått och sprdnngsmått Lägesmått är numerska mått som ger nformaton om en typsk observaton datamateralet. Artmetskt medelvärde Medan Typvärde Val av lägesmått Datanvån bestämmer vlket/vlka lägesmått som v kan/är rmlga att beräkna. omnaldata: Typvärde V anger också ofta andel/procent för ett vsst varabelvärde Ordnaldata: Typvärde, medan Intervalldata: Typvärde, medan, medelvärde Kvotdata: Typvärde, medan, medelvärde Första kvartlen, Q1 Tredje kvartlen, Q3 p:te percentlen Ytterlgare lägesmått Sprdnngsmått Varatonsvdd ( range ) Skllnaden mellan det största och mnsta värdet X(max) X(mn) Kvartlavstånd ( nterquartle range ) Sprdnngen den mttersta 50% av data IQR = Q3 Q1 Kvartlavvkelse IQR/ 5
Varans och standardavvkelse Lådagram Ovanstående sprdnngsmått tar bara hänsyn tll två observatoner Beräknar v medelvärdet kan v också beräkna den genomsnttlga avvkelsen från medelvärdet Varatonskoeffcent: Standardavvkelsen som procent av medelvärdet Kom håg: lådagrammet skapades av bla Q1, medan och Q3 Val av sprdnngsmått V måste ha numerska data för att kunna beräkna sprdnngsmått. Varans resp. standardavvkelse ger mest nformaton. De används oftast vdare beräknngar Precs som för medelvärdet påverkas varansen och standardavvkelsen dock av extrema observatoner Vägt medelvärde och varans 1 n f x 1 f ( x ) f x f ( x ) x 1 1 s n n 1 n där f är frekvensen Medelvärde och varans för klassndelade data Antag K klasser med frekvenser f 1, f,, f K. Mttpunkterna är m 1,m,, m K. Approxmatvt populatonsmedelvärde och populatonsvarans fås då som K 1 f m Var krtsk vd val av mått Kan det bl mssvsande? Ex. jämförelser vd olka tdpunkter Vll v jämföra medelvärden? Procentuell förändrng? Är måtten vd de två tdpunkterna jämförbara? K f ( m ) 1 Medan och kvartlavvkelse beräknas genom nterpolerng v behöver nte kunna det denna kurs 6