FORSKNINGSMETODIK, KVANTITATIV DEL Jan Saarela http://www.vasa.abo.fi/users/jsaarela/
ANSATS Hantering av numerisk information Hur förstå, tolka och bearbeta sifferserier i matrisform CENTRALA BEGREPP Observation (undersökningsenhet): de objekt som studeras - Individer, hushåll, tidsperioder, kommuner, husdjur, etc Variabler: egenskaper hos observationerna - Ålder, inkomst, konjunkturläge, befolkningsmängd, pälsfärg, etc HUVUDSAKLIGA INDELNINGAR AV DATA (1) Enligt omfattning: Totaldata mot stickprov (2) Enligt insamlingssätt: Registerdata mot enkäter (3) Enligt struktur: Tvärsnittsdata mot longitudinella data (1), (2) och (3) kan överlappa varandra mot innebär uteslutning Totaldata (total population) inkluderar hela populationen (alla undersökningenheter i en given population) - Behövs för fullständig beskrivning av förhållanden (totalantal) - Exempelvis hela Vasas befolkning vid en given tidpunkt (från Befolkningsregistret) Stickprov (sampel, sample) måste vara representativt för hela populationen 2
- Drar slutsatser om förhållanden i underliggande populationen (statistisk inferens) - Data som en estimator för verkliga fördelningen (detaljer senare) - Exempelvis Finnish Labour Force Survey, Vallokalförfrågningar Registerdata (register data) - Officiell, redan existerande, information (man utgår från befintliga data) - I allmänhet inget bortfall - Vid diverse statistiskförande inträttningar, t.ex. Statistikcentralen Enkäter (surveys) - Frågeformulär riktade per post, telefon, e-post och dylikt - Riktade (önskade) frågor, till skillnad från registerdata - Målsättningar bestämda på förhand, till skillnad från registerdata - Ofta icke-representativt p.g.a. bortfall => bortfallsanalys nödvändig - T.ex. Den finlandssvenska barometern, Hälsa 2000, egna frågeformulär Enkla tvärsnitt (cross section) (Figur 1) - Berör situationen för de undersökningsenheter just då observeras - En person observeras endast en gång - Ofta känner man bara situationen vid mättilfället - Ingen dynamik: Vet inte hur situationen förändras före och efter tvärsnittstillfället - Innebär ett length bias då man analyser durationer: missar livsförloppet för de personer som inte finns med vid den specifika tvärsnittstidpunkten (Figur 2) - Exempelvis alla arbetslösa i Vasa 31 december 2000 (från Vasa Arbetskraftsbyrå) 3
- Ifall enkla tvärsnitt (från olika mättidpunkter) går att koppla ihop så att samma undersökningsenhet kan identifieras vid mer än ett tillfälle => Longitudinella data (panel data) - Samma person observeras mer än en gång (i motsats till ett enkelt tvärsnitt) - Analys över tiden, vid flera givna tidpunkter eller kontinuerligt - Möjliggör mer långtgående analyser: kan beakta tidsvariation, dvs hur situation/egenskaper för undersökningsenheten förändras - Liknande möjligheter med s.k. flernivådata (multilevel data): upprepade händelser inom samma observationsenhet (födslar, barn, bestraffningar, etc) - Exempel på data av longitudinell karaktär: Työssäkäynnin pitkittäistiedosto (årlig information på individnivå, 1987- ) TYPER AV VARIABLER Tidskonstanta - Genomgående samma värde för en individ (under hela observationsperioden) - Alltid i enkla tvärsnitt (eftersom bara en tidpunkt) - Kan också förekomma i longitudinella data - Naturligt såsom kön, eller p.g.a. konstruktion såsom totalinkomst för hel tidsperiod Tidsvarierande - Ändrar värde över observationsperiodens gång - Exempelvis månadsinkomst under en ettårsperiod - I longitudinella data - Ålder är automatiskt tidsvarierande i longitudinella data - Analyserna blir mer djupgåend, både vad gäller reliabilitet (tillförlitlighet) och validitet (mäter vad som skall mätas) 4
NÅGRA DETALJER OM ESTIMATORER Tre typer av inferens (a) (b) (c) Punktestimering: Vilket är värdet på estimatorn? Intervallestimering: Hur brett är intervallet inom vilket estimatorn finns? Hypotesprövning: Har estimatorn en viss effekt? Önskvärda egenskaper hos estimatorer (a) Väntevärdesriktighet (unbiased): Prickar rätt (mitt i) (b) (c) Effektivitet (efficiency): Variansen (spridningen) är så liten som möjligt Konsistens (consistency): Blir bättre och bättre (går mot det riktiga värdet) ju större stickprovet är DATA SOM VI SKA ANVÄNDA Totaldata: Hela Finlands befolrkning Registerdata: Från Statistikcentralen (baserat på Befolkningsregistret) Tvärsnitt: Situationen i slutet av 1990, 1995, respektive 1998 (ej länkade) Variabler: Tidskonstanta Undersökningsnheteter: Individer Vi begränsar oss till - Tvåspråkiga kommuner i Österbotten + Karleby (minst 8% eller 3000 invånare som talar minoritetsspråket) - 20-64-åringar - Finska eller svenska som modersmål Alla variabler kategoriska (klassindelade) Vikt : antalet personer med samma egenskaper (minskar matrisens storlek) 5
Datafilen, och övrigt kursmaterial, fås via ÅA-dator på följande sätt: (1) Högerklicka på musen då du befinner dig på desktopen (2) Välj New - Shortcut (3) Under "Type the location of the item:" skriver du \\homeserver.vasa.abo.fi\home\jsaarela\delad_formetkv 4) Nu har du en mapp som är länkad till kursmaterialet 5) Dubbelklickar du på filen formetkv_data.sav så startar SPSS och den datafil vi ska använda öppnas 6) Filen är av typen "read only". Du bör alltså spara den på eget område för att kunna göra ändringar i den. Arbetsmarknadens tre bestånd (arbetsmarknadsstatus) (Figur 3) TIDIGARE ANVÄNDNING AV SAMMA DATA (1) Saarela, J. & Finnäs, F. (2003). Unemployment and Native Language: The Finnish Case. Journal of Socio-Economics, 32(1), 59-80. (2) Saarela, J. & Finnäs, F. (2006). Can the Low Unemployment Rate of Swedish speakers in Finland be Attributed to Structural Factors? Journal of Socio-Economics, 35(3), 498-513. Jämföra skillnader i arbetslöshet mellan svenskpråkiga och finskspråkiga - Begränsat till tvåspråkiga kommuner i Finland ( Svenskfinland ) Lägre arbetslöshet bland svenskspråkiga - P.g.a. skillnader i humankapitalfaktorer (ålder, utbildning, kön)? - P.g.a. boendeort (bättre förutsättningar att jobba på vissa orter)? - P.g.a. skillnader i graden av deltagande i arbetskraften? - P.g.a. skillnader mellan de tre olika åren (tvärsnittstidpunkterna)? 6
=> NEJ, inte i nämnvärd omfattning Skillnaderna beror av andra, icke-observerade faktorer; - Sannolikt språkkunskaper och sociala nätverk Exempel på deskriptiva tabeller som har använts - Dylika tabeller vi ska ta fram och tolka i denna kurs 7