Moment 4 Metoder för dataanalys 1 (7) Moment 4: Metoder för dataanalys 4. 1 Statistisk analys Texten på dessa sidor syftar till att disponera och vägleda läsningen av den för momentet anvisade kurslitteraturen. Hänvisningar ges löpande till preciserade avsnitt i kurslitteraturen, men också kompletteringar och förklaringar. För övningsuppgifter: Se anvisningar i Instuderingsfrågor för individuell tentamen. Sammantaget handlar det om frågorna 39 70. För övningsuppgifter: Se även de uppgifter som fortlöpande anvisas i Byströms bok.. Disposition 1. Inledning 2. Några statistiska grundbegrepp 3. Några statistiska mått 3.1 Centralmått 3.2 Spridningsmått 3.3 Sambandsmått Litteratur Utöver denna text: Byström kap 5 7 1. Inledning Litteratur: - Moment 4.1 handlar om att analysera data som består av siffror; statistisk analys. Förutom några grundbegrepp (som i allt väsentligt också återfinns i kapitel 2.5.4 i Byström) behandlar momentet tre grupper av statistiska mått: centralmått, spridningsmått och sambandsmått. Kurskraven när det gäller dessa är att de ska kunna tillämpas som det står i de preciserade kursmålen. Du ska alltså kunna välja och räkna på dessa mått, och i den omfattning som framgår i de följande kommentarerna. Texten är i det följande mycket sparsam. Jan Byströms bok är som framgår av den mycket instruktiv och mycket lämplig för självstudier. 2. Några statistiska grundbegrepp Som alla andra analysformer rör sig också den statistiska med vissa grundbegrepp. De flesta som behövs i just den här kursen introduceras i de angivna kapitlen i Byströms bok. Men tre ska tas upp här. Det är tre begrepp som behövs för att förstå det Byström i just de angivna kapitlen tar för givet.
Moment 4 Metoder för dataanalys 2 (7) VARIABEL Variabel är ett begrepp som behandlats redan i texten till Moment 2, avsnitt 3.1.2. Det syftar alltså på den eller de varierbara egenskaper ( värden ) vi undersöker hos en viss enhet. Medlemsantal är t.ex. en varierbar egenskap hos enheten politiskt parti; variabeln medlemsantal kan inta ett nästan oändligt antal värden från 0 och uppåt. Som framhållits tidigare är variabel inte ett begrepp som används enbart vid statistisk analys. Variabeltänkandet är alltid fruktbart! Men vid statistisk analys också ofrånkomligt! Den följande texten tar upp några basala varianter av i variabelterminologin, alla nyttiga att känna till. Som också redan nämnts i Moment 2 behöver man ofta skilja mellan oberoende och beroende variabel. Det gäller särskilt i förklarande undersökningar. Den som kallas oberoende variabel är den som man antar orsakar eller vanligen i varje fall bidrar till att orsaka värdet på den andra, beroende variabeln. Kön kan antas orsaka eller bidra till att orsaka visst utfall på variabeln lön. Lite slarvigt uttrycks det hela oftast som att kön förklarar lön. Och vi kan knappast tänka det omvända, att en person lön skulle orsaka/förklara personens kön. Det är inte alltid lätt att veta vilka variabler som bör hållas som oberoende och vilka som bör hållas som beroende. Kön och lön är inget problem. Eftersom en orsak aldrig kan komma före dess verkan så måste alltså det som kommer först i tid hållas som oberoende variabel. Men hur är det med variablerna läsning av ledarsidor och grad av politiskt intresse. Att det finns ett samband mellan dem kan vi anta men vilken är riktningen? I det här fallet är det i grund och botten upp till undersökaren att resonera sig fram, och föreslå något. Om och när det är både svårt och nödvändigt för dig att ta ställning i just din uppsatsundersökning bör du diskutera problemet med handledare. Det finns såväl tester som resonemangshjälp att få. I den nyttiga variabelterminologin ingår också ordet dikotomi. I en dikotomi (ibland dikotom variabel ) är variabelns värden delade i två ömsesidigt uteslutande kategorier. Kön har i tidigare moment nämnts som exempel på en naturlig dikotomi. Noggrant räknat gäller det bara det biologiska könet. Det sociala könet, det som också kallas för genus är ingen naturlig dikotomi. Variabeln genus brukar tänkas som ett långt kontinuum med t.ex. maximal femininitet i ena ändpolen och maximal maskulinitet i den andra. En sådan variabel, liksom många andra icke naturliga dikotomier dikotomiseras ibland. Då delas variabeln av undersökaren i två kategorier. Variabeln ålder delas t.ex. i kategorierna yngre och äldre, variabeln inkomst i högre och lägre. Ett syfte med sådan dikotomisering kan vara att man vill öka överskådligheten i ett datamaterial. Ett annat kan vara att det ibland underlättar fortsatt bearbetning och analys. I tänkandet om variabler ingår också att kunna skilja mellan diskreta och kontinuerliga variabler. Diskreta kallas sådana variabler som har klart urskiljbara värden med i princip givna gränser. Biologiskt kön är ett exempel. Antal barn i ett hushåll är ett annat. Barnen kan vara 1, 2, 3 till antalet. Det som kalas kontinuerlig variabel har inga sådana gränser. Ålder är ett exempel. Genus ett annat. Attityd är ett tredje. Dessa variabler kan fingraderas i oändlighet. Där måste alltså undersökaren själv konstruera gränser för sina värden. Ålder kan räknas som antal levnadsår vilket ju är ganska vanligt. Attityd till något fenomen kan räknas som Huvudsakligt för, Huvudsakligt mot eller Varken/eller.
Moment 4 Metoder för dataanalys 3 (7) N OCH n N och n är två symboler som ofta förekommer i statistiska redovisningar. Båda står för engelskans number och båda syftar på hur många analysenheter som ingått i undersökningen, som t.ex. antalet respondenter eller tidningsartiklar eller TV-inslag eller inlägg från talarstol eller vad vi nu undersöker. Skillnaden mellan de två hänger samman med huruvida undersökningen är en totalundersökning eller en urvalsundersökning (jfr. texten till Moment 3, avsnitt 2.2 (1)). I en totalundersökning av en population används bokstaven N för att beteckna hela populationens storlek. I en urvalsundersökning används ibland samma beteckning för samma ändamål men där används också och alltid n för att beteckna urvalets storlek. N och n avser att ge läsaren viktig information. Symbolerna förekommer vanligast i anslutning till resultatredovisning i t.ex. tabeller eller koordinatsystem med kurvor. En undersökning av roligaste fritidsintresse bland elever i åk 4 på några skolor kan t.ex. redovisas så här: Roligaste intresse Vara ute med kompisar 32% Datorspel 27% TV-tittande 20% Sport & idrott 11% Läsa 5% Annat 3% Ej svar 2% 100% (N=478) N = 478 säger här alltså dels att resultatet grundas på en totalundersökning, dels att hela populationen alla elever i åk 4 på de aktuella skolorna var 478 stycken. I en urvalsundersökning där 62 av de nästan 500 eleverna tillfrågats kan i stället presenteras så här: Roligaste intresse Vara ute med kompisar 32% Datorspel 27% TV-tittande 20% Sport & idrott 11% Läsa 5% Annat 3% Ej svar 2% 100% (n=62) Den sista tabellen kunde också om man vill kompletterats med N = 478. Observera att bortfallet de som t.ex. vägrat att svara ingår i N och n.
Moment 4 Metoder för dataanalys 4 (7) DATANIVÅER Det tredje och sista begreppet är datanivå. Det är en term som syftar på att de variabler vi använder i en undersökning kan skilja sig åt vad gäller vissa allmänna egenskaper. Karaktären hos de data vi får fram gör att vi kan tala om data på olika nivåer. Och den nivå, de egenskaper data har avgör sedan vilka statistiska beräkningar som kan göras. Vi kan inte alltid välja datanivå variablerna är som dom är även om den erfarne ibland trixar med dom men samtidigt gäller att ju högre nivå, desto fler statistiska möjligheter. I den här kursen skiljer vi på tre datanivåer. Märk att Jan Byström talar om fyra. Rent praktiskt, i samhällsvetenskapen, kan vi dock tänka bort en av dem (vilket förklaras under den följande rubriken om intervallnivå.) Intervallnivå (eller kvotnivå) Intervallnivån är den högsta. Här finns variabler med värden som vanligtvis helt naturligt kan uttryckas med siffror. Längd, antal, tid, vikt, inkomst, förmögenhet, hastighet Poängen är att med sådana variabler, med naturliga siffervärden, så kan vi använda alla fyra räknesätten när vi analyserar data. Det här stycket bör läsas och kan sedan glömmas: Den noggranne statistikern, som Jan Byström, skiljer mellan intervallnivå och kvotnivå. Noggrant räknat finns alla de exempel som gavs i stycket ovan på kvotnivå. Skillnaden mellan nivåerna är egentligen den att på kvotnivån finns sifferdata från måttstockar som har en naturlig nollpunkt, benämnd just noll. På den (egentliga) intervallnivån finns data från måttstockar som saknar sådan nollpunkt. Därför går det inte att på den (egentliga) intervallnivån multiplicera eller dividera, bara addera och subtrahera. Vårt sätt att mäta temperatur i Celsiusgrader är ett exempel och det enda som brukar anföras. Vi kan säga att skillnaden mellan 10 C och 20 C är dubbelt så stor som skillnaden mellan 20 C och 25 C, men vi kan inte i avsaknad av den efterfrågade nollpunkten säga att 20 C är dubbelt så varmt som 10 C. Byter vi till Fahrenheit är skillnaden mellan samma värme (68 F 50 F =) 18 grader och ingen fördubbling. Alla relevanta samhällsvetenskapliga måttstockar har emellertid sådan nollpunkt. Antal, vikt, förmögenhet; alla kan de vara noll i betydelsen intet alls. Därför behöver vi inte bekymra oss över skillnaden mellan intervall- och kvotdata. De flesta samhällsvetare använder också termen intervalldata för den här nivån. Ordinal datanivå På ordinal datanivå finns variabler med sådana värden som bara kan rangordnas. Intervalldata kan rangordnas (i en ordning som t.ex. fattig, rik, rikast). Men den rangordningen bygger på siffervärden som anger rangordningen. På ordinal datanivå har vi inte tillgång till sådana siffervärden. Skillnaderna mellan värden kan därför bara uttryckas som rangordningar och med hjälp av ord. Därför kan inte heller storleken på skillnaderna uttryckas. Militärer rangordnar sig (uppifrån räknat) som general, överste, major, kapten En major kan inte sägas vara dubbelt så mycket som en kapten. Eller en general fyra gånger så mycket. Att den siste är högre i rang är däremot klart.
Moment 4 Metoder för dataanalys 5 (7) Ordinaldata används ofta vid t.ex. attitydundersökningar. Frågan kan vara: Vad tycker du om EU:s jordbrukspolitik? Respondenterna erbjuds kanske fyra svarsalternativ: Dåligt Ganska dåligt Ganska bra Mycket bra Data från en sådan undersökning finns därmed på ordinal datanivå. Det begränsar den statistiska analysen. Vi kan inte, som om det hade handlat om inkomster och svarsalternativen uttryckts i kronor, beräkna medelvärden. (Här använder vi i stället ett annat mått; medianvärde; se mer i boken). Nominal datanivå Detta är lägsta nivån. Data som finns på nominal nivå är sådana som är enbart kategoriserande, som inte ens kan rangordnas. Variabeln personers bostadsort är en sådan. Variabeln kan tilldelas värden som Säffle, Malung, Karlsborg, Hjo, Eslöv och alla andra orter. Men inte mer. Variabeln kön finns på nominal nivå, liksom variablerna möbelsorter, politiska partier och t.ex. dagstidningar. De kan alla kategoriseras och kategorierna kan tilldelas namn så att vi kan skilja dem åt, men inte mer (nomen betyder just namn). Förväxla inte exemplen på denna nivå med antalsvariabler och liknande; antal med Säffle som bostadsort finns på intervallnivå, liksom antal medlemmar i olika politiska partier, liksom storleken på partiernas budgetar etc. 3. Några statistiska mått Litteratur: Byström kap 5 7 3.1 Centralmått Litteratur: Byström kap 5 För många typer av data vi samlar in för en undersökning har får vi ett behov av att i rapporten uttrycka vad som är typiskt i någon mening (hur ser den typiske universitetsläraren ut nu då?). Mått som handlar om detta typiska kallas i den statistiska analysen för centralmått. Tre sådana typvärde, medianvärde och (aritmetiskt) medelvärde beskrivs i Byström. De har alla sin bästa eller rentav enda hemvist på olika datanivåer. Det ingår i kursen att kunna tillämpa dessa, vilket förstås förutsätter att man förstår dem. 3.2 Spridningsmått Litteratur: Byström kap 6 Medan centralmåttet pekar ut det typiska som en sorts mittpunkt för insamlade data, så ger spridningsmåtten information om hur typiskt det typiska egentligen är. Om alla universitetslärare är 47 år så är deras medelålder 47 år och den medelåldern är väldigt typisk.
Moment 4 Metoder för dataanalys 6 (7) Spridningen på åldrar är rent av noll (0). Men medelåldern kan ju också vara 47 år utan att en enda universitetslärare är 47 år. Någon kan vara 69 och fortfarande i tjänst. Någon annan 32 och någon 21 osv. Nu finns det spridning. Den exakta medelåldern 47 är inte längre lika typisk. Samma förhållande gäller när vi talar om typiska moderatväljare, typiska valskolkare, typiska aktivister och så vidare. Spridningsmåttet uttrycker just detta, hur typiskt är det typiska egentligen. Byström behandlar tre typer av spridningsmått. Variationsvidden och kvartilavvikelsen ska i den här kursen kunna tillämpas, det vill säga beräknas (och därmed förstås). Det tredje måttet standardavvikelsen räcker det med att förstå. (Om det på tentamen ges två uppgifter om standardavvikelser för två olika grupper eller analysenheter så ska du kunna beskriva skillnaderna i spridning längs den variabel mätningen avsåg). 3.3 Sambandsmått Litteratur: Byström kap 7 Sambandsmått (korrelationsmått) handlar om samband mellan minst två variabler. Hur ser sambandet ut mellan personers utbildningsnivå och deras valdeltagande? Till skillnad från central- och spridningsmåtten ingår här alltså flera variabler i analysen. Vi talar ibland om bivariat analys (två variabler) eller multivariat (tre eller fler variabler) istället för univariat (en variabel). Om koordinatsystem Byströms kapitel 7 ger en utmärkt grund för att förstå sambandsmått. Innan du läser texten i Byström är följande uppgifter om hur vi ställer upp koordinatsystem av vikt. Den sortens koordinatsystem vi jobbar med här har två axlar. Generellt benämns de med bokstäverna y respektive x (se figur). Varje axel representerar en av variablerna och ju längre Inkomst Beroende y F C A E D B x Utbildningsnivå Oberoende uppåt vi rör oss på y-axeln respektive ju längre höger vi rör oss på x-axeln, desto högre värde har variabeln. I exemplet ovan är inkomsten 0 och utbildningen obefintlig i origo (där axlarna möts). Just här har inga värden satts på axlarna men ju mer vi flyttar en markering uppåt på y- axeln, desto högre inkomst representerar den.
Moment 4 Metoder för dataanalys 7 (7) A, B, C, D, E och F är i detta fall sex olika personer som vi efter undersökning av inkomst repektive utbildningsnivå placerat in i koordinatsystemet. A har en inkomst på den nivån pilen mor y-axeln visar och en utbildning på den nivå pilen mot x-axeln visar. Inkomstordningen mellan de sex är A, B, E, D, C F. Utbildningsordningen är B, D, E, A, C och F. Märk nogsamt att den variabel vi betraktar som beroende variabel alltid ska placeras på y- axeln och ha sitt lägsta värde i origo. Den variabel vi betraktar som oberoende ska på motsvarande sätt alltid placeras på x-axeln och ha sitt lägsta värde i origo. (Plugga in!). Det finns ingen lagstiftning på detta område men gör du annorlunda kommer alla att missförstå dig, ungefär som om du inte kan prata rent. Om kursens krav vad gäller sambandsmåtten: Följande ska särskilt uppmärksammas i Byströms kapitel 7: Olika sätt att presentera samband: spridningsdiagram, korrelationstabell, linjer och siffervärden (det vill säga mått, mer nedan). Ord för sambandens riktning och styrka och innebörden av dessa. Tolkning av rangkorrelationskoefficienten r rang och produktmomentskorrelationskoefficienten r xy liksom vad de huvudsakliga skillnaderna är mellan dessa båda mått. Kursens krav vad gäller sambandsmått är att de ska kunna tillämpas men bara i den meningen att de ska kunna tolkas, vilket förutsätter att de förstås. Det betyder t.ex. att du ska kunna ungefärligt illustrera hur ett starkt positivt samband mellan utbildningsnivå och inkomst kan se ut och ritas i ett koordinatsystem. Det betyder också att ett uttryck som r xy = -0,7 ska kunna förklaras och ungefärligt illustreras i ett diagram, liksom att du ska kunna översätta till ord och (ungefärliga) siffror vad du ser i ett koordinatsystem. En korrelationstabell ska likaså kunna förklaras. I tentamen kommer däremot inte att ingå att du ska räkna ut mått. Märk slutligen: Det samband eller den korrelation vi talar om här är enbart statistisk. Det kan redan i figuren ovan se ut som om det finns någon sorts samband mellan utbildningsnivå (oberoende variabel) och inkomst (beroende variabel). Tendensen verkar vara den att ju högre utbildning, desto större inkomst. Men för att tala om verkligt samband, inte bara statistiskt, måste vi göra troligt att det finns några mekanismer som fungerar så att högre utbildning ger mer lön (vilket kanske inte är svårt i just det fallet; det finns färre högutbildade än som efterfrågas och därför stiger priset, lönen). Men det är också så här att nästan vilka variabler som helst, handlande om vad som helst, som vi kör mot varandra i en sambandsanalys kommer att kunna visa på något statistiskt samband. Antal sjuksköterskor i Australien under olika år samvarierade för några år sedan med antalet arbetsolycksfall i Sverige (enligt okontrollerad uppgift). Något verkligt samband kan det väl knappast vara tal om? Hur skulle den förmedlande mekanismen se ut?