(21 november 2016) GRUNDKURS I STATISTIK (5 SP, KURSKOD 700010.0) FÖRELÄSNINGSUNDERLAG LÄSÅRET 2016-2017 Jan Saarela jan.saarela@abo.fi www.vasa.abo.fi/users/jsaarela/js_undervisning.html 1
Innehåll Kapitel 1: Begrepp Kapitel 2: Tabeller och grafik Kapitel 3: Grunderna i SPSS Kapitel 4: Deskriptiv statistik Kapitel 5: Korrelation 2
KAPITEL 1: BEGREPP Målsättning: Att lära sig att behandla, presentera, analysera och tolka kvantitativa uppgifter med hjälp av statistiska program. Öka kunskapen om och förmågan att tillgodogöra sig existerande samhällsstatistik. Utgångspunkt: För samhällsvetare kommer behovet av att kunna handskas med statistiska uppgifter att öka. Statistik är viktigt inte enbart under studierna, utan framförallt i arbetslivet. De statistiska metoderna är hjälpmedel eller analysinstrument som inte har något självständigt värde. Mycket kan göras med enkla metoder och förmåga att använda grundläggande funktioner i Excel viktig. Viktigt att inse: Kvantitativa analyser lär man sig genom erfarenhet, dvs övning, övning, och övning. De kan inte enbart läsas och förstås. Jämför med att spela piano. Några grundbegrepp Några triviala(?) distinktioner: Antal: svarar på frågan: hur många. Anges alltså i absoluta tal, stycken. Andel: svarar på frågan: hur stor del av något. Anges som tal mellan 0 och 1; hälften, en tredjedel osv, eller i procent. Tabell: koncentrerad, överskådlig uppställning av fakta i rader och kolumner, vanligtvis av fakta som kan uttryckas med siffror. Figur/diagram: figur som åskådliggör sambandet mellan två eller flera storheter. Innehåller grafiska element såsom linjer eller staplar Begrepp: Statistisk undersökning: Insamling, behandling och analys av kvantitativa (numeriska) uppgifter Undersökningenhet/observationsenhet: De objekt informationen gäller. T.ex. individer, kommuner, stater. Variabel: En egenskap som studeras hos observationsenheten. T.ex. ålder, utbildning, språkkunskaper, skattörespris, BNP. Olika observationsenheter kan ha olika värde på variabeln i fråga. Deskriptiv/beskrivande statistik: Sammanfattar, presenterar informationen som sifferuppgifterna ger. (Denna kurs detta läsår, dvs del 1) 3
Statistisk inferens/analys: Analyserar data med hjälp av statistiska metoder som bygger på och utnyttjar sannolikhetsteori. Huvudsakligen vid stickprovsanalyser eller experiment. (Del 2, vilken utgår detta läsår) Variabeltyper: Den egenskap (variabel) som studeras kan vara kvalitativ eller kvantitativ. Betrakta följande variabler hos medlemmarna i en undervisningsgrupp: kön längd vikt föräldrarnas utbildning inställning till statistik ålder hårfärg hemort studentexamensbetyg kroppstemperatur IQ inkomst politisk åskådning Om variabeln är kvalitativ kan klassificeringen (mätningen) ske enbart efter något kännetecken, eventuellt kan en rangordning företas. I det förra fallet sägs variabeln vara mätt på nominalskala (kön, hemort, hårfärg), i det senare på ordinalskala (föräldrarnas utbildning, inställningen till statistik, politisk åskådning). För den statistiska behandlingen kodas oftast även kvalitativa variabler med siffervärden, men observera att man vid denna kodning kan använda vilka siffervärden som helst, dvs de explicita siffervärdena har ingen kvantitativ innebörd. Observera också att även om man använder siffror vid kodningen är beräkningar meningslösa. Om den studerade egenskapen är kvantifierbar och själva mätresultatet har betydelse sägs variabeln vara kvantitativ. Ifall en egentlig nollpunkt saknas sägs variabeln vara mätt på intervallskala (IQ, kroppstemperatur) i annat fall på kvotskala (ålder, längd, vikt, inkomst). De kvantitativa variablerna kan också indelas med avseende på om de är diskreta eller kontinuerliga. En diskret variabel kan anta enbart vissa bestämda värden, (t.ex. antal syskon, födelseår), medan en kontinuerlig variabel (i princip) kan anta alla värden inom ett intervall (t.ex. kroppstemperatur, vikt, längd). Undersökningstyper: Totalundersökning. Man har uppgifter om alla individer (undersökningsenheter). Ingen slumpmässig (statistisk) osäkerhet. Man kan beskriva, analysera och sammanfatta uppgifterna. T.ex. folkräkningar, olika register. Stickprov. Man samlar uppgifter om ett urval av den totala undersökningspopulationen och försöker dra slutsatser om denna. T.ex. Gallupar, enkäter. Experiment. Man insamlar uppgifter om grupper av individer som utsätts för olika behandling och studerar behandlingarnas effekt. Olika slag av data: Tvärsnittsdata. Informationen vid en bestämd tidpunkt. 4
Perioddata. Informationen avser händelser under en tidsperiod (tidsserier) Longitudinella register. Sammankopplar individuppgifter från flera tidpunkter Retrospektiva register. Information om livshistorier (tillstånd och händelser) fram till insamlingstidpunkten Prospektiva register (paneler). Information från en viss tidpunkt framåt i tiden Samhällsstatistik En effektiv samhällsadministration förutsätter att man har tillgång till aktuella och tillförlitliga uppgifter om olika samhällssektorer. I Finland regleras statistikproduktionen av en särskild statistiklag (http://www.finlex.fi/sv/laki/ajantasa/2004/20040280 ). Det statliga statistikväsendet omfattar 18 ämbetsverk eller inrättningar av vilka 13 producerar statistik för Finlands officiella statistik. Av denna svarar Statistikcentralen för ungefär tre fjärdedelar. Statistikcentralens uppdrag är att - Sammanställa statistik och utredningar som beskriver samhällsförhållandena o Samla in och upprätthålla datamaterial som beskriver samhället o Handha informationstjänst och främja utnyttjandet av statistik o Utveckla statistikmetoder och göra undersökningar som betjänar utvecklingen av statistik - Handha den allmänna utvecklingen av det nationella statistikväsendet i samarbete med andra statliga myndigheter o Koordinera det nationella statistikväsendet o Delta i och koordinera Finlands internationella statistikarbete (http://www.stat.fi/org/tilastokeskus/index_sv.html) Statistikcentralens kvalitetskriterier för statistikproduktionen följer internationella normer (http://www.stat.fi/meta/svt/svtlaatukriteerit_sv.html) På Statistikcentralens web-sidor http://www.stat.fi finns utförliga beskrivningar av den tillgängliga statistiken, använda klassificeringar, samt länkar till ett otal statistikproducenter, både i Finland och internationellt. I dagens läge kan man ladda ned stora mängder statistik, och inom detta område sker det dessutom en mycket snabb utveckling. Detaljerad information om den offentliga statistiken, vilken innehåller även definitioner och klassificeringar, finns på http://www.stat.fi/meta/index_sv.html En (historiskt sett) mycket viktig publikation är Statistisk årsbok som utgetts sedan 1879 och innehåller sammanfattande information om alla samhällssektorer http://www.stat.fi/tup/kirjasto_tieto/tilastolliset_vuosikirjat_sv.html 5
Se även http://www.doria.fi/ för inskannad äldre statistik, samt mycket annat. Rent allmänt gäller att Statistikcentralen har föredömligt mycket information på svenska, men en del statistik finns enbart på finska sidor, så det kan löna sig att se på dessa ifall man inte hittar det man söker på de svenska sidorna. Länkar till olika länders statistikbyråer finns på http://www.stat.fi/tup/tilvir/index_sv.html I dagens läge finns en allt större del av statistiken i form av omfattande databaser, ur vilka man själv väljer ut vilken information man vill ha. Databaser med svensk text vid Statistikcentralen finns på http://www.stat.fi/tup/tilastotietokannat/index_sv.html. En stor del av databaserna är avgiftsbelagda, men det finns även en hel del fritt tillgängliga. De flesta statistikbyråerna använder sig av ett system med s.k. PX-Webteknik för att plocka fram och ladda ned de relevanta uppgifterna (se t.ex. http://www.stat.fi/tup/pcaxis/px_linkit_sv.html). Gränssnitten ser olika ut, men om man lärt sig systemet i en situation bör man enkelt kunna utnyttja programmet i de flesta fall. En utförlig beskrivning enligt det gränssnitt som Statistikcentralen använder finns på http://tilastokeskus.fi/tup/tilastotietokannat/ohjeet_sv.html En ny tjänst som på ett intressant sätt presenterar folkräkningsstatistik finns på http://www.stat.fi/tup/vl2010/kartat.html På adressen http://www.findikaattori.fi/sv finns också samlat enkla sammanställningar av statistik från olika samhällssektorer Institutet för hälsa och välfärd (THL) upprätthåller en omfattande databas, SOTKAnet http://uusi.sotkanet.fi/portal/page/portal/etusivu SOTKAnet har en bred täckning av statistikuppgifter om finländarnas välfärd och hälsa. Indikatorbanken innehåller också centrala uppgifter om hälsotillståndet samt konsumtionen av social service och hälso- och sjukvård i olika europeiska länder. 6
KAPITEL 2: TABELLER OCH GRAFIK Det finns i grunden tre olika sätt att presentera kvantitativa uppgifter: som text, tabeller eller figurer. Alla tre sätten bör ha samma sanningskrav. De är inte varandra uteslutande. Text: lämpar sig för enstaka uppgifter. Behövs då tabeller eller figurer? Tabeller: skilj mellan två väsentligen olika funktioner. a) Total redovisning, uppslagstabell, källa för fortsatta beräkningar/sammanställningar. Bör vara lätt att slå upp i: bokstavsordning, enligt exempelvis frågenummer i enkät. Jämför telefonkatalog, kommunvisa uppgifter. b) Analys- eller redovisningsinstrument för att klargöra, illustrera resultat, underlätta jämförelser/tolkningar. Sammanfattar, analyserar, har ett budskap. Figurer: ofta alternativ till tabeller när det krävs mindre noggrannhet. Jämför visarur mot digitalur. Speciellt lämpade för att illustrera trender. Olika personer har dock olika förmåga att tolka tabeller och figurer. Exempel på mindre lyckad presentation: personalkostnader vid ÅA (ur personalrapport 2003). 7
Tabeller Rent allmänt gäller för både tabeller och grafiska bilder att de i möjligaste mån bör vara självbärande. Detta innebär att de bör innehålla så detaljerade rubriker och förklaringar att de kan läsas och förstås utan att man läser själva texten. Några allmänna regler för användning av tabeller, vilka gäller i främsta hand då tabeller används inne i en text för att sammanfatta viktig information (enligt b) här ovan): - Sortera tabellen efter den väsentliga variabeln så att ditt budskap kommer fram. Vilket är tabellens syfte? - Högerjustera sifferkolumner. Entalssiffrorna under varandra, tiotalssiffrorna under varandra osv. - Konstuera så att jämförelsen sker kolumnvis, och inte radvis (eftersom lättare att jämföra). - Använd få decimaler. Vanligtvis räcker det med en decimal för procenter. - Använd samma antal decimaler. - Tid ska läsas från vänster till höger, eller uppifrån och nedåt. - Är exakta värden viktiga eller kan man avrunda? Som regel har man förmåga att handskas med enbart två gällande siffror. - Undvik onödiga tecken, text eller linjer i tabellen. Stödlinjer och viss färgsättning kan dock ibland förbättra läsbarheten. - Tänk själv: vad behövs, vad skulle du vilja läsa? 8
Nedanstående tabell är ett utmärkt exempel på en i många avseenden dålig presentation. Befolkningen efter språk samt antalet utlänningar och landareal efter område 2009 Annat Andel språk Totalt Finskspråkiga Svenskspråkiga Andel svenska annat språk totalt Pohjanmaan maakunta - Österbottens 177038 80354 90222 6455 50,96194 % 3,64611 % landskap..isokyrö - Storkyro 4953 4886 30 37 0,605694 % 0,747022 %..Kaskinen - Kaskö 1442 966 407 69 28,22469 % 4,785021 %..Korsnäs 2239 80 2010 149 89,77222 % 6,654757 %..Kristiinankaupunki - Kristinestad 7254 3053 4085 116 56,31376 % 1,599118 %..Kruunupyy - Kronoby 6720 1042 5594 84 83,24405 % 1,25 %..Laihia - Laihela 7794 7652 83 59 1,064922 % 0,756993 %..Luoto - Larsmo 4719 299 4368 52 92,56198 % 1,101928 %..Maalahti - Malax 5614 514 4915 185 87,54898 % 3,295333 %..Mustasaari - Korsholm 18338 5328 12795 214 69,77315 % 1,166976 %..Närpiö - Närpes 9464 542 8292 630 87,61623 % 6,656805 %..Oravainen - Oravais 2207 231 1746 230 79,11192 % 10,42139 %..Pedersören kunta - Pedersöre 10821 970 9734 117 89,95472 % 1,081231 %..Pietarsaari - Jakobstad 19627 7820 11074 730 56,42228 % 3,719366 %..Uusikaarlepyy - Nykarleby 7452 600 6625 227 88,90231 % 3,046162 %..Vaasa - Vasa 59175 41134 14602 3436 24,67596 % 5,806506 %..Vähäkyrö - Lillkyro 4740 4626 81 33 1,708861 % 0,696203 %..Vöyri-Maksamaa - Vörå-Maxmo 4479 611 3781 87 84,41616 % 1,942398 % Tabellen nedan är bearbetad, med (primärt) syfte att jämföra kommunerna med avseende på andelen personer med främmande språk. Tabell. Befolkningen efter språk kommunvis i landskapet Österbotten 2009. Totalt Finskspråkiga Svenskspråkiga Annat språk totalt Andel svenska % Andel annat språk % Österbottens landskap 177038 80354 90222 6455 51,0 3,6 Oravais 2207 231 1746 230 79,1 10,4 Närpes 9464 542 8292 630 87,6 6,7 Korsnäs 2239 80 2010 149 89,8 6,7 Vasa 59175 41134 14602 3436 24,7 5,8 Kaskö 1442 966 407 69 28,2 4,8 Jakobstad 19627 7820 11074 730 56,4 3,7 Malax 5614 514 4915 185 87,5 3,3 Nykarleby 7452 600 6625 227 88,9 3,0 Vörå-Maxmo 4479 611 3781 87 84,4 1,9 Kristinestad 7254 3053 4085 116 56,3 1,6 Kronoby 6720 1042 5594 84 83,2 1,3 Korsholm 18338 5328 12795 214 69,8 1,1 Pedersöre 10821 970 9734 117 90,0 1,1 Larsmo 4719 299 4368 52 92,6 1,1 Laihela 7794 7652 83 59 1,1 0,8 Storkyro 4953 4886 30 37 0,6 0,7 Lillkyro 4740 4626 81 33 1,7 0,7 9
Grafisk framställning (figurer) Målsättningen med en figur bör alltid vara att den är informativ, och att den sammanfattar data eller underlättar förståelsen. En figur bör inte tas med enbart som en illustration i den meningen att den skall vara trevlig och lätta upp en (tråkig) text. Här behandlas kort de vanligaste slagen av grafiska figurer. Generellt gäller att grafisk framställning kräver ett visst mått av artistiskt öga, och övning. Det finns inte många absoluta sanningar och det är därför inte heller helt lätt att säga exakt hur man skall göra. Det är snarare lättare att visa på fällor och fel, som man bör akta sig för. Observera också att grafikprogram enbart är tekniska hjälpmedel, en dålig figur kan inte försvaras med att programmet gjorde den så här. Ovanstående gäller framförallt när man redovisar uppgifter. Grafik kan också vara ett utmärkt hjälpmedel i analysen av statistiska material. För detta ändamål är slutfinishen av mindre betydelse, men för att undvika feltolkningar är det väsentligt att figurerna uppgörs på ett korrekt sätt. Några grundläggande saker om grafik: - Datatäthet (data density index). Mängden information i förhållande till ytan. Eftersträvar högt index. - Grafikskräp (chart junk). Element som inte innehåller information, såsom olika utsmyckningar, bakgrundsfärger (mönster), 3-D. Data-bläckförhållandet (data-ink index) - Visuell jämförbarhet: lögn-faktor. - Effektivitet: ska behöva flacka med blicken så litet som möjligt. - Informationsbärande element: punkter, linjer, ytor, text, färger. Linjer visar trender, ytor visar mängd. Linjediagram I ett kurv- eller linjediagram anger den vågräta x-axeln ofta tid, men den kan även beteckna någon annan kontinuerlig variabel. En linje skiljer sig från andra grafiska element i den meningen att storleken inte förmedlar någon information. Därför lämpar den sig inte för att illustrera mängd, men däremot förändringar och trender. I ett kurvdiagram behöver y-axeln inte börja från noll utan man kan kapa axeln. Tid går alltid från vänster till höger. Se exemplet nedan. 10
Födda och döda svenskspråkiga 1981-2002 Antal 4100 3900 3700 3500 3300 3100 2900 1980 1985 1990 1995 2000 År Födda Döda Vanliga problem a) För många kurvor, vilket gör det svårt att skilja åt och tolka: 35 30 25 Arbetslösheten landskapsvis 1990-2003 Nyland Egentliga Finland Satakunta Tavastland 20 15 10 5 0 1985 1990 1995 2000 2005 Birkaland Päijänne- Tavastland Kymmene Södra Karelen Södra Savolax Norra Savolax Möjlig lösning är att fokusera på de jämförelser (kurvor) som är väsentliga, eller dela upp i flera figurer. 11
b) Kurvor på väldigt olika nivå, vilket oftast ger intryck av att (de relativa) förändringarna är större för kurvor som ligger högre: Dödsrisker åldersklassvis 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1980 1985 1990 1995 2000 2005 35-39 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 Möjlig lösning är att dela upp i flera figurer, och/eller redovisa relativa förändringar. c) Proportionen mellan höjd och bredd, eftersom det visuella intrycket påverkas av figurens form. Experimentera för att uppnå bästa resultat: Andel med finsk partner 45 % 40 35 30 25 20 15 1950 1960 1970 1980 1990 2000 År Svenska män Svenska kvinnor Andel med finsk partner 45 % 40 35 30 25 20 15 1950 1960 1970 1980 1990 2000 År Svenska män Svenska kvinnor 12
Tusental Tusental d) Felaktig skala på x-axeln (exemplet är från en avhandling pro gradu i socialpolitik, vilket sägs visa den kraftiga befolkningstillväxten i Esbo 1975-1991 ): Befolkningstalet i Esbo 1975-2000 250 200 150 100 50 0 1975 1980 1985 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 Med korrekt skala ser figuren ut så här: Befolkningstalet i Esbo 1975-2000 250 200 150 100 50 0 1975 1980 1985 1990 1995 2000 13
Ett ytterligare exempel på felaktig skala, där figuren sägs visa en kraftig ökning av kostnaderna mellan åren 1985 och 1990, därefter följer en fem års jämn period för att åter börja stiga efter 1995 : 7000 6000 5000 4000 3000 2000 1000 0 Med korrekt skala ser figuren ut så här: 7000 6000 5000 4000 3000 2000 1000 0 1975 1980 1985 1990 1995 2000 Stapeldiagram En grundläggande egenskap som jämförs i stapeldiagram är ytan. Om alla staplar har samma bredd innebär detta att längden förmedlar samma information. En konsekvens är att vid användning av stapeldiagram får skalan på y-axeln inte brytas. Det finns två olika slag av stapeldiagram: stående och liggande (lodräta och vågräta). Stående stapeldiagram används i främsta hand när variabeln på den vågräta axeln är kontinuerlig, t.ex. tid. I andra situationer är liggande staplar att föredra. Använd ej för många staplar. 14
% Fokusera på data, minimera färganvändningen och dödutrymme, och gör stödlinjerna så diskreta som möjligt. Nedanstående är ett vulgärexempel på en figur utan egentligt budskap. Utbildningsnivå efter socioekonomisk bakgrund 50 45 40 35 30 25 20 15 10 5 0 Grundnivån Lägre mellannivån (3) Högre mellannivån (4) Lägsta högre nivån (5) Lägre kandnivån (6) Högre kandnivån (7) Anpassa också staplarnas bredd och avståndet mellan dem. Nedanstående figur... Statistikstudenter enligt hemort 30 25 20 15 10 5 0 Norra Österb Mellersta Österb Södra Österb Södra Finland Finska orter...är bättre än följande... 15
Statistikstudenter enligt hemort 30 25 20 15 10 5 0 Norra Österb Mellersta Österb Södra Österb Södra Finland Finska orter Cirkeldiagram Sektorer illustrerar den relativa fördelningen. Formen är tilltalande, men informationsvärdet är ringa (kräver ofta tilläggsinformation). Använd ej för många sektorer. Jämför nyttan av stapeldiagrammet jämfört med cirkeldiagrammet: E A B D C E D C B A 0 5 10 15 20 25 16
Gary Klass rekommendationer angående cirkeldiagram (rules for pie charts): 1. Undvik cirkeldiagram. 2. Använd dem enbart för data som summerar till en meningsfull helhet (total). 3. Använd aldrig tredimensionella cirkeldiagram. De är ännu värre än tvådimensionella. 4. Undvik jämförelser mellan mer än ett cirkeldiagram. För jämförelser av fördelningar kan även lagrade staplar (stacked bars) med fördel användas. Allmänt Enkla informativa figurer är att föredra. Informationen är som regel tvådimensionell. En tredje dimension minskar oftast informationsvärdet. Smycka inte ut figurerna i onödan. E D A B C B A C E D Ovanstående två figurer baseras på samma data som den tidigare tvådimensionella, men är sedda ur olika synvinklar. 17
Grundnivån Lägre mellannivån (3) Högre mellannivån (4) Lägsta högre nivån (5) Lägre kandnivån (6) Högre kandnivån (7) Män Kvinnor Procent Procent Denna figur... Utbildningsnivån könsvis 40 35 30 25 20 15 10 5 0 Män Kvinnor...är avgjort bättre än följande... Utbildningsnivån könsvis 40 30 20 10 Män Kvinnor 0 18
Man kan erhålla ett (felaktigt) tredimensionellt intryck i en tvådimensionell figur genom färgsättningen.valet av färger är sålunda inte betydelselöst. Jämför figurerna nedan. 19
Välj färger på något logiskt sätt. Undvik att färglägga mindre viktiga kategorier med starka färger. Försök också att få så små vita områden som möjligt, t.ex. genom placeringen av etiketterna. Undvik ram runt etiketterna. Jämför figurerna nedan. Motiverat att införa hemkomsttider för högstadieelever Utvecklings psykologi Socialpolitik Statskunskap 0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % Helt av samma åsikt Delvis av samma åsikt Kan inte säga Delvis av annan åsikt Helt av annan åsikt 20
Ytterligare litteratur för den intresserade Stephen Few har skrivit flera böcker på området. På adressen http://www.perceptualedge.com/ finns länkar till en stor mängd litteratur inom området samt även exempel på grafik med kommentarer. Mer specifikt på http://www.perceptualedge.com/library.php#articles Howard Wainer har skrivit tre informativa verk. How to Display Data Badly, The American Statistician, 1984 http://www.rci.rutgers.edu/~roos/courses/grstat502/wainer.pdf. Den behandlar många av de vanligaste felen eller problemen vid grafisk framställning. Understanding Graphs and Tables. Educational Researcher, Vol 21. No. 1, pp 14-23. Improving Tabular Displays, With NAEP Tables as Examples and Inspirations. Journal of Educational and Behavioral Statistics, Spring 1997, Vol 22, No. 1, pp 1-30 Andrew Ehrenberg har skrivit ett flertal artiklar speciellt om tabeller och tolkning av dessa (http://marketingscience.info/professor-andrew-ehrenbergs-publications), t.ex. Rudiments of Numeracy (1977), The Problem of Numeracy och Reading a Table: An Example. 21
KAPITEL 3: GRUNDERNA I SPSS Programpaketet SPSS (Statistical Package for the Social Sciences) är ett hjälpmedel för att statistiskt analysera numeriska uppgifter. Programpaketet är omfattande och det innehåller många statistiska metoder, vilket innebär att man inte kan gå igenom och lära sig allt (jfr Word och Excel). Liksom i andra program kan man utföra samma sak på olika sätt, t.ex. via menyer, genom snabbval eller genom att skriva kommandon. Under hjälpmenyn i programmet finns en utförlig Tutorial och med hjälp av denna kan man få såväl en god introduktion som mera avancerad hjälp. Det finns också ett flertal tutorials på Youtube. Av denna orsak lyfts i detta dokument fram endast några få grundläggande saker för att ge en första inblick i programmet. I programmet arbetar man alltid med två olika fönster SPSS Data Editor och SPSS Statistics Viewer. I det första ser man och editerar själva datamaterialet och i det senare samlas all utskrift från programmet. I tillägg till dessa kan man ytterligare använda ett fönster SPSS Statistics Syntax Editor ifall man vill skriva in kommandon till programmet istället för att använda knapparna och menyerna i verktygsfältet. Användningen av syntax är praktisk och ändamålsenlig vid mera omfattande analyser, och även för att dokumentera vad man gjort. Fönstret i dataeditorn (SPSS Data Editor) har två flikar Data View och Variable View. I Data View ser man datamaterialet, medan man i Variable View ser en förteckning över alla variabler och här kan man definiera variablerna samt sätta etiketter på enskilda värden med tanke på en tydligare utskrift. Fönstret i Data View ser nästan lika ut som ett arbetsblad i Excel, där varje rad innehåller observationerna för en observationsenhet (ex. person) medan kolumnerna svarar mot de olika variablerna. Till skillnad från Excel kan man inte utföra beräkningar i de enskilda cellerna, utan alla eventuella räkneoperationer sker med hjälp av kommandon och resultatet kommer i utskriftsfönstret. I exemplet nedan visas ett material som innehåller uppgifter för ett stickprov av 29-31 åringar år 1999. 22
Datamaterialet innehåller sammanlagt 21 variabler. Det namn eller benämning på variablerna som anges i kolumnen Name används av själva programmet och får inte innehålla mellanslag. I kolumnen Label kan man därför ange tydligare etiketter t.ex. födår => födelseår och storl => hushållets storlek 23
I kolumnen Values kan man på motsvarande sätt sätta etiketter på enskilda variabelvärden. I kolumnen Missing kan man ange sådana värden Missing values som inte skall beaktas. Det kan t.ex. vara fråga om särskilda värden för t.ex. kategorier såsom uppgift saknas eller irrelevanta eller omöjliga kategorier som make/makas utbildning för ensamstående. Ifall omöjliga eller ologiska kategorier lämnas tomma (i motsvarande cell i SPSS finns ett kommatecken) behandlas de som System Missing, och behöver inte anges i kolumnen Missing. Av de olika alternativen i den övre balken är det huvudsakligen File, Data, Transform samt Analyse som man behöver använda, och även här endast några enstaka kommandon. Under File finns alla de vanliga funktionerna som sammanhänger med att man öppnar, skapar eller sparar filer. Under Data finns kommandon som innebär att man kan bearbeta själva datafilen, t.ex. begränsa materialet till en delpopulation. Under Transform finns funktioner som gör det möjligt att t.ex. omkoda eller skapa nya variabler. Under Analyze finns alla de statistiska metoder som SPSS innehåller, och det är alltid via denna meny som alla analyser görs. 24
Transformationer m.m. Omkodning Ofta kan en variabel ha onödigt många olika värden, och det kan vara ändamålsenligt att slå ihop vissa av dessa. Motsvarande gäller också vid en klassindelning av kontinuerliga variabler. Detta kan i SPSS enkelt göras genom Recode-kommandot. Som exempel skall vi omkoda en variabel som beskriver rökvanorna hos studerande med fem kategorier till en enklare med endast tre klasser. Gamla variabeln Rökvanor Nya variabeln Rökning 1 Röker ej 1 Röker ej 2 feströkare 2 högst 5 per dag 3 1-5 st / dag 2 4 6-10 st/ dag 3 mer än 5 per dag 5 mer än 10 per dag 3 Genom att välja menyerna Tranform...Recode...Into Different Variables får man följande dialogruta: 25
där man sedan väljer den ursprungliga variabeln, och i rutan för Output Variable anger namnet på den nya variabeln samt trycker på Change-knappen, varefter men trycker på knappen Old and New Values... för att få den dialogruta där omkodningen sker: I rutorna för Old Value och New Value anges värdena. De förs till den större rutan genom tryckning på Add-knappen. Man behöver inte räkna upp alla värden på den gamla variabeln ifall dessa kan anges som ett intervall. Det är som regel en fördel att man vid omkodningar alltid skapar nya variabler, så att man har kvar de ursprungliga uppgifterna ifall man senare vill använda dem. Under Transform-menyn finns även Compute som kan användas ifall man vill skapa nya variabler som kan uttryckas som matematiska funktioner av existerande variabler. I nedanstående exempel skapas en ny variabel BMI (Body Mass Index) utgående från variablerna längd och vikt. Beräkningsformeln för BMI är vikten (kg) dividerad med 26
längden (m) i kvadrat. Eftersom längden i datamaterialet anges i centimeter måste vi även dividera längden med 100: Analys av delpopulationer I många situationer kan man önska begränsa analysen till en mindre grupp av datamaterialet, t.ex. enbart kvinnor, enbart studerande från Vasa, eller enbart svenskspråkiga män över 50 år. Detta kan göras enkelt genom användning av ett filter som finns under Data-menyn. 27
I exemplet väljs alla män (kön=1) som är längre än 175 cm. När man filterar observationerna använder man kvantorerna & (och) och (eller) samt vid behov även parenteser. Det är viktigt att man är noggrann med användningen av kvantorerna så att man får de observationer man vill ha. Data i tabellform Man kan skapa en ny SPSS-datafil på olika sätt beroende på om det ursprungliga datamaterialet från tidigare finns lagrat i elektronisk form eller ej. För detaljer hänvisas här till SPSS Tutorial. Här illustreras hur man kan använda SPSS för att analysera (=beräkna statistiska mått) data som man redan har i tabell-form. Antag att vi har data i en tabell av det slag som illustreras i Excel-filen nedan. 28
En Excelfil av detta slag kan inte öppnas i SPSS, utan vi är tvungna att förfara på ett annat sätt. Vi bör skapa en ny SPSS-datafil och i denna två variabler som anger ålder respektive sysselsättningsstatus samt ytterligare en som anger frekvensen för de olika kombinationerna. Variabeln Ålder har nio klasser som vi t.ex. kan koda 1, 2, 3,..., 9, medan Sysselsättningsstatus har två; Sysselsatt = 1 och Arbetslös = 2. I ett fall som detta behöver man inte skriva in frekvenserna (för hand), utan de kan kopieras och klistras in på vanligt sätt (Ctrl-C, Ctrl-V) För att kunna använda datafilen måste vi ange att observationerna skall viktas, vilket vi gör under Data...Weight Cases och därefter anger att vikten bestäms av variabeln frekvens: 29
Ovanstående exempel är endast avsett för att demonstrera strukturen på data i tabellform. I praktiken är det knappast motiverat att överföra en tvådimensionell tabell från Excel till SPSS. Förfarandet kan dock generaliseras även till flerdimensionella tabeller. Skapa nya variabler med hjälp av syntax Ifall man vill skapa nya variabler genom att utnyttja fler än en variabel kan detta lämpligen utföras i Syntax-fönstret. Fönstret öppnas från File-menyn enligt File...New...Syntax. I detta fönster kan man sedan skriva in uttryck som kan sparas i en separat fil, och man kan exekvera dessa genom att markera dem och trycka på Run-knappen (svarta triangeln). 30
I exemplet nedan antas att vi för individerna har information om föräldrarnas språk och att vi vill skapa en ny variabel Familjebakgrund på basen av denna. Såväl moderns och faderns språk är kodade enligt (1 = finska, 2 = svenska). Den nya variabeln har tre klasser, 1 = svenska, 2 = finska och 3 = tvåspråkig. Utskrifter Utskrifterna i SPSS innehåller som regel mera information än vad som behövs. Ifall inte syftet är att explicit illustrera hur en SPSS utskrift ser ut bör man redigera t.ex. tabeller ifall man vill använda dem i ett dokument. Detta kan med fördel göras i Excel, och genom att klicka på ett utskriftselement (t.ex. tabell) kan man kopiera detta och klistra in det i Excel, och därefter plocka ut den information som man behöver. 31
KAPITEL 4: DESKRIPTIV STATISTIK De enskilda uppgifterna i ett statistiskt material innehåller all tillgänglig information, men de behöver oftast sammanfattas och förenklas på något sätt. Detta kan göras i form av tabeller, grafiskt eller med hjälp av enskilda karakteristikor, vilka beskriver data på något sätt. Vilka förfaringssätt som kan användas bestäms av sammanhangen och skaltyperna. Tabeller och diagram Diskreta variabler Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena. Exempel. Antalet röster per kandidat i presidentvalets första omgång 2000 Kandidat Röster Procent Halonen 1224431 40,0 Aho 1051159 34,4 Uosukainen 392305 12,8 Rehn 241877 7,9 Hautala 100740 3,3 Hakalehto 31405 1,0 Kuisma 16943 0,6 totalt 3058860 100,0 Förutom de absoluta frekvenserna kan man även redovisa den relativa (procentuella) fördelningen. Grafiskt kan fördelningen åskådliggöras t.ex. med ett stapeldiagram. Röstandelar i presidentvalet 2000 Halonen Aho Uosukainen Rehn Hautala Hakalehto Kuisma 0,0 10,0 20,0 30,0 40,0 50,0 Procent I SPSS kan man få fram frekvensfördelningen för en variabel genom att välja Analyze..Descriptive Statistics...Frequencies 32
I den nya dialogrutan Frequencies markerar man sedan vilka variabler man vill analysera och flyttar dem över till Variable(s):-rutan I SPSS utskrivs förutom de absoluta frekvenserna dessutom automatiskt den procentuella, samt den kumulativa fördelningen. 33
Frequency Exempel: Hushållsstorleken hos personer i åldern 29-31 år år 1999. Observera att i tabellen anges som Missing sådana personer som inte tillhörde något hushåll, dvs huvudsakligen institutionsboende. hushållets storlek Valid Missing Total 1person 2 personer 3 personer 4 personer 5 personer 6 personer 7 personer 8 personer minst 9 personer Total personen tillhör ej hushåll Cumulativ e Frequency Percent Valid Percent Percent 1256 19,3 19,8 19,8 1724 26,5 27,2 47,0 1476 22,7 23,3 70,3 1256 19,3 19,8 90,2 393 6,0 6,2 96,4 121 1,9 1,9 98,3 63 1,0 1,0 99,3 34,5,5 99,8 13,2,2 100,0 6336 97,5 100,0 165 2,5 6501 100,0 I dialogrutan Frequencies kan man under knappen Statistics välja om man önskar ytterligare utskrift. Vi återkommer till detta längre fram. Av sammanlagt 6501 personer levde 6336 i hushåll. Av dessa levde 1256 ensamma och 1724 tillsammans med en annan person, vilket utgjorde 19,8 % resp. 27,2 % av alla hushåll. Av den kumulativa procentandelen framgår att 70,3 % levde i hushåll med högst 3 personer. Grafiskt kan en frekvensfördelning av detta slag lämpligen redovisas med hjälp av ett stapeldiagram. Skalan på den lodräta axeln kan då anges antingen i absoluta eller relativa tal. 2000 hushållets storlek 1000 0 1person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets storlek 34
Percent 30 hushållets storlek 20 10 0 1person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets st orlek De diagram som SPSS producerar skall främst betraktas som analysinstrument. Ifall man skall använda figurerna i en text bör de som regel redigeras eller framställas med något annat program (t.ex. Excel). Stapeldiagrammen kan också åstadkommas direkt i samband med att man tar fram frekvensfördelningen genom att man i dialogrutan Frequencies (Analyze... Descriptive Statistics...Frequencies) väljer Chart, för att i nästa fönster välja Bar charts. Kontinuerliga variabler För en kontinuerlig variabel eller en variabel som antar ett mycket stort antal olika värden är regelrätta frekvenstabeller inte användbara eftersom de skulle resultera i mycket omfattande tabeller. Ifall man vill redovisa kontinuerliga uppgifter i tabellform bör man därför indela materialet i klasser. I exemplet nedan redovisas ÅA-studerandes samlade studieveckor efter 10 terminers studier 35
Tabell. ÅA-studerandes presterade antal studieveckor efter 10 terminers studier. Studieveckor Antal 0-19,5 64 20-39,5 90 40-59,5 117 60-79,5 150 80-99,5 215 100-119,5 373 120-139,5 640 140-159,5 613 160-179,5 437 180-199,5 169 200-219,5 56 220-239,5 17 240-11 2952 Vid en klassindelning kan antalet klasser, och klassbredden väljas fritt och är delvis beroende av antalet observationer och fördelningens utseende. Klassgränserna bör helst väljas så att de känns naturliga (20, 40, 60 osv hellre än t.ex. 21, 43, 65...). Klassbredden bör dessutom helst hållas konstant. I SPSS utförs klassindelningen rent praktiskt genom en omkodning av den ursprungliga variabeln. För att erhålla en uppfattning om fördelningen för att underlätta klassindelningen kan man grafiskt granska denna med ett s.k. histogram, som är den kontinuerliga varianten av ett stapeldiagram. Välj Histogram i stället för Bar charts i fönstret ovan. Man bör även helst ha tagit bort kruxet för Display frequency tables i föregående fönster. 36
Genom att dubbelklicka på figuren öppnas en dialogruta där man kan redigera figuren. Genom att dubbelklicka på själva histogrammet får man fram en dialogruta där man kan experimentera med olika klassindelningar. Detta finns under fliken Binning. Om man i det aktuella exemplet anger klassbredden till 20 ändras figuren enligt följande: I ett histogram representerar ytan av de olika rektanglarna frekvenserna. I SPSS kan man enbart använda samma klassbredd i alla klasser, men ifall man använder något annat hjälpmedel eller ritar för hand, bör man således beakta detta. Ifall man t.ex. slår ihop två klasser, blir höjden på rektangeln inte den totala frekvensen utan medeltalet för de båda klasserna. I tabellen ovan saknar den sista klassen egentlig övre gräns, i och med att alla värden större än 240 sammanförts till en klass. I Excel finns inte Histogram explicit bland de olika diagramalternativen, men ett klassindelat material kan enkelt framställas som ett histogram genom att man väljer ett stapeldiagram och sätter avståndet mellan staplarna = 0. Nedanstående har uppgjorts i Excel. Antal studieveckor efter fem år 37
Flerdimensionella fördelningar, korstabeller I en korstabell, eller kontingenstabell, redovisas simultant (samtidigt) fördelningen för två kvalitativa variabler. En korstabell är således en tvådimensionell frekvensfördelningstabell. Liksom i det endimensionella fallet kan man göra redovisningen i relativa tal (procent), där procenttalen antingen beräknas för hela tabellen eller separat rad- eller kolumnvis. Vad som väljs beror givetvis på vilka jämförelser man vill företa. I nedanstående tabell redovisas livsskedet i 30 års ålder separat för män och kvinnor i form av absoluta tal. kön * livsskede Crosstabulation Count kön Total man kv inna liv sskede bor med f öräldrar bor ensam samboende gift tidigare gift Total 276 867 818 1063 162 3186 104 633 824 1322 429 3312 380 1500 1642 2385 591 6498 Ifall man vill jämföra och illustrera eventuella olikheter mellan könen räknar man lämpligen den relativa (procentuella) fördelningen radvis. Vi kan nu utläsa att kvinnorna är snabbare i sin familjekarriär. En klart lägre andel av kvinnorna lever ensamma eller med föräldrarna, medan andelen tidigare gifta är avgjort högre än bland männen. kön * livsskede Crosstabulation kön Total man kvinna Count % within kön Count % within kön Count % within kön livsskede bor med f öräldrar bor ensam samboende gift tidigare gift Total 276 867 818 1063 162 3186 8,7% 27,2% 25,7% 33,4% 5,1% 100,0% 104 633 824 1322 429 3312 3,1% 19,1% 24,9% 39,9% 13,0% 100,0% 380 1500 1642 2385 591 6498 5,8% 23,1% 25,3% 36,7% 9,1% 100,0% Om man däremot (av någon anledning) skulle vara intresserad av hur könsfördelningen varierar mellan de olika kategorierna av livsskedesvariabeln erhåller man följande tabell: kön * livsskede Crosstabulation kön Total man kvinna Count % within livsskede Count % within livsskede Count % within livsskede livsskede bor med f öräldrar bor ensam samboende gift tidigare gif t Total 276 867 818 1063 162 3186 72,6% 57,8% 49,8% 44,6% 27,4% 49,0% 104 633 824 1322 429 3312 27,4% 42,2% 50,2% 55,4% 72,6% 51,0% 380 1500 1642 2385 591 6498 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 38
Korstabeller åstadkoms i SPSS genom att man från menyn Analyze väljer Descriptive Statistics -> Crosstabs, varefter man i den följande rutan anger rad- respektive kolumnvariabeln. Under knappen Cells fås en dialogruta där man kan ange ifall man önskar att procentuella fördelningar skall uträknas 39
Korstabellerna kan även göras flerdimensionella, så att den tvådimensionella tabellen delas upp med avseende på flera variabler. I exemplet nedan spjälks den föregående tabellen upp även efter språk. Genom att trycka på knappen Next kan man ange flera layers eller s.k. planvariabler. kön * livsskede * modersmål Crosstabulation Count modersmål f inska svenska kön Total kön Total man kvinna man kvinna livsskede bor med f öräldrar bor ensam samboende gift tidigare gift Total 143 627 543 711 119 2143 58 491 542 911 317 2319 201 1118 1085 1622 436 4462 133 240 275 352 43 1043 46 142 282 411 112 993 179 382 557 763 155 2036 40
Läges- och spridningsmått En statistisk karakteristika är ett mått (tal) som på något sätt sammanfattar eller karakteriserar en variabels fördelning. De vanligaste utgörs av läges- och spridningsmått. Lägesmåtten anger de mest typiska värdena eller variabelns tyngdpunkt, medan spridningsmåtten anger hur koncentrerade värdena är. Läges- eller centralmått På nominalskalan kan man bestämma enbart typvärdet (moden), dv. den klass som har den högsta frekvensen. Denna skaltyp har inget vedertaget spridningsmått, men man kan ange typvärdesprocenten, dvs hur stor andel typvärdet utgör av alla observationer. Exempel. Vi observerar huvudämnet (sp: socialpolitik, psyk: utv.psykologi, sk: statskunskap) för 15 studenter enligt följande: sp, sp, sp, sp, sp, psyk, psyk, psyk, sk, sk, sk, sk, sk, sk, sk. Moden är här statskunskap, och 7/15 = 0.467 (46,7 %) har detta värde. På ordinalskalan kan man i tillägg till typvärdet även bestämma medianen, som utgörs av den mittersta observationen när observationerna rangordnats. Exempel. Vi observerar modersmålsvitsordet i studentexamen för 19 studenter och rangordnar dessa med följande resultat: b, b, b, c, c, c, c, c, c, m, m, m, m, e, e, e, e, l, l Den mittersta (i detta fall 10:e observationen) är således vitsordet m. Ifall antalet observationer är jämnt, och värdena för de två mittersta observationerna är olika kan medianen inte fastställas entydligt. Ifall vi exempelvis skulle ha ytterligare en student med vitsordet c, skulle den 10:e observationen vara ett c, och den 11:e ett m. I Excel finns en funktion under kategorin Statistical (Statistik i svensk version) som heter MODE (Sve: TYPVÄRDE) med vars hjälp man enkelt bestämmer typvärdet. 41
I exemplet ovan beräknas typvärdet för observationerna i kolumnen H från cell H2 till cell H188, och resultatet är 2. Datamaterialet i exemplet är en studentenkät, variabeln är hemort, och värdet 2 står för Mellersta Österbotten. Medianen kan bestämmas manuellt t.ex. genom att man sorterar observationerna och letar reda på den mittersta observationen, men det är givetvis enklare att använda funktionen MEDIAN (sve: MEDIAN) I SPSS kan man erhålla typvärdet och medianen genom att via Statistics knappen i dialogrutan Frequencies ange att man vill ha dessa på utskriften. Medianen är alltså det tal för vilket det gäller att hälften eller 50 % av observationerna är mindre än talet. På motsvarande sätt kan man även ange punkter för andra procenttal, s.k. percentiler. Vanliga proportioner är då t.ex. 10 %, 20 % osv. 25 %-, och 75 %-percentilerna brukar dessutom kallas första respektive tredje kvartilen. Dessa betecknas ofta Q 1 och Q 3. Medianen kan också kallas andra kvartilen. 42
Percentilerna kan bestämmas i SPSS på samma sätt som de övriga lägesmåtten. I fönstret ovan finns möjlighet att markera kvartiler och percentiler enligt eget önskemål. I Excel kan percentiler bestämmas med hjälp av funktionen PERCENTILE (sve: PERCENTIL) där man förutom dataområdet även anger ett för vilken andel man vill beräkna percentilen (tal mellan 0 och 1). I exemplet nedan anges värdet 0,25, dvs 25 % s percentilen. Det finns även en funktion QUARTILE (Sve: KVARTIL) som direkt beräknar kvartilerna. För variabler mätta på intervall- eller kvotskala kan man beräkna medelvärdet. Detta erhålls genom att man dividerar summan av alla observationsvärden med antalet observationer. Förutom att man explicit kan utföra dessa beräkningar i Excel kan man även använda funktionen AVERAGE (sve: MEDEL) I SPSS får man fram medelvärdet på samma sätt som typvärdet och medianen. Observera att programmen inte tänker själva ifråga om skaltyperna, utan gör vad du anger. Det innebär att programmet räknar medelvärde även för nominal- och ordinalskalevariabler ifall de är kodade med numeriska siffror. Det är således viktigt att tänka själv. 43
Eftersom framställningen i några fall underlättas av att man använder formella uttryck introduceras följande beteckningar. Låt x i beteckna observationsvärdet på en variabel x för individ i, och anta att vi observerar n individer. Summan av alla observationsvärden x 1 x 2... x n betecknas då x i. Detta innebär att medelvärdet för variabeln x, som vanligen betecknas x formellt beräknas enligt följande n x x / n i 1 i n i 1 Ifall man har ett klassindelat material kan man approximera medelvärdet genom att tilldela alla observationer i en klass klassmitten som värde. I det tidigare exemplet kan vi beräkna det genomsnittliga antalet studieveckor enligt följande: Studieveckor Klassmitt (m) Antal (f) f m 0-19,5 10 64 640 20-39,5 30 90 2700 40-59,5 50 117 5850 60-79,5 70 150 10500 80-99,5 90 215 19350 100-119,5 110 373 41030 120-139,5 130 640 83200 140-159,5 150 613 91950 160-179,5 170 437 74290 180-199,5 190 169 32110 200-219,5 210 56 11760 220-239,5 230 17 3910 240-250 11 2750 2952 380040 Medelvärdet blir då 380040/2952 = 128,7. (Som jämförelse kan nämnas att medelvärdet beräknat på det ursprungliga materialet är 130,8.) Jämförelse av centralmåtten Medelvärdet är det vanligast använda centralmåttet och det har en avsevärd fördel framom de övriga i att det har goda statistiska egenskaper. Det kan därför med fördel oftast användas om man har en intervall- eller kvotskalevariabel. Problem uppstår egentligen enbart om man har att göra med mycket sneda fördelningar eller om det finns s.k. outliers. Nedan ges ett 44
extremt, men verkligt exempel. Andra vanliga exempel på sneda fördelningar är t.ex. inkomstfördelningar, där det dessutom kan finnas extrema outliers. Vinstfördelningen i Lotto (omgångarna 44 och 45, 2004) Omgång 44 Omgång 45 Antal vinster Vinst Antal vinster Vinst 7 rätt 0 0 1 5668697,30 6 + tilläggsnr 19 17849,30 24 19420,30 6 rätt 174 2018,60 308 1567,30 5 rätt 10400 52,40 15901 47,10 4 rätt 190348 12,00 267143 11,70 Totalt 200941 283377 Median 12,00 11,70 Typvärde 12,00 11,70 Medeltal 17,52 37,02 Medelvärdet avviker avsevärt från de andra centralmåtten, och är mycket känsligt för ytterlighetsvärden. Notera att fastän utdelningen för 4,5 eller 6 rätt, dvs för 99,99 % av alla vinstrader, var lägre under omgång 45 än under omgång 44, var den genomsnittliga vinsten mer än dubbelt så stor. Konklusionen är att i ett fall som detta är det egentligen meningslöst att försöka sammanfatta uppgifterna med hjälp av centralmått. Observera att för en kontinuerlig variabel blir typvärdet oftast meningslöst, eftersom varje enskilt observationsvärde oftast har frekvensen 1. I detta fall är det vettigare att tala om typvärdesklass, dvs. den klass som har den högsta frekvensen efter en klassindelning. Spridningsmått För nominal- och ordinalskalevariabler saknar spridningsmått egentlig mening, även om modalprocenten, dvs hur stor andel av observationerna som har typvärdet kan betraktas som ett slags spridningsmått. Det avgjort viktigaste spridningsmåttet på intervall- och kvotskalan är standardavvikelsen (s). Detta mått kan uppfattas som ett slags genomsnitt på variabelvärdenas avvikelse från medelvärdet. Den formella definitionen är s n ( xi x) 2 i 1 n 1 Detta innebär att den kvadrerade standardavvikelsen, alltså s 2, som kallas variansen, är medelvärdet av de kvadrerade avvikelserna från medelvärdet (eller rättare sagt nästan eftersom man dividerar med n-1 i stället för n). Ovanstående beräkningsformel avser standardavvikelse för en variabel när man analyserar ett stickprov. Ifall man analyserar ett totalmaterial borde man egentligen dividera med n i stället för n-1. Detta är likväl statistiskt finlir som saknar praktisk betydelse. 45
I Excel finns standardavvikelsen som en inbyggd funktion och här finns vardera alternativet STDEV och STDEVP för ett stickprov resp. population. Det finns också motsvarande funktioner för variansen VAR respektive VARP. I SPSS beräknas standardavvikelsen enligt formeln för stickprov och man får fram det på samma sätt som lägesmåtten, dvs under Statistics i Frequencies-rutan markerar man Standard deviation. Eftersom standardavvikelsens värde är beroende av observationernas absoluta värde kan man inte direkt avgöra vad som skall anses vara en stor eller liten spridning. Det som man däremot kan ta som en tumregel är att om man går två standardavvikelser åt vardera hållet från medelvärden får man med ungefär 95 % av alla observationer. Ifall man har ett datamaterial i form av frekvensfördelningen för en klassindelad variabel kan man inte direkt utnyttja de inbyggda funktionerna i Excel. Det går likväl enkelt att utföra beräkningarna utgående från liten modifiering av formeln för standardavvikelsen. s k f j ( x j x) 2 j 1 n 1 så att x j betecknar klassmitten i klass j och k anger det totala antalet klasser, medan f j betecknar frekvensen i klass j. Exempel. Vi skall utnyttja detta för att beräkna standardavvikelsen för det tidigare använda materialet över antalet studieveckor. Klassmitt x j f j x j* f j f j ( x j 2 x) 10 64 640 902345,5 30 90 2700 877460 50 117 5850 725395,6 70 150 10500 517555,3 90 215 19350 322666,6 110 373 41030 130990,7 130 640 83200 1016,326 150 613 91950 277072,6 170 437 74290 743949,2 190 169 32110 634224,5 210 56 11760 369780 230 17 3910 174311,5 250 11 2750 161744,3 n= 2952 =380040 =5838512 x =128,7398 s 2 =5838512/2951= 1978,486 s= 44,48018 Standardavvikelsen är således 44,5, vilket innebär att 128,8 89 ger intervallet (39,8-217,8) och inom detta intervall finns ungefär 95 % av alla observationer. 46
Vid starkt sneda fördelningar har standardavvikelsen svagheter på motsvarande sätt som det aritmetiska medelvärdet. Standardavvikelsen tenderar i sådana fall att bli onödigt stor. I tipsexemplet ovan är standardavvikelsen för de två åren 183,372 respektive 10650,399. Ett bättre mått vid sneda fördelningar är kvartilavvikelsen som definieras som halva skillnaden mellan tredje och första kvartilen dvs (Q 3 Q 1 )/2. 47
KAPITEL 5: KORRELATION Korrelation I det tidigare avsnittet användes korstabeller för att jämföra fördelningarna mellan olika grupper. Fokus var dock på en beskrivning av fördelningarna. I detta avsnitt skall vi rikta in oss på eventuella samband mellan variablerna. Man kan vara intresserad av om två variabler inverkar på varandra eller om den ena är beroende av den andra. Exempelvis kan man fråga sig om en högre utbildning leder till högre inkomst, om den socioekonomiska ställningen inverkar på politisk åskådning, om barnens skolframgång har samband med föräldrarnas utbildningsnivå osv. Observera att även om man kan påvisa samband mellan två variabler behöver det inte finnas ett orsakssamband mellan dem, och riktningen på ett samband är inte heller alltid självklar. För att uttrycka sambandet mellan två variabler beräknas olika slag av korrelationskoefficienter. Vilka mått som beräknas beror huvudsakligen på vilka typer av variabler (skaltyper) det är fråga om. Ett gemensamt drag för korrelationskoefficienter är att de varierar mellan -1 och 1, (i ett fall mellan 0 och 1), och att värdet 0 indikerar att det inte finns något samband, dvs variablerna är okorrelerade. Samband i kontingenstabeller med nominalskalevariabler Vi skall först se på ett exempel som undersöker sambandet mellan inställningen till abort och religiositet. Rätt till fri abort * Deltar i gudstjänst Crosstabulation Count Rätt till f ri abort Total Ja Ibland Nej Deltar i gudstjänst Aldrig eller sällan Ibland Ofta Total 789 99 19 907 105 25 8 138 62 20 37 119 956 144 64 1164 Ifall det inte skulle finnas något samband mellan variablerna borde inställningen till abort vara densamma oberoende av hur ofta man deltar i gudstjänster. Detta innebär att den relativa fördelningen i alla kolumner i tabellen borde vara densamma som i marginalen, dvs att 77,9 % är positiva till abort, medan 11,9 % accepterar abort ibland och 10,2 % är negativa. Som det framgår av den procentuella fördelningen verkar det finnas avvikelser från detta. Rätt till fri abort * Deltar i gudstjänst Crosstabulation % within Deltar i gudstjänst Rätt till f ri abort Total Ja Ibland Nej Delt ar i gudstjänst Aldrig eller sällan Ibland Of ta Total 82,5% 68,8% 29,7% 77,9% 11,0% 17,4% 12,5% 11,9% 6,5% 13,9% 57,8% 10,2% 100,0% 100,0% 100,0% 100,0% 48
Korrelationskoefficienterna för en kontingenstabell jämför det observerade utfallet med det som kunde förväntas ifall variablerna var oberoende. I vårt fall innebär detta att fördelningen borde ha varit Rätt till fri abort * Deltar i gudstjänst Crosstabulation Expected Count Rätt till f ri abort Total Ja Ibland Nej Delt ar i gudstjänst Aldrig eller sällan Ibland Of ta Total 744,9 112,2 49,9 907,0 113,3 17,1 7,6 138,0 97,7 14,7 6,5 119,0 956,0 144,0 64,0 1164,0 ty t.ex. är 77,9 * 956/100 = 744,9. Det finns flera förslag till korrelationskoefficienter för kontingenstabeller, men de bygger alla på det s.k Chi-kvadratvärdet (Χ 2 ). Beräkning av Χ 2. Betrakta en korstabell med k celler och beteckna det observerade antalet i cell i O i och motsvarande förväntade antal med E i. där i=1,...k. Χ 2 värdet beräknas då enligt följande dvs. summan av de kvadrerade skillnaderna mellan de observerade och förväntade värdena dividerat med de förväntade. I exemplet ovan blir Χ 2 värdet 184,322. Χ 2 värdet är noll om variablerna är oberoende, och värdet ökar ju större skillnad det är mellan de observerade och förväntade värdena. Det maximala värdet är beroende av såväl antalet observationer som tabellens storlek. Man kan visa att det maximala värdet är n*(q-1), där n betecknar antalet observationer och q det mindre av antalet rader och antalet kolumner i tabellen. En enkelt mått som föreslagits och används är Cramérs kontingenskoefficient, V, som utgörs av kvadratroten av det observerade Χ 2 värdet dividerat med det maximala värdet, alltså V 2 n ( q 1) 49
Detta mått kan således variera mellan 0 och 1. För exemplet ovan erhålls 184,322 = 0,281382 1164 2 För fyrfältstabeller, dvs för tabeller med endast två rader och två kolumner finns också den s.k. Phi-koefficienten, Φ. Om man betecknar cellerna i tabellen enligt följande så kan Φ beräknas enligt formeln a b a+b c d c+d a+c b+d a+b+c+d a d b c ( a b)( c d)( a c)( b d) Koefficienten Φ är egentligen exakt samma mått som Cramérs V, förutom att Φ även kan anta negativa värden. Den kanske mest använda korrelationskoefficienten för kontingenstabeller är Pearsons kontingenskoefficient, C, som definieras C 2 2 n I exemplet ovan blir således 184,322 C = 0,369736 184,322 1164 Observera att kontingenskoefficientens minsta värde är noll, medan det maximala värdet är q 1. q Ifall man därför vill ha ett mått som gör att man kan jämföra kontingenskoefficienter beräknade för tabeller av olika storlek kan man dividera kontingenskoefficienten C med detta tal för att erhålla ett mått som varierar mellan 0 och 1. I vårt exempel innebär detta 0,369736 2 3 = 0,452833 I SPSS kan man direkt beräkna korrelationskoefficienterna genom att välja Analyze...Descriptive Statistics...Crosstabs och därefter under Statistics markera önskade statistikor. Observera att du själv måste avgöra vad som är vettigt. 50
Symmetric Measures Nominal by Nominal N of Valid Cases Phi Cramer's V Contingency Coef f icient a. Not assuming the null hy pothesis. Value Approx. Sig.,398,000,281,000,370,000 1164 b. Using the asy mptotic standard error assuming the null hy pothesis. Observera att programmet skriver ut Phi, även om koefficienten inte är definierad för en 3x3 tabell. 51
Rangkorrelation Ifall de studerade variablerna är mätbara på ordinalskala kan man studera sambandet med hjälp av rangkorrelationskoefficienter. Dessa är mått på samstämmigheten hos två rangordningar. Vid beräkningarna använder man inte mätvärdena i sig, utan enbart de positioner de representerar vid en rangordning. Det finns två allmänt använda rangkorrelationskoefficienter, nämligen Spearmans rho (ρ) och Kendalls tau (τ). Vardera av dessa mått varierar mellan -1 och 1, där -1 innebär att rangordningarna är fullständigt motsatta, och värdet 1 uppnås vid fullständig samstämmighet. Beräkning av Spearmans rangkorrelationskoefficient Antag att vi vill jämföra två rangordningar av n individer. Beräkningen av rangkorrelationskoefficienten r s baserar sig på skillnaderna d i, i=1,...,n mellan rangtalen. Beräkningen görs enligt formeln r s n 1 1 2 2 i 6 d i n ( n 1) Exempel. Vi skall se om tätortsgraden (andelen av befolkningen som bor inom tätorter) och andelen sysselsatta inom jordbruk ger samma rangordning av Österbottens kommuner. Vi tilldelar kommunerna rangtal på basen av uppgifterna. Maxmo och Storkyro har samma andel sysselsatta inom jordbruk, vilket innebär att de inte kan särskiljas och de får därför dela på rangtalen 7 och 8. Kommun Tätordsgrad Jordbruk (%) Rang(1) Rang(2) d i 2 d i Jakobstad 98,4 1,2 16 17-1 1 Kaskö 99,1 3,3 18 16 2 4 Korsholm 82,2 6,1 12 14-2 4 Korsnäs 67,4 27,2 7 1 6 36 Kristinestad 77,1 12,9 10 11-1 1 Kronoby 51,2 17,7 1 6-5 25 Laihela 82,0 8,3 11 13-2 4 Larsmo 85,8 3,4 13 15-2 4 Lillkyrö 87,6 8,6 14 12 2 4 Malax 72,2 14,7 8 9-1 1 Maxmo 96,7 16,7 15 7,5 7,5 56,25 Nykarleby 62,5 23,1 4 3 1 1 Närpes 64,0 25,0 5 2 3 9 Oravais 66,1 18,7 6 5 1 1 Pedersöre 58,5 13,8 3 10-7 49 Storkyrö 76,1 16,7 9 7,5 1,5 2,25 Vasa 98,7 0,4 17 18-1 1 Vörå 54,4 19,1 2 4-2 4 Summa 0 207,5 52
r s 6 207,5 1 1 0,2141 0,7859 18 (324 1) Pearsons produktmomentkorrelationskoefficient Ifall de studerade variablerna är kvantitativa kan sambandet ofta illustreras grafiskt med hjälp av ett spridningsdiagram (även plot- eller prickdiagram). Observationerna prickas då in i ett koordinatsystem där de båda variablerna utgör axlar. I figurerna nedan illustreras några olika typer av samband. 90 80 70 60 50 40 30 20 10 0 0 5 10 15 20 25 positiv korrelation 60 50 40 30 20 10 0 0 5 10 15 20 negativ korrelation 250 200 150 100 50 0-50 -100-150 -200 0 5 10 15 20 25 nollkorrelation 20 16 12 8 4 0 0 2 4 6 8 10 12 14 16 icke-linjärt samband I det första exemplet finns en tydlig tendens att ju högre värde x-variabeln har desto högre värde kan vi observera på y-variabeln. Vi säger då att variablerna är positivt korrelerade. I det andra exemplet är tendensen den motsatta och vi säger då att variablerna är negativt korrelerade. I det tredje exemplet kan vi inte urskilja någon klar tendens vilket innebär att variablerna är okorrelerade. I de två första exemplen är sambanden uppenbart linjära, medan det sista exemplet illustrerar en situation där det finns ett samband, även om detta inte är linjärt. 53
Korrelationsanalyser av kvantitativa variabler innebär egentligen att man studerar hur väl man kan beskriva sambandet mellan variablerna med hjälp av en rät linje. Det mått som används för att mäta detta samband mellan variablerna x och y kallas Pearsons produktmomentkorrelationskoefficient (r xy ) (vanligen endast korrelationskoefficient). För koefficienten r xy gäller -1 r xy +1 och att r xy = 0, dvs nollkorrelation innebär att inget linjärt samband kan observeras r xy = +1 eller r xy = -1 innebär att i ett spridningsdiagram ligger alla observationer på en rät linje. Positiva värden innebär att linjen har en positiv lutningsvinkel, och omvänt för negativa värden. Observera dock att korrelationskoefficientens storlek enbart mäter anpassningen till en rät linje, men inte lutningens storlek. Eftersom r xy mäter det linjära sambandet blir värdet lågt även om det finns ett samband men detta är icke-linjärt (som i det sista exemplet). Formeln för r xy är ( x i i x)( yi y) rxy 2 ( x x) ( y y) i i i i Summeringarna görs över alla observationer, dvs i=1,...,n. 2 Notera att koefficienten är symmetrisk vilket innebär att korrelationen mellan x och y är lika med korrelationen mellan y och x. Notera också att om man sätter x=y i formeln ovan blir svaret givetvis r xx = 1. Beräkningsformel för r xy Vid en manuell beräkning eller i Excel förenklas arbetet av en omskrivning av formeln enligt följande Exempel. Sambandet mellan partners språk och hemortens språkstruktur. Vi har kommunvisa uppgifter om andelen som har finskspråkig partner bland svenskspråkiga män i nybildade par åren 1993-95 (y) och hemortens språkstruktur (x), dvs andelen svenskspråkiga i kommunen. Grafiskt ser det ut på följande sätt: 54
Andel med finsk partner 100 80 60 40, 20 0 0 20 40 60 80 100 Andel svenska i kommunen Uppgifterna skrivs i en tabell där man även inför kolumner för kvadraterna och korsprodukten enligt följande: x y x 2 y 2 xy 8 68 64 4624 544 11 67 121 4489 737 27 43 729 1849 1161 56 30 3136 900 1680 38 52 1444 2704 1976 50 52 2500 2704 2600 20 66 400 4356 1320 37 47 1369 2209 1739 4 86 16 7396 344 24 57 576 3249 1368 47 46 2209 2116 2162 64 27 4096 729 1728 75 20 5625 400 1500 43 52 1849 2704 2236 41 57 1681 3249 2337 83 15 6889 225 1245 58 38 3364 1444 2204 40 51 1600 2601 2040 44 54 1936 2916 2376 67 29 4489 841 1943 70 38 4900 1444 2660 7 79 49 6241 553 36 52 1296 2704 1872 91 14 8281 196 1274 91 20 8281 400 1820 90 7 8100 49 630 88 28 7744 784 2464 94 13 8836 169 1222 x=1404 y=1208 x 2 =91580 y 2= 63692 xy=45735 55
n = 28 Detta innebär att r xy = 1 45735 28 1404 1208 = -0,94763 2 2 (91580 1404 )(63692 1208 ) 1 28 1 28 I Excel finns även en funktion CORREL (sve: KORREL) som direkt beräknar korrelationskoefficienten mellan två variabler. I SPSS beräknas korrelationskoefficienten genom att man väljer Analyze...Correlate...Bivariate för att få fram dialogrutan Bivariate Correlations där man sedan anger vilka variabler som skall studeras och markerar rutan Pearson. Notera att man samtidigt kan ange fler än två variabler. Programmet beräknar då alla parvisa korrelationer, och resultatet redovisas i en symmetrisk matris. 56