En introducerande guide till SPSS

Relevanta dokument
Richard Öhrvall, 1

Mata in data i Excel och bearbeta i SPSS

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Intro till SPSS Kimmo Sorjonen (0811)

Kort manual till SPSS 10.0 för Mac/PC

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

SPSS En guidad tur. Vad ska jag göra idag? Följ instruktioner som följer, om du behöver hjälp det är bara att fråga en lärare!

Marknadsinformationsmetodik Inlämningsuppgift

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet Per-Erik Isberg. SPSS for Windows 12 - a guided tour

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

En kort instruktion för arbete i SPSS

Laborationer i statistik för A:1, Lab 1

Introduktion till SPSS

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Datorövning 1 Enkel linjär regressionsanalys

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Marknadsinformationsmetodik Inlämningsuppgift

Handledning för konstruktion av tabeller och diagram med Excel

Uppgift 1. Produktmomentkorrelationskoefficienten

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

2.1 Minitab-introduktion

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Data Editor, datainmatning och dataredigering

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

DATORÖVNING 3: MER OM STATISTISK INFERENS.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Introduktion till. Minitab version 14

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

DATORÖVNING 2: STATISTISK INFERENS.

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Att välja statistisk metod

*****************************************************************************

Laboration med Minitab

Kapitel 1: Inledning till SPSS för Windows

Obligatorisk uppgift, del 1

Datorövning 1 Introduktion till Minitab och Excel

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

FolkhälsoAtlas Labmiljö - en handledning

Grunderna i SPSS Martin Gellerstedt 0. INTRODUKTION KOM IGÅNG MED INMATNING, KODNING OCH DATATRIXANDE... 3

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

En introduktion till och första övning for Excel

Inledning till OpenOffice Calculator Datorlära 2 FK2005

4 Kolumn Kalkylbladet är uppdelat i rader (horisontellt) och kolumner (vertikalt). Där dessa möts finns alltid en cell.

Grunderna i SPSS Martin Gellerstedt 0. INTRODUKTION KOM IGÅNG MED INMATNING, KODNING OCH DATATRIXANDE... 3

Universitetskanslersämbetets Högskoleutforskare. En introduktion till analysvyn exemplet måluppfyllelse

InStat Exempel 4 Korrelation och Regression

Hämtning av sekundärdata och introduktion till Excel

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Excel-guide. Introduktion

Manual. Verktyg för skolanalys. Astrakan. Motion Chart på enkelt sätt. Artisan Global Media

Steg för Steg Att använda Statistics explorer med data från SKLs databas

2 Dataanalys och beskrivande statistik

Filbindningar. Mike McBride Översättare: Stefan Asserhäll

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

INNEHÅLL DEL 2 FORMATERA KALKYL DEL 1 SKAPA KALKYL

Ett enkelt Kalkylexempel - Fruktaffären

DATORÖVNING 2: TABELLER OCH STANDARD-

Datorövning 1 Calc i OpenOffice 1

Från PCAXIS till Statistikatlasen

Introduktion till PSPP

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Uppgift 1. Deskripitiv statistik. Lön

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

INSTÄLLNINGAR FÖR IRONCADS 2D-RITNING

Diver Version (8)

Valresultat Riksdagen 2018

Lösningar till SPSS-övning: Analytisk statistik

Föreläsning G60 Statistiska metoder

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Kom igång. Readyonet Lathund för enkelt admin. Logga in Skriv in adressen till din webbsida följt av /login. Exempel:

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll

Datoro vning 1-2 Statistisk analys av kodade svar

Exportera datafiler från Ladok Nouveau för att bearbeta dem i Excel och använda som kopplingsinstruktioner i Word.

OBS! Vi har nya rutiner.

Introduktion och laboration : Minitab

KOMPENDIUM, IBM SPSS VERSION 23

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Kom igång med Stata. Introduktion

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Programmets startmeny ser ut så här. För att få fram menyerna Avsluta, Inställningar och Användare måste du föra markören upp till det blåa fältet.

Introduktion till PAST

Laboration 3: Urval och skattningar

5HVLVWHQVWDEHOO 'DWD3DUWQHU. Er partner inom data

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Transkript:

Statsvetenskapliga institutionen En introducerande guide till SPSS - Ett praktiskt hjälpmedel utformat för grundutbildningen i statsvetenskap Sammansatt av Rickard Andersson & Michael Wahman

Förord, Den här SPSS-manualen har tagits fram för att användas i undervisningen på Statsvetenskapliga institutionen vid Lunds universitet. Vår tanke är att tillhandahålla en guide som visar hur man gör de allra vanligaste och enklaste operationerna i SPSS, 1 alltså de delar som kommer att praktiseras på metodkurserna på grundnivån i statsvetenskap. Det är viktigt att understryka att syftet med guiden inte är att vara en introduktion till statistik eller kvantitativ metod. Detta kommer att avhandlas i övriga delar av kurslitteraturen. I stället är detta en rent teknisk beskrivning av hur man praktiskt går tillväga för att göra enkla statistiska analyser i statistikprogrammet SPSS. För den som vill ha mer utförliga handböcker till SPSS finns en rad mer avancerade och omfattande manualer. För nybörjaren kan vi rekommendera Wahlgren (2008) SPSS steg för steg och för den mer avancerade användaren skulle Boslaugh (2005) An Intermediate Guide to SPSS Programming: Using Syntax for Data Management vara ett bra alternativ. I en bilaga till denna guide har vi dessutom listat ett urval av litteratur och andra källor som kan komma väl till pass om man vill förkovra sig ytterligare i SPSS. Vi har använt datamängden The Quality of Government Dataset (QoG) i samtliga icke-fiktiva exempel i den här manualen. Datamängden i sin helhet samt kodbok finns tillgängliga via http://www.qog.pol.gu.se. Vi vill dessutom understryka att SPSS bara är ett av ett flertal goda alternativ när det gäller programvaror för att genomföra statsvetenskaplig statistisk analys. Andra fullgoda alternativ erbjuds i form av bl.a. programvarorna SAS, Stata och R. Vi hoppas att den här manualen skall vara en bra resurs när ni för första gången bekantar er med SPSS. Rickard Andersson Michael Wahman Lund, 2009 1 Från och med SPSS version 18 har programpaketet bytt namn till PASW. Vi har dock genomgående valt att fortsätt benämna programmet med det äldre namnet. Exempel i den här manualen kommer att använda sig av grafik från version 18, mindre skillnader kan föreligga mellan utseendet i version 18 och tidigare versioner. 1

1. Uppstart, hantering av datafiler och grundläggande funktioner i SPSS... 3! 1.1 Att öppna programmet och ladda in data... 3! 1.2 SPSS anatomi... 4! 1.2.1 Data och Variable view... 4! 1.2.2 Output... 5! 1.2.3 Dialogrutor... 6! 1.3 Syntax eller rullgardinsmenyer?... 7! 1.4 Värdet av ett bra arbetsflöde... 7! 1.5 Om du kör fast... 8! 2. Datahantering... 9! 2.1 Att skapa och definiera variabler Variable view... 9! 2.2 Att mata in data Data View... 11! 2.3 Att skapa nya variabler Transform... 12! 2.3.1 Compute... 13! 2.3.2 Recode... 14! 2.4 Välja fall för analys... 17! 3. Univariata analyser... 19! 3.1 Univariata frekvenstabeller... 19! 3.2 Deskriptiv statistik... 20! 4. Bivariat analys... 22! 4.1 Bivariata korstabeller... 22! 4.2 Jämföra medelvärden... 24! 4.3 Korrelation... 25! 4.4 Något om analys med tre variabler... 27! 4.5 Något om intervallestimering och signifikanstest... 27! 5.1 Histogram... 32! 5.2 Stapeldiagram... 33! 5.2.1 Hur vill du att ditt stapeldiagram skall se ut?... 35! 5.3 Scatterplottar... 35! 6. Multipel regression... 38! 6.1 Att läsa ut resultaten... 40! 7. Referenser:... 41! Bilaga: Källor för introduktioner till SPSS... 42! 2

1. Uppstart, hantering av datafiler och grundläggande funktioner i SPSS 1.1 Att öppna programmet och ladda in data Fönstret ovan är det första du möts av i SPSS. Här ombeds du specificera vad du vill göra i programmet. I normalfallet kommer du här markera rutan för Open an existing data source och där ladda in den databas du vill arbeta med. I den här rutan kan du också välja att använda SPSS egen funktionsgenomgång genom att markera Run the tutorial. För att starta din session med en helt tom datamatris där du själv kan föra in din data väljer du alternativet Type in data. Programmet har också möjlighet att läsa in databaser i andra format än SPSS eget format (exempelvis Excel, SAS eller Stata). När du öppnar datafilen specificerar du i så fall vilket format den önskade filen är i under alternativet Files of type. Att ladda in andra format kan ibland vara komplicerat och om det uppstår problem så råder vi dig att konsultera SPSS hjälpfunktion (mer om hjälpfunktionen senare) där mer information om olika rutiner för olika filtyper finns tillgängligt. En annan bra resurs är programmet Stattransfer som är specialiserat på att konvertera datafiler från olika format. 3

1.2 SPSS anatomi I den här sektionen kommer vi kortfattat redogöra för det generella utseendet i SPSS och dess menyer. Det finns många utseendemässiga likheter mellan olika funktioner i SPSS och här kommer vi att illustrera hur man navigerar mellan SPSS olika delar. Observera att alla bilder i manualen är tagna från SPSS version 18, och att det kan föreligga vissa skillnader mot tidigare versioner. Förhoppningsvis skall inte dessa vara så stora att det inte går att följa instruktionerna nedan. 1.2.1 Data och Variable view SPSS skiljer sig inte mycket ifrån andra datorprogram som vi är vana vid att använda. Överst ser vi en rullgardinsmeny i vilken vi har åtkomst till nästan alla kommandon som SPSS erbjuder. Under denna finns en rad med ikoner som ger snabbåtkomst åt de vanligaste kommandon. Från början är detta en standardinställning men vill du ändra ikonerna i raden går du helt enkelt bara in på view>toolbar>customize. SPSS har två olika visningslägen Data View och Variable view. Pilen i bilden ovan visar det ställe där man skiftar mellan de båda lägena. Ovanför visas Data View i det här fönstret syns hela datamatrisen. Eftersom det här är en s.k. cross-secional databas representeras varje land enbart av en rad i databasen och varje variabel har en kolumn. I en paneldatabas (eller cross-secional timeseries data) skulle varje s.k. landår vara representerat av en rad, en rad skulle alltså kunna vara Polen 1980 och nästa rad Polen 1981. Om du skiftar till Variable View ser du information om alla variabler som finns i databasen. I denna representerar varje rad en variabel. Nedanför visas en bild som illustrerar hur Variable View ser ut. 4

1.2.2 Output Resultatet av de operationer du gör kommer sedan automatiskt att hamna i ett nytt fönster kallat Output, som visas nedan. I outputen ser man i högra klumnen av de analyser som genomförs. Till vänster finns genvägar till de genomförda kommandonas log (mer om detta i stycket om syntax) och resultat (i det här fallet mean). Under tiden du arbetar ackumuleras alla de analyser du gjort och du kan sedan gå tillbaka i outputen och se hur dina tidigare analyser sett ut. För att redigera utseendet på exempelvis en graf, dubbelklickar du på denna och kommer in i den s.k. Graph Editor (mer om detta i diagramkapitlet). 5

1.2.3 Dialogrutor När du vill utföra kommandon genom SPSS rullgardinsmenyer så är den grundläggande konstruktionen av de dialogrutor som visas ungefärdensamma oavsett vilket specifikt kommando du vill utföra. Nedanför visas ett typiskt exempel, nämligen den dialogruta man får upp för att göra ett areadiagram. Utseendet på dialogboxen är som sagt ungefär likadant för alla SPSS-kommandon. I kolumnen till vänster visas namnen på alla variabler i databasen. För att använda en specifik variabel markerar du helt enkelt denna och trycker sedan på den högerriktade pilen bredvid den box som du vill överföra variabeln till. Om du exempelvis vill använda variabeln civil rights i den här analysen markerar du variabeln och trycker sedan på pilen till vänster om boxen Variable. Om du sedan ångrar dig och vill lägga in en ny variabel i boxen Variable markerar du variabeln när den ligger i boxen (alltså inte den som ligger i vänsterkolumnen). 6

Pilen till vänster om boxen kommer då i stället att bli vänsterriktad och du kan trycka på denna för att avlägsna variabeln ur analysen. I likhet med andra kommandon finns även två knappar för Titles och Options Via knappen Options kan du ändra vissa alternativ. Vad du kan ändra i denna beror delvis på vilket kommando du använder, men vanligtvis finns här en rad olika statistiska möjligheter. Knappen Titles kan användas för att lägga till en titel på din färdiga output av analysen. I dialogrutan finns även en knapp benämnd som PASTE. Med hjälp av denna kan du få det kommando som du utfört i dialogrutan inklistrat i ett syntax. Vinsterna med ett sådant förfarande kommer att beskrivas närmare i kapitlet som behandlar användningen av syntax. När du har gjort dina val, trycker du bara på OK för att utföra analysen. 1.3 Syntax eller rullgardinsmenyer? Åtkomst i menyerna: File>New>Syntax I den här manualen kommer vi att använda oss av SPSS rullgardinsmenyer. Som du kommer att märka blir SPSS föredömligt lättmanövrerat på det här sättet och när du använder rullgardinerna skiljer sig inte SPSS från något annat av de datorprogram du använder dagligdags (exempelvis Word eller Internet Explorer). I likhet med andra statistikprogram erbjuder dock SPSS ytterligare ett alternativt arbetssätt, nämligen syntax. Att arbeta i syntax är en typ av programmering där du genom att själv skriva in dina kommandon manuellt får SPSS att utföra de operationer du önskar. Fördelen med det här arbetssättet är att det går betydligt snabbare när du väl har lärt dig det och att det blir lätt för dig att i efterhand gå tillbaka och se vad du gjort och eventuellt justera de ändringar eller analyser som du har genomfört. Problemet är dock att det tar lite tid att lära sig programmeringsspråket för syntaxen. För den som är intresserad finns det dock all anledning att investera lite tid i att lära sig att använda syntax i SPSS eller något annat av de stora statistikprogrammen. Det går dock alldeles utmärkt att genomföra även komplicerade operationer genom rullgardinsmenyerna i SPSS. Ett bra tips är att använda funktionen PASTE (se ovanstående kapitel) för att spara ett rullgardinskommando i en syntax-fil. Dessutom lägger sig syntaxkommandot från dina rullgardinsoperationer ovanför outputen i ditt outputfönster under det som kallas log. Dessa kommandon kan sparas och sedan läggas in i en syntax för att öka reproducerbarheten av dina resultat. 1.4 Värdet av ett bra arbetsflöde Det kan låta trivialt, men att ha ett bra arbetsflöde när man arbetar med statistik är A och O. Speciellt om man arbetar med och ändrar i stora databaser. Ogenomtänkta förändringar i en datamängd kan resultera i dagar av förlorat arbete. Därför går det inte att nog understryka vikten av att spara din databas ofta om du arbetar med att ändra i din databas. En annan viktig sak är att vara tydlig när du exempelvis skapar nya variabler. Varför en variabel som 7

exempelvis har kallats golsp3 skiljer sig från golsp2 kan tyckas självklart i det ögonblick du skapar variabeln, men mindre självklart om en vecka eller än mindre om ett år. Därför är det bra att dokumentera ditt arbete och arbeta mycket med att sätta etiketter på dina variabler. Som sagt, det kan låta trivialt, men författarna kan skriva under på att kostsamma misstag lätt kan inträffa. Till den som vill läsa mer om hur man förbättrar sitt arbetsflöde kan vi varmt rekommendera Scott Long (2009) The Workflow of Data Analysis Using Stata. 1.5 Om du kör fast Åtkomst i menyerna: Help>Topics Om du ställs inför ett problem som är svårt att lösa i SPSS är det bra att veta att det finns bra hjälpfunktioner i programmet. Här kan du gå in och exempelvis få svar på hur du utför ett specifikt kommando. Dessutom har det börjat dyka upp aktiva användarforum för de allra flesta statistikprogrammen, så också för SPSS. På forumet www.spssforum.com kan du gratis posta din SPSS fråga och se om någon annan SPSS användare möjligen har svaret på din frågeställning. 2 2 Se även bilagan till denna manual, där vi listar ytterligare hjälpmöjligheter. 8

2. Datahantering Avsnittet behandlar grundläggande datahantering i SPSS, såsom hur man skapar variabler, hur man matar in data och hur man kodar om och slår ihop variabler. 2.1 Att skapa och definiera variabler Variable view I SPSS definieras variabler i fliken Variable View. Det är också här det är enklast att skapa nya variabler. I Variable View motsvaras varje variabel av en rad och varje kolumn används för att definiera en viss egenskap hos datamängdens variabler. Innebörden av egenskaperna är följande: Name Type Anger variabelns namn. Namnet får bestå av högst 64 tecken, måste inledas med en bokstav, får ej avslutas med en punkt och får inte bestå av följande bokstavskombinationer: ALL, AND, BY, EQ, GE, GT, LE, LT, NE, NOT, OR, TO, WITH. Namnet får ej heller innehålla blanksteg. För variabelnamn betraktas stora och små bokstäver lika. Anger olika typer av fördefinierade datavärden. Huvudsakligen finns två olika typer av värden: Nummeric (sifferbaserade värden) och String (textbaserade värden). Comma, Dot, Scientific notation, Dollar och Custom currency är specialvarianter av Nummeric och används sällan. Date anger tidsbaserade värden och kan skrivas med några olika fördefinierade format. Date är användbart om man arbetar med tidsseriedata. Om en variabel definieras som String kan den inte användas för matematiska beräkningar utan enbart för deskription och enklare klassificeringar. Nedan visas fönstret för Type i SPSS Width Decimals Anger antal tecken som kan skrivas i varje kolumn i Data view. Detta är framför allt av vikt när man arbetar med långa stringvariabler. Anger hur många decimaler som visas i Data view. 9

Label Values Används för att sätta en etikett på variabeln, som sedan fungerar som en längre beskrivning av variabeln än den som tillhandahålls av Name. Om Label definieras är det detta som visas i de resultattabeller som variabeln förekommer i. Används för att sätta etiketter på enskilda variabelvärden. I fönstret Value Labels anges de etiketter för de numeriska variabelvärden man vill inkludera i variabeln. Även Missing Values (se nedan) kan tilldelas etiketter. Missing Missing values är okända värden på de mätta variablerna. Om det finns intresse av att särskilja på olika missing values görs detta genom att specifika missing values anges i denna kolumn. Utöver diskreta missing values kan man även ange intervall för olika missing values. Columns Align Anger hur många tecken som visas i Data view (se nedan). Notera skillnaden mellan detta och Width, som anger hur många tecken som får skrivas i kolumnen. Anger vilken position tecknen i variabelns kolumn i Data view (se nedan) ska ha. Stringvariabler blir automatiskt vänsterställda och numeriska variabler blir automatiskt högerställda. 10

Measure Role Anger variabelns skalnivå. Stringvariabler blir automatiskt definierade som Nominal och numeriska variabler som Scale (intervall- eller kvotskala). Numeriska variabler kan alltså vara i behov av korrigering här, om dessa ej ligger på kvot- eller intervallnivå. Notera dock att denna information främst är viktig när man skapar tabeller eller som vägledning när man tar fram variabler för analys. Den påverkar inte vilka variabler man kan välja för olika typer av analyser. Anger vilken roll variabeln ska anta i sådana analysförfaranden i SPSS som stödjer fördefinierade roller för olika variabler. Då alla specifika roller innebär att användningsområdet för variabeln begränsas rekommenderas att värdet på Role sätts till None. 3 Nedan visas Variable View med två införda variabler. Variabeln Exempel_num är en numerisk variabel på ordinalnivå med variabeletikett och tre definierade variabelvärden (0 = Exempel 1; 1 = Exempel 2; 2 = Exempel 3) samt ett definierat missing value (999). Variabeln Exempel_sträng är en stringvariabel. 2.2 Att mata in data Data View I SPSS matas data in i fliken Data View. I Data View motsvaras, som tidigare nämnts, varje kolumn av en variabel och varje rad av en analysenhet. För att föra in data markeras önskad cell. Därefter matas korrekt värde in i cellen. Notera att dataformatet måste stämma överrens med de definitioner som angetts för variabeln i Variable View. Nedan visas Data View med exempelvariablerna från föregående genomgång. 10 analysenheter har tilldelats värden på de två variablerna. Analysenheten på den nionde raden har tilldelats ett missing value för variabeln Exempel_num. 3 Variabeldefinitionen Role finns ej i SPSS version 16 och tidigare. 11

De etiketter man anger för specifika variabelvärden i Variable View kan även visas i Data View genom att klicka på Value Labels under menyn View. Nedan visas hur de två exempelvariablerna ser ut i med etiketter i Data View. Notera att missing value-koden 999 ej har tilldelats någon etikett. 2.3 Att skapa nya variabler Transform SPSS omfattar en rad olika funktioner för omkodning av variabler och beräkning av nya variabler. Samtliga av dessa funktioner finns under menyn Transform. Nedan följer en genomgång av några av de vanligaste funktionerna. 12

2.3.1 Compute Åtkomst i menyerna: Transform>Compute Variable Compute används för att framställa nya variabler via beräkningar framför allt på redan existerande variabler. I dialogrutan Compute Variable definieras dels namn och övriga egenskaper för den nya variabel man vill skapa samt vilka redan existerande variabler man vill använda sig av, dels vilka beräkningar man vill göra. I SPSS finns en mängd fördefinierade matematiska operationer, men man kan även skriva egna operationer i rutan Numeric Expression. I rutan Target Variable anges den nya variabelns namn (under knappen Type & Label kan ytterligare definitioner för variabeln anges). I rutorna Function group och Functions and Special Variables listas fördefinierade matematiska operationer. De variabler som ska ingå i beräkningarna förs över till rutan Numeric Expression från listan med datamängdens samtliga variabler. Exempel I detta exempel ska vi beräkna BNP per capita för världens länder. För att åstadkomma detta skapas en variabel med namnet unna_gdppc_exempel och som beräknas genom att variabeln unna_gdp (som anger ett lands BNP) divideras med variabeln unna_pop (som anger ett lands invånarantal). I bilden nedan visas hur detta ser ut i dialogfönstret Compute Variable. För att genomföra beräkningen och skapa den nya variabeln, tryck på OK. Notera att alla nya variabler placerar sig sist i listan med variabler i SPSS. 13

2.3.2 Recode Åtkomst i menyerna: Transform>Recode into Same Variables eller Transform>Recode into Different Variables. För att koda om enskilda variabler används funktionen Recode. Under menyn Transform finns två olika Recode-funktioner: Recode into Same Variables samt Recode into Different Variables. Används den förra skapas ingen ny variabel utan omkodningen sker direkt i ursprungsvariabeln. Används den senare skapas en ny variabel med de nya koderna och ursprungsvariabeln lämnas intakt. Det rekommenderas sällan att använda Recode into Same Variables då man via denna funktion förlorar data för framtida användande. I dialogrutan Recode into Different Variables listas alla variabler som ingår i datamängden till vänster och den variabel man vill koda om förs över till rutan Input Variable -> Output Variable. Den nya variabeln definieras i rutan Output variable. De omkodningar som ska göras definieras i rutan Old and New Values. Notera dock att man först måste definiera vilken variabel man ska koda om innan man kan definiera nya värden. I rutan Old and New Values anges hur olika värden i ursprungsvariabeln ska hanteras i den nya variabeln. För värdena på ursprungsvariabeln finns följande alternativ: Value System-missing System- or User-missing Range Range, LOWEST through value Range, value through HIGHEST All other values Används för att ange ett diskret variabelvärde. Används för att ange missing values som ej är definierade av användaren (vilket motsvaras av helt tomma celler). Används för att ange missing values som antingen är definierade av användaren eller som ej är det. Används för att ange ett intervall av variabelvärden med definierade högsta och lägsta värden. Används för att ange ett intervall av variabelvärden enbart med definierat lägsta värde. Används för att ange ett intervall av variabelvärden enbart med definierat högsta värde. Används för att ange alla variabelvärden som ej omfattas av övriga specifikationer. För värdena på den nyskapade variabeln finns följande alternativ: Value System-missing Copy old value(s) Används för att ange ett diskret variabelvärde. Används för att ange missing values som ej är definierade av användaren (vilket motsvaras av helt tomma celler). Används för att kopiera ett eller flera värden från ursprungsvariabeln. Man kan även välja att endast inkludera vissa fall i sin nya variabel, exempelvis bara afrikanska länder. För att åstadkomma detta används if-knappen. Dialogrutan nedanför kommer då att visas. 14

Man markerar i det här fallet alternativet include if cases satisfies contition och skriver sedan in sin formel. I det här fallet skriver man ht_region=4 (4 är koden för Afrika söder om Sahara). 4 Exempel I detta exempel ska vi koda om Freedom House indelning av länder i Free, Partly Free och Not Free till en dikotom variabel (en variabel med endast två värden) med värdena Free och Other. Den ursprungliga variabeln som anger Freedom House kategorisering, fh_status, kan anta följande värden: 1 = Free; 2 = Partly Free; 3 = Not Free. Vi ska slå ihop värdena 2 och 3 så att samtliga analysenheter som uppvisar dessa värden tilldelas ett och samma värde på en ny variabel. Den nya variabeln kallar vi fh_collapse_exempel och variabeln ska kunna anta följande värden: 1 = Free (motsvaras av värdet 1 i fh_status) och 2 = Other (motsvaras av värdena 2 och 3 i fh_status). I dialogfönstret Recode into Different Variables förs variabeln fh_status över till rutan Input Variable -> Output Variable. Den nya variabeln tilldelas namnet fh_collapse_exempel i rutan Output variable. Vi trycker därefter på knappen Change, vilket resulterar i att den nyskapade variabeln anges som mål för omkodningen. 4 Samma förfarande finns även tillgängligt för funktionen Compute. 15

Därefter definierar vi de nya värdena i rutan Old and New Values. Det ursprungliga variabelvärdet 1 ska kopieras till den nya variabeln. Detta görs genom att i sektionen för ursprungsvariabeln kryssa i Value och ange värdet 1, samt i sektionen för den nya variabeln kryssa i Copy old value(s). (Samma sak kan åstadkommas genom att i sektionen för den nya variabeln kryssa i Value och ange värdet 1.) Tryck på Add när definitionen är klara (detta måste göras för samtliga variabelvärden). För att slå samman värdena 2 och 3 i ursprungsvariabeln anges dessa, genom att kryssa i Range, som lägsta respektive högsta värdet i ett intervall som genom att kryssa i Value i sektionen för den nya variabeln tilldelas värdet 2 i den nyskapade variabeln. (Samma sak skulle kunna åstadkommas genom att kryssa i All other values och tilldela dessa värdet 2 i den nyskapade variabeln.) Tryck på Add när definitionerna är klara. Tryck därefter Continue för att återgå till fönstret Recode into Different Variables. Tryck därefter på OK för att slutföra operationen. 16

2.4 Välja fall för analys Åtkomst i menyerna: Data> Select Cases I vissa fall vill man bara arbeta med en speciell kategori av fallen i sin stora datamängd. Det projekt man arbetar med kanske exempelvis bara behandlar utvecklingsländer eller postsovjetiska länder. Om man vet att man under en rad analyser bara skall använda dessa fall kan det i så fall vara en god idé att temporärt sortera bort andra fall. Nedanför visas ett exempel I det här fallet har vi bara velat ha med världens allra fattigaste länder i vår analys och därför bara valt att ha kvar dem som har Human Development Index (HDI)<0.52 (en standardavvikelse under medelvärdet för HDI). Detta får man fram genom att markera If condition is satisfied och sedan trycka på if knappen och där skriva in sitt villkor. I fönstret Output längst ner i dialogrutan kan man välja hur de bortsorterade fallen ska hanteras. Standardalternativet är Filter out unselected cases. Detta är oftast det alternativ som är att föredra. När man väljer det här alternativet görs övriga fall bara tillfälligt inaktiva och när du sedan går tillbaka och ändrar till att välja alternativet All cases kommer de tidigare bortgallrade fallen tillbaka in i analysen. Du kan också välja alternativet Copy selected cases to a new dataset. Detta kan också vara ett bra alternativ. I det här fallet exporterar SPSS de utvalda fallen till en ny databas. Det sista alternativet Delete unselected cases bör man dock vara vaksam med. I det här fallet raderar SPSS de icke valda fallen permanent från databasen. 17

Innan du väljer det här alternativet bör du alltså tänka dig för ordentligt. Nedanför visas hur Data view ser ut efter det att man valt alternativet Filter out unselected cases. Som du ser sätts ett diagonalt streck över alla de fall som blir inaktiva i analysen, i det här fallet alltså de som har en HDI som överstiger 0.52. I det här exemplet kan man exempelvis se att Etiopien och Djibouti kommer att vara mer i analysen, men inte Frankrike och Georgien. 18

3. Univariata analyser Den främsta anledningen till att använda univariata analyser (alltså en statistisk analys där man bara beskriver en variabel och inte jämför den med värdet på andra variabler) är att beskriva och fånga en bild av hur fördelningen i en specifik variabel ser ut. I det här avsnittet beskriver vi olika grundläggande metoder för enkel univariat analys. 3.1 Univariata frekvenstabeller Åtkomst i menyerna: Analyze>Descriptive Statistics>Frequencies Univariata frekvenstabeller spelar en viktig roll i datorstödd statistisk analys, dels som det första ledet i själva analysen av data, delssom utgångspunkten i hantering och bearbetning av materialet. En generell riktlinje man bör följa är att alltid inleda arbetet med en variabel genom att ta fram en frekvenstabell för den. I dialogrutan Frequencies anges vilka variabler man vill skapa frekvenstabeller för. Dessutom finns det under knappen Statistics möjlighet att plocka fram information om olika central- och spridningsmått. Notera att bocken för Display frequency tables måste vara ikryssad för att frekvenstabellerna ska genereras. Notera även att frekvenstabeller för variabler på intervall- eller kvotnivå kan bli svåra att överskåda på grund av stora antal variabelvärden. För intervall- eller kvotvariabler med många variabelvärden rekommenderas grafisk framställning genom histogram (se nedan för tillvägagångssättet för detta). Exempel I detta exempel ska vi ta fram en frekvenstabell för en variabel som visar fördelningen mellan olika valsystem i världens länder. I SPSS Output får vi fram följande information av operationen: 19

Under rubriken Statistics anges hur många analysenheter som har ett giltigt värde på variabeln (Valid) och hur många som saknar giltigt värde (Missing). Totalt har 108 av 192 analysenheter ett giltigt värde på variabeln. I den andra tabellen, vars titel överrensstämmer med den etikett vi angett för variabeln (om ingen etikett anges används variabelns namn i stället), finns själva frekvenstabellen. Variabeln kan anta fyra värden (Majoritarian; Proportional; Multi-tier och Mixed). I kolumnen Frequency anges hur många gånger varje variabelvärde förekommer i datamängden. Även antalet missing values redovisas. I kolumnen Percent anges den procentuella fördelningen av olika värden för variabeln. Notera dock att denna kolumn anger procentsatser för materialet i sin helhet och således inkluderar även missing values i beräkningarna. I kolumnen Valid Percent anges procentsatserna när enbart de giltiga variabelvärdena har inkluderats i beräkningarna (missing values har exkluderats). I den sista kolumnen, Cumulative Percent visas den kumulativa procentsatsen för de giltiga variabelvärdena. 3.2 Deskriptiv statistik Åtkomst i menyerna: Analyze>Descriptive Statistics>Frequencies Frequencies kan även användas för att enbart ta fram vissa grundläggande deskriptiva mått för variabler. Genom att gå in i dialogrutan Statistics kan de flesta central- och spridningsmått som används erhållas. Ungefär samma uppgifter kan nås via någon av funktionerna Descriptives eller Explore som även de ligger under Descriptive Statistics i menyn Analyze. 20

Exempel Nedan visas en utskrift för de deskriptiva mått som är ikryssade ovan. Variabeln i fråga anger HDI för världens länder. N anger dels hur många analysenheter som har giltiga värden på variabeln och dels hur många missing values som förekommer. Notera att fotnoten till centralmåttet typvärde (Mode) anger att det finns flera värden i materialet som uppfyller kraven på typvärde. 21

4. Bivariat analys Bivariat analys innebär att det i analysen ingår två variabler samtidigt. Vilken teknik för bivariat analys som ska användas är beroende av vilka skalnivåer de berörda variablerna har. Om vi låter nominal- och ordinalvariabler sammanfalla i kategorin kvalitativa variabler samt intervall- och kvotvariabler i kategorin kvantitativa variabler, och om vi förutsätter att de två variablerna ingår i ett orsakssamband i vilket den beroende variabeln är Y och den beroende variabeln X, kan de olika tekniker vi har till förfogande sammanställas i följande tabell: Y Kvalitativ Kvantitativ X Kvalitativ Bivariata korstabeller (Crosstabs i SPSS) Jämföra medelvärden (Compare means i SPSS) Kvantitativ Klassindelning av X, därefter korstabell Korrelation (Bivariate correlation i SPSS) 4.1 Bivariata korstabeller Åtkomst i menyerna: Analyze>Descriptive Statistics>Crosstabs Korstabeller används när båda variablerna som ingår i analysen är kvalitativa. Det går även att använda korstabeller för kvantitativa variabler om antalet variabelvärden är förhållandevis lågt. För att använda korstabeller i analyser i vilka den oberoende variabeln är kvantitativ och omfattar många variabelvärden och den beroende variabeln är kvalitativ, rekommenderas att den kvantitativa variabeln först klassindelas. I SPSS åstadkommer man klassindelningar genom att använda funktionen Recode (se ovan). Det bör dock noteras att konstruktionen av klasser ingalunda är en teknisk och oproblematisk uppgift, utan bör föregås av teoretisk reflektion. I dialogrutan Crosstabs ska Y-variabeln föras in som radvariabel (i rutan Row(s)) och X-variabeln föras in som kolumnvariabel (i rutan Column(s). 22

Klicka därefter på Cells för att komma in i dialogrutan Cell Display. Här anges vilken information som ska visas i tabellen. Under Counts ska Observed vara ikryssat. Välj därefter att redovisa porcentsatser kolumnvis genom att kryssa i Column under Percentages. Exempel Nedan visas en korstabell i vilken Freedom House kategorisering av världens länder utifrån om de är fria eller inte har tabellerats mot i vilken region länderna befinner sig. 23

I den första tabellen får vi information om hur många analysenheter som har inkluderats i korstabellen. I den andra tabellen återfinns själva korstabellen. Notera att % within Region of the Country anger att de inkluderade procentsatserna är beräknade på variabeln som visar region (variabelns etikett är Region of the Country). 4.2 Jämföra medelvärden Åtkomst i menyerna: Analyze>Compare Means>Means Bivariata jämförelser av medelvärden görs när analysen omfattar en kvantitativ beroende variabel samt en kvalitativ oberoende variabel. 24

I dialogrutan Means förs den beroende variabeln in i rutan Dependent List och den oberoende variabeln förs in under rutan Independent List. Exempel I detta exempel används BNP per capita för världens länder som beroende variabel och Freedom House kategorisering av världens länder utifrån om de är fria eller inte som oberoende variabel. I SPSS Output får vi följande information: I den första tabellen får vi information om hur många analysenheter som har inkluderats i analysen. Den andra tabellen innehåller beräkningarna på de olika gruppernas medelvärden. I kolumnen Mean anges medelvärdet för den beroende variabeln uppdelat på varje enskilt variabelvärde i den oberoende variabeln. Kolumnen N anger hur många gånger varje variabelvärde i den oberoende variabeln förekommer i datamängden. 4.3 Korrelation Åtkomst i menyerna: Analyze>Correlate>Bivariate Korrelation, närmare bestämt korrelationsmåttet Pearson s r, används för analys av två kvantitativa variabler. 25

I dialogrutan Bivariate Correlations flyttas båda analysens variabler över till listan Variables. För att producera en Pearson s r-korrelation behöver inget annat ändras i rutan. Exempel I detta exempel ska vi titta på korrelationen mellan HDI och Gini-indexet för ekonomisk ojämlikhet. I SPSS Output får vi fram följande: SPSS producerar en korrelationsmatris för samtliga möjliga kombinationer av samtliga variabler som ingår i analysen. De celler som visar en variabels korrelation med sig själv visar naturligtvis alltid 1 (Pearson s r kan variera från -1 till +1). De celler som visar Gini-indexets korrelation med HDI respektive HDI:s korrelation med Gini-indexet visar självklart samma information. Själva korrelationskoefficienten står att finna i raden Pearson Correlation och 26

är i det här fallet -0,413. Raden Sig. (2-tailed) visar signifikansnivå för korrelationen (se nedan) och N anger antal analysenheter som omfattas av analysen. 4.4 Något om analys med tre variabler Det kan uppstå tillfällen då analys med tre variabler möjligen bör användas. Både korstabeller och jämförelser av medelvärden kan användas i multivariat analys. I SPSS producerar man korstabeller med fler än två variabler genom att föra in variabler i rutan Layer i dialogrutan Crosstabs. Multivariata jämförelser av medelvärden produceras på liknande sätt genom att använda rutan Layer i dialogrutan Means. Det bör dock noteras att denna typ av analyser är svåra att överskåda och tolka på ett meningsfullt sätt. Aktsamhet rekommenderas. 4.5 Något om intervallestimering och signifikanstest Åtkomst i menyerna: Analyze>Compare Means>One-Sample T Test Estimering av intervall för medelvärden åstadkoms i SPSS med fördel via funktionen One- Sample T Test. Den variabel vars medelvärde ska analyseras flyttas i dialogrutan One-Sample T Test över till rutan Test Variable(s). Nedan visas ett exempel där ett 95-procentigt konfidensintervall beräknats för medelvärdet på världens länders HDI-värden. 27

I SPSS Output får vi följande information: I den första tabellen anges antalet analysenheter som ingår i beräkningen, den aktuella variabelns medelvärde som i det här fallet är 0,6982 samt medelvärdets standardavvikelse och standardfel. Gränsvärdena för konfidensintervallet återfinns i den andra tabellens högra sida, under kolumnerna med titeln 95% Confidence Interval of the Difference. I exemplet är det lägre gränsvärdet 0,6714 och det högre 0,7251. Vi kan alltså hävda att medelvärdet för HDI med 95 procents säkerhet ligger någonstans mellan 0,6714 och 0,7251. Notera att kolumnen som anger signifikans, Sig. (2-tailed), inte är meningsfull att använda om denna funktion används för att enbart ta fram konfidensintervall. Om konfidensintervall med annan nivå av säkerhet än 95% ska tas fram, ändrar man graden av säkerhet i dialogfönstret One-Sample T Test: Options som nås genom att klicka på knappen Options i dialogfönstret One-Sample T Test. För att göra hypotestest på medelvärden, det vill säga testa om urvalsmedelvärdet är skiljt från ett teoretiskt medelvärde, används samma procedur. Dock ska det teoretiska medelvärde man testar urvalsmedelvärdet mot föras in i rutan Test Value i dialogrutan One-Sample T Test. Vi kan exempelvis vilja pröva följande hypotes: Medelvärdet på HDI för världens länder är 0,5. Mothypotesen till denna hypotes kan då vara: Medelvärdet på HDI för världens länder är inte 0,5. 28

Vi för då in 0,5 som testvärde i dialogrutan One-Sample T Test. I SPSS Output får vi följande information: Den första tabellen ger oss samma information som i exemplet ovan. I den andra tabellen är vi denna gång främst intresserade av det som står i kolumnen Sig. (2-tailed). Här anges nämligen testets signifikansnivå, eller med andra ord sannolikheten att vi skulle få ett urvalsmedelvärde lika med eller högre än det som vi faktiskt har (i detta fall är urvalsmedelvärdet 0,6982). I tabellen anges signifikansvärdet som 0,000. Detta inträffar då signifikansen är högre än vad som kan skrivas med tre decimaler. Vi kan alltså med mer än 99,9% säkerhet påstå att medelvärdet för HDI-värdet för världens länder är skiljt från 0,5. Notera att kolumnerna för konfidensintervall i dessa fall, när andra testvärden än 0 används, ej visar konfidensintervall för medelvärdet utan konfidensintervall för skillnaden mellan urvalsmedelvärdet och det teoretiska medelvärdet. Medelvärdet i skillnaden anges i kolumnen Mean Difference och är i det här fallet 0,19824. Gränsvärdena för konfidensintervallet för skillnaden är 0,1714 och 0,2252. Tolkningen av dessa värden är ofta förhållandevis snårig och inom statsvetenskaplig analys ofta av ringa värde. Vi vill även uppmärksamma vikten av att hypotesprövningar måste vara teoretiskt relevanta för att ha en plats i statsvetenskaplig analys. Vår hypotesprövning av medelvärdet på HDI är exempelvis av bristande hypotesprövning i teoretiskt avseende. Detta eftersom vi svårligen kan finna en teori som skulle motivera varför det är intressant att veta hur de faktiska HDIvärdena för världens länder förhåller sig till HDI-värdet 0,5. 29

Signifikanstest för korrelationer genereras automatiskt i SPSS när man tar fram korrelationerna i fråga. Vårt tidigare exempel om korrelationen mellan HDI och Gini-indexet resulterade i följande utskrift från SPSS output: I raden Sig. (2-tailed) anges korrelationens signifikansnivå. För korrelationer betecknar signifikansnivån sannolikheten att få ett värde som är lika med eller högre än det erhållna värdet på korrelationskoefficienten om det i populationen ej skulle finnas någon korrelation mellan variablerna. I exemplet anges signifikansnivån till 0,000 vilket därmed kan tolkas som att sannolikheten att få det erhållna värdet (eller ett värde större än det erhållna) på korrelationskoefficienten är mindre än 0,1% om variablerna i populationen ej är korrelerade. I analys av proportioner där variabeln ifråga är dikotom kan samma t-test som används i analys av medelvärden användas för signifikanstest. Dock finns det vissa restriktioner i sådana fall och vi hänvisar till exempelvis Teorell och Svensson (2007) för grundläggande vägledning. För hypotesprövning av proportioner där variabeln har fler än två värden bör den så kallade! 2 -metoden användas.! 2 är även standard för hypotesprövning av korstabeller. I analyser som består av jämförelser av fler än ett medelvärde, exempelvis jämförelser av olika gruppers medelvärden på en viss variabel, används så kallad ANOVA-analys. Vi kommer dock ej att redogöra vidare för varken! 2 eller ANOVA i denna manual, då de ej ingår som moment i grundkurserna i statsvetenskap. Det kan dock vara bra att läsaren känner till att de existerar och att de med fördel kan användas i rätt sammanhang. 30

5. Diagram Att visualisera data med hjälp av diagram är ett bra sätt att snabbt förmedla en stor mängd data till en läsare. En del av precisionen i en tabell försvinner, men å andra sidan ökar läsbarheten betydligt. Diagram är speciellt passande vid presentationer, då det gäller att snabbt förmedla datans innebörd till otåliga åhörare. För den som vill ha mer information om idéer och strategier för att visualisera data kan vi starkt rekommendera Jacoby (1998) Statistical Graphics for Visualizing Multivariate Data. SPSS erbjuder en mängd alternativ för den som vill visualisera sina data genom diagram. I den här manualen kommer vi bara att visa de allra vanligaste instrumenten. De diagram som produceras kommer att hamna i din output. Om man dubbelklickar på ett diagram kommer man in i det som kallas Graph Editor. Här kan man göra en rad förändringar i utseendet på ditt diagram. Här nedan har vi exempelvis producerat ett tårtdiagram som visar fördelningen mellan olika valsystem i världens länder: I editorn kan man lätt göra de visuella förändringarna man vill, så att diagrammet bättre överensstämmer med det visuella formspråk som man har i resten av ditt dokument eller din presentation. Hur man gör förändringarna i utseendet är väldigt intuitivt. Vill man exempelvis ha andra färger på tårtbitarna kan man bara dubbelklicka på den bit som man vill ändra färg på. Vill man ha ett annat typsnitt på kategorierna dubbelklickar du på texten, och vill du lägga till en rubrik till diagrammet går du in genom Options>title. Det hela är som sagt väldigt intuitivt och fungerar ungefär likadant oavsett vilken diagramtyp man arbetar med. I texten nedanför kommer vi mer noggrant att gå igenom tre speciellt viktiga diagramtyper nämligen histogrammet, stapeldiagrammet och scatterplotten. 31

5.1 Histogram Åtkomst i menyerna: Graphs>Legacy dialog>histogram Detta är ett av de allra enklaste visuella hjälpmedlen för att visa hur en variabel är distribuerad över populationen. För att välja vilken variabel som man vill visa fördelningen på för man helt enkelt bara över den till rutan kallad Variable. Varje stapel i diagrammet kommer sedan att visa antalet enheter som har ett specifikt värde, eller som faller inom gränserna för specifika intervall, på variabeln. Om man vill jämföra histogrammet med en normalfördelningskurva bockar man bara rutan för Display normal curve i rutan under Variable- boxen. Resultatet av analysen visas här nedanför. Notera även att gränserna för de intervall som kan produceras genom tekniken kan ändras. Bredvid diagrammet visas också de tre mest centrala beskrivande måtten för variabeln dvs. medelvärdet, standardavvikelsen och hur många observationer som finns (N). 32

5.2 Stapeldiagram Åtkomst i menyerna: Graphs>Legacy dialog>bar Simple är standardversionen av ett stapeldiagram. Denna typ använder du om du inte vill skapa en jämförelse inom dina olika grupper eller variabler. Clustered skapar fler möjligheter till komparation. Med detta alternativ kan du välja att illustrera skillnader inom grupper eller skillnader mellan olika variabler inom samma grupp. Stacked brukar användas när man vill visa hur stor andel av en helhet som ryms inom en specifik kategori. Exempelvis hur många svarar ja respektive nej på en enkätfråga. Ett alternativ till stacked är att använda ett tårtdiagram, men om man vill visa många olika analyser på en liten yta, är det troligtvis att föredra att använda många stacked-staplar än flera platskrävande tårtdiagram. I rutan ber man dig också välja Data in Chart are. Här kan du välja mellan att summera en variabel med group of cases, i detta fall kommer varje pelare att representera värdet på en grupp och ev. dess subgrupper (om du kombinerar med clustered). Om du i stället väljer separate variables kommer varje pelare att representera olika variabler antingen för sig (om du kombinerar med simple) eller inom olika variabler (om du kombinerar med clustered). Man kan även välja values of individual cases om du vill skilja ut alla tänkbara enheter. Den troligtvis vanligaste typen av diagram är simple bar: Summaries for group of variables. Denna visas till höger. I denna kan du göra ett antal olika val. 33

I ovanstående ruta har vi valt att summera medelnivån på Freedom House civil liberties score över de tre olika Freedom House kategorierna free, partly free och not free. Den variabel du vill använda för att dela upp observationerna i olika kategorier lägger du över i rutan benämnd Category Axis. SPSS kommer sedan att producera en enskild stapel för varje observerat värde i kategorivariabeln (i det här exemplet tre olika staplar). Vilken information som kommer att illustreras i staplarna beror på vilket alternativ du väljer i rutan Bars Represent. I det här exemplet har angett alternativet other statistics (e.g. mean) och i denna lagt in variabeln för Freedom House cl mått. Standardalternativet är då att SPSS kommer att visa medelvärdet på den aktuella variabeln för de olika grupperna. Om du vill få ut någon annan statistik kan du välja Change Statistic under variabelfältet och välja att exempelvis illustrera medianen eller variansen. Om du bara är intresserad av att visa spridningen mellan de olika kategorierna på x-axeln kan du exempelvis välja N of cases för att illustrera hur många länder som befinner sig i varje kategori eller % of cases för att visa hur många procent av fallen som befinner sig i olika kategorier. Nedanför visas utfallet av analysen: I en Simple Summary of Seperate Variables kommer dialogrutan att se ut så här: I rutan Bars Represent lägger du in de variabler som du vill att staplarna skall representera. Även här kommer SPSS, om du inte anger annat, välja att visa medelvärdet. Om du önskar något annat statistiskt mått kan du använda alternativet Change Statistics. Den variabel som du vill använda för att skilja kategorierna åt lägger du in i Category Axis. 34

5.2.1 Hur vill du att ditt stapeldiagram skall se ut? Nedanför visas resultatet av fyra olika analyser som antingen använder simple, clustered, group of cases eller seperate variables i olika kombinationer. Simple och group of cases Simple och seperate variables Clustred och seperate variables Clustered och group of cases 5.3 Scatterplottar Åtkomst i menyerna: Graphs>Legacy dialog>scatter/dot Scatterplotten är ett bra sätt att illustrera sambandet mellan två kontinuerliga kvantitativa variabler och är också den visuella grunden för regressionsanalysen. Här nedanför exemplifierar vi med en fiktiv studie på temat kvinnlig politisk representation. I det här fallet är vi intresserade av att se på sambandet mellan andelen kvinnor i parlamentet och andelen 35

kvinnor i regeringen. När du kommer in i menyn får du valet mellan ett antal olika scatters. För det allra mesta skall man välja alternativet simple scatter (detta är också det enda vi kommer att visa under våra seminarier). I scatterplotten kommer varje enhet (i det här fallet länder) i datan att representeras av en punkt i ett två-dimensionell diagram. För att välja vilken variabel som kommer att representeras på y-axeln lägger du över den tilltänkta variabeln i rutan för Y axis (i det här fallet andelen kvinnliga ministrar). På samma sätt lägger du över rätt variabel till X axis (i det här fallet andelen kvinnliga parlamentariker) för att indikera vad som skall mätas på x-axeln. Dessa två alternativ är det enda som krävs för att SPSS skall kunna producera en output. Det finns dock ytterligare två nyttiga alternativ som kan väljas. Set Markers by används om du vill att outputen skall skriva ut vilket specifikt fall varje enskild punkt representerar. Du lägger då över en variabel, exempelvis en identifieringsvariabel eller en variabel som anger namnet på fallet, i boxen Set Markers by. Tänk dock på att det här lätt bli rörigt om du arbetar med stora datamängder. I ett diagram med exempelvis 150 länder kommer det att bli väldigt många olika etiketter. Vid stora datamängder är det därför bättre att använda alternativet Label Cases by (variabeln får inte vara identifierad som stringvariabel). I det här fallet identifieras de olika prickarna när du ber om det. Du använder sedan Chart Editorn för att kunna identifiera olika punkter. 36

För att identifiera fall med hjälp av Set Markers by dubbelklickar du bara på det aktuella diagrammet i outputen. När du kommer in i editorn kan du göra en rad olika grafiska förändringar av ditt diagram men du kan också identifiera olika fall i diagrammet, förutsatt att du använt alternativet label cases by. Genom att trycka på ikonen för Data Label Mode (i bilden till vänster markerad med en pil) får du fram en markör, med vilken du kan klicka på de olika punkterna. I just det här diagrammet verkar det finnas en relativt god överensstämmelse mellan andelen kvinnor i parlamentet och regeringen. Vi fastnade dock för två specifika fall som verkar avvika från mönstret. Det ena har en hög andel kvinnliga ministrar trots en låg andel kvinnliga parlamentariker. Om vi klickar på den här punkten visar det sig vara Guinea Bissau. Den andra markerade punkten har låg andel ministrar trots hög andel parlamentariker och utgörs av Moçambique. Dessa fall skulle möjligtvis kunna vara lämpliga för fallstudier. 37

6. Multipel regression Åtkomst i menyerna: Analyze>Regression>Linear Eftersom det här är en introduktionsmanual i SPSS kommer vi här bara att gå igenom den enklaste formen av regression dvs. vanlig OLS (Ordinary Least Square) regression. Som du kommer att se är själva skapandet av regressionsresultaten inte svårt i SPSS. Den variabel som du önskar använda som beroende variabel lägger du över i boxen Dependent. Tänk efter om den här variabeln verkligen lämpar sig för en linjär regressionsanalys. Variabeln som används måste vara kontinuerlig och får inte vara binär (alltså bara kunna anta två värden). För binära beroende variabler används inte linjär regressionsanalys utan i stället logistisk eller probit regression. Detta kommer inte att behandlas i den här manualen, men för mer information i den här frågan kan vi rekommendera Barmark och Djurfeldt (2009). I boxen Independent(s) lägger du in den variabel eller de variabler som du vill använda som oberoende. I den här boxen går det bra att använda binära variabler. Den enda restriktionen som finns i vilka variabler som teoretiskt går att använda är att de måste vara minst på ordinalnivå om det finns mer än två möjliga alternativ. En variabel på nominalskalan som t.ex. världsdel får naturligtvis ingen relevant uttolkning. Det går inte att säga vad som är skillnaden från att gå från att vara ett land som ligger i Europa (exempelvis kodat som 1), till att ligga i Afrika (kodat som 2) till att ligga i sydost Asien (kodat som 3), eftersom den här typen av kodning är helt arbiträr och det inte går att rangordna regionerna. 38

Under boxen Independent(s) finns en rullmeny för Method. I ursprungsläget står denna på Enter. I de allra flesta fallen finns det ingen anledning att ändra detta. Om du scrollar ner i menyn hittar du alternativet Stepwise, vilket är en metod som använts relativt flitigt i tidigare kvantitativ samhällsvetenskaplig forskning. Metoden blir dock allt mer ovanlig och har utsatts för hård kritik. 5 I normalfallet bör du alltså hålla dig till alternativet Enter. Om själva produktionen av regressionstabellen är enkel är utläsningen mer komplicerad. Det här är som sagt ingen lärobok i statistik, men som ett komplement till kurslitteraturen på fortsättningskursen i statsvetenskap kommer här en snabb genomgång av hur man utläser det allra viktigaste delarna av en regressionstabell. Studenter på kandidatnivån hänvisas till den mer utförliga beskrivningen i Teorell och Svensson (2007: 164 ff.). Denna bok är också en bra referens för andra som vill lära sig mer om intuitionen bakom linjär regression. Mer information om regressionsanalys finns även i fortsättningskursens Esaiasson et al (2007: 429 ff.). Nedan visas hur outputen för regression i SPSS ser ut. 5 För mer om detta se exempelvis Leamer (1983) 39