Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är lämpligt för vidare bearbetning i SPSS eller andra statistikprogram. Börja med att öppna ett tomt Excel-ark. För att SPSS skall kunna läsa filen måste varje observation läggas på en separat rad och varje variabel i en separat kolumn. Börja med att på översta raden skriva in följande kolumner: rokning, ncig, stress, foddat, svardat, langd, vikt, sbt, dbt. Anledningen till att vi väljer de något kryptiska beteckningarna är att det ofta är lämpligt att välja ett kort men informativt variabelnamn. Mata in de nya fallen. Koda Ja som 1 och Nej som 2. På antal cigaretter kodas 1-4 per dag som 1, 5-14 per dag som 2, osv. På stressfrågan kodas den lägsta stressnivån som 1, nästa som 2, osv. Spara filen på skrivbordet under ett lämpligt namn. Öppna SPSS. Välj File->Open->Data på menyn, klicka på drop-down-menyn och välj filtypen Excel (se nedan). Leta reda på din fil och öppna den. Spara SPSS-filen genom att trycka File->Save As. Välj variable view längst ner till vänster och mata in lämpliga etiketter för alla variabler under Label. Ändra skala för ncig och stress genom att trycka i kolumnen Measure och välj Ordinal. Ordinalskala innebär att observationerna kan ordnas, men ej nödvändigtvis har någon numerisk betydelse (t.ex. kan den högsta stressnivån, kodad som 6, sägas vara högre än de lägsta, dock betyder siffran 6 inte något annat i det här fallet) För att vi i outputen skall se Ja och Nej behöver vi value labels. Skapa dessa genom att klicka i rutan under Values på översta raden, där det står None. En knapp med tre punkter på kommer nu upp i rutan. Klicka på denna. Vi kodade Ja som 1 och Nej som 2, mata därför in 1 under value och Ja under Label. Klicka på Add. Upprepa samma procedur med 2 och Nej. Glöm inte att klicka Add innan du klickar OK för att stänga rutan. Skapa lämpliga value labels även för variablerna ncigg och stress.
För att göra datamaterialet mer intressant skall vi lägga till ytterligare observationer. Spara ner filen gbg.sav från kurshemsidan. Gå in i SPSS i filen där ni har matat in data. Välj Data->Merge Files->Add Cases. Tryck på Browse och leta rätt på gbg.sav som ni sparade ner från kurshemsidan. Tryck Continue och sedan OK. Om allt har gått rätt skall ni nu ha ett dataset med 257 observationer. Räkna ut BMI genom att trycka på Transform->Compute Variable. Rutan du nu får kan användas för att räkna nya variabler, den nya variabeln får namnet som skrivs in i rutan under Target Variable. Skriv in BMI här. I rutan Numeric Expression skriver du vikt/((langd/100)**2). Klicka OK. För varje observation kommer SPSS nu att dela personens värde på variabeln vikt med kvadraten på personen längd i meter (som vi får fram genom att dela variabeln langd med 100). Räkna ut deskriptiva statistiska mått genom att klicka Analyze->Descriptive Statistics->Descriptives. Välj BMI från den vänstra rutan och klicka på knappen med en pil för att lägga till den till rutan Variable(s). Alternativt går det att dra över BMI till den andra rutan. Klicka OK. Titta på resultaten i Output-fönstret. Många saker i SPSS går att göra på flera sätt, istället för descriptives hade vi kunnat använda Analyze-> Compare Means -> Means, vilket även ger möjlighet att dela in i grupper. Ta fram deskriptiva mått för rökare och icke-rökare separat genom att trycka Analyze-> Compare Means -> Means. Lägg till BMI i Dependent List och rokning i Independent. Tryck Options och lägg till Median till rutan Cell Statistics. Klicka Continue och sedan OK. Nu får vi medelvärde, standardavvikelse och median för BMI uppdelat på rökare och icke-rökare.
Räkna ut ålder vid svarstillfället med hjälp av att välja Transform->Compute Variable. Vi kallar den nya variabeln alder, alltså skriver vi detta i rutan under Target Variable. I Numeric Expression skriver vi DATEDIFF(svardat,foddat,"years"). Detta säger åt SPSS att räkna ut skillnaden mellan de två datumen svardat och foddat i enheten år. Vi skulle även kunna räkna ut skillnad i kvartal, månader, veckor eller dagar genom att byta years mot quarters, months, weeks eller days. Skapa en frekvenstabell över ålder genom att trycka Analyze->Descriptive Statistics->Frequencies. Lägg till alder i Variable(s)-rutan, se till att Display frequency tables är ifylld och klicka OK. Vi ser nu åldersfördelning i Ouput-fönstret. Observera att om det hade varit större spridning på ålder i materialet så hade denna tabell blivit lång och oöverskådlig. Skapa en korstabell genom att klicka Analyze->Descriptive Statistics->Crosstabs. Lägg in alder i rutan under Row(s) och rokning under Column(s). Klicka Cells och klicka i Row under Percentages. Klicka Continue och OK. En korstabell visas nu i Output-fönstret.
Spridningen i materialet kan illustreras grafiskt med en så kallade boxplot. Den består av en låda där nedre delen av lådan visar första kvartilen, d.v.s. den punkt som delar materialet så 25% av alla värden ligger under och 75% över. På samma sätt är övre delen av lådan tredje kvartilen, d.v.s. 25% ligger över och 75% under. Strecket i mitten av lådan visar andra kvartilen, vilken oftast kallas för medianen, som delar materialet i 50%. Avståndet mellan första och tredje kvartilen kallas kvartilavstånd eller interquartile range (IQR), och kan ses som ett mått på spridningen som inte är mindre känslig mot extrema värden än standardavvikelsenn. Strecken som går ut från lådan visar det största värdet som inte räknas som outlier (d.v.s. ett extremt värde). SPSS räknar värden som ligger mer en 1.5 kvartilavstånd från lådan som outliers. Skapa en boxplot genom att trycka Graphs->Legacy Dialogs->Boxplot. Välj Summaries of separate variables och klicka OK. Lägg till sbt (systoliskt blodtryck) i rutan Boxes represent: och klicka OK. I resultatet ser ni att det står ett nummer bredvid de ringar som representerar outliers, dessa nummer visar vilken rad observationen kommer från. Ett annat sätt att undersöka fördelningen i materialet är med ett histogram. Skapa ett genom att klicka Graphs->Legacy Dialogs->Histogram. Lägg till sbt under Variable och klicka i Display normal curve. Klicka sedan OK. I resultatet ser ni att variabeln sbt inte riktigt är normalfördelad, utan en aning en positivt skevt fördelad. Undersök om det finns någon skillnad i genomsnittligt BMI mellan rökare och icke-rökare med ett t-test. Tryck Analyze-> Compare Means -> Independent Samples T-test. Lägg BMI i Test Variabel(s) och rokning som Grouping Variable. Klicka Define Groups och skriv in 1 och 2. Tryck Continue och OK. I mitten av tabellen under Sig. (2-tailed) kan p-värdet läsas av. Om detta är under 0.05 brukar man säga att det finns en signifikant skillnad (på 5% nivån) mellan grupperna. Till höger i tabellen finns ett 95% konfidensintervall, detta visar på värden som vi kan vara ganska säkra på att den sanna skillnaden i populationen ligger mellan. När man utför ett t-test på små stickprov (mindre än 30-50) är det lämpligt att se på ett histogram så variabeln ser någorlunda normalfördelad ut, annars kan p-värdet vara missvisande. Ett alternativt är att använda ett icke-parametriskt test, t.ex. Mann-Whitney. För detta test räcker det även att variabeln mäts på ordinalskala, vilket kan vara problematiskt för t-test.
Testa om det finns någon skillnad i stressnivå för rökare och icke-rökare genom att trycka Analyze->Non parametric tests->legacy Dialogs-> 2 Independent Samples. Välj stress som testvariabel och rokning som Grouping Variable, klicka Define Groups och mata in 1 och 2. Klicka Continue och OK. I resultatet går p-värdet att läsa av under Asymp. Sig. (2-tailed). Ett högt p-värde innebär att det inte finns starka bevis för att det finns en skillnad mellan grupperna. Sambandet mellan två variabler kan undersökas genom att räkna ut korrelationen mellan dem, dock är det lämpligt att först studera sambandet grafiskt, med t.ex. ett spridningsdiagram (scatterplot). Klicka Graphs->Legacy Dialogs->Scatter/Dot. Välj Simple Scatter och klicka OK. Lägg in sbt (systoliskt blodtryck) på Y-axeln och dbt (diastoliskt blodtryck) på X-axeln. Klicka OK. Vi ser att det verkar vara ett ganska linjärt samband mellan systoliskt och diastoliskt blodtryck. Räkna ut korrelationen mellan variablerna genom att trycka Analyze->Correlate->Bivariate. Lägg till sbt och dbt till variabellistan och se till att både Pearson och Spearman. Klicka OK. Vi får nu en tabell för Pearsons korrelationskoefficient och en för Spearmans. Skillnaden mellan dem är att Pearsons mäter graden av linjärt samband, vilket inte fungerar lika bra för t.ex. en kurva. Spearmans mäter däremot bara om sambandet är ökande eller avtagande. Både koefficienterna kan anta värden mellan -1 och 1, där -1 betyder ett perfekt avtagande samband (dvs ju högra värde på a desto lägre värde på b) och 1 ett perfekt ökande samband (ju högra värde på a desto högre värde på b). Som ni ser är en variabel perfekt korrelerad med sig själv, t.ex. är korrelationen mellan sbt och sbt 1. Vi ser även att vi får ett p-värde för korrelationen under Sig. (2-tailed), vilket visar att korrelationen mellan sbt och dbt är statistiskt signifikant.