Mata in data i Excel och bearbeta i SPSS



Relevanta dokument
Introduktion till SPSS

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Richard Öhrvall, 1

Intro till SPSS Kimmo Sorjonen (0811)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Marknadsinformationsmetodik Inlämningsuppgift

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet Per-Erik Isberg. SPSS for Windows 12 - a guided tour

En kort instruktion för arbete i SPSS

SPSS En guidad tur. Vad ska jag göra idag? Följ instruktioner som följer, om du behöver hjälp det är bara att fråga en lärare!

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Kort manual till SPSS 10.0 för Mac/PC

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Tillämpad statistik att samla och sammanfatta data Laboration 1: Deskriptiv statistik

Medicinsk statistik II

Marknadsinformationsmetodik Inlämningsuppgift

Statistik och epidemiologi T5

Uppgift 1. Produktmomentkorrelationskoefficienten

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Introduktion till PSPP

Grunderna i SPSS Martin Gellerstedt 0. INTRODUKTION KOM IGÅNG MED INMATNING, KODNING OCH DATATRIXANDE... 3

Introduktion till PAST

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Datoro vning 1-2 Statistisk analys av kodade svar

Grunderna i SPSS Martin Gellerstedt 0. INTRODUKTION KOM IGÅNG MED INMATNING, KODNING OCH DATATRIXANDE... 3

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Laborationer i statistik för A:1, Lab 1

Handledning för konstruktion av tabeller och diagram med Excel

Introduktion till. Minitab version 14

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Målet för D1 är att studenterna ska kunna följande: Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Föreläsning G60 Statistiska metoder

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Gamla tentor (forts) ( x. x ) ) 2 x1

2.1 Minitab-introduktion

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg/Jep Agrell. Laboration 2. Statistiska test

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

DATORÖVNING 2: STATISTISK INFERENS.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Obligatorisk uppgift, del 1

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Använda några av de vanligaste PROC:arna. Sammanställa och presentera data i tabeller och grafiskt

Laboration med Minitab

DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.

InStat Exempel 4 Korrelation och Regression

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Examinationsuppgift 2014

Datorövning 2 Statistik med Excel (Office 2003, engelska)

Beskrivande statistik

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Medelvärde, median och standardavvikelse

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

MINITAB i korthet. release 16. Jan-Eric Englund. SLU Alnarp Kompendium Swedish University of Agricultural Sciences Department of Agrosystems

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Statistik för Brandingenjörer. Laboration 1

OBS! Vi har nya rutiner.

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Uppgift 1. Deskripitiv statistik. Lön

Datorövning 1 Enkel linjär regressionsanalys

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Statistik Lars Valter

Statistik och epidemiologi T5

Lösningar till SPSS-övning: Analytisk statistik

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Statistisk undersökningsmetodik (Pol. kand.)

Laboration 3: Urval och skattningar

Medicinsk statistik II

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

OBS! Vi har nya rutiner.

*****************************************************************************

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Laboration 3: Urval och skattningar

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Linjär regressionsanalys. Wieland Wermke

Steg 0: SPSS två datavyer

En introduktion till och första övning for Excel

Transkript:

Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är lämpligt för vidare bearbetning i SPSS eller andra statistikprogram. Börja med att öppna ett tomt Excel-ark. För att SPSS skall kunna läsa filen måste varje observation läggas på en separat rad och varje variabel i en separat kolumn. Börja med att på översta raden skriva in följande kolumner: rokning, ncig, stress, foddat, svardat, langd, vikt, sbt, dbt. Anledningen till att vi väljer de något kryptiska beteckningarna är att det ofta är lämpligt att välja ett kort men informativt variabelnamn. Mata in de nya fallen. Koda Ja som 1 och Nej som 2. På antal cigaretter kodas 1-4 per dag som 1, 5-14 per dag som 2, osv. På stressfrågan kodas den lägsta stressnivån som 1, nästa som 2, osv. Spara filen på skrivbordet under ett lämpligt namn. Öppna SPSS. Välj File->Open->Data på menyn, klicka på drop-down-menyn och välj filtypen Excel (se nedan). Leta reda på din fil och öppna den. Spara SPSS-filen genom att trycka File->Save As. Välj variable view längst ner till vänster och mata in lämpliga etiketter för alla variabler under Label. Ändra skala för ncig och stress genom att trycka i kolumnen Measure och välj Ordinal. Ordinalskala innebär att observationerna kan ordnas, men ej nödvändigtvis har någon numerisk betydelse (t.ex. kan den högsta stressnivån, kodad som 6, sägas vara högre än de lägsta, dock betyder siffran 6 inte något annat i det här fallet) För att vi i outputen skall se Ja och Nej behöver vi value labels. Skapa dessa genom att klicka i rutan under Values på översta raden, där det står None. En knapp med tre punkter på kommer nu upp i rutan. Klicka på denna. Vi kodade Ja som 1 och Nej som 2, mata därför in 1 under value och Ja under Label. Klicka på Add. Upprepa samma procedur med 2 och Nej. Glöm inte att klicka Add innan du klickar OK för att stänga rutan. Skapa lämpliga value labels även för variablerna ncigg och stress.

För att göra datamaterialet mer intressant skall vi lägga till ytterligare observationer. Spara ner filen gbg.sav från kurshemsidan. Gå in i SPSS i filen där ni har matat in data. Välj Data->Merge Files->Add Cases. Tryck på Browse och leta rätt på gbg.sav som ni sparade ner från kurshemsidan. Tryck Continue och sedan OK. Om allt har gått rätt skall ni nu ha ett dataset med 257 observationer. Räkna ut BMI genom att trycka på Transform->Compute Variable. Rutan du nu får kan användas för att räkna nya variabler, den nya variabeln får namnet som skrivs in i rutan under Target Variable. Skriv in BMI här. I rutan Numeric Expression skriver du vikt/((langd/100)**2). Klicka OK. För varje observation kommer SPSS nu att dela personens värde på variabeln vikt med kvadraten på personen längd i meter (som vi får fram genom att dela variabeln langd med 100). Räkna ut deskriptiva statistiska mått genom att klicka Analyze->Descriptive Statistics->Descriptives. Välj BMI från den vänstra rutan och klicka på knappen med en pil för att lägga till den till rutan Variable(s). Alternativt går det att dra över BMI till den andra rutan. Klicka OK. Titta på resultaten i Output-fönstret. Många saker i SPSS går att göra på flera sätt, istället för descriptives hade vi kunnat använda Analyze-> Compare Means -> Means, vilket även ger möjlighet att dela in i grupper. Ta fram deskriptiva mått för rökare och icke-rökare separat genom att trycka Analyze-> Compare Means -> Means. Lägg till BMI i Dependent List och rokning i Independent. Tryck Options och lägg till Median till rutan Cell Statistics. Klicka Continue och sedan OK. Nu får vi medelvärde, standardavvikelse och median för BMI uppdelat på rökare och icke-rökare.

Räkna ut ålder vid svarstillfället med hjälp av att välja Transform->Compute Variable. Vi kallar den nya variabeln alder, alltså skriver vi detta i rutan under Target Variable. I Numeric Expression skriver vi DATEDIFF(svardat,foddat,"years"). Detta säger åt SPSS att räkna ut skillnaden mellan de två datumen svardat och foddat i enheten år. Vi skulle även kunna räkna ut skillnad i kvartal, månader, veckor eller dagar genom att byta years mot quarters, months, weeks eller days. Skapa en frekvenstabell över ålder genom att trycka Analyze->Descriptive Statistics->Frequencies. Lägg till alder i Variable(s)-rutan, se till att Display frequency tables är ifylld och klicka OK. Vi ser nu åldersfördelning i Ouput-fönstret. Observera att om det hade varit större spridning på ålder i materialet så hade denna tabell blivit lång och oöverskådlig. Skapa en korstabell genom att klicka Analyze->Descriptive Statistics->Crosstabs. Lägg in alder i rutan under Row(s) och rokning under Column(s). Klicka Cells och klicka i Row under Percentages. Klicka Continue och OK. En korstabell visas nu i Output-fönstret.

Spridningen i materialet kan illustreras grafiskt med en så kallade boxplot. Den består av en låda där nedre delen av lådan visar första kvartilen, d.v.s. den punkt som delar materialet så 25% av alla värden ligger under och 75% över. På samma sätt är övre delen av lådan tredje kvartilen, d.v.s. 25% ligger över och 75% under. Strecket i mitten av lådan visar andra kvartilen, vilken oftast kallas för medianen, som delar materialet i 50%. Avståndet mellan första och tredje kvartilen kallas kvartilavstånd eller interquartile range (IQR), och kan ses som ett mått på spridningen som inte är mindre känslig mot extrema värden än standardavvikelsenn. Strecken som går ut från lådan visar det största värdet som inte räknas som outlier (d.v.s. ett extremt värde). SPSS räknar värden som ligger mer en 1.5 kvartilavstånd från lådan som outliers. Skapa en boxplot genom att trycka Graphs->Legacy Dialogs->Boxplot. Välj Summaries of separate variables och klicka OK. Lägg till sbt (systoliskt blodtryck) i rutan Boxes represent: och klicka OK. I resultatet ser ni att det står ett nummer bredvid de ringar som representerar outliers, dessa nummer visar vilken rad observationen kommer från. Ett annat sätt att undersöka fördelningen i materialet är med ett histogram. Skapa ett genom att klicka Graphs->Legacy Dialogs->Histogram. Lägg till sbt under Variable och klicka i Display normal curve. Klicka sedan OK. I resultatet ser ni att variabeln sbt inte riktigt är normalfördelad, utan en aning en positivt skevt fördelad. Undersök om det finns någon skillnad i genomsnittligt BMI mellan rökare och icke-rökare med ett t-test. Tryck Analyze-> Compare Means -> Independent Samples T-test. Lägg BMI i Test Variabel(s) och rokning som Grouping Variable. Klicka Define Groups och skriv in 1 och 2. Tryck Continue och OK. I mitten av tabellen under Sig. (2-tailed) kan p-värdet läsas av. Om detta är under 0.05 brukar man säga att det finns en signifikant skillnad (på 5% nivån) mellan grupperna. Till höger i tabellen finns ett 95% konfidensintervall, detta visar på värden som vi kan vara ganska säkra på att den sanna skillnaden i populationen ligger mellan. När man utför ett t-test på små stickprov (mindre än 30-50) är det lämpligt att se på ett histogram så variabeln ser någorlunda normalfördelad ut, annars kan p-värdet vara missvisande. Ett alternativt är att använda ett icke-parametriskt test, t.ex. Mann-Whitney. För detta test räcker det även att variabeln mäts på ordinalskala, vilket kan vara problematiskt för t-test.

Testa om det finns någon skillnad i stressnivå för rökare och icke-rökare genom att trycka Analyze->Non parametric tests->legacy Dialogs-> 2 Independent Samples. Välj stress som testvariabel och rokning som Grouping Variable, klicka Define Groups och mata in 1 och 2. Klicka Continue och OK. I resultatet går p-värdet att läsa av under Asymp. Sig. (2-tailed). Ett högt p-värde innebär att det inte finns starka bevis för att det finns en skillnad mellan grupperna. Sambandet mellan två variabler kan undersökas genom att räkna ut korrelationen mellan dem, dock är det lämpligt att först studera sambandet grafiskt, med t.ex. ett spridningsdiagram (scatterplot). Klicka Graphs->Legacy Dialogs->Scatter/Dot. Välj Simple Scatter och klicka OK. Lägg in sbt (systoliskt blodtryck) på Y-axeln och dbt (diastoliskt blodtryck) på X-axeln. Klicka OK. Vi ser att det verkar vara ett ganska linjärt samband mellan systoliskt och diastoliskt blodtryck. Räkna ut korrelationen mellan variablerna genom att trycka Analyze->Correlate->Bivariate. Lägg till sbt och dbt till variabellistan och se till att både Pearson och Spearman. Klicka OK. Vi får nu en tabell för Pearsons korrelationskoefficient och en för Spearmans. Skillnaden mellan dem är att Pearsons mäter graden av linjärt samband, vilket inte fungerar lika bra för t.ex. en kurva. Spearmans mäter däremot bara om sambandet är ökande eller avtagande. Både koefficienterna kan anta värden mellan -1 och 1, där -1 betyder ett perfekt avtagande samband (dvs ju högra värde på a desto lägre värde på b) och 1 ett perfekt ökande samband (ju högra värde på a desto högre värde på b). Som ni ser är en variabel perfekt korrelerad med sig själv, t.ex. är korrelationen mellan sbt och sbt 1. Vi ser även att vi får ett p-värde för korrelationen under Sig. (2-tailed), vilket visar att korrelationen mellan sbt och dbt är statistiskt signifikant.