GRUNDKURS I STATISTIK (5 SP, KURSKOD ) FÖRELÄSNINGSUNDERLAG LÄSÅRET
|
|
- Emil Månsson
- för 8 år sedan
- Visningar:
Transkript
1 (21 november 2016) GRUNDKURS I STATISTIK (5 SP, KURSKOD ) FÖRELÄSNINGSUNDERLAG LÄSÅRET Jan Saarela jan.saarela@abo.fi 1
2 Innehåll Kapitel 1: Begrepp Kapitel 2: Tabeller och grafik Kapitel 3: Grunderna i SPSS Kapitel 4: Deskriptiv statistik Kapitel 5: Korrelation 2
3 KAPITEL 1: BEGREPP Målsättning: Att lära sig att behandla, presentera, analysera och tolka kvantitativa uppgifter med hjälp av statistiska program. Öka kunskapen om och förmågan att tillgodogöra sig existerande samhällsstatistik. Utgångspunkt: För samhällsvetare kommer behovet av att kunna handskas med statistiska uppgifter att öka. Statistik är viktigt inte enbart under studierna, utan framförallt i arbetslivet. De statistiska metoderna är hjälpmedel eller analysinstrument som inte har något självständigt värde. Mycket kan göras med enkla metoder och förmåga att använda grundläggande funktioner i Excel viktig. Viktigt att inse: Kvantitativa analyser lär man sig genom erfarenhet, dvs övning, övning, och övning. De kan inte enbart läsas och förstås. Jämför med att spela piano. Några grundbegrepp Några triviala(?) distinktioner: Antal: svarar på frågan: hur många. Anges alltså i absoluta tal, stycken. Andel: svarar på frågan: hur stor del av något. Anges som tal mellan 0 och 1; hälften, en tredjedel osv, eller i procent. Tabell: koncentrerad, överskådlig uppställning av fakta i rader och kolumner, vanligtvis av fakta som kan uttryckas med siffror. Figur/diagram: figur som åskådliggör sambandet mellan två eller flera storheter. Innehåller grafiska element såsom linjer eller staplar Begrepp: Statistisk undersökning: Insamling, behandling och analys av kvantitativa (numeriska) uppgifter Undersökningenhet/observationsenhet: De objekt informationen gäller. T.ex. individer, kommuner, stater. Variabel: En egenskap som studeras hos observationsenheten. T.ex. ålder, utbildning, språkkunskaper, skattörespris, BNP. Olika observationsenheter kan ha olika värde på variabeln i fråga. Deskriptiv/beskrivande statistik: Sammanfattar, presenterar informationen som sifferuppgifterna ger. (Denna kurs detta läsår, dvs del 1) 3
4 Statistisk inferens/analys: Analyserar data med hjälp av statistiska metoder som bygger på och utnyttjar sannolikhetsteori. Huvudsakligen vid stickprovsanalyser eller experiment. (Del 2, vilken utgår detta läsår) Variabeltyper: Den egenskap (variabel) som studeras kan vara kvalitativ eller kvantitativ. Betrakta följande variabler hos medlemmarna i en undervisningsgrupp: kön längd vikt föräldrarnas utbildning inställning till statistik ålder hårfärg hemort studentexamensbetyg kroppstemperatur IQ inkomst politisk åskådning Om variabeln är kvalitativ kan klassificeringen (mätningen) ske enbart efter något kännetecken, eventuellt kan en rangordning företas. I det förra fallet sägs variabeln vara mätt på nominalskala (kön, hemort, hårfärg), i det senare på ordinalskala (föräldrarnas utbildning, inställningen till statistik, politisk åskådning). För den statistiska behandlingen kodas oftast även kvalitativa variabler med siffervärden, men observera att man vid denna kodning kan använda vilka siffervärden som helst, dvs de explicita siffervärdena har ingen kvantitativ innebörd. Observera också att även om man använder siffror vid kodningen är beräkningar meningslösa. Om den studerade egenskapen är kvantifierbar och själva mätresultatet har betydelse sägs variabeln vara kvantitativ. Ifall en egentlig nollpunkt saknas sägs variabeln vara mätt på intervallskala (IQ, kroppstemperatur) i annat fall på kvotskala (ålder, längd, vikt, inkomst). De kvantitativa variablerna kan också indelas med avseende på om de är diskreta eller kontinuerliga. En diskret variabel kan anta enbart vissa bestämda värden, (t.ex. antal syskon, födelseår), medan en kontinuerlig variabel (i princip) kan anta alla värden inom ett intervall (t.ex. kroppstemperatur, vikt, längd). Undersökningstyper: Totalundersökning. Man har uppgifter om alla individer (undersökningsenheter). Ingen slumpmässig (statistisk) osäkerhet. Man kan beskriva, analysera och sammanfatta uppgifterna. T.ex. folkräkningar, olika register. Stickprov. Man samlar uppgifter om ett urval av den totala undersökningspopulationen och försöker dra slutsatser om denna. T.ex. Gallupar, enkäter. Experiment. Man insamlar uppgifter om grupper av individer som utsätts för olika behandling och studerar behandlingarnas effekt. Olika slag av data: Tvärsnittsdata. Informationen vid en bestämd tidpunkt. 4
5 Perioddata. Informationen avser händelser under en tidsperiod (tidsserier) Longitudinella register. Sammankopplar individuppgifter från flera tidpunkter Retrospektiva register. Information om livshistorier (tillstånd och händelser) fram till insamlingstidpunkten Prospektiva register (paneler). Information från en viss tidpunkt framåt i tiden Samhällsstatistik En effektiv samhällsadministration förutsätter att man har tillgång till aktuella och tillförlitliga uppgifter om olika samhällssektorer. I Finland regleras statistikproduktionen av en särskild statistiklag ( ). Det statliga statistikväsendet omfattar 18 ämbetsverk eller inrättningar av vilka 13 producerar statistik för Finlands officiella statistik. Av denna svarar Statistikcentralen för ungefär tre fjärdedelar. Statistikcentralens uppdrag är att - Sammanställa statistik och utredningar som beskriver samhällsförhållandena o Samla in och upprätthålla datamaterial som beskriver samhället o Handha informationstjänst och främja utnyttjandet av statistik o Utveckla statistikmetoder och göra undersökningar som betjänar utvecklingen av statistik - Handha den allmänna utvecklingen av det nationella statistikväsendet i samarbete med andra statliga myndigheter o Koordinera det nationella statistikväsendet o Delta i och koordinera Finlands internationella statistikarbete ( Statistikcentralens kvalitetskriterier för statistikproduktionen följer internationella normer ( På Statistikcentralens web-sidor finns utförliga beskrivningar av den tillgängliga statistiken, använda klassificeringar, samt länkar till ett otal statistikproducenter, både i Finland och internationellt. I dagens läge kan man ladda ned stora mängder statistik, och inom detta område sker det dessutom en mycket snabb utveckling. Detaljerad information om den offentliga statistiken, vilken innehåller även definitioner och klassificeringar, finns på En (historiskt sett) mycket viktig publikation är Statistisk årsbok som utgetts sedan 1879 och innehåller sammanfattande information om alla samhällssektorer 5
6 Se även för inskannad äldre statistik, samt mycket annat. Rent allmänt gäller att Statistikcentralen har föredömligt mycket information på svenska, men en del statistik finns enbart på finska sidor, så det kan löna sig att se på dessa ifall man inte hittar det man söker på de svenska sidorna. Länkar till olika länders statistikbyråer finns på I dagens läge finns en allt större del av statistiken i form av omfattande databaser, ur vilka man själv väljer ut vilken information man vill ha. Databaser med svensk text vid Statistikcentralen finns på En stor del av databaserna är avgiftsbelagda, men det finns även en hel del fritt tillgängliga. De flesta statistikbyråerna använder sig av ett system med s.k. PX-Webteknik för att plocka fram och ladda ned de relevanta uppgifterna (se t.ex. Gränssnitten ser olika ut, men om man lärt sig systemet i en situation bör man enkelt kunna utnyttja programmet i de flesta fall. En utförlig beskrivning enligt det gränssnitt som Statistikcentralen använder finns på En ny tjänst som på ett intressant sätt presenterar folkräkningsstatistik finns på På adressen finns också samlat enkla sammanställningar av statistik från olika samhällssektorer Institutet för hälsa och välfärd (THL) upprätthåller en omfattande databas, SOTKAnet SOTKAnet har en bred täckning av statistikuppgifter om finländarnas välfärd och hälsa. Indikatorbanken innehåller också centrala uppgifter om hälsotillståndet samt konsumtionen av social service och hälso- och sjukvård i olika europeiska länder. 6
7 KAPITEL 2: TABELLER OCH GRAFIK Det finns i grunden tre olika sätt att presentera kvantitativa uppgifter: som text, tabeller eller figurer. Alla tre sätten bör ha samma sanningskrav. De är inte varandra uteslutande. Text: lämpar sig för enstaka uppgifter. Behövs då tabeller eller figurer? Tabeller: skilj mellan två väsentligen olika funktioner. a) Total redovisning, uppslagstabell, källa för fortsatta beräkningar/sammanställningar. Bör vara lätt att slå upp i: bokstavsordning, enligt exempelvis frågenummer i enkät. Jämför telefonkatalog, kommunvisa uppgifter. b) Analys- eller redovisningsinstrument för att klargöra, illustrera resultat, underlätta jämförelser/tolkningar. Sammanfattar, analyserar, har ett budskap. Figurer: ofta alternativ till tabeller när det krävs mindre noggrannhet. Jämför visarur mot digitalur. Speciellt lämpade för att illustrera trender. Olika personer har dock olika förmåga att tolka tabeller och figurer. Exempel på mindre lyckad presentation: personalkostnader vid ÅA (ur personalrapport 2003). 7
8 Tabeller Rent allmänt gäller för både tabeller och grafiska bilder att de i möjligaste mån bör vara självbärande. Detta innebär att de bör innehålla så detaljerade rubriker och förklaringar att de kan läsas och förstås utan att man läser själva texten. Några allmänna regler för användning av tabeller, vilka gäller i främsta hand då tabeller används inne i en text för att sammanfatta viktig information (enligt b) här ovan): - Sortera tabellen efter den väsentliga variabeln så att ditt budskap kommer fram. Vilket är tabellens syfte? - Högerjustera sifferkolumner. Entalssiffrorna under varandra, tiotalssiffrorna under varandra osv. - Konstuera så att jämförelsen sker kolumnvis, och inte radvis (eftersom lättare att jämföra). - Använd få decimaler. Vanligtvis räcker det med en decimal för procenter. - Använd samma antal decimaler. - Tid ska läsas från vänster till höger, eller uppifrån och nedåt. - Är exakta värden viktiga eller kan man avrunda? Som regel har man förmåga att handskas med enbart två gällande siffror. - Undvik onödiga tecken, text eller linjer i tabellen. Stödlinjer och viss färgsättning kan dock ibland förbättra läsbarheten. - Tänk själv: vad behövs, vad skulle du vilja läsa? 8
9 Nedanstående tabell är ett utmärkt exempel på en i många avseenden dålig presentation. Befolkningen efter språk samt antalet utlänningar och landareal efter område 2009 Annat Andel språk Totalt Finskspråkiga Svenskspråkiga Andel svenska annat språk totalt Pohjanmaan maakunta - Österbottens ,96194 % 3,64611 % landskap..isokyrö - Storkyro , % 0, %..Kaskinen - Kaskö ,22469 % 4, %..Korsnäs ,77222 % 6, %..Kristiinankaupunki - Kristinestad ,31376 % 1, %..Kruunupyy - Kronoby ,24405 % 1,25 %..Laihia - Laihela , % 0, %..Luoto - Larsmo ,56198 % 1, %..Maalahti - Malax ,54898 % 3, %..Mustasaari - Korsholm ,77315 % 1, %..Närpiö - Närpes ,61623 % 6, %..Oravainen - Oravais ,11192 % 10,42139 %..Pedersören kunta - Pedersöre ,95472 % 1, %..Pietarsaari - Jakobstad ,42228 % 3, %..Uusikaarlepyy - Nykarleby ,90231 % 3, %..Vaasa - Vasa ,67596 % 5, %..Vähäkyrö - Lillkyro , % 0, %..Vöyri-Maksamaa - Vörå-Maxmo ,41616 % 1, % Tabellen nedan är bearbetad, med (primärt) syfte att jämföra kommunerna med avseende på andelen personer med främmande språk. Tabell. Befolkningen efter språk kommunvis i landskapet Österbotten Totalt Finskspråkiga Svenskspråkiga Annat språk totalt Andel svenska % Andel annat språk % Österbottens landskap ,0 3,6 Oravais ,1 10,4 Närpes ,6 6,7 Korsnäs ,8 6,7 Vasa ,7 5,8 Kaskö ,2 4,8 Jakobstad ,4 3,7 Malax ,5 3,3 Nykarleby ,9 3,0 Vörå-Maxmo ,4 1,9 Kristinestad ,3 1,6 Kronoby ,2 1,3 Korsholm ,8 1,1 Pedersöre ,0 1,1 Larsmo ,6 1,1 Laihela ,1 0,8 Storkyro ,6 0,7 Lillkyro ,7 0,7 9
10 Grafisk framställning (figurer) Målsättningen med en figur bör alltid vara att den är informativ, och att den sammanfattar data eller underlättar förståelsen. En figur bör inte tas med enbart som en illustration i den meningen att den skall vara trevlig och lätta upp en (tråkig) text. Här behandlas kort de vanligaste slagen av grafiska figurer. Generellt gäller att grafisk framställning kräver ett visst mått av artistiskt öga, och övning. Det finns inte många absoluta sanningar och det är därför inte heller helt lätt att säga exakt hur man skall göra. Det är snarare lättare att visa på fällor och fel, som man bör akta sig för. Observera också att grafikprogram enbart är tekniska hjälpmedel, en dålig figur kan inte försvaras med att programmet gjorde den så här. Ovanstående gäller framförallt när man redovisar uppgifter. Grafik kan också vara ett utmärkt hjälpmedel i analysen av statistiska material. För detta ändamål är slutfinishen av mindre betydelse, men för att undvika feltolkningar är det väsentligt att figurerna uppgörs på ett korrekt sätt. Några grundläggande saker om grafik: - Datatäthet (data density index). Mängden information i förhållande till ytan. Eftersträvar högt index. - Grafikskräp (chart junk). Element som inte innehåller information, såsom olika utsmyckningar, bakgrundsfärger (mönster), 3-D. Data-bläckförhållandet (data-ink index) - Visuell jämförbarhet: lögn-faktor. - Effektivitet: ska behöva flacka med blicken så litet som möjligt. - Informationsbärande element: punkter, linjer, ytor, text, färger. Linjer visar trender, ytor visar mängd. Linjediagram I ett kurv- eller linjediagram anger den vågräta x-axeln ofta tid, men den kan även beteckna någon annan kontinuerlig variabel. En linje skiljer sig från andra grafiska element i den meningen att storleken inte förmedlar någon information. Därför lämpar den sig inte för att illustrera mängd, men däremot förändringar och trender. I ett kurvdiagram behöver y-axeln inte börja från noll utan man kan kapa axeln. Tid går alltid från vänster till höger. Se exemplet nedan. 10
11 Födda och döda svenskspråkiga Antal År Födda Döda Vanliga problem a) För många kurvor, vilket gör det svårt att skilja åt och tolka: Arbetslösheten landskapsvis Nyland Egentliga Finland Satakunta Tavastland Birkaland Päijänne- Tavastland Kymmene Södra Karelen Södra Savolax Norra Savolax Möjlig lösning är att fokusera på de jämförelser (kurvor) som är väsentliga, eller dela upp i flera figurer. 11
12 b) Kurvor på väldigt olika nivå, vilket oftast ger intryck av att (de relativa) förändringarna är större för kurvor som ligger högre: Dödsrisker åldersklassvis Möjlig lösning är att dela upp i flera figurer, och/eller redovisa relativa förändringar. c) Proportionen mellan höjd och bredd, eftersom det visuella intrycket påverkas av figurens form. Experimentera för att uppnå bästa resultat: Andel med finsk partner 45 % År Svenska män Svenska kvinnor Andel med finsk partner 45 % År Svenska män Svenska kvinnor 12
13 Tusental Tusental d) Felaktig skala på x-axeln (exemplet är från en avhandling pro gradu i socialpolitik, vilket sägs visa den kraftiga befolkningstillväxten i Esbo ): Befolkningstalet i Esbo Med korrekt skala ser figuren ut så här: Befolkningstalet i Esbo
14 Ett ytterligare exempel på felaktig skala, där figuren sägs visa en kraftig ökning av kostnaderna mellan åren 1985 och 1990, därefter följer en fem års jämn period för att åter börja stiga efter 1995 : Med korrekt skala ser figuren ut så här: Stapeldiagram En grundläggande egenskap som jämförs i stapeldiagram är ytan. Om alla staplar har samma bredd innebär detta att längden förmedlar samma information. En konsekvens är att vid användning av stapeldiagram får skalan på y-axeln inte brytas. Det finns två olika slag av stapeldiagram: stående och liggande (lodräta och vågräta). Stående stapeldiagram används i främsta hand när variabeln på den vågräta axeln är kontinuerlig, t.ex. tid. I andra situationer är liggande staplar att föredra. Använd ej för många staplar. 14
15 % Fokusera på data, minimera färganvändningen och dödutrymme, och gör stödlinjerna så diskreta som möjligt. Nedanstående är ett vulgärexempel på en figur utan egentligt budskap. Utbildningsnivå efter socioekonomisk bakgrund Grundnivån Lägre mellannivån (3) Högre mellannivån (4) Lägsta högre nivån (5) Lägre kandnivån (6) Högre kandnivån (7) Anpassa också staplarnas bredd och avståndet mellan dem. Nedanstående figur... Statistikstudenter enligt hemort Norra Österb Mellersta Österb Södra Österb Södra Finland Finska orter...är bättre än följande... 15
16 Statistikstudenter enligt hemort Norra Österb Mellersta Österb Södra Österb Södra Finland Finska orter Cirkeldiagram Sektorer illustrerar den relativa fördelningen. Formen är tilltalande, men informationsvärdet är ringa (kräver ofta tilläggsinformation). Använd ej för många sektorer. Jämför nyttan av stapeldiagrammet jämfört med cirkeldiagrammet: E A B D C E D C B A
17 Gary Klass rekommendationer angående cirkeldiagram (rules for pie charts): 1. Undvik cirkeldiagram. 2. Använd dem enbart för data som summerar till en meningsfull helhet (total). 3. Använd aldrig tredimensionella cirkeldiagram. De är ännu värre än tvådimensionella. 4. Undvik jämförelser mellan mer än ett cirkeldiagram. För jämförelser av fördelningar kan även lagrade staplar (stacked bars) med fördel användas. Allmänt Enkla informativa figurer är att föredra. Informationen är som regel tvådimensionell. En tredje dimension minskar oftast informationsvärdet. Smycka inte ut figurerna i onödan. E D A B C B A C E D Ovanstående två figurer baseras på samma data som den tidigare tvådimensionella, men är sedda ur olika synvinklar. 17
18 Grundnivån Lägre mellannivån (3) Högre mellannivån (4) Lägsta högre nivån (5) Lägre kandnivån (6) Högre kandnivån (7) Män Kvinnor Procent Procent Denna figur... Utbildningsnivån könsvis Män Kvinnor...är avgjort bättre än följande... Utbildningsnivån könsvis Män Kvinnor 0 18
19 Man kan erhålla ett (felaktigt) tredimensionellt intryck i en tvådimensionell figur genom färgsättningen.valet av färger är sålunda inte betydelselöst. Jämför figurerna nedan. 19
20 Välj färger på något logiskt sätt. Undvik att färglägga mindre viktiga kategorier med starka färger. Försök också att få så små vita områden som möjligt, t.ex. genom placeringen av etiketterna. Undvik ram runt etiketterna. Jämför figurerna nedan. Motiverat att införa hemkomsttider för högstadieelever Utvecklings psykologi Socialpolitik Statskunskap 0 % 10 % 20 % 30 % 40 % 50 % 60 % 70 % 80 % 90 % 100 % Helt av samma åsikt Delvis av samma åsikt Kan inte säga Delvis av annan åsikt Helt av annan åsikt 20
21 Ytterligare litteratur för den intresserade Stephen Few har skrivit flera böcker på området. På adressen finns länkar till en stor mängd litteratur inom området samt även exempel på grafik med kommentarer. Mer specifikt på Howard Wainer har skrivit tre informativa verk. How to Display Data Badly, The American Statistician, Den behandlar många av de vanligaste felen eller problemen vid grafisk framställning. Understanding Graphs and Tables. Educational Researcher, Vol 21. No. 1, pp Improving Tabular Displays, With NAEP Tables as Examples and Inspirations. Journal of Educational and Behavioral Statistics, Spring 1997, Vol 22, No. 1, pp 1-30 Andrew Ehrenberg har skrivit ett flertal artiklar speciellt om tabeller och tolkning av dessa ( t.ex. Rudiments of Numeracy (1977), The Problem of Numeracy och Reading a Table: An Example. 21
22 KAPITEL 3: GRUNDERNA I SPSS Programpaketet SPSS (Statistical Package for the Social Sciences) är ett hjälpmedel för att statistiskt analysera numeriska uppgifter. Programpaketet är omfattande och det innehåller många statistiska metoder, vilket innebär att man inte kan gå igenom och lära sig allt (jfr Word och Excel). Liksom i andra program kan man utföra samma sak på olika sätt, t.ex. via menyer, genom snabbval eller genom att skriva kommandon. Under hjälpmenyn i programmet finns en utförlig Tutorial och med hjälp av denna kan man få såväl en god introduktion som mera avancerad hjälp. Det finns också ett flertal tutorials på Youtube. Av denna orsak lyfts i detta dokument fram endast några få grundläggande saker för att ge en första inblick i programmet. I programmet arbetar man alltid med två olika fönster SPSS Data Editor och SPSS Statistics Viewer. I det första ser man och editerar själva datamaterialet och i det senare samlas all utskrift från programmet. I tillägg till dessa kan man ytterligare använda ett fönster SPSS Statistics Syntax Editor ifall man vill skriva in kommandon till programmet istället för att använda knapparna och menyerna i verktygsfältet. Användningen av syntax är praktisk och ändamålsenlig vid mera omfattande analyser, och även för att dokumentera vad man gjort. Fönstret i dataeditorn (SPSS Data Editor) har två flikar Data View och Variable View. I Data View ser man datamaterialet, medan man i Variable View ser en förteckning över alla variabler och här kan man definiera variablerna samt sätta etiketter på enskilda värden med tanke på en tydligare utskrift. Fönstret i Data View ser nästan lika ut som ett arbetsblad i Excel, där varje rad innehåller observationerna för en observationsenhet (ex. person) medan kolumnerna svarar mot de olika variablerna. Till skillnad från Excel kan man inte utföra beräkningar i de enskilda cellerna, utan alla eventuella räkneoperationer sker med hjälp av kommandon och resultatet kommer i utskriftsfönstret. I exemplet nedan visas ett material som innehåller uppgifter för ett stickprov av åringar år
23 Datamaterialet innehåller sammanlagt 21 variabler. Det namn eller benämning på variablerna som anges i kolumnen Name används av själva programmet och får inte innehålla mellanslag. I kolumnen Label kan man därför ange tydligare etiketter t.ex. födår => födelseår och storl => hushållets storlek 23
24 I kolumnen Values kan man på motsvarande sätt sätta etiketter på enskilda variabelvärden. I kolumnen Missing kan man ange sådana värden Missing values som inte skall beaktas. Det kan t.ex. vara fråga om särskilda värden för t.ex. kategorier såsom uppgift saknas eller irrelevanta eller omöjliga kategorier som make/makas utbildning för ensamstående. Ifall omöjliga eller ologiska kategorier lämnas tomma (i motsvarande cell i SPSS finns ett kommatecken) behandlas de som System Missing, och behöver inte anges i kolumnen Missing. Av de olika alternativen i den övre balken är det huvudsakligen File, Data, Transform samt Analyse som man behöver använda, och även här endast några enstaka kommandon. Under File finns alla de vanliga funktionerna som sammanhänger med att man öppnar, skapar eller sparar filer. Under Data finns kommandon som innebär att man kan bearbeta själva datafilen, t.ex. begränsa materialet till en delpopulation. Under Transform finns funktioner som gör det möjligt att t.ex. omkoda eller skapa nya variabler. Under Analyze finns alla de statistiska metoder som SPSS innehåller, och det är alltid via denna meny som alla analyser görs. 24
25 Transformationer m.m. Omkodning Ofta kan en variabel ha onödigt många olika värden, och det kan vara ändamålsenligt att slå ihop vissa av dessa. Motsvarande gäller också vid en klassindelning av kontinuerliga variabler. Detta kan i SPSS enkelt göras genom Recode-kommandot. Som exempel skall vi omkoda en variabel som beskriver rökvanorna hos studerande med fem kategorier till en enklare med endast tre klasser. Gamla variabeln Rökvanor Nya variabeln Rökning 1 Röker ej 1 Röker ej 2 feströkare 2 högst 5 per dag st / dag st/ dag 3 mer än 5 per dag 5 mer än 10 per dag 3 Genom att välja menyerna Tranform...Recode...Into Different Variables får man följande dialogruta: 25
26 där man sedan väljer den ursprungliga variabeln, och i rutan för Output Variable anger namnet på den nya variabeln samt trycker på Change-knappen, varefter men trycker på knappen Old and New Values... för att få den dialogruta där omkodningen sker: I rutorna för Old Value och New Value anges värdena. De förs till den större rutan genom tryckning på Add-knappen. Man behöver inte räkna upp alla värden på den gamla variabeln ifall dessa kan anges som ett intervall. Det är som regel en fördel att man vid omkodningar alltid skapar nya variabler, så att man har kvar de ursprungliga uppgifterna ifall man senare vill använda dem. Under Transform-menyn finns även Compute som kan användas ifall man vill skapa nya variabler som kan uttryckas som matematiska funktioner av existerande variabler. I nedanstående exempel skapas en ny variabel BMI (Body Mass Index) utgående från variablerna längd och vikt. Beräkningsformeln för BMI är vikten (kg) dividerad med 26
27 längden (m) i kvadrat. Eftersom längden i datamaterialet anges i centimeter måste vi även dividera längden med 100: Analys av delpopulationer I många situationer kan man önska begränsa analysen till en mindre grupp av datamaterialet, t.ex. enbart kvinnor, enbart studerande från Vasa, eller enbart svenskspråkiga män över 50 år. Detta kan göras enkelt genom användning av ett filter som finns under Data-menyn. 27
28 I exemplet väljs alla män (kön=1) som är längre än 175 cm. När man filterar observationerna använder man kvantorerna & (och) och (eller) samt vid behov även parenteser. Det är viktigt att man är noggrann med användningen av kvantorerna så att man får de observationer man vill ha. Data i tabellform Man kan skapa en ny SPSS-datafil på olika sätt beroende på om det ursprungliga datamaterialet från tidigare finns lagrat i elektronisk form eller ej. För detaljer hänvisas här till SPSS Tutorial. Här illustreras hur man kan använda SPSS för att analysera (=beräkna statistiska mått) data som man redan har i tabell-form. Antag att vi har data i en tabell av det slag som illustreras i Excel-filen nedan. 28
29 En Excelfil av detta slag kan inte öppnas i SPSS, utan vi är tvungna att förfara på ett annat sätt. Vi bör skapa en ny SPSS-datafil och i denna två variabler som anger ålder respektive sysselsättningsstatus samt ytterligare en som anger frekvensen för de olika kombinationerna. Variabeln Ålder har nio klasser som vi t.ex. kan koda 1, 2, 3,..., 9, medan Sysselsättningsstatus har två; Sysselsatt = 1 och Arbetslös = 2. I ett fall som detta behöver man inte skriva in frekvenserna (för hand), utan de kan kopieras och klistras in på vanligt sätt (Ctrl-C, Ctrl-V) För att kunna använda datafilen måste vi ange att observationerna skall viktas, vilket vi gör under Data...Weight Cases och därefter anger att vikten bestäms av variabeln frekvens: 29
30 Ovanstående exempel är endast avsett för att demonstrera strukturen på data i tabellform. I praktiken är det knappast motiverat att överföra en tvådimensionell tabell från Excel till SPSS. Förfarandet kan dock generaliseras även till flerdimensionella tabeller. Skapa nya variabler med hjälp av syntax Ifall man vill skapa nya variabler genom att utnyttja fler än en variabel kan detta lämpligen utföras i Syntax-fönstret. Fönstret öppnas från File-menyn enligt File...New...Syntax. I detta fönster kan man sedan skriva in uttryck som kan sparas i en separat fil, och man kan exekvera dessa genom att markera dem och trycka på Run-knappen (svarta triangeln). 30
31 I exemplet nedan antas att vi för individerna har information om föräldrarnas språk och att vi vill skapa en ny variabel Familjebakgrund på basen av denna. Såväl moderns och faderns språk är kodade enligt (1 = finska, 2 = svenska). Den nya variabeln har tre klasser, 1 = svenska, 2 = finska och 3 = tvåspråkig. Utskrifter Utskrifterna i SPSS innehåller som regel mera information än vad som behövs. Ifall inte syftet är att explicit illustrera hur en SPSS utskrift ser ut bör man redigera t.ex. tabeller ifall man vill använda dem i ett dokument. Detta kan med fördel göras i Excel, och genom att klicka på ett utskriftselement (t.ex. tabell) kan man kopiera detta och klistra in det i Excel, och därefter plocka ut den information som man behöver. 31
32 KAPITEL 4: DESKRIPTIV STATISTIK De enskilda uppgifterna i ett statistiskt material innehåller all tillgänglig information, men de behöver oftast sammanfattas och förenklas på något sätt. Detta kan göras i form av tabeller, grafiskt eller med hjälp av enskilda karakteristikor, vilka beskriver data på något sätt. Vilka förfaringssätt som kan användas bestäms av sammanhangen och skaltyperna. Tabeller och diagram Diskreta variabler Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena. Exempel. Antalet röster per kandidat i presidentvalets första omgång 2000 Kandidat Röster Procent Halonen ,0 Aho ,4 Uosukainen ,8 Rehn ,9 Hautala ,3 Hakalehto ,0 Kuisma ,6 totalt ,0 Förutom de absoluta frekvenserna kan man även redovisa den relativa (procentuella) fördelningen. Grafiskt kan fördelningen åskådliggöras t.ex. med ett stapeldiagram. Röstandelar i presidentvalet 2000 Halonen Aho Uosukainen Rehn Hautala Hakalehto Kuisma 0,0 10,0 20,0 30,0 40,0 50,0 Procent I SPSS kan man få fram frekvensfördelningen för en variabel genom att välja Analyze..Descriptive Statistics...Frequencies 32
33 I den nya dialogrutan Frequencies markerar man sedan vilka variabler man vill analysera och flyttar dem över till Variable(s):-rutan I SPSS utskrivs förutom de absoluta frekvenserna dessutom automatiskt den procentuella, samt den kumulativa fördelningen. 33
34 Frequency Exempel: Hushållsstorleken hos personer i åldern år år Observera att i tabellen anges som Missing sådana personer som inte tillhörde något hushåll, dvs huvudsakligen institutionsboende. hushållets storlek Valid Missing Total 1person 2 personer 3 personer 4 personer 5 personer 6 personer 7 personer 8 personer minst 9 personer Total personen tillhör ej hushåll Cumulativ e Frequency Percent Valid Percent Percent ,3 19,8 19, ,5 27,2 47, ,7 23,3 70, ,3 19,8 90, ,0 6,2 96, ,9 1,9 98,3 63 1,0 1,0 99,3 34,5,5 99,8 13,2,2 100, ,5 100, , ,0 I dialogrutan Frequencies kan man under knappen Statistics välja om man önskar ytterligare utskrift. Vi återkommer till detta längre fram. Av sammanlagt 6501 personer levde 6336 i hushåll. Av dessa levde 1256 ensamma och 1724 tillsammans med en annan person, vilket utgjorde 19,8 % resp. 27,2 % av alla hushåll. Av den kumulativa procentandelen framgår att 70,3 % levde i hushåll med högst 3 personer. Grafiskt kan en frekvensfördelning av detta slag lämpligen redovisas med hjälp av ett stapeldiagram. Skalan på den lodräta axeln kan då anges antingen i absoluta eller relativa tal hushållets storlek person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets storlek 34
35 Percent 30 hushållets storlek person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets st orlek De diagram som SPSS producerar skall främst betraktas som analysinstrument. Ifall man skall använda figurerna i en text bör de som regel redigeras eller framställas med något annat program (t.ex. Excel). Stapeldiagrammen kan också åstadkommas direkt i samband med att man tar fram frekvensfördelningen genom att man i dialogrutan Frequencies (Analyze... Descriptive Statistics...Frequencies) väljer Chart, för att i nästa fönster välja Bar charts. Kontinuerliga variabler För en kontinuerlig variabel eller en variabel som antar ett mycket stort antal olika värden är regelrätta frekvenstabeller inte användbara eftersom de skulle resultera i mycket omfattande tabeller. Ifall man vill redovisa kontinuerliga uppgifter i tabellform bör man därför indela materialet i klasser. I exemplet nedan redovisas ÅA-studerandes samlade studieveckor efter 10 terminers studier 35
36 Tabell. ÅA-studerandes presterade antal studieveckor efter 10 terminers studier. Studieveckor Antal 0-19, , , , , , , , , , , , Vid en klassindelning kan antalet klasser, och klassbredden väljas fritt och är delvis beroende av antalet observationer och fördelningens utseende. Klassgränserna bör helst väljas så att de känns naturliga (20, 40, 60 osv hellre än t.ex. 21, 43, 65...). Klassbredden bör dessutom helst hållas konstant. I SPSS utförs klassindelningen rent praktiskt genom en omkodning av den ursprungliga variabeln. För att erhålla en uppfattning om fördelningen för att underlätta klassindelningen kan man grafiskt granska denna med ett s.k. histogram, som är den kontinuerliga varianten av ett stapeldiagram. Välj Histogram i stället för Bar charts i fönstret ovan. Man bör även helst ha tagit bort kruxet för Display frequency tables i föregående fönster. 36
37 Genom att dubbelklicka på figuren öppnas en dialogruta där man kan redigera figuren. Genom att dubbelklicka på själva histogrammet får man fram en dialogruta där man kan experimentera med olika klassindelningar. Detta finns under fliken Binning. Om man i det aktuella exemplet anger klassbredden till 20 ändras figuren enligt följande: I ett histogram representerar ytan av de olika rektanglarna frekvenserna. I SPSS kan man enbart använda samma klassbredd i alla klasser, men ifall man använder något annat hjälpmedel eller ritar för hand, bör man således beakta detta. Ifall man t.ex. slår ihop två klasser, blir höjden på rektangeln inte den totala frekvensen utan medeltalet för de båda klasserna. I tabellen ovan saknar den sista klassen egentlig övre gräns, i och med att alla värden större än 240 sammanförts till en klass. I Excel finns inte Histogram explicit bland de olika diagramalternativen, men ett klassindelat material kan enkelt framställas som ett histogram genom att man väljer ett stapeldiagram och sätter avståndet mellan staplarna = 0. Nedanstående har uppgjorts i Excel. Antal studieveckor efter fem år 37
38 Flerdimensionella fördelningar, korstabeller I en korstabell, eller kontingenstabell, redovisas simultant (samtidigt) fördelningen för två kvalitativa variabler. En korstabell är således en tvådimensionell frekvensfördelningstabell. Liksom i det endimensionella fallet kan man göra redovisningen i relativa tal (procent), där procenttalen antingen beräknas för hela tabellen eller separat rad- eller kolumnvis. Vad som väljs beror givetvis på vilka jämförelser man vill företa. I nedanstående tabell redovisas livsskedet i 30 års ålder separat för män och kvinnor i form av absoluta tal. kön * livsskede Crosstabulation Count kön Total man kv inna liv sskede bor med f öräldrar bor ensam samboende gift tidigare gift Total Ifall man vill jämföra och illustrera eventuella olikheter mellan könen räknar man lämpligen den relativa (procentuella) fördelningen radvis. Vi kan nu utläsa att kvinnorna är snabbare i sin familjekarriär. En klart lägre andel av kvinnorna lever ensamma eller med föräldrarna, medan andelen tidigare gifta är avgjort högre än bland männen. kön * livsskede Crosstabulation kön Total man kvinna Count % within kön Count % within kön Count % within kön livsskede bor med f öräldrar bor ensam samboende gift tidigare gift Total ,7% 27,2% 25,7% 33,4% 5,1% 100,0% ,1% 19,1% 24,9% 39,9% 13,0% 100,0% ,8% 23,1% 25,3% 36,7% 9,1% 100,0% Om man däremot (av någon anledning) skulle vara intresserad av hur könsfördelningen varierar mellan de olika kategorierna av livsskedesvariabeln erhåller man följande tabell: kön * livsskede Crosstabulation kön Total man kvinna Count % within livsskede Count % within livsskede Count % within livsskede livsskede bor med f öräldrar bor ensam samboende gift tidigare gif t Total ,6% 57,8% 49,8% 44,6% 27,4% 49,0% ,4% 42,2% 50,2% 55,4% 72,6% 51,0% ,0% 100,0% 100,0% 100,0% 100,0% 100,0% 38
39 Korstabeller åstadkoms i SPSS genom att man från menyn Analyze väljer Descriptive Statistics -> Crosstabs, varefter man i den följande rutan anger rad- respektive kolumnvariabeln. Under knappen Cells fås en dialogruta där man kan ange ifall man önskar att procentuella fördelningar skall uträknas 39
40 Korstabellerna kan även göras flerdimensionella, så att den tvådimensionella tabellen delas upp med avseende på flera variabler. I exemplet nedan spjälks den föregående tabellen upp även efter språk. Genom att trycka på knappen Next kan man ange flera layers eller s.k. planvariabler. kön * livsskede * modersmål Crosstabulation Count modersmål f inska svenska kön Total kön Total man kvinna man kvinna livsskede bor med f öräldrar bor ensam samboende gift tidigare gift Total
41 Läges- och spridningsmått En statistisk karakteristika är ett mått (tal) som på något sätt sammanfattar eller karakteriserar en variabels fördelning. De vanligaste utgörs av läges- och spridningsmått. Lägesmåtten anger de mest typiska värdena eller variabelns tyngdpunkt, medan spridningsmåtten anger hur koncentrerade värdena är. Läges- eller centralmått På nominalskalan kan man bestämma enbart typvärdet (moden), dv. den klass som har den högsta frekvensen. Denna skaltyp har inget vedertaget spridningsmått, men man kan ange typvärdesprocenten, dvs hur stor andel typvärdet utgör av alla observationer. Exempel. Vi observerar huvudämnet (sp: socialpolitik, psyk: utv.psykologi, sk: statskunskap) för 15 studenter enligt följande: sp, sp, sp, sp, sp, psyk, psyk, psyk, sk, sk, sk, sk, sk, sk, sk. Moden är här statskunskap, och 7/15 = (46,7 %) har detta värde. På ordinalskalan kan man i tillägg till typvärdet även bestämma medianen, som utgörs av den mittersta observationen när observationerna rangordnats. Exempel. Vi observerar modersmålsvitsordet i studentexamen för 19 studenter och rangordnar dessa med följande resultat: b, b, b, c, c, c, c, c, c, m, m, m, m, e, e, e, e, l, l Den mittersta (i detta fall 10:e observationen) är således vitsordet m. Ifall antalet observationer är jämnt, och värdena för de två mittersta observationerna är olika kan medianen inte fastställas entydligt. Ifall vi exempelvis skulle ha ytterligare en student med vitsordet c, skulle den 10:e observationen vara ett c, och den 11:e ett m. I Excel finns en funktion under kategorin Statistical (Statistik i svensk version) som heter MODE (Sve: TYPVÄRDE) med vars hjälp man enkelt bestämmer typvärdet. 41
42 I exemplet ovan beräknas typvärdet för observationerna i kolumnen H från cell H2 till cell H188, och resultatet är 2. Datamaterialet i exemplet är en studentenkät, variabeln är hemort, och värdet 2 står för Mellersta Österbotten. Medianen kan bestämmas manuellt t.ex. genom att man sorterar observationerna och letar reda på den mittersta observationen, men det är givetvis enklare att använda funktionen MEDIAN (sve: MEDIAN) I SPSS kan man erhålla typvärdet och medianen genom att via Statistics knappen i dialogrutan Frequencies ange att man vill ha dessa på utskriften. Medianen är alltså det tal för vilket det gäller att hälften eller 50 % av observationerna är mindre än talet. På motsvarande sätt kan man även ange punkter för andra procenttal, s.k. percentiler. Vanliga proportioner är då t.ex. 10 %, 20 % osv. 25 %-, och 75 %-percentilerna brukar dessutom kallas första respektive tredje kvartilen. Dessa betecknas ofta Q 1 och Q 3. Medianen kan också kallas andra kvartilen. 42
43 Percentilerna kan bestämmas i SPSS på samma sätt som de övriga lägesmåtten. I fönstret ovan finns möjlighet att markera kvartiler och percentiler enligt eget önskemål. I Excel kan percentiler bestämmas med hjälp av funktionen PERCENTILE (sve: PERCENTIL) där man förutom dataområdet även anger ett för vilken andel man vill beräkna percentilen (tal mellan 0 och 1). I exemplet nedan anges värdet 0,25, dvs 25 % s percentilen. Det finns även en funktion QUARTILE (Sve: KVARTIL) som direkt beräknar kvartilerna. För variabler mätta på intervall- eller kvotskala kan man beräkna medelvärdet. Detta erhålls genom att man dividerar summan av alla observationsvärden med antalet observationer. Förutom att man explicit kan utföra dessa beräkningar i Excel kan man även använda funktionen AVERAGE (sve: MEDEL) I SPSS får man fram medelvärdet på samma sätt som typvärdet och medianen. Observera att programmen inte tänker själva ifråga om skaltyperna, utan gör vad du anger. Det innebär att programmet räknar medelvärde även för nominal- och ordinalskalevariabler ifall de är kodade med numeriska siffror. Det är således viktigt att tänka själv. 43
44 Eftersom framställningen i några fall underlättas av att man använder formella uttryck introduceras följande beteckningar. Låt x i beteckna observationsvärdet på en variabel x för individ i, och anta att vi observerar n individer. Summan av alla observationsvärden x 1 x 2... x n betecknas då x i. Detta innebär att medelvärdet för variabeln x, som vanligen betecknas x formellt beräknas enligt följande n x x / n i 1 i n i 1 Ifall man har ett klassindelat material kan man approximera medelvärdet genom att tilldela alla observationer i en klass klassmitten som värde. I det tidigare exemplet kan vi beräkna det genomsnittliga antalet studieveckor enligt följande: Studieveckor Klassmitt (m) Antal (f) f m 0-19, , , , , , , , , , , , Medelvärdet blir då /2952 = 128,7. (Som jämförelse kan nämnas att medelvärdet beräknat på det ursprungliga materialet är 130,8.) Jämförelse av centralmåtten Medelvärdet är det vanligast använda centralmåttet och det har en avsevärd fördel framom de övriga i att det har goda statistiska egenskaper. Det kan därför med fördel oftast användas om man har en intervall- eller kvotskalevariabel. Problem uppstår egentligen enbart om man har att göra med mycket sneda fördelningar eller om det finns s.k. outliers. Nedan ges ett 44
45 extremt, men verkligt exempel. Andra vanliga exempel på sneda fördelningar är t.ex. inkomstfördelningar, där det dessutom kan finnas extrema outliers. Vinstfördelningen i Lotto (omgångarna 44 och 45, 2004) Omgång 44 Omgång 45 Antal vinster Vinst Antal vinster Vinst 7 rätt , tilläggsnr , ,30 6 rätt , ,30 5 rätt , ,10 4 rätt , ,70 Totalt Median 12,00 11,70 Typvärde 12,00 11,70 Medeltal 17,52 37,02 Medelvärdet avviker avsevärt från de andra centralmåtten, och är mycket känsligt för ytterlighetsvärden. Notera att fastän utdelningen för 4,5 eller 6 rätt, dvs för 99,99 % av alla vinstrader, var lägre under omgång 45 än under omgång 44, var den genomsnittliga vinsten mer än dubbelt så stor. Konklusionen är att i ett fall som detta är det egentligen meningslöst att försöka sammanfatta uppgifterna med hjälp av centralmått. Observera att för en kontinuerlig variabel blir typvärdet oftast meningslöst, eftersom varje enskilt observationsvärde oftast har frekvensen 1. I detta fall är det vettigare att tala om typvärdesklass, dvs. den klass som har den högsta frekvensen efter en klassindelning. Spridningsmått För nominal- och ordinalskalevariabler saknar spridningsmått egentlig mening, även om modalprocenten, dvs hur stor andel av observationerna som har typvärdet kan betraktas som ett slags spridningsmått. Det avgjort viktigaste spridningsmåttet på intervall- och kvotskalan är standardavvikelsen (s). Detta mått kan uppfattas som ett slags genomsnitt på variabelvärdenas avvikelse från medelvärdet. Den formella definitionen är s n ( xi x) 2 i 1 n 1 Detta innebär att den kvadrerade standardavvikelsen, alltså s 2, som kallas variansen, är medelvärdet av de kvadrerade avvikelserna från medelvärdet (eller rättare sagt nästan eftersom man dividerar med n-1 i stället för n). Ovanstående beräkningsformel avser standardavvikelse för en variabel när man analyserar ett stickprov. Ifall man analyserar ett totalmaterial borde man egentligen dividera med n i stället för n-1. Detta är likväl statistiskt finlir som saknar praktisk betydelse. 45
46 I Excel finns standardavvikelsen som en inbyggd funktion och här finns vardera alternativet STDEV och STDEVP för ett stickprov resp. population. Det finns också motsvarande funktioner för variansen VAR respektive VARP. I SPSS beräknas standardavvikelsen enligt formeln för stickprov och man får fram det på samma sätt som lägesmåtten, dvs under Statistics i Frequencies-rutan markerar man Standard deviation. Eftersom standardavvikelsens värde är beroende av observationernas absoluta värde kan man inte direkt avgöra vad som skall anses vara en stor eller liten spridning. Det som man däremot kan ta som en tumregel är att om man går två standardavvikelser åt vardera hållet från medelvärden får man med ungefär 95 % av alla observationer. Ifall man har ett datamaterial i form av frekvensfördelningen för en klassindelad variabel kan man inte direkt utnyttja de inbyggda funktionerna i Excel. Det går likväl enkelt att utföra beräkningarna utgående från liten modifiering av formeln för standardavvikelsen. s k f j ( x j x) 2 j 1 n 1 så att x j betecknar klassmitten i klass j och k anger det totala antalet klasser, medan f j betecknar frekvensen i klass j. Exempel. Vi skall utnyttja detta för att beräkna standardavvikelsen för det tidigare använda materialet över antalet studieveckor. Klassmitt x j f j x j* f j f j ( x j 2 x) , , , , , , , , , , ,3 n= 2952 = = x =128,7398 s 2 = /2951= 1978,486 s= 44,48018 Standardavvikelsen är således 44,5, vilket innebär att 128,8 89 ger intervallet (39,8-217,8) och inom detta intervall finns ungefär 95 % av alla observationer. 46
47 Vid starkt sneda fördelningar har standardavvikelsen svagheter på motsvarande sätt som det aritmetiska medelvärdet. Standardavvikelsen tenderar i sådana fall att bli onödigt stor. I tipsexemplet ovan är standardavvikelsen för de två åren 183,372 respektive 10650,399. Ett bättre mått vid sneda fördelningar är kvartilavvikelsen som definieras som halva skillnaden mellan tredje och första kvartilen dvs (Q 3 Q 1 )/2. 47
48 KAPITEL 5: KORRELATION Korrelation I det tidigare avsnittet användes korstabeller för att jämföra fördelningarna mellan olika grupper. Fokus var dock på en beskrivning av fördelningarna. I detta avsnitt skall vi rikta in oss på eventuella samband mellan variablerna. Man kan vara intresserad av om två variabler inverkar på varandra eller om den ena är beroende av den andra. Exempelvis kan man fråga sig om en högre utbildning leder till högre inkomst, om den socioekonomiska ställningen inverkar på politisk åskådning, om barnens skolframgång har samband med föräldrarnas utbildningsnivå osv. Observera att även om man kan påvisa samband mellan två variabler behöver det inte finnas ett orsakssamband mellan dem, och riktningen på ett samband är inte heller alltid självklar. För att uttrycka sambandet mellan två variabler beräknas olika slag av korrelationskoefficienter. Vilka mått som beräknas beror huvudsakligen på vilka typer av variabler (skaltyper) det är fråga om. Ett gemensamt drag för korrelationskoefficienter är att de varierar mellan -1 och 1, (i ett fall mellan 0 och 1), och att värdet 0 indikerar att det inte finns något samband, dvs variablerna är okorrelerade. Samband i kontingenstabeller med nominalskalevariabler Vi skall först se på ett exempel som undersöker sambandet mellan inställningen till abort och religiositet. Rätt till fri abort * Deltar i gudstjänst Crosstabulation Count Rätt till f ri abort Total Ja Ibland Nej Deltar i gudstjänst Aldrig eller sällan Ibland Ofta Total Ifall det inte skulle finnas något samband mellan variablerna borde inställningen till abort vara densamma oberoende av hur ofta man deltar i gudstjänster. Detta innebär att den relativa fördelningen i alla kolumner i tabellen borde vara densamma som i marginalen, dvs att 77,9 % är positiva till abort, medan 11,9 % accepterar abort ibland och 10,2 % är negativa. Som det framgår av den procentuella fördelningen verkar det finnas avvikelser från detta. Rätt till fri abort * Deltar i gudstjänst Crosstabulation % within Deltar i gudstjänst Rätt till f ri abort Total Ja Ibland Nej Delt ar i gudstjänst Aldrig eller sällan Ibland Of ta Total 82,5% 68,8% 29,7% 77,9% 11,0% 17,4% 12,5% 11,9% 6,5% 13,9% 57,8% 10,2% 100,0% 100,0% 100,0% 100,0% 48
49 Korrelationskoefficienterna för en kontingenstabell jämför det observerade utfallet med det som kunde förväntas ifall variablerna var oberoende. I vårt fall innebär detta att fördelningen borde ha varit Rätt till fri abort * Deltar i gudstjänst Crosstabulation Expected Count Rätt till f ri abort Total Ja Ibland Nej Delt ar i gudstjänst Aldrig eller sällan Ibland Of ta Total 744,9 112,2 49,9 907,0 113,3 17,1 7,6 138,0 97,7 14,7 6,5 119,0 956,0 144,0 64,0 1164,0 ty t.ex. är 77,9 * 956/100 = 744,9. Det finns flera förslag till korrelationskoefficienter för kontingenstabeller, men de bygger alla på det s.k Chi-kvadratvärdet (Χ 2 ). Beräkning av Χ 2. Betrakta en korstabell med k celler och beteckna det observerade antalet i cell i O i och motsvarande förväntade antal med E i. där i=1,...k. Χ 2 värdet beräknas då enligt följande dvs. summan av de kvadrerade skillnaderna mellan de observerade och förväntade värdena dividerat med de förväntade. I exemplet ovan blir Χ 2 värdet 184,322. Χ 2 värdet är noll om variablerna är oberoende, och värdet ökar ju större skillnad det är mellan de observerade och förväntade värdena. Det maximala värdet är beroende av såväl antalet observationer som tabellens storlek. Man kan visa att det maximala värdet är n*(q-1), där n betecknar antalet observationer och q det mindre av antalet rader och antalet kolumner i tabellen. En enkelt mått som föreslagits och används är Cramérs kontingenskoefficient, V, som utgörs av kvadratroten av det observerade Χ 2 värdet dividerat med det maximala värdet, alltså V 2 n ( q 1) 49
50 Detta mått kan således variera mellan 0 och 1. För exemplet ovan erhålls 184,322 = 0, För fyrfältstabeller, dvs för tabeller med endast två rader och två kolumner finns också den s.k. Phi-koefficienten, Φ. Om man betecknar cellerna i tabellen enligt följande så kan Φ beräknas enligt formeln a b a+b c d c+d a+c b+d a+b+c+d a d b c ( a b)( c d)( a c)( b d) Koefficienten Φ är egentligen exakt samma mått som Cramérs V, förutom att Φ även kan anta negativa värden. Den kanske mest använda korrelationskoefficienten för kontingenstabeller är Pearsons kontingenskoefficient, C, som definieras C 2 2 n I exemplet ovan blir således 184,322 C = 0, , Observera att kontingenskoefficientens minsta värde är noll, medan det maximala värdet är q 1. q Ifall man därför vill ha ett mått som gör att man kan jämföra kontingenskoefficienter beräknade för tabeller av olika storlek kan man dividera kontingenskoefficienten C med detta tal för att erhålla ett mått som varierar mellan 0 och 1. I vårt exempel innebär detta 0, = 0, I SPSS kan man direkt beräkna korrelationskoefficienterna genom att välja Analyze...Descriptive Statistics...Crosstabs och därefter under Statistics markera önskade statistikor. Observera att du själv måste avgöra vad som är vettigt. 50
51 Symmetric Measures Nominal by Nominal N of Valid Cases Phi Cramer's V Contingency Coef f icient a. Not assuming the null hy pothesis. Value Approx. Sig.,398,000,281,000,370, b. Using the asy mptotic standard error assuming the null hy pothesis. Observera att programmet skriver ut Phi, även om koefficienten inte är definierad för en 3x3 tabell. 51
52 Rangkorrelation Ifall de studerade variablerna är mätbara på ordinalskala kan man studera sambandet med hjälp av rangkorrelationskoefficienter. Dessa är mått på samstämmigheten hos två rangordningar. Vid beräkningarna använder man inte mätvärdena i sig, utan enbart de positioner de representerar vid en rangordning. Det finns två allmänt använda rangkorrelationskoefficienter, nämligen Spearmans rho (ρ) och Kendalls tau (τ). Vardera av dessa mått varierar mellan -1 och 1, där -1 innebär att rangordningarna är fullständigt motsatta, och värdet 1 uppnås vid fullständig samstämmighet. Beräkning av Spearmans rangkorrelationskoefficient Antag att vi vill jämföra två rangordningar av n individer. Beräkningen av rangkorrelationskoefficienten r s baserar sig på skillnaderna d i, i=1,...,n mellan rangtalen. Beräkningen görs enligt formeln r s n i 6 d i n ( n 1) Exempel. Vi skall se om tätortsgraden (andelen av befolkningen som bor inom tätorter) och andelen sysselsatta inom jordbruk ger samma rangordning av Österbottens kommuner. Vi tilldelar kommunerna rangtal på basen av uppgifterna. Maxmo och Storkyro har samma andel sysselsatta inom jordbruk, vilket innebär att de inte kan särskiljas och de får därför dela på rangtalen 7 och 8. Kommun Tätordsgrad Jordbruk (%) Rang(1) Rang(2) d i 2 d i Jakobstad 98,4 1, Kaskö 99,1 3, Korsholm 82,2 6, Korsnäs 67,4 27, Kristinestad 77,1 12, Kronoby 51,2 17, Laihela 82,0 8, Larsmo 85,8 3, Lillkyrö 87,6 8, Malax 72,2 14, Maxmo 96,7 16,7 15 7,5 7,5 56,25 Nykarleby 62,5 23, Närpes 64,0 25, Oravais 66,1 18, Pedersöre 58,5 13, Storkyrö 76,1 16,7 9 7,5 1,5 2,25 Vasa 98,7 0, Vörå 54,4 19, Summa 0 207,5 52
53 r s 6 207, ,2141 0, (324 1) Pearsons produktmomentkorrelationskoefficient Ifall de studerade variablerna är kvantitativa kan sambandet ofta illustreras grafiskt med hjälp av ett spridningsdiagram (även plot- eller prickdiagram). Observationerna prickas då in i ett koordinatsystem där de båda variablerna utgör axlar. I figurerna nedan illustreras några olika typer av samband positiv korrelation negativ korrelation nollkorrelation icke-linjärt samband I det första exemplet finns en tydlig tendens att ju högre värde x-variabeln har desto högre värde kan vi observera på y-variabeln. Vi säger då att variablerna är positivt korrelerade. I det andra exemplet är tendensen den motsatta och vi säger då att variablerna är negativt korrelerade. I det tredje exemplet kan vi inte urskilja någon klar tendens vilket innebär att variablerna är okorrelerade. I de två första exemplen är sambanden uppenbart linjära, medan det sista exemplet illustrerar en situation där det finns ett samband, även om detta inte är linjärt. 53
54 Korrelationsanalyser av kvantitativa variabler innebär egentligen att man studerar hur väl man kan beskriva sambandet mellan variablerna med hjälp av en rät linje. Det mått som används för att mäta detta samband mellan variablerna x och y kallas Pearsons produktmomentkorrelationskoefficient (r xy ) (vanligen endast korrelationskoefficient). För koefficienten r xy gäller -1 r xy +1 och att r xy = 0, dvs nollkorrelation innebär att inget linjärt samband kan observeras r xy = +1 eller r xy = -1 innebär att i ett spridningsdiagram ligger alla observationer på en rät linje. Positiva värden innebär att linjen har en positiv lutningsvinkel, och omvänt för negativa värden. Observera dock att korrelationskoefficientens storlek enbart mäter anpassningen till en rät linje, men inte lutningens storlek. Eftersom r xy mäter det linjära sambandet blir värdet lågt även om det finns ett samband men detta är icke-linjärt (som i det sista exemplet). Formeln för r xy är ( x i i x)( yi y) rxy 2 ( x x) ( y y) i i i i Summeringarna görs över alla observationer, dvs i=1,...,n. 2 Notera att koefficienten är symmetrisk vilket innebär att korrelationen mellan x och y är lika med korrelationen mellan y och x. Notera också att om man sätter x=y i formeln ovan blir svaret givetvis r xx = 1. Beräkningsformel för r xy Vid en manuell beräkning eller i Excel förenklas arbetet av en omskrivning av formeln enligt följande Exempel. Sambandet mellan partners språk och hemortens språkstruktur. Vi har kommunvisa uppgifter om andelen som har finskspråkig partner bland svenskspråkiga män i nybildade par åren (y) och hemortens språkstruktur (x), dvs andelen svenskspråkiga i kommunen. Grafiskt ser det ut på följande sätt: 54
55 Andel med finsk partner , Andel svenska i kommunen Uppgifterna skrivs i en tabell där man även inför kolumner för kvadraterna och korsprodukten enligt följande: x y x 2 y 2 xy x=1404 y=1208 x 2 =91580 y 2= xy=
56 n = 28 Detta innebär att r xy = = -0, ( )( ) I Excel finns även en funktion CORREL (sve: KORREL) som direkt beräknar korrelationskoefficienten mellan två variabler. I SPSS beräknas korrelationskoefficienten genom att man väljer Analyze...Correlate...Bivariate för att få fram dialogrutan Bivariate Correlations där man sedan anger vilka variabler som skall studeras och markerar rutan Pearson. Notera att man samtidigt kan ange fler än två variabler. Programmet beräknar då alla parvisa korrelationer, och resultatet redovisas i en symmetrisk matris. 56
Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.
Deskriptiv statistik De enskilda uppgifterna i ett statistiskt material innehåller all tillgänglig information men behöver oftast sammanfattas och förenklas på något sätt. Detta kan göras i form av tabeller,
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Vad är statistik?
Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.
Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median
Beskrivande statistik Kapitel 19. (totalt 12 sidor)
Beskrivande statistik Kapitel 19. (totalt 12 sidor) För att åskådliggöra insamlat material från en undersökning används mått, tabeller och diagram vid sammanställningen. Det är därför viktigt med en grundläggande
13.1 Matematisk statistik
13.1 Matematisk statistik 13.1.1 Grundläggande begrepp I den här föreläsningen kommer vi att definiera och exemplifiera ett antal begrepp som sedan kommer att följa oss genom hela kursen. Det är därför
Beskrivande statistik
Beskrivande statistik Tabellen ovan visar antalet allvarliga olyckor på en vägsträcka under 15 år. år Antal olyckor 1995 36 1996 20 1997 18 1998 26 1999 30 2000 20 2001 30 2002 27 2003 19 2004 24 2005
Richard Öhrvall, http://richardohrvall.com/ 1
Läsa in data (1/4) Välj File>Open>Data Läsa in data (2/4) Leta reda på rätt fil, Markera den, välj Open http://richardohrvall.com/ 1 Läsa in data (3/4) Nu ska data vara inläst. Variable View Variabelvärden
Föreläsning 1. 732G60 Statistiska metoder
Föreläsning 1 Statistiska metoder 1 Kursens uppbyggnad o 10 föreläsningar Teori blandas med exempel Läggs ut några dagar innan på kurshemsidan o 5 räknestugor Tillfälle för individuella frågor Viktigt
2 Dataanalys och beskrivande statistik
2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att
Grundläggande statistik kurs 1
Grundläggande statistik kurs 1 Problem 1 Arbeta med frekvenstabeller Sid 2: Så här ser sidan 2 ut. Vi har alltså en delad sida med kalkylbladet till vänster och en Data&Statistik-sida till höger. I den
Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1
STOCKHOLMS UNIVERSITET 2004-11-04 MATEMATISK STATISTIK Sannolikhetslära och statistik för lärare Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1 Programmet StarOffice Calc
Föreläsning G70 Statistik A
Föreläsning 1 732G70 Statistik A 1 Population och stickprov Population = den samling enheter (exempelvis individer) som vi vill dra slutsatser om. Populationen definieras på logisk väg med utgångspunkt
Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.
Olika typer av variabler och skalor Kvalitativ variabel -variabeln antar inte numeriska värden utan bara olika kategorier. vis olika bilmärken, eller man, kvinna. Kvantitativ variabel Antar numeriska värden
Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ
Åke Aronsson och Studentlittertur Att komma igång med SPSS 1 Kapitel 7: Att komma igång med SPSS Syftet med detta avsnitt är att ge en introduktion till SPSS 9.0 för Windows 95/98/NT. I det här avsnittet
Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/12 2008. Av: Markus Ederwall, 21488
Idiotens guide till Håkan Lyckeborgs SPSS-föreläsning 4/12 2008 Av: Markus Ederwall, 21488 1. Starta SPSS! 2. Hitta din datamängd på Kurs 601\downloads\datamängd A på studentwebben 3. När du hittat datamängden
F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.
Tabellering av kvalitativ variabel En variabel varierar över ett antal kategorier. F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått. T ex, individer är kvinnor eller män.
Marknadsinformationsmetodik Inlämningsuppgift
Marknadsinformationsmetodik Inlämningsuppgift Uppgiften löses med hjälp av SPSS. Klistra in tabeller och diagram från SPSS i ett Worddokument och kommentera där. Använd ett försättsblad till den slutgiltiga
Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010
v. 2015-01-07 ANVISNINGAR Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010 Detta häfte innehåller kortfattade anvisningar om hur ni använder Excel under denna laboration. Be om hjälp
Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram
Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram 2.1 Grundläggande matematik 2.1.1 Potensfunktioner xmxn xm n x x x x 3 4 34 7 x x m n x mn x x 4 3 x4 3 x1 x x n 1 x n x 3 1 x 3 x0 1 1
Kvantitativ forskning C2. Viktiga begrepp och univariat analys
+ Kvantitativ forskning C2 Viktiga begrepp och univariat analys + Delkursen mål n Ni har grundläggande kunskaper över statistiska analyser (univariat, bivariat) n Ni kan använda olika programvaror för
SPSS En guidad tur. Vad ska jag göra idag? Följ instruktioner som följer, om du behöver hjälp det är bara att fråga en lärare!
SPSS En guidad tur Mål: På den här introduktionen kommer du att lära dig de elementäraste funktionerna i SPSS, dels genom att mata in eget datamaterial och dels genom en analys av en studentundersökning
Intro till SPSS Kimmo Sorjonen (0811)
1 Intro till SPSS Kimmo Sorjonen (0811) 1. Att mata in data i SPSS 1. Klicka på ikonen för SPSS. 2. Välj alternativet Type in data och klicka på OK. 3. Databladet har två flikar: Data view och Variable
Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Deskriptiv statistik Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Deskriptiv statistik Tabeller Figurer Sammanfattande mått Vilken
Bearbetning och Presentation
Bearbetning och Presentation Vid en bottenfaunaundersökning i Nydalasjön räknade man antalet ringmaskar i 5 vattenprover. Följande värden erhölls:,,,4,,,5,,8,4,,,0,3, Det verkar vara diskreta observationer.
Att göra före det schemalagda labpasset.
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 1 Laborationen avser att illustrera några grundläggande begrepp inom beskrivande statistik och explorativ dataanalys.
Mata in data i Excel och bearbeta i SPSS
Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är
Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel
ANVISNINGAR Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel Detta häfte innehåller kortfattade anvisningar om hur ni använder Excel under denna laboration. Be om hjälp när/om ni tycker att
Valresultat Riksdagen 2018
Valresultat Riksdagen 2018 I ämnesplanerna i matematik betonas att eleverna ska få möjlighet att använda digitala verktyg. Ett exempel från kursen Matematik 2 är Statistiska metoder för rapportering av
Handledning för konstruktion av tabeller och diagram med Excel
Handledning för konstruktion av tabeller och diagram med Excel 26 APRIL 2013 Inledning Excel är inte konstruerat för att i första hand utföra statistiska beräkningar, men en hel del sådant kan ändå göras.
STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh
STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh Skriftlig tentamen på momentet Statistisk dataanalys I (SDA l), 3 högskolepoäng ingående i kursen Undersökningsmetodik och
Datorövning 1 Statistik med Excel (Office 2010, svenska)
Datorövning 1 Statistik med Excel (Office 2010, svenska) I processövningen som ni ska genomföra ingår det att konstruera samt sammanställa en enkät. Denna sammanställning ska göras med hjälp av programmet
*****************************************************************************
Statistik, 2p ANVISNINGAR Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel Detta häfte innehåller kortfattade anvisningar om hur ni använder Excel under denna laboration. Be om hjälp när/om
Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour
Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet SPSS (PASW) 18 for Windows - a guided tour VT 2010 2 Introduktion till SPSS (PSAW) Denna övning kommer steg för steg att lära oss de grundläggande
Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation
Uppgift 1 Vikt Vikt är en variabel på kvotskalan. Det gör att vi kan räkna med aritmetiskt medelvärde (m) som centralmått (Djurefeldt, 2003:59). Medelvärdet är 35,85 kg. Det saknas värden för två observationer,
Datorövning 1 Statistik med Excel (Office 2007, svenska)
Datorövning 1 Statistik med Excel (Office 2007, svenska) I processövningen som ni ska genomföra ingår det att konstruera samt sammanställa en enkät. Denna sammanställning ska göras med hjälp av programmet
Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.
Biostatistik: Begrepp & verktyg Kvantitativa Metoder II: teori och tillämpning Lovisa.Syden@ki.se BIOSTATISTIK att hantera slumpmässiga variationer! BIO datat handlar om levande saker STATISTIK beskriva
732G01/732G40 Grundläggande statistik (7.5hp)
732G01/732G40 Grundläggande statistik (7.5hp) 2 Grundläggande statistik, 7.5 hp Mål: Kursens mål är att den studerande ska tillägna sig en översikt över centrala begrepp och betraktelsesätt inom statistik.
Datorövning 1 Statistik med Excel (Office 2007, svenska)
Datorövning 1 Statistik med Excel (Office 2007, svenska) I processövningen som ni ska genomföra ingår det att konstruera samt sammanställa en enkät. Denna sammanställning ska göras med hjälp av programmet
2.1 Minitab-introduktion
2.1 Minitab-introduktion Betrakta följande mätvärden (observationer): 9.07 11.83 9.56 7.85 10.44 12.69 9.39 10.36 11.90 10.15 9.35 10.11 11.31 8.88 10.94 10.37 11.52 8.26 11.91 11.61 10.72 9.84 11.89 7.46
Kvantitativ strategi Univariat analys 2. Wieland Wermke
+ Kvantitativ strategi Univariat analys 2 Wieland Wermke + Sammanfattande mått: centralmått n Beroende på skalnivån finns det olika mått, som betecknar variablernas fördelning n Typvärde eller modalvärde
Marknadsinformationsmetodik Inlämningsuppgift
Marknadsinformationsmetodik Inlämningsuppgift Uppgiften löses med hjälp av SPSS. Klistra in tabeller och diagram från SPSS i ett Worddokument och kommentera där. Använd ett försättsblad till den slutgiltiga
En typisk medianmorot
Karin Landtblom En typisk medianmorot I artikeln Läget? Tja det beror på variablerna! i Nämnaren 1:1 beskrivs en del av problematiken kring lägesmått och variabler med några vanliga missförstånd som lätt
Statistikens grunder. Mattias Nilsson Benfatto, Ph.D
Statistikens grunder Mattias Nilsson Benfatto, Ph.D Vad är statistik? Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.
INNEHÅLL DEL 2 FORMATERA KALKYL DEL 1 SKAPA KALKYL
1. INTRODUKTION TILL EXCEL 2008... 5 A. Docendo-pedagogiken...6 B. Hämta övningsfiler...7 C. Starta programmet...8 D. Avsluta programmet...8 E. Programfönstret...9 F. Elementgalleriet...10 G. Verktygslådan...11
Laboration 1. i 5B1512, Grundkurs i matematisk statistik för ekonomer
Laboration 1 i 5B1512, Grundkurs i matematisk statistik för ekonomer Namn:........................................................ Elevnummer:.............. Laborationen syftar till ett ge information
Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer
Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng
Kognitiv psykologi Moment 1: Statistik, 3 poäng VT 27 Lärare: Maria Karlsson Deskription (Kapitel 2 i Howell) Beskrivande mått, tabeller och diagram 1 2 Tabeller Tabell- och kolumnrubriker bör vara fullständiga
Statistiska undersökningar
Arbetsgång vid statistiska undersökningar Problemformulering, målsättning Statistiska undersökningar Arbetsgången mm Definition av målpopulation Framställning av urvalsram Urval Utformning av mätinstrument
2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel
Datorövning 1 Statistikens Grunder 2 Syfte 1. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med "proc univariate" 3. Lära sig rita histogram 4. Lära sig rita diagram
STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson
1 STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Beskrivande statistik SDA l, 2 poäng ingående i kurserna Grundkurs i statistik 20 p samt Undersökningsmetodik
Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson
1 STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson Skriftlig omtentamen på momentet Statistisk dataanalys I (SDA l, beskrivande statistik) 3 högskolepoäng, ingående i kursen Undersökningsmetodik
Laborationer i statistik för A:1, Lab 1
Mittuniversitetet 2006-08-31 1 Laborationer i statistik för A:1, Lab 1 Laborationsanvisningar Genomförande Gå igenom laborationen i basgruppen och diskutera vilka lärandemål ni eventuellt behöver tillföra
Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer
Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, boxplot ) Deskription: lägesmått, spridningsmått Indexserie med bastidpunkt, förändring,
Histogram, pivottabeller och tabell med beskrivande statistik i Excel
Histogram, pivottabeller och tabell med beskrivande statistik i Excel 1 Histogram är bra för att dem på ett visuellt sätt ger oss mycket information. Att göra ett histogram i Excel är dock rätt så bökigt.
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT-2009 Laboration P3-P4 Statistiska test MH:231 Grupp A: Tisdag 17/11-09, 8.15-10.00 och Måndag 23/11-09, 8.15-10.00 Grupp B: Tisdag
EXAMINATION KVANTITATIV METOD vt-11 (110204)
ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt
FORSKNINGSMETODIK, KVANTITATIV DEL
FORSKNINGSMETODIK, KVANTITATIV DEL Jan Saarela http://www.vasa.abo.fi/users/jsaarela/ ANSATS Hantering av numerisk information Hur förstå, tolka och bearbeta sifferserier i matrisform CENTRALA BEGREPP
Uppgift 1. Produktmomentkorrelationskoefficienten
Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16
Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11 Laboration Statistiska test 2011-11-15/16 2 Syftet med laborationen är att: Ni skall bekanta er med lite av de funktioner som finns
Datorövning 2 Statistik med Excel (Office 2007, svenska)
Datorövning 2 Statistik med Excel (Office 2007, svenska) Denna datorövning fokuserar på att upptäcka samband mellan två variabler. Det görs genom att rita spridningsdiagram och beräkna korrelationskoefficienter
Tabeller och figurer / Ilkka Norri / TY Kielikeskus
Tabeller och figurer / Ilkka Norri / TY Kielikeskus En tabell består av tabellrubrik > kort, ska ge all information som läsaren behöver tabellhuvud > rubriktexter för uppgiftsgrupperingarna som inleds
DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA.
DATORÖVNING 1: INTRODUKTION TILL DATORSYSTEMET. BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. ALLMÄNT OM DATORERNA Datorsystemet består av persondatorer kopplade i ett nätverk till en större server. Operativsystemet
SOPA62 - Kunskapsproduktion i socialt arbete
SOPA62 - Kunskapsproduktion i socialt arbete 1. Beskrivande statistik och lite hypotesprövning 1 Kvantitativ vs Kvalitativ metod Kvantitativt: Man definierar precisa begrepp och ställer därefter frågor
Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik
Statistik Statistik betyder ungefär sifferkunskap om staten Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information. Verkligheten
Konsten att fånga, sammanfatta och tolka resultat och mätningar. Marie Lindkvist Epidemiologi och global hälsa
Konsten att fånga, sammanfatta och tolka resultat och mätningar Marie Lindkvist Epidemiologi och global hälsa Vetenskap Vad är vetenskap? Systematisk kunskap Vad är skillnaden mellan vardaglig kunskap
F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet
F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet Tabellering av kvalitativ variabel En kvalitativ variabel varierar över ett antal kategorier. Antag att vi har observerat
Datorövning 1 Introduktion till Minitab och Excel
Datorövning 1 Introduktion till Minitab och Excel Allmänt Hittills under statistikkursen har vi ägnat oss åt metoder för att illustrera och beskriva datamaterial. Du har kanske börjat öva på att räkna
Medelvärde, median och standardavvikelse
Medelvärde, median och standardavvikelse Detta är en enkel aktivitet där vi på ett dynamiskt sätt ska titta på hur de statistiska måtten, t.ex. median och medelvärde ändras när man ändar ett värde i en
Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet Per-Erik Isberg. SPSS for Windows 12 - a guided tour
Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet Per-Erik Isberg SPSS for Windows 12 - a guided tour HT 2006 2 Introduktion till SPSS Denna övning kommer steg för steg att lära oss de grundläggande
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT007 Laboration Simulering Grupp A: 007-11-1, 8.15-.00 Grupp B: 007-11-1, 13.15-15.00 Introduktion Syftet
ÖVNINGSUPPGIFTER KAPITEL 2
ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?
DATORÖVNING 2: STATISTISK INFERENS.
DATORÖVNING 2: STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt
Statistik. Berit Bergius & Lena Trygg, NCM
Modul: Didaktiska perspektiv på matematikundervisningen 2 Del 3: Geometri och statistik Statistik Berit Bergius & Lena Trygg, NCM Bakåt i tiden förmedlades information muntligt, från man till man. När
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson
1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys I (SDA l), 3 högskolepoäng ingående i kursen Undersökningsmetodik och statistisk
Statistik vad är det?
Statistik vad är det? LWn/PEI / 1 Sveriges officiella statistik Statistiska CentralByrån (SCB www.scb.se) Statistikansvariga myndigheter Socialstyrelsen (www.sos.se) Riksförsäkringsverket (www.rfv.se)
STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson
1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys I (SDA l), 3 högskolepoäng ingående i kursen Undersökningsmetodik och statistisk
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum 2009-06-05 Skrivtid 0900 1400 Tentamen i: Statistik 1, Undersökningsmetodik 7.5 hp Antal uppgifter: 6 Krav för G: 12 Lärare:
Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor
Beskrivande statistik Tony Pansell, Leg optiker Docent, Universitetslektor Beskrivande statistik Grunden för all analys är ordning och reda! Beskrivande statistik hjälper oss att överskådligt sammanfatta
DATORÖVNING 3: MER OM STATISTISK INFERENS.
DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. STATISTISK INFERENS MED DATORNS HJÄLP Vi fortsätter att arbeta med datamaterialet från datorävning 2: HUS.xls. Som vi sett
Statistik för Brandingenjörer. Laboration 1
LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Statistik för Brandingenjörer Laboration 1 Beskrivande statistik VT 2012 2 En marknadsundersökning Bakgrund Uppgiften kommer att omfatta en del av en marknadsundersökning
Arbeta med normalfördelningar
Arbeta med normalfördelningar I en större undersökning om hur kvinnors längd gjorde man undersökning hos kvinnor i ett viss åldersintervall. Man drog sedan ett slumpmässigt urval på 2000 kvinnor och resultatet
Sysselsättningsöversikt januari 2015
UTSIKTER JANUARI 2015 NTM-CENTRALEN I ÖSTERBOTTEN Sysselsättningsöversikt januari 2015 Får publiceras 24.2.2015 kl. 9.00 Antalet nya lediga arbetsplatser är fler än för ett år sedan. Andelen utländsk arbetskraft
Vägda medeltal och standardvägning
Linköpings universitet 2000 MAI/Statistik Eva Leander Vägda medeltal och standardvägning Här följer ett antal sidor som behandlar vägda medeltal och standardvägning. Avsnittet om vägda medeltal förbereder
Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering
Matematikcentrum (7) Matematisk Statistik Lunds Universitet Per-Erik Isberg Laboration Simulering HT 006 Introduktion Syftet med laborationen är dels att vi skall bekanta oss med lite av de olika funktioner
Sysselsättningsöversikt oktober 2014
UTSIKTER AUGUSTI 201 NTM-CENTRALEN I ÖSTERBOTTEN Sysselsättningsöversikt oktober 201 Får publiceras 25.11.201 kl. 9.00 Arbetslösheten ökar nu i Österbotten snabbare än genomsnittligt i hela landet. Ungdomsarbetslösheten
Syfte Syftet med den här laborationen är att du ska lära dig använda några grundfunktioner i Microsoft Excel.
Excel-guide Introduktion I denna laboration kommer ni få använda några grundfunktioner i Microsoft Excel. Laborationen utgår ifrån Excel 2010 och Excel 2013, men om ni vill använda ett annat program för
STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson
1 STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys I (SDA l, beskrivande statistik) 3 högskolepoäng, ingående i kursen Undersökningsmetodik
Hämtning av sekundärdata och introduktion till Excel
Metod och analys, 7.5hp 1 Hämtning av sekundärdata och introduktion till Excel Hämta sekundärdata från SCB Excels utformning Summera rader och kolumner Beräkna kohorter Låsning av celler Kopiera rader
Sysselsättningsöversikt november 2014
UTSIKTER NOVEMBER 2014 NTM-CENTRALEN I ÖSTERBOTTEN Sysselsättningsöversikt november 2014 Får publiceras 23.12.2014 kl. 9.00 Arbetslösheten har ökat med över 15, näst mest i hela landet. Ungdomsarbetslösheten
Laboration med Minitab
MATEMATIK OCH STATISTIK NV1 2005 02 07 UPPSALA UNIVERSITET Matematiska institutionen Silvelyn Zwanzig, Tel. 471 31 84 Laboration med Minitab I denna laboration skall du få stifta bekantskap med ett statistiskt
Introduktion till statistik för statsvetare
Olika figurer Stockholms universitet September 2011 Olika typer av data Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata Med data menar vi jämförbara
LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg
LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg Simulering i MINITAB Det finns goda möjligheter att utföra olika typer av simuleringar i Minitab. Gemensamt för dessa är att man börjar
Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018
Kvantitativa metoder en introduktion Mikael Nygård, Åbo Akademi, vt 2018 Vad är kvantitativ metod? Kvantitativa (siffermässiga) analyser av verkligheten: beskrivning och förklaringar av fenomen i fokus!
Excel-guide. Introduktion
Excel-guide Introduktion I denna laboration kommer ni få använda några grundfunktioner i Microsoft Excel. Laborationen utgår ifrån Excel 2010, men om ni vill använda ett annat program för att lösa uppgifterna
ÖVNINGSUPPGIFTER KAPITEL 2
ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?
DATORÖVNING 2: TABELLER OCH STANDARD-
DATORÖVNING 2: TABELLER OCH STANDARD- VÄGNING. I den här datorövningen använder vi Excel för att konstruera pivottabeller, som vi sedan använder för att beräkna standardvägda medeltal. Vi skapar också
FolkhälsoAtlas Labmiljö - en handledning
FolkhälsoAtlas Labmiljö - en handledning Innehåll FolkhälsoAtlas Labmiljö - en handledning... 1 Välkommen!... 2 Kort om olika de olika vyerna... 2 Laborera med färdiga historier... 3 Animering av tidsserier...
Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Torsdagen den 22 mars 2018 TEN1, 9 hp Tillåtna hjälpmedel: Miniräknare