Deskriptiv statistik De enskilda uppgifterna i ett statistiskt material innehåller all tillgänglig information men behöver oftast sammanfattas och förenklas på något sätt. Detta kan göras i form av tabeller, grafiskt eller med hjälp av enskilda karakteristikor, som beskriver data på något sätt. Vilka förfaringssätt som kan användas bestäms av sammanhangen och skaltyperna. Tabeller och diagram Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena. Exempel. Antalet röster per kandidat i presidentvalets första omgång 2000 Kandidat Röster Procent Halonen 1224431 40,0 Aho 1051159 34,4 Uosukainen 392305 12,8 Rehn 241877 7,9 Hautala 100740 3,3 Hakalehto 31405 1,0 Kuisma 16943 0,6 totalt 3058860 100,0 Förutom de absoluta frekvenserna kan man även redovisa den relativa (procentuella) fördelningen. Grafiskt kan fördelningen åskådliggöras t.ex. med ett stapeldiagram. Röstandelar i presidentvalet 2000 Halonen Aho Uosukainen Rehn Hautala Hakalehto Kuisma 0,0 10,0 20,0 30,0 40,0 50,0 Procent I SPSS kan man åstadkomma frekvensfördelningen genom att välja Analyze..Descriptive Statistics...Frequencies
I den nya dialogrutan Frequencies markerar man sedan vilka variabler man vill analysera och flyttar dem över till Variable(s): - rutan I SPSS utskrivs förutom de absoluta frekvenserna dessutom automatiskt den procentuella, samt den kumulativa fördelningen. Ex Hushållsstorleken hos personer i åldern 29-31 år år 1999. Observera att i tabellen anges som Missing sådana personer som inte tillhörde något hushåll, dvs huvudsakligen institutionsboende. hushållets storle k Valid Missing Total 1person 2 personer 3 personer 4 personer 5 personer 6 personer 7 personer 8 personer minst 9 personer Total personen tillhör ej hushåll Cumulative Frequency Percent Valid Percent Percent 1256 19,3 19,8 19,8 1724 26,5 27,2 47,0 1476 22,7 23,3 70,3 1256 19,3 19,8 90,2 393 6,0 6,2 96,4 121 1,9 1,9 98,3 63 1,0 1,0 99,3 34,5,5 99,8 13,2,2 100,0 6336 97,5 100,0 165 2,5 6501 100,0 I dialogrutan Frequencies kan man under knappen Statistics välja om man önskar ytterligare utskrift. Vi återkommer till detta längre fram.
Percent Frequency Av sammanlagt 6501 personer levde 6336 i hushåll. Av dessa levde 1256 ensamma och 1724 tillsammans med en annan person, vilket utgjorde 19,8 % resp. 27,2 % av alla hushåll. Av den kumulativa procentandelen framgår att 70,3 % levde i hushåll med högst 3 personer. Grafiskt kan en frekvensfördelning av detta slag lämpligen redovisas med hjälp av ett stapeldiagram. Skalan på den lodräta axeln kan då anges antingen i absoluta eller relativa tal. 2000 hushållets storlek 1000 0 1person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets storlek 30 hushållets storlek 20 10 0 1person 3 personer 5 personer 7 personer minst 9 personer 2 personer 4 personer 6 personer 8 personer hushållets storlek De diagram som SPSS producerar skall främst betraktas som analysinstrument. Ifall man skall använda figurerna i en text bör de som regel redigeras eller framställas med något annat program.
För att med hjälp av SPSS åstadkomma ett stapeldiagram kan man från meny Graphs välja Bar, därefter i följande fönster ange Simple och Define, och slutligen i det sista fönstret välja vilken variabel som skall studeras, välja om man vill ange skalan i absoluta eller relativa tal Stapeldiagrammen kan också åstadkommas direkt i samband med att man tar fram frekvensfördelningen genom att man i dialogrutan Frequencies (Analyze... Descriptive Statistics...Frequencies) väljer Chart, för att i nästa fönster välja Bar charts. En annan diagramtyp för att illustrera den relativa fördelningen är cirkeldiagram. I exemplen nedan jämförs fördelningen efter i vilket livscykelskede 29-31 åriga kvinnor och män befann sig år 1999. Cirkeldiagrammen kan förefalla tilltalande, men deras informationsvärde är som regel rätt begränsat.
Cirkeldiagrammen skapas på likartat sätt som stapeldiagrammen, så att man i stället för Bar charts väljer Pie charts. livsskede kvinnor bor med föräldrar tidigare gif t 13,0% 3,1% bor ensam 19,1% gif t 39,9% samboende 24,9% män tidigare gif t 5,1% gif t 33,4% bor med f öräldrar 8,7% bor ensam 27,2% samboende 25,7% Ifall man önskade jämföra de båda fördelningarna kunde ett bättre alternativ vara att använda stapeldiagram och sammanföra dessa i en figur enligt följande I dialogrutan Bar Charts väljs nu Clustered varefter knappen Define öppnar den dialogruta där variablerna kan anges. På den horisontella axeln (Category Axis) väljs i detta fall variabeln livsskede och i rutan Define Clusters by anges variabeln kön
Percent Resultatet blir då följande figur 50 40 30 20 10 kön man 0 bor med f öräldrar bor ens am samboende gif t tidigare gif t kv inna livsskede Ovanstående figur är egentligen en grafisk representation av en korstabell, där vi samtidigt studerar fördelningen för två kvalitativa variabler. En korstabell eller kontingenstabell är således en tvådimensionell frekvensfördelningstabell. Liksom i det endimensionella fallet kan man göra redovisningen i relativa tal (procent), där procenttalen antingen beräknas för hela tabellen eller rad eller kolumnvis. Vad som väljs beror givetvis på vilka jämförelser man vill företa.
Count kön Total man kvinna kön * livsskede Crosstabulation livs skede bor med föräldrar bor ens am samboende gift tidigare gift Total 276 867 818 1063 162 3186 104 633 824 1322 429 3312 380 1500 1642 2385 591 6498 Ifall man vill jämföra och illustrera olikheterna mellan könen räknar man den relativa fördelningen radvis kön * livsskede Crosstabulation kön Total man kvinna Count % within kön Count % within kön Count % within kön livsskede bor med föräldrar bor ensam samboende gift tidigare gift Total 276 867 818 1063 162 3186 8,7% 27,2% 25,7% 33,4% 5,1% 100,0% 104 633 824 1322 429 3312 3,1% 19,1% 24,9% 39,9% 13,0% 100,0% 380 1500 1642 2385 591 6498 5,8% 23,1% 25,3% 36,7% 9,1% 100,0% Om man däremot (av någon anledning) skulle vara intresserad av hur könsfördelningen varierar mellan de olika kategorierna av livsskedesvariabeln skulle man erhålla följande tabell kön * livsskede Crosstabulation kön Total man kvinna Count % within livsskede Count % within livsskede Count % within livsskede livsskede bor med föräldrar bor ensam samboende gift tidigare gift Total 276 867 818 1063 162 3186 72,6% 57,8% 49,8% 44,6% 27,4% 49,0% 104 633 824 1322 429 3312 27,4% 42,2% 50,2% 55,4% 72,6% 51,0% 380 1500 1642 2385 591 6498 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Korstabeller åstadkoms i SPSS genom att man från menyn Analyze väljer Descriptive -> Crosstabs, varefter man i den följande rutan anger rad- respektive kolumnvariabeln. Under knappen Cells fås en dialogruta där man kan ange om procentuella fördelningar skall uträknas
Exemplet ovan producerar den sista av tabellerna, där de relativa fördelningarna redovisas kolumnvis. För en kontinuerlig variabel är varken frekvenstabeller eller stapeldiagram lämpliga eftersom antalet unika variabelvärden som regel är stort. Ifall man vill redovisa kontinuerliga uppgifter i tabellform bör man därför indela materialet i klasser. I exemplet nedan redovisas ÅAstuderandes samlade studieveckor efter 10 terminers studier Studieveckor Antal 0-19,5 64 20-39,5 90 40-59,5 117 60-79,5 150 80-99,5 215 100-119,5 373 120-139,5 640 140-159,5 613 160-179,5 437 180-199,5 169 200-219,5 56 220-239,5 17 240-11 2952
Antalet klasser, och klassbredden kan väljas fritt och är delvis beroende av antalet observationer och fördelningens utseende. Rent praktiskt kan klassindelningen utföras genom en omkodning av den ursprungliga variabeln. För att erhålla en uppfattning om fördelningen kan man grafiskt granska denna med ett s.k. histogram, som är den kontinuerliga varianten av ett stapeldiagram. 400 300 200 100 0 Std. Dev = 44,40 Mean = 128,4 N = 2952,00 STUVEC10 320,0 300,0 280,0 260,0 240,0 220,0 200,0 180,0 160,0 140,0 120,0 100,0 80,0 60,0 40,0 20,0 0,0 Genom att dubbelklicka på figuren öppnas en dialogruta, där man sedan kan ändra antalet klasser och klassbredden. I den nya dialogrutan kan man antingen dubbelklicka på den horisontella axelns skala eller välja Chart..Axis.. Interval för att öppna fönstret Interval Axis, där man sedan väljer Custom (Intervals) och Define för att få fram det fönster där antalet intervall eller klassbredden kan anges.
Om man i det aktuella exemplet klickar för Interval width och anger bredden till 20, samt ändrar minimi- och maximivärdena till 0 respektive 340 erhålles följande figur 700 600 500 400 300 200 100 Std. Dev = 44,40 Mean = 128,4 0 N = 2952,00 10,0 50,0 90,0 130,0 170,0 210,0 250,0 290,0 330,0 STUVEC10 I ett histogram representerar ytan av de olika rektanglarna frekvenserna. I SPSS kan man enbart använda samma klassbredd i alla klasser, men ifall man använder något annat hjälpmedel eller ritar för hand, bör man således beakta detta. Ifall man t.ex. slår ihop två klasser, blir höjden på rektangeln inte den totala frekvensen utan medeltalet för de båda klasserna.
Läges- och spridningsmått En statistisk karakteristika är ett mått (tal) som på något sätt sammanfattar eller karakteriserar en variabels fördelning. De vanligaste utgörs av läges- och spridningsmått. Lägesmåtten anger de mest typiska värdena eller variabelns tyngdpunkt, medan spridningsmåtten anger hur koncentrerade värdena är. Läges- eller centralmått På nominalskalan kan man bestämma enbart typvärdet (moden), dvs. den klass som har den högsta frekvensen. Denna skaltyp har inget verdertaget spridningsmått, men man kan ange typvärdesprocenten, dvs. hur stor andel typvärdet utgör av alla observationer. Ex. Vi observerar huvudämnet (sp: socialpolitik, psyk: utv.psykologi, sk: statskunskap) för 15 studenter enligt följande: Sp, sp, sp, sp, sp, psyk, psyk, psyk, sk, sk, sk, sk, sk, sk, sk. Moden är här statskunskap, och 7/15 = 0.467 (46,7 %) har detta värde. På ordinalskalan kan man i tillägg till typvärdet även bestämma medianen, som utgörs av den mittersta observationen när observationerna rangordnats. Ex. Vi observerar modersmålsvitsordet i studentexamen för 19 studenter och rangordnar dessa med följande resultat: b, b, b, c, c, c, c, c, c, m, m, m, m, e, e, e, e, l, l Den mittersta (i detta fall 10:e observationen) är således vitsordet m. Ifall antalet observationer är jämnt, och värdena för det två mittersta observationerna är olika kan medianen inte fastställas entydligt. Ex. Ifall vi skulle ha ytterligare en student med vitsordet c, skulle den 10:e observationen vara ett c, och den 11:e ett m. I SPSS kan man erhålla typvärdet och medianen genom att via Statistics knappen i dialogrutan Frequencies ange att man vill ha dessa på utskriften. Percentiler och kvartiler Medianen är alltså det tal för vilket det gäller att hälften eller 50 % av observationerna är mindre än talet. På motsvarande sätt kan man även ange punkter för andra procenttal, s.k. percentiler. Vanliga proportioner är då t.ex. 10 %, 20 % osv. 25 %-, och 75 %-percentilerna brukar dessutom kallas första respektive tredje kvartilen. Dessa betecknas ofta Q 1 och Q 3. Medianen kan också kallas andra kvartilen. Percentilerna kan bestämmas i SPSS på samma sätt som de övriga lägesmåtten, dvs. via Analyze...Frequencis...Statistics. För variabler mätta på intervall- eller kvotskala kan man beräkna medelvärdet. Detta erhålls genom att man dividerar summan av alla observationsvärden med antalet observationer. I SPSS får man fram medelvärdet på samma sätt som typvärdet och medianen. Observera att SPSS inte tänker själv, utan gör vad du säger. Det innebär att programmet räknar
medelvärde även för nominal- och ordinalskalevariabler ifall de är kodade med numeriska siffror. Eftersom framställningen i några fall underlättas av att man använder formella uttryck introduceras följande beteckningar Låt x i beteckna observationsvärdet på en variabel x för individ i, och anta att vi observerar n individer. Summan av alla observationsvärden x 1 + x 2 +x 3 betecknas då Detta innebär att medelvärdet för variabeln x, som vanligen betecknas beräknas enligt följande formellt Ifall man har ett klassindelat material kan man approximera medelvärdet genom att tilldela alla observationer i en klass klassmitten som värde. I det tidigare exemplet kan vi beräkna det genomsnittliga antalet studieveckor enligt följande: Studieveckor Klassmitt (m) Antal (f) f * m 0-19,5 10 64 640 20-39,5 30 90 2700 40-59,5 50 117 5850 60-79,5 70 150 10500 80-99,5 90 215 19350 100-119,5 110 373 41030 120-139,5 130 640 83200 140-159,5 150 613 91950 160-179,5 170 437 74290 180-199,5 190 169 32110 200-219,5 210 56 11760 220-239,5 230 17 3910 240-250 11 2750 2952 380040 Medelvärdet blir då 380040/2952 = 128,7. (Som jämförelse kan nämnas att medelvärdet beräknat på det ursprungliga materialet är 130,8.)
Jämförelse av centralmåtten Medelvärdet är det vanligast använda centralmåttet och det har en avsevärd fördel framom de övriga i att det har goda statistiska egenskaper. Det kan därför med fördel oftast användas om man har en intervall- eller kvotskalevariabel. Problem uppstår egentligen enbart om man har att göra med mycket sneda fördelningar eller om det finns s.k. out-liers. Exempel. Vinstfördelningen i Lotto (omgångarna 44 och 45, 2004) Omgång 44 Omgång 45 Antal vinster Vinst Antal vinster Vinst 7 rätt 0 0 1 5668697,30 6 + tilläggsnr 19 17849,30 24 19420,30 6 rätt 174 2018,60 308 1567,30 5 rätt 10400 52,40 15901 47,10 4 rätt 190348 12,00 267143 11,70 Totalt 200941 283377 Median 12,00 11,70 Typvärde 12,00 11,70 Medeltal 17,52 37,02 Medelvärdet avviker avsevärt från de andra centralmåtten, och är mycket känsligt för ytterlighetsvärden. Notera att fastän utdelningen för 4,5 eller 6 rätt, dvs för 99,99 % av alla vinstrader var lägre under omgång 45, var den genomsnittliga vinsten mer än dubbelt så stor som i omgång 44. Konklusionen är att i ett fall som detta är det egentligen meningslöst att försöka sammanfatta uppgifterna med hjälp av centralmått. Observera att för en kontinuerlig variabel blir typvärdet oftast meningslöst, eftersom varje enskilt observationsvärde oftast har frekvensen 1. I detta fall är det vettigare att tala om typvärdesklass, dvs. den klass som har den högsta frekvensen efter en klassindelning. Spridningsmått För nominal- och ordinalskalevariabler saknar spridningsmått egentlig mening, även om modalprocenten, dvs. hur stor andel av observationerna som har typvärdet kan betraktas som ett slags spridningsmått. Det avgjort viktigaste spridningsmåttet på intervall- och kvotskalan är standardavvikelsen (s). Detta mått kan uppfattas som ett slags genomsnitt på variabelvärdenas avvikelse från medelvärdet. Den formella definitionen är Detta innebär att den kvadrerade standardavvikelsen, alltså s 2, som kallas variansen, är medelvärdet av de kvadrerade avvikelserna från medelvärdet (eller rättare sagt nästan eftersom man dividerar med n-1 i stället för n). I SPSS får man fram standardavvikelsen på
samma sätt som lägesmåtten, dvs under Statistics i Frequencies-rutan markerar man Standard deviation. Eftersom standardavvikelsens värde är beroende av observationernas absoluta värde kan man inte direkt avgöra vad som skall anses vara en stor eller liten spridning. Det som man däremot kan ta som en tumregel är att om man går två standardavvikelser åt vardera hållet från medelvärden får man med ungefär 95 % av alla observationer. Ex. Beräkning av standardavvikelsen för ett klassindelat material Det går numera t.ex. med hjälp av Excel enkelt att beräkna standardavvikelsen, och detta skall illustreras för det tidigare exemplet med antalet studieveckor. Eftersom materialet är klassindelat måste formeln modifieras något så att x j betecknar klassmitten i klass j och k anger det totala antalet klasser. Klassmitt x j f j x j* f j f j ( x j x) 10 64 640 902345,5 30 90 2700 877460 50 117 5850 725395,6 70 150 10500 517555,3 90 215 19350 322666,6 110 373 41030 130990,7 130 640 83200 1016,326 150 613 91950 277072,6 170 437 74290 743949,2 190 169 32110 634224,5 210 56 11760 369780 230 17 3910 174311,5 250 11 2750 161744,3 n= 2952 =380040 =5838512 x =128,7398 s 2 =5838512/2951= 1978,486 s= 44,48018 Standardavvikelsen är således 44,5, vilket innebär att 128,8 89 ger intervallet (39,8-217,8). Vid starkt sneda fördelningar har standardavvikelsen svagheter på motsvarande sätt som det aritmetiska medelvärdet. Standardavvikelsen tenderar i sådana fall att bli onödigt stor. Ett bättre mått kan då vara kvartilavvikelsen som definieras som halva skillnaden mellan tredje och första kvartilen dvs (Q 3 Q 1 )/2.