Lägesmått Det kan ibland räcka med ett lägesmått för att beskriva datamaterial Lägesmåttet kan vara bra att använda då olika datamaterial skall jämföras Vilket lägesmått som skall användas: Typvärde Median Medelvärde 1
Typvärde Mest frekventa värdet Används framförallt vid nominalskala Ex: Linje Antal Kemi 250 typvärdet Ekon 570 Psyk 120 Mate 195 Data 50 2
Typvärde Typvärdet kan även användas som lägesmått vid ordinalskala Ex: Vi har följande tentamensresultat till en klass vid vxu: Resultat Antal MVG 4 typvärdet VG 22 G 60 IG 30 3
När beräknar man typvärdet? Mest vid nominal eller ordinal skala När det vanligaste värdet är av speciellt intresse Lätt att begripa När man utan närmare beräkningar vill ange ett genomsnittmått 4
Medelvärde Summan av alla observationer som sedan divideras med antalet observation Så här kan skrivas i matematiskt formelspråk för både: Populations medelvärd x n i= = 1 n x i 5
Några kommentarer Medelvärdet är mest använda av lägesmåtten Känslig för extrem mätvärden Symmetrisk fördelat material så är de tre lägesmåtten nästan lika Ju snedare materialet blir desto större skillnad på lägesmåtten, figur 1.16 6
Deskriptiv Statistik Hur ska jag organisera min data? Hur ska jag presentera den? Vilket presentationssätt ska jag använda? Tabell eller Diagram? 7
Frekvenstabell eller fördelning Datamaterialet innehåller många värden Först indelar materialet i ömsesidigt uteslutande klasser Beräkna frekvensen i varje klass 8
Frekvensfördelning Ex: Fördelning efter kön i klassen: Kvalitativ variabel Kön Antal Män 7 Kvinnor 5 Totalt 12 Summan av frekvenserna Män har frekvensen Kvinnor har frekvensen I denna undersökning har vi alltså mätt variabeln kön 9
Relativ Frekvens Man kan också redovisa den relativa fördelningen: Den relativa frekvensen visar andelen av observationerna i varje klass som ofta anges i procent. Kön Procent Män 42 Kvinnor 58 Totalt 100 (n=12) 10
Definitioner Klassmitten: Punkten som delar klassen i två lika stora delar. Medelvärdet av övre och undre klassgränsen. Klassfrekvens: Antalet observation i en klass Klassbredd: Övre klassgräns minus nedre klassgräns 11
Några Råd Dela in i lämpligt antal klasser 2 Tips: man beräknar där k: antal klasser, bör vara större än antalet observationer. k 2 k Eller: tumregel: minst ln(n)/ln(2) 2 5 = 32 > 30 n=30,, så förslaget är att ta minst 5 klasser! Ex: Tabell 1.11 och Tabell 1.12. 12
Några Råd Välj samma klassbredd i alla klasser Välj naturliga klassbredder: t.ex. ålderindelning görs i 5- eller 10-årsintervall Bestäm klassbredden: (Högstavärde - Lägsta värde) i = Antal klasser Justera till lämpligt värde, om det blir 9 är nog 10 lämpligare En obs. som hamnar på en klassgräns för vi till närmast övre klass 13
Medelvärde och standardavvikelse för klassindelade materialet Medelvärdet och standardavvikelse kan skrivas så här om man vill beräkna den från en frekvenstabell x där: k i= = 1 f n i y i s = k i= 1 f i ( y i n 1 x) 2 y: klassmitten f: frekvensen för varje klass k: antal klasser Exempel 1.17, sidan 14 14
Histogram (Figur 1.8) Datamaterialet innehåller många olika värden (kontinuerligt) 1. Klassindela materialet 2. Beräkna frekvensen i varje klass 3. För varje klass har vi en rektangel vars area är proportionell mot frekvensen i klassen frekvens 30 25 20 15 10 5 0 k 70 80 90 100 110 120 130 140 150 160 170 180 o tidsgång i sek Kontinuerlig n intervall t 15
antal Stapeldiagram (Bar Chart) Nominal Datamaterial med få olika värden (vanligt vid nominalskala) Representerar antal enheter av varje kategori på en stapel Linje Antal Bars show Means Kemi 250 500,00 Ekon 570 400,00 Psyk 120 Mate 195 Data 50 300,00 200,00 100,00 data ekon kemi mate psyk linje 16
Cirkeldiagram (Pie chart) Datamaterial med få olika värden (vanligt vid nominalskala) Linje Antal Kemi 250 Ekon 570 Psyk 120 linje data ekon kemi mate psyk Pies show Sums of antal Mate 195 Data 50 Bra för att visa relativa frekvenser. Cirkel-bitarna fördelas proportionellt mot relativa frekvensen 17
Vilket och När? Nominalskala: Stapeldiagram eller cirkeldiagram Diskret ordinal skala: Stapeldiagram Kontinuerlig ordinalskala: Histogram, stam-bladdiagram Diskret intervallskala: Stolpdiagram, figur 1.5 (antal defekta) Kontinuerlig intervallskala: Histogram, stam-bladdiagram Kvotskala: som intervallskala 18
Explorativ dataanalys (EDA) Ytterligare sätt att åskådliggöra data Stam-bladdiagram Box-plot 19
Stam-bladdiagram (Steam and Leaf) Ett sätt för att visa data. Varje tal delas i två delar: Siffror till vänster i talet bildar stam och de till höger blad Antar att vi har följande datamaterial: 150 159 155 148 175 153 151 146 168 153 138 161 164 157 146 148 143 Diagrammets stam 13 14 15 16 17 8 86683 9501337 814 5 Diagrammets blad Ex: exempel 1.19, sid. 26 20
Lådagram (Box plot) Ett grafiskt sätt att sammanfatta datamaterialet med hjälp av: min, max, kvartiler och median Dessa mått ger tillsammans en överblick av både läge och spridning Den lämpar sig bra när man vill jämföra två datamaterial med varandra Lådans vänsterkant är första kvartilen och dess högerkant tredje kvartilen. I lådan finns också medianen markerad Lådans längd motsvaras av kvartilavståndet, dvs lådan innehåller 50% av observationerna 21
Lådagram (Box plot) Outlier Minsta punkten inom inre staketet Största punkten inom inre staketet Misstänkt outlier o X X * Yttre stängslen Q 1-3(Q) Inre stängslen Q 1-1.5(Q) Q Median 1 Q 3 Inre Yttre stängslen stängslen Kvartilavstånd Q 3 +1.5(Q) Q 3 +3(Q) 22
Relationen mellan medelvärde och standardavvikelse Tjebysjevs olikhet Fungerar för alla fördelnigar oberoende av form Anger gränser runt medelvärdet inom vilka en viss % av observationerna finns med hjälp av standardavvikelsen 23
Tjebysjevs olikhet Minst 1 1 k 2 av observationerna från någon fördelning ligger inom k standard avvikelser från medelvärdet 1 1 3 1 2 = 1 = = 2 4 4 75% 2 Minst 1 1 8 1 2 = 1 = = 3 9 9 89% Ligger inom 3 sd från medelvärdet 1 1 15 1 2 = 1 = = 4 16 16 94% 4 24