Föreläsning 4 Beskrivande statistik

Relevanta dokument
Föreläsning 4: Beskrivande statistik

Föreläsning 4: Beskrivande statistik

Föreläsning 3 och 4: Att beskriva

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 3 och 4: Att beskriva

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

2 Dataanalys och beskrivande statistik

Statistiska undersökningar

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Föreläsning G70 Statistik A

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

ÖVNINGSUPPGIFTER KAPITEL 2

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Medelvärde, median och standardavvikelse

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Föreläsning 5: Att generalisera

Föreläsning 5: Att generalisera

ÖVNINGSUPPGIFTER KAPITEL 2

13.1 Matematisk statistik

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Arvodesenkät. Resultat Egenföretagare.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Statistikens grunder HT, dagtid Statistiska institutionen

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Beskrivande statistik

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

EXAMINATION KVANTITATIV METOD vt-11 (110204)

HÖGSKOLAN I BORÅS. FORSKNINGSMETODER I OFFENTLIG FÖRVALTNING 15 Högskolepoäng

2016, Arbetslösa samt arbetslösa i program i GR i åldrarna år

Tentamen Metod C vid Uppsala universitet, , kl

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Att välja statistisk metod

Valresultat Riksdagen 2018

Lektionsanteckningar 11-12: Normalfördelningen

En typisk medianmorot

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Preliminär elmarknadsstatistik per månad för Sverige 2014

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

antal miljoner 3,0 2,5 2,0 1,5 1,0 0,5

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

732G01/732G40 Grundläggande statistik (7.5hp)

Forskningsmetodik 2006 lektion 2

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Hypotestestning och repetition

Statistik och epidemiologi T5

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Studieplanering till Kurs 2b Grön lärobok

Bearbetning och Presentation

Statistik Termin 10, Läkarprogrammet, HT16

Introduktion till statistik för statsvetare

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Lärandemål. Lärandemål forts.

Kvantitativ strategi viktiga begrepp II. Wieland Wermke

Fråga nr a b c d 2 D

Tal Räknelagar Prioriteringsregler

Förra gången (F4-F5)

Preliminär elmarknadsstatistik per månad för Sverige 2014

2.1 Minitab-introduktion

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Beskrivande statistik

Moment 4: Metoder för dataanalys 4. 1 Statistisk analys

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

KARTDESIGN - PRINCIPER OCH METODER. Ana Gil Solá, Fil. Lic. & doktorand Institutionen för kulturgeografi och ekonomisk geografi

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Läs noggrant informationen nedan innan du börjar skriva tentamen

Lokala mål i matematik

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Medicinsk statistik I

EXAMINATION KVANTITATIV METOD vt-11 (110319)

MVE051/MSG Föreläsning 7

Föreläsning 10, del 1: Icke-linjära samband och outliers

Repetition av matematik inför kurs i statistik 1-10 p.

Vetenskaplig metod och Statistik

Transkript:

Föreläsning 4 Pär Nyman par.nyman@statsvet.uu.se 4 september 2015-1 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. Matematiken är aldrig det viktiga. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. Matematiken är aldrig det viktiga. Det mesta bör vara repetition av sådant ni lärt er på gymnasiet. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. Matematiken är aldrig det viktiga. Det mesta bör vara repetition av sådant ni lärt er på gymnasiet. De flesta lär sig bäst i lugn och ro med en kompis. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. Matematiken är aldrig det viktiga. Det mesta bör vara repetition av sådant ni lärt er på gymnasiet. De flesta lär sig bäst i lugn och ro med en kompis. Frivilliga räkneövningar på Studentportalen. - 2 -

Introduktion Presentation av mig och dagens föreläsningar Doktorand sedan 2010, bakgrund som ekonom, forskning med fokus på finanspolitik och väljarbeteende. Försök inte skriva ut mina slides. En del matematik idag. Det är inte en matematikkurs. Matematiken är aldrig det viktiga. Det mesta bör vara repetition av sådant ni lärt er på gymnasiet. De flesta lär sig bäst i lugn och ro med en kompis. Frivilliga räkneövningar på Studentportalen. Frågor? - 2 -

Dagens två föreläsningar motsvarar kapitlen Att beskriva och Att generalisera i T&S. Beskrivningar utgör fundamentet i samhällsvetenskapen. Strukturerar verkligheten och ger den mening. Goda är en förutsättning för bra förklaringar. Men mycket av det jag kommer prata om är lika viktigt vid förklarande som vid beskrivande studier. - 3 -

Att beskriva handlar om att reducera information. Kristdemokraternas alla medlemmar, motioner och program reduceras till kategorin socialkonservativt parti. Sådana kategorier behandlade Linda på sin föreläsning. Idag ska vi prata om hur vi reducerar information med hjälp av. Rysslands komplexa politiska process blir en åtta på en tiogradig demokratiskala. Prisutvecklingen under 2012 på alla varor i Sverige beskrivs med en inflation på 0,9 procent. - 4 -

Disposition för förmiddagen 1 2 3 4 5 6-5 -

anger hur en variabels variabelvärden förhåller sig till varandra. Skalnivån avgör vilken typ av analyser vi kan göra med en variabel. Jag kommer att prata om fyra skalnivåer: nominalskala, ordinalskala, intervallskala och kvotskala. Teorell och Svensson behandlar intervallskala och kvotskala som samma. Ni gör som ni vill. - 6 -

Nominalskala Innebär att vi inte kan rangordna variabelvärdena. Artskillnader och inte gradskillnader. Kallas ibland för kvalitativa eller kategoriska variabler. Yrke, inriktning på en utbildning och arbetsmarknadsstatus. - 7 -

Ordinalskala Vi kan rangordna variabelvärdena men inte bedöma avståndet emellan dem. Utbildningsnivå och svaren på många enkätfrågor. - 8 -

Intervallskala Vi kan rangordna värdena och vet dessutom avståndet emellan dem. Däremot har skalan ingen absolut nollpunkt. Vi kan därför inte prata om relativa skillnader ( dubbelt så mycket ). Temperatur i grader Celsius samt datum och årtal. Mer intressant: intervallskaleliknande variabler. - 9 -

Kvotskala Vi kan rangordna och avståndsbedöma. Dessutom har skalan en absolut nollpunkt. Vi kan därför prata om relativa skillnader. Detta betyder inte att variabeln inte kan anta negativa värden. Det handlar om att noll betyder frånvaro av något i en absolut mening. Längd, tid, arbetslöshet, antal, andelar. Temperatur i kelvin. - 10 -

De fyra skalnivåerna Skalnivå Nominalskala Ordinalskala Intervallskala Kvotskala Egenskaper och exempel på variabler Kan ej rangordnas Kön, yrke, favoritfilm Kan rangordnas men ej avståndsbedömas Utbildningsnivå, många enkätfrågor Ekvidistans men saknar absolut nollpunkt Temperatur i Celsius, årtal Ekvidistans och har absolut nollpunkt Alla antal och andelar - 11 -

En datamatris Kön Utbildningsnivå Födelseår Inkomst Kvinna Kandidat 1991 15 200 Man Master 1988 23 100 Man Gymnasial 1981 11 500 Kvinna Magister 1989 14 300 Man Gymnasial 1992 21 900 Kvinna Kandidat 1989 28 000 Kvinna Magister 1990 18 500 Kvinna Gymnasial 1984 22 300 Man Gymnasial 1992 12 300 Man Gymnasial 1993 17 400-12 -

Samma datamatris kan se ut såhär Kön Utbildningsnivå Födelseår Inkomst 1 2 1991 15 200 0 4 1988 23 100 0 1 1981 11 500 1 3 1989 14 300 0 1 1992 21 900 1 2 1989 28 000 1 3 1990 18 500 1 1 1984 22 300 0 1 1992 12 300 0 1 1993 17 400-13 -

Dummyvariabler En variabel som bara kan anta två olika värden brukar kallas för dummyvariabel, binär variabel eller dikotom variabel. Kringgår problemen med skalnivå genom att de bara har ett skalsteg vi behöver inte anta att stegen är lika stora! Det finns både naturliga dikotomier och transformerade kategoriska variabler. - 14 -

Dummyvariabler Dela upp en kategorisk variabel i dummyvariabler Facktillhörighet LO-medlem TCO-medlem SACO-medlem Annat/Osäker Ej medlem LO TCO SACO Annat 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0-15 -

De flesta statistiska metoder vi använder förutsätter att vissa antaganden är sanna, för att metoden ska ge helt korrekta resultat och erbjuda vissa statistiska egenskaper. Som forskare nöjer vi oss ofta med att antagandet är tillräckligt nära verkligheten för att inte snedvrida resultaten alldeles för mycket. Viktigt att fundera på hur resultaten snedvrids om antagandet inte stämmer. Över- eller underdriver vi resultaten? God forskningstradition: Motivera och testa antaganden samt redovisa resultat för alternativa antaganden. - 16 -

Kom ihåg: handlar om att reducera information. smått. smått. - 17 -

smått Typvärdet är det oftast förekommande värdet. Medianen är det mittersta värdet. Medelvärde är samma sak som genomsnitt och beräknas som summan av samtliga värden genom antalet observationer. - 18 -

smått Amerikanska presidenters tid som president President År som president John F. Kennedy 3 Lyndon B. Johnson 5 Richard Nixon 5 Gerald Ford 3 Jimmy Carter 4 Ronald Reagan 8 George H.W. Bush 4 Bill Clinton 8 George W. Bush 8 Barrack Obama 7-19 -

smått 3 3 4 4 5 5 7 8 8 8-20 -

smått Typvärde = 8. 3 3 4 4 5 5 7 8 8 8-20 -

smått Typvärde = 8. Median = 5. 3 3 4 4 5 5 7 8 8 8-20 -

smått 3 3 4 4 5 5 7 8 8 8 Typvärde = 8. Median = 5. Medelvärde = 5.5. - 20 -

smått Procent 0 10 20 40 0 5 10 20 Medelvärde = 10, standardavvikelse = 1-21 -

smått Procent 0 10 20 40 0 5 10 20 Medelvärde = 10, standardavvikelse = 2-21 -

smått Det finns flera anledningar till varför vi intresserar oss för spridningen i en fördelning. en kan vara av intresse i sig, som när vi studerar ett lands inkomstskillnader eller hur polariserade människors uppfattningar är. Vi måste känna till spridningen för att få en bra idé om hur vanliga olika värden är. en avgör hur osäkra våra skattningar blir när vi använder ett urval för att uttala oss om en hel population. - 22 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. - 23 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. Lägst inkomst Högst inkomst - 23 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. 50e percentilen (p50) 50 procent 50 procent - 23 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. 25e percentilen (p25) 25 procent 75 procent - 23 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. = Första kvartilen 25 procent 75 procent - 23 -

smått Ett sätt att beskriva spridningen i ett datamaterial är att ordna alla värden från lägst till högst och sedan ange värden från olika delar av fördelningen. Observationen som har ett högre värde än exakt x procent av alla observationer kallas för percentil x. p10 p75 p95-23 -

smått Disponibel inkomst per konsumtionsenhet Percentil Inkomst P05 93 400 P10 117 200 P25 156 400 P50 217 200 P75 292 700 P90 387 500 P95 475 900 Nionde kvartilen Not: Inkl. kapitalvinster, 2013-24 -

smått Disponibel inkomst per konsumtionsenhet Percentil Inkomst P05 93 400 P10 117 200 P25 156 400 Första kvartilen P50 217 200 Andra kvartilen P75 292 700 Tredje kvartilen P90 387 500 P95 475 900 Nionde kvartilen Not: Inkl. kapitalvinster, 2013-24 -

smått p10 p75 p95 117 200 292 700 475 900-25 -

smått Även detta kan vara för omfattande om vi vill jämföra ett stort antal länder eller förändring över tid. Vi sammanfattar gärna spridningen i ett mått. Valet av spridningsmått beror på flera saker. Absoluta eller relativa skillnader. Hur stor vikt olika delar av fördelningen ska ha. Statistiska egenskaper vi inte går in på här. - 26 -

smått Absoluta och relativa spridningsmått Valet av spridningsmått beror bland annat på om vi intresserar oss för absoluta eller relativa skillnader. Lisa tjänar 1000 kr mer än Kalle är ett exempel på en absolut skillnad. Lisa tjänar 10 procent mer än Kalle är ett exempel på en relativ skillnad. - 27 -

smått Absoluta spridningsmått Anger spridningen i samma enhet som variabeln är mätt. en ökar (minskar) om alla värden får samma relativa ökning (minskning). en är stabil om alla värden får samma absoluta förändring. De vanligaste måtten förutsätter intervallskala. - 28 -

smått Relativa spridningsmått Saknar enhet men kan ofta uttryckas som procent. en är stabil vid relativa förändringar. en minskar (ökar) om alla värden får samma absoluta ökning (minskning). Förutsätter kvotskala. - 29 -

smått Jag kommer att prata om två absoluta och två relativa spridningsmått. Absoluta spridningsmått Percentilavstånd Standardavvikelse Relativa spridningsmått Percentilkvot Variationskoefficient - 30 -

smått Percentilavståndet anger den absoluta skillnaden mellan två percentiler. Det vanligaste percentilavståndet är p75 p25. Detta mått kallas även kvartilavståndet. En viktig egenskap är att det är okänsligt för extremvärden. Variationsbredden (max min) är också en typ av percentilavstånd (p100 p0). Mycket känsligt för extremvärden. - 31 -

smått Percentilavstånd p75 p25 = 292700 156400 = 136300kr Percentil Inkomst P05 93 400 P10 117 200 P25 156 400 P50 217 200 P75 292 700 P90 387 500 P95 475 900 Not: Inkl. kapitalvinster, 2013-32 -

s grafer Kvartilavstånd 1991 2013 Kronor 120 000 100 000 80 000 60 000 40 000 20 000 0 1995 2000 2005 2010-33 -

smått Percentilkvoter anger den relativa skillnaden mellan två percentiler. Vanligt i inkomst- och löne. p90/p10 och p90/p50 är två vanliga percentilkvoter. - 34 -

smått Percentilkvot p90/p50 = 387500/217200 = 1.78. Percentil Inkomst P05 93 400 P10 117 200 P25 156 400 P50 217 200 P75 292 700 P90 387 500 P95 475 900 Not: Inkl. kapitalvinster, 2013-35 -

smått Percentilkvoter 1991 2013 3 Kvot 2 1 p90/p10 p90/p50 0 1995 2000 2005 2010-36 -

smått Standardavvikelsen Det viktigaste spridningsmåttet är standardavvikelsen. Anger den typiska avvikelsen från medelvärdet. Innehåller information om alla observationer och är därför omständligt att beräkna manuellt. - 37 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1-38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 x i är värdet på variabeln x för observation i. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 x i är värdet på variabeln x för observation i. x är medelvärdet för samma variabel. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 x i är värdet på variabeln x för observation i. x är medelvärdet för samma variabel. n är antalet observationer. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 x i är värdet på variabeln x för observation i. x är medelvärdet för samma variabel. n är antalet observationer. ni=1 är ett summatecken och betyder att vi summerar allt som står till höger om summatecknet från den första observationen (i = 1) till den sista (i = n). - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 x i är värdet på variabeln x för observation i. x är medelvärdet för samma variabel. n är antalet observationer. ni=1 är ett summatecken och betyder att vi summerar allt som står till höger om summatecknet från den första observationen (i = 1) till den sista (i = n). När man löser ut ekvationer börjar man alltid med parenteser. Därefter beräknas multiplikation och division följt av addition och subtraktion, en sida av bråkstrecket i taget. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 1 Beräkna avvikelsen mellan varje observation (x i ) och medelvärdet ( x). - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 1 Beräkna avvikelsen mellan varje observation (x i ) och medelvärdet ( x). 2 Kvadrera dessa avvikelser. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 1 Beräkna avvikelsen mellan varje observation (x i ) och medelvärdet ( x). 2 Kvadrera dessa avvikelser. 3 Summera de kvadrerade avvikelserna. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 1 Beräkna avvikelsen mellan varje observation (x i ) och medelvärdet ( x). 2 Kvadrera dessa avvikelser. 3 Summera de kvadrerade avvikelserna. 4 Dividera med antalet observationer (n) minus ett. - 38 -

smått Beräkna en standardavvikelse s = n i=1 (x i x) 2 n 1 1 Beräkna avvikelsen mellan varje observation (x i ) och medelvärdet ( x). 2 Kvadrera dessa avvikelser. 3 Summera de kvadrerade avvikelserna. 4 Dividera med antalet observationer (n) minus ett. 5 Dra kvadratroten ur kvoten du just beräknade. - 38 -

smått President År som president x x (x x) 2 John F. Kennedy 3-2.5 6.25 Lyndon B. Johnson 5-0.5 0.25 Richard Nixon 5-0.5 0.25 Gerald Ford 3-2.5 6.25 Jimmy Carter 4-1.5 2.25 Ronald Reagan 8 2.5 6.25 George H.W. Bush 4-1.5 2.25 Bill Clinton 8 2.5 6.25 George W. Bush 8 2.5 6.25 Barrack Obama 7 1.5 2.25 Summa 55 0 38.5 s = n i=1 (x i x) 2 n 1 = 38.5 9 = 4.28 = 2.07. - 39 -

smått Variationskoefficienten Den relativa motsvarigheten till standardavvikelsen är variationskoefficienten. Beräknas som standardavvikelsen genom medelvärdet. Variationskoefficienten för presidenternas tid vid makten var 0.38 (2.07/5.5). Kan uttryckas som att standardavvikelsen var 38 procent av medelvärdet. - 40 -

smått Rekommendationer Följ konventioner vid val av spridningsmått. I brist på konventioner, fundera på om absolut eller relativ spridning är mest relevant. Använd standardavvikelsen om ni inte har goda skäl att använda ett annat mått. Om en skala har ändpunkter är de absoluta skillnaderna ofta små i närheten av ändpunkterna. - 41 -

, centralitets- och spridningsmått Nominal Ordinal Intervall Kvot smått Typvärde x x x x Median x x x Medelvärde x x smått Percentilavstånd x x Percentilkvot x Standardavvikelse x x Variationskoefficient x - 42 -

Har Sverige en hög arbetslöshet? - 43 -

Har Sverige en hög arbetslöshet? Är Kambodja en demokrati? - 43 -

Har Sverige en hög arbetslöshet? Är Kambodja en demokrati? Hur bra är Uppsala universitet? - 43 -

Har Sverige en hög arbetslöshet? Är Kambodja en demokrati? Hur bra är Uppsala universitet? Det räcker inte med att mäta. Vi måste jämföra! - 43 -

Har Sverige en hög arbetslöshet? Är Kambodja en demokrati? Hur bra är Uppsala universitet? Det räcker inte med att mäta. Vi måste jämföra! Lika viktigt för intensiva som för extensiva studier. - 43 -

Har Sverige en hög arbetslöshet? Är Kambodja en demokrati? Hur bra är Uppsala universitet? Det räcker inte med att mäta. Vi måste jämföra! Lika viktigt för intensiva som för extensiva studier. Esaiasson m.fl. föreslår tre strategier. - 43 -

Förändringsstrategin Jämför med andra tidpunkter. Sverige har högre arbetslöshet idag än vi haft under nästan hela efterkrigsperioden, men den är lägre än under 1990-talskrisen. Jordens medeltemperatur har stigit med nästan 1 C under det senaste seklet. - 44 -

Populationsstrategin Jämför med en population som vi tycker att det aktuella fallet tillhör. Uppsala är världens 60e bästa universitet (enligt Shanghairankingen). En nylig revolution kan vi jämföra med alla tidigare revolutioner för att avgöra om den gick snabbare, var blodigare eller fick större konsekvenser än vad som brukar vara fallet. - 45 -

Referenspunktsstrategin Jämför med ett relevant fall där det är allmänt vedertaget att det har vissa egenskaper. Skedde en statskupp i Egypten 2013? Vad säger forskningen om andra tveksamma fall? Är räntan hög? Räntedifferensen mot Tyskland. Olyckligt namn eftersom alla jämförelser förutsätter en referenspunkt. - 46 -

Andra tänkbara jämförelsepunkter Har skalan ändpunkter eller etiketter? Var försiktig i tolkningen! Kan vi konstruera en eller två idealtyper att jämföra med? Finns det tydliga förväntningar på vad vi borde observera? En allmän bild i media eller den politiska debatten? Bedömningar av andra forskare? - 47 -

Vi får inte fastna i begrepp. Det viktiga: Vi måste jämföra. Jämförelsen måste vara relevant. Vi måste vara tydliga med vad jämförelsevärdet representerar. Ett erkänt högt eller lågt värde? Ett typiskt eller representativt värde? Ett gränsfall mellan två kategorier? - 48 -

Ofta en bra idé att visualisera datamaterialet Ibland är inte centralitets- och spridningsmått tillräckliga. innehåller mer information och kan fånga läsarens uppmärksamhet. En lättsam genomgång av tre saker: 1 De sex vanligaste graftyperna. 2 Grafens syfte. 3 Vad är snyggt? - 49 -

s grafer Histogram Visar en univariat fördelning (hur en variabel är fördelad). Svarar på frågan hur vanliga är olika värden? Användbart för att beskriva data och hitta problematiska observationer. - 50 -

s grafer Exempel: Medeldygnstemperaturer i Uppsala 2013 80 Antal dagar 60 40 20 0 20 10 0 10 20 Medeltemperatur under dygnet ( C) - 51 -

s grafer Boxplot (lådagram) Visar en fördelnings kvartiler och, oftast, minimi- och maximivärden. Mer lättöverskådliga än histogram. Lämpar sig därför när man vill jämföra fördelningar med varandra. - 52 -

s grafer Exempel: Medeldygnstemperaturer per halvår Andra Första 20 10 0 10 20 Medeltemperatur under dygnet ( C) - 53 -

s grafer Stapeldiagram Visar summerande värden för en variabel över en eller flera kategoriska variabler. Vanligast är antal observationer eller medelvärden i olika grupper. - 54 -

s grafer Exempel: Medeltemperaturer per månad 15 10 5 0 5 Jan Feb Mar Apr Maj Jun Jul Aug Sep Okt Nov Dec Genomsnittstemperatur ( C) - 55 -

s grafer Cirkeldiagram Visar alla värden som andelar. Lämpligt när delarna summerar till 100 procent. Tips: Undvik cirkeldiagram. - 56 -

s grafer Andel dagar med plus- resp minusgrader - 57 -

s grafer Linjediagram Använd endast för tidsseriedata (en sekvens av observationer från olika tidpunkter). Om serien består av många nollor eller frånvaro av händelser är ofta stapeldiagram bättre. - 58 -

s grafer Exempel: Dagstemperatur under 2013 20 Grader Celcius 10 0 10 Jan Feb Mar Apr Maj Jun Jul Aug Sep Okt Nov Dec - 59 -

s grafer Scatterplot Visar ett samband mellan två variabler. Bra komplement till regressionsanalys. Konvention: variabeln på den horisontella axeln påverkar variabeln på den vertikala axeln. - 60 -

s grafer Exempel: Medeltemperatur och antalet födslar nio månader senare Okt 10 500 Aug Sep Jul Nov Jun 10 000 9 500 9 000 8 500 Jan Feb Mar Dec Apr Maj 5 0 5 10 15 20 Dygnstemperatur - 61 -

Grafens syfte De flesta grafer fyller ett av följande två syften: Utforska: Visualisera data för att med öppna ögon utforska ett datamaterial eller utvärdera en statistisk modell. Kommunicera: Förmedla ett på förhand bestämt budskap. - 62 -

Utforskande grafer Utforskande grafer En del av forskningsprocessen: De flesta utforskande grafer visas aldrig för någon annan. Men också en fråga om transparens: Ökar läsarens möjlighet att granska din undersökning. Tolkningen ligger i båda fallen hos betraktaren. Innehåller mycket information och kan ofta svara på flera typer av frågor. - 63 -

Utforskande grafer Exempel på utforskande grafer Mina exempel är tillrättalagda och påminner på så vis mer om kommunicerande grafer. Såhär tydligt är det aldrig i verkligheten. Vilka grafer man gör och vad man letar efter beror på vad man vill göra för typ av analys. Detta är bara ett axplock. Handlar ofta om att bedöma huruvida de antaganden och förenklingar som ligger bakom våra och förklaringar stämmer överens med verkligheten. - 64 -

Utforskande grafer Hypotesgenererande: Andel som anser att president Bush gör ett bra jobb (2001) 100 80 60 40 20 0 Mar Apr Maj Jun Jul Aug Sep Okt Nov Dec - 65 -

Utforskande grafer Visualisera data: Facebookbesök per dag (µ=18) 0 10 20 30 40 0 200 400 600 800 1000-66 -

Utforskande grafer Visualisera data: Facebookbesök per dag (µ=18) 0 10 20 30 40 0 10 20 30 40 50-66 -

Utforskande grafer Modelldiagnostik: Beskriver linjen datamaterialet? 15 10 5 0 0 5 10 15 20-67 -

Utforskande grafer Modelldiagnostik: Beskriver linjen datamaterialet? 15 10 5 0 0 5 10 15 20-67 -

Utforskande grafer Modelldiagnostik: Beskriver linjen datamaterialet? 15 10 5 0 0 5 10 15 20-67 -

Utforskande grafer Modelldiagnostik: Beskriver linjen datamaterialet? 15 10 5 0 0 5 10 15 20-67 -

Utforskande grafer Modelldiagnostik: Beskriver linjen datamaterialet? 15 10 5 0 0 5 10 15 20-67 -

Kommunicerande grafer Kommunicerande grafer Förmedlar ett budskap, illustrerar en poäng, svarar på en fråga. Skaparen av grafen har bestämt tolkningen. Vanligt i journalistiken, men mitt perspektiv är snarare forskarens. Använder dem gärna i både texter och presentationer. - 68 -

Kommunicerande grafer Utforma kommunicerande grafer Fundera noga på vilka budskap som förtjänar en graf. Svår balans mellan att förleda och framhäva. Rimliga skalor på axlarna (behöver inte börja på 0). Använd relevanta jämförelsepunkter. Var inte rädd för att förlora information. Forskaren har ett stort ansvar. En bra avvägning kräver god kännedom om materialet. - 69 -

Kommunicerande grafer - 70 -

Kommunicerande grafer Output gap, per cent of potential GDP -2 0 2 4 6 Konjunkturläget i realtid (PIIGS) 1995 2000 2005 2010 Year Gap estimated 2014 Gap estimated at t-1-71 -

Kommunicerande grafer Annorlunda i mina utforskande grafer: Fler länder än dessa fem. Studerat enskilda länder i stället för aggregat. Förlängt tidsperioden. Data från fler källor och med annat slutår än 2014. - 72 -

Hur ska en graf se ut? Följ konventioner och använd bekanta grafer. Formella grafer i formella sammanhang. Lyssna på andra. Anpassa färger efter målgrupp och syfte. Färgskalor för gradskillnader och maximal kontrast för artskillnader. Maximera kontrast och blanda ljusa och mörka färger för färgblinda och svartvita utskrifter. - 73 -

Hur gör man en snygg graf? - 74 -

Hur gör man en snygg graf? Undvik bakgrunder - 74 -

Hur gör man en snygg graf? Undvik 3D-grafer - 74 -

Hur gör man en snygg graf? Minimera mängden text (använd noter) - 74 -

Hur gör man en snygg graf? Ta bort kantlinjer Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Sätt etiketter nära informationen Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Undvik onödiga färger Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Undvik skuggning och andra effekter Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Tona ner axlarna Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Tona ner stödlinjer Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Eller ta bort dem helt Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Håll nere antalet etiketter på axlarna Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Anpassa proportionerna efter data och utrymme Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? Andel som inte besökt tandläkaren, procent - 74 -

Hur gör man en snygg graf? - 74 -

Vi ses i eftermiddag! - 75 -