Introduktion till statistik för statsvetare

Relevanta dokument
Introduktion till statistik för statsvetare

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

2 Dataanalys och beskrivande statistik

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Introduktion till statistik för statsvetare

Beskrivande statistik

Statistik 1 för biologer, logopeder och psykologer

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Kvantitativ strategi viktiga begrepp II. Wieland Wermke

Introduktion till statistik för statsvetare

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

13.1 Matematisk statistik

Statistiska undersökningar

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Diagnos Sannolikhet/Statistik

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Föreläsning G60 Statistiska metoder

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Datorövning 1 Statistik med Excel (Office 2007, svenska)

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

Introduktion till statistik för statsvetare

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Introduktion till statistik för statsvetare

Föreläsning G70 Statistik A

Tentamen i Statistik STG A01 (12 hp) Fredag 16 januari 2009, Kl

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Valresultat Riksdagen 2018

Grundläggande statistik kurs 1

Statistik Lars Valter

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Beskrivande statistik

MATEMATIK ARBETSOMRÅDET LIKABEHANDLING Kränkande handlingar, nätmobbning, rasism och genus

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

*****************************************************************************

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Ma1 NA18: Info inför prov 1

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Medelvärde, median och standardavvikelse

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Statistik. Statistik. Statistik. Statistics, Lars Walter. Forsknings- och utvecklingsenheten för närsjukvård. Folkhälsocentrum

Tentamen: Vetenskapliga perspektiv på studie- och yrkesvägledning, 7,5hp distans (D1) & campus (T1), ht12

Förra gången (F4-F5)

F13 Regression och problemlösning

Ma7-Åsa: Statistik och Sannolikhetslära

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Mer om slumpvariabler

Syfte med undervisningen är att du ska få utveckla din förmåga att...

PLANERING MATEMATIK - ÅK 8. Bok: Y (fjärde upplagan) Kapitel : 5 Ekvationer Kapitel : 6 Sannolikhet och statistik. Elevens namn: Datum för prov

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Föreläsning 1: Introduktion. Vad är statistik?

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

ÖVNINGSUPPGIFTER KAPITEL 2

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Tentamen i Statistik, STA A13 (4 poäng) Lördag 11 november 2006, Kl

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

11. DESKRIPTION EN VARIABEL

samma sätt. Spara varje uppgift som separat Excelfil. För att starta Excel med Resampling-pluginet, välj Resampling Stats for Excel i Start-menyn.

Diskussionsproblem för Statistik för ingenjörer

7C Ma: VT 2018 Bråk och Procent/ statistik och sannolikhet Syftet med undervisningen är att du ska utveckla din förmåga att:

Högskoleprovet Kvantitativ del

11. DESKRIPTION EN VARIABEL

Statistik för Brandingenjörer. Laboration 1

9A Ma: Statistik och Sannolikhetslära

732G01/732G40 Grundläggande statistik (7.5hp)

ÖVNINGSUPPGIFTER KAPITEL 2

6-2 Medelvärde och median. Namn:

Högskoleprovet Kvantitativ del

Föreläsning G60 Statistiska metoder

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

b) Beskriv resultaten för de 24 programstudenterna i ett lådagram (boxplot).

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

En typisk medianmorot

Bearbetning och Presentation

Problemlösning i ett kalkbrott

Mattestegens matematik

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

2.1 Minitab-introduktion

Att göra före det schemalagda labpasset.

Transkript:

Olika figurer Stockholms universitet September 2011

Olika typer av data Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata Med data menar vi jämförbara mätningar av något slag. Det finns 4 olika typer av data som statistiker hanterar: 1 nominaldata: Mätningar kan klassifieras (bil, båt, stuga) 2 ordinaldata: Mätningar kan ordnas (bra, bättre, bäst) 3 intervalldata: Mätningar kan ordnas efter en skala (temperatur) 4 kvotdata: Mätningarna kan ordnas efter en skala med en väldefinierad nolla (längder, vikter, spänning) Olika data kräver olika figurer!

Nominaldata Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata För nominaldata finns ingen ordning endast kategorier. Man är här intresserad av proportioner/andelar. Hur stor andel i befolkningen har en bil, en båt och en stuga. Dessa andelar beskrivs med antingen ett stapel- eller cirkeldiagram. 70 60 50 40 30 20 10 0 1 2 3

Ordinaldata Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata För ordinaldata finns en ordning mellan kategorierna. Ordinaldata går att rangordna och man kan därför säga att en kategori är bättre än en annan kategori. För ordinaldata går det dock inte att på ett absolut sätt bestämma skillnaden mellan kategorier. Lämpliga diagram för ordinaldata är desamma som för nominaldata 25 20 15 10 5 0 A B C D E F Figure: Resultat statistik för statsvetare

Intervalldata Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata För intervalldata finns en ordning och det går att mäta skillnaden mellan två värden. på intervalldata är temperatur ty temperatur kan ordnas och skillnaden mellan 15 och 10 grader är absolut mätbart och lika stor som skillnaden mellan 30 och 35 grader. Lämpliga diagram för intervalldata är histogram och för mätserie 3 erhålls 7 6 5 Antal observationer 4 3 2 1 0 35 40 45 50 55 60 65 70 75 80

Kvotdata Olika figurer Data nominal, ordinal, intervall och kvot Nominaldata Ordinaldata Intervalldata Kvotdata För kvotdata finns en ordning, det går att mäta skillnaden mellan två värden och det finns en väldefinierad nollpunkt. på kvotdata är löner, omsättning, vikt och längd. För kvotdata är nollan betydelsefull ty nollan innebär avsaknad av lön, vikt eller omsättning. Lämpliga diagram för kvotdata är histogram 7 6 5 Antal observationer 4 3 2 1 0 150 155 160 165 170 175 180 185 190

Titanic Olika figurer Fartyget Titanic förliste. liksom Wasa, på sin jungfrufärd. På Titanic fanns passagerare av tre typer samt besättning X 1 = antal i första klass (325) X 2 = antal i andra klass (285) X 3 = antal i tredje klass (706) X B = antal i besättning (885) Av dessa 885 + 706 + 85 + 325 = 2001 personer överlevde X ö1 = antal i första klass (203) X ö2 = antal i andra klass (118) X ö3 = antal i tredje klass (178) X öb = antal i besättning (212)

Titanic (forts) Olika figurer Den första principen för all presentation: Var ärlig! (Visa oärlig här.) Kontigenstabell: Antal Klass F A T B Total Överlevande 203 118 178 212 711 Döda 122 167 528 673 1490 Total 325 285 706 885 2201 Kontingenstabell: Frekvens Klass % F A T B Total Överlevande 9.2 5.4 8.1 9.6 32.3 Döda 5.6 7.6 24.0 30.6 67.7 Total 14.8 12.9 32.1 40.2 100.0

Titanic (forts) Olika figurer Intressant fråga: Var proportionen överlevande från biljettklass F lika som klass B? Svar: Vad är den relativa frekvensen för att bland de överlevande denne kommer från biljettklass F? Hur räknar vi ut en sådan frekvens? Vi skall titta på delgruppen överlevande och för denna grupp räkna ut frekvensen för överlevande bland de olika biljettklasserna dvs m 1i 711 100 (för de döda m 2i 1490 100). F A T B Total Ö 28.6 16.6 25.0 29.8 100 D 8.2 11.2 35.4 45.2 100

Titanic (forts) Olika figurer Intressant fråga: Var chansen att överleva beroende av biljettklass? Svar: Vad är frekvensen för att en person överlevt givet att denne kom från biljettklass F. Hur räknar vi ut en sådan frekvens? Vi skall titta på delgruppen biljettklass F och för denna grupp räkna ut frekvensen för de olika möjligheterna dvs m 11 325 100 (för de döda m 21 325 100). F A T B Ö 62.5 41.4 25.2 24.0 D 37.5 58.6 74.8 76.0 Total 100 100 100 100

Simpsons paradox Olika figurer Kontingenstabellerna ovan ger olika resultat. I det första svaret blev chansen för överlevnad nästan lika för de två grupperna F och B men i det andra svaret blev det en dramatisk skillnad. Här ett annat exempel på denna paradox. Example På ett företag genomförs en attitydundersökning med följande resultat Attityd Kön Positiv Negativ M 89 19 K 328 82 Vilken av de två grupperna har den mest positiva attityden?

Olika figurer Simpsons paradox (forts) Bilda tabellen Attityd Kön Positiv Negativ Total M 89 19 108 K 328 82 410 Total 417 101 518 Vi besvarar frågan med hjälp av tre olika frekvenstabeller. Den första baserar sig på totalen 518 Attityd Kön Positiv Negativ Total M 17% 4% 21% K 63% 16% 79% Total 80% 20% 100%

Olika figurer Simpsons paradox (forts) Den andra baserar sig radsummetotalerna 108 och 410 Attityd Kön Positiv Negativ Total M 82% 18% 100% K 80% 20% 100% Den tredje baserar sig kolumnsummetotalerna 417 och 101 Attityd Kön Positiv Negativ M 21% 19% K 79% 81% Total 100% 100%

Olika figurer Simpsons paradox (forts) Av den andra tabellen ser vi att de båda könen har i stort sett samma fördelning avseende attityd. Av den tredje tabellen ser vi att kvinnor både är de mest positiva och de mest negativa! Hur går detta ihop? Det beror på att det finns 4 gånger så många kvinnor i undersökningen. Vi kommer tillbaks längre fram till denna typ av data, och deras, tabeller. Det begrepp som löser upp det här angiva problemet är fördelning. Men vi har ännu inte infört detta begrepp.

Skogsområde mätningar Olika figurer Vid försäljning av ett skogsområde skall områdets värde i form av avverkningsbart timmer uppmätas. För att göra denna mätning indelades området i ett rutnät om N rutor ur vilka 49 rutor togs slumpmässigt. I varje utvald ruta uppmättes volymen timmer varvid följande värden i m 3 sk erhölls 0.7 0.9 1.0 1.3 1.9 2.7 3.2 3.4 3.4 3.5 3.5 4.3 5.2 5.9 6.0 6.3 6.5 6.6 7.1 7.4 7.6 7.9 8.3 8.3 8.3 8.3 8.7 10.0 10.0 10.3 12.0 13.4 14.1 14.8 16.7 16.8 17.1 17.7 18.9 19.0 19.4 19.7 24.3 26.2 26.2 28.3 31.7 39.3 44.8

Olika figurer Här mäter vi mängd timmer i en ruta (kvotdata) och har därmed slumpvariabeln X i = mängd timmer m 3 sk ruta i, i = 1, 2, 3,..., 49 Vi erhåller medelvärdet och spridningen till x = 12.02 ˆσ = 100.65 = 10.03 Eftersom data är ordnade är det lätt att se att 4.3 + 5.2 Q 1 = = 4.75 2 Q 2 = 8.3 (median) 17.1 + 17.7 Q 3 = = 17.4 2 IQR = 17.4 4.75 = 12.65

Olika figurer Skogsområde histogram, lika klassbredd Vi gör ett traditionellt histogram med lika stora klassintervall och erhåller, efter några olika val av antal intervall Detta histogram är uppenbart skev åt höger.

Olika figurer Skogsområde histogram, lika yta Vi prövar nu ett histogram där alla staplar har lika stora ytor ty dylika histogram är känsliga för skeva data Nu fick vi två toppar men den första känns som om den har en för grov klassbredd.

Olika figurer Skogsområde histogram, olika klassbredd Genom att på lämpligt sätt välja olika klassbredder så erhålls slutligen histogrammet Det visar sig vid en fortsatt statistisk/matematisk analys att detta sista histogram beskriver data bäst.

Rose diagram Olika figurer Rose diagram

Olika figurer Finns det ett enkelt sätt att på ett tidigt stadium komma underfund en fördelnings utseende? Ja det finns ett sådant sätt som kallas lådagram. Bestäm för datamaterialet följande 5 storheter: min = 0.7, max = 44.8, Q 1 = 4.75, Q 2 = 8.3, Q 3 = 17.4, IQR = 12.65 samt rita följande figur Q 1 Q 2 Q 3 * * *

Olika figurer mets uppbyggnad Q 1 Q 2 Q 3

Olika figurer mets uppbyggnad (forts) Q 1 Q 2 Q 3

Olika figurer mets uppbyggnad (forts) Q 1 Q 2 Q 3

Olika figurer mets uppbyggnad (forts) Q 1 Q 2 Q 3 * * *

Olika figurer mets uppbyggnad (forts) Q 1 Q 2 Q 3 * * *