2 Dataanalys och beskrivande statistik



Relevanta dokument
Beskrivande statistik

Statistik 1 för biologer, logopeder och psykologer

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Medelvärde, median och standardavvikelse

Beskrivande statistik

Föreläsning G70 Statistik A

13.1 Matematisk statistik

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

En typisk medianmorot

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Introduktion till statistik för statsvetare

Valresultat Riksdagen 2018

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Introduktion till statistik för statsvetare

Statistik och epidemiologi T5

11. DESKRIPTION EN VARIABEL

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Föreläsning 1: Introduktion

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Förra gången (F4-F5)

Kvantitativ strategi Univariat analys 2. Wieland Wermke

ÖVNINGSUPPGIFTER KAPITEL 2

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Föreläsning 1: Introduktion

Bearbetning och Presentation

Gamla tentor (forts) ( x. x ) ) 2 x1

Introduktion till statistik för statsvetare

Föreläsning 1: Introduktion

Forskningsmetodik 2006 lektion 2

Lektionsanteckningar 11-12: Normalfördelningen

ÖVNINGSUPPGIFTER KAPITEL 2

Det är tänkt att varje elev eller grupp ska få en egen kopia av provresultaten och en egen datablankett att fylla i.

11. DESKRIPTION EN VARIABEL

732G01/732G40 Grundläggande statistik (7.5hp)

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Arvodesenkät. Resultat Egenföretagare.

Grundläggande statistik kurs 1

Repetitionsprov inför provet Statistik

Medicinsk statistik I

2.1 Minitab-introduktion

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

732G70, 732G01 Statistik A 7hp

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Att göra före det schemalagda labpasset.

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

6-2 Medelvärde och median. Namn:

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Finansiell statistik, vt-05. Allmän information. Johan Koskinen. F1(a) Allmän information

Medicinsk statistik I

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Laboration 1. i 5B1512, Grundkurs i matematisk statistik för ekonomer

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Statistik. Berit Bergius & Lena Trygg, NCM

1 Mätdata och statistik

Statistiska undersökningar

Statistiska begrepp och uttrycksformer

Studieplanering till Kurs 2b Grön lärobok

Sammanfattningar Matematikboken X

F3 Introduktion Stickprov

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Introduktion till statistik för statsvetare

Läs noggrant informationen nedan innan du börjar skriva tentamen

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

MVE051/MSG Föreläsning 7

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Extramaterial till Matematik X

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Föreläsning 4: Beskrivande statistik

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Statistik. Statistik som beskriver vem och vilka vi är. Statistik som hjälpmedel i försäljning

Repetition kapitel 1, 2, 5 inför prov 2 Ma2 NA17 vt18

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Mer om slumpvariabler

1.1 Diskret (Sannolikhets-)fördelning

Grundläggande matematisk statistik

Tabeller och figurer / Ilkka Norri / TY Kielikeskus

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 12 november 2005, kl

Är sjukvården jämställd och går det åt rätt håll?

Transkript:

2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att samla in data, analysera data, tolka data. Nedan följer en (icke uttömmande) lista över vanliga typer av data: kategorisk (kvalitativ) data; data kan sorteras i kategorier men har inte en väldenierad mätskala; ett vanligt förekommande fall är binär data där man har exakt två kategorier nominaldata; kategorisk data som ej kan rangordnas (ex. ögonfärg, blodgrupp) ordinaldata; kategorisk data som kan rangordnas (ex. utbildningsnivå) numerisk (kvantitativ) data; data har en väldenierad mätskala diskret data; det går att numrera alla möjliga datavärden; väldigt ofta består datamängden av heltal (ex. antal barn) kontinuerlig data; ett datavärde kan anta vilket värde som helst i ett intervall (ex. ålder, längd) En punkt i en datamängd kallas ofta för en observation. Första steg i att analysera data För kategorisk eller diskret numerisk data kan vi åskådliggöra data i en frekvenstabell. För kontinuerlig numerisk data brukar man dela in intervallet mellan det minsta och det största datavärdet i ett antal delintervall. Man tänker sig varje delintervall som en kategori och kan nu åskådliggöra i en frekvenstabell. Ett delintervall kallas ofta för en klass och längden på delintervallet kallas klassbredd. Det absolut första steget i en dataanalys är att bedöma kvaliteten på datat. Kommer det från en trovärdig källa? Om det är en undersökning, talar 1

Ålder Antal Relativ frekvens 19 4 4/28 0.143 20 5 5/28 0.179. Summa: 28 1 Tabell 1: Frekvenstabell över åldersfördelning i klassen (ej fullständig). de som deltar i undersökningen sanning? Beror personens svar på omständigheterna då frågan ställdes, osv. Om datat har för låg kvalitet faller alla resultat som man eventuellt kommit fram till. Datat i frekvenstabellen kan åskådliggöras i form av stapeldiagram, cirkeldiagram (kallas även tårtdiagram), histogram (om vi har numerisk data). Normalt är att arean i diagrammet är proportionell mot frekvensen i alla de ovanstående diagramtyperna. Diagrammen ger oss en visuell beskrivning av vår datafördelning. Vi letar efter följande egenskaper hos datafördelningen: läge; var ligger datapunkterna huvudsakligen? spridning; hur stor variation nns i datat? avvikare; nns det något eller några värden som avviker betydligt från majoriteten? form; det nns ett antal standardformer att jämföra med (det kommer mer om detta under sannolikhetsteoriföreläsningarna). Lägesmått Vi börjar med läget. De tre vanligaste lägesmåtten är typvärde; det värde som förekommer est gånger, median; det mittersta värdet, det värde som delar datat i två lika stora delar, om man har ett jämnt antal datavärden brukar man välja medianen som medelvärdet av de två mittersta värdena 2

(aritmetiskt) medelvärde; summan av alla värden dividerat med antalet värden Om datat är symmetriskt fördelat är medelvärde och median ungefär lika stora. Om datafördelningen är skev kan de skilja sig åt betydligt. Medianen är robust med avseende på avvikare, vilket medelvärdet inte är, och därmed mer pålitlig för att mäta läget. Exempel 2.1. Vi har en datamängd av årslöner i tusentals kronor för 10 slumpvis utvalda tekniska fysiker två år efter examen. {300, 300, 380, 510, 300, 390, 450, 450, 420, 3200} Som synes är det ett värde, 3200, som avviker betydligt från de övriga. Det första vi gör är att försöka ta reda på om värdet är korrekt eller om den som samlat in datat råkat skriva in en nolla för mycket. Det visar sig att värdet är korrekt, undersökningen är från 2006 och avvikaren kommer från en person som lyckats få jobb som obligationshandlare på Wall Street under detta bonusrekordår. En datamängd skrivs ofta som ett antal värden separerade med kommatecken och omgivna av krullparenteser (måsvingar). Beräkna median och medelvärde för datamängden i exemplet ovan, plocka sedan bort avvikaren och beräkna median och medelvärde på nytt. Vad menas med att medianen är robust mot avvikare? Om vi riktar oss mot tekniska fysiker som grupp, för att exempelvis lansera någon ny produkt som dessa kan tänkas vara intresserade av, så ger medianen en bättre indikation på inkomsten hos gruppen än vad medelvärdet gör. Typvärde (eller modalvärde eller mod) kan också ha en något annorlunda betydelse. Ett histogram kan ha en eller era modalstaplar. En modalstapel är en stapel som är högre än sina grannstaplar. Värdet mitt på stapeln kallas modalvärde (eller mod eller typvärde). Observera att valet av bredd på histogramstaplarna har betydelse för vilka och hur många modalvärden vi får. Exempel 2.2. Vi har en datamängd bestående av årslöner i tusentals kronor för medlemmarna i en forskargrupp på Chalmers. {300, 300, 320, 390, 560, 610, 630} Om vi ritar ett histogram med klasserna [300, 350), [350, 400), [400, 450), [450, 500), [500, 550), [550, 600) respektive [600, 650) så får vi två modalstaplar. Varför uppkommer dessa? Och vilka är modalvärdena? 3

Ett intervall med ändpunkter a och b, där a är mindre än b skrivs (a, b) om man avser alla punkter större än a och mindre än b, [a, b) om man avser alla punkter större än eller lika med a och mindre än b, (a, b] om man avser alla punkter större än a och mindre än eller lika med b, [a, b] om man avser alla punkter större än eller lika med a och mindre än eller lika med b. Vanlig parentes innebär alltså att ändpunkten inte ingår i intervallet, medan hakparentes innehär att ändpunkten ingår i intervallet. Spridningsmått Läget är inte allt. Ett spridningsmått säger oss något om hur utspridda datapunkterna är. De vanligaste spridningsmåtten är variationsbredd, kvartilavstånd, standardavvikelse, varians, variationskoecient. Variationsbredden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet hör ihop med medianen, medan standardavvikelsen (och variansen och variationskoecienten) hör ihop med (det aritmetiska) medelvärdet. För att förstå kvartilavståndet behöver vi ytterligare ett par begrepp. Den ite percentilen (eller i%-kvantilen) betecknas (i denna kurs) q i% är ett värde som delar datafördelningen i två delar så att i% av observationerna är mindre än eller lika med q i%, och (100 i)% av observationerna är större än eller lika med q i%. Givet en datamängd är en percentil (eller kvantil) ofta inte entydigt bestämd, vi såg tidigare att om vi har ett jämnt antal observationer kan medianen (q 50% ) vara vilket värde som helst i intervallet mellan de två mittersta värdena. Normalt är dock att man väljer mittpunkten på intervallet. En datamängd har tre kvartiler som delar mängden i fyra lika stora delar: 4

nedre kvartilen, Q 1 = q 25%, mellersta kvartilen eller medianen, Q 2 = q 50%, övre kvartilen, Q 3 = q 75%. Kvartilavståndet är dierensen mellan den övre och den nedre kvartilen, alltså Q 3 Q 1. För vår lönedata för tekniska fysiker har vi Q 1 = 300, Q 2 = 405 och Q 3 = 450, och vi får kvartilavståndet Q 3 Q 1 = 450 300 = 150. När kvartilerna är kända kan man rita ett lådagram (box plot på engelska). Lådagrammet består av en låda med sidor vid värdena Q 1 och Q 3, samt ett streck genom lådan vid medianvärdet (Q 2 ). Från lådans vänstra kant dras ett horisontellt streck, eller morrhår (whisker på engelska), till det minsta observerade värdet som är större än Q 1 1.5(Q 3 Q 1 ). Från lådans vänstra sida dras ett horisontellt streck till det största observerade värdet som är mindre än Q 3 + 1.5(Q 3 Q 1 ). Värden som ligger mer än ett och ett halvt kvartilavstånd utanför lådan betraktas som avvikare och markeras med kryss. Se Figur 1 för ett lådagram för lönedatat för tekniska fysiker. Ibland används X 300 405 450 510 3200 Figur 1: Lådagram för lönedata för tekniska fysiker. ytterligare någon symbol för avvikare som ligger mer än 3 kvartilavstånd utanför lådan, i boken nämns Σ som kanske bör undvikas eftersom den ofta har andra betydelser. Det är inget magiskt över gränserna 1.5 respektive 3 kvartilavstånd utanför lådan, men det har visat sig att dessa ofta fungerar väl i praktiken. Uttrycket tänka utanför lådan får med kunskapen om lådagram en statistisk innebörd. Kan du förklara vilken? Normalt är datamängden man analyserar är ett stickprov (ett urval) ur en population man är intresserad av att veta något om. Exempelvis är man intresserad av vad chalmersalumner tjänar och man frågar därför ett antal slumpvis utvalda alumner om deras årsinkomst. Lönerna för dessa slumpvis utvalda individer bildar ett stickprov. Standardavvikelsen är ett mått på hur mycket varje enskilt värde avviker från medelvärdet. Mer precist är det den genomsnittliga kvadratavvikelsen från medelvärdet. Standardavvikelsen för ett stickprov med n värden betecknas med s och beräknas genom s = 1 n 1 5 n (x i x) 2, i=i

där x är stickprovsmedelvärdet, x = 1 n n i=i x i = x 1 + x 2 +... + x n. n Variansen för ett stickprov är standardavvikelsen i kvadrat, s 2. Variationskoecienten är kvoten mellan standardavvikelsen och medelvärdet, s/ x. 6