2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att samla in data, analysera data, tolka data. Nedan följer en (icke uttömmande) lista över vanliga typer av data: kategorisk (kvalitativ) data; data kan sorteras i kategorier men har inte en väldenierad mätskala; ett vanligt förekommande fall är binär data där man har exakt två kategorier nominaldata; kategorisk data som ej kan rangordnas (ex. ögonfärg, blodgrupp) ordinaldata; kategorisk data som kan rangordnas (ex. utbildningsnivå) numerisk (kvantitativ) data; data har en väldenierad mätskala diskret data; det går att numrera alla möjliga datavärden; väldigt ofta består datamängden av heltal (ex. antal barn) kontinuerlig data; ett datavärde kan anta vilket värde som helst i ett intervall (ex. ålder, längd) En punkt i en datamängd kallas ofta för en observation. Första steg i att analysera data För kategorisk eller diskret numerisk data kan vi åskådliggöra data i en frekvenstabell. För kontinuerlig numerisk data brukar man dela in intervallet mellan det minsta och det största datavärdet i ett antal delintervall. Man tänker sig varje delintervall som en kategori och kan nu åskådliggöra i en frekvenstabell. Ett delintervall kallas ofta för en klass och längden på delintervallet kallas klassbredd. Det absolut första steget i en dataanalys är att bedöma kvaliteten på datat. Kommer det från en trovärdig källa? Om det är en undersökning, talar 1

Ålder Antal Relativ frekvens 19 4 4/28 0.143 20 5 5/28 0.179. Summa: 28 1 Tabell 1: Frekvenstabell över åldersfördelning i klassen (ej fullständig). de som deltar i undersökningen sanning? Beror personens svar på omständigheterna då frågan ställdes, osv. Om datat har för låg kvalitet faller alla resultat som man eventuellt kommit fram till. Datat i frekvenstabellen kan åskådliggöras i form av stapeldiagram, cirkeldiagram (kallas även tårtdiagram), histogram (om vi har numerisk data). Normalt är att arean i diagrammet är proportionell mot frekvensen i alla de ovanstående diagramtyperna. Diagrammen ger oss en visuell beskrivning av vår datafördelning. Vi letar efter följande egenskaper hos datafördelningen: läge; var ligger datapunkterna huvudsakligen? spridning; hur stor variation nns i datat? avvikare; nns det något eller några värden som avviker betydligt från majoriteten? form; det nns ett antal standardformer att jämföra med (det kommer mer om detta under sannolikhetsteoriföreläsningarna). Lägesmått Vi börjar med läget. De tre vanligaste lägesmåtten är typvärde; det värde som förekommer est gånger, median; det mittersta värdet, det värde som delar datat i två lika stora delar, om man har ett jämnt antal datavärden brukar man välja medianen som medelvärdet av de två mittersta värdena 2

(aritmetiskt) medelvärde; summan av alla värden dividerat med antalet värden Om datat är symmetriskt fördelat är medelvärde och median ungefär lika stora. Om datafördelningen är skev kan de skilja sig åt betydligt. Medianen är robust med avseende på avvikare, vilket medelvärdet inte är, och därmed mer pålitlig för att mäta läget. Exempel 2.1. Vi har en datamängd av årslöner i tusentals kronor för 10 slumpvis utvalda tekniska fysiker två år efter examen. {300, 300, 380, 510, 300, 390, 450, 450, 420, 3200} Som synes är det ett värde, 3200, som avviker betydligt från de övriga. Det första vi gör är att försöka ta reda på om värdet är korrekt eller om den som samlat in datat råkat skriva in en nolla för mycket. Det visar sig att värdet är korrekt, undersökningen är från 2006 och avvikaren kommer från en person som lyckats få jobb som obligationshandlare på Wall Street under detta bonusrekordår. En datamängd skrivs ofta som ett antal värden separerade med kommatecken och omgivna av krullparenteser (måsvingar). Beräkna median och medelvärde för datamängden i exemplet ovan, plocka sedan bort avvikaren och beräkna median och medelvärde på nytt. Vad menas med att medianen är robust mot avvikare? Om vi riktar oss mot tekniska fysiker som grupp, för att exempelvis lansera någon ny produkt som dessa kan tänkas vara intresserade av, så ger medianen en bättre indikation på inkomsten hos gruppen än vad medelvärdet gör. Typvärde (eller modalvärde eller mod) kan också ha en något annorlunda betydelse. Ett histogram kan ha en eller era modalstaplar. En modalstapel är en stapel som är högre än sina grannstaplar. Värdet mitt på stapeln kallas modalvärde (eller mod eller typvärde). Observera att valet av bredd på histogramstaplarna har betydelse för vilka och hur många modalvärden vi får. Exempel 2.2. Vi har en datamängd bestående av årslöner i tusentals kronor för medlemmarna i en forskargrupp på Chalmers. {300, 300, 320, 390, 560, 610, 630} Om vi ritar ett histogram med klasserna [300, 350), [350, 400), [400, 450), [450, 500), [500, 550), [550, 600) respektive [600, 650) så får vi två modalstaplar. Varför uppkommer dessa? Och vilka är modalvärdena? 3

Ett intervall med ändpunkter a och b, där a är mindre än b skrivs (a, b) om man avser alla punkter större än a och mindre än b, [a, b) om man avser alla punkter större än eller lika med a och mindre än b, (a, b] om man avser alla punkter större än a och mindre än eller lika med b, [a, b] om man avser alla punkter större än eller lika med a och mindre än eller lika med b. Vanlig parentes innebär alltså att ändpunkten inte ingår i intervallet, medan hakparentes innehär att ändpunkten ingår i intervallet. Spridningsmått Läget är inte allt. Ett spridningsmått säger oss något om hur utspridda datapunkterna är. De vanligaste spridningsmåtten är variationsbredd, kvartilavstånd, standardavvikelse, varians, variationskoecient. Variationsbredden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet hör ihop med medianen, medan standardavvikelsen (och variansen och variationskoecienten) hör ihop med (det aritmetiska) medelvärdet. För att förstå kvartilavståndet behöver vi ytterligare ett par begrepp. Den ite percentilen (eller i%-kvantilen) betecknas (i denna kurs) q i% är ett värde som delar datafördelningen i två delar så att i% av observationerna är mindre än eller lika med q i%, och (100 i)% av observationerna är större än eller lika med q i%. Givet en datamängd är en percentil (eller kvantil) ofta inte entydigt bestämd, vi såg tidigare att om vi har ett jämnt antal observationer kan medianen (q 50% ) vara vilket värde som helst i intervallet mellan de två mittersta värdena. Normalt är dock att man väljer mittpunkten på intervallet. En datamängd har tre kvartiler som delar mängden i fyra lika stora delar: 4

nedre kvartilen, Q 1 = q 25%, mellersta kvartilen eller medianen, Q 2 = q 50%, övre kvartilen, Q 3 = q 75%. Kvartilavståndet är dierensen mellan den övre och den nedre kvartilen, alltså Q 3 Q 1. För vår lönedata för tekniska fysiker har vi Q 1 = 300, Q 2 = 405 och Q 3 = 450, och vi får kvartilavståndet Q 3 Q 1 = 450 300 = 150. När kvartilerna är kända kan man rita ett lådagram (box plot på engelska). Lådagrammet består av en låda med sidor vid värdena Q 1 och Q 3, samt ett streck genom lådan vid medianvärdet (Q 2 ). Från lådans vänstra kant dras ett horisontellt streck, eller morrhår (whisker på engelska), till det minsta observerade värdet som är större än Q 1 1.5(Q 3 Q 1 ). Från lådans vänstra sida dras ett horisontellt streck till det största observerade värdet som är mindre än Q 3 + 1.5(Q 3 Q 1 ). Värden som ligger mer än ett och ett halvt kvartilavstånd utanför lådan betraktas som avvikare och markeras med kryss. Se Figur 1 för ett lådagram för lönedatat för tekniska fysiker. Ibland används X 300 405 450 510 3200 Figur 1: Lådagram för lönedata för tekniska fysiker. ytterligare någon symbol för avvikare som ligger mer än 3 kvartilavstånd utanför lådan, i boken nämns Σ som kanske bör undvikas eftersom den ofta har andra betydelser. Det är inget magiskt över gränserna 1.5 respektive 3 kvartilavstånd utanför lådan, men det har visat sig att dessa ofta fungerar väl i praktiken. Uttrycket tänka utanför lådan får med kunskapen om lådagram en statistisk innebörd. Kan du förklara vilken? Normalt är datamängden man analyserar är ett stickprov (ett urval) ur en population man är intresserad av att veta något om. Exempelvis är man intresserad av vad chalmersalumner tjänar och man frågar därför ett antal slumpvis utvalda alumner om deras årsinkomst. Lönerna för dessa slumpvis utvalda individer bildar ett stickprov. Standardavvikelsen är ett mått på hur mycket varje enskilt värde avviker från medelvärdet. Mer precist är det den genomsnittliga kvadratavvikelsen från medelvärdet. Standardavvikelsen för ett stickprov med n värden betecknas med s och beräknas genom s = 1 n 1 5 n (x i x) 2, i=i

där x är stickprovsmedelvärdet, x = 1 n n i=i x i = x 1 + x 2 +... + x n. n Variansen för ett stickprov är standardavvikelsen i kvadrat, s 2. Variationskoecienten är kvoten mellan standardavvikelsen och medelvärdet, s/ x. 6