Statistik 1 Statistik som beskriver vem och vilka vi är 2 Statistik som hjälpmedel i försäljning 3 1
Statistik som skapar samhörighet 4 Luleå Tekniska Universitet VHS Antagningsstatistik HT14 Källa: http://statistik.vhs.se/ Termin Program/kurs Utbildningens namn Anm.kod Univ/högskola Totalt antal sökande 1:a handssökande VT2014 Program Tekniskt basår en termin LTU-78006 Luleå tekniska 200 57 20 v universitet VT2014 Program Ekonomie, kandidat LTU-80023 Luleå tekniska universitet 643 78 VT2014 Program Internationell ekonomi, kandidat LTU-80024 Luleå tekniska universitet 488 57 VT2014 Program Rättsvetenskap, kandidat LTU-80025 Luleå tekniska universitet 416 65 VT2014 Program Röntgensjuksköterska LTU-82732 Luleå tekniska universitet 683 177 VT2014 Program Sjukgymnast LTU-82733 Luleå tekniska universitet 714 103 VT2014 Program Sjuksköterska LTU-82734 Luleå tekniska universitet 1210 319 VT2014 Program Förskollärare LTU-84000 Luleå tekniska universitet 664 167 VT2014 Program Bygg och anläggning LTU-85036 Luleå tekniska universitet 148 56 VT2014 Program Senare del, Civilingenjör Arkitektur 300 Hp - För dig som läst minst termin 1 LTU-89796 Luleå tekniska universitet 11 2 VT2014 Program Senare del, Civilingenjör Datateknik 300 Hp - för dig som läst minst termin 1 LTU-89797 Luleå tekniska universitet 3 2 VT2014 Program Senare del, Civilingenjör Hållbar energiteknik 300 Hp - för dig som läst minst termin 1. LTU-89798 Luleå tekniska universitet 10 7 VT2014 Program Senare del, Civilingenjör Industriell ekonomi 300 Hp - för dig som läst minst termin 1. LTU-89799 Luleå tekniska universitet 21 13 VT2014 Program Senare del, Civilingenjör Industriell miljö- och processteknik 300 Hp - för dig som läst minst termiltu-89800 Luleå tekniska universitet 4 2 VT2014 Program Senare del, Civilingenjör Maskinteknik 300 Hp - för dig som läst minst termin 1. LTU-89802 Luleå tekniska universitet 13 11 VT2014 Program Senare del, Civilingenjör Naturresursteknik 300 Hp - för dig som läst minst termin 1. LTU-89803 Luleå tekniska universitet 2 1 VT2014 Program Senare del, Civilingenjör Rymdteknik 300 Hp - för dig som läst minst termin 1. LTU-89804 Luleå tekniska universitet 5 4 VT2014 Program Senare del, Civilingenjör Teknisk design, 300 Hp - för dig som läst minst termin 1. LTU-89805 Luleå tekniska universitet 14 7 VT2014 Program Senare del, Civilingenjör Teknisk fysik och elektroteknik 300 Hp -för dig som läst minst LTU-89806 Luleå tekniska universitet 5 4 termin 1. VT2014 Program Senare del, Civilingenjör Väg- och vattenbyggnad 300 Hp - för dig som läst minst termin 1. LTU-89807 Luleå tekniska universitet 14 4 VT2014 Program Senare del, Högskoleingenjör Datateknik 180 Hp - för dig som lästminst termin 1. LTU-89808 Luleå tekniska universitet 4 1 VT2014 Program Senare del, Röntgensjuksköterska 180 Hp - För dig som läst minst termin 1. LTU-89812 Luleå tekniska universitet 3 2 VT2014 Program Senare del, Sjukgymnast 180 Hp - För dig som läst minst termin 1. LTU-89813 Luleå tekniska universitet 1 0 VT2014 Program Senare del, Sjuksköterska 180 Hp - För dig som läst minst termin 1. LTU-89814 Luleå tekniska universitet 12 2 VT2014 Program Senare del, Mobil applikationsutveckling, 120 Hp - för dig som läst minst termin 1. LTU-89815 Luleå tekniska universitet 2 1 5 VT2014 Program Senare del, Högskoleingenjör Maskinteknik 180 Hp - för dig som läst minst termin 1. LTU-89817 Luleå tekniska universitet 4 3 VT2014 Program Civilingenjör Brandteknik LTU-95007 Luleå tekniska universitet 24 6 Arbetslöshet - internationell jämförelse Andel av arbetskraften 15-74 år, kv 1, 2011 Under första kvartalet år 2011 var arbetslösheten i Sverige 8,1 procent. Den totala arbetslösheten i Sverige fortsätter att ligga en bit under EU27-snittet. 6 2
Mera statistik 7 Moore et al 8 Statistical significance 9 3
Population Stickprov, urval population INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer 10 S0004M Deskriptiv statistik och Index Hur ser insamlad datamängd ut. S0004M Index (Statistiska centralbyrå, SCB) År 2006 2007 2008 2009 2010 2011 KPI 284,22 290,51 300,61 299,66 303,46 311,43 Många avtal mm kan vara indexreglerade på något sätt. Konsumentprisindex (KPI) är ett mått på den allmänna prisnivåns förändring och därmed också ett mått på hur köpkraften för en krona ändras. 311.43/284.22=1.096 prisnivån har stigit med 9.6% fr mitten på 2006 till mitten på 2011 (i genomsnitt stigit med 1.8% per år, ränta på ränta principen). Om ränta (efter skatt!) under denna period har varit lägre än 1.8% per år har det alltså varit en ren förlust att spara. 1000 kronor år 2006 motsvarar till??? kronor år 2011 4
S0004M Normalfördelning,, Normalfördelningen är klockformad och symmetrisk runt medelvärdet. 2 x 1 (1/ 2) f ( x ) e 2 där 3.14159... och x e 2.71828... 13 S0004M Regressionsanalys (enkel) Samband mellan variabler MPH: genomsnitts hastighet; MPG: Bensinförbrukning 60 slumpvisa bilar i New York. S0004M, Urval och experiment Den process som har till uppgift att producera de data som kunskapsbildningen behöver kallar vi databildning Datainsamlingen måste var anpassad till den teori man har om problemområdet Teorier om problemområdet Teorier om dataanalys Verklighet Mätinstrument Data 15 5
S0005M Inferens del 1: Konfidensintervall Break even om mer än 10% av kundkretsen (populationen) köper produkten. Marknadsundersökning ger att 12% i urvalet kommer köpa. Skall vi lansera produkten? Hur stor osäkerhet är förknippad med 12%? Kanske är verkligheten 8% eller 18%. Kan vi kvantifiera detta så vi får kontroll på de risker vi tar? S0005M Inferens del 2: Hypotesprövning Deduktiv bevisföring med hjälp av insamlade data. Kan vi påvisa att mer än 10% i populationen kommer köpa våran produkt? Kan vi påvisa att större andel män än kvinnor i populationen tror att valutasamarbetet kommer att haverera? Föreläsning 1 2 Beskrivande statistik. Index Varför statistik? Population Urval Mätnivå Deskription Cirkeldiagram, stapeldiagram, histogram, spridningsdiagram, boxplot Lägesmått (typvärde, median, medelvärde) Spridningsmått (variationsvidd, kvartilavstånd, standardavvikelse) 18 6
Vad är statistik? En massa siffror Beskrivning av en portfolio Metodlära 19 Några definitioner Statistics is the science of collecting, organizing, and interpreting numerical facts, which we call data. (Moore et al.) De metoder som används för att sammanfatta samlade erfarenheter, göra förutsägelser, dra slutsatser och fatta beslut då informationen är ofullständig brukar kallas statistiska metoder. (Nyquist) Ordet statistik har två betydelser. Statistik är sifferuppgifter som beskriver en sak eller en verksamhet. Statistik är också metoder för att samla in, bearbeta och analysera material. (SCB) 20 Statistikämnet Inom vetenskapen statistik studeras statistiska metoder konstrueras nya metoder för nya situationer vidareutvecklas och förbättras gamla metoder Statistikämnets uppkomst och utveckling är nära förknippat med behov inom andra discipliner Statistik består av Ett antal tekniker Regler för när, var och hur dessa tekniker ska användas (metodologi) Statistik är en formell vetenskap 7
Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problem eller en frågeställning Det kanske viktigaste sättet att skaffa sig sådan kunskap är genom observationer Statistikteori är en viktig teori för hur observationer samlas in och analyseras och hur slutsatser kan dras från givna observationer. Ytterst kan vi se statistikteorin som teorin för hur observationer kan ligga till grund för en ökad kunskap om omvärlden. 22 Beskrivande och förklarande undersökningar Vid en beskrivande (deskriptiv) undersökning försöker man att, med hjälp av ett insamlat datamaterial, beskriva ett förhållande eller ett faktiskt händelseförlopp. Vid en förklarande undersökning försöker man klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör. 8
När man studerar förlopp över tiden vill man ibland göra förutsägelser om framtiden, sk prognoser. En statistisk undersöknings olika steg (i grova drag) Problemformulering Planering Datainsamling Analys Rapportering Statistiska metoder används för att sammanfatta samlade erfarenheter göra förutsägelser dra slutsatser fatta beslut då informationen är osäker. Sammanfattning: Statistikerns roll är att INSAMLA, BEARBETA och TOLKA data. 27 9
Hur går en statistisk undersökning till? Sakproblem Statistiskt problem Population Variabler Tabellplan Ram Urval Mätmetod Mätinstrument Datainsamling Obundet slumpmässigt urval (OSU) Stratifierat urval Klusterurval Databearbetning Granskning Rättning Kodning Dataregistrering (Stansning) Tabellframställning Publicering Flerstegsurval 28 Analys Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? Billigare Snabbare Bättre mätning Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig Förstörande prov 29 Olika typer av urval Lättåtkomliga element Frivilliga svar Frivilliga försökspersoner Sannolikhetsurval 30 10
Individer och variabler Individer, undersökningsobjekt De vi undersöker. De vi gör mätningar på. Kan vara människor, men kan också vara djur, bostadshus, kommuner, mm. Variabel En egenskap som kan variera mellan olika individer 31 Variabler En variabel är en egenskap i populationen. Vi mäter variablerna med ett mätinstrument. Vilka variabler skall vi mäta? Hur kan vi mäta? Längd? Stress? Välfärd? Olika typer av variabler Variabler kan vara kategoriska (kvalitativa) eller kvantitativa. Kategorisk variabel (nominal/ordinal): Indelning av undersökningsenheterna i olika kategorier. Ex: kön, civilstånd, gymnasieprogram, partitillhörighet Kvantitativ variabel(interval/kvot eller scale): En variabel som är numerisk och där vi med hjälp av siffrorna kan uttala oss om hur mycket en undersökningsenhet har av en egenskap. Ex: ålder, längd, poäng på prov, inkomst 33 11
Diskreta och kontinuerliga variabler En kvantitativ variabel är antingen diskret eller kontinuerlig. Diskret: Kan endast anta ett ändligt antal värden eller kan anta ett oändlig antal värden som dock är uppräkneliga. Kontinuerlig: Kan anta alla värden i ett intervall. 34 35 DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? Tabeller Sammanfatta material Diagram Åskådliggöra material Lägesmått Genomsnitt av material Spridningsmått Variation i material 36 12
Kategoriska variabler För att visa en fördelning, i en population eller ett urval, när man har en kategorisk variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram. 37 Stapeldiagram, en variabel. Absoluta frekvenser. 200 100 Count 0 Arbetare Säljare Chef Yrke 38 Stapeldiagram, en variabel. Relativa frekvenser. 70 60 50 40 30 20 Percent 10 0 Arbetare Säljare Chef Yrke 39 13
Cirkeldiagram Chef 13,7% Säljare 24,3% Arbetare 62,0% 40 Fotbollsspelarens rörelsemönster 60 50 40 30 20 Percent 10 0 Stående+gång Halvsnabb+snabb löpn Joggning+lätt löpnin Ryck Bollinnehav Aktivitet 41 Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stambladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram. 42 14
Histogram. Nyfödda barns fördelning på variabeln längd 600 500 400 300 200 100 0 34.0 38.0 42.0 46.0 50.0 54.0 58.0 36.0 40.0 44.0 48.0 52.0 56.0 längd 43 Histogram. Åldersfördelning för ett urval av högskoleprovtagare. ANTAL 700 600 500 400 300 200 100 0 15,0 25,0 35,0 45,0 55,0 65,0 75,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 ÅLDER 44 Stapeldiagram, två variabler 50 40 30 20 Percent 10 0-24 25-29 30-39 40- Kön Man Kvinna Åldersklass 45 15
Stam bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4,00 0. 2344 6,00 0. 567889 7,00 1. 0222233 8,00 1. 56788899 9,00 2. 111123344 5,00 2. 56679 2,00 3. 34 Stem width: 10,00 Each leaf: 1 case(s) 46 Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram, med tiden på x axeln och datavärdena på y axeln. I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer. 47 Privat konsumtion i USA 200 180 Personal consumption expenditures 160 140 120 100 80 60 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 Year 48 16
Försäljning, kvartalsdata 300 200 100 SALES 0 Q1 1992 Q1 1993 Q1 1994 Q1 1995 Q1 1996 Q1 1997 Q3 1992 Q3 1993 Q3 1994 Q3 1995 Q3 1996 Q3 1997 Date 49 Spridningsdiagram 50 Beskrivande mått Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal. Lägesmått används för att beskriva centrum: typvärde, median och medelvärde Spridningsmått används för att beskriva spridningen: variationsvidd, kvartilavstånd, standardavvikelse 51 17
Lägesmått Typvärde: Det mest frekventa värdet Medianen, M: Värdet i mitten (rangordna) Udda antal värden : mittersta värdet Jämt antal värden: medelvärdet av de två mittersta Medelvärdet, x : Summan av alla värden delat med antalet värden. x1 x2... xn x n 1 x n n xi i1 52 Exempel 1 Hemläxa: beräkna typvärde, median och medelvärde för följande tre dataset. a) 3, 5, 9, 7, 6, 9, 10 (Svar: 9; 7; 7) b) 3, 5, 9, 7, 6, 9, 100 (Svar: 9; 7; 19.86) c) 3, 5, 9, 7, 6, 9, 10, 4 (Svar: 9; 6.5; 6.63) 53 Här är medelvärde och median lika. Hur ska man skilja på dessa? Frekvens Frekvens 5 5 4 4 3 2 Frekvens 3 2 Frekvens 1 1 0 7 8 9 10 11 12 13 Fler 0 7 8 9 10 11 12 13 Fler 54 18
Spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet, IQR, anger inom vilket avstånd de 50% mittersta observationerna ligger (Q3 Q1). Standardavvikelsen, s, beskriver hur mycket mätvärdena avviker från medelvärdet. 55 Kvartiler Kvartilerna delar upp datat i fyra lika stora delar. Första kvartilen (Q1): 25% av alla värden är mindre än Q1 Andra kvartilen (Q2): medianen Tredje kvartilen (Q3): 25% av alla värden är större än Q3. 56 3, 5, 9, 7, 6, 9, 10 Descriptive Statistics: N Mean Minimum Q1 Median Q3 Maximum 7 7 3 5 7 9 10 Five-number summary 57 19
Låddiagram (Boxplot) Outlier Minsta punkten inom inre staketet Största punkten inom inre staketet Misstänkt outlier o X X * Yttre staket Inre staket Q 1-1.5(IQR) Q 1-3(IQR) Q Median 1 Q 3 Kvartilavstånd IQR Inre staket Q 3 +1.5(IQR) Yttre staket Q 3 +3(IQR) 58 3, 5, 9, 7, 6, 9, 100 Descriptive Statistics: N Mean Minimum Q1 Median Q3 Maximum 7 19,9 3 5 7 9 100 59 Exempel: BMI (Body Mass Index, kg/m^2) för fotbollsspelare (samtliga spelare i de två bästa lagen år 2003) i fyra olika ligor. 26,00 25,00 24,00 23,00 bmi 22,00 21,00 20,00 19,00 Spanien Italien E ngland S verige Land 60 20
Standardavvikelse Beskriver hur mycket mätvärdena varierar kring medelvärdet. Stickprovsvarians, s 2 : 2 1 s n 1 n 1 ( x i x) 2 Stickprovsstandardavvikelse, s: s 1 n 1 n 1 ( x i x) 2 61 Exempel: 3, 5, 9, 7, 6, 9, 10 Hemläxa: Beräkna medelvärde och standardavvikelse? (använd formler på föregående sidor) Hjälptabell x i x x i x (x i x ) 2 Medel=7 Summa=38 Svar: medelvärde = (3+5+9+7+6+9+10)/7 = 7 statndardavvikelse = rot(((3-7)^2+ +(10-7)^2)/6)=rot(38/6)=2.52 62 Exempel: Ålder Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 50 42,58 11,21 23,00 32,75 42,00 50,25 64,00 63 21