Föreläsning 1 732G70 Statistik A 1
Population och stickprov Population = den samling enheter (exempelvis individer) som vi vill dra slutsatser om. Populationen definieras på logisk väg med utgångspunkt från den frågeställning vi vill besvara, och exempel på populationer är studerande vid Linköpings universitet, eller röstberättigade i Sverige. Antalet enheter i populationen betecknas med N. Stickprov = slumpmässigt urval av enheter ur populationen. Det finns många olika metoder för att dra stickprov (detta behandlas senare i kursen) men gemensamt för dem är att stickprovet ska vara så representativt för populationen som möjligt. Antalet enheter i stickprovet betecknas med n. 2
Variabel Variabel = resultatet av upprepade mätningar eller observationer av ett fenomen Kvalitativa variabler: variabler som ej mäts numeriskt (i sifferform) Kvantitativa variabler: variabler som direkt mäts numeriskt Diskreta kvantitativa variabler: kvantitativa variabler som endast antar heltalsvärden Kontinuerliga kvantitativa variabler: kvantitativa variabler som kan mätas med många decimalers noggrannhet En variabel betecknas (oftast) med X (stort X), och de värden som observeras för variabeln betecknas x 1, x 2, (små x) 3
Nominalskala Hos kvalitativa variabler. När variabelns möjliga värden bara kan betraktas som ickenumeriska grupper utan inbördes ordning Exempel: Bedömer du att generalindex kommer att stiga under april månad? Variabeln ( )Ja ( )Nej Variabelns möjliga värden 4
Ordinalskala Hos kvalitativa eller kvantitativa variabler. När variabelns möjliga värden kan betraktas som grupper, antingen numeriska eller ej, som kan rangordnas. Exempel kvalitativ variabel på ordinalskala: Hur bedömer du din närmaste chefs ledaregenskaper? ( ) Mycket goda ( ) Ganska goda ( ) Godkända ( ) Ganska dåliga ( ) Mycket dåliga Exempel kvantitativ variabel på ordinalskala: Hur många anställda har ert företag? ( )0-5 ( )6-15 ( )16-50 ( )51-5
Intervallskala/kvotskala Hos kvantitativa variabler. När variabeln direkt mäts i numeriska värden. Intervallskalan har till skillnad från kvotskalan ingen väldefinierad nollpunkt. Exempel intervallskala: För en variabel på intervallskala kan man ange skillnad mellan mätvärden, exempelvis att 20 grader Celsius är 10 grader varmare än 10 grader Celsius och att 30 grader är ytterligare 10 grader varmare. Däremot är det inte riktigt att påstå att det en dag är dubbelt så varmt som föregående dag eftersom nollpunkten är godtycklig och det finns negativa temperaturvärden. Exempel kvotskala: Temperaturer i Kelvin är uppbyggda kring den absoluta nollpunkten och då kan vi säga att det en viss dag är dubbelt så varmt som en annan. Intervallskala och kvotskala kallas ibland med ett samlingsnamn för metrisk skala. 6
En variabels fördelning En variabels fördelning är en sammanställning över vilka värden variabeln kan anta och hur ofta respektive värde antas. Fördelningar beskrivs oftast i diagramform. Olika angreppssätt används för att beskriva fördelningar för Kvalitativa variabler Kvantitativa diskreta variabler Kvantitativa kontinuerliga variabler 7
Exempel En opinionsundersökning genomförs bland 1985 slumpmässigt utvalda röstberättigade i Sverige. Parti (x) Antal (f) Vänsterpartiet (V) 142 Miljöpartiet (Mp) 72 Socialdemokraterna (S) 695 Centern (C) 148 Folkpartiet (Fp) 238 Kristdemokraterna (Kd) 111 Moderaterna (M) 423 Övriga (Övr) 156 Totalt 1985 8
Att åskådliggöra fördelningen för en kvalitativ variabel - stapeldiagram 40% 35% 30% 25% 20% 15% 10% 5% 0% V Mp S C Fp Kd M Övr 9
Alternativ metodik för att åskådliggöra fördelningen för en kvalitativ variabel cirkeldiagram V Mp S C Fp Kd M Övr 7.86% 7.15% 3.63% 21.31% 35.01% 5.59% 11.99% 7.46% 10
Exempel En vårdcentral kartlägger antalet besök varje patient gjort de senaste 12 månaderna. Antal besök Antal (f) Andel (%) 0 351 28.44 1 452 36.63 2 212 17.18 3 121 9.81 4 64 5.19 5 24 1.94 6 8 0.65 7 1 0.08 8 1 0.08 Totalt 1234 100% 11
Att åskådliggöra fördelningen för en diskret kvantitativ variabel - stolpdiagram 40% 35% 30% 25% 20% 15% 10% 5% 0% 0 1 2 3 4 5 6 7 8 Antal besök senaste 12 månaderna Stolpdiagrammet är likt stapeldiagrammet, men ritas med smalare staplar 12
Exempel Ett företag har 20 anställda, och vi önskar studera lönefördelningen på företaget. Följande resultat erhålles (lönerna uttryckta i tusentals kronor). 15 28 38 49 19 31 39 51 21 32 41 55 23 34 43 58 25 37 47 62 13
Att åskådliggöra fördelningen för en kvantitativ variabel - histogram 35% 30% 25% 20% 15% 10% 5% 0% -20 21-30 31-40 41-50 51-60 61-70 Månadslön (tkr) 14
Stam- och bladdiagram Vi har samlat in information om antalet timmar tio timanställda vid ett företag arbetat under en viss vecka. 15 19 21 25 28 32 34 37 41 49 Åskådliggör fördelningen för antalet timmar de timanställda arbetade vid företaget den aktuella veckan. 15 1 5
Exempel Borde SVT reklamfinansieras? Män Kvinnor Negativa 15 105 Positiva 35 45 16
Korstabeller 80% 70% 60% 50% 40% 30% 20% 10% 0% Män Negativa Positiva Kvinnor 17 1 7
Beskrivande mått på variabler Stickprovsmedelvärde Populationsmedelvärde x 1 n 1 N xi xi Stickprovsstandardavvikelse s 1 n 1 ( x i x) 2 Populationsstandardavvikelse 1 N ( x i ) 2 2 Varians s respektive 2 I populationsstandardavvikelsen dividerar vi med N istället för n 1. Det kommer sig av att är en konstant och inte en variabel såsom x Exempel: Vi har noterat längden (i cm) på ett slumpmässigt urval om fem personer ur en population. 165 188 159 170 198 18 1 8
Beskrivande mått på variabler Typvärde: det vanligast förekommande värdet i en fördelning Exempel: Vi studerar valet av andraspåk bland ett urval gymnasister: Franska Spanska Spanska Tyska Median: Om antalet observationer i fördelningen är udda, så letar vi upp det mittersta värdet i det storleksordnade materialet Om antalet observationer i fördelningen är jämnt, så måste vi räkna ut medianen som medelvärdet av de två mittersta värdena i det storleksordnade materialet Exempel: Vi har noterat längden (i cm) på ett stickprov om fem personer som dragits slumpmässigt ur en population. 165 188 159 170 198 Exempel: Antag att vi mätt vikten på fyra personer: 53 62 70 85 Kvartiler: första kvartil (Q1) = mittersta värdet i första halvan av det storleksordnade materialet tredje kvartil (Q3) = mittersta värdet i andra halvan av det storleksordnade materialet
Beskrivande mått på variabler Stickprovsandel p antal enheter i stickprovet med studerad stickprovsstorlek egenskap Populationsandel antal enheter i populationen med studerad populationsstorlek egenskap Exempel: Företagshälsovården vid ett företag gör en undersökning om rökvanor. För ett stickprov om 550 anställda uppgav 187 att de röker. Stickprovsandelen rökare är p 187 550 0.34 Andelar uttrycks ofta i procent, och vi drar därför slutsatsen att 34% av de anställda som besvarade enkäten är rökare. 20
När bör vi använda vilket beskrivande mått? Kvalitativ variabel Diskret kvantitativ variabel Kontinuerlig kvantitativ variabel Typvärde Median Medelvärde Median Kvartiler Standardavvikelse Kvartiler Medelvärde Andelar Standardavvikelse Andelar 21
Vägda medeltal och standardvägning Exempel: Ett företag vill undersöka om det finns några skillnader i genomsnittlig sjukfrånvaro mellan kvinnliga och manliga anställda. För att svara på denna fråga går man igenom ett års statistik över sjukfrånvaro och får fram följande resultat: Antal personer Unga kvinnor 5 12 Medelålders kvinnor 4 15 Äldre kvinnor 40 22 Unga män 47 15 Medelålders män 5 17 Äldre män 2 23 Medelantal sjukfrånvarodagar 22 2 2