732G70, 732G01 Statistik A 7hp Linda Wänström (linda.wanstrom@liu.se) Tommy Schyman (tommy.schyman@liu.se) Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin 1
Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information Wikipedia [Statistik är] vetenskapen om hur data med inslag av slumpmässig variation eller osäkerhet skall insamlas, utvärderas och presenteras Nationalencyklopedin Statistik vetenskapen om metoder för insamling, bearbetning, redovisning och analys av data Svenska Akademiens Ordbok 2 2
Kursupplägg 10 föreläsningar 4 lektioner 4 räknestugor 3 datorövningar (labbar) 3
Kurslitteratur Tillämpad statistik en grundkurs av Karl Wahlin Kurskompendium med extra övningsuppgifter Föreläsningsunderlag läggs ut på kurshemsidan senast kvällen innan föreläsningen. 4
Examination Skriftlig salstentamen den 19 april kl 8-12 Hjälpmedel: Räknedosa av valfri modell Kursboken Anteckningar i kursboken är ej tillåtna, däremot markeringar. 5
Kurshemsida Föreläsningsunderlag Datorövningar Kursplan Löpande information http://www.ida.liu.se/~732g70 6
Kapitel 2 Populationer, stickprov och variabler Sid 11-46 7
Population Den samling enheter (exempelvis individer) som vi vill dra slutsatser om. Populationen definieras på logisk väg med utgångspunkt från den frågeställning vi vill besvara. - Studerande vid Linköpings universitet, Campus Valla - Röstberättigade i Sverige Antalet enheter i populationen betecknas med N. 8
Urval med och utan återläggning Inom statistiken är det vanligt att man talar om ändliga respektive oändliga populationer. En oändlig population förenklar räknearbetet, eftersom de enheter som väljs ut ur stickprovet då kan betraktas som oberoende. Vi har en skål med 5 kulor, vilken vi betraktar som en population. Ur populationen vill vi dra ett stickprov om 3 kulor. Sannolikheten för en specifik kula att bli utvald som den första är 1/5. Nu finns det bara fyra kulor kvar i skålen. Sannolikheten för en specifik kula av de fyra som är kvar att bli utvald som den andra är 1/4. Sannolikheten för en specifik kula av de tre resterande att bli den sista kulan är 1/3. Vi ser att sannolikheterna förändras mellan varje dragning med statistiskt språkbruk säger vi att det råder ett beroende mellan dragningarna. Om skålen istället hade innehållit 10000 kulor och vi skulle välja 3 hade sannolikheten för en specifik kula att bli utvald som den första varit 1/10000, som den andra 1/9999 och som den tredje 1/9998. Den praktiska skillnaden i sannolikhet mellan varje dragning är så liten att den kan betraktas som försumbar, och vi kan betrakta dragningarna som oberoende. Ett vanligt sätt att betrakta oändliga respektive ändliga populationer är genom dragning med eller utan återläggning. Ett exempel på dragning med återläggning är om vi lägger tillbaka kulan i skålen efter att den blivit dragen: sannolikheten för en specifik kula att dras förändras inte mellan dragningarna. En vanlig tumregel är att populationen ur statistiskt perspektiv kan betraktas som oändlig om urvalet utgör mindre än 10% av populationsstorleken. 9 9
Stickprov (Slumpmässigt) urval av enheter ur populationen. Det finns många olika metoder för att dra stickprov (detta behandlas senare i kursen) men gemensamt för dem är att stickprovet ska vara så representativt för populationen som möjligt. Antalet enheter i stickprovet betecknas med n. 10
Variabel Variabel = en egenskap som varierar. Vi kan göra upprepade observationer för att mäta dess värden. Kvalitativa variabler: variabler som ej mäts numeriskt (i sifferform) Nationalitet Kvantitativa variabler: variabler som direkt mäts numeriskt Diskreta kvantitativa variabler: kvantitativa variabler som endast kan anta ett ändligt antal värden, eller ett oändligt men uppräkneligt antal Kontinuerliga kvantitativa variabler: kvantitativa variabler som kan anta ett oändligt antal värden Antal anställda vid ett företag (diskret kvantitativ variabel) En persons längd (kontinuerlig kvantitativ variabel) En variabel betecknas (oftast) med X (stort X), och de värden som observeras för variabeln betecknas x 1, x 2, (små x)
Nominalskala Hos kvalitativa variabler. När variabelns möjliga värden bara kan betraktas som ickenumeriska grupper utan inbördes ordning Bedömer Du att generalindex kommer att stiga under april månad? Variabeln ( )Ja ( )Nej Variabelns möjliga värden 12
Ordinalskala Hos kvalitativa eller kvantitativa variabler. När variabelns möjliga värden kan betraktas som grupper, antingen numeriska eller ej, som kan rangordnas. Exempel kvalitativ variabel på ordinalskala: Hur bedömer Du Din närmaste chefs ledaregenskaper? ( ) Mycket goda ( ) Ganska goda ( ) Godkända ( ) Ganska dåliga ( ) Mycket dåliga Exempel kvantitativ variabel på ordinalskala: Hur många anställda har Ert företag? ( )0-5 ( )6-15 ( )16-50 ( )51-13
Metrisk skala Hos kvantitativa variabler. När avstånden mellan värdena är desamma. Den dagliga försäljningen i en butik... 2011-10-19 16530 kr 2011-10-20 21465 kr 2011-10-21 8972 kr.. 14
En variabels fördelning En variabels fördelning är en sammanställning över vilka värden variabeln kan anta och hur ofta respektive värde antas. Fördelningar beskrivs oftast i diagramform. Olika angreppssätt används för att beskriva fördelningar för Kvalitativa variabler Kvantitativa diskreta variabler Kvantitativa kontinuerliga variabler 15
Exempel Företagshälsovården vid ett företag sänder ut en enkät där de anställda bland annat får svara på frågan Hur bedömer Du Din närmaste chefs ledaregenskaper? ( ) Mycket goda ( ) Ganska goda ( ) Varken bra eller dåliga ( ) Ganska dåliga ( ) Mycket dåliga Resultaten sammanställs i följande frekvenstabell Åsikt (x) Antal (f) Mycket goda 42 Ganska goda 61 Varken bra eller dåliga 84 Ganska dåliga 23 Mycket dåliga 10 Totalt 220 16
Att åskådliggöra fördelningen för en kvalitativ variabel: stapeldiagram 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% Mycket goda Ganska goda Varken bra eller dåliga Ganska dåliga Mycket dåliga 17
Alternativ metodik för att åskådliggöra fördelningen för en kvalitativ variabel: cirkeldiagram Mycket goda Varken bra eller dåliga Mycket dåliga Ganska goda Ganska dåliga 5% 10% 19% 38% 28% 18
Exempel En annan fråga på enkäten löd Hur många dagar i veckan motionerar Du? ( ) Ingen ( ) 1 ( ) 2 ( ) 3 ( ) 4 ( ) 5 ( ) 6 ( ) 7 Resultaten sammanställs enligt Antal dagar (x) Antal (f) Andel (%) 0 84 38 1 41 19 2 51 23 3 22 10 4 8 4 5 6 3 6 5 2 7 3 1 Totalt 220 100% 19
Att åskådliggöra fördelningen för en diskret kvantitativ variabel med få värden: stolpdiagram 45% 40% 35% 30% 25% 20% 15% 10% 5% 0% 0 1 2 3 4 5 6 7 Antal motionsdagar per vecka Stolpdiagrammet är likt stapeldiagrammet, men ritas med smalare staplar 20
Exempel Dygnsmedeltemperatur (grader Celsius) i centrala Linköping under juli månad 2011. Dag 1 2 3 4 5 6 7 Temp 20.9 20.7 19.1 16.6 18.7 19.8 19.1 Dag 8 9 10 11 12 13 14 Temp 19.2 18.6 18.4 17.3 17.8 16.0 14.7 Dag 15 16 17 18 19 20 21 Temp 16.1 16.7 18.2 15.6 18.7 19.0 18.6 Dag 22 23 24 25 26 27 28 Temp 19.7 20.1 17.0 19.1 18.4 18.4 20.8 Dag 29 30 31 Temp 20.1 19.0 19.9 21
Att åskådliggöra fördelningen för en kontinuerlig kvantitativ variabel eller en diskret variabel med många värden: histogram 35% 30% 25% 20% 15% 10% 5% 0% -15.9 16.0-16.9 17.0-17.9 18.0-18.9 19.0-19.9 20.0- Dygnsmedeltemperatur (grader Celsius) 22
Stam- och bladdiagram Vi har samlat in information om antalet timmar tio timanställda vid ett företag arbetat under en viss vecka. 15 19 21 25 28 32 34 37 41 49 Åskådliggör fördelningen för antalet timmar de timanställda arbetade vid företaget den aktuella veckan. 1 5 9 2 1 5 8 3 2 4 7 4 1 9 Stam Blad 23 2 3
Beskrivande mått: lägesmått Stickprovsandel: p = antal enheter i stickprovet med studerad stickprovsstorlek egenskap Populationsandel: π = antal enheter i populationen med studerad populationsstorlek egenskap Företagshälsovården vid ett företag gör en undersökning om rökvanor. För ett stickprov om 550 anställda uppgav 187 att de röker. Andelar uttrycks ofta i procent. 24
Beskrivande mått: lägesmått Typvärde Det värde som förekommer med högst frekvens i en fördelning Vi studerar valet av andraspåk bland ett urval gymnasister: Franska Spanska Spanska Tyska 25
Beskrivande mått: lägesmått Stickprovsmedelvärde beräknat på rådata x = 1 n n i= 1 x i Populationsmedelvärde beräknat på rådata µ = 1 N N i= 1 x i Vi har noterat längden (i cm) på ett slumpmässigt urval om fem personer ur en population. 165 188 159 170 198 26
Beskrivande mått: lägesmått Stickprovsmedelvärde beräknat på grupperade data g fi xi i= x = 1 n Populationsmedelvärde beräknat på grupperade data g fi xi i= µ = 1 N där g är antalet grupper/klasser Vi betraktar återigen antal motionsdagar. Beräkna medelvärdet för antal motionsdagar! Antal dagar (x) Antal (f) Andel (%) 0 84 38 1 41 19 2 51 23 3 22 10 4 8 4 5 6 3 6 5 2 7 3 1 Totalt 220 100% 27
Beskrivande mått: lägesmått Medianen, M, beräknat på rådata: Om antalet observationer i fördelningen är udda, så letar vi upp det mittersta värdet i det storleksordnade materialet Om antalet observationer i fördelningen är jämnt, så måste vi räkna ut medianen som medelvärdet av de två mittersta värdena i det storleksordnade materialet Medianen ligger alltid på position i ett storleksordnat datamaterial Vi har noterat längden (i cm) på ett stickprov om fem personer som dragits slumpmässigt ur en population. 159 165 170 188 198 (värdena har storleksordnats) Vi har vägt fyra personer: 53 62 70 85 n +1 2 28
Beskrivande mått: lägesmått Median beräknat på klassindelade data: M = U M + n 2 F f M M 1 B M n = stickprovsstorlek U M = undre klassgräns för medianklassen F M-1 = kumulativ frekvens i klassen före medianklassen f M = frekvens för medianklassen B M = klassbredd (övre undre gräns) för medianklassen Följande tabell redovisar åldrarna på de 80 medlemmarna i en idrottsförening. Ålder (år) Antal personer -19 15 20-24 13 25-29 24 30-39 14 40-14 Bestäm medianåldern i idrottsföreningen! 29
Beskrivande mått: spridningsmått Stickprovsstandardavvikelse beräknat på rådata s = 1 n 1 n ( x i x) i= 1 2 Populationsstandardavvikelse beräknat på rådata σ = 1 N ( x i µ ) N i= 1 2 I populationsstandardavvikelsen dividerar vi med N istället för n 1. Det kommer sig av att populationsmedelvärdet är en konstant och inte en variabel såsom stickprovsmedelvärdet Vi har noterat längden (i cm) på ett slumpmässigt urval om fem personer ur en population. 165 188 159 170 198 30
Beskrivande mått: spridningsmått Stickprovsstandardavvikelse beräknat på grupperade data: s = g 2 1 f x g i i 2 i= f ( x x) = 1 i i i= 1 n n 1 g i= 1 1 Populationsstandardavvikelse beräknat på grupperade data: g 2 Antal dagar Antal Andel f x g i i (x) (f) (%) 2 i fi x = 1 g i 1 i= N 0 84 38 2 1 σ = fi ( xi µ ) = N i= 1 N 1 41 19 2 51 23 3 22 10 Vi betraktar återigen antalet 4 8 4 motionsdagar. 5 6 3 6 5 2 7 3 1 Totalt 220 100% f i n x i 2 31
Beskrivande mått Kvartiler första kvartil (q1) = mittersta värdet i första halvan av det storleksordnade materialet tredje kvartil (q3) = mittersta värdet i andra halvan av det storleksordnade materialet Vi har noterat längden (i cm) på ett stickprov om fem personer som dragits slumpmässigt ur en population. 159 165 170 188 198 (värdena har storleksordnats) Kvartilavstånd q3 q1 Lådagram Ett diagram som konstrueras som en låda som begränsas av första och tredje kvartilen. I lådan markeras medianen och streck dras från lådan ned till den minsta och upp till den största observationen. Percentiler Delar upp data i hundra lika stora delar. 32
När bör vi använda vilka beskrivande mått? Kvalitativ variabel Diskret kvantitativ variabel Typvärde Median Medelvärde Kontinuerlig kvantitativ variabel Median Kvartiler Standardavvikelse Kvartiler Andelar Medelvärde Standardavvikelse Andelar 33
Standardvägning Ett fackförbund önskar jämföra medellönen vid två företag inom samma verksamhetsområde. Följande information samlas in. Befattning Bolag A Antal personer Medellön (tkr) Bolag B Antal personer Mellanchef/chef 6 36.6 15 34.5 Tjänstemän 77 20.4 34 19.8 Administrativ personal Jämför medellönen vid de två bolagen! 89 17.2 21 17.1 Medellön (tkr) Standardvägning: metod för att kompensera för att fördelningen av enheter är olika över kategorierna i de grupper som undersöks. Räkna som med vägda medeltal men välj vikter enligt totalantalet personer i respektive radkategori. 34 3 4
Kapitel 3 Sannolikhetsteori Sid 47-78 35
Mängdlära Inom statistiken använt som en metod för att hantera och åskådliggöra sannolikheter, men ur ett bredare perspektiv en viktig byggsten inom matematik. S = utfallsrum = samtliga möjliga utfall vid ett experiment. När vi kastar en tärning finns det 6 möjliga utfall: vi definierar utfallsrummet S som S = {1, 2, 3, 4, 5, 6} Varje beståndsdel i utfallsrummet kallas för ett element. Låt A = händelsen udda antal ögon upp vid tärningskast B = händelsen högst 3 ögon upp vid tärningskast Om mängden A ingår i S säger vi att A är en delmängd av S och tecknar detta som A S. 36 3 6
Snitt och union Låt A och B vara två delmängder av S. Snitt Snittet ger de element som tillhör både A och B: tecknas A B Union Unionen ger de element som tillhör A eller B (eller båda): tecknas A B S S Snitt av A och B Union av A och B 37 3 7
Disjunkta (oförenliga) händelser Händelser som inte har någon gemensam mängd Vi drar ett kort ur en kortlek. Låt A = händelsen att kortet är ett hjärter B = händelsen att kortet är ett spader S Disjunkta händelser framträder i Venndiagrammet som områden som inte har någon överlappande yta 38 3 8
Oberoende händelser Att händelser är oberoende innebär att sannolikheten för att en händelse ska inträffa inte påverkas av att en annan händelse redan inträffat eller inte inträffat. Att händelser är oberoende kan man inte se i Venndiagrammet, utan här får vi göra ett teoretiskt övervägande (senare ska vi dock studera matematiska metoder) för att bestämma om händelserna är oberoende eller ej. Kasta tärning två gånger och definiera händelserna A = händelsen att första kastet ger 6 ögon upp B = händelsen att andra kastet ger 6 ögon upp Då är händelserna A och B oberoende, eftersom de två tärningskasten inte kan påverka varandra. Om händelserna A och B är disjunkta så är de inte oberoende! Detta stämmer därför att när A inträffat så vet vi att B inte kan inträffa. Alltså påverkar de varandra, och följaktligen är de inte oberoende. 39 3 9
Kombinatorik: Multiplikationsprincipen Antag att en bilfabrikant låter kunderna välja på röd, svart, blå eller grön lack, svart, grå eller beige inredning och stora eller små fälgar. På hur många sätt kan en bilspekulant komponera sin bil? Multiplikationsprincipen används när vi i tur och ordning ska utföra k operationer, och vill veta på hur många sätt operationerna totalt kan utföras på. n 1 n... 2 n k Multiplikationsprincipen åskådliggörs ofta i träddiagram. 40 4 0
Permutationer när alla element är olika En förening har fyra medlemmar. Två medlemmar ska väljas ut och dessutom rangordnas. På hur många sätt kan det ske? När vi har en mängd bestående av n element och ur denna vill välja ut k element i en viss ordningsföljd då varje element endast får användas en gång, så talar vi om permutationer när alla element är olika. Antalet permutationer när alla element är olika beräknas enligt P k n = n! ( n k )! 41 4 1
Permutationer när vissa element är lika Vi har namnet BILL På hur många sätt kan bokstäverna i namnet arrangeras? Antalet permutationer av n element när k 1 är av en typ, k 2 är av en annan typ, osv, är, 2,... P k k n = 1 n!! k!... 1 k 2 {B,I,L,L} {B,L,I,L} {B,L,L,I} {I,B,L,L} {I,L,B,L} {I,L,L,B} {L,B,L,I} {L,B,I,L} {L,I,B,L} {L,I,L,B} {L,L,B,I} {L,L,I,B} 42 4 2
Kombinationer utan upprepning En skål innehåller 4 alfapetbrickor, med bokstäverna A D O S Vi drar slumpmässigt och utan återläggning 2 brickor ur skålen. Hur många kombinationer av två bokstäver kan vi få? När vi utan hänsyn till ordningen bland totalt n element väljer ut en delmängd om k element. Varje element kan bara väljas ut en gång varför situationen kan betraktas som dragning utan återläggning. Antalet kombinationer utan upprepning när k element väljs ut bland n är C k n n = = k n! k!( n k)! 43 4 3
Kombinationer vid upprepning Vi tar tre skopor glass och vid varje skopa kan vi välja mellan 5 smaker. På hur många sätt kan en glass konstrueras? En kombination vid upprepning fås när vi utan hänsyn till ordningen bland totalt n element väljer ut en delmängd om k element och där varje element kan väljas ut mer än en gång (dragning med återläggning). Låt n vara antalet element vi väljer bland och k antalet element vi väljer ut. Antalet kombinationer vid upprepning är då ' C k n n + k = k 1 = ( n + k ) 1! k! ( n 1)! 44 4 4