Föreläsning 4 Statistiska metoder 1
Dagens föreläsning o Sannolikhet Vad är sannolikhet? o Slumpvariabel o Sannolikhetsfördelningar Binomialfördelning Normalfördelning o Stickprov och population o Centrala gränsvärdessatsen 2
Sannolikhet Exempel Teoretiskt är sannolikheten för att få krona vid slantsingling 50 %. Men hur ser det ut rent praktiskt? 3
Sannolikhet Sannolikhet är chansen (eller risken) att få ett visst utfall vid ett försök. Om ett försök upprepas väldigt många gånger bör den relativa frekvensen (procent) för de olika utfallen närma sig den teoretiska sannolikheten. Ingen sannolikhet kan vara negativ och inte heller större än 1, och dessutom ska alla möjliga sannolikheter för de olika utfallen summera till 1. 4
Sannolikhet Slumpvariabel När man studerar sannolikheter och de olika utfallen är det slumpvariabler som undersöks. En slumpvariabel kan t.ex. vara: o X = antal rökare i ett urval om n stycken personer o X = längd på svenska kvinnor En slumpvariabel kan variera från urval till urval, och man kan med hjälp av olika sannolikhetsfördelningar beräkna de teoretiska sannolikheterna för de olika utfallen. 5
Sannolikhetsfördelning Binomialfördelning I boken finns ett exempel gällande rökare, där man antar att 1/3 av personalen på ett stort företag är rökare. Ett stickprov om 40 anställda på detta företag dras, så den slumpvariabel som undersöks är: o X = antal rökare i stickprovet om 40 anställda För att beskriva sannolikhetsfördelningen för denna (diskreta) slumpvariabel kan binomialfördelningen användas. För att beräkna sannolikheterna för de olika utfallen används denna formel: P X = x = n! x! n x! px 1 p n x 6
Sannolikhetsfördelning Binomialfördelning Nedan visas sannolikhetsfördelningen för antalet rökare i stickprovet visuellt. Vi använder formeln från föregående sida och beräknar lite olika sannolikheter. 7
Sannolikhetsfördelning Normalfördelning När en kontinuerlig slumpvariabel undersöks går man över till normalfördelningen. Ytan under kurvan i normalfördelning summerar till 1 (100 %), vilket är en förutsättning för att den ska kunna användas vid sannolikhetsberäkningar. 8
Sannolikhetsfördelning Normalfördelning Normalfördelningen är symmetrisk kring sitt medelvärde (μ), vilket innebär att den har likadant utseende ovan medelvärdet som under medelvärdet. På sidan 192 i boken finns det en tabell där det har sammanställts hur stor sannolikheten är att en standardiserad normalfördelad variabel är större än ett visst värde z. En standardiserad normalfördelad variabel har medelvärde 0 och standardavvikelse 1. För att standardisera en normalfördelad variabel X används: X μ Z = σ 9
Sannolikhetsfördelning Normalfördelning, exempel Sannolikheten att en kontinuerlig slumpvariabel X ska anta ett specifikt värde är i princip 0. Därför är det mest intressant att undersöka sannolikheten att slumpvariabeln är mindre än eller större än ett visst värde, eller sannolikheten att den skulle vara mellan två värden. Vi definierar slumpvariabeln: X = längden hos en slumpmässigt vald svensk kvinna Anta att längden är normalfördelad med medelvärde 168 cm och standardavvikelse 5 cm. Beräkna sannolikheten att: en kvinna är längre än 170 cm en kvinna är kortare än 167 cm en kvinna är mellan 167 och 170 cm lång 10
Population och stickprov Tanken med stickprov är att med hjälp av del av populationen skatta populationens parametrar, som t.ex. medelvärde och standardavvikelse. För att göra skillnad på populationens parametrar och de skattade värdena från stickprov brukar dessa benämningar användas: o Medelvärde: populationsmedelvärde = μ stickprovsmedelvärde = X o Standardavvikelse: populationsstandardavvikelse stickprovsstandardavvikelse = σ = s 11
Centrala gränsvärdessatsen Metoder som kommer att diskuteras på kommande föreläsningar bygger på att man kan anta normalfördelning. Men, ibland kan man inte anta att värdena i populationen är normalfördelade. Då kan man istället förlita sig på centrala gränsvärdessatsen (CGS). CGS säger att om n är tillräckligt stort blir medelvärdet av slumpvariabeln normalfördelat. 12
Centrala gränsvärdessatsen Exempel Nedan visas sannolikhetsfördelning för hur många syskon personer i Sverige har (påhittade siffror). 13
Centrala gränsvärdessatsen Exempel 10 000 stickprov dras från populationen från föregående sida. Som synes blir fördelningen för medelvärdena i dessa stickprov normalfördelad. 14
Tack för idag! Nästa tillfälle: Föreläsning 5, tisdag 5/3 13-15, sal A34 15