Föreläsning 5 Statistiska metoder 1
Dagens föreläsning o Konfidensintervall För andelar För medelvärden Vid jämförelser o Den statistiska felmarginalen o Stickprovsstorlek 2
Introduktion När man beräknar medelvärden och andelar utifrån stickprov så gör man enbart punktskattningar av populationens värden. Dessa punktskattningar varierar så klart från stickprov till stickprov och de träffar väldigt sällan populationens sanna värden. För att hantera den osäkerhet som uppstår kan konfidensintervall skapas. Dessa intervall täcker med en viss säkerhet populationens sanna värden, och denna säkerhet kallas för konfidensgrad. Konfidensgraden brukar vara 90, 95 eller 99 %. Två viktiga egenskaper för konfidensintervall: o Högre konfidensgrad (säkerhet) leder till bredare intervall o Större stickprov leder till smalare intervall 3
Andel När ett konfidensintervall för populationsandelen (π) ska skapas så måste man först undersöka om stickprovet är tillräckligt stort, vilket det är om: n p 1 p > 5 Där p är stickprovsandelen och n är stickprovsstorleken. Därefter beräknas ett intervall enligt detta uttryck: p ± z p(1 p) n z bestäms av den valda konfidensnivån och hämtas från tabell 2 (sida 193 i kursboken). 4
Andel, exempel Man vill undersöka (den vuxna) befolkningens inställning till det svenska medlemskapet i EU. Bland 120 tillfrågade slumpmässigt utvalda personer uppger 48 att de är negativa till det svenska medlemskapet. o Bilda ett 95% konfidensintervall för andelen i hela populationen som är negativa till det svenska medlemskapet i EU. o Om man i stället valt 1200 personer och 480 sagt sig vara negativa till det svenska medlemskapet, hur påverkas då konfidensintervallet? 5
Medelvärde När konfidensintervall för populationsmedelvärdet (μ) ska beräknas kan två formler användas. Om stickprovet är stort (n > 30) används: x ± z s n Om stickprovet är litet (n < 30) används: x ± t s n Där värdet på t har n-1 frihetsgrader (fg) och hämtas från tabell 3. s är stickprovets standardavvikelse och n är stickprovsstorleken. 6
Medelvärde, exempel En vintillverkare vill undersöka hur bra den vuxna svenska befolkningen tycker om ett visst vin. Tio slumpmässigt utvalda personer får provsmaka vinet och sätta betyg på en skala 1 20, där 1 motsvarar uselt och 20 motsvarar utsökt. Betygen finns sammanställda i tabellen nedan. Person 1 2 3 4 5 6 7 8 9 10 Betyg 12 11 14 12 13 10 15 16 14 14 Beräkna ett konfidensintervall med 95 % konfidensgrad för den vuxna svenska befolkningens medelbetyg. 7
Vid jämförelser, andel Ibland kan det vara intressant att undersöka skillnader mellan två olika populationer. Vi börjar med jämförelse av andelar. Beteckningar: o π 1 och π 2 är populationsandelarna för population 1 respektive 2. o p 1 och p 2 är stickprovsandelarna för population 1 respektive 2. o n 1 och n 2 är stickprovsstorlekarna för de två populationerna. Populationsandelarna är okända, så differensen (π 1 π 2 ) mellan dessa skattas med hjälp av p 1 p 2. 8
Vid jämförelser, andel Givet att de två stickproven är tillräckligt stora (np 1 p > 5) så kan konfidensintervall för differensen π 1 π 2 skapas med hjälp av följande uttryck: p 1 p 2 ± z p 1 (1 p 1 ) n 1 + p 2(1 p 2 ) n 2 Värdet på z hämtas från tabell 2. 9
Vid jämförelser, andel, exempel Vi anknyter till det tidigare exemplet, där inställningen till det svenska EU-medlemskapet undersöktes. Bland 120 slumpmässigt utvalda uppgav 48 att de var negativa till det svenska medlemskapet. En opinionsundersökning riktad till ett slumpmässigt urval om 1080 personer för ett år sedan visade att andelen som då var negativa till det svenska medlemskapet var 35.5%. o Bilda ett konfidensintervall med 95 % konfidensgrad för skillnaden i andelen EU-negativa i dag jämfört med för ett år sedan. 10
Vid jämförelser, medelvärden Det brukar också vara av intresse att jämföra medelvärden mellan två populationer (μ 1 μ 2 ). Åter igen kan två olika uttryck användas. Vid stora stickprov (båda n > 30): x 1 x 2 Vid mindre stickprov (n < 30): ± z s 1 2 2 n 1 + s 2 n 2 x 1 x 2 ± t s p 2 1 n 1 + 1 n 2 s p 2 = n 1 1 s 1 2 + (n 2 1)s 2 2 n 1 + n 2 2 När t hämtas används n 1 + n 2 2 frihetsgrader. 11
Vid jämförelser, medelvärden, exempel Vintillverkaren vi stötte på tidigare vill undersöka hur stor skillnad det är i betyg mellan två av sina viner. Tio slumpmässigt utvalda personer fick provsmaka vin A och nio andra slumpmässigt utvalda personer provsmakade vin B. Betygen syns i tabellen nedan. Vin A Vin B 12 11 11 10 14 12 12 11 13 10 10 11 15 9 16 12 14 8 14 o Beräkna ett konfidensintervall med 95 % konfidensgrad för skillnaden i betyg mellan de två vinerna. 12
Den statistiska felmarginalen Vad är det? På nyheter hörs ofta meningen: men detta ligger inom den statistiska felmarginalen. Förenklat innebär detta att det inte skett någon statistiskt säkerställd skillnad från tidigare mätningar eller mellan olika grupper. Vi kommer att diskutera detta mer när vi kommer in på hypotesprövning. Rent matematiskt så är det som finns till höger om ± i ett intervalluttryck den statistiska felmarginalen. Den statistiska felmarginalen är alltså halva intervallbredden. 13
Stickprovsstorlek Andelar Innan en undersökning görs så kan man undersöka hur stort stickprov som bör dras för att en viss intervallbredd (d) ska uppnås. När andelar analyseras kan stickprovsstorleken bestämmas med hjälp av följande uttryck: n = 2 z 2 p(1 p) Punktskattningen (p) kan hämtas från tidigare undersökningar, eller så används p = 0.50, vilket ger största stickprovsstorleken. d 2 14
Stickprovsstorlek Medelvärden När medelvärden analyseras kan stickprovsstorleken bestämmas med hjälp av: n = 2 z 2 s2 d 2 Där stickprovsstandardavvikelsen s hämtas från tidigare liknande undersökningar, eller beräknas enligt exempel i boken. Stickprovsstorlekar avrundas alltid uppåt, och vi går inte in på beräkningar för stickprovsstorlekar vid jämförelser. 15
Stickprovsstorlek Exempel Vi återgår till undersökningen gällande andelen EU-negativa i den svenska befolkningen. Man vill nu beräkna ett konfidensintervall med 95 % konfidensgrad, där intervallbredden får vara högst 4 %. Hur många personer bör ingå i undersökningen? Vintillverkan vill återigen undersöka vad den vuxna svenska befolkningen tycker om vin A. Intervallets bredd ska vara högst 1 och konfidensgraden 95 %. Hur många personer bör provsmaka och betygssätta vinet? 16
Tack för idag! Nästa tillfälle: Laboration 3, onsdag 6/3 10-12, PC1-2 17