Föreläsning 7 Statistiska metoder 1
Dagens föreläsning o Hypotesprövning för två populationer Populationsandelar Populationsmedelvärden Parvisa observationer Relation mellan hypotesprövning och konfidensintervall o Den statistiska felmarginalen 2
Introduktion Hypotesprövning kan även användas för att utreda om det är signifikant skillnad mellan två olika populationer. I denna kurs fokuseras det på signifikanta skillnader i populationernas medelvärden och andelar. Om det ej går att förkasta nollhypotesen, så är de uppmätta skillnaderna mellan de två stickproven som observerats inom den statistiska felmarginalen. Metodiken är densamma som vid en population: 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna testvariabel 4. Undersök om nollhypotesen ska förkastas eller ej 3
Andelar, hypotesformulering Vid jämförelse av två andelar formuleras hypoteserna enligt: H 0 : π 1 π 2 = 0 H 1 : π 1 π 2 0 Kan även ha ensidiga mothypoteser: H 1 : π 1 π 2 > 0 H 1 : π 1 π 2 < 0 Vid ensidiga mothypoteser är det viktigt att beräkna testvariabeln på den differens som står uttryckt i hypotesformuleringen! 4
Andelar, testvariabel Testvariabeln bestäms med hjälp av följande uttryck: z obs = p 1 p 2 1 p(1 p) n + 1 1 n 2 Där p är andelen i det sammanslagna stickprovet (de två stickproven tillsammans). Denna testvariabel jämförs med ett kritiskt värde ur normalfördelningstabell, eller så beräknas p-värdet. För att dessa beräkningar ska kunna användas så ska : vara större än fem. n 1 p 1 1 p 1 och n 2 p 2 (1 p 2 ) 5
Andelar, exempel Vi anknyter till ett exempel som använts tidigare under kursen, där inställningen till det svenska EU-medlemskapet undersöktes. Man vill undersöka om andelen EU-negativa har ökat från ifjol till detta år. Bland 120 slumpmässigt utvalda uppgav 48 att de var negativa till det svenska medlemskapet. En opinionsundersökning riktad till ett slumpmässigt urval om 1080 personer för ett år sedan visade att andelen som då var negativa till det svenska medlemskapet var 35.5%. o Utred med hjälp av hypotesprövning om andelen EU-negativa har ökat signifikant. 6
Medelvärden, hypotesformulering När det ska utredas om det finns en signifikant skillnad mellan två medelvärden så formuleras hypoteser enligt: H 0 : μ 1 μ 2 = d 0 H 1 : μ 1 μ 2 d 0 Där d 0 är värdet man vill testa skillnaden mot, oftast är d 0 = 0. Även här kan det formuleras ensidiga mothypoteser: H 1 : μ 1 μ 2 < d 0 H 1 : μ 1 μ 2 > d 0 Kom ihåg att det är viktigt att beräkna rätt differens vid ensidiga mothypoteser! 7
Medelvärden, testvariabel När medelvärden undersöks kan två olika testvariabler beräknas, vilken som väljs beror på hur stora stickproven är. Vid stora stickprov (både n 1 och n 2 är större än 30): z obs = x 1 x 2 d 0 s 1 2 2 n 1 + s 2 Vid små stickprov (någon av n 1 och n 2 är mindre än 30): n 2 t obs = x 1 x 2 d 0 s p 2 1 n 1 + 1 n 2 s p 2 = n 1 1 s 1 2 + n 2 1 s 2 2 n 1 + n 2 2 8
Medelvärden, exempel Vintillverkaren som har förekommit tidigare i kursen anser själv att vin A smakar bättre än vin B. Tillverkaren vill nu undersöka om den svenska vuxna befolkningen är av samma åsikt. 10 slumpmässigt utvalda personer fick provsmaka vin A. De gav vinet medelbetyget 13,1 med en standardavvikelse på 1,85. 9 andra slumpmässigt utvalda personer provsmakade vin B. Det vinet fick medelbetyg 10,4 och standardavvikelse 1,33. o Utred om den vuxna svenska befolkningen är av samma åsikt som vintillverkaren. 9
Parvisa observationer En statistisk undersökning kan ibland vara utformad så att samma enhet observeras två gånger, t.ex. före och efter en behandling. Då kan man inte använda den metodik vi har gått igenom tidigare under föreläsningen. Då ska man istället använda metoden för parvisa observationer. I denna metod beräknar man differenserna mellan mätvärdena, och genomför därefter hypotesprövning på denna differens. 10
Parvisa observationer, hypotesformulering Hypoteserna formuleras som vid hypotesprövning för en population. H 0 : μ = 0 H 1 : μ 0 Skillnaden är att μ i detta fall är den genomsnittliga skillnaden mellan populationerna. Vid sådana undersökningar är det oftast mest intressant med ensidiga hypotesprövningar. H 1 : μ > 0 H 1 : μ < 0 11
Parvisa observationer, testvariabel Testvariabeln känner vi också igen från hypotesprövning för en population: t obs = x μ 0 s n Där medelvärdet och standardavvikelsen beräknats för den aktuella differensen. Antalet frihetsgrader är n 1, där n är antalet differenser. 12
Parvisa observationer, exempel Det finns en teori att sprintlöpare presterar bättre på en bana de känner till. Därför fick tio stycken 200-meterslöpare åka till en för dem okänd bana och springa ett lopp första dagen och ett andra dagen. Deras tider anges nedan. Utred med hjälp av hypotesprövning om denna teori stämmer. Sprinter Dag 1 Dag 2 1 20,23 20,19 2 20,10 20,11 3 20,33 20,25 4 20,18 20,16 5 20,41 20,43 6 20,02 19,99 7 20,17 20,17 8 20,36 20,32 9 20,07 20,08 10 20,21 20,15 13
Relation mellan konfidensintervall och hypotesprövning Det finns en tydlig relation mellan konfidensintervall och hypotesprövning. Vi går inte in alltför djupt i denna relation, utan vi tar den kortfattade versionen gällande två populationer. Om ett skapat konfidensintervall omfattar noll så finns det ingen signifikant skillnad mellan de två populationerna. Skillnaden ligger alltså inom den statistiska felmarginalen. 14
Tack för idag! Nästa tillfälle: Föreläsning 8, tisdag 12/3 13-15, sal A33 15