Föreläsning 6 Statistiska metoder 1
Dagens föreläsning o Kort om projektet o Hypotesprövning Populationsandel Populationsmedelvärde p-värdet 2
Kort om projektet Syftet med projektet i denna kurs är att få testa hur en statistisk undersökning kan gå till i verkligheten. Bakgrunden är att ni, på uppdrag av arbetsgivare eller liknande, ska presentera underlag för en kommande kvalitativ undersökning. Alltså beskriva hur det ser ut, och inte analysera varför det ser ut som det gör. Ni ska även göra jämförelser mellan olika delpopulationer, så som kön, ålder eller liknande. Det vore också trevligt om ni jämförde olika länder. 3
Introduktion Föregående föreläsning diskuterades konfidensintervall. Det brukar användas när man inte har någon uppfattning om vilka värden populationsandelen eller populationsmedelvärdet kan anta. Men när man har en uppfattning (hypotes) om populationsvärdet, kan det prövas om denna hypotes kan vara sann eller inte. Denna metodik kallas för hypotesprövning. Hypotesen formuleras innan stickprovet dras, de anpassas inte efter de siffror som har erhållits i stickprovet. 4
Hypotesformulering Man formulerar en nollhypotes (H 0 ) och en mothypotes (H 1 ). Dessa formuleras så att det man vill testa finns i mothypotesen. I nollhypotesen måste alltid = finnas, hela metodiken bygger på detta! Vid hypotesprövning undersöks om det går att förkasta nollhypotesen eller inte: o Om nollhypotesen förkastas gäller det som står i mothypotesen (med en viss risk). o Om nollhypotesen inte förkastas kan inte för stora slutsatser dras. Om nollhypotesen förkastas brukar man också säga att det är signifikant, vilket innebär att det som uttrycks i mothypotesen är statistiskt säkerställt (beror inte på slumpen). 5
Signifikansnivå Innan hypotesprövning genomförs ska en signifikansnivå (α) bestämmas. Denna signifikansnivå är risken att förkasta en sann nollhypotes, och brukar vanligtvis sättas till 10, 5 eller 1 procent. Det finns en annan risk vid hypotesprövning, och det är risken att inte förkasta en falsk nollhypotes. Denna risk brukar betecknas med β och är i allmänhet ett okänt tal. Det finns ett förhållande mellan dessa två risker, och det är att när α minskar så ökar β och vice versa. 6
Genomförandet Hypotesprövning består av fyra stycken steg: 1. Formulera hypoteser 2. Bestämma signifikansnivå 3. Beräkna testvariabel 4. Undersöka om H 0 kan förkastas eller inte Först visas dessa fyra steg för andelar och därefter medelvärden. 7
Andelar, formulera hypoteser Hypoteserna formuleras utifrån vad man vill undersöka, och de kan formuleras på dessa olika sätt: H 0 : π = π 0 H 1 : π π 0 Pröva om populationsandelen är skilt från ett visst värde H 0 : π = π 0 H 1 : π < π 0 Pröva om populationsandelen är mindre än ett visst värde H 0 : π = π 0 H 1 : π > π 0 Pröva om populationsandelen är större än ett visst värde De formuleras alltså innan stickprovet dras! 8
Andelar, signifikansnivå och testvariabel Signifikansnivån sätts till antingen 10, 5 eller 1 procent. Därefter beräknas en testvariabel enligt följande uttryck: p π 0 z obs = π 0 (1 π 0 ) n p är stickprovsandelen π 0 är värdet som det testas mot n är stickprovsstorleken 9
Andelar, ska H 0 förkastas? För att undersöka om H 0 ska förkastas eller ej så jämförs den beräknade testvariabeln med ett kritiskt värde (z krit ). Detta kritiska värde bestäms av signifikansnivån och hypotesformuleringen. Om H 1 : π π 0 så förkastas H 0 om testvariabeln ligger utanför kritiska värden i normalfördelningens båda svansar Om H 1 : π < π 0 så förkastas H 0 om testvariabeln är mindre än ett kritiskt värde i normalfördelnings vänstra (nedre) svans Om H 1 : π > π 0 så förkastas H 0 om testvariabeln är större än ett kritiskt värde i normalfördelnings högre (övre) svans Detta kommer att visas med hjälp av normalfördelningskurvor på tavlan. 10
Andelar, exempel Vi återgår till exemplet gällande andelen EU-negativa i den vuxna svenska befolkningen. Man vill undersöka om andelen EU-negativa är mindre än 50 %, och för detta tillfrågas 120 personer gällande deras åsikt i frågan. Av dessa var 48 personer negativt inställda till EU. Är andelen EU-negativa signifikant mindre än 50 procent? 11
Medelvärden, hypoteser och signifikansnivå För medelvärden så formuleras hypoteserna på samma sätt. H 0 : μ = μ 0 H 1 : μ μ 0 Pröva om populationsmedelvärdet är skilt från ett visst värde H 0 : μ = μ 0 H 1 : μ < μ 0 Pröva om populationsmedelvärdet är mindre än ett visst värde H 0 : μ = μ 0 H 1 : μ > μ 0 Pröva om populationsmedelvärdet är större än från ett visst värde Signifikansnivån sätts till 10, 5 eller 1 procent. 12
Medelvärden, testvariabel För medelvärden kan två testvariabler beräknas, vilken som väljs beror på stickprovsstorleken (n). Vid stort stickprov (n > 30): Vid litet stickprov (n < 30): z obs = x μ 0 s n t obs = x μ 0 s n Så vi ser att det inte är någon skillnad mellan de två testvariablerna, skillnaden ligger i vilken tabell som används för att bestämma det kritiska värdet. 13
Medelvärden, ska H 0 förkastas? Testvariabeln jämförs med ett kritiskt värde enligt samma princip som för andelar. Åter igen bestäms det kritiska värdet utifrån signifikansnivå och hypotesformulering. Vid små stickprov bestäms det kritiska värdet även utifrån stickprovsstorleken, då frihetsgraderna som ska användas är n-1. 14
Medelvärden, exempel Vintillverkaren som var i farten på föregående föreläsning dyker upp igen. Tillverkaren vill nu undersöka om medelbetyget för vin A är signifikant högre än 12, och har för detta valt ut tio stycken personer som har provsmakat vinet. Sammanställda siffror från undersökningen visas nedan: x = 13.1 s = 1.85 Är medelbetyget signifikant högre än 12? 15
p-värdet För att avgöra om H 0 ska förkastas eller ej kan p-värdet användas istället för kritiskt värde. p-värdet är sannolikheten att få det observerade värdet på testvariabeln eller mer extremt om H 0 är sann. Denna definition kan vara lite bökig att förstå, men det viktiga med p-värdet är att om detta är mindre än signifikansnivån (α) kan H 0 förkastas. p-värdet kan enkelt beräknas när normalfördelningstabellen används, men om t-tabell används blir det genast lite bökigare och vi överlåter detta till datorerna. 16
p-värdet, exempel Vi återgår till exemplet gällande andelen EU-negativa i den vuxna svenska befolkningen. Man vill undersöka om andelen EU-negativa är mindre än 50 %, och för detta tillfrågas 120 personer gällande deras åsikt i frågan. Av dessa var 48 personer negativt inställda till EU. Är andelen EU-negativa signifikant mindre än 50 procent? o Besvara denna frågeställning med hjälp av p-värdet. 17
Tack för idag! Nästa tillfälle: Räknestuga 2, fredag 8/3 10-12, sal A39 18