Statistisk signifikans och effektstorlek. Ett bildspel av Horst LöfgrenL 2009



Relevanta dokument
Användning av inferensstatistik i vetenskapliga undersökningar

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Inferensstatistik. Hypostesprövning - Signifikanstest

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

, s a. , s b. personer från Alingsås och n b

Hur skriver man statistikavsnittet i en ansökan?

F3 Introduktion Stickprov

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Statistik och epidemiologi T5

Lektionsanteckningar 11-12: Normalfördelningen

Repetitionsföreläsning

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Att välja statistisk metod

Datorlaboration 2 Konfidensintervall & hypotesprövning

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

EXAMINATION KVANTITATIV METOD vt-11 (110204)

import totalt, mkr index 85,23 100,00 107,36 103,76

Linjär regressionsanalys. Wieland Wermke

Uppgift 1. Produktmomentkorrelationskoefficienten

Höftledsdysplasi hos dansk-svensk gårdshund

Studietyper, inferens och konfidensintervall

ANOVA Mellangruppsdesign

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Statistik 1 för biologer, logopeder och psykologer

OBS! Vi har nya rutiner.

FACIT (korrekta svar i röd fetstil)

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Statistik 1 för biologer, logopeder och psykologer

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Multipel Regressionsmodellen

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistiska analyser C2 Bivariat analys. Wieland Wermke

Medicinsk statistik II

Bilaga 6 till rapport 1 (5)

Samhällsvetenskaplig metod, 7,5 hp

Föreläsning 5. Kapitel 6, sid Inferens om en population

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

OBS! Vi har nya rutiner.

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

OBS! Vi har nya rutiner.

Jämförelse av två populationer

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

2. Test av hypotes rörande medianen i en population.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig (ej fackspråklig) ordbok utan kommentarer. Formelsamling lånas i tentamenslokalen.

OBS! Vi har nya rutiner.

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

TENTAMEN KVANTITATIV METOD (100205)

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen Tillämpad statistik A5 (15hp)

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

F9 SAMPLINGFÖRDELNINGAR (NCT

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 7 maj, 2011

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Tentan består av 15 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 33 poäng för att få välgodkänt.

Korrelation och autokorrelation

Anvisningar till rapporter i psykologi på B-nivå

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Kursnamn: Vetenskapsteori och grundläggande forskningsmetod

KOM IHÅG ATT NOTERA DITT TENTAMENSNUMMER NEDAN OCH TA MED DIG TALONGEN INNAN DU LÄMNAR IN TENTAN!!

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

kodnr: 2) OO (5p) Klassindelningar

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Hypotestestning och repetition

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Elementa om Variansanalys

Föreläsning G60 Statistiska metoder

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

EXAMINATION KVANTITATIV METOD vt-11 (110319)

I vilken utsträ ckning änvä nds forskningsbäseräde metoder i skolän ä k 7-9

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistisk försöksplanering

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

TENTAMEN. SAMHÄLLSVETENSKAPLIG FORSKNINGSMETODIK Kurs 7 PC1307. Forskningsmetodik 10 poäng (ECTS) Måndag den 13 oktober, 2008

Dataanalys kopplat till undersökningar

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Transkript:

Statistisk signifikans och effektstorlek Ett bildspel av Horst LöfgrenL 2009

Varför r används nds signifikansbegreppet alltför r ofta vid rapportering av forskningsresultat och effektstorlek alltför r sällan? s

Det enkla svaret är r nog, att man inte är tillräckligt kunnig i grunderna för f inferensstatistik. Man har inte förstf rstått tt signifikansbegreppet, och man känner k inte till, att det finns olika mått påp effektstorlek.

Begreppet statistisk inferens Begreppet statistisk inferens refererar till en situation, där d r man av olika anledningar väljer v att (eller inte kan) studera hela populationen. Man bygger påp sannolikhetsteori för f r att kunna dra slutsatser om förhf rhållanden i populationen. Dock finns alltid en risk (om än n liten) för f r att man, utifrån n observation av förhf rhållanden i stickprovet, drar en felaktig slutsats om motsvarande förhf rhållanden i populationen. Risken för r felaktiga slutsatser av s.k. "typ I-fel" " reglerar man exempelvis via val av signifikansnivå.

Begreppet statistisk inferens Ett krav är r att man har tillgång till stickprov som baseras påp ett slumpmässigt ssigt urval från n en population. Inom beteende- vetenskap är r detta ett problem, men detta kan attackeras via att man i förvf rväg g införskaffar information om status i "relevanta variabler" (kontrollvariabler), dvs. variabler som enligt teori och tidigare forskning påverkar p utfallet i den/de variabler som man är r intresserad av. Låt t oss anta att ålder och social status är r sådana s variabler. Då gäller att i förvf rväg g ta ställning till om denna information finns att tillgå för r hela populationen. Vi antar att detta är fallet och dåd kan man testa, huruvida ett erhållet urval från denna population är r representativt för f r den studerade populationen. Om denna information inte finns att tillgå, måste man vidta stora ansträngningar ngningar för f r att åstadkomma ett representativt urval och för f r att undvika bortfall.

När r kan således s signifikansprövningar användas? ndas? 1. Signifikanstest ska endast användas, ndas, när n r man från n ett stickprov vill generalisera till en population. Det krävs således att man har en definierad population från n vilket ett representativt urval har gjorts, för f r att utifrån n detta urval generalisera erhållna resultat till den bakomliggande populationen. 2. Om man endast har en undersökningsgrupp och inget representativt urval ur en population, finns inget behov av signifikanstestningar. De är r helt enkelt meningslösa. sa. 3. Om man gör g r en totalundersökning (populationsstudie) är r självfallet signifikansanalyser nonsens. Man har ju redan all information om populationen.

Även om man har en definierad popu- lation och ett representativt stickprov, så kan det tyvärr ändå bli fel! Om man har små stickprov (under ca 30 observationer) kan signifikanstestningar ändå bli tvivelaktiga, eftersom då d statistical power,, som är r en funktion av stickprovsstorlek, effektstorlek och vald signifikansnivå (p), är r för f r låg l g för f r att upptäcka skillnader. Det s.k. typ II-felet (att felaktigt behålla nollhypotesen, trots att den är r fel) riskerar att bli för r stort.

Även om styrkan i analysen är r hög, h kan signifikansen ändå bli av tveksamt värde! v Även om man har stora stickprov, och typ II- felet är r lågt, l kan signifikansanalyser ändå bli missledande. Vid stora stickprov blir nämligen n även små och triviala skillnader signifikanta. Detta är r kanske den största faran i många m undersökningar. Stickproven är r sås stora, att även den minsta skillnad blir signifikant!

Stickprovets storlek Stickprovets storlek avgör r hur stort utrymme slumpfaktorer får f r att operera. Ju större stickprov desto mindre risk för f r att slumpfaktorer påverkar. p Dock bör b r man inte misstro ett ganska litet men korrekt draget stickprov. Man kan bestämma lämpligt l stickprovsstorlek utifrån n typ II-fel och styrkan i det statistiska testet. Dock tar man i de allra flesta fall till i överkant, när n r man väljer v stickprovsstorlek.

Vanligt urvalsfel Om man inte har ett stickprov av individer utan man baserar urvalet påp ett antal valda grupper, t.ex. klasser, skolor eller någon n annan gruppering, måste m man ta hänsyn h till detta. De signifikanstest som man använder nder förutsf rutsätter tter att individerna i stickprovet är r att betrakta som oberoende observationer och det kan vara mycket tveksamt, om man t.ex. gör g r ett klassurval. Idag finns det metoder för f r att hantera detta problem.

Vad gör g r man? Man ska alltid använda nda mått m påp effektstorlek. Har man stickprov från n någon n definierad population, kan man självfallet även använda nda signifikansanalyser. Om man alltid tänker t påp denna regel, kommer effektstorleksmått tt att bli mer frekvent än signifikansanalyser. DåD skulle mycket vara vunnet!

Vad visar det om? Storleksmåttet ttet visar en obetydlig eller liten skillnad men signifikansprövningen att skillnaden är r signifikant? DåD har man haft ett onödigt stort stickprov! Storleksmåttet ttet visar en påtaglig p skillnad men signifikansprövningen att skillnaden inte är signifikant? DåD har man haft ett för f r litet stickprov! Storleksmåttet ttet visar en stor skillnad och signifikansprövningen en högst h signifikant skillnad? DåD har man haft ett lagom stort stickprov.

I de flesta fall bör man mer uppmärksamma effektstorlek än signifikansanalyser, gärna med tillägg av konfidens- intervall.

Effektstorlek Efter att ha påvisat p en effekt (skillnad) är den viktigaste frågan: Hur stor är r effekten (skillnaden)?

Krav påp storleksmått tt I forskningsmetodiska kurser I forskningsmetodiska kurser och speciellt de som är inriktade på statistisk dataanalys betonas alltför mycket inferensmetoder, dvs. signifikansprövningar, och alltför lite ägnas åt effektstorleksmått och konfidensintervallskattning. I flera decennier har man försökt få forskare att förstå missbruket av signifikansanalyser, när inte förutsättningarna är uppfyllda och att i stället använda mått på effektstorlek. Om förutsättningarna är uppfyllda för signifikansprövningar bör ändå dessa alltid följas av mått på effektstorlek. Det är självfallet viktigt att veta hur mycket, än att bara veta att något med säkerhet finns. I den femte upplagan av Publication Manual, utgiven av American Psychological Association finns ett tydligt krav vid publicering av forskning att förutom ev. signifikansanalyser också ange lämpligt storleksmått.

Effektstorleksmått tt I statistiska programvaror (t.ex. SPSS) finns en del storleksmått tt tillgängliga. På senare år r finns effektstorleksmått tt med i handböcker om statistisk dataanalys, t.ex.: Kline, R. B. (2004). Beyond signifikans testing. Reforming data analysis methods in behavioral research.. Washington, D.C.: APA. Löfgren, H. (2006). Grundläggande statistiska metoder för f r analys av kvantitativa data med övningar för f r programpaketet SPSS.. Barsebäck: PPR- Läromedel för r högskolan. h

Effektstorlek Effektstorlek (ES) är r en familj av mått m som används nds för f r att beskriva resultatskillnader mellan behandlingsgrupper. Till skillnad från signifikansanalyser påverkas p inte dessa storleksmått tt av stickprovsstorlek. Man använder nder vanligen endera av följande: f 1) Den standardiserade skillnaden mellan två medelvärden. 2) Sambandet mellan den oberoende behandlingsvariabeln och den beroende utfallsvariabeln. För r beräkningsformler se Löfgren L (2006, s. 103-105) 105)

Effektstorlek i metaanalyser I metaanalyser beräknas effektstorlek (ES) ofta genom den enkla formeln: Medelvärdesdifferensen mellan experiment- och kontrollgrupp dividerat med standardavvikelsen för f kontrollgruppen. Man kan också vikta ihop de båda b standardavvikelserna. Förslagsvis kan ES 0,20 betraktas som små skillnader, ES ca 0,40 som måttliga m skillnader och ES 0,60 som stora skillnader.

Cohen s d och r Yλ Man beräknar effektstorleksmåtten tten Cohen's d och r Yλ på följande sätt: Cohen's d = (M 1 - M 2 )/s pooled, där s p = [(s 12 +s 22 )/2] r Yλ = d / (d² + 4) Anm.: d and r Yλ är positiva om medelvärdesdifferensen är i predicerad riktning.

Beräkning av Cohen s d och och r Yλ utifrån n t-värde t och antal frihetsgrader Cohen's d = 2t / (df) r Yλ = (t 2 / (t 2 + df)) Anm.: d and r Yλ är positiva om medelvärdesdifferensen är i predicerad riktning. Obs! Effektindex kan endast beräknas vid oberoende stickprov.

Exempel påp effektstorlek (ES) utifrån Hattie s syntes av meta-analyser analyser Tabell från: : Hattie, J. A. C. (2009). Visible learning: A synthesis of over 800 meta-analyses analyses relating to achievement.. London: Routledge.

Av hundra jämfj mförda påverkansfaktorer p är r följande f de sämsta: s Tabell från: : Hattie, J. A. C. (2009). Visible learning: A synthesis of over 800 meta-analyses analyses relating to achievement.. London: Routledge.

Effektstorlek utifrån n ett t-värde t och en korrelation Om man i en artikel får f r reda påp t-värdet för f r den statistiska skillnaden mellan två stickprov, kan man enkelt beräkna ES för f r att kontrollera att signifikansen också innebär r en betydelsefull skillnad. ES skattas påp följande sätt: s ES= 2t/ df Man kan också erhålla ES via korrelationen mellan den oberoende och den beroende variabeln: ES= 2r/ (1 (1-r 2 )

Index påp relationen mellan oberoende och beroende variabel 1) Omegakvadrat Relationen mellan den oberoende variabeln och mätvariabeln i en fix variansanalytisk modell kan skattas med hjälp av den s.k. omegakvadrat-koefficienten koefficienten (ω 2 est ). Kvadratroten ur detta index är r jämfj mförbar med en korrelationskoefficient.

Index påp relationen mellan oberoende och beroende variabel 2) Eta Eta är r känt k under namnet korrelationskvot och är r ett lämpligt l mått m för f r att beskriva relationen mellan två variabler med icke-linj linjära regressionslinjer. För F r att ange relationen mellan en oberoende variabel (nominal( nominal- skalerad) ) och en beroende variabel (intervall- eller kvotskalerad) ) i en undersökning kan detta mått användas. ndas.

Eta-kvadrat som index påp relationen mellan oberoende och beroende variabel Eta-kvadrat är r den delen av den totala variansen som kan prediceras utifrån n den oberoende variabeln (betecknas ofta η 2). I en variansanalys erhålls eta-kvadrat via relationen SS total /SS mellan grupper Eta och Eta-kvadrat kan erhållas direkt vid variansanalytisk bearbetning i t.ex. SPSS.

Tolkning av storleken påp ω 2 och eta 2 Bedömningen av vad som är r en stor eller liten skillnad är relaterat till vad man har anledning att vänta v sig. I påverkansundersp verkansundersökningar kningar kan förslagsvis f följande f gränser användas: ndas: 0,00-0,04 liten skillnad 0,05-0,09 medelstor skillnad 0,10 - stor skillnad Eftersom ω 2 och eta 2 är r mått m påp relationen mellan oberoende och beroende variabel kan man i stället tala om svag, påtaglig p och stark relation.

Tolkning av storleken påp samband Om man beräknar sambandet mellan två variabler måste m tolkningen relateras till vad man kan förvf rvänta sig. Korrelationen är r ett storleksmått. tt. Enklast är r att beräkna kvadraten påp korrelations- koefficienten.. DåD får r man andel gemensam varians för f de båda b variablerna, vilket är r lättare l att förstf rstå. Om sambandet mellan två variabler är r 0,30 är r således s endast 9 % gemensam varians, vilket kan anses vara överraskande mycket om det gäller g sambandet mellan längd och begåvning, och överraskande lite om det gäller samband mellan betyg i matematik och engelska.

Ett index som bygger påp χ 2 Cramérs rs index (CV) Detta index beräknas enkelt genom att ta kvadratroten ur Chi-kvadratv kvadratvärdet rdet dividerat med antalet observationer (N) multiplicerat med (s-1). s = minsta antalet av rader och/eller kolumner. För r en fyrfältstabell blir s=1 och Cramérs rs index lika med den s.k. phi-koefficienten (jfr Löfgren, L 2006, s. 143)

Vad har vi nu lärt l oss? Att inte längre l bli imponerad av en påvisad p signifikant skillnad eller signifikant korrelation! Att storlek är r mycket mer intressant än signifikans! Att om författaren f till en forskningsuppsats inte har definierat population och inte har redovisat hur urvalet av undersökningsdeltagarna är r gjort men ändå använder nder signifikansprövningar, släng uppsatsen i runda arkivet, dvs. papperskorgen!