STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Relevanta dokument
Hur skriver man statistikavsnittet i en ansökan?

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Medicinsk statistik II

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Hur man tolkar statistiska resultat

Föreläsning 5. Kapitel 6, sid Inferens om en population

F22, Icke-parametriska metoder.

Statistik och epidemiologi T5

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Gamla tentor (forts) ( x. x ) ) 2 x1

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning G60 Statistiska metoder

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

Medicinsk statistik I

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Föreläsningsanteckningar till kapitel 9, del 2

, s a. , s b. personer från Alingsås och n b

Studietyper, inferens och konfidensintervall

Parade och oparade test

F3 Introduktion Stickprov

Medicinsk statistik II

8 Inferens om väntevärdet (och variansen) av en fördelning

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

F19, (Multipel linjär regression forts) och F20, Chi-två test.

2. Test av hypotes rörande medianen i en population.

Laboration 4: Hypotesprövning och styrkefunktion

Om statistisk hypotesprövning

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Statistik 1 för biologer, logopeder och psykologer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Hypotestestning och repetition

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 5: Hypotesprövningar

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TMS136. Föreläsning 11

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Statistik och epidemiologi T5

FACIT (korrekta svar i röd fetstil)

7.5 Experiment with a single factor having more than two levels

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 7: Punktskattningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

F9 Konfidensintervall

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Statistisk styrka Dimensioneringsberäkningar

EXAMINATION KVANTITATIV METOD vt-11 (110319)

FÖRELÄSNING 8:

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 7: Punktskattningar

TAMS65 - Föreläsning 6 Hypotesprövning

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig (ej fackspråklig) ordbok utan kommentarer. Formelsamling lånas i tentamenslokalen.

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Föreläsning 7: Punktskattningar

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Statistik. Statistik. Statistik. Lars Walter Fil.lic. Statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning G60 Statistiska metoder

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Stockholms Universitet Statistiska institutionen Termeh Shafie

Föreläsning 12, FMSF45 Hypotesprövning

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

TAMS65 - Föreläsning 6 Hypotesprövning

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Kapitel 10 Hypotesprövning

Stockholms Universitet Statistiska institutionen Termeh Shafie

Bilaga 6 till rapport 1 (5)

Föreläsning 11: Mer om jämförelser och inferens

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Transkript:

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Teori UPPLÄGG Gemensam diskussion Individuella frågor Efter detta pass hoppas jag att: ni ska veta vad man ska tänka på vilka verktyg som finns vilket stöd som finns att få

VARFÖR ÄR STATISTIK VIKTIGT?

VARFÖR BRY SIG OM STATISTIK I PLANERINGEN? Trenden är mer prespecifisering och större detaljeringskrav Publicering av studieprotokoll Analysplaner i ansökningar Många viktiga beslut fastslås tidigt

DESSUTOM Riskerar att dra felaktiga slutsatser Riskerar att inte kunna dra några slutsatser Ej publicerbart Missade anslag

ENLIGT VETENSKAPSRÅDET "Valet av statistisk analys (hypotesprövning) och/eller modellering, kvalitetssäkring eller dylikt ska redovisas tydligt. Kriterier för eventuella interimsanalyser skall anges. Det är inte tillräckligt att ange allmänna begrepp såsom parametrisk, icke-parametrisk metod, deskriptiv statistik eller standardmetoder för analys.

VAL AV STATISTISK METOD Vilken studiedesign? Vilket är mitt utfall? Hur kommer mitt data se ut? Val av statistisk metod

DESIGN

UTFALL Skillnader Risker Antalet händelser Tid till händelse

DATAKVALITET Vilket bortfall bör vi räkna med? Mätfel Slumpmässiga Systematiska Hur många patienter kan vi få in?

PRIMARY OUTCOME Särskilt viktigt i kliniska prövningar Det vi är mest intresserade av att undersöka Studien dimensioneras för dessa utfall Ska hållas nere i antal Kan behöva överväga justering för multipla jämförelser Gärna kontinuerlig (om möjligt)

ANALYSPLANEN Strukturera syftet i frågeställningarna. Vad ska studeras och på vilka? Studiedesign Variabler och mätning Dimensionering Statistisk analysplan Replikerbar

REPETITION OCH TERMINOLOGI I de flesta situationer vi ställs inför har vi inte tillgång till hela populationen vi vill undersöka. Vi tar då ett stickprov från den population vi önskar undersöka.

LÄGESMÅTT Vi skattar exempelvis det medelvärdet för populationen med medelvärdet i stickprovet. Har vi en skev fördelning av mätvärden exempelvis operationstid så är det bättre att använda medianen som lägesmått.

SPRIDNINGSMÅTT Standardavvikelsen är ett mått på hur stor spridningen mellan observationerna i stickprovet är. Standard error är ett mått på osäkerheten i en punktskattning. Anger precisionen i vår skattning. Med hjälp av standard error kan vi beräkna bland annat konfidensintervall. Om vi upprepar ett försök tillräckligt många gånger kommer ett 95%-igt konfidensintervall att täcka det sanna medelvärdet 95% av gångerna.

KONFIDENSINTERVALL

PRECISION

VARFÖR ÄR POWER VIKTIGT? För lite data Missar intressanta resultat Kostnad För mycket data Kostnad Ej etiskt Obs! Endast relevant före en studie är genomförd!

VÄGEN DIT Vilken typ studiedesign? Vilket är mitt utfall? Hur kommer mitt data se ut? Val av statistisk metod Stickprovsdimensionering

VAD ÄR POWER? Bakgrund Konceptet med power bygger på hypotesprövning. En nollhypotes som ska vara falsifierbar och ha en mothypotes. Nollhypotesen: det finns ingen skillnad mellan grupperna H 0 : μ 1 μ 2 = 0 Mothypotesen: det finns en skillnad mellan grupperna H 1 : μ 1 μ 2 0 Vad är power? Sannolikheten att korrekt förkasta en falsk nollhypotes (när den alternativa hypotesen är sann)

HYPOTESPRÖVNING

POWER? Power = 1-sannolikheten för typ ll-fel

Typ-l Typ-ll

TYP-I FEL Typ-l felets storlek är lätt att kontrollera genom signifikansnivån. En signifikansnivå på 5% innebär att vid tillräckligt många upprepningar av ett försök kommer att upptäcka en signifikant skillnad som i verkligheten inte existerar i 5% av fallen. Dvs vi förkastar nollhypotesen.

EXEMPEL TYP-I Antag att vi utför ett experiment där vi undersöker om tuggummituggande är associerat med matstrupscancer. Från vårat experiment drar vi slutsatsen att tuggummituggande ger en högre risk för matstrupscancer. Om det inte stämmer med verkligheten har vi gjort oss skyldiga till ett typ-l fel.

Antag att vi istället drar slutsatsen att tuggummituggande inte ger en högre risk för matstrupscancer. Om det stämmer med verkligheten har vi inte gjort oss skyldiga till något fel.

Tyvärr är det betydligt svårare att kontrollera typ II-felet. Typ II-felet beror på flera variabler: Storlek på den skillnad vi önskar mäta Spridningen i materialet (standardavvikelsen) Signifikansnivån Antalet patienter Oftast är det mer intressant att beräkna hur många patienter som behövs för att uppnå en viss power.

EXEMPEL TYP-II FEL Antag att vi utför ett experiment där vi undersöker om rökning är associerat med matstrupscancer. Från vårat experiment drar vi slutsatsen att rökning inte ger en högre risk för matstrupscancer. Om det inte stämmer med verkligheten har vi gjort oss skyldiga till ett typ ll-fel.

Antag att vi istället drar slutsatsen att rökning ger en högre risk för matstrupscancer. Om det stämmer med verkligheten har vi inte gjort oss skyldiga till något fel.

Definiera gränsen för intressanta skillnader! STORLEK PÅ SKILLNADEN Ofta har vi en tidigare studie att luta oss mot då vi uppskattar den förväntade skillnaden. En fråga vi måste ställa oss är - Hur stor måste skillnaden vara för att den ska vara kliniskt relevant? Det kan vara så att vi är intresserade av att hitta mindre skillnader än vad som uppmäts i pilotstudien.

SPRIDNINGEN Om det finns en tidigare studie kan vi hämta standardavvikelsen från denna studie. Finns ingen sådan får vi uppskatta standardavvikelsen. Ett alternativ är att arbeta med olika scenarion och undersöka hur stickprovsstorleken förändras med standardavvikelsen.

EFFEKTSTORLEK Beroende på vilken statistisk metod man valt så beräknas effektstorleken på olika sätt olika. Ett exempel är cohen s d men det finns väldigt många olika mått. Gemensamt är att de är beroende av storleken på skillnaden och på spridningen. Överskattas spridningen så underskattar vi inte antalet som behövs.

Antag att vi vill testa hur effektiv en behandling är på att sänka det diastoliskt blodtrycket i en grupp patienter. Är skillnaden mindre än 5mmHg mellan före och efter behandling bedöms skillnaden som irrelevant. Vi har dock ingen aning om hur stor spridningen är. Vi beräknar hur många patienter som krävs för att nå upp till 80% power på 5% signifikansnivå.

EXEMPEL

EN VARNING! Effect size d Small 0.20 Medium 0.50 Large 0.80

ÖVRIGA KOMPONENTER Mothypotesen Kan vara enkelsidig eller dubbelsidig. Beror på om vi testar olikhet eller om vi redan på förhand vet vilken grupp som kommer ha högre mätvärden. Är vi osäkra ska vi alltid välja dubbelsidigt. För samma power kräver ett dubbelsidigt test fler patienter

Signifikansnivå Sannolikheten för typ-i fel. Vanligtvis 0.05. Lägre signifikansnivå kräver fler patienter för att uppnå samma power. Power Vanligtvis dimensioneras stickprovet för att uppnå en power på 80% men 90% förekommer också.

SAMMANFATTNING Hur stor stickprovstorlek som behövs beror på flera saker Power Signifikansnivån Effect size Metod

Power sätts oftast till 80% och stickprovet dimensioneras utifrån det. Stickprovet dimensioneras för ett fixt värde på signifikansnivå, en lägre signifikansnivå kräver en större stickprovsstorleken. Desto mindre skillnader vi vill kunna upptäcka, desto större behöver stickprovet vara. Vissa metoder ger högre power än andra.

Antag att vi vill testa hur effektiv en ny behandling är på att sänka det diastoliskt blodtryck. Vi planerar ge en grupp placebobehandling och en grupp aktiv behandling. Innan behandlingen är blodtrycket är 100mmHg i båda grupperna. Vi vet från en tidigare studie att vi kan förvänta oss en standardavvikelse på 25mmHg. Nu vill vi veta hur många patienter vi behöver inkludera för att upptäcka en skillnad på 5mmHg. Med andra ord om blodtrycket i gruppen som får behandling är 95mmHg eller mindre vill vi upptäcka det med en power på 80 %.

Vi vill testa: Nollhypotesen: ingen skillnad Mothypotesen: blodtrycket är lägre efter behandling

Vi är bara intresserad av fallet mindre än 95mmHg. Således är det ett ensidigt test. Här testar vi skillnader mellan två oberoende grupper. Ett t-test är därför lämpligt. Om vi använder signifikansnivån 5% behövs 310 patienter i vardera grupp för uppnå en power på 80 %.

Om blodtrycket efter behandling är 90mmHg? I detta fall behöver vi endast 78 patienter i vardera grupp för uppnå en power på 80 %.

ETT ANNAT SÄTT ATT BERÄKNA STICKPROVSSTORLEKEN

Ibland syftar inte studien till att hypotespröva utan snarare att bestämma/undersöka Tex. en reliabilitetsstudie vill bestämma vad ICC (intraclass correlation) för en ny mätmetod. Då vill vi bestämma ICC med tillräckligt god precision. Hur många individer behövs?

EXEMPEL

HUR GÅR DET TILL RENT PRAKTISKT? För enklare fall: G*power http://powerandsamplesize.com/ https://www.sealedenvelope.com För svårare fall...

G*POWER

POWERANDSAMPLESIZE

SEALEDENVELOPE

HUR BESKRIVER MAN DET I TEXT? Beskriv vilken metod ni valt och varför den passar. Baserat på vilken metod ni valt beskriv vilken information som ligger till grund för era beräkningar och vad ni kommit fram till.

EXEMPEL METOD Resultatet från behandlingen av det diastoliska blodtrycket kommer analyseras med ett parat t-test. Detta är lämpligt då vi mäter samma individer före och efter behandling (matchade par) och variabeln vi mäter är kontinuerlig.

EXEMPEL POWER Stickprovsstorleken beräknades med ett dubbelsidigt parat t-test på en 5% signifikansnivå. I en tidigare studie har vi hittat en genomsnittlig skillnad på 10mmHg mellan för och efter mätningar Och en standardavvikelse på 15mmHg. Eftersom att vi är intresserade av att hitta mindre skillnader än 10mmHg så kommer vi räkna med en skillnad på 5mmHg (vilket vi bedömer vara den minsta skillnaden av kliniskt intresse). Denna skillnad tillsammans med den observerade standardavvikelsen på 15mmHg användes för att beräkna stickprovsstorlek En stickprovsstorlek på 144 patienter behövs för att uppnå en power på 80%.

SAMMANFATTNING Detta måste ingå i en ansökan: Frågeställning Primary outcome Studiedesign Statistisk analysplan Stickprovsdimensionering

OM NI VILL HA HJÄLP MED EN ANSÖKAN? Genom ALF-finansiering har vi möjlighet att hjälpa er. Alla kliniska forskare som planerar en klinisk studie, och avser att söka Forskningsanslag från forskningsråd och andra större nationella Finansiärer omfattas. http://www.registercentrumnorr.vll.se/ statistik.rcnorr@regionvasterbotten.se