Borde vi mäta statistisk osäkerhet vid totalundersökningar?



Relevanta dokument
Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Graviditetsnära bröstcancer möjligt att studera tack vare svenska register

Konsten att fånga, sammanfatta och tolka resultat och mätningar. Marie Lindkvist Epidemiologi och global hälsa

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Föreläsning 1: Introduktion. Vad är statistik?

Kvantitativa metoder del 2. Kandidatprogrammet i folkhälsovetenskap, HT -11

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Studietyper, inferens och konfidensintervall

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

EXAMINATION KVANTITATIV METOD

Kursplanen är fastställd av Programnämnden för masterutbildningar att gälla från och med , vårterminen 2017.

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Propensity Scores. Bodil Svennblad UCR 16 september 2014

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

SF1901: Sannolikhetslära och statistik Föreläsning 2. Betingad sannolikhet & Oberoende

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Föreläsning G60 Statistiska metoder

Design av kliniska studier Johan Sundström

Fel och fel. slumpmässiga och systema4ska fel i epidemiologiska studier Katja Fall Vetenskapligt förhållningssä>

Ansamling av cancerfall hur utreder vi? Faktablad från Arbets och miljömedicin, Göteborg

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Bilaga 5 till rapport 1 (5)

Statistik och epidemiologi T5

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

vetenskap - beslut - osäkerhet

Föreläsning G60 Statistiska metoder

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Klinisk forskningsmetodik. Olof Akre, läkare, forskare, Enheten för klinisk epidemiologi, KS

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Medicinsk statistik II

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Hur fattar samhället beslut när forskarna är oeniga?

Föreläsning 7: Punktskattningar

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Bearbetning och Presentation

Föreläsning G70 Statistik A

Kvalitetsdeklaration Statistik om nyupptäckta cancerfall 2016

Är icke-sannolikhetsurval aldrig representativa?

Statistikens grunder HT, dagtid Statistiska institutionen

Föreläsning 7: Punktskattningar

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Epidemiologi/ Evidensbaserad medicin Del 4

HYPOTESPRÖVNING sysselsättning

DATORÖVNING 2: STATISTISK INFERENS.

Lektionsanteckningar 11-12: Normalfördelningen

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Dataanalys kopplat till undersökningar

Erica Schytt. Barnmorska Föreståndare för Centrum för klinisk forskning Dalarna Docent Karolinska Institutet Professor Høgskulen på Vestlandet

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Datakvalitet. Hva duger data til? Jonas Ranstam

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

Några begrepp. Vad är statistik? Data. Grundläggande begrepp Olika slag av undersökningar

Kommun och landsting 2016

Att skriva en matematisk uppsats

Webbregistrering pa kurs och termin

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Folkhälsokalkylator. Bakgrund

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Föreläsning 1, Matematisk statistik för M

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Syfte. Arbetslöshet vid ung ålder och samband med senare hälsa och arbete. Studiedesign. Studiedesign. Publicerade artiklar

Teknikprogrammet Klass TE14A, Norrköping. Jacob Almrot. Självstyrda bilar. Datum:

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Föreläsning 7: Punktskattningar

BIOSTATISTIK att hantera slumpmässiga variationer BIO STATISTIK. data handlar om levande saker

1 Mätdata och statistik

Att läsa en vetenskaplig artikel

Epidemiologi FoU-kurs för ST-läkare

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Hur skriver man statistikavsnittet i en ansökan?

Föreläsning 5. Kapitel 6, sid Inferens om en population

Appendix målnivåer. Nationella riktlinjer för lungcancervård 2011

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Epidemiologiska data i hälsoriskbedömning Hur kommer epidemiologiska studier in? Maria Feychting

ÖVNINGSUPPGIFTER KAPITEL 8

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

LUFTFÖRORENINGAR-DET OSYNLIGA HOTET MOT DEN HAVANDE KVINNAN?

Kurser inom profilen Teknisk matematik (Y)

Vad beror skillnaden på? Systematiska och slumpmässiga fel

samhälle Susanna Öhman

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Mall och manual för granskning av interventionsstudier

Statistik Lars Valter

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

FMSF 30/35/40 Matematisk statistik Grundläggande sannolikhetsteori Sannolikhetsteori och diskret matematik

Transkript:

Borde vi mäta statistisk osäkerhet vid totalundersökningar? Paul Dickman Sandra Eloranta Therese Andersson Institutionen för Medicinsk Epidemiologi och Biostatistik (MEB) Karolinska, Stockholm

Det korta svaret är: JA! om syftet med den statistiska undersökningen är vetenskapligt (analytiskt). Om syftet istället är administrativt finns inga skäl till att redovisa standardavvikelser, konfidensintervall etc. Oklarheten består inte i om osäkerhet ska redovisas utan hur den i själva verket ska mätas dvs hur bör man härleda variansformler då målpopulationen är en högst hypotetisk superpopulation? 2

Överblick av dagens seminarium Presentation + kort introduktion till vår forskning. Vad vi, i teorin, har fått lära oss om slumpmässig variation i statistika undersökningar Hur vi, i praktiken ser på slumpmässig variation inom registerbaserad forskning. Borde vi mäta statistisk osäkerhet vid totalundersökningar? Diskussion och frågor 3

Epidemiologiska studier för cancerpatientöverlevnad Epidemiologiska studier kan användas som ett verktyg för att utvärdera: 1. effektiviteten i cancervården 2. de åtgärder som satts in i syfte att minska konsekvenserna / påverkan av cancer 3. identifiera potentiella riskfaktorer som kan kopplas till ökad dödlighet Studier av cancerpatientöverlevnad har ofta ett folkhälsoperspektiv och är av analytisk karaktär. 4

Populationsbaserade studier av cancerpatientöverlevnad Data från nationella/regionala cancerregister. Rutinberäkningar (exempelvis tidstrender i femårsöverlevnaden) Utveckling av existerande statistiska metoder för att skatta överlevnaden Särskilt intresse att utveckla kommunikationen av canceröverlevnadsstatistik. 5

Ofta komplicerade databaser (Van Hemelrijck et al. Int. J. Epidemiol. 2012) 6

En enklare, men vanligare generell datastruktur Nationella cancerregistret Dödsorsaksregistret Studiepopulation 7

8

1-årsöverlevnad per kalenderperiod och åldersgrupp 9

Läkartidningen 2004 10

Grundläggande statistikteori stickprovsundersökning Urval Målpopulation stickprov Inferens 11

Stickprovsundersökning Vid en stickprovsundersökning undersöks en del av populationen. Stickprovsundersökningar har stor praktisk användning och begagnas t.ex. vid opinionsmätningar, försöksverksamhet och statistisk kvalitetskontroll. En stickprovsundersökning ger i regel ett osäkrare resultat än en totalundersökning. Blom och Holmqvist, Statistikteori med tillämpningar, Studentlitteratur 12

Totalundersökning I en totalundersökning studeras hela populationen. Totalundersökningar har stor betydelse på många områden, t.ex. inom offentlig statistikproduktion och inom industrin. Ofta är en totalundersökning alltför dyrbar eller tidsödande att genomföra, ibland principiellt eller praktiskt otänkbar. Totalundersökningar kräver inte någon statistikteori och behandlas nästan inte alls i fortsättningen Blom och Holmqvist, Statistikteori med tillämpningar, Studentlitteratur 13

Läkartidningen 2004 14

Med förvåning kan man i vetenskapliga tidskrifter läsa svenska artiklar som redovisar osäkerhet i form av konfidensintervall eller p-värden trots att det av metodbeskrivningen framgår att undersökningen är en populationsbaserad totalundersökning Det finns ingen statistisk osäkerhet till följd av urval och därmed inget behov av konfidensintervall 15

Bakomliggande argument 16

Slutsats När vi nu har ett cancerregister som ger facit till en mängd intressanta frågeställningar så borde vi i Sverige kunna ta forskningen till en högre nivå än att nöja oss med att redovisa konfidensintervall, vilka alltså inte ger någon extra kunskap. 17

Reaktion på artikeln i Läkartidningen Paul Dickman, Juni Palmgren, Yudi Pawitan Läkartidningen, Nr 20, 2004 18

Huvudresonemang Ett komplett urval bör för att besvara vetenskapliga frågeställningar ses som ett uttryck (realisation) för en underliggande slumpmässig process. Det vi observerar innehåller både systematik och slump, och det är den underliggande systematiken som förmedlar det vetenskapliga budskapet, t ex skillnader i underliggande cancerfrekvens mellan olika grupper. 19

Exempel År 2002 inträffade 95 fall av tungcancer bland svenska män, medan det bland kvinnor bara förekom 70 fall. En jämförelse av de observerade värdena 95 och 70 har inget vetenskapligt innehåll. Däremot är det meningsfullt att fråga sig om den underliggande frekvensen av tungcancer är olika för män och kvinnor. Även om värdena 95 och 70 kommer från ett komplett urval är de intressanta först då de behandlas som ett utfall från en process som innehåller slump. 20

Sammanfattningsvis Beroende vad vi är intresserade av för fråga så kan det av olika anledningar vara relevant att mäta osäkerhet i utfallet (även om vi har alla data tillgängliga) Slumpvariabel X ~ fördelning(θ), vi är intresserade av θ inte X 21

Journal of the American Statistical Association 1941;36:45-49 22

Journal of the American Statistical Association 1953;48:244-255 23

Klassifikation av studier (utifrån syfte) Inventering (uppräkning) Sammanställning av data som besvarar frågan: Vetenskaplig analys Undersökning som syftar till att besvara frågan: Hur många? Varför? Rapporterade cancerfall - planering av vårdplatser Barnkullar - planering av dagis/skol platser Systematiska skillnader mellan grupper eller över tid? Faktorer som påverkar de drivande processerna? 24

Att tolka en totalundersökning som ett stickprov A census describes a population that is subject to the variations of chance, because it is only one of the many possible populations that may have resulted from the same underlying system of social and economic causes 25

Totalundersökning ett stickprov ur en superpopulation From the point of view being expressed here, however, even a complete census, for scientific generalizations, describes a population that is but one of the infinity of populations that will result by chance from the same underlying social and economic cause system. This infinity of populations may itself be thought of as a superpopulation. A sample enquiry is then a sample of a sample, and a so-called 100 per cent sample is simply a larger sample, but is still only a sample. 26

Föräldrapenning Båda föräldrarnas försäkring? Socialförsäkringsrapport 2011:13 I denna rapport redovisar och analyserar Försäkringskassan utvecklingen inom föräldrapenningen med inriktning på fördelning av föräldrarnas uttag av föräldrapenning. I kapitel 3 analyseras hur utfallet av olika föräldrapenningmått varierar beroende på föräldrarnas kön, ålder, utbildning och födelseregion. I det fjärde kapitlet studeras effekterna av de senaste årens reformer med fokus på hur dessa påverkat jämställdheten i föräldrapenninguttaget. 27

28

29

Möjliga förklaringar till ett observerat samband mellan exponering och utfall i observationella studier Bias (exempelvis selektionsbias, re-call bias etc) Confounding (egentligen en form av bias) Slump En verklig association mellan exponering och utfall 30

Läärä (2011) in Methods in Biobanking 31

Borde vi presentera mått på osäkerhet då vi känner till hela populationen? JA om syftet med den statistiska undersökningen är vetenskapligt (analytiskt). Om syftet istället är administrativt finns inga skäl till att redovisa standardavvikelser, konfidensintervall etc. Oklarheten består inte i om osäkerhet ska redovisas utan hur den i själva verket ska mätas dvs hur bör man härleda variansformler då målpopulationen är en högst hypotetisk superpopulation? Tillämpar i dagsläget ett frekventistiskt synsätt. 32

Förslag till diskussionspunkter Vanliga missuppfattningar (generaliserbarhet till andra populationer, prediktionssyfte) Superpopulationen är inte väldefinierad, så vad kan vi egentligen säga om den enda observation som vi har att tillgå? Frågor som ni får på försäkringskassan angående detta? Övriga synpunker? 33

Vill du läsa mer? Dahl H, Andersson M; Cancerforskare, sluta redovisa konfidensintervall när de inte behövs! (2004), Läkartidningen, Nr 4, Vol 101 Dickman P, Pawitan Y, Palmgren J; Cancerforskare behöver statistisk osäkerhet (2004), Läkartidningen, Nr 20, Vol 101 Ralph Nilsson; Till Konfidensintervallens försvar (2004), Läkartidningen, Nr 20, Vol 101 Andrew Gelmans blogg (http://andrewgelman.com/) How does statistical analysis differ when analyzing the entire population rather than a sample? (2009) How do you interpret standard errors from a regression fit to the entire population? (2011) 34