Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Relevanta dokument
Borde vi mäta statistisk osäkerhet vid totalundersökningar?

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Tidigare exempel. Några beteckningar. Stratifierat urval

Urvalsmetoder: Stratifierat urval (kap 9.5)

Föreläsning G60 Statistiska metoder

1 Mätdata och statistik

Introduktion till statistik för statsvetare

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Antalet personer som skriver högskoleprovet minskar

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Hur man tolkar statistiska resultat

Statistikens grunder HT, dagtid Statistiska institutionen

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Novus Opinion för TV4 Kalla Fakta. Allmänheten om september David Ahlin Lina Lidell

Föreläsning 7: Punktskattningar

Hur skriver man statistikavsnittet i en ansökan?

Studietyper, inferens och konfidensintervall

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Kap 2: Några grundläggande begrepp

Analytisk statistik. Tony Pansell, optiker Universitetslektor

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

BIOSTATISTIK att hantera slumpmässiga variationer BIO STATISTIK. data handlar om levande saker

Tentamen i Statistik STG A01 (12 hp) Fredag 16 januari 2009, Kl

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Folkhälsokalkylator. Bakgrund

Föreläsning 1: Introduktion. Vad är statistik?

DATORÖVNING 2: STATISTISK INFERENS.

Allmänhetens attityder till studieförbunden 2013

Fjärrvärme 2011 E.ON. Jon Andersson, Projektnummer:

Three Monkeys Trading. Tärningar och risk-reward

Om bloggar. InternetExplorers Delrapport 3. Håkan Selg Nationellt IT-användarcentrum NITA. Redovisning av enkätsvar Juni 2008

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Föreläsning 7: Punktskattningar

Föreläsning 5: Att generalisera

Föreläsning 5: Att generalisera

Föreläsning G60 Statistiska metoder

Christer Nordh/ Förvaltningstjänster för premiepensionen Undersökning bland allmänheten 15 och äldre februari 2013

Handisam. Beräkningsunderlag för undersökningspanel

EXAMINATION KVANTITATIV METOD

Statistikens betydelse och nytta för samhället

Börja med resultatet om du vill designa en lyckad klinisk studie

1(6) Datum Anna Björkesjö Klara Jakobsson. Nedskräpning i stadens centrala gatumiljö. - Nyköping Metod- och kvalitetsrapport

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

Modellprognos för konjunkturlönestatistikens definitiva utfall för oktober 2017 september 2018

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering.

Provmoment: Ladokkod: Tentamen ges för: Tentamen VVT012 SSK05 VHB. TentamensKod: Tentamensdatum: Tid:

Kvantitativa metoder del 2. Kandidatprogrammet i folkhälsovetenskap, HT -11

LINKÖPINGS UNIVERSITET TENTA 92MA31, 92MA37, 93MA31, 93MA37 / STN 2 9GMA05 / STN 1

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

TENTAMEN MÅNDAGEN DEN 22 OKTOBER 2012 KL a) Bestäm P(ingen av händelserna inträffar). b) Bestäm P(exakt två av händelserna inträffar).

Naturskyddsföreningen Attityder till flygskatt

Hypotestestning och repetition

FÖRELÄSNING 8:

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Är icke-sannolikhetsurval aldrig representativa?

Modellprognos för konjunkturlönestatistikens definitiva utfall december 2016-november 2017

West Pride. Författare: Frida Tipple [SOM-rapport nr 2019:36]

Säsongrensning i tidsserier.

Avd. Matematisk statistik

Modellprognos för konjunkturlönestatistikens definitiva utfall januari 2018 december 2018

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Modellprognos för konjunkturlönestatistikens definitiva utfall april 2017-mars 2018

Diskussionsproblem för Statistik för ingenjörer

Föreläsning G70 Statistik A

Lärare 4. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

LMA201/LMA521: Faktorförsök

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Studiedesign och effektmått

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

EPIDEMIOLOGI. Läran om sjukdomsförekomst i en befolkning (Ahlbom, Norell)

, s a. , s b. personer från Alingsås och n b

BEFOLKNINGSPROGNOS för Sollentuna kommun och dess kommundelar.

Lärare 2. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Statistik 1 för biologer, logopeder och psykologer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Befolkningsprognos

Erica Schytt. Barnmorska Föreståndare för Centrum för klinisk forskning Dalarna Docent Karolinska Institutet Professor Høgskulen på Vestlandet

Höftledsdysplasi hos dansk-svensk gårdshund

Version Ett ord på vägen, det sunda förnuftet är jätteviktigt, glöm inte det. Det är ingen magi, det är inget trolleri.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Modellprognos för konjunkturlönestatistikens definitiva utfall för mars 2016-februari 2017

Analys av proportioner

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning G60 Statistiska metoder

Transkript:

Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Bakgrund Populations-baserad cancerpatientöverlevnad skattas med hjälp av data från det svenska cancer registret Registret är näst intill komplett för de flesta cancertyper Får ofta frågan, varför används konfidensintervall vid beskrivningen av historiska data

Överlevnad KML

Ett hett ämne. Läkartidningen publicerade år 2004 et inlägg av Henrik Dahl och Mikael Andersson där detta ämne diskuterades Cancerforskare, sluta redovisa konfidensintervall när det inte behövs!

Citat H.D M.A Med förvåning kan man i vetenskapliga tidskrifter läsa svenska artiklar som redovisar osäkerhet i form av konfidensintervall eller p-värden trots att det av metodbeskrivningen framgår att undersökningen är en populationsbaserad totalundersökning Det finns ingen statistisk osäkerhet till följd av urval och därmed inget behov av konfidensintervall Grundläggande för en undersökning är att veta vilka personer man vill uttala sig om, dvs att det finns en väldefinierad population

Huvudsakliga resonemang Konfidensintervall kan inte bidra till att möjliggöra slutsatser till t.ex. världspopulation (då behövs ett gruppurval alternativt ett slumpmässigt individurval) Konfidensintervall kan inte hjälpa oss att göra prognoser för framtiden (för detta behövs flera antaganden)

Slutsats Givet att man har alla relevanta fakta om de personer som ska beskrivas så kan man naturligtvis exakt beskriva hur något har varit Det finns ingen statistisk osäkerhet till följd av urval och därmed inget behov av konfidensintervall

Reaktioner från cancerforskare/ biostatistiker Paul Dickman, Juni Palmgren, Yudi Pawitan D/A beskriver en värld där det slumpmässiga urvalet är den enda källan till variation, och därmed skulle ett»urval«som omfattar samtliga individer inte innehålla slumpmässighet Vi hävdar att ett komplett urval kan ses som ett uttryck för en slumpmässig process inneboende slumpmässighet i den underliggande process som genererar t.ex bröstcancerfall

Om vi till exempel vill jämföra förekomsten av cancer mellan olika köns- och åldersgrupper finns det goda skäl att göra jämförelserna i termer av de underliggande genomsnitten i stället för de observerade antalen

Slutsats Det vi observerar innehåller både systematik och slump, och det är den underliggande systematiken som förmedlar det vetenskapliga budskapet, t ex skillnader i underliggande cancerfrekvens Konfidensintervallen hjälper oss att bedöma om det verkligen finns underliggande systematisk variation eller om den variation vi observerar kan avfärdas som innehållslöst»brus«

Det finns olika skäl till att mäta osäkerhet Tänk dig att du äger en kedja glasskiosker! Du vill veta det totala antalet glassar som såldes i de olika kioskerna förra säsongen Det vi vill uttrycka oss om är fixt och direkt mätbart Skattas genom att räkna antalet sålda glassar i varje kiosk några slumpmässigt valda dagar

Det finns olika skäl till att mäta osäkerhet Osäkerhet eftersom vi inte räknar alla glassar som sålts Om du kan räkna det totala antalet glassar som såldes i de olika kioskerna behövs ingen osäkerhet T.ex 10152 glassar i kiosk A och 9714 i kiosk B

Var glassförsäljningen mer framgångsrik i vissa kiosker än andra? Genom att bara titta på det exakta antalet sålda glassar för varje kiosk, kan vi se vilken kiosk som sålde mest Men, för att kunna dra slutsatser om en kiosk verkar ha ett mer fördelaktigt läge/ha bättre försäljare o.d. måste vi kunna bestämma om skillnaderna är större än den naturliga variationen av glassförsäljning

Vad menar vi med naturlig variation av glassförsäljning? Tänk er att vi kunde vrida tillbaka klockan till förra säsongens första dag Genom att upprepa försöket ännu en gång så skulle våra försäljningssiffror knappast sammanfalla exakt med det senaste försökets siffror Det finns således en underliggande process vilken leder till en naturlig variation i hur många glassar som säljs

Sammanfattningsivs Beroende vad vi är intresserade av för fråga så kan det av olika anledningar vara relevant att mäta osäkerhet i utfallet (även om vi har alla data tillgängliga) Slumpvariabel X ~ fördelning(θ), vi är intresserade av θ inte X

Glass = cancer Låt oss återgå till exemplet med cancer År 2002 inträffade 95 fall av tungcancer bland svenska män, medan det bland kvinnor bara förekom 70 fall. En jämförelse av de observerade värdena 95 och 70 har inget vetenskapligt innehåll. Däremot är det meningsfullt att fråga sig om den underliggande frekvensen av tungcancer är olika för män och kvinnor. Även om värdena 95 och 70 kommer från ett komplett urval är de intressanta först då de behandlas som ett utfall från en process som innehåller slump.

En mer komplicerad situation Så hur ska vi mäta osäkerhet i den process som leder till att personer drabbas av cancer om vi inte längre har tillgång till populationspaserade data? Ex SEER data i USA Borde vi korrigera våra konfidensintervall ytterligare eftersom vi nu dessutom endast har ett urval av totalbefolkningen?

Nej, det behövs inte Osäkerheten i processen beror självklart på storleken på det data material vi har (framför allt antalet fall som driver processen) För att skatta slumpprocessen spelar det dock ingen roll om du har en hel population eller endast ett slumpmässigt urval ur en population ¼ av USAs befolkning kan gissningsvis ge en bättre skattning av en väldefinerad process än vad hela sveriges befolkning skulle kunna göra

TACK!