Multivariabel statistik

Relevanta dokument
Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Till ampad statistik (A5) Förläsning 13: Logistisk regression

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Hur skriver man statistikavsnittet i en ansökan?

Statistik Lars Valter

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Höftledsdysplasi hos dansk-svensk gårdshund

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Delprov 3 Vetenskaplig artikel

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

F11. Kvantitativa prognostekniker

Föreläsning 12: Linjär regression

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Föreläsning G60 Statistiska metoder

Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen i Vetenskaplig grundkurs (MC001G/MC014G/MC1016), STATISTIK

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Propensity Scores. Bodil Svennblad UCR 16 september 2014

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Modellering av Dynamiska system Bengt Carlsson Rum 2211

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

EXAMINATION KVANTITATIV METOD

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Medicinsk statistik II

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

MVE051/MSG Föreläsning 14

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

F13 Regression och problemlösning

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Regressionsanalys av lägenhetspriser i Spånga

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Grundläggande matematisk statistik

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Skrivning i ekonometri lördagen den 29 mars 2008

Modellering av Dynamiska system Bengt Carlsson Rum 2211

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Föreläsning 12: Regression

TENTAMEN TEORI. EXAMENSARBETE 1 (LÄLA53/LÄMA53) TERMIN 5, HT 2012, , kl

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Stokastiska processer med diskret tid

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Parade och oparade test

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

PROGRAMFÖRKLARING III

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Gamla tentor (forts) ( x. x ) ) 2 x1

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Statistik och epidemiologi T5

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Hypotestestning och repetition

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Föreläsning 7. Statistikens grunder.

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Forskningsmetodik Lektion 6 Korrelation och kausalitet Per Olof Hulth hulth@physto.se. Tvådimensionella histogram

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Modellutveckling 2017: Regressionsmodellen för inrikes inflyttning - kommunnivå

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Statistik B Regressions- och tidsserieanalys Föreläsning 1

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

FACIT (korrekta svar i röd fetstil)

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Obligatorisk uppgift, del 1

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Exempel på tentamensuppgifter

F23 forts Logistisk regression + Envägs-ANOVA

Transkript:

Multivariabel statistik beware of the wolf Johan Lindbäck Uppsala Clinical Research Center Kvalitetsregisterforskningskonferens Arlanda 26 maj 2015

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 2/36 Introduktion Några saker att beakta Utvärdering av modeller Multivariabel statistik Förtydligande Multivariat = flera utfallsvariabler Multivariabel = flera förklaringsvariabler/prediktorer Behöver inte innebära modellering men vi kommer idag uteslutande prata om (regressions)modeller

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 3/36 Innehåll Introduktion Frågeställning Statistiska (regressions)modeller Några saker att beakta vid konstruktion av multivariabla modeller Confounding Modellanpassning/överanpassning Bortfall/saknade observationer Kodning och val av variabler Stegvis regression Utvärdering av modeller Diskriminering Kalibrering Validering

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 4/36 Frågeställning Tre områden där vi typiskt använder multivariabla modeller är Hypotesprövning Finns det ett samband mellan graden av fysisk aktivitet och risken för hjärtsjukdom? Estimering Hur mycket minskar blodtrycket om man får en viss typ av blodtrycksmedicin? Prediktion Vad är sannolikheten att en 70-årig kvinna med förmaksflimmer drabbas av en stroke inom 3 år?

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 5/36 Introduktion Några saker att beakta Utvärdering av modeller Statistisk modell Vanliga regressionsmodeller inom medicinsk forskning Linjär regressionsmodell Y = β 0 + β 1 X 1 + β 2 X 2 +... + β k X k + ε, ε N ( 0, σ 2) Logistisk regressionsmodell eβ 0+β 1 X 1 +β 2 X 2 +...+β k X k P(Y = 1) = 1 + e β 0+β 1 X 1 +β 2 X 2 +...,β k X k [ ] P(Y = 1) ln = β 0 + β 1 X 1 + β 2 X 2 +..., β k X k P(Y = 0) Cox-regressionsmodell h(t) = h 0 (t)e β 1X 1 +β 2 X 2 +...+β k X k

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 6/36 Introduktion Några saker att beakta Utvärdering av modeller Confounding Exempel 120 Biomarker X (ng/l) 100 80 60 10 20 30 40 50 60 70 Age

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 6/36 Introduktion Några saker att beakta Utvärdering av modeller Confounding Exempel Female Male 120 120 Biomarker X (ng/l) 100 80 Biomarker X (ng/l) 100 80 60 60 10 20 30 40 50 60 70 Age 10 20 30 40 50 60 70 Age

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 7/36 Modellanpassning Simulerade data y 10 8 6 4 2 0 0 20 40 60 80 100 x

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 8/36 Modellanpassning Hur bra kan vi anpassa en modell till dessa data?

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 9/36 Modellanpassning Linjär modell y 10 8 6 4 2 0 0 20 40 60 80 100 x

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 10/36 Modellanpassning Loess (s = 0.2) y 10 8 6 4 2 0 0 20 40 60 80 100 x

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 11/36 Modellanpassning Loess (s = 0.1) y 10 8 6 4 2 0 0 20 40 60 80 100 x

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 12/36 Modellanpassning Loess (s = 0.05) y 10 8 6 4 2 0 0 20 40 60 80 100 x

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 13/36 Modellanpassning 'Verkligheten' & loess (s = 0.1) y 10 8 6 4 2 0 Sann ekvation: y = sin(x 3) + x 10 0 20 40 60 80 100 x

Modellanpassning Essentially, all models are wrong, but some are useful (George E. P. Box) It is better to be vaguely right than exactly wrong (Carveth Read) J Lindbäck (UCR) Multivariabla modeller 26/5 2015 14/36

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 15/36 Överanpassning Exempel I en studie på 20 sjukhus mättes blodtrycket i både höger och vänster arm på ett antal patienter för att ta reda på om det fanns någon systematisk skillnad. Den genomsnittliga differensen mellan höger och vänster arms blodtryck plottades för alla sjukhus för att se om det fanns någon skillnad mellan sjukhusen

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 16/36 Överanpassning 10 Skillnad i blodtryck [mmhg] 5 0 5 10 A B C D E F G H I J K L M N O P Q R S T Sjukhus

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 16/36 Överanpassning 10 10 Skillnad i blodtryck [mmhg] 5 0 5 Skillnad i blodtryck [mmhg] 5 0 5 10 10 A B C D E F G H I J K L M N O P Q R S T I C G Q D H J M R B A P E F T O L S N K Sjukhus Sjukhus (sorterade)

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 17/36 Bortfall Statistikprogram tar typiskt bort alla observationer (rader) där åtminstone någon av variablerna saknar sitt värde Table: First 6 rows of some data... Id Age Sex BP died 1 65 M 0 2 70 M 167 1 3 75 M 143 1 4 72 F 0 5 F 150 0 6 54 F 188 0

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 18/36 Bortfall Ju fler variabler med bortfall desto större risk att det endast är få observationer med komplett information Helt slumpmässigt bortfall (ovanligt!) precisionen minskar. Ej slumpmässigt bortfall systematiskt fel. Ofta kan man framgångsrikt imputera nya värden genom att fånga upp samband med övriga variabler

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 19/36 Introduktion Några saker att beakta Utvärdering av modeller Variabelval Vilka variabler? Hur väljer man vilka variabler som ska vara med i modellen? Klinisk erfarenhet Vetenskaplig litteratur Tillgänglighet Inte alls? Låt datorn (statistikprogrammet) välja

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 20/36 Introduktion Några saker att beakta Utvärdering av modeller Variabelval Hur många variabler? Hur många variabler kan (ska/bör/får) man ha med i modellen? Alla? Ingen? Några? Hur många?

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 21/36 Introduktion Några saker att beakta Utvärdering av modeller Variabelval Hur många variabler? För att få tillräckligt bra precision finns några tumregler Linjär regression: minst 10 obs per parameter i modellen Logistisk regression: minst 10 obs i den minsta klassen i utfallet per parameter i modellen Cox-regression: minst 10 händelser per parameter i modellen OBS! parameter variabel

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 22/36 Kodning av variabler För kategoriska variabler med flera klasser kan det ibland vara vettigt att slå ihop (små) klasser Undvik att kategorisera kontinuerliga variabler. Samband är väldigt sällan stegformade Bättre: anpassa smarta splinefunktioner med få parametrar Transformationer: log-transformation gör att vi går från additiv till multiplikativ skala

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 23/36 Kategorisering av kontinuerlig variabel Ålder kontinuerlig Ålder dikotomiserad vid 70 år 190 190 180 180 bp 170 160 bp 170 160 150 140 150 140 60 70 80 90 age 60 70 80 90 age

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 24/36 Stegvis regression Forward Börja utan variabler (medelvärdet) Lägg till en variabel i taget baserat på vilken som är bäst Sluta när modellen inte förbättras längre Backward (bättre) Börja med alla variabler i modellen. Ta bort den variabel som minst påverkar modellen Sluta då modellen signifikant försämras om ytterligare någon variabel tas bort

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 25/36 Stegvis regression (exempel) I en studiepopulation bestående av patienter med akut kranskärlssjukdom som genomgått någon form av revaskularisering (ballongvidgning med eller utan stent eller bypass-operation) vill vi ta fram en prediktionsmodell för att bestämma risken för en ny allvarlig händelse (stroke, kardiovaskulär död eller spontan hjärtinfarkt) 9448 patienter 841 händelser 30 kandidatvariabler 4 prespecificerade interaktioner Icke-linjära transformationer för samtliga kontinuerliga variabler Totalt 79 parametrar i modellen

Stegvis regression 100 bootstrapstickprov CADEX3 sttia GDF_0 BMI NTpBNP_0 stemi3 gender MI TropT_0 PCI_CABG stemi3 * TropT_0 ApoB_0 KILLIP2 HB0 CYST_0 stemi3 * NTpBNP_0 CROBPD PAD stemi3 * WBC0 HRATEBL ApoA1_0 WBC0 AGE diabetes smoker compl_revasc SBPSUBL CRP_0 stemi3 * CRP_0 DYSHCHOL CRENDIS HYP GIBLEED CHF Frequency 20 15 10 5 0 0 20 40 60 80 100 Frequency selected 6 7 8 9 10 11 12 13 14 15 16 17 Number of variables included in final model J Lindbäck (UCR) Multivariabla modeller 26/5 2015 26/36

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 27/36 Problem med stegvis regression Risk för överanpassning R 2 systematiskt för hög Regressionskoefficienter systematiskt för stora (i absoluta tal) Medelfel systematiskt för små p-värden systematiskt för låga Konfidensintervall systematiskt för smala Dålig på att hantera multikolinjäritet (godtycklighet) It allows us to not think about the problem (F.E. Harrell) Automatiska procedurer är sällan implementerade så att de hanterar interaktioner på rätt sätt

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 28/36 Diskriminering En modell har god diskriminerande förmåga om den klarar av att skilja på individer med höga och låga utfall. D.v.s. om modellen förutsäger att individ A har högre risk än individ B och individ A dör innan individ B så har modellen god diskriminerande förmåga

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 29/36 Kalibrering Om det predicerade utfallet är lika som det observerade utfallet så är modellen välkalibrerad. Plotta observerat mot predicerat utfall Övergripande kalibrering (interceptet på kalibreringskurvan). Om alla predicerade sannolikheter är för höga eller för låga. Det skulle t.ex. kunna bero på att det totala risken har minskats (p.g.a. förändringar i samhället?) Lutningen på kalibreringskurvan. Om lutningen < 1 innebär det att låga prediktioner är för låga och höga prediktioner är för höga. Kan vara ett tecken på överanpassning

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 30/36 Introduktion Några saker att beakta Utvärdering av modeller Kalibrering Exempel Fraction Surviving 365 Day 0.80 0.85 0.90 0.95 1.00 0.80 0.85 0.90 0.95 1.00 Predicted 365 Day Survival Black: observed Gray: ideal B=50 based on observed predicted Blue : optimism corrected Mean error =0.002 0.9 Quantile=0.003

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 31/36 Validering Vi vill veta hur bra modellen generaliserar till nya data Vi skiljer på intern och extern validitet

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 32/36 Extern validitet Extern validitet är gold standard Fungerar modellen i den kliniska verkligheten den var framtagen att användas i? Helst en annan region under en annan tid av andra tillämpare Beräkna prediktioner baserat på den framtagna modellen och jämför med observerat utfall i valideringsdatat (OBS! inte samma sak som att ta fram en ny modell på de nya data)

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 33/36 Intern validitet Modellen utvärderas på samma data som den framtagits på Ser ofta bra ut p.g.a. överanpassning Försök efterlikna extern validitet genom att dela upp data.

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 34/36 Introduktion Några saker att beakta Utvärdering av modeller Intern validitet Dela i två delar Dela upp i modelleringsdata och ett valideringsdata. Vanligen 2/3 för framtagning av modell och 1/3 för validering. Slöseri med data. Minskar möjligheten till flexibel modellering. Annan indelning ger troligen annat resultat Rekommenderas ej!

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 35/36 Introduktion Några saker att beakta Utvärdering av modeller Intern validitet Bättre: korsvalidering Dela upp data i k st delar. Ta fram modellen på samma sätt som för alla data men använd bara k 1 av delarna och utvärdera på den del som hölls ute. Upprepa k ggr så att alla observationer utvärderats en gång. Fungerar ofta ok k väljs vanligen till 5 eller 10. Kan upprepas (upprepad korsvalidering) med nya indelningar

J Lindbäck (UCR) Multivariabla modeller 26/5 2015 36/36 Introduktion Några saker att beakta Utvärdering av modeller Intern validitet Bäst: bootstrap Dra nya stickprov (med återläggning) av samma storlek som ursprungsdata Ta fram modellen på samma sätt som för alla data Utvärdera modellen på orginaldatat Beräkna mått för diskrininering, kalibrering, etc. ta genomsnitt över alla bootstrapstickprov. Skillnaden mellan dessa och de ursprungliga måtten mäter överoptimismen. Genom att ta hänsyn till optimismen kan man få en uppskattning om hur modellen kommer att fungera på nya data och justera sin modell utifrån det.