Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Relevanta dokument
Innehåll: har missbrukat jämfört med om man inte har. missbrukat. Risk 1 Odds Risk. Odds 1 Risk. Odds

Risk Ratio, Odds Ratio, Logistisk Regression och Survival Analys med SPSS Kimmo Sorjonen, 2012

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Faktoranalys - Som en god cigarr

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Överlevnadsanalys. 732G34 Statistisk analys av komplexa data

Överlevnadsanalys. Överlevnadsanalys med tidsberoende kovariater. Tid till en händelse: observationer i kalendertid och som tid från start.

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

Multilevel Modeling med SPSS Kimmo Sorjonen ( )

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Statistiska metoder för säkerhetsanalys

FAKTORER SOM PÅVERKAR RISKEN ATT AVLIDA EFTER EN STROKE

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

ANOVA Faktoriell (tvåvägs)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Agenda. Statistik Termin 10, Läkarprogrammet, VT15. Agenda (forts.) Forskningsprocessen. Data - skalnivåer. Den heliga treenigheten

1. INLEDNING Problemformulering Syfte Avgränsningar 4 2. TIDIGARE STUDIER 5 3. METOD Överlevnadsanalys 6 3.

Statistik Termin 10, Läkarprogrammet, HT16

Tillvägaghångssätt för skattning av körkortsmodell

Instruktioner till Examinationen Kursen Metoder för Statistisk Analys Karolinska Institutet

Sammanfattning. Förord

SAMMA SJUKVÅRD I HELA

Legitimacy of newness and smallness - En studie i överlevnad för små och nya företag

Regressionsanalys Enkel regressionsanalys Regressionslinjen

HELT NY VERSION. Uppgradera till version 13. Statistica förvandlar data till information

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Statistik 1 för biologer, logopeder och psykologer

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Skattar vi alltid vad vi tror? Om individuell risk och populationsrisk

Multipel Regressionsmodellen

Regression med Genetiska Algoritmer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Exempel på tentamensuppgifter

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Repetitionsföreläsning

Tre av tio har avgått

Stokastiska signaler. Mediesignaler

F23 forts Logistisk regression + Envägs-ANOVA

Weibullanalys. Maximum-likelihoodskattning

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Överlevnadsanalys inom en streamingtjänst En jämförelse i risk mellan abonnemangstyper

Regressions- och Tidsserieanalys - F7

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

import totalt, mkr index 85,23 100,00 107,36 103,76

DATORÖVNING 4: DISKRETA

Insulinantikroppars påverkan på risken för hypoglykemi hos patienter med diabetes typ 2 behandlade med inhalerat eller subkutant insulin

Matematisk statistik KTH. Formelsamling i matematisk statistik

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Analys av miljööverträdelser i Sverige. Miljösanktionsavgiftens påverkan på återfall. Analysis of environmental violations in Sweden

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Relativ överlevnad i cancerstudier

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen MVE301 Sannolikhet, statistik och risk

ÖVNINGSUPPGIFTER KAPITEL 8

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Fråga nr a b c d 2 D

Regressionsmodellering inom sjukförsäkring

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Hur länge ska fisken vara i dammen?

Medicinsk statistik II

Upphandling av måltidsverksamhet inom äldreomsorgen

Sänkningen av parasitnivåerna i blodet

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Statistiska samband: regression och korrelation

MVE051/MSG Föreläsning 7

Medicinsk statistik III Läkarprogrammet, Termin 5 VT 2016

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

SF1901 Sannolikhetsteori och statistik I

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Tentamen MVE300 Sannolikhet, statistik och risk

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013

Lektionsanteckningar 11-12: Normalfördelningen

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Föreläsning 10, del 1: Icke-linjära samband och outliers

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Transkript:

Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3 Data, SPSS 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) 4.3 Data, SPSS 4.4 SPSS Output 4.5 Diagnostik 4.6 Interaktion 4.7 Tids beroende prediktor

1. Risk & Odds Risk Odds 1 Odds Odds Risk 1 Risk Risk = Antal med utfall dividerat med totalt antal (kan variera mellan 0 och 1) Odds = Antal med utfall dividerat med antal utan utfall (kan variera mellan 0 och ) Kvinnor Män Risk(kvinna) Odds(kvinna) 2 8 2/(2+8)=0,2 2/8=0,25 5 5 5/(5+5)=0,5 5/5=1 8 2 8/(8+2)=0,8 8/2=4

1.1 Risk Ratio Ej missbruk Missbruk Ej demens Demens 34 43 51 122 85 165 77 173 Risk för demens om man har missbrukat jämfört med inte missbrukat: RR = (122 / 173) / (43 / 77) = 0,705 / 0,558 = 1,263 26% riskökning för demens om man har missbrukat jämfört med om man inte har missbrukat.

1.1 Risk Ratio Ej missbrukat 34 Estimering av populationens RR för demens om man har missbrukat jämfört med om man inte har missbrukat. RR(sample = 1.263) Missbrukat Ej demens Demens 43 51 122 85 165 77 173 SEln( RR ) 1 p1 N p 1 1 1 p0 N p 0 0 1 0.705 1730.705 1 0.558 770.558 0.113 Formeln ger medelfel för ln(rr); p1 = andel med utfall (demens) i exponerad grupp (missbrukat); N1 = antal exponerade p0 = andel med utfall (demens) i icke exponerad grupp (ej missbrukat); N0 = antal icke exponerade 95% CI RR e ln( RR) 1.96SEln( RR ) e 0.2331.960.113 1.012 1.575 Med 95% säkerhet ligger populationens RR någonstans mellan 1.012 och 1.575

Ej demens Demens 1.2 Odds Ratio Ej missbrukat 34 Missbrukat 43 51 122 77 173 85 165 OR p q (1 /(1 p) q) p = risk för utfall i grupp 1 q = risk för utfall i grupp 2 Odds för demens om man har missbrukat jämfört med inte missbrukat : OR = (122 / 51) / (43 / 34) = 2,392 / 1,265 = 1,891 Oddsen att ha demens är 1,9 gånger så hög om man har missbrukat jämfört med om man inte har missbrukat.

Ej demens Demens 1.2 Odds Ratio Ej missbrukat 34 (n11) 43 (n12) 77 Estimering av populationens OR för demens om man har missbrukat jämfört med om man inte har missbrukat. OR(sample) = 1.891 Missbrukat 51 (n21) 122 (n22) 85 165 173 SEln( OR ) 1 n 11 1 n 12 1 n 21 1 n 22 1 34 1 43 1 51 1 122 0.284 Formeln ger medelfel för ln(or). 95% CI e ln( OR) 1.96SEln( OR ) e 0.6371.960.284 1.084 3.299 Med 95% säkerhet ligger populationens OR någonstans mellan 1.084 och 3.299

1.2 Odds Ratio OR skiljer sig signifikant från 1.

2. Logistisk regression Används när man skall predicera värden på en dikotom variabel. Använder sig av den naturliga logaritmen av oddskvoter (eftersom dessa tenderar att vara linjära även med en dikotom beroende variabel). Undviker problem med orimliga predicerade värden.

2.1 Logistisk regression Det fina med Ln Odds Odds(man) 45 40 35 30 25 20 15 10 5 0 Vikt Ln(Odds(man)) 5 4 3 2 1 0 1 2 3 4 5 Vikt

2.2 Logistisk regression, SPSS Output Alltså: Ln Odds (man) = 0,103 x Vikt 7,221 När vikt ökar med ett kilo ökar odds för man med 10.9%.

2.2 Logistisk regression Exempelberäkning Ln Odds (man) = 0,103 x Vikt 7,221 Vikt = 70 Ln Odds (man) = 0,011 Odds (man) = e 0,011 = 0,989 P (man) = 0,989 / (1 + 0,989) = 49,7% Vikt = 80 Ln Odds (man) = 1,019 Odds (man) = e 1,019 = 2,770 P (man) = 2,770 / (1 + 2,770) = 73,5%

2.3 Logistisk regression Estimering Logistisk regression (liksom många andra metoder) använder sig av Maximum Likelihood estimering. För olika parametervärden beräknar ML sannolikheten för att få de data vi har, givet att dessa parametervärden gäller i populationen. Vi presenteras med de parameterestimat som ger högst sannolikhet för att ge upphov till de data som vi har. ML går ut på att maximera den s.k. Likelihood funktionen: LF Y { P i *(1 P i i ) 1Yi } Excel Kalkylblad Π = produkten av P i = sannolikhet för individ i att ha värdet 1 på den beroende variabeln Y i = individens värde på den beroende variabeln (0 eller 1)

2.4 Logistisk regression Multipel, SPSS

3. Survival Analys Används när den beroende variabeln innehåller två olika bitar information: (1) Har händelsen av intresse inträffat för försökspersonen (ja/nej)?; (2) Om ja, hur lång tid tog det innan händelsen inträffade? Logistisk regression skulle inte ta hänsyn till det senare. Oftast är data censurerade. Survival = Det har inte skett någon förändring, t.ex. man har inte dött, men kan också vara att man inte blivit frisk.

3.1 Survival Analys, vs. Logistisk Logistisk Regression Cox Regression

3.2 Survival Analys, Censurerade data Exempel: Överlevnad hos cancerpatienter (händelse = död i cancer). 1. Ocensurerade data: Riskperiodens början är känd samt tidpunkt för händelse. 2. Höger censurerade: Tidpunkt för händelse är okänd (t.ex. för att den ännu inte inträffat). 3. Vänster censurerade: Tidpunkt för riskperiodens början är okänd. 4. Slumpmässig censurering: Riskperioden avslutas, men inte p.g.a. att händelsen inträffar. Vänster censurerade data är svårare att hantera än de två övriga. 0 1 2 3 4 5 Tid (år)

3.3 Survival Analys, Data, SPSS Tid = Dagar från Diagnos till Dödtid (om död) alternativt från Diagnos till Uppföljning (om ej död). Tid kan ses som tid under risk. Om vi t.ex. skall predicera hazard för död i cancer och en patient dör i en bilolycka skall tid vara tid från baseline till död, men utfalls variabeln död i cancer skall vara lika med noll (vi har ett fall av s.k. slumpmässig censurering).

3.4 Survival Analys, Parametriskt eller inte Icke parametriska metoder: Gör inga antaganden om överlevnadsfunktionens utformning i populationen. Ex: Life Tables, Kaplan Meier Parametriska metoder: Gör antaganden om överlevnadsfunktionens utformning i populationen. Ex: Weibull modeller. Semi parametriska metoder: Gör antaganden om Hazard rate, men inga övriga antagenden om överlevnadsfunktionens utformning i populationen. Ex: Cox regression

3.5 Survival Analys, Life Table Används kanske framför allt för att ge en deskriptiv beskrivning av hur överlevnaden utvecklas (minskar) över tid.

3.6 Survival Analys, Kaplan Meier Till skillnad från Life Tables går tidsperioderna från en händelse till nästa istället för att vara lika långa.

3.6 Survival Analys, Kaplan Meier Man kan jämföra överlevnaden i olika grupper. Kontinuerliga prediktorer måste kategoriseras. Problematiskt om gruppernas överlevnadslinjer korsar varandra (= skillnaden i överlevnad mellan grupperna interagerar med tid).

4. Cox Proportional Hazard Model Kräver inte information om överlevnadsfunktionens utformning. Modellen antar att förhållandet mellan två individers h är den samma över hela tidsperioden (= proportionell). Beräknade parametrar påverkas av överlevnadstidernas rangordning, men inte av de absoluta värdena. Tillåter inkluderandet av prediktorer som förändras över tid.

4.1 Cox, Hazard Function Den villkorade sannolikheten för att händelsen skall ha inträffat vid tidpunkt t + dt, givet att den inte inträffat vid tidpunkt t. Funktionen är ett gränsvärde beräknat på a dt 0. Ju längre tid det tar för händelsen att inträffa, desto lägre är sannolikheten (hazard) för att händelsen inträffar inom tidsperioden dt. Hazard funktionen kan tolkas som ett mått på förändringshastighet (eller kanske som death rate per tidsenhet ).

Andra funktioner Probability Density Function (PDF): Som hazard, men inte villkorad (sannolikheten för att händelsen skall inträffa under dt). Cumulative Distribution Function (CDF): Sannolikheten för att dt ett visst bestämt värde. Survivor Function: Sannolikheten för att händelsen INTE skall ha inträffat vid en viss bestämd tidpunkt (1 CDF). Cumulative Hazard Function: Förväntat antal personer som upplevt händelsen vid en viss tidpunkt.

Cox Proportional Hazard Model Hazard h för händelse för en individ i vid en tidpunkt t ges av formeln: Ln h i (t) = β 0 + β 1 x i1 + β 2 x i2 + β 0 = intercept = hazard om alla prediktorer = 0 β 1 = effekt av prediktor 1 på hazard för händelse x i1 = individens värde på prediktor 1 osv Modellen antar att förhållandet mellan två individers h är den samma över hela tidsperioden (= proportional)

4.2 Cox, Estimering Cox an vänder sig av s.k. Partial Likelihood estimering, som går ut på att maximera följande funktion: Estimerad hazard för individen i PL n i1 n j1 e Y x ij i e x i i Antar värdet 1 för ickecensurerade personer och 0 för censurerade Summan av hazard för de andra individerna som inte upplevt händelsen vid den aktuella tidpunkten.

4.3 Cox, Data, SPSS

4.4 Cox, SPSS Output 2LL för nollmodellen, där hazard för död antas bero endast på tiden. Modellens 2LL sjunker med 223.935 när vi inkluderar intelligens som en prediktor (från 65971.225 till 65747.289) vilket är en signifikant förbättring (p <.001). En ökning i intelligens med ett stanine steg är associerad med en sänkning i Ln(hazard för död) med 0.13. Detta motsvarar en sänkning i hazard med 1 e 0.13 = 1 0.878 = 12.2% och effekten är signifikant (p <.001).

4.5 Cox, Diagnostik Proportionaliteten i hazard kan t.ex. diagnostiseras genom att man tittar på ett s.k. Log minus log diagram. Linjerna bör vara parallella.

4.6 Cox, Interaktion På samma sätt som i anna regression (linjär, logistisk) kan man testa om prediktorer interagerar i sin effekt på hazard för händelse. I det aktuella fallet finne vi att: Effekt av Intelligens på Ln(hazard för död) = 0.193 + 0.034 * Emotionell kontroll; ju lägre man ligger i Emotionell kontroll, desto starkare negativ association mellan Intelligens och hazard för död. Effekt Emotionell kontroll på Ln(hazard för död) = 0.422 + 0.034 * Intelligens; ju lägre man ligger i Intelligens, desto starkare negativ association mellan Emotionell kontroll och hazard för död.

Höga värden i Intelligens eller Emotionell kontroll skyddar mot eventuella låga värden i den andra variabeln. 4.6 Cox, Interaktion

4.7 Cox, Tids beroende prediktorer Ibland har man upprepade mätningar av en eller flera prediktorer. I så fall bör man specificera prediktorerna som tids beroende och estimera hur värdet från den senaste mätningen av prediktorn påverkar hazard för utfall. Alternativt, om man tror att effekten av prediktorn är fördröjd, kan man beräkna hur hazard för utfall vid tidpunkten t påverkas av värdet i prediktorn vid tidpunkten t c.

4.7 Cox, Tids beroende prediktorer Formeln nedan ger att: SBP = SBP0 om Tid < Tid1; SBP = SBP1 om Tid Tid1 och < Tid2; SBP = SBP2 om Tid Tid2

4.7 Cox, Tids beroende prediktorer Hade vi inte tagit hänsyn till att SBP varierar mellan de olika mättillfällena, och endast använt oss av SBP0 som prediktor, hade vi fått en svagare effekt av SBP på hazard för död.

Sammanfattning: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3 Data, SPSS 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) 4.3 Data, SPSS 4.4 SPSS Output 4.5 Diagnostik 4.6 Interaktion 4.7 Tids beroende prediktor