Cocktailnålar i kemikaliehöstackar

Relevanta dokument
Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Multipel Regressionsmodellen

Tentamen MVE301 Sannolikhet, statistik och risk

Formler och tabeller till kursen MSG830

Finansiell statistik. Multipel regression. 4 maj 2011

ÄR EXPONERING FÖR MILJÖGIFTER EN BIDRAGANDE ORSAK TILL UPPKOMST AV VÅRA STORA FOLKSJUKDOMAR?

MVE051/MSG Föreläsning 14

Regression med Genetiska Algoritmer

Multivariabel statistik

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F3

Höftledsdysplasi hos dansk-svensk gårdshund

Tentamen MVE301 Sannolikhet, statistik och risk

Exempel på tentamensuppgifter

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Tentamen MVE301 Sannolikhet, statistik och risk

Medicinsk statistik II

Tentamen MVE301 Sannolikhet, statistik och risk

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Matematisk statistik 9 hp Föreläsning 4: Flerdim

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen Tillämpad statistik A5 (15hp)

Skrivning i ekonometri lördagen den 25 augusti 2007

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Tentamen MVE301 Sannolikhet, statistik och risk

Lösningsförslag till tentamen i SF1861 Optimeringslära för T. Torsdag 28 maj 2010 kl

F11. Kvantitativa prognostekniker

Stokastiska processer med diskret tid

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

ANOVA Faktoriell (tvåvägs)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Regressions- och Tidsserieanalys - F7

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

STATISTISK ANALYS AV KOMPLEXA DATA

8.1 General factorial experiments

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Regressions- och Tidsserieanalys - F4

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Tentamen MVE301 Sannolikhet, statistik och risk

10.1 Enkel linjär regression

Skrivning i ekonometri lördagen den 29 mars 2008

Obligatorisk uppgift, del 1

Statistik och epidemiologi T5

Regressions- och Tidsserieanalys - F1

Lösningsförslag till tentamen Torsdag augusti 16, 2018 DEL A

Stokastiska vektorer

Regressions- och Tidsserieanalys - F3

Tenta i Statistisk analys, 15 december 2004

Föreläsning 9: Linjär regression del II

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

Regressions- och Tidsserieanalys - F1

5B1817 Tillämpad ickelinjär optimering. Metoder för problem utan bivillkor, forts.

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Skrivning i ekonometri torsdagen den 8 februari 2007

Lösningsförslag till tentamen i SF1861 Optimeringslära för T. Onsdag 25 augusti 2010 kl

Lösningar till SPSS-övning: Analytisk statistik

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

Lycka till!

Artificiella Neuronnät

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Tentamen i Beräkningsvetenskap II, 5.0 hp,

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Samhällsvetenskaplig metod, 7,5 hp

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Uppgift a b c d e f (vet ej) Poäng

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Föreläsning 7: Stokastiska vektorer

lokalt vårdprogram för hälso- och sjukvården i södra Älvsborg

MSG830 Statistisk analys och experimentplanering

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Transkript:

Cocktailnålar i kemikaliehöstackar - en statistikers irrfärder i toxikologins värld... Erik Lampa Arbets- och miljömedicin Institutionen för medicinska vetenskaper Uppsala Universitet

Introduktion Påverkas människor av kemikalier? En titt i PubMed...

Introduktion Det traditionella synsättet Vi är exponerade för många ämnen samtidigt Traditionell riskbedömning fokus på ett ämne i taget Nästan aldrig tillämpbart i verkligheten

Introduktion Kemiska cocktails (mixtures) Shaken, not stirred... Produkter som innehåller > 1 kemikalie Kemikalier som släpps ut gemensamt, ex. avgaser Kemikalier som finns samtidigt i miljön

Varför bry sig? Introduktion Backhaus T et al. The single substance and mixture toxicity of quinolones to the bioluminescent bacterium Vibrio fischeri, Aquatic Toxicology, 49(1-2), 49-61, 2000

Introduktion Två sidor av samma mynt Independent Action Kemikalierna verkar oberoende av varandra Oftast orimligt antagande Concentration Addition Kemikalierna verkar beroende av varandra Interaktionseffekter

Några kunskapsluckor Introduktion CA kräver kända dos-respons-samband Kunskap om mekanismer hos människor Verktyg för att identifiera / predicera mixtureeffekter

Mission impossible? Introduktion Identifiera relevanta kemikalier Hitta interaktioner bland många kemikalier Identifiera icke-linjära effekter... utan några egentliga hypoteser (!!)

Några metoder...... som inte fungerar så bra En titt i verktygslådan Vanlig regression N << p Stegvis regression multipla jämförelser, samt N << p Pre-conditioning med LASSO Skapa modellmatrisen, icke-linjära termer, standardisering, tolkning

En titt i verktygslådan Regressionsträd Hanterar stökiga interaktioner Ej känsliga för monotona transformationer av förklarande variabler Ej känsliga för outliers hos förklarande variabler Hanterar bortfall hos förklarande variabler Hanterar mixade variabeltyper Enkla att tolka Dålig prediktiv förmåga Dålig hantering av kontinuerliga variabler För mycket fokus på interakioner?

En titt i verktygslådan Exempel Prediktion av ozonnivåer 1 temperature < 82.5 >= 82.5 2 wind 9 wind >= 7.15 < 7.15 >= 10.6 < 10.6 3 radiation 11 temperature < 79.5 >= 79.5 5 temperature < 88.5 >= 88.5 < 77.5 >= 77.5 Node 4 (n = 18) Node 6 (n = 32) Node 7 (n = 18) Node 8 (n = 9) Node 10 (n = 7) Node 12 (n = 13) Node 13 (n = 14) 150 100 150 100 150 100 150 100 150 100 150 100 150 100 50 50 50 50 50 50 50 0 0 0 0 0 0 0

En titt i verktygslådan Stokastisk gradientboosting Hastie T., Tibshirani R., Friedman J. (2008) The Elements of Statistical Learning, kapitel 10 Anpassar en additiv modell M F(x) = β m b(x; γ m ) m=0 med mål att minimera en förlustfunktion L(y, F(x)) b(x; γ m ) är oftast regressionsträd

En titt i verktygslådan Generell boostingalgoritm 1 Välj L[y, F(x)] 2 Sätt F 0 (x) till en konstant 3 För m=1 till M 1 Dra ett stickprov med storleken η L[y,F (x)] 2 Beräkna r = F (x) Fm(x)=F m 1 (x) och anpassa ett regressionsträd g(x) till r 3 Uppdatera F m (x) = F m 1 (x) + ɛβ m g(x) 4 Repetera många gånger 0 < ɛ 1 är en regulariseringsparameter som begränsar varje träds inflytande på F (x) och reducerar överanpassning. β är steglängden längs gradienten. M kan väljas mha korsvalidering.

En titt i verktygslådan Minsta kvadratboosting 1 Börja med F 0 (x) = ȳ och residual r = y ȳ, m = 0 2 m m + 1 3 Anpassa ett regressionsträd g(x) till r 4 Uppdatera F m (x) = F m 1 (x) + ɛβ m g(x) r r ɛβ m g(x) och repetera steg 2 4 många gånger

En titt i verktygslådan Variabelbetydelse och partiella beroenden Boostade modeller är svåra att tolka Betydelsen av variabler är relaterade till antalet split fler split, större betydelse Partiella beroendefunktioner kan ge en visuell bild av effekter och används för att utvärdera interaktioner P-värden, konfiensintervall?

Interaktioner En titt i verktygslådan Friedman J.H., Popescu B. E. (2008) Predictive learning via rule ensembles The Annals of Applied Statistics, Vol. 2, No. 3, 916 954 Om x j och x k inte interagerar så är det partiella beroendet F jk (x j, x k ) = F j (x j ) + F k (x k ) Definiera H som ett mått på interaktion, 0 H 1 ( ) Fjk F j F k H = f F jk Generaliserar till interaktioner av högre ordning

En titt i verktygslådan Referensfördelning för H Skapa referensfördelning för H (H 0 ) mha boostrapvariant Beräkna upprepade H 0 från artificiella data {ỹ, x} N 1 genererade från riktiga data genom ỹ = F A (x) + [y p F A (x p )] eller Pr(ỹ = 1) = [1 + exp( F A (x))] 1 p är en permutering av 1,..., N. F A (x) är en funktion bestående av träd innehållande en variabel ("stumps"). RuleFit - Träd + Linjära termer + LASSO http://www-stat.stanford.edu/~jhf/r-rulefit.html

Mjukvara En titt i verktygslådan R gbm, mboost, GAMboost, bst, CoxBoost, GMMBoost,... SAS SAS Enterprise Miner STATA boost Salford Systems TreeNet

En enkel simulering Simulering Skapa y = F(x) + ɛ där F(x) = 11 4 exp( 3(1 s(x i )) 2 ) 1.3sin 2 (π s(x 5 )) i=1 och ɛ N(0, σ 2 ) och σ väljs så att signal to noise ratio är 2, 1, 0.5 och 0.1 x är fem olika kemikalier (pcb170, dde, mmp, cd och ) simulerat från verkliga data innehållande 37 kemikalier, N = 1000.

Simulering En enkel simulering Medelvärden av 100 repitioner av 10-faldig korsvalidering i varje punkt SNR = 2 SNR = 1 Squared error loss 0.28 0.26 0.24 0.22 Squared error loss 0.46 0.44 0.42 0.40 2 4 6 8 10 2 4 6 8 10 Tree size Tree size SNR = 0.5 SNR = 0.1 0.82 3.660 Squared error loss 0.81 0.80 0.79 0.78 Squared error loss 3.655 3.650 2 4 6 8 10 Tree size 2 4 6 8 10 Tree size

En enkel simulering Variabelbetydelse Simulering SNR = 2 SNR = 1 Variable influence 15 10 5 Variable influence 15 10 5 cd pcb170 mmp dde pcb169 pcb153 pcb126 mn pcb209 cd mmp pcb170 dde pcb126 pcb169 mn mibp pcb209 SNR = 0.5 SNR = 0.1 Variable influence 15 10 5 Variable influence cd dde mmp pcb170 pcb126 mn pcb169 pb mibp 15 10 5 cd dde mn mmp pcb170 pcb126 pb tnk mibp

En enkel simulering Interaktioner då SNR = 0.5 Simulering Total interaction strength SNR = 0.5 2 way interactions with Cd Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd mmp dde pcb170 mn pcb126 pcb169 mibp pb mmp dde pcb170 mn pcb126 pcb169 mibp pb 3 way interactions with Cd and MMP 4 way interactions with Cd, MMP and DDE Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 dde pcb170 mn pcb126 pcb169 mibp pb pcb170 mn pcb126 pcb169 mibp pb

En enkel simulering Interaktioner då SNR = 0.1 Simulering Total interaction strength SNR = 0.1 2 way interactions with DDE Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd dde pcb170 mmp mn pcb126 pb mibp pcb169 cd pcb170 mmp mn pcb126 pb mibp pcb169 3 way interactions with DDE and PCB170 3 way interactions with DDE and MMP Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd mmp mn pcb126 pb mibp pcb169 cd pcb170 mn pcb126 pb mibp pcb169

En enkel simulering Interaktionen mellan Cd och PCB170 Simulering True relationship SNR = 1 10 1. 1.5 2.0 10 0.5 8 1.0 8 0.5 0.0 cd 6 0.0 cd 6 0.5 4 0.5 4 0.5 2 1.0 2 400 600 800 1000 pcb170 400 600 800 1000 pcb170 SNR = 0.5 SNR = 0.1 10 8 0.0 0.5 10 8 0. 0.0 0.0 0.5 cd 6 cd 6 4 4 0.5 0.5 2 2 400 600 800 1000 400 600 800 1000 pcb170 pcb170

Simulering En enkel simulering Icke-linjärt samband SNR = 2 SNR = 1 0.2 0.2 Predicted response 0.0 0.2 0.4 Predicted response 0.0 0.2 0.4 0.6 0.6 0 5 10 15 SNR = 0.5 0 5 10 15 SNR = 0.1 0.2 0.2 Predicted response 0.0 0.2 0.4 Predicted response 0.0 0.2 0.4 0.6 0.6 0 5 10 15 0 5 10 15

Riktiga data PIVUS Prospective Investigation of the Vasculature in Uppsala Seniors 1016 st 70-åringar i Uppsala län Läkarundersökning, blodprov... 37 kemikalier uppmätta i blod Uppföljning 75 år och 80 år Finns det något samband mellan kemikalier och åderförkalkning?

Typisk artär Riktiga data Källa: http://www.unc.edu/ mmlee/webproject2.html

Riktiga data Ultraljudsmått i en halspulsåder IMT Kärlväggens tjocklek IM-GSM Kärlväggens ekogenicitet. Gråskala, relaterad till kompositionen i kärlväggen. "Klassiska" riskfaktorer: rökning, kolesterol, blodtryck, blodsocker, vikt, triglycerider, (kön)

Strategi Riktiga data L = 1 2 [y F(x)]2 Bestäm optimal storlek på träden samt M mha 10-faldig korsvalidering upprepad 100 gånger Om optimal trädstorlek > 1, Bestäm H för de 10 mest betydelsefulla variablerna och utvärdera interaktioner

IMT Riktiga data Squared error loss 0.0249 0.0250 0.0251 0.0252 0.0253 Variable importance 0 5 10 15 20 2 4 6 8 10 Tree size sbp weight cd glucose pcb126 ldl dbp pcb209 tg hdl

Riktiga data IMT Partiella beroenden IMT 0.84 0.88 0.92 IMT 0.84 0.88 0.92 100 150 200 Systolic blood pressure 5 10 15 20 Fasting blood glucose IMT 0.84 0.88 0.92 IMT 0.84 0.88 0.92 0 5 10 15 20 25 30 Cd 0 100 200 300 400 PCB126

IM-GSM Riktiga data Squared error loss 375 380 385 390 Variable importance 0 5 10 15 20 2 4 6 8 10 Tree size mmp mehp mibp tg ni dde weight pcb126 bpa

Riktiga data IM-GSM Interaktioner Total interaction strength Two way interactions with MiBP mehp tg ni dde weight pcb126 bpa mmp mehp mibp tg ni dde weight pcb126 bpa mmp mehp tg ni Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 dde weight pcb126 bpa Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Three way interactions with MMP and MiBP Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Three way interactions with MeHP and MiBP mmp tg ni dde weight pcb126 bpa

Riktiga data IM-GSM Partiella beroenden MMP MiBP interaction MeHP MiBP interaction 90 95 100 100 85 85 100 80 80 95 80 80 mibp 60 mibp 60 75 90 40 40 20 75 20 70 2 4 6 8 10 10 20 30 40 50 mmp mehp

Till slut Summering Hittar vi nålarna? Mixtureeffekter = interaktioner mellan kemikalier Boostade regressionsträd kan hitta komplexa interaktioner Andra (enklare) metoder? Biologisk relevans?

Tack till... Till slut Monica Lind, Uppsala Universitet Lars Lind, Uppsala Universitet Anna Bornefalk Hermansson, UCR