Cocktailnålar i kemikaliehöstackar - en statistikers irrfärder i toxikologins värld... Erik Lampa Arbets- och miljömedicin Institutionen för medicinska vetenskaper Uppsala Universitet
Introduktion Påverkas människor av kemikalier? En titt i PubMed...
Introduktion Det traditionella synsättet Vi är exponerade för många ämnen samtidigt Traditionell riskbedömning fokus på ett ämne i taget Nästan aldrig tillämpbart i verkligheten
Introduktion Kemiska cocktails (mixtures) Shaken, not stirred... Produkter som innehåller > 1 kemikalie Kemikalier som släpps ut gemensamt, ex. avgaser Kemikalier som finns samtidigt i miljön
Varför bry sig? Introduktion Backhaus T et al. The single substance and mixture toxicity of quinolones to the bioluminescent bacterium Vibrio fischeri, Aquatic Toxicology, 49(1-2), 49-61, 2000
Introduktion Två sidor av samma mynt Independent Action Kemikalierna verkar oberoende av varandra Oftast orimligt antagande Concentration Addition Kemikalierna verkar beroende av varandra Interaktionseffekter
Några kunskapsluckor Introduktion CA kräver kända dos-respons-samband Kunskap om mekanismer hos människor Verktyg för att identifiera / predicera mixtureeffekter
Mission impossible? Introduktion Identifiera relevanta kemikalier Hitta interaktioner bland många kemikalier Identifiera icke-linjära effekter... utan några egentliga hypoteser (!!)
Några metoder...... som inte fungerar så bra En titt i verktygslådan Vanlig regression N << p Stegvis regression multipla jämförelser, samt N << p Pre-conditioning med LASSO Skapa modellmatrisen, icke-linjära termer, standardisering, tolkning
En titt i verktygslådan Regressionsträd Hanterar stökiga interaktioner Ej känsliga för monotona transformationer av förklarande variabler Ej känsliga för outliers hos förklarande variabler Hanterar bortfall hos förklarande variabler Hanterar mixade variabeltyper Enkla att tolka Dålig prediktiv förmåga Dålig hantering av kontinuerliga variabler För mycket fokus på interakioner?
En titt i verktygslådan Exempel Prediktion av ozonnivåer 1 temperature < 82.5 >= 82.5 2 wind 9 wind >= 7.15 < 7.15 >= 10.6 < 10.6 3 radiation 11 temperature < 79.5 >= 79.5 5 temperature < 88.5 >= 88.5 < 77.5 >= 77.5 Node 4 (n = 18) Node 6 (n = 32) Node 7 (n = 18) Node 8 (n = 9) Node 10 (n = 7) Node 12 (n = 13) Node 13 (n = 14) 150 100 150 100 150 100 150 100 150 100 150 100 150 100 50 50 50 50 50 50 50 0 0 0 0 0 0 0
En titt i verktygslådan Stokastisk gradientboosting Hastie T., Tibshirani R., Friedman J. (2008) The Elements of Statistical Learning, kapitel 10 Anpassar en additiv modell M F(x) = β m b(x; γ m ) m=0 med mål att minimera en förlustfunktion L(y, F(x)) b(x; γ m ) är oftast regressionsträd
En titt i verktygslådan Generell boostingalgoritm 1 Välj L[y, F(x)] 2 Sätt F 0 (x) till en konstant 3 För m=1 till M 1 Dra ett stickprov med storleken η L[y,F (x)] 2 Beräkna r = F (x) Fm(x)=F m 1 (x) och anpassa ett regressionsträd g(x) till r 3 Uppdatera F m (x) = F m 1 (x) + ɛβ m g(x) 4 Repetera många gånger 0 < ɛ 1 är en regulariseringsparameter som begränsar varje träds inflytande på F (x) och reducerar överanpassning. β är steglängden längs gradienten. M kan väljas mha korsvalidering.
En titt i verktygslådan Minsta kvadratboosting 1 Börja med F 0 (x) = ȳ och residual r = y ȳ, m = 0 2 m m + 1 3 Anpassa ett regressionsträd g(x) till r 4 Uppdatera F m (x) = F m 1 (x) + ɛβ m g(x) r r ɛβ m g(x) och repetera steg 2 4 många gånger
En titt i verktygslådan Variabelbetydelse och partiella beroenden Boostade modeller är svåra att tolka Betydelsen av variabler är relaterade till antalet split fler split, större betydelse Partiella beroendefunktioner kan ge en visuell bild av effekter och används för att utvärdera interaktioner P-värden, konfiensintervall?
Interaktioner En titt i verktygslådan Friedman J.H., Popescu B. E. (2008) Predictive learning via rule ensembles The Annals of Applied Statistics, Vol. 2, No. 3, 916 954 Om x j och x k inte interagerar så är det partiella beroendet F jk (x j, x k ) = F j (x j ) + F k (x k ) Definiera H som ett mått på interaktion, 0 H 1 ( ) Fjk F j F k H = f F jk Generaliserar till interaktioner av högre ordning
En titt i verktygslådan Referensfördelning för H Skapa referensfördelning för H (H 0 ) mha boostrapvariant Beräkna upprepade H 0 från artificiella data {ỹ, x} N 1 genererade från riktiga data genom ỹ = F A (x) + [y p F A (x p )] eller Pr(ỹ = 1) = [1 + exp( F A (x))] 1 p är en permutering av 1,..., N. F A (x) är en funktion bestående av träd innehållande en variabel ("stumps"). RuleFit - Träd + Linjära termer + LASSO http://www-stat.stanford.edu/~jhf/r-rulefit.html
Mjukvara En titt i verktygslådan R gbm, mboost, GAMboost, bst, CoxBoost, GMMBoost,... SAS SAS Enterprise Miner STATA boost Salford Systems TreeNet
En enkel simulering Simulering Skapa y = F(x) + ɛ där F(x) = 11 4 exp( 3(1 s(x i )) 2 ) 1.3sin 2 (π s(x 5 )) i=1 och ɛ N(0, σ 2 ) och σ väljs så att signal to noise ratio är 2, 1, 0.5 och 0.1 x är fem olika kemikalier (pcb170, dde, mmp, cd och ) simulerat från verkliga data innehållande 37 kemikalier, N = 1000.
Simulering En enkel simulering Medelvärden av 100 repitioner av 10-faldig korsvalidering i varje punkt SNR = 2 SNR = 1 Squared error loss 0.28 0.26 0.24 0.22 Squared error loss 0.46 0.44 0.42 0.40 2 4 6 8 10 2 4 6 8 10 Tree size Tree size SNR = 0.5 SNR = 0.1 0.82 3.660 Squared error loss 0.81 0.80 0.79 0.78 Squared error loss 3.655 3.650 2 4 6 8 10 Tree size 2 4 6 8 10 Tree size
En enkel simulering Variabelbetydelse Simulering SNR = 2 SNR = 1 Variable influence 15 10 5 Variable influence 15 10 5 cd pcb170 mmp dde pcb169 pcb153 pcb126 mn pcb209 cd mmp pcb170 dde pcb126 pcb169 mn mibp pcb209 SNR = 0.5 SNR = 0.1 Variable influence 15 10 5 Variable influence cd dde mmp pcb170 pcb126 mn pcb169 pb mibp 15 10 5 cd dde mn mmp pcb170 pcb126 pb tnk mibp
En enkel simulering Interaktioner då SNR = 0.5 Simulering Total interaction strength SNR = 0.5 2 way interactions with Cd Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd mmp dde pcb170 mn pcb126 pcb169 mibp pb mmp dde pcb170 mn pcb126 pcb169 mibp pb 3 way interactions with Cd and MMP 4 way interactions with Cd, MMP and DDE Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 dde pcb170 mn pcb126 pcb169 mibp pb pcb170 mn pcb126 pcb169 mibp pb
En enkel simulering Interaktioner då SNR = 0.1 Simulering Total interaction strength SNR = 0.1 2 way interactions with DDE Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd dde pcb170 mmp mn pcb126 pb mibp pcb169 cd pcb170 mmp mn pcb126 pb mibp pcb169 3 way interactions with DDE and PCB170 3 way interactions with DDE and MMP Interaction strength 0.15 0.10 0.05 Interaction strength 0.15 0.10 0.05 cd mmp mn pcb126 pb mibp pcb169 cd pcb170 mn pcb126 pb mibp pcb169
En enkel simulering Interaktionen mellan Cd och PCB170 Simulering True relationship SNR = 1 10 1. 1.5 2.0 10 0.5 8 1.0 8 0.5 0.0 cd 6 0.0 cd 6 0.5 4 0.5 4 0.5 2 1.0 2 400 600 800 1000 pcb170 400 600 800 1000 pcb170 SNR = 0.5 SNR = 0.1 10 8 0.0 0.5 10 8 0. 0.0 0.0 0.5 cd 6 cd 6 4 4 0.5 0.5 2 2 400 600 800 1000 400 600 800 1000 pcb170 pcb170
Simulering En enkel simulering Icke-linjärt samband SNR = 2 SNR = 1 0.2 0.2 Predicted response 0.0 0.2 0.4 Predicted response 0.0 0.2 0.4 0.6 0.6 0 5 10 15 SNR = 0.5 0 5 10 15 SNR = 0.1 0.2 0.2 Predicted response 0.0 0.2 0.4 Predicted response 0.0 0.2 0.4 0.6 0.6 0 5 10 15 0 5 10 15
Riktiga data PIVUS Prospective Investigation of the Vasculature in Uppsala Seniors 1016 st 70-åringar i Uppsala län Läkarundersökning, blodprov... 37 kemikalier uppmätta i blod Uppföljning 75 år och 80 år Finns det något samband mellan kemikalier och åderförkalkning?
Typisk artär Riktiga data Källa: http://www.unc.edu/ mmlee/webproject2.html
Riktiga data Ultraljudsmått i en halspulsåder IMT Kärlväggens tjocklek IM-GSM Kärlväggens ekogenicitet. Gråskala, relaterad till kompositionen i kärlväggen. "Klassiska" riskfaktorer: rökning, kolesterol, blodtryck, blodsocker, vikt, triglycerider, (kön)
Strategi Riktiga data L = 1 2 [y F(x)]2 Bestäm optimal storlek på träden samt M mha 10-faldig korsvalidering upprepad 100 gånger Om optimal trädstorlek > 1, Bestäm H för de 10 mest betydelsefulla variablerna och utvärdera interaktioner
IMT Riktiga data Squared error loss 0.0249 0.0250 0.0251 0.0252 0.0253 Variable importance 0 5 10 15 20 2 4 6 8 10 Tree size sbp weight cd glucose pcb126 ldl dbp pcb209 tg hdl
Riktiga data IMT Partiella beroenden IMT 0.84 0.88 0.92 IMT 0.84 0.88 0.92 100 150 200 Systolic blood pressure 5 10 15 20 Fasting blood glucose IMT 0.84 0.88 0.92 IMT 0.84 0.88 0.92 0 5 10 15 20 25 30 Cd 0 100 200 300 400 PCB126
IM-GSM Riktiga data Squared error loss 375 380 385 390 Variable importance 0 5 10 15 20 2 4 6 8 10 Tree size mmp mehp mibp tg ni dde weight pcb126 bpa
Riktiga data IM-GSM Interaktioner Total interaction strength Two way interactions with MiBP mehp tg ni dde weight pcb126 bpa mmp mehp mibp tg ni dde weight pcb126 bpa mmp mehp tg ni Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 dde weight pcb126 bpa Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Three way interactions with MMP and MiBP Adjusted H 0.00 0.02 0.04 0.06 0.08 0.10 Three way interactions with MeHP and MiBP mmp tg ni dde weight pcb126 bpa
Riktiga data IM-GSM Partiella beroenden MMP MiBP interaction MeHP MiBP interaction 90 95 100 100 85 85 100 80 80 95 80 80 mibp 60 mibp 60 75 90 40 40 20 75 20 70 2 4 6 8 10 10 20 30 40 50 mmp mehp
Till slut Summering Hittar vi nålarna? Mixtureeffekter = interaktioner mellan kemikalier Boostade regressionsträd kan hitta komplexa interaktioner Andra (enklare) metoder? Biologisk relevans?
Tack till... Till slut Monica Lind, Uppsala Universitet Lars Lind, Uppsala Universitet Anna Bornefalk Hermansson, UCR