Bootstrapping i fall-/kontrollstudier av genetiska markörer

Bootstrapping i fall-/kontrollstudier av genetiska markörer Håkan Lövkvist RSKC 2011-03-09

Vad är bootstrapping? Bootstrap = stövelstropp Annan översättning: Ta sig i kragen, vara självbärande Litterär förekomst: Baron von Münchhausens äventyr I statistiken: parameterskattningar genom repeterad urvalsselektering med återläggning

När bör bootstrapping tillämpas? När vi inte känner ett datamaterials egenskaper Bootstrapping utnyttjar empirisk information om materialets egenskaper Lämpligt för testkörning av små urval, t.ex. pilotstudier När vi vill kontrollera en utvecklad estimeringsmetod Bootstrapping är ett bra hjälpmedel för metodutvärdering Vid komplex datastruktur Vid svårigheter att finna en algebraisk lösning

När bör bootstrapping inte tillämpas? När man tror att metoden kan ersätta en okänd population Ett urvals statistiska avvik kommer alltid att bestå, bakomliggande population kan inte återskapas! Man får då en skevhet som är betingad av det Man får då en skevhet som är betingad av det slumpmässiga avviket vid urvalsdragningen

Ett enkelt exempel: Vi har en bakomliggande, okänd oändlig population, som är Normalfördelad (µ=0, σ=10) Från denna drar vi ett obundet slumpmässigt urval, där:» n = 5» x = {-8.0; -13.1; 15.5; -5.6; 0.4}, medelvärde= -2.2» s = 11.0 Från urvalet kan populationsmedelvärdet med 95% konfidens med algebraisk kalkylering skattas som» µ = medelvärde ± 1.96*s/ n» 95% CI: -10.8 µ 6.4

CI-bestämning med bootstrapping: Låt oss utgå ifrån referensurvalet på 5 observationer:» {-8.0; -13.1; 15.5; -5.6; 0.4}, medelvärde -2.2 Från detta drar vi 1000 simulerade urval, med n=5, genom att slumpmässigt dra observationer med återläggning från referensurvalet:» Försök 1: {-13.1; 15.5; -5.6; -5.6; 15.5}, medelvärde 1.3» Försök 2: {-5.6; -8.0; 0.4; -13.1; -8.0}, medelvärde -6.9»» Försök 1000: {-13.1; 0.4; -5.6; 0.4; -5.6}, medelvärde -4.7 Genom att sortera på de 1000 funna medelvärdena får vi:» 2.5:e percentilen: -9.4» 50:e percentilen: -2.2» 97.5:e percentilen: 6.8 Jämför konfidensintervallen:» Algebraisk lösning: -10.8 µ 6.4» Bootstrapping: -9.4 µ 6.8

CI-bestämning med bootstrapping: Iakttagelser:» Bootstrapping ger ofta snävare konfidensintervall, i synnerhet vid små urval (Efron 1982, Schenker 1985)» Medianen av de bootstrappade medelvärdena är i stort sett unbiased i förhållande till refernsurvalets medelvärde (-2.2) Varför blir konfidensintervallen snävare?» Små urval är inte normalfördelade» En outlier skulle medföra större konfidensintervall» Mått: kvoten mellan percentilspannet vid bootstrapping och spannet mellan de beräknade konfidensgränserna» Vårt urval: denna kvot blev 99%» Tre andra slumpmässsigt simulerade urval med n=5 gav kvoterna 96%, 95% och 94% vid bootstrapping (1000 ggr). Jämför konfidensintervallen:» Algebraisk lösning: -10.8 µ 6.4» Bootstrapping: -9.4 µ 6.8

CI-bestämning med bootstrapping: Varför blir konfidensintervallen snävare? Låt oss se på ett urval med endast 3 obs: Referensurval: {-13.12; -8.01; 15.53} medelvärde: -1.87 s = 12.48 95% CI: -15.99 12.25 Bootstrapping 1 000 gånger ger, efter sortering på funna medelvärden: Rang: Medelvärde: Urval Utfallets sannolikhet: 1-16 -13.12 {-13.12;-13.12;-13.12} 1/27 17-121 -11.42 {-13.12;-13.12; -8.01} 3/27 876-982 7.68 {-8.01; 15.53; 15.53} 3/27 983-1000 15.53 {15.53; 15.53; 15.53} 1/27. Percentilbaserat CI: Rang 24/25 (2.5:e perc.): -11.42 Rang 975/976 (97.5:e perc.): 7.68

Bootstrapping i en genetisk tillämpning: Vi har gjort en SNP-analys på en fall-kontroll-studie» Lunds Strokeregister (LSR)» 928 patienter med ischemisk stroke mot 395 kontrollpersoner» SNP45 i PDE4D-genomet antages vara associerat med ischemisk stroke bland framför allt hypertoniker» Vi har testat en metod för justering för Hardy-Weinberg-deviation som innebär tillämpning av viktad logistisk regression Genotyp: SNP45 Allel-par Genotyp n, fall n, kontroller CC 0 701 271 CT 1 209 111 TT 2 18 13. 928 395

Bootstrapping i en genetisk tillämpning: OR med konfidensintervall framtagna med Wald s metod:» OR=0.725 (95% CI: 0.577-0.911) univariat analys» OR=0.927 (95% CI: 0.675-1.273) multipel logistisk regression*) OR med konfidensintervall framtagna med percentil bootstrap**):» OR=0.725 (95% CI: 0.568-0.924) univariat analys» OR=0.927 (95% CI: 0.688-1.280) multipel logistisk regression*) *) Hänsyn tagen till heart disease, hypertoni och interaktion mellan hypertoni och SNP45 **) 1 000 försök, resampling av 928 patienter och 395 kontroller med återläggning.

Bootstrapping i en genetisk tillämpning: Vår tillämpning av bootstrapping hade tre huvudsyften: 1. Kvalitetskontroll av OR-skattningar inom ett oprövat område 2. Att se hur stora slumpmässiga avvik från Hardy-Weinberg som kan förväntas» Sannolikhet för oacceptabelt höga avvik» Vilka konsekvenser får det för OR-skattningarna? 3. Minor alleles (TT) kan bli noll till antalet hur ofta inträffar det vid en given urvalsstorlek?

Kvalitetskontroll Konfidensintervall vid viktad multipel LR (visad tidigare):» OR=0.927 (95% CI: 0.675-1.273) Wald» OR=0.927 (95% CI: 0.688-1.280) Percentil-bootstrapp» Kvot mellan konfidens-spann: 99.0 % Konfidensintervall vid oviktad multipel LR:» OR=0.933 (95% CI: 0.682-1.277) Wald» OR=0.935 (95% CI: 0.691-1.265) Percentil-bootstrapp» Kvot mellan konfidens-spann: 96.5 % Kommentar: vi ville kontrollera viktad LR 1. Genom att jämföra med oviktad LR. 2. Genom att jämföra percentiler med kalkylerade konfidensintervall

Slumpmässiga avvik Hur påverkar avvik från exakt HWE vår viktningsmetod för justering? Övre plotten: enkel oviktad LR skiljer sig åt från allel-baserad metod för beräkning av OR Nedre plotten: enkel viktad LR ger samma OR som klassisk allel-baserad metod för beräkning av OR. Detta ville vi visa med hjälp av bootstrapping! Genom bootstrapping kan vi även avslöja tomma celler (bristande förekomst av heteroeller homozygoter). Sådan förekomst hade visat sig genom extrema OR-skattningar (och extrema avvikande värden i plottarna t.h.) Fotnot: X-axel: Wright s F-ratio = förväntat antal heterozygoter / observerat antal heterozygoter Y-axel: relativ differens mellan undersökt metod (enkel LR baserad på individer) golden standard-metod (allel-baserad OR-beräkning)

Litteraturhänvisning Efron, B & Tibshirani, R J: An introduction to the bootstrap, Chapman & Hall/CRC 1998. Efron, B: Bootstrap methods: Another look at the jackknife, The Annals of Statistics 1977. Schenker, N: Qualms about boostrap confidence intervals, Journal of American Statistical association 1985. Wikipedia (sökord: bootstrapping statistics)