Bootstrapping i fall-/kontrollstudier av genetiska markörer

Relevanta dokument
Studietyper, inferens och konfidensintervall

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Lektionsanteckningar 11-12: Normalfördelningen

Uppgift 1. Deskripitiv statistik. Lön

Parade och oparade test

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 7. Statistikens grunder.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

7.5 Experiment with a single factor having more than two levels

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Datorövning 1: Fördelningar

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Hur skriver man statistikavsnittet i en ansökan?

TMS136. Föreläsning 10

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamen i Matematisk statistik Kurskod S0001M

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

F3 Introduktion Stickprov

Analys av köpviljan avseende försäkring med logistisk regression och bootstrap

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Statistik för teknologer, 5 poäng Skrivtid:

Grundläggande matematisk statistik

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE302 Sannolikhet och statistik

, s a. , s b. personer från Alingsås och n b

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Introduktion till statistik för statsvetare

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning G60 Statistiska metoder

Medelvärde, median och standardavvikelse

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Metod och teori. Statistik för naturvetare Umeå universitet

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

7.3.3 Nonparametric Mann-Whitney test

Exempel i stickprovsteori

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Tentamen MVE301 Sannolikhet, statistik och risk

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Bilaga 6 till rapport 1 (5)

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 27 mars 2004, kl

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen Tillämpad statistik A5 (15hp)

Hypotestestning och repetition

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamen i Matematisk statistik Kurskod S0001M

Karl Holm Ekologi och genetik, EBC, UU. ebc.uu.se. Nick Brandt. Populationsgenetik

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Datorlaboration 7. Simuleringsbaserade tekniker

FACIT (korrekta svar i röd fetstil)

Extrauppgifter - Statistik

Statistisk försöksplanering

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Avd. Matematisk statistik

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

Transkript:

Bootstrapping i fall-/kontrollstudier av genetiska markörer Håkan Lövkvist RSKC 2011-03-09

Vad är bootstrapping? Bootstrap = stövelstropp Annan översättning: Ta sig i kragen, vara självbärande Litterär förekomst: Baron von Münchhausens äventyr I statistiken: parameterskattningar genom repeterad urvalsselektering med återläggning

När bör bootstrapping tillämpas? När vi inte känner ett datamaterials egenskaper Bootstrapping utnyttjar empirisk information om materialets egenskaper Lämpligt för testkörning av små urval, t.ex. pilotstudier När vi vill kontrollera en utvecklad estimeringsmetod Bootstrapping är ett bra hjälpmedel för metodutvärdering Vid komplex datastruktur Vid svårigheter att finna en algebraisk lösning

När bör bootstrapping inte tillämpas? När man tror att metoden kan ersätta en okänd population Ett urvals statistiska avvik kommer alltid att bestå, bakomliggande population kan inte återskapas! Man får då en skevhet som är betingad av det Man får då en skevhet som är betingad av det slumpmässiga avviket vid urvalsdragningen

Ett enkelt exempel: Vi har en bakomliggande, okänd oändlig population, som är Normalfördelad (µ=0, σ=10) Från denna drar vi ett obundet slumpmässigt urval, där:» n = 5» x = {-8.0; -13.1; 15.5; -5.6; 0.4}, medelvärde= -2.2» s = 11.0 Från urvalet kan populationsmedelvärdet med 95% konfidens med algebraisk kalkylering skattas som» µ = medelvärde ± 1.96*s/ n» 95% CI: -10.8 µ 6.4

CI-bestämning med bootstrapping: Låt oss utgå ifrån referensurvalet på 5 observationer:» {-8.0; -13.1; 15.5; -5.6; 0.4}, medelvärde -2.2 Från detta drar vi 1000 simulerade urval, med n=5, genom att slumpmässigt dra observationer med återläggning från referensurvalet:» Försök 1: {-13.1; 15.5; -5.6; -5.6; 15.5}, medelvärde 1.3» Försök 2: {-5.6; -8.0; 0.4; -13.1; -8.0}, medelvärde -6.9»» Försök 1000: {-13.1; 0.4; -5.6; 0.4; -5.6}, medelvärde -4.7 Genom att sortera på de 1000 funna medelvärdena får vi:» 2.5:e percentilen: -9.4» 50:e percentilen: -2.2» 97.5:e percentilen: 6.8 Jämför konfidensintervallen:» Algebraisk lösning: -10.8 µ 6.4» Bootstrapping: -9.4 µ 6.8

CI-bestämning med bootstrapping: Iakttagelser:» Bootstrapping ger ofta snävare konfidensintervall, i synnerhet vid små urval (Efron 1982, Schenker 1985)» Medianen av de bootstrappade medelvärdena är i stort sett unbiased i förhållande till refernsurvalets medelvärde (-2.2) Varför blir konfidensintervallen snävare?» Små urval är inte normalfördelade» En outlier skulle medföra större konfidensintervall» Mått: kvoten mellan percentilspannet vid bootstrapping och spannet mellan de beräknade konfidensgränserna» Vårt urval: denna kvot blev 99%» Tre andra slumpmässsigt simulerade urval med n=5 gav kvoterna 96%, 95% och 94% vid bootstrapping (1000 ggr). Jämför konfidensintervallen:» Algebraisk lösning: -10.8 µ 6.4» Bootstrapping: -9.4 µ 6.8

CI-bestämning med bootstrapping: Varför blir konfidensintervallen snävare? Låt oss se på ett urval med endast 3 obs: Referensurval: {-13.12; -8.01; 15.53} medelvärde: -1.87 s = 12.48 95% CI: -15.99 12.25 Bootstrapping 1 000 gånger ger, efter sortering på funna medelvärden: Rang: Medelvärde: Urval Utfallets sannolikhet: 1-16 -13.12 {-13.12;-13.12;-13.12} 1/27 17-121 -11.42 {-13.12;-13.12; -8.01} 3/27 876-982 7.68 {-8.01; 15.53; 15.53} 3/27 983-1000 15.53 {15.53; 15.53; 15.53} 1/27. Percentilbaserat CI: Rang 24/25 (2.5:e perc.): -11.42 Rang 975/976 (97.5:e perc.): 7.68

Bootstrapping i en genetisk tillämpning: Vi har gjort en SNP-analys på en fall-kontroll-studie» Lunds Strokeregister (LSR)» 928 patienter med ischemisk stroke mot 395 kontrollpersoner» SNP45 i PDE4D-genomet antages vara associerat med ischemisk stroke bland framför allt hypertoniker» Vi har testat en metod för justering för Hardy-Weinberg-deviation som innebär tillämpning av viktad logistisk regression Genotyp: SNP45 Allel-par Genotyp n, fall n, kontroller CC 0 701 271 CT 1 209 111 TT 2 18 13. 928 395

Bootstrapping i en genetisk tillämpning: OR med konfidensintervall framtagna med Wald s metod:» OR=0.725 (95% CI: 0.577-0.911) univariat analys» OR=0.927 (95% CI: 0.675-1.273) multipel logistisk regression*) OR med konfidensintervall framtagna med percentil bootstrap**):» OR=0.725 (95% CI: 0.568-0.924) univariat analys» OR=0.927 (95% CI: 0.688-1.280) multipel logistisk regression*) *) Hänsyn tagen till heart disease, hypertoni och interaktion mellan hypertoni och SNP45 **) 1 000 försök, resampling av 928 patienter och 395 kontroller med återläggning.

Bootstrapping i en genetisk tillämpning: Vår tillämpning av bootstrapping hade tre huvudsyften: 1. Kvalitetskontroll av OR-skattningar inom ett oprövat område 2. Att se hur stora slumpmässiga avvik från Hardy-Weinberg som kan förväntas» Sannolikhet för oacceptabelt höga avvik» Vilka konsekvenser får det för OR-skattningarna? 3. Minor alleles (TT) kan bli noll till antalet hur ofta inträffar det vid en given urvalsstorlek?

Kvalitetskontroll Konfidensintervall vid viktad multipel LR (visad tidigare):» OR=0.927 (95% CI: 0.675-1.273) Wald» OR=0.927 (95% CI: 0.688-1.280) Percentil-bootstrapp» Kvot mellan konfidens-spann: 99.0 % Konfidensintervall vid oviktad multipel LR:» OR=0.933 (95% CI: 0.682-1.277) Wald» OR=0.935 (95% CI: 0.691-1.265) Percentil-bootstrapp» Kvot mellan konfidens-spann: 96.5 % Kommentar: vi ville kontrollera viktad LR 1. Genom att jämföra med oviktad LR. 2. Genom att jämföra percentiler med kalkylerade konfidensintervall

Slumpmässiga avvik Hur påverkar avvik från exakt HWE vår viktningsmetod för justering? Övre plotten: enkel oviktad LR skiljer sig åt från allel-baserad metod för beräkning av OR Nedre plotten: enkel viktad LR ger samma OR som klassisk allel-baserad metod för beräkning av OR. Detta ville vi visa med hjälp av bootstrapping! Genom bootstrapping kan vi även avslöja tomma celler (bristande förekomst av heteroeller homozygoter). Sådan förekomst hade visat sig genom extrema OR-skattningar (och extrema avvikande värden i plottarna t.h.) Fotnot: X-axel: Wright s F-ratio = förväntat antal heterozygoter / observerat antal heterozygoter Y-axel: relativ differens mellan undersökt metod (enkel LR baserad på individer) golden standard-metod (allel-baserad OR-beräkning)

Litteraturhänvisning Efron, B & Tibshirani, R J: An introduction to the bootstrap, Chapman & Hall/CRC 1998. Efron, B: Bootstrap methods: Another look at the jackknife, The Annals of Statistics 1977. Schenker, N: Qualms about boostrap confidence intervals, Journal of American Statistical association 1985. Wikipedia (sökord: bootstrapping statistics)