Analys av DNA-kopietal med dolda markovmodeller

Relevanta dokument
Föreläsning 7: Punktskattningar

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Föreläsning 7: Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik KTH. Formelsamling i matematisk statistik

Markovprocesser SF1904

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik för D, I, Π och Fysiker

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Markovprocesser SF1904

Lycka till!

Föreläsning 4: Konfidensintervall (forts.)

Kapitel 5 Multivariata sannolikhetsfördelningar

Kurssammanfattning MVE055

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Sannolikheter och kombinatorik

Matematisk statistik för D, I, Π och Fysiker

F9 Konfidensintervall

Statistiska metoder för säkerhetsanalys

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Markovprocesser SF1904

Markovprocesser SF1904

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

F13 Regression och problemlösning

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 7. Statistikens grunder.

Om Markov Chain Monte Carlo

Extrauppgifter i matematisk statistik

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Formler och tabeller till kursen MSG830

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

Demonstration av laboration 2, SF1901

SF1901: Sannolikhetslära och statistik

TMS136. Föreläsning 5

4 Diskret stokastisk variabel

Matematisk statistik TMS064/TMS063 Tentamen

TMS136. Föreläsning 10

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Markovprocesser SF1904

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1911: Statistik för bioteknik

SF1901 Sannolikhetsteori och statistik I

Markov Chain Monte Carlo, contingency tables and Gröbner bases

Jörgen Säve-Söderbergh

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 2, FMSF45 Slumpvariabel

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901 Sannolikhetsteori och statistik I

FÖRELÄSNING 8:

Matematisk statistik för D, I, Π och Fysiker

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

Föreläsningsanteckningar till kapitel 8, del 2

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

Bayesiansk statistik, 732g43, 7.5 hp

TMS136. Föreläsning 5

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Grundläggande matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Exempel på tentamensuppgifter

P =

Föreläsning 7: Punktskattningar

Härledning av Black-Littermans formel mha allmänna linjära modellen

Matematisk statistik för B, K, N, BME och Kemister

Problemdel 1: Uppgift 1

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

FACIT: Tentamen L9MA30, LGMA30

Tentamen i FMS180/MASC03 Markovprocesser

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Markovprocesser SF1904

Markovprocesser SF1904

Kap 2. Sannolikhetsteorins grunder

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Finansiell statistik FÖRELÄSNING 11

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1901: Sannolikhetslära och statistik

Stokastiska processer och simulering I 24 maj

TAMS79: Föreläsning 10 Markovkedjor

FÖRELÄSNING 7:

Föreläsning 12: Linjär regression

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Transkript:

-kopietal Analys av -kopietal med dolda markovmodeller Lund, 8 juni 2011

-kopietal Disputerade den 22 oktober 2010 i matematisk statistik vid Matematikcentrum, Lunds Universitet Modelling Allelic and Copy Number Variations using Continuous-index Hidden Markov Models Handledare: Tobias Rydén

-kopietal Normalt har vi människor 46 kromosomer formade i 23 par En kopia i varje par kommer från vardera föräldern Ibland förekommer vissa segment av en kromosom i er eller färre kopior än två - kopietalsförändringar Har mest studerat cancerceller, men kopietalsförändringar förekommer även hos personer med tex autism eller schitzofreni

-kopietal En extra kopia

-kopietal En kopia saknas

-kopietal Data Array Comparative Genomic Hybridization (acgh) Test- märks med en uorescerande färg och referens- märks med en annan uorescerande färg Test- och referens- delas i små bitar, blandas och hybridiseras på en microarray där varje prob motsvarar en kort -sekvens Arrayer bestrålas med laser och intensiteten i de två emmiterade strålarna mäts och jämförs med varandra Intensitetskvoten är 2/2 om provet är normalt, 1/2 om det saknas en kopia, 3/2 om det har en extra kopia, osv Kvoten transformeras med log 2, vilket gör att normalnivån 2/2 hamnar på 0.

-kopietal Data 3 2 1 log 2 ratio 0 1 2 3 0 1 2 3 4 Base pairs 5 6 7 8 x 10 7

-kopietal Markovkedjor Låt X = {X 0, X 1,..., X n } vara en stokastisk process som antar värden i ett diskret tillståndsrum Markovvillkoret: P(X k+1 = j X 0 = x 0, X 1 = x 1,..., X k 1 = x k 1, X k = i) = P(X k+1 = j X k = i) för alla i, j, x 0,..., x k 1. Övergångssannolikheter p ij = P(X k+1 = j X k = i), samlas i en övergångsmatris, P.

-kopietal Denition av dolda markovmodeller Vi observerar Y = {Y 0, Y 1,..., Y n } Underliggande markovkedja, X Y är betingat oberoende givet X Y k beror enbart på X k Antar en fördelning för mätfelet, dvs för Y k X k = i

-kopietal Markovkedjor och kopietal Varje kromosom modelleras med en Markovkedja. Möjliga utfall är antalet kopior av test-t: 0, 1,..., m Intilligande prober har ofta lika många kopior, dvs markovkedjan stannar ofta kvar i samma tillstånd. Intilligande prober kan även ha olika många kopior och markovkedjan byter då tillstånd, "hoppar".

-kopietal acgh-data 3 2 1 log 2 ratio 0 1 2 3 0 1 2 3 4 Base pairs 5 6 7 8 x 10 7 Data innehåller olika typer av mätfel, så det vi observerar är inte de logaritmerade kopietalen Lämplig modell är därför dolda markovmodeller (Hidden Markov Models, HMM)

-kopietal Dolda markovmodeller och acgh-data Vi observerar de uppmätta log 2 -kvoterna Y Vi vill veta kopietalen, X. En vanlig modell är att Y k X k = i N(µ i, σ 2 ) Idealt µ i log 2 -kvoten av ett heltal dividerat med 2, men passar ofta dåligt på grund av systematiska fel, såsom normalinblandning

-kopietal Framåt - bakåt Vill hitta den mest troliga Markovprocessen, X, utifrån de mätningar vi har av Y-processen. Smoothing- fördelningen P(X k = i y 0,..., y n ) Vanligaste och enklaste metoden är framåt-bakåt-algoritmen α k (i) = P(X k = i, y 0,..., y k ) β k (i) = P(y k+1,..., y n X k = i)

-kopietal Framåt - bakåt Låt täthetsfunktionen för Y k X k = i vara g k (i) α och β kan beräknas rekursivt α k (j) = r p i=1 ijg k (j)α k 1 (i) β k (i) = r j=1 p ijg k+1 (j)β k+1 (j) α och β bör normeras då de annars kan växa/avta exponentiellt P(X k = i y 0,..., y n ) α k (i)β k (i)

-kopietal Skatta parametrar Framåt-bakåt-algoritmen förutsätter att parametrarna är kända Oftast är parametrarna okända Parametrar som behöver skattas: Övergångssannolikheterna P = [p ij ] Medelnivåerna µ = µ 1,..., µ m, Mätfelets varians σ 2 Den vanligaste metoden för att att skatta parametrar till en dold markovmodell är EM-algoritmen

-kopietal EM-algoritmen EM-algoritmen är en iterativ metod för att hitta MLE av parametrarna θ E-steg: Väntevärdet E θ [log p(x, y; θ ) y] beräknas M-steg: Maximering av väntevärdet ger θ EM-algoritmen är designad för maximering av likelihood då det nns en icke-observerbar vaiabel. Passar bra till dolda markovmodeller och kombineras då med framåt-bakåt variablerna För att rekonstruera Markovprocessen utifrån de skattade parametrarna och data används ofta Viterbi-algoritmen.

-kopietal Egenskaper hos data Data från tiling BAC-arrayer Långa mätningar Mätningarna är ojämnt spridda över genomet Mätningarna har olika längd Mätningarna kan överlappa Data från oligonuclotide-arrayer Korta mätningar Mätningarna är ojämnt spridda över genomet Markovkedja som är diskret i observationerns är ingen bra modell Diskret i basparen skulle teoretiskt fungera, men svårt numeriskt Bättre med en Markovprocess med kontinuerligt index

-kopietal Markovprocess med kontinuerligt index Markovprocess: X = X (t), t = 0 : T Markovvillkoret: P(X (t n+1 = i n+1 ) X (t n ) = i n, X (t n 1 ) = i n 1,..., X (t 0 = i 0 )) = P(X (t n+1 = i n+1 X (t n ) = i n ) för alla i 0,..., i n+1 och alla tidpunkter t 0 t 1 t n+1. Övergångsintensiteter, q ij, denieras som P(X (t + h) = j X (t) = i) = q ij h + o(h) q i = j i q ij

-kopietal BAC-data 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal BAC-data Längd: 100-200 kbp, kan överlappa Modell: Dold markovprocess med kontinuerligt index Maximalt fem tillstånd ( Y k X (t) N t stop k 1 t start k t stop k t start k µ X (t) dt, σ 2 ) Inferensmetod: MCEM dvs EM-algorimen där E-steget approximeras med Monte Carlo-simuleringar av Markovprocessen

-kopietal BAC-data

-kopietal BAC-data 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal Hopptidpunkt Antag att X (T 1 ) = i, X (T 2 ) = j Tätheten för hopptidpunkten blir då proportionell mot: q ij exp( q i (t T 1 ))exp( q j (T 2 t)) k g(y k x) Alternativt kan denna uppskattas utifrån Monte-Carlo-simuleringarna

-kopietal Hopptidpunkt 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal Kontinuerligt utfallsrum Om det är många tillstånd så blir det för många hoppintensiteter för att de ska kunna skattas bra. Fem tillstånd ger 20 hoppintensiteter Alternativ modell Kontinuerligt utfallsrum för Markovprocessen Normaltillstånd µ 0 En intensitet γ för hopp till normaltillståndet från ett icke-normalt tillstånd. En intensitet λ för hopp till något icke-normalt tillstånd antingen från normaltillståndet eller från ett annat icke-normalt tillstånd. De icke-normala tillstånden har täthet κ. Tidsreversibel process

-kopietal Modell för mätfelen Y k = µ k + σɛ k BAC-data: µk = 1 t stop k t start k Oligonukleotid-data t stop k t start k X (t) dt Probernas längd är försumbar; t k = (t stop k µ k = X (t k ) t start k )/2 ɛ k är oberoende, likafördelade stokastiska variabler som representerar mätfelet och E(ɛ k ) = 0, V(ɛ k ) = 1.

-kopietal Skattningar Baysiansk modell, där vi antar apriori-fördelningar för alla parametrar Parametrarna, σ 2, µ 0, (ν), γ, λ, ρ, skattas med hjälp av MCMC-metoder (Gibbs sampling, Metropolis-Hastings). För att rekonstruera Markovprocessen använder vi en MCMC-metod designad för den här modellen. För oligonukleotid-data kan även en varaint av EM-algoritmen användas

-kopietal Jämförelse av metoder 4 3 2 1 log 2 ratio 0 1 2 3 4 0 0.5 1 1.5 2 2.5 Base pairs x 10 8

-kopietal SNP-data Antag att det nns två varianter av varje allel; A och B. I friska celler nns då de möjliga genotyperna AA, AB och BB. I sjuka celler kan det nnas för många eller för få kopior av den ena eller av båda allelerna. Exempel är LOH, då de enda möjligheterna är AA och BB. SNP data innehåller en A-intensitet och en B-intensitet. Vid basparsposition t kc, är de uppmätta intensiteterna y kc = (y Akc, y Bkc ).

-kopietal (A 0kc +2A 1kc, B 0kc), (A 0kc +A 1kc, B 0kc +B 1kc), (A 0kc, B 0kc +2B 1kc)

-kopietal Modell Låt X c (t) vara en Markovprocess för kromosom c med tillstånd: Tillstånd Genotyper Tillstånd Genotyper 1 {AA, AB, BB} 9 {AAA, AAB, ABB, BBB} 2 { } 10 {4A, 3AB, A3B, 4B} 3 {A, B} 11 {5A, 4AB, A4B, 5B} 4 {AA, BB} 12 {6A, 5AB, A5B, 6B} 5 {AAA, BBB} 13 {4A, 2A2B, 4B} 6 {4A, 4B} 14 {5A, 3A2B, 2A3B, 5B} 7 {5A, 5B} 15 {6A, 4A2B, 2A4B, 6B} 8 {6A, 6B} 16 {6A, 3A3B, 6B} Beteckna tillstånd 1, {AA, AB, BB}, normaltillstånd och övriga är då icke-normaltillstånd.

-kopietal Väntevärdet för prob k i kromosom c om den tillhör tillstånd i och genotyp j. µ kcij = (µ Akcij, µ Bkcij ) = (A 0kc + g Aij A 1kc, B 0kc + g Bij B 1kc) där g Aij och g Bij är antalet kopior av de två allelerna. Vi antar att f Ykc X c(t kc )=i(y) = j w kcij f (y X c (t kc ) = i, S kc = j), där S kc är genotypen och f ( S kc = j, X c (t kc ) = i) är en bivariat normalfördelning med väntevärde µ kcij och kovariansmatris Σ kcij och w kcij är Hardy-Weinberg-vikter som också skattas från normalproven.

-kopietal Inblandning av normal-celler Det är svårt att vid biopsier plocka ut enbart vävnad från tumörceller utan oftast kommer lite av omgivande celler med också. Låt γ vara andelen normalvävnad, då är 1 γ andelen cancervävnad. (g γ A, g γ B ) = ((1 γ)g A + γg N A, (1 γ)g B + γg N B ). För LOH, med genotyper AA och BB blir de olika genotyperna vid normalinblandning 2A, (2 γ)aγb, γa(2 γ)b och 2B.

-kopietal Resultat Markov state 4 3 2 1 0 0 0.2 0.4 0.6 0.8 1 1.2 Base pairs 1.4 1 1.2 Base pairs 1.4 1.6 1.8 2 8 x 10 Copy number 10 5 0 0 0.2 0.4 0.6 0.8 1.6 1.8 2 8 x 10

6 6 5 5 4 4 3 3 2 2 A allele A allele -kopietal 1 1 0 0 1 1 2 3 3 2 2 1 0 1 2 3 4 5 6 B allele 3 3 2 1 0 1 2 3 4 5 6 B allele (1 + γ)a, Aγ B, γ AB, (1 + γ)b AA, AB, BB

-kopietal Referenser HMM och kopietal: Stjernqvist (2010) Modelling Allelic and Copy Number Variations using Continuous-idex Hidden Markov Models Fridlyand et al (2004) Hidden Markov models approach to the analysis of array CGH data HMM Cappe et al (2005) Inference in Hidden Markov Models Data: Jönsson et al (2007) High-resolution genomic proles of breast cancer cell lines assessed by tiling BAC array comparative genomic hybridization Greenman et al (2010) PICNIC: an algorithm to predict absolute allelic copy number variation with microarray caner data