Analys av DNA-kopietal med dolda markovmodeller

-kopietal Analys av -kopietal med dolda markovmodeller Lund, 8 juni 2011

-kopietal Disputerade den 22 oktober 2010 i matematisk statistik vid Matematikcentrum, Lunds Universitet Modelling Allelic and Copy Number Variations using Continuous-index Hidden Markov Models Handledare: Tobias Rydén

-kopietal Normalt har vi människor 46 kromosomer formade i 23 par En kopia i varje par kommer från vardera föräldern Ibland förekommer vissa segment av en kromosom i er eller färre kopior än två - kopietalsförändringar Har mest studerat cancerceller, men kopietalsförändringar förekommer även hos personer med tex autism eller schitzofreni

-kopietal En extra kopia

-kopietal En kopia saknas

-kopietal Data Array Comparative Genomic Hybridization (acgh) Test- märks med en uorescerande färg och referens- märks med en annan uorescerande färg Test- och referens- delas i små bitar, blandas och hybridiseras på en microarray där varje prob motsvarar en kort -sekvens Arrayer bestrålas med laser och intensiteten i de två emmiterade strålarna mäts och jämförs med varandra Intensitetskvoten är 2/2 om provet är normalt, 1/2 om det saknas en kopia, 3/2 om det har en extra kopia, osv Kvoten transformeras med log 2, vilket gör att normalnivån 2/2 hamnar på 0.

-kopietal Data 3 2 1 log 2 ratio 0 1 2 3 0 1 2 3 4 Base pairs 5 6 7 8 x 10 7

-kopietal Markovkedjor Låt X = {X 0, X 1,..., X n } vara en stokastisk process som antar värden i ett diskret tillståndsrum Markovvillkoret: P(X k+1 = j X 0 = x 0, X 1 = x 1,..., X k 1 = x k 1, X k = i) = P(X k+1 = j X k = i) för alla i, j, x 0,..., x k 1. Övergångssannolikheter p ij = P(X k+1 = j X k = i), samlas i en övergångsmatris, P.

-kopietal Denition av dolda markovmodeller Vi observerar Y = {Y 0, Y 1,..., Y n } Underliggande markovkedja, X Y är betingat oberoende givet X Y k beror enbart på X k Antar en fördelning för mätfelet, dvs för Y k X k = i

-kopietal Markovkedjor och kopietal Varje kromosom modelleras med en Markovkedja. Möjliga utfall är antalet kopior av test-t: 0, 1,..., m Intilligande prober har ofta lika många kopior, dvs markovkedjan stannar ofta kvar i samma tillstånd. Intilligande prober kan även ha olika många kopior och markovkedjan byter då tillstånd, "hoppar".

-kopietal acgh-data 3 2 1 log 2 ratio 0 1 2 3 0 1 2 3 4 Base pairs 5 6 7 8 x 10 7 Data innehåller olika typer av mätfel, så det vi observerar är inte de logaritmerade kopietalen Lämplig modell är därför dolda markovmodeller (Hidden Markov Models, HMM)

-kopietal Dolda markovmodeller och acgh-data Vi observerar de uppmätta log 2 -kvoterna Y Vi vill veta kopietalen, X. En vanlig modell är att Y k X k = i N(µ i, σ 2 ) Idealt µ i log 2 -kvoten av ett heltal dividerat med 2, men passar ofta dåligt på grund av systematiska fel, såsom normalinblandning

-kopietal Framåt - bakåt Vill hitta den mest troliga Markovprocessen, X, utifrån de mätningar vi har av Y-processen. Smoothing- fördelningen P(X k = i y 0,..., y n ) Vanligaste och enklaste metoden är framåt-bakåt-algoritmen α k (i) = P(X k = i, y 0,..., y k ) β k (i) = P(y k+1,..., y n X k = i)

-kopietal Framåt - bakåt Låt täthetsfunktionen för Y k X k = i vara g k (i) α och β kan beräknas rekursivt α k (j) = r p i=1 ijg k (j)α k 1 (i) β k (i) = r j=1 p ijg k+1 (j)β k+1 (j) α och β bör normeras då de annars kan växa/avta exponentiellt P(X k = i y 0,..., y n ) α k (i)β k (i)

-kopietal Skatta parametrar Framåt-bakåt-algoritmen förutsätter att parametrarna är kända Oftast är parametrarna okända Parametrar som behöver skattas: Övergångssannolikheterna P = [p ij ] Medelnivåerna µ = µ 1,..., µ m, Mätfelets varians σ 2 Den vanligaste metoden för att att skatta parametrar till en dold markovmodell är EM-algoritmen

-kopietal EM-algoritmen EM-algoritmen är en iterativ metod för att hitta MLE av parametrarna θ E-steg: Väntevärdet E θ [log p(x, y; θ ) y] beräknas M-steg: Maximering av väntevärdet ger θ EM-algoritmen är designad för maximering av likelihood då det nns en icke-observerbar vaiabel. Passar bra till dolda markovmodeller och kombineras då med framåt-bakåt variablerna För att rekonstruera Markovprocessen utifrån de skattade parametrarna och data används ofta Viterbi-algoritmen.

-kopietal Egenskaper hos data Data från tiling BAC-arrayer Långa mätningar Mätningarna är ojämnt spridda över genomet Mätningarna har olika längd Mätningarna kan överlappa Data från oligonuclotide-arrayer Korta mätningar Mätningarna är ojämnt spridda över genomet Markovkedja som är diskret i observationerns är ingen bra modell Diskret i basparen skulle teoretiskt fungera, men svårt numeriskt Bättre med en Markovprocess med kontinuerligt index

-kopietal Markovprocess med kontinuerligt index Markovprocess: X = X (t), t = 0 : T Markovvillkoret: P(X (t n+1 = i n+1 ) X (t n ) = i n, X (t n 1 ) = i n 1,..., X (t 0 = i 0 )) = P(X (t n+1 = i n+1 X (t n ) = i n ) för alla i 0,..., i n+1 och alla tidpunkter t 0 t 1 t n+1. Övergångsintensiteter, q ij, denieras som P(X (t + h) = j X (t) = i) = q ij h + o(h) q i = j i q ij

-kopietal BAC-data 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal BAC-data Längd: 100-200 kbp, kan överlappa Modell: Dold markovprocess med kontinuerligt index Maximalt fem tillstånd ( Y k X (t) N t stop k 1 t start k t stop k t start k µ X (t) dt, σ 2 ) Inferensmetod: MCEM dvs EM-algorimen där E-steget approximeras med Monte Carlo-simuleringar av Markovprocessen

-kopietal BAC-data

-kopietal BAC-data 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal Hopptidpunkt Antag att X (T 1 ) = i, X (T 2 ) = j Tätheten för hopptidpunkten blir då proportionell mot: q ij exp( q i (t T 1 ))exp( q j (T 2 t)) k g(y k x) Alternativt kan denna uppskattas utifrån Monte-Carlo-simuleringarna

-kopietal Hopptidpunkt 2 1.5 1 log 2 ratio 0.5 0 0.5 1 1 1.05 1.1 1.15 1.2 1.25 Base pairs x 10 7

-kopietal Kontinuerligt utfallsrum Om det är många tillstånd så blir det för många hoppintensiteter för att de ska kunna skattas bra. Fem tillstånd ger 20 hoppintensiteter Alternativ modell Kontinuerligt utfallsrum för Markovprocessen Normaltillstånd µ 0 En intensitet γ för hopp till normaltillståndet från ett icke-normalt tillstånd. En intensitet λ för hopp till något icke-normalt tillstånd antingen från normaltillståndet eller från ett annat icke-normalt tillstånd. De icke-normala tillstånden har täthet κ. Tidsreversibel process

-kopietal Modell för mätfelen Y k = µ k + σɛ k BAC-data: µk = 1 t stop k t start k Oligonukleotid-data t stop k t start k X (t) dt Probernas längd är försumbar; t k = (t stop k µ k = X (t k ) t start k )/2 ɛ k är oberoende, likafördelade stokastiska variabler som representerar mätfelet och E(ɛ k ) = 0, V(ɛ k ) = 1.

-kopietal Skattningar Baysiansk modell, där vi antar apriori-fördelningar för alla parametrar Parametrarna, σ 2, µ 0, (ν), γ, λ, ρ, skattas med hjälp av MCMC-metoder (Gibbs sampling, Metropolis-Hastings). För att rekonstruera Markovprocessen använder vi en MCMC-metod designad för den här modellen. För oligonukleotid-data kan även en varaint av EM-algoritmen användas

-kopietal Jämförelse av metoder 4 3 2 1 log 2 ratio 0 1 2 3 4 0 0.5 1 1.5 2 2.5 Base pairs x 10 8

-kopietal SNP-data Antag att det nns två varianter av varje allel; A och B. I friska celler nns då de möjliga genotyperna AA, AB och BB. I sjuka celler kan det nnas för många eller för få kopior av den ena eller av båda allelerna. Exempel är LOH, då de enda möjligheterna är AA och BB. SNP data innehåller en A-intensitet och en B-intensitet. Vid basparsposition t kc, är de uppmätta intensiteterna y kc = (y Akc, y Bkc ).

-kopietal (A 0kc +2A 1kc, B 0kc), (A 0kc +A 1kc, B 0kc +B 1kc), (A 0kc, B 0kc +2B 1kc)

-kopietal Modell Låt X c (t) vara en Markovprocess för kromosom c med tillstånd: Tillstånd Genotyper Tillstånd Genotyper 1 {AA, AB, BB} 9 {AAA, AAB, ABB, BBB} 2 { } 10 {4A, 3AB, A3B, 4B} 3 {A, B} 11 {5A, 4AB, A4B, 5B} 4 {AA, BB} 12 {6A, 5AB, A5B, 6B} 5 {AAA, BBB} 13 {4A, 2A2B, 4B} 6 {4A, 4B} 14 {5A, 3A2B, 2A3B, 5B} 7 {5A, 5B} 15 {6A, 4A2B, 2A4B, 6B} 8 {6A, 6B} 16 {6A, 3A3B, 6B} Beteckna tillstånd 1, {AA, AB, BB}, normaltillstånd och övriga är då icke-normaltillstånd.

-kopietal Väntevärdet för prob k i kromosom c om den tillhör tillstånd i och genotyp j. µ kcij = (µ Akcij, µ Bkcij ) = (A 0kc + g Aij A 1kc, B 0kc + g Bij B 1kc) där g Aij och g Bij är antalet kopior av de två allelerna. Vi antar att f Ykc X c(t kc )=i(y) = j w kcij f (y X c (t kc ) = i, S kc = j), där S kc är genotypen och f ( S kc = j, X c (t kc ) = i) är en bivariat normalfördelning med väntevärde µ kcij och kovariansmatris Σ kcij och w kcij är Hardy-Weinberg-vikter som också skattas från normalproven.

-kopietal Inblandning av normal-celler Det är svårt att vid biopsier plocka ut enbart vävnad från tumörceller utan oftast kommer lite av omgivande celler med också. Låt γ vara andelen normalvävnad, då är 1 γ andelen cancervävnad. (g γ A, g γ B ) = ((1 γ)g A + γg N A, (1 γ)g B + γg N B ). För LOH, med genotyper AA och BB blir de olika genotyperna vid normalinblandning 2A, (2 γ)aγb, γa(2 γ)b och 2B.

-kopietal Resultat Markov state 4 3 2 1 0 0 0.2 0.4 0.6 0.8 1 1.2 Base pairs 1.4 1 1.2 Base pairs 1.4 1.6 1.8 2 8 x 10 Copy number 10 5 0 0 0.2 0.4 0.6 0.8 1.6 1.8 2 8 x 10

6 6 5 5 4 4 3 3 2 2 A allele A allele -kopietal 1 1 0 0 1 1 2 3 3 2 2 1 0 1 2 3 4 5 6 B allele 3 3 2 1 0 1 2 3 4 5 6 B allele (1 + γ)a, Aγ B, γ AB, (1 + γ)b AA, AB, BB

-kopietal Referenser HMM och kopietal: Stjernqvist (2010) Modelling Allelic and Copy Number Variations using Continuous-idex Hidden Markov Models Fridlyand et al (2004) Hidden Markov models approach to the analysis of array CGH data HMM Cappe et al (2005) Inference in Hidden Markov Models Data: Jönsson et al (2007) High-resolution genomic proles of breast cancer cell lines assessed by tiling BAC array comparative genomic hybridization Greenman et al (2010) PICNIC: an algorithm to predict absolute allelic copy number variation with microarray caner data