Bioinformatik Marina Axelson-Fisk Matematisk orientering, 30 nov 2015
Bioinformatik
Bioinformatik
Var används bioinformatik? DNA analys Medicin DNA-sekvensering och assemblering Sekvensanalys Proteinstruktur och funktion Expression- och nätverksanalys Sjukdomsgener Drug target Lead compound Kliniska försök
Grundläggande genetik Cell Kärna Kromosom DNA
Vad är en gen? DNA CCTGAGCCAACTATTGAT transkription RNA CCUGAGCCAACUAUUGAU translation Protein PEPTID
Proteinfunktioner Enzym matsmältningssystemet Strukturella komponenter senor, ligament Skydd antikroppar, blodkoagulering Regulatoriska hormon insulin, tillväxt- Rörelse aktin, myosin Transport hemoglobin, albumin
Sekvenserings-historia 1977: Phi X174 (5 400 bp) 1995: Två mikrober (1.8, 0.6) 1996: Jästsvamp (12) 1997: E. coli (4.6) 1998: C. elegans (97) 1999: kromosom 22q (33.4) 2000: Bananflugan (180) 2003: Människan (3,200)
2001: The human genome
Och det kommer mer
Genom-analys Sekvensjämförelser Genletning Regulatoriska element
Sekvensjämförelser
Sekvensjämförelser Är sekvenserna evolutionärt besläktade? Vilka regioner är likartade? Hur stort är det evolutionära avståndet? Hur verkar den evolutionära processen?
Mutationer Normal Missense Nonsens Deletion Inversion Insertion THE BIG DOG RAN OUT. THE BIG DAG RAN OUT. THE BIG DOG. THE BGD OGR ANO. THE BIG RAN DOG OUT. THE BIG RED DOG RAN OUT.
Tree of life: mammals Edentata (anteaters, sloths, armadillos) Lagomorpha (rabbits) Rodentia (mice, rats, squirrels) Primates New World monkeys Old World monkeys humans, gorilla, chimpanzee, bonobo, orangutan gibbons Mammals Monotremata (platypus, echidnas) Eutheria (placental animals) Marsupialia (opossums, kangaroos) Multituberculata Triconodonts Tree shrews Bats Colugos lemurs, galagos, lorises Artiodactyla (pigs, deer, cattle, goats, sheep, hippopotamuses, camels, etc.) Cetacea (whales, dolphins, porpoises) Perissodactyla (horses, tapirs, rhinoceroses) Proboscidea (elephants, mammoths) Carnivora (dogs, cats, bears, raccoons, weasels, mongooses, hyenas)
Sekvens-alignment 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Strängjämförelser Exakt strängsökning Exakt mängdsökning Sökning av delsträngar Längsta gemensamma delsträng Gemensamma delsträngar i fler än två Förorenat DNA
Svårigheter Algoritmerna behöver vara: Snabba Robusta Minneseffektiva Hantera omkastningar, dupliceringar, och repetitiva element
Genletning
Genstruktur TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop transkription splicing translation
Genletning 5 UTR 3 UTR TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop start codon ATG splice sites stop codon TAA/TAG/TGA
Den genetiska koden
Splice site detection donor site Position % -8-2 -1 0 1 2 17 A 26 60 9 0 1 54 21 C 26 15 5 0 1 2 27 G 25 12 78 99 0 41 27 T 23 13 8 1 98 3 25
Dolda Markov-modeller Hidden Markov models (HMMs)
Slumpvandring
Markov-kedjor Markov-egenskapen: Sannolikheten för nästa position beror bara på den nuvarande (minneslös process)
Stokastiska processer En stokastisk variabel är en variabel som påverkas av slump. Den kan anta vissa värden enligt en sannolikhetsfördelning. En stokastisk process är en utvecklingen av en stokastisk variabel i tid (eller rum)
Stokastiska processer Ankomst av kunder i ett kösystem Förändringar i aktiekursen Ledningsväxling under en rösträkning Växling mellan olika tillstånd
En Markov-kedja b A (i) 1 / 6 P AB = 1-PAA P BB A P AA Initial fördelning: (, A B ) P BA = 1-PBB b B (i) 1/ 4
En dold Markov-modell Observerad sekvens: 1 4 3 6 6 4 A B Dold sekvens: B B A A A B
DNA-sekvenser A C G T
Tillståndssekvenser (durations) p 1-p A p Geometrisk fördelning duration
Observerade exoner och introner Intron Start-exon Intern exon Slut-exon
HMM i genletning T AA TA T G T C CA C G G G T A T T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3
Som lattice:
Två fundamentala problem Sannolikheten av observerade data, givet modellen. forward-algoritmen Den bästa dolda sekvensen givet observerade data. Viterbi-algoritmen
Dynamisk programmering Rekurrens relation Tabulär beräkning Traceback
Dynamisk programmering Fibonacci-tal: f (n) = 0 1 f (n-1) + f (n-2) om n = 0 om n = 1 om n > 1
Dynamisk programmering f (5) f (4) f (3) f (3) f (2) f (2) f (1) f (2) f (1) f (1) f (0) f (1) f (0) f (1) f (0)
Dynamisk programmering Rekurrens-relation f (n) = 0 1 f (n-1) + f (n-2) om n = 0 om n = 1 om n > 1 Tabulär beräkning f (0), f (1), f (2), f (3), Traceback
HMM algoritmer t t 1 4 3 6 6 4 B B A A A B
Tillstånd Dynamisk programmering N 1 1 T Observation
Forward-algoritmen N (j) ( (i) p )b (Y ) t t 1 ij j t i 1 (tillstånd j vid tidpunkt t)
Forward-algoritmen tillstånd 1 2 3 övergångssannolikheter fördelning för utdata j... N t-1 t t 1 (i) t ( j)
Tillstånd Forward-algoritmen N 1 1 T Observation
Tillstånd Forward-algoritmen N 3........... 2 1...... 1 2 3 T Observation
Viterbi-algoritmen
tillstånd 1 2 Viterbi-algoritmen 3 j... N t-1 t
Tillstånd Traceback N 3........... 2 1...... 1 T-2 T-1 T Observation
HMM i sekvens-alignment Human: Mouse: Human: Mouse: Human: Mouse: Human: Mouse: 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Pair HMMs M X Y M = (mis)match X = insert seq1 Y = insert seq2 Utdata: ATCG--G AC-GTCA Observerade sekvenser: ATCGG ACGTCA
Pair HMMs Dold sekvens: M M X M Y Y M A A T C C - G G - T - C G A Utdata: ATCG--G AC-GTCA Observerad sekvens: ATCGG ACGTCA
Komparativ genletning Human: Mouse: Human: Mouse: Human: Mouse: Human: Mouse: 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Komparativ genletning TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop
Generalized Pair HMMs T AA TA T G T C CA C G G G T A T T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3 C T GA T G TA CA C T G G T T G G T C C T C AG C TT T GA C G G G G T GA G CA T G TAA T G T C
Som lattice: tillstånd
Beräkningsproblem Modell Tid Minne HMM N 2 T NT PHMM N 2 TU NTU GHMM D 2 N 2 T NT GPHMM D 4 N 2 TU NTU N antal tillstånd D max duration T längd sekv1 U längd sekv2
Approximate alignment Reduces TU -factor to ht
Jämförelse: människa mus Feb 2001 Dec 2002
Why mouse?
Varför mus?
Människa Mus
RNA folding
Tillstånd Multi-branched loop Single-branched loop Helix Hairpin
Viterbi-algoritmen
Hur många gener har vi? 27,462