Bioinformatik. Marina Axelson-Fisk Matematisk orientering, 30 nov 2015

Relevanta dokument
Kap 26 Nukleinsyror och proteinsyntes. Bilder från McMurry

RNA-syntes och Proteinsyntes

Hundar hjälper oss att förstå människans sjukdomar. Kerstin Lindblad-Toh

Från DNA till protein, dvs den centrala dogmen

Nomenklatur för vanliga SNP-analyser Gör vi rätt?

Transkription och translation. DNA RNA Protein. Introduktion till biomedicin Jan-Olov Höög 1

Delprov l, fredag 11/11,

Instuderingsfrågor avsnitten Molekylär genetik och Rekombinant DNA tekniker, MCB

Hundar hjälper oss att förstå människans sjukdomar. Kerstin Lindblad-Toh

Från DNA till protein, dvs den centrala dogmen

Farmakogenetik/genomik

Molekylärbiologins centrala dogma

Genetik II. Jessica Abbott

Transkriptionen. Niklas Dahrén

En bioinformatisk genjakt

Proteiner. Biomolekyler kap 7

Från gen till protein. Niklas Dahrén

Antikroppar:Från gen till protein skapande av diversitet. Kursbok: The immune system Peter Parham

Delprov 3 Vetenskaplig artikel

52 onkologi i sverige nr 5 13

Ägg till embryo Dugga Platsnummer VIKTIGT ATT DU FYLLER I OCH LÄMNAR IN! TEXTA TACK. Efternamn. Förnamn. Personnummer

Gener, genom och kromosomer , 6.6 och sid

MÅL MED DETTA AVSNITT

Bestämning av antalet aktiva CYP2D6 genkopior (CNV) med Pyrosequencing. Anna-Lena Zackrisson PhD.

GENETIK - Läran om arvet

Molekylärbiologi: Betygskriterier

Arv + miljö = diabetes?

Mutationer. Typer av mutationer

Träd, binära träd och sökträd. Koffman & Wolfgang kapitel 6, avsnitt 1 4

Tentamen Reproduktion och utveckling, Åke Strids frågor:

Påminnelse: en datatyp för bilder. Programmering. En datatyp för bilder. Spegelbild. hh.se/db2004

RNA och den genetiska koden

Tentamen Biologi BI1112 Termin och år: Klockan:

Proteiner. Biomolekyler kap 7

NUKLEINSYRORNAS UPPBYGGNAD: Två olika nukleinsyror: DNA deoxyribonukleinsyra RNA ribonukleinsyra

I. Flersekvensjämförelser, sekvensmotiv och profiler. II. Fylogenetisk analys

HUGO-projektet. Kartläggningen av det mänskliga genomet

(Maxp.4 p, 1p per celltyp som är helt korrekt markerad, annars 0p för raden.)

Lycka till! Tentamen. Kursens namn: Medicin C, Tumörbiologi Kursens kod: MC1728 Kursansvarig: Anna Göthlin Eremo

Transkription och translation = Översättning av bassekvensen till aminosyrasekvens

Grundläggande molekylära genetiska mekanismer Kap 4,

Analys av DNA-kopietal med dolda markovmodeller

Två fall: q Tom sekvens: () q Sekvens av element: (a b c) ; (sum-rec '(2 4 6)) = 12. q Första elementet uppfyller vissa villkor: (2 a b c)

DNA-molekylen upptäcktes DNA - varken protein, kolhydrat eller lipid.

Släktträd med hjälp av databaser och program från Internet

Medicinsk genetik del 1: Introduktion till genetik och medicinsk genetik. Niklas Dahrén

Tentamen. Kurskod: MC1004. Medicin A, Molekylär cellbiologi. Kursansvarig: Christina Karlsson. Datum Skrivtid 4h

AbD Serotec Focus Immunohistokemi. Sydsvenska Immunogruppens möte, Malmlö 22/3 2007

tisdag 8 oktober 13 Carl Von Linné

Människans genom Databaser ger kunskap om genetiska sjukdomar

DNA sekvensning Primär Immunbrist Genetik till varje pris?

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016

Datorer och matematik hjälper oss att motverka sjukdomar

Ägg till embryo Dugga Platsnummer VIKTIGT ATT DU FYLLER I OCH LÄMNAR IN! TEXTA TACK. Efternamn. Förnamn. Personnummer

Tidiga erfarenheter av arvets mysterier

Wienerprocesser. Finansiell statistik, vt-05. Enkel slumpvandring. Enkel slumpvandring. Varför: model för aktiekurs (dock med aber...

Evolution i molekylärbiologiskt perspektiv

Tentamen. Lycka till! Medicin A, Molekylär cellbiologi. Kurskod: MC1004. Kursansvarig: Christina Karlsson. Datum Skrivtid 4h

Genetik. - cellens genetik - individens genetik. Kap 6

Personnummer. DUGGA Molekylärbiologi T3 / HT p (G = 24 p)

Totalt finns det alltså 20 individer i denna population. Hälften, dvs 50%, av dem är svarta.

Släktskap mellan människa och några ryggradsdjur

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Genetisk forskning nyckeln till framtidens behandlingar

Sammanfattning Arv och Evolution

Genetik I. Jessica Abbott

Cellen och biomolekyler

Molecular Biology Primer

DNA-sekvenserings utskick Carola Andersson KMP-lab Sahlgrenska Universitetssjukhuset

Föreläsning 6: Introduktion av listor

Information för patienter och föräldrar

Gen Transkripterbar del. promotor exon intron exon intron exon Slut på transkription. av transkription, fixar rätt tid och rätt mängd.

MHC Centrum av Hästens Immunsystem

Crafoordpriset i biovetenskaper 2015

Biochemistry 201 Advanced Molecular Biology (

KARLSTADS UNIVERSITET KEMI

Instuderingsfrågor till Cellbiologi av Charlotte Erlanson-Albertsson och Urban Gullberg

Situationen för yngre med demenssjukdom på Åland 2015 & Huntingtons sjukdom - en översikt

Transkrip1on och transla1on

Del Vad kan vi lära av familjehistoria? Scion Publishing Oct 2010 Paperback - 442pp ISBN Price:

Next Generation Sequencing. Anna Gréen, Klinisk Genetik, Linköping

Information och samtyckesformulär inför genomisk utredning av ovanliga sjukdomar och syndrom med metoderna genomisk array och exomanalys

Stamceller För att få mer kött på benen

Lärarhandledning gällande sidorna 6-27 Inledning: (länk) Läromedlet har sju kapitel: 5. Celler och bioteknik

TENTAMEN för KMB056 - Molekylär Bioteknik

Integration av matematik och teknik på ingenjörsutbildningar

Ägg till embryo Dugga Platsnummer VIKTIGT ATT DU FYLLER I OCH LÄMNAR IN! TEXTA TACK. Efternamn. Förnamn. Personnummer

Tomat och banan hur är de släkt?

IDENTITETSBLAD Dugga

Föreläsning 11. Giriga algoritmer

Sluttentamen Bke2/KE0003, 29:e Oktober 2003, Max poäng = 94 p. Preliminär gräns för godkänd = 50 p (53 %).

Chapter 5-7. Introduction. Content. Double helix, Watson and Crick + Maria Bolin + fig 5-2

BIOLOGISK SYNTES AV PROTEIN

Grafer och grannmatriser

Skrivning för biolog- och molekylärbiologlinjen, genetik 5p.

TENTAMEN för KMB056 - Molekylär Bioteknik

Protein prediktion, homologi och protein engineering

Preliminär elmarknadsstatistik per månad för Sverige 2013

Övningstentafrågor i Biokemi, Basåret VT 2012

Genetik en sammanfattning

Transkript:

Bioinformatik Marina Axelson-Fisk Matematisk orientering, 30 nov 2015

Bioinformatik

Bioinformatik

Var används bioinformatik? DNA analys Medicin DNA-sekvensering och assemblering Sekvensanalys Proteinstruktur och funktion Expression- och nätverksanalys Sjukdomsgener Drug target Lead compound Kliniska försök

Grundläggande genetik Cell Kärna Kromosom DNA

Vad är en gen? DNA CCTGAGCCAACTATTGAT transkription RNA CCUGAGCCAACUAUUGAU translation Protein PEPTID

Proteinfunktioner Enzym matsmältningssystemet Strukturella komponenter senor, ligament Skydd antikroppar, blodkoagulering Regulatoriska hormon insulin, tillväxt- Rörelse aktin, myosin Transport hemoglobin, albumin

Sekvenserings-historia 1977: Phi X174 (5 400 bp) 1995: Två mikrober (1.8, 0.6) 1996: Jästsvamp (12) 1997: E. coli (4.6) 1998: C. elegans (97) 1999: kromosom 22q (33.4) 2000: Bananflugan (180) 2003: Människan (3,200)

2001: The human genome

Och det kommer mer

Genom-analys Sekvensjämförelser Genletning Regulatoriska element

Sekvensjämförelser

Sekvensjämförelser Är sekvenserna evolutionärt besläktade? Vilka regioner är likartade? Hur stort är det evolutionära avståndet? Hur verkar den evolutionära processen?

Mutationer Normal Missense Nonsens Deletion Inversion Insertion THE BIG DOG RAN OUT. THE BIG DAG RAN OUT. THE BIG DOG. THE BGD OGR ANO. THE BIG RAN DOG OUT. THE BIG RED DOG RAN OUT.

Tree of life: mammals Edentata (anteaters, sloths, armadillos) Lagomorpha (rabbits) Rodentia (mice, rats, squirrels) Primates New World monkeys Old World monkeys humans, gorilla, chimpanzee, bonobo, orangutan gibbons Mammals Monotremata (platypus, echidnas) Eutheria (placental animals) Marsupialia (opossums, kangaroos) Multituberculata Triconodonts Tree shrews Bats Colugos lemurs, galagos, lorises Artiodactyla (pigs, deer, cattle, goats, sheep, hippopotamuses, camels, etc.) Cetacea (whales, dolphins, porpoises) Perissodactyla (horses, tapirs, rhinoceroses) Proboscidea (elephants, mammoths) Carnivora (dogs, cats, bears, raccoons, weasels, mongooses, hyenas)

Sekvens-alignment 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Strängjämförelser Exakt strängsökning Exakt mängdsökning Sökning av delsträngar Längsta gemensamma delsträng Gemensamma delsträngar i fler än två Förorenat DNA

Svårigheter Algoritmerna behöver vara: Snabba Robusta Minneseffektiva Hantera omkastningar, dupliceringar, och repetitiva element

Genletning

Genstruktur TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop transkription splicing translation

Genletning 5 UTR 3 UTR TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop start codon ATG splice sites stop codon TAA/TAG/TGA

Den genetiska koden

Splice site detection donor site Position % -8-2 -1 0 1 2 17 A 26 60 9 0 1 54 21 C 26 15 5 0 1 2 27 G 25 12 78 99 0 41 27 T 23 13 8 1 98 3 25

Dolda Markov-modeller Hidden Markov models (HMMs)

Slumpvandring

Markov-kedjor Markov-egenskapen: Sannolikheten för nästa position beror bara på den nuvarande (minneslös process)

Stokastiska processer En stokastisk variabel är en variabel som påverkas av slump. Den kan anta vissa värden enligt en sannolikhetsfördelning. En stokastisk process är en utvecklingen av en stokastisk variabel i tid (eller rum)

Stokastiska processer Ankomst av kunder i ett kösystem Förändringar i aktiekursen Ledningsväxling under en rösträkning Växling mellan olika tillstånd

En Markov-kedja b A (i) 1 / 6 P AB = 1-PAA P BB A P AA Initial fördelning: (, A B ) P BA = 1-PBB b B (i) 1/ 4

En dold Markov-modell Observerad sekvens: 1 4 3 6 6 4 A B Dold sekvens: B B A A A B

DNA-sekvenser A C G T

Tillståndssekvenser (durations) p 1-p A p Geometrisk fördelning duration

Observerade exoner och introner Intron Start-exon Intern exon Slut-exon

HMM i genletning T AA TA T G T C CA C G G G T A T T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3

Som lattice:

Två fundamentala problem Sannolikheten av observerade data, givet modellen. forward-algoritmen Den bästa dolda sekvensen givet observerade data. Viterbi-algoritmen

Dynamisk programmering Rekurrens relation Tabulär beräkning Traceback

Dynamisk programmering Fibonacci-tal: f (n) = 0 1 f (n-1) + f (n-2) om n = 0 om n = 1 om n > 1

Dynamisk programmering f (5) f (4) f (3) f (3) f (2) f (2) f (1) f (2) f (1) f (1) f (0) f (1) f (0) f (1) f (0)

Dynamisk programmering Rekurrens-relation f (n) = 0 1 f (n-1) + f (n-2) om n = 0 om n = 1 om n > 1 Tabulär beräkning f (0), f (1), f (2), f (3), Traceback

HMM algoritmer t t 1 4 3 6 6 4 B B A A A B

Tillstånd Dynamisk programmering N 1 1 T Observation

Forward-algoritmen N (j) ( (i) p )b (Y ) t t 1 ij j t i 1 (tillstånd j vid tidpunkt t)

Forward-algoritmen tillstånd 1 2 3 övergångssannolikheter fördelning för utdata j... N t-1 t t 1 (i) t ( j)

Tillstånd Forward-algoritmen N 1 1 T Observation

Tillstånd Forward-algoritmen N 3........... 2 1...... 1 2 3 T Observation

Viterbi-algoritmen

tillstånd 1 2 Viterbi-algoritmen 3 j... N t-1 t

Tillstånd Traceback N 3........... 2 1...... 1 T-2 T-1 T Observation

HMM i sekvens-alignment Human: Mouse: Human: Mouse: Human: Mouse: Human: Mouse: 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Pair HMMs M X Y M = (mis)match X = insert seq1 Y = insert seq2 Utdata: ATCG--G AC-GTCA Observerade sekvenser: ATCGG ACGTCA

Pair HMMs Dold sekvens: M M X M Y Y M A A T C C - G G - T - C G A Utdata: ATCG--G AC-GTCA Observerad sekvens: ATCGG ACGTCA

Komparativ genletning Human: Mouse: Human: Mouse: Human: Mouse: Human: Mouse: 50. :. :. :. :. : 247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC : : --: :: --- 368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG 100. :. :. :. :. : 292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG ---------- :: : :: : :- : 418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG 150. :. :. :. :. : 332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG --------------- : 467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG 200. :. :. :. :. : 367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA : : : : : 517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Komparativ genletning TATA promoter transcription start exon1 exon2 translation start exon3 intron exon4 translation stop exon5 transcription stop

Generalized Pair HMMs T AA TA T G T C CA C G G G T A T T G AG C AT T G TA CA C G G G G TA T T GA G CA T G TAA T GAA Exon1 Exon2 Exon3 C T GA T G TA CA C T G G T T G G T C C T C AG C TT T GA C G G G G T GA G CA T G TAA T G T C

Som lattice: tillstånd

Beräkningsproblem Modell Tid Minne HMM N 2 T NT PHMM N 2 TU NTU GHMM D 2 N 2 T NT GPHMM D 4 N 2 TU NTU N antal tillstånd D max duration T längd sekv1 U längd sekv2

Approximate alignment Reduces TU -factor to ht

Jämförelse: människa mus Feb 2001 Dec 2002

Why mouse?

Varför mus?

Människa Mus

RNA folding

Tillstånd Multi-branched loop Single-branched loop Helix Hairpin

Viterbi-algoritmen

Hur många gener har vi? 27,462