I. Flersekvensjämförelser, sekvensmotiv och profiler. II. Fylogenetisk analys

Relevanta dokument
TENTAMEN för KMB056 - Molekylär Bioteknik

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning

RNA-syntes och Proteinsyntes

Personnummer. DUGGA Molekylärbiologi T3 / HT p (G = 24 p)

Släktskap mellan människa och några ryggradsdjur

Släktträd med hjälp av databaser och program från Internet

En bioinformatisk genjakt

Stamträd med hjälp av databaser och program från Internet

VI MÅSTE PRATA MED VARANDRA CELLENS KOMMUNIKATION

Transkription och translation. DNA RNA Protein. Introduktion till biomedicin Jan-Olov Höög 1

Från DNA till protein, dvs den centrala dogmen

Tentamen. Kurskod: MC1004. Medicin A, Molekylär cellbiologi. Kursansvarig: Christina Karlsson. Datum Skrivtid 4h

TENTAMEN för KMB056 - Molekylär Bioteknik

Delprov l, fredag 11/11,

Tentamen i Molekylär Cellbiologi

DNA-labb / Plasmidlabb

Från DNA till protein, dvs den centrala dogmen

Instuderingsfrågor avsnitten Molekylär genetik och Rekombinant DNA tekniker, MCB

Molekylärbiologins centrala dogma

Kontroll av genuttrycket på transkriptionsnivå

Transkription och translation = Översättning av bassekvensen till aminosyrasekvens

RNA och den genetiska koden

TENTAMEN för KMB056 - Molekylär Bioteknik

Hierarkisk proteinstruktur. Hierarkisk proteinstruktur. α-helix Fig 3-4. Primärstruktur Fig 3-3

Ärftliga sjukdomar och egenskaper hos hund

Protein en livsviktig byggsten

STOCKHOLMS UNIVERSITET INSTITUTIONEN FÖR BIOLOGISK GRUNDUTBILDNING

KARLSTADS UNIVERSITET

Eukaryot proteinexpression

Namn: Personnummer: Plats nr: Inlämnad kl: ID kollad: Poäng: Betyg: SKRIV NAMN PÅ ALLA SIDOR ÄVEN OM FRÅGAN LÄMNAS OBESVARAD.

Biochemistry 201 Advanced Molecular Biology (

Genetik I. Jessica Abbott

Bioinformatik. Marina Axelson-Fisk Matematisk orientering, 30 nov 2015

Tidiga erfarenheter av arvets mysterier

Molekylärbiologi: Betygskriterier

Genetik. - cellens genetik - individens genetik. Kap 6

TENTAMEN för KMB056 - Molekylär Bioteknik

TENTAMEN för KMB056 - Molekylär Bioteknik

Tomat och banan hur är de släkt?

VI-1. Proteiner VI. PROTEINER. Källor: - L. Stryer, Biochemistry, 3 rd Ed., Freeman, New York, 1988.

STOCKHOLMS UNIVERSITET. Institutionen för biologisk grundutbildning. Tentamen i Molekylär cellbiologi 10 p Namn: _.. Personnummer:.

LÄKEMEDELSMETABOLISM: MEKANISMER FÖR INTERINDIVIDUELL VARIABILITET

Analys av nukleinsyra. Molekylärbiologisk metodik T3 ht 11 Märit Karls

Kap 26 Nukleinsyror och proteinsyntes. Bilder från McMurry

Rening av proteiner: hur och varför?

Tentamen. Lycka till! Medicin A, Molekylär cellbiologi. Kurskod: MC1004. Kursansvarig: Christina Karlsson. Datum Skrivtid 4h

Proteinsyntesen. Anders Liljas Biokemi och strukturbiologi Lunds universitet

Protein prediktion, homologi och protein engineering

Transkriptionen. Niklas Dahrén

Resultat:... (Cellbiologi:... Immunologi...) Betyg...

Mutationer. Typer av mutationer

NUKLEINSYRORNAS UPPBYGGNAD: Två olika nukleinsyror: DNA deoxyribonukleinsyra RNA ribonukleinsyra

Nomenklatur för vanliga SNP-analyser Gör vi rätt?

TENTAMEN I STRUKTURBIOLOGI

Gener, genom och kromosomer , 6.6 och sid

Biologisk enfald. enheten i mångfalden. Anders Liljas Biokemi och Strukturbiologi

Tentamen i 2D1396 Bioinformatik, 2 juni 2006

Övning i bioinformatik

Fotografens öga. En analys av fotografiet enligt John Szarkowski

Tentamen i Cellbiologi med Biokemi

DNA-molekylen upptäcktes DNA - varken protein, kolhydrat eller lipid.

1. Typarter för den torra mon är lingon och renlav.

Rapport utfärdad av ackrediterat laboratorium. Report issued by Accredited Laboratory. Analysrapport ± 8% SS-EN ISO 13903: g/kg. 21.

Genetik II. Jessica Abbott

En bioinformatisk genjakt

Användandet av olika jämförelsemetoder för att upptäcka proteiner som har liknande tredimensionell struktur

KOMMENTARER TILL KAPITEL 7 OCH 8. Den centrala dogmen är gemensam för eukaryoter och prokaryoter.

Mikrobiologins tekniksprång Dr. Erik Nygren SP Food and Bioscience

DUGGA Molekylärbiologi T2 / VT p (G = 25 p)

Matris verktyget Q. Det svåra är att göra det enkelt!

STOCKHOLMS UNIVERSITET INSTITUTIONEN FÖR BIOLOGISK GRUNDUTBILDNING

Alternativ splicing: en process som medför att flera olika mrna-transkript bildas från individuella gener

Intervjuformulär. Datum: Namn: Sökt tjänst: Intervjuare:

Föreläsning 5. Stereokemi Kapitel 6

Personnummer. DUGGA Molekylärbiologi T3 / HT p (G = 28 p)

--LVKmDILLnGntVEELVtVVHKDKAHSIGKAIcERLKDSLPRQLfEIAIQAAIGSKIIAREtVKAYR >sp!q8n442!guf1_human-translation-factor-guf1,-mitochondrial-precursor-(ec-3.6.5

Delprov 3 Vetenskaplig artikel

Svar till övningstentafrågor i Biokemi, Basåret VT 2012

Eukaryot proteinexpression

Proteinkvalitet i fodersäd. Bengt Lundegårdh Global Organic Sweden AB

Evolution, del 2: Evolutionsprocesser och förändringar i det genetiska materialet. Jessica Abbott Forskare Evolutionär Ekologi

Tentamen i Molekylär Cellbiologi 9 p Namn: Personnummer: Plats nr: Inlämnad kl: ID kollad: Poäng: Betyg:

En samling fårskallar

Det gäller att vara tydlig!

Exam Molecular Bioinformatics X3 (1MB330) - 1 March, Page 1 of 6. Skriv svar på varje uppgift på separata blad. Lycka till!!

Organisk kemi / Biokemi. Livets kemi

APOPTOS Programmerad celldöd

Ägg till embryo Dugga Platsnummer VIKTIGT ATT DU FYLLER I OCH LÄMNAR IN! TEXTA TACK. Efternamn. Förnamn. Personnummer

Manual för Mötesplaneraren. Mötesplaneraren är framtagen av Samtrafiken på uppdrag av SÖT-samarbetet och tidförtåg.

Omtentamen Läkarutbildningen T1:B vårterminen 2006 Kodnr:

FINLANDS FÖRFATTNINGSSAMLING

Tentamen Molekylärbiologi T3 / HT VG = 66-83p G = 45-65p U = 0-44p. 1. Vad menas med att ett DNA-fragment har blunt ends?

Cell och molekylärbiologi (BL3008) Omtentamen CMB-II (11 hp) Kod: Personnummer: Plats nr: Inlämnad kl: ID kollad: Poäng: Betyg:

CELLKÄRNAN INNEHÅLL CELLKÄRNAN. cellkärnan

Felveckning och denaturering av proteiner. Niklas Dahrén

5. Transkriptionell reglering OBS! Långsam omställning!

LIAkalendern. Att söka en LIAplats är KRÄVANDE. Om du vill lyckas med att få LIA, måste du marknadsföra dig

INSTITUTIONEN FÖR BIOMEDICIN

Provet kommer att räknas igenom under vt16 på torsdag eftermiddagar ca Meddelande om sal och exakt tid anslås på min kontorsdörr (rum419).

Den framgångsrika arbetsplatsen

Transkript:

I. Flersekvensjämförelser, sekvensmotiv och profiler II. Fylogenetisk analys

I. Flersekvensjämförelser (multiple sequence alignments, MSA) Jämföra tre eller fler sekvenser samtidigt (homologer eller funktionellt länkade sekvenser) Vilken typ av information ger det oss? 1. Försök hitta den konserverade (bevarade) kärnsekvensen Spår av den ursprungliga sekvensen 2. Hitta ett sekvensmotiv som korrelerar med den funktionella länken.

Välj sekvenserna väl Om vi är ute efter ett konserverat motiv så måste alla sekvenserna vara homologer annars är resultatet meningslöst. Det kan ju inte finnas ett konserverat motiv om sekvenserna inte har ett gemensamt evolutionärt ursprung. Vilken resolution på sekvensvariationen är man ute efter?

Mammaliskt cytokrom b

Eukaryotiskt cytokrom b

Konserverade regioner i biologiska sekvenser domäner och motiv En domän är en biokemiskt definierad region i ett protein som kan ha en känd enzymatisk aktivitet eller struktur. Isolerade domäner kan oftast bilda självständiga strukturer: Kinasdomän DNA-bindande domän Ett motiv är endast bioinformatiskt definierat. DNA, RNA eller protein Biologisk relevans Evolutionärt konserverat

Sekvensmotiv - exempel DNA: Estrogen response element (AGGTCAnnnTGACCT) E. coli ori sekvens (245 bp) RNA: Kozak site, translation ( A / G CCACCAUGG) Poly-adenyleringssignal (AAUAAA) Protein Zinkfingermotiv (X 3 -Cys-X 2-4 -Cys-X 12 -His-X 3-4 -His-X 4 ) Faktor Xa klyvningsställe (Ile-Glu-Gly-Arg) CDK fosforyleringssignal (Ser-Pro) N-länkad glykosyleringssignal (Asn-X-Ser/Thr)

Att hitta sekvensmotiv in silico Från homologa sekvenser Vi förväntar oss att alla eller så gott som alla sekvenserna kommer att innehålla motivet Från funktionellt länkade sekvenser (1) en grupp proteiner som alla fosforyleras av ett visst kinas (fosforyleringssignal) (2) en grupp proteiner som förekommer inom en viss organell (lokaliseringssekvens) Vi förväntar oss att en signifikant andel av sekvenserna (som inte måste vara homologer!) kommer att innehålla et gemensamt motiv

OBS! Homologa sekvenser måste inte innehålla ett konserverat motiv! Kom ihåg: homologi betyder endast att sekvenserna har ett gemensamt evolutionärt ursprung. Sekvenserna kan ha förändrats till oigenkännlighet under tidens gång.

So you want to make a multiple sequence alignment. 1. Välj input sekvenserna och välj dem väl ( junk goes in, junk comes out ) 2. Välj MSA-program (ClustalW, T-Coffee, BlockMaker, MAFFT, Praline, MEME etc) 3. Gör en första jämförelse 4. Utvärdera den första jämförelsen trixa med parametrar tills du är nöjd 5. Visualisera resultatet på ett meningsfullt sätt 6. Använd resultatet på ett meningsfullt sätt

icke-konserverad region högt konserverad region (homologa regioner) delvis konserverad region (homologa regioner i en del av sekvenserna)

Hur kan vi förbättra jämförelsen? ta bort problematiska sekvenser (även fast de är homologer) och gör om analysen ta bort regioner som är mindre konserverade och gör om analysen

Localised multiple sequence alignments Lämpar sig för homologa sekvenser som inte har särskilt hög sekvensidentitet eller för sekvenser som endast har mindre regioner av sekvenshomologi. Protein som besitter homologa domäner Sekvensmotiv i DNA sekvenser som omges av icke-konserverad sekvens Flera program tillgängliga. BLOCKS database och BlockMaker för proteinsekvenser MEME för både DNA och proteinsekvenser Gibbs Motif Sampler för både DNA och proteinsekvenser

Exempel: MEME (Multiple Em for Motif Elicitation) Jag ville hitta konserverade motiv i promotorsekvenserna hos SOH1 genen i elva olika jästarter. S. cerevisiae S. mikatae S. paradoxus C. glabrata S. kudriavzevii Y. lipolytica icke-konserverad sekvens

Hur kan vi visualisera resultatet på ett informativt sätt? Vi måste urskilja de regioner i flersekvensjämförelsen som är högst konserverad Formatera flersekvensjämförelsen Definera och visualisera det konserverade sekvensmotivet

Formatera en flersekvensjämförelse H.sapiens 17 RFQLELEFVQCLANPNYLNF-LAQRGYFKDKAFVNYLKYLLYWKD-PEYAKYLKYP-QCLHMLELLQYEHFR 85 D.melanogaster 21 RWQIELEFVQCLSNPNYLNF-LAQRGFFKDQSFINYLKYLQYWKE-PDYAKYLMYP-MCLYFLDLLQYEHFR 89 C.elegans 10 RFEVECEFVQALANPNYLNF-LAQRGYFKEEYFVNYLKYLLYWKD-PQYARCLKFP-QCLHMLEALQSQQFR 78 T.solium 30 RFQIELEFVQSLGNPDYLTF-LAQQGCFDKPEFINYLSYLQYWKS-PSYSRFITYP-FCLHMLDLLQSPDFR 98 C.parvum 19 RFSLELEFVQCLSNPDYLQW-LSKEGYFEDESFVNYLKYLLYWCE-FPYVKYISYP-HCIKMLRLLQIEDFR 87 S.pombe 16 RFEIELEFVQMLSNPWYLNF-LAQHKYFEDEAFLQYLEYMEYWRE-PEYVKFIIYP-TCLHMLTLLKNPQFR 84 S.cerevisiae 22 RFEVELEFIQSLANIQYVTYLLTQQQIWKSPNFKNYLKYLEYWCN-PPYSQCIVYP-NCLFILKLLNG-FME 90 C.albicans 30 RWEIELEFVQSLSNIPYVNY-LAQNNYFNDENFINYLNYLQYWTQ-PEYSKFLVYP-NCLHILKLLQDENFR 98 P.falciparum 37 RFECELEFLQSLCNIDYIKH-LYENKYFNDYNFINYLKYLNYWRN-KPYIFYVHFP-ICLYVLDILNNNNTN 105 E.cuniculi 5 RFERELEFVQLLCNPDYLRW-LTREGHFESEEFRSYLRYLEYWRS-PEYSRFLTYP-QCLAVLEHLNSENIN 73 A.thaliana 31 RFLLELEFIQCLANPTYIHY-LAQNRYFEDEAFIGYLKYLQYWQR-PEYIKFIMYP-HCLYFLELLQNPNFR 99 M.grisea 33 RFEIELEFVQALGNPIYLNH-LAVNKVLSQPAFVAYLDYLQYWTR-PPYVKYLTYPGPTLRSLKLLQQEKFR 102 C.reinhartii 200 RFALELEFLQCLANPLYINW-LATKQYFDNPAFLNYLKYLQYWKQ-PAYAVHITYP-HCLFFLDLVQDADFR 268 G.intestinalis 10 RLQADLEFVHLLANLEYVQS-LLDAQYFEDESFRAYLRYLQYVRR-PEYSCYVKYP-RALYMLEKLTEPAFY 78 C.merolae 68 SFLEELAWVESLASPSYVAY-LCQMRRFDDVVAQRRLTTLQRWRQDPAYRQHVSQP-IALFFLEQLCSAEFR 137

Hur visualiserar man sekvensmotiv? Kan representeras i form av: konsensussekvenser regular expressions sekvenslogo positionsspecifika matriser (position weight matrix, PWM)

Konsensussekvenser representerar en flersekvensjämförelse i form av en enda sekvens innehåller den vanligaste nukleotiden eller aminosyran vid varje enskild position ibland kan man även specificera två nukleotider eller aminosyror om de är ungefär lika vanliga (t.ex. AG C / T GC T / A ) kan vara lik den ursprungliga sekvensen Alignment Sequence 1. ATAGTTA Sequence 2. ATTGTAA Sequence 3. ATT-TAA Sequence 4. ATAGTAC Sequence 5. ATAGTGA Consensus: ATAGTAA (OBS! I detta exempel är konsensussekvensen inte identisk med någon av inputsekvenserna.)

Regular expression Beskriver sekvensmotiv på ett enkelt sätt utan positionspecifika frekvenser Regular expressions kan användas direkt av sökalgoritmer för att hitta nya sekvenser som överensstämmer med motivet Position 2 and 3. vilken aminosyra som helst [G A S] X 2 T X [L V] Position 5. vilken aminosyra som helst Position 1. glycin, alanin eller serin Position 6. Leucin eller valin Position 4. treonin

Sequence logos Frekvensen av varje sekvenskaraktär visualiseras direkt med höjden på bokstaven Användbart när man analyserar ett stort antal sekvenser (> 50) Als peptide repeat (n = 473)

Nästa steg gör en profil Om vi nu har en representativ samling homologa sekvenser så kan vi uppskatta graden av sekvensvariation vid varje enskild position i ett sekvensmotiv. Med hjälp av denna information kan datorn konstruera en sekvensprofil från de positionsspecifika frekvenserna. Vi kan sedan använda sekvensprofilen för att hitta nya homologa sekvenser som matchar den profil vi har skapat.

Hur man söker med en profil/pssm Ett lätt exempel: leta efter EcoRI klyvningsställen (konsensus GAATTC) För enkelhetens skull så kan vi använda % frekvenserna direkt som en PSSM (se nedan): Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 Sekvenskarktär T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Sliding window -principen Vi sätter ett gränsvärde på 100 % identitet (dvs 6 perfekta träffar)

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Bingo! Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0

Profiler sammanfattning 1. Gör en position specific scoring matrix (PSSM) 2. Ange gränsvärdet för att hitta nya sekvenser. För högt så hittar vi inga nya sekvenser (känslighet) För lågt så plockar vi upp sekvenser som inte homologer (selektivitet) 3. Scanna sekvenserna med din profil. 4. Utveckla profilen med de nya sekvenserna du har hittat (vilket ger en ny PSSM) och finjustera gränsvärdet.

Varför är profiler bra att ha? Profiler är mycket bättre på att hitta avlägsna homologer än att använda en enskild sekvens (Exempel: proteiner) När du söker med en enstaka sekvens använder du dig av de vanliga substitutionmatriserna (PAM250, BLOSUM62) som baserar sig på stora dataset av icke-homolog sekvenser För varje ny homolog du hittar kan du lägga till den i profilen och göra den ännu mer känslig och selektiv. I bästa fall ska du hitta alla homologer utan att plocka upp icke-homologa sekvenser.

Profildatabaser Jämför en sekvens med alla bokförda profiler Proteinmotiv: Domäner, transmembranregioner, intracellulär lokalisering (TargetP, SignalP), proteolytiska klyvningsställen, fosforyleringsmotiv etc Pfam, Prosite, PRINTS, InterPro, NCBI Conserved Domain Database (CDD), ProDom DNA motiv Promotorer, enhancers, strukturella genomiska element, splicing sites, initieringssekvenser för transkription och translation (Ribosomal Binding Site, Kozac site) Eukaryotic Promoter Database, ConSite