I. Flersekvensjämförelser, sekvensmotiv och profiler II. Fylogenetisk analys
I. Flersekvensjämförelser (multiple sequence alignments, MSA) Jämföra tre eller fler sekvenser samtidigt (homologer eller funktionellt länkade sekvenser) Vilken typ av information ger det oss? 1. Försök hitta den konserverade (bevarade) kärnsekvensen Spår av den ursprungliga sekvensen 2. Hitta ett sekvensmotiv som korrelerar med den funktionella länken.
Välj sekvenserna väl Om vi är ute efter ett konserverat motiv så måste alla sekvenserna vara homologer annars är resultatet meningslöst. Det kan ju inte finnas ett konserverat motiv om sekvenserna inte har ett gemensamt evolutionärt ursprung. Vilken resolution på sekvensvariationen är man ute efter?
Mammaliskt cytokrom b
Eukaryotiskt cytokrom b
Konserverade regioner i biologiska sekvenser domäner och motiv En domän är en biokemiskt definierad region i ett protein som kan ha en känd enzymatisk aktivitet eller struktur. Isolerade domäner kan oftast bilda självständiga strukturer: Kinasdomän DNA-bindande domän Ett motiv är endast bioinformatiskt definierat. DNA, RNA eller protein Biologisk relevans Evolutionärt konserverat
Sekvensmotiv - exempel DNA: Estrogen response element (AGGTCAnnnTGACCT) E. coli ori sekvens (245 bp) RNA: Kozak site, translation ( A / G CCACCAUGG) Poly-adenyleringssignal (AAUAAA) Protein Zinkfingermotiv (X 3 -Cys-X 2-4 -Cys-X 12 -His-X 3-4 -His-X 4 ) Faktor Xa klyvningsställe (Ile-Glu-Gly-Arg) CDK fosforyleringssignal (Ser-Pro) N-länkad glykosyleringssignal (Asn-X-Ser/Thr)
Att hitta sekvensmotiv in silico Från homologa sekvenser Vi förväntar oss att alla eller så gott som alla sekvenserna kommer att innehålla motivet Från funktionellt länkade sekvenser (1) en grupp proteiner som alla fosforyleras av ett visst kinas (fosforyleringssignal) (2) en grupp proteiner som förekommer inom en viss organell (lokaliseringssekvens) Vi förväntar oss att en signifikant andel av sekvenserna (som inte måste vara homologer!) kommer att innehålla et gemensamt motiv
OBS! Homologa sekvenser måste inte innehålla ett konserverat motiv! Kom ihåg: homologi betyder endast att sekvenserna har ett gemensamt evolutionärt ursprung. Sekvenserna kan ha förändrats till oigenkännlighet under tidens gång.
So you want to make a multiple sequence alignment. 1. Välj input sekvenserna och välj dem väl ( junk goes in, junk comes out ) 2. Välj MSA-program (ClustalW, T-Coffee, BlockMaker, MAFFT, Praline, MEME etc) 3. Gör en första jämförelse 4. Utvärdera den första jämförelsen trixa med parametrar tills du är nöjd 5. Visualisera resultatet på ett meningsfullt sätt 6. Använd resultatet på ett meningsfullt sätt
icke-konserverad region högt konserverad region (homologa regioner) delvis konserverad region (homologa regioner i en del av sekvenserna)
Hur kan vi förbättra jämförelsen? ta bort problematiska sekvenser (även fast de är homologer) och gör om analysen ta bort regioner som är mindre konserverade och gör om analysen
Localised multiple sequence alignments Lämpar sig för homologa sekvenser som inte har särskilt hög sekvensidentitet eller för sekvenser som endast har mindre regioner av sekvenshomologi. Protein som besitter homologa domäner Sekvensmotiv i DNA sekvenser som omges av icke-konserverad sekvens Flera program tillgängliga. BLOCKS database och BlockMaker för proteinsekvenser MEME för både DNA och proteinsekvenser Gibbs Motif Sampler för både DNA och proteinsekvenser
Exempel: MEME (Multiple Em for Motif Elicitation) Jag ville hitta konserverade motiv i promotorsekvenserna hos SOH1 genen i elva olika jästarter. S. cerevisiae S. mikatae S. paradoxus C. glabrata S. kudriavzevii Y. lipolytica icke-konserverad sekvens
Hur kan vi visualisera resultatet på ett informativt sätt? Vi måste urskilja de regioner i flersekvensjämförelsen som är högst konserverad Formatera flersekvensjämförelsen Definera och visualisera det konserverade sekvensmotivet
Formatera en flersekvensjämförelse H.sapiens 17 RFQLELEFVQCLANPNYLNF-LAQRGYFKDKAFVNYLKYLLYWKD-PEYAKYLKYP-QCLHMLELLQYEHFR 85 D.melanogaster 21 RWQIELEFVQCLSNPNYLNF-LAQRGFFKDQSFINYLKYLQYWKE-PDYAKYLMYP-MCLYFLDLLQYEHFR 89 C.elegans 10 RFEVECEFVQALANPNYLNF-LAQRGYFKEEYFVNYLKYLLYWKD-PQYARCLKFP-QCLHMLEALQSQQFR 78 T.solium 30 RFQIELEFVQSLGNPDYLTF-LAQQGCFDKPEFINYLSYLQYWKS-PSYSRFITYP-FCLHMLDLLQSPDFR 98 C.parvum 19 RFSLELEFVQCLSNPDYLQW-LSKEGYFEDESFVNYLKYLLYWCE-FPYVKYISYP-HCIKMLRLLQIEDFR 87 S.pombe 16 RFEIELEFVQMLSNPWYLNF-LAQHKYFEDEAFLQYLEYMEYWRE-PEYVKFIIYP-TCLHMLTLLKNPQFR 84 S.cerevisiae 22 RFEVELEFIQSLANIQYVTYLLTQQQIWKSPNFKNYLKYLEYWCN-PPYSQCIVYP-NCLFILKLLNG-FME 90 C.albicans 30 RWEIELEFVQSLSNIPYVNY-LAQNNYFNDENFINYLNYLQYWTQ-PEYSKFLVYP-NCLHILKLLQDENFR 98 P.falciparum 37 RFECELEFLQSLCNIDYIKH-LYENKYFNDYNFINYLKYLNYWRN-KPYIFYVHFP-ICLYVLDILNNNNTN 105 E.cuniculi 5 RFERELEFVQLLCNPDYLRW-LTREGHFESEEFRSYLRYLEYWRS-PEYSRFLTYP-QCLAVLEHLNSENIN 73 A.thaliana 31 RFLLELEFIQCLANPTYIHY-LAQNRYFEDEAFIGYLKYLQYWQR-PEYIKFIMYP-HCLYFLELLQNPNFR 99 M.grisea 33 RFEIELEFVQALGNPIYLNH-LAVNKVLSQPAFVAYLDYLQYWTR-PPYVKYLTYPGPTLRSLKLLQQEKFR 102 C.reinhartii 200 RFALELEFLQCLANPLYINW-LATKQYFDNPAFLNYLKYLQYWKQ-PAYAVHITYP-HCLFFLDLVQDADFR 268 G.intestinalis 10 RLQADLEFVHLLANLEYVQS-LLDAQYFEDESFRAYLRYLQYVRR-PEYSCYVKYP-RALYMLEKLTEPAFY 78 C.merolae 68 SFLEELAWVESLASPSYVAY-LCQMRRFDDVVAQRRLTTLQRWRQDPAYRQHVSQP-IALFFLEQLCSAEFR 137
Hur visualiserar man sekvensmotiv? Kan representeras i form av: konsensussekvenser regular expressions sekvenslogo positionsspecifika matriser (position weight matrix, PWM)
Konsensussekvenser representerar en flersekvensjämförelse i form av en enda sekvens innehåller den vanligaste nukleotiden eller aminosyran vid varje enskild position ibland kan man även specificera två nukleotider eller aminosyror om de är ungefär lika vanliga (t.ex. AG C / T GC T / A ) kan vara lik den ursprungliga sekvensen Alignment Sequence 1. ATAGTTA Sequence 2. ATTGTAA Sequence 3. ATT-TAA Sequence 4. ATAGTAC Sequence 5. ATAGTGA Consensus: ATAGTAA (OBS! I detta exempel är konsensussekvensen inte identisk med någon av inputsekvenserna.)
Regular expression Beskriver sekvensmotiv på ett enkelt sätt utan positionspecifika frekvenser Regular expressions kan användas direkt av sökalgoritmer för att hitta nya sekvenser som överensstämmer med motivet Position 2 and 3. vilken aminosyra som helst [G A S] X 2 T X [L V] Position 5. vilken aminosyra som helst Position 1. glycin, alanin eller serin Position 6. Leucin eller valin Position 4. treonin
Sequence logos Frekvensen av varje sekvenskaraktär visualiseras direkt med höjden på bokstaven Användbart när man analyserar ett stort antal sekvenser (> 50) Als peptide repeat (n = 473)
Nästa steg gör en profil Om vi nu har en representativ samling homologa sekvenser så kan vi uppskatta graden av sekvensvariation vid varje enskild position i ett sekvensmotiv. Med hjälp av denna information kan datorn konstruera en sekvensprofil från de positionsspecifika frekvenserna. Vi kan sedan använda sekvensprofilen för att hitta nya homologa sekvenser som matchar den profil vi har skapat.
Hur man söker med en profil/pssm Ett lätt exempel: leta efter EcoRI klyvningsställen (konsensus GAATTC) För enkelhetens skull så kan vi använda % frekvenserna direkt som en PSSM (se nedan): Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 Sekvenskarktär T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Sliding window -principen Vi sätter ett gränsvärde på 100 % identitet (dvs 6 perfekta träffar)
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Eco RI consensus GAATTC TAGTGTTATAGTAAAGAATTCGT Bingo! Position 1 2 3 4 5 6 G 100 0 0 0 0 0 A 0 100 100 0 0 0 T 0 0 0 100 100 0 C 0 0 0 0 0 100-0 0 0 0 0 0
Profiler sammanfattning 1. Gör en position specific scoring matrix (PSSM) 2. Ange gränsvärdet för att hitta nya sekvenser. För högt så hittar vi inga nya sekvenser (känslighet) För lågt så plockar vi upp sekvenser som inte homologer (selektivitet) 3. Scanna sekvenserna med din profil. 4. Utveckla profilen med de nya sekvenserna du har hittat (vilket ger en ny PSSM) och finjustera gränsvärdet.
Varför är profiler bra att ha? Profiler är mycket bättre på att hitta avlägsna homologer än att använda en enskild sekvens (Exempel: proteiner) När du söker med en enstaka sekvens använder du dig av de vanliga substitutionmatriserna (PAM250, BLOSUM62) som baserar sig på stora dataset av icke-homolog sekvenser För varje ny homolog du hittar kan du lägga till den i profilen och göra den ännu mer känslig och selektiv. I bästa fall ska du hitta alla homologer utan att plocka upp icke-homologa sekvenser.
Profildatabaser Jämför en sekvens med alla bokförda profiler Proteinmotiv: Domäner, transmembranregioner, intracellulär lokalisering (TargetP, SignalP), proteolytiska klyvningsställen, fosforyleringsmotiv etc Pfam, Prosite, PRINTS, InterPro, NCBI Conserved Domain Database (CDD), ProDom DNA motiv Promotorer, enhancers, strukturella genomiska element, splicing sites, initieringssekvenser för transkription och translation (Ribosomal Binding Site, Kozac site) Eukaryotic Promoter Database, ConSite