Alinhamentos de sequências e Busca de Similaridade

Relevanta dokument
Alinhamentos de sequências e Busca de Similaridade

Matemática A Extensivo V. 3

MATERIAL SUPLEMENTAR

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Immigration Bank. Bank - Allmänt. Bank - Öppna ett bankkonto. Posso sacar dinheiro em [país] sem ter que pagar taxas?

Biochemistry 201 Advanced Molecular Biology (

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Logi. Logi - Hitta boende. Logi - Boka. Fråga om vägen till olika former av boenden

Viajar Circulando. Circulando - Localização. Sem saber onde você está. Perguntando por uma locação específica no mapa

Física D Semi-Extensivo V. 2

Resa Logi. Logi - Hitta boende. Logi - Boka. Fråga om vägen till olika former av boenden

Immigration Studera. Studera - Universitet. Ange att du vill anmäla dig. Ange att du vill anmäla dig till en kurs. Kurs.

Objetivos. Princípios da Epidemiologia. Bibliografia básica: Bibliografia básica: Epidemiologia

Negócios Carta. Carta - Endereço

Var kan jag hitta formuläret för? Onde posso encontrar o formulário para? Fråga var du kan få ett formulär

Var kan jag hitta formuläret för? Onde posso encontrar o formulário para? Fråga var du kan få ett formulär

Inscrição Carta de Apresentação Motivacional

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ

Huvudansökan, kandidatprogrammet i språk: portugisiska

Resa Att ta sig runt. Att ta sig runt - Platser. Du vet inte var du är. Be om att bli visad en viss plats på en karta. Fråga om en viss servicepunkt

Da Transformada de Distância à Dimensão Fractal: Uma Abordagem em Hardware. Maximiliam Luppe 12 / 2015

Valmor Burkhardt Junior. Orientador: Prof. Wilson Pedro Carli

300 Compact

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Äta ute. Äta ute - Vid entrén. Äta ute - Beställa mat

Resa Äta ute. Äta ute - Vid entrén. Äta ute - Beställa mat

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Ligia Aparecida Inhan Matos. Renata Lèbre La Rovere. Resumo: Abstract: Keywords: Palavras-chave:

Resa Att ta sig runt. Att ta sig runt - Platser. Du vet inte var du är. Be om att bli visad en viss plats på en karta. Fråga om en viss servicepunkt

Resa Hälsa. Hälsa - Nödsituation. Hälsa - Hos doktorn. Be om att bli förd till sjukhuset. Be om omedelbar medicinsk vård

Personligt Lyckönskningar

Personligt Lyckönskningar

DE Gebrauchsanweisung en Instructions for use fr Instructions d utilisation es Manual de instrucciones it Istruzioni per l uso dk Brugsvejledning nl

Personligt Brev. Brev - Adress. Mr. N. Summerbee Tyres of Manhattan 335 Main Street New York NY 92926

Vad heter antagligen på spanska? Vad heter under (om tid) på spanska? Vad heter plötsligt på spanska? Vad heter mer på spanska?

Viajar Circulando. Circulando - Localização. Sem saber onde você está. Perguntando por uma locação específica no mapa

Mr. Adam Smith Smith's Plastics 8 Crossfield Road Selly Oak Birmingham West Midlands B29 1WQ

Instruções de operação Instrucciones de funcionamiento Bruksanvisning Betjeningsvejledning

ARBETSBLAD KORTFILMSKLUBBEN SPANSKA. El corredor (lätt)

Resa Att ta sig runt. Att ta sig runt - Platser. Du vet inte var du är. Be om att bli visad en viss plats på en karta. Fråga om en viss servicepunkt

PT-054. Manual de instruções

Is it worth to parameterize sequence alignment with an explicit evolutionary model?

ARBETSBLAD KORTFILMSKLUBBEN SPANSKA. 16 semanas (lätt)

ARBETSBLAD KORTFILMSKLUBBEN SPANSKA. La orquídea (lätt) Ordkunskap

Kabelhantering. Kabelflänsplattorna kännetecknas av:

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Millennium Ecosystem Assessment

Travel Health. Health - Emergency. Health - At the Doctor's. Asking to be brought to the hospital. Asking for immediate medical care

Room E3607 Protein bioinformatics Protein Bioinformatics. Computer lab Tuesday, May 17, 2005 Sean Prigge Jonathan Pevsner Ingo Ruczinski

Mapping sequence reads & Calling variants

Resa Hälsa. Hälsa - Nödsituation. Hälsa - Hos doktorn. Be om att bli förd till sjukhuset. Be om omedelbar medicinsk vård

Viajar Acomodações. Acomodações - Procurando. Acomodações - Reservando. Pedindo por orientações para uma acomodação

Ligas internas. Completar todos los datos de los jugadores en letras mayúsculas. Imprescindible datos completos del delegado, incluido su .

ARBETSBLAD. La bien querida. Una canción, un artista. Palabras. todo el mundo 1(6)

High Efficiency System 6 Sistema de Alta Eficiência 6

PT User manual 3. PL Brugervejledning 77. CS Manuale utente 97. SV Mode d emploi 21. EL Användarhandbok 37. SK Gebruiksaanwijzing 115

Viaggi Salute. Salute - Emergenza. Salute - Dal dottore. Chiedere di essere portati in ospedale. Chiedere cure mediche immediate.

Resa Äta ute. Äta ute - Vid entrén. Äta ute - Beställa mat

Universidad de Lund Español 1. Studiekurs: SPAB01. Namn: Mailadress: Personnummer: Total poäng: / /12/12

Micro Hi-Fi System. Register your product and get support at

Auswandern Studieren. Studieren - Universität. Angeben, dass man sich einschreiben will

ARBETSBLAD: QUÉ PASA?

ARBETSBLAD. KORTFILMSKLUBBEN SPANSKA Rocco (lätt)

REHABILITERINGS- PROTOKOLL

Caro Senhor, Caro(a) Senhor(a), Prezado(a) Senhor(a),

un comportamiento (beteende) así. no hace nada para ayudar.

Joana Reina Maia e Silva Porto, Outubro de 2011

Prueba de inglés. CAPÍTULO siete

I. Flersekvensjämförelser, sekvensmotiv och profiler. II. Fylogenetisk analys

Reizen De weg vinden De weg vinden - Locatie Portugees Zweeds Jag har gått vilse. Kan du visa mig var det är på kartan? Var kan jag hitta?

Micro Hi-Fi System. Register your product and get support at

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Um estudo nas empresas da BM & FBovespa

Molecular Biology Primer

los canis/merdellones/las bakalas ungdomsgrupp som bär guldkedjor, korta kjolar, tajta kläder mm


Kunskapsläget på kärnavfallsområdet 2012 (SOU 2012:7) : långsiktig säkerhet, haverier och global utblick PDF ladda ner

ARBETSBLAD KORTFILMSKLUBBEN SPANSKA. Amores perros (lätt)

Statistical modelling and alignment of protein sequences

BRUKSANVISNING BALLONGLAMPA VID BYGGARBETEN. ballong. stativ. Ballast

Hidden Markov Models and other Multiple-sequence Profile approaches

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

En bioinformatisk genjakt

Viajar Hospedaje. Hospedaje - Ubicación. Hospedaje - Reservar. Var hittar jag? Para preguntar direcciones hacia el lugar donde te hospedas.

MADE IN SWEDEN SIMSON KOMPAKT

EFICIÊNCIA DOS GASTOS MUNICIPAIS EM EDUCAÇÃO NO NORDESTE BRASILEIRO. Efficiency of Municipal Expenditure in Education in the Brazilian Northeast

ASSEMBLY MONTAGE MONTAJE MONTAGE MONTAGGIO AFWERKING MONTAGEM MONTAŻ SZERELÉS СБОРКА MONTARE MONTÁŽ MONTÁŽ MONTERING МОНТИРАНЕ MONTAJ МОНТУВАННЯ

INFÖR PROV 3 VT14 Capítulo 11 Qué hacéis?

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning

4. Dialogövning Läroplanen säger: Olika former av samtal, dialoger och intervjuer.

Bestämning av antalet aktiva CYP2D6 genkopior (CNV) med Pyrosequencing. Anna-Lena Zackrisson PhD.

Kroppen i psykoterapi : med en introduktion till andningsmetoden Energy Flow Breathing PDF ladda ner

Animalitos Ejercicio 1 Ejercicio 2 la cabeza, el corazón, la lengua la cola la pata

Tentamen i 2D1396 Bioinformatik, 2 juni 2006

LISTA CONTRIBUABILILOR-PERSOANE JURIDICE CARE INREGISTREAZA OBLIGATII RESTANTE LA BUGETUL LOCAL LA DATA DE Denumire debitorului

Resa Allmänt. Allmänt - Grundläggande. Allmänt - Konversation. Fråga om hjälp. Fråga om en person talar engelska

Transkript:

Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e Humanidades - USP

Eu não vim para explicar, eu vim para confundir Chacrinha

Alinhamentos veremos em breve Primeiro: busca de similaridade

Contexto http://www.ekac.org/gene.html http://www.fuzzco.com/news/wp-content/uploads/2007/11/genome.jpg

Contexto

Buscas por sequências ( biológico (o sentido Busca de identidade: SABER o que é, onde está, etc. Busca de similaridade: INFERIR o que é

Busca de identidade Comparar 2 sequências para saber se: são iguais possuem uma subsequência em comum

Exemplo 1 Localização de subsequência sequência genoma

Exemplo 1 Localização de subsequência sequência genoma

Exemplo 1 Localização de subsequência sequência BUSCA POR IDENTIDADE genoma

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas ( idêntica (procuro por ela, ou seja, por uma sequência

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas ( idêntica (procuro por ela, ou seja, por uma sequência BUSCA POR IDENTIDADE

Exemplo 3 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRP VPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRT RAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILK EIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRV PEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDM TGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPL SQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAA VTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMER LRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSP GDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVR CIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas ( idêntica (procuro por ela, ou seja, por uma sequência E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR?

Inferência de função a partir de similaridade

Inferência de função a partir de similaridade

Inferência de função a partir de similaridade

Nem sempre funciona...

2 sequências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Processo evolutivo

Homologia, paralogia e ortologia Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum Ortologia Paralogia

Ortologia: homologia por especiação

Paralogia: homologia por duplicação

Homologia, paralogia e ortologia Paralogia Ortologia

Aplicações de busca de similaridade?

Aplicações de busca de similaridade Predição de genes Predição de estrutura de proteínas de RNA/DNA Inferência de árvores filogenéticas Busca de polimorfismos / marcadores

Identidade, similaridade e homologia CUIDADO: Se duas (ou mais) sequências são parecidas: elas podem ser homólogas elas podem ter funções similares elas podem ter a mesma estrutura

Como encontrar identidade e similaridade?

Como encontrar identidade e similaridade? ALINHAMENTOS!

Alinhamentos de 2 sequências parecidasmaisosequências 2 Deixar possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME

Alinhamentos de 2 sequências parecidasmaisosequências 2 Deixar possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME---

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Alinhamentos permitem comparações entre as sequências Identidade Similaridade

ROSAVERMELHA AMOROSOVERME ( 1/12 ) Identidade: 8% ---ROSAVERMELHA AMOROSOVERME--- ( 8/15 ) Identidade: 53%

Sistema de scores ( 2 + (ex: Pontos para match ( 1 - (ex: Penalidades para mismatch Penalidades para gap ( 3 - (ex: abertura ( 1 - (ex: extensão

ROSAVERMELHA AMOROSOVERME ( 1/12 ) Identidade: 8% SCORE:??? ---ROSAVERMELHA AMOROSOVERME--- ( 8/15 ) Identidade: 53% SCORE:???

ROSAVERMELHA AMOROSOVERME ( 1/12 ) Identidade: 8% SCORE: -9 ---ROSAVERMELHA AMOROSOVERME--- ( 8/15 ) Identidade: 53% SCORE:???

ROSAVERMELHA AMOROSOVERME ( 1/12 ) Identidade: 8% SCORE: -9 ---ROSAVERMELHA AMOROSOVERME--- ( 8/15 ) Identidade: 53% SCORE: +3

ROSAVERMELHA AMOROSOVERME ( 1/12 ) Identidade: 8% SCORE: -9 ---ROSAVERMELHA AMOROSOVERME--- ( 8/15 ) Identidade: 53% SCORE: +3 Para um dado sistema de score, calculo o alinhamento de maior score (alinhamento ótimo) PROBLEMA DE OTIMIZAÇÃO

Similaridade entre os aminoácidos

Identidade, similaridade e homologia Tipo de Medida Sentido Identidade Quantitativa quantos idênticos Similaridade Quantitativa quantos parecidos Homologia QUALITATIVA TEM ou NÃO TEM um ancestral comum

Matrizes de score ( aa (matrizes de substituição de Matrizes 20x20 Algumas matrizes: PAMs BLOSUMs

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1

Matrizes de score ( aa (matrizes de substitição de Matrizes 20x20 Algumas matrizes: PAMs BLOSUMs Também pode usar matrizes de nucleotídeos...

Matrizes de score ( aa (matrizes de substitição de Matrizes 20x20 Algumas matrizes: PAMs BLOSUMs Veremos sobre essas matrizes mais adiante... Também pode usar matrizes de nucleotídeos...

Alinhamentos Pairwise: 2 sequências Múltiplo: mais de 2 sequências

Tipos de alinhamentos Global Semi-global Local

Alinhamento global QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME---

Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir ( secundária estrutura

Estrutura 3D de proteínas

Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir ( secundária estrutura

Alinhamento múltiplo

Alinhamento global Outras aplicações Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos Identificação de domínios proteicos mais conservados Identificação de isoformas Construção de árvores filogenéticas

( SNPs ) Helicases humanas

( domínios ) Várias helicases

( domínios ) Várias helicases

Identificação de isoformas

Identificação de isoformas

Alinhamento pairwise global Algoritmo Exato: Needleman-Wunsch (pairwise) Programas: ( EMBOSS ) needle stretcher (EMBOSS) (demora mais, mas ( memória economiza FASTA

Alinhamento múltiplo (global) Ferramentas normalmente usadas NÃO SÃO EXATAS! Necessita alguma edição manual Parece não haver um consistentemente melhor que todos

Alinhamento múltiplo (global) Algumas ferramentas: ClustalW / ClustalX T-Coffee Muscle

Outra aplicação Criação de modelos e identificação de RNAs não codificantes (ou outros elementos) com estrutura secundária Ex: micrornas

Alinhamento estrutural

Alinhamento semi-global ---ROSAVERMELHA AMOROSOVERME---

Alinhamento semi-global Aplicação: montagem de genomas!

Sequenciamento shot-gun

Alinhamento semi-global Aplicação: montagem de genomas!

Alinhamento local QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME--- QUER QUER ROSAVERME ROSOVERME

Alinhamento local Aplicações: Encontrar um gene em um genoma sequência genoma

Alinhamento local Aplicações: Identificar possíveis homólogos em um banco de dados MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQ RKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTIT DLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCS APLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAA HTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLE WVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELF LLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGL TSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNM PARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMIL NLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVN GLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTV VKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGL RARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACA MSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNF GLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Alinhamento Local Algoritmo Smith-Waterman Programas ( WU BLAST (NCBI / ( localização BLAT (mais preciso bom para ( exato water (EMBOSS - matcher (demora mais, mas economiza memória - ( exato cross_match (swat) bom para mascaramento FASTA

BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

( W )BLASTdo Palavras MLIIKRDELVISWASHERE MLI LII IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE sequência query todas as palavras de tamanho 3 com sobreposição

( W )BLASTdo Palavras Valores default para aminoácidos e para nucleotídeos CUIDADO!!!!! Veja se isso não é muito para o seu caso!

Formato FASTA >Identificador da sequência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor...

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor...... melhor!!!!

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Significância de scores E-value é um número real não negativo Quanto menor...... melhor!!!! E-value depende de... E(S) = Kmne - S... por isso não existe número mágico

Programas standalone Programas como Blast, BLAT e muuuuitos outros: via web server standalone (linha de comando) Perl scripts!!!! NCBI x WU BLAST netblast: linha de comando, mas executa remotamente

BLAT Blast Like Alignment Tool Mais rápido e mais preciso (para ( similares sequências altamente Aplicação: mapeamento de sequências ( transcritos (ex: Mantém um índice de todo o banco em ( k-mers memória (non-overlapping

SIM4 e outros Para alinhar regiões sequências em nucleotídeos de regiões codificantes (alinhamento de códons)

Cuidado com anotações erradas!!! Cuidado com bancos não curados

Voltando ao sistema de score... Match/mismatch pode ser substituído por ( nucleotídeos ) uma matriz 4x4 ( aminoácidos ) uma matriz 20x20

Similaridade entre os aminoácidos

Matrizes de score ( substituição (matrizes de

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1

Matrizes de score ( substituição (matrizes de q ij : probabilidade do aminoácido i ser substituído pelo aminoácido j p i : probabilidade do aminoácido i m ij = log (q ij / p i p j ) = m ij

Matrizes de score ( substituição (matrizes de q ij : probabilidade do aminoácido i ser substituído pelo aminoácido j p i : probabilidade do aminoácido i m ij = log (q ij / p i p j ) = m ij

Matrizes de score ( substituição (matrizes de q ij : probabilidade do aminoácido i ser substituído pelo aminoácido j p i : probabilidade do aminoácido i m ij = 1/ log (q ij / p i p j ) = m ij

Matrizes de score ( substitição (matrizes de Como achar q ij, p i e p j? Algumas matrizes: PAMs BLOSUMs

Matrizes PAM de aminoácidos Point Accepted Mutation Dayhoff, 1978 Processo: Alinhamento de conjuntos de sequências relacionadas ( id 85%) Construção de árvores filogenéticas Cálculo da frequência de substituição de cada par de aminoácido Normalização das frequências: 1% de mudança ~ 50 ( PAM1 ) milhões de anos

Matrizes PAM de aminoácidos Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A?, e então? D Extrapolação: PAM2 = PAM1 x PAM1 PAMy = PAM1 x PAM1 x... x PAM1 PAM120: 40% de identidade PAM250: 20% de identidade

Diagonal PAM250 Hidrofóbicos Hidrofílicos

Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram sequenciadas desde 78...

Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 1992 Alinhamentos de blocos de vários grupos de proteínas ( BLOCKS relacionadas (banco de dados Cálculo de frequência de substituição de cada par de aminoácido BLOSUMx: blocos de sequências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4-1 -2-2 0-1 -1 0-2 -1-1 -1-1 -2-1 1 0-3 -2 0-2 -1 0-4 R -1 5 0-2 -3 1 0-2 0-3 -2 2-1 -3-2 -1-1 -3-2 -3-1 0-1 -4 N -2 0 6 1-3 0 0 0 1-3 -3 0-2 -3-2 1 0-4 -2-3 3 0-1 -4 D -2-2 1 6-3 0 2-1 -1-3 -4-1 -3-3 -1 0-1 -4-3 -3 4 1-1 -4 C 0-3 -3-3 9-3 -4-3 -3-1 -1-3 -1-2 -3-1 -1-2 -2-1 -3-3 -2-4 Q -1 1 0 0-3 5 2-2 0-3 -2 1 0-3 -1 0-1 -2-1 -2 0 3-1 -4 E -1 0 0 2-4 2 5-2 0-3 -3 1-2 -3-1 0-1 -3-2 -2 1 4-1 -4 G 0-2 0-1 -3-2 -2 6-2 -4-4 -2-3 -3-2 0-2 -2-3 -3-1 -2-1 -4 H -2 0 1-1 -3 0 0-2 8-3 -3-1 -2-1 -2-1 -2-2 2-3 0 0-1 -4 I -1-3 -3-3 -1-3 -3-4 -3 4 2-3 1 0-3 -2-1 -3-1 3-3 -3-1 -4 L -1-2 -3-4 -1-2 -3-4 -3 2 4-2 2 0-3 -2-1 -2-1 1-4 -3-1 -4 K -1 2 0-1 -3 1 1-2 -1-3 -2 5-1 -3-1 0-1 -3-2 -2 0 1-1 -4 M -1-1 -2-3 -1 0-2 -3-2 1 2-1 5 0-2 -1-1 -1-1 1-3 -1-1 -4 F -2-3 -3-3 -2-3 -3-3 -1 0 0-3 0 6-4 -2-2 1 3-1 -3-3 -1-4 P -1-2 -2-1 -3-1 -1-2 -2-3 -3-1 -2-4 7-1 -1-4 -3-2 -2-1 -2-4 S 1-1 1 0-1 0 0 0-1 -2-2 0-1 -2-1 4 1-3 -2-2 0 0 0-4 T 0-1 0-1 -1-1 -1-2 -2-1 -1-1 -1-2 -1 1 5-2 -2 0-1 -1 0-4 W -3-3 -4-4 -2-2 -3-2 -2-3 -2-3 -1 1-4 -3-2 11 2-3 -4-3 -2-4 Y -2-2 -2-3 -2-1 -2-3 2-1 -1-2 -1 3-3 -2-2 2 7-1 -3-2 -1-4 V 0-3 -3-3 -1-2 -2-3 -3 3 1-2 1-1 -2-2 0-3 -1 4-3 -2-1 -4 B -2-1 3 4-3 0 1-1 0-3 -4 0-3 -3-2 0-1 -4-3 -3 4 1-1 -4 Z -1 0 0 1-3 3 4-2 0-3 -3 1-1 -3-1 0-1 -3-2 -2 1 4-1 -4 X 0-1 -1-1 -2-1 -1-1 -1-1 -1-1 -1-1 -2 0 0-2 -1-1 -1-1 -1-4 * -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4-4 -4 1

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs mais altas BLOSUMs mais baixas

Papel dos gaps Inserções / deleções MUITO ALTAS MUITO BAIXAS GLOBAL Inibir trechos de gap alinhamentos ruins (muitos mismatches) Muitos gaps espalhados pelo alinhamento (alinhamento ruim) LOCAL Inibir trechos de gap poucos blocos alinhados Muitos gaps espalhados pelo alinhamento (alinhamento ruim e possivelmente maior do que deveria)

Referências Básico: O'Reilly - http://www.oreilly.com/catalog/bioskills/ Caprichado (geral): Mount - http://www.bioinformaticsonline.org/ Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998. BLAST: http://www.oreilly.com/catalog/blast/