Tentamen i 2D1396 Bioinformatik, 11 mars 2006 Kursansvarig: Lars Arvestad Inga hjälpmedel förutom skrivmedel är tillåtna. Skriv tydligt! Skriv bara på en sida av pappret och behandla bara en uppgift per pappersblad. Ge dina svar tydliga motiveringar. Lämna plats för kommentarer vid rättning. För godkänt krävs 15 poäng, 20 poäng ger betyg 4, och vid 25 poäng ges betyg 5. Lösningsförslag kommer att hittas på kursens hemsida. Resultaten anslås bredvid huvudingången till SBC:s korridor. Lycka till! No aids beyond writing equipment are accepted. Write clearly! Please use only one side of each paper and don t address more than one question per page. Justify your answers! Leave room for comments during grading. A passing grade is awarded at 15 points, 20 points are required for grade 4, and 25 points for grade 5. Suggested solutions will be available at the course web page. Exam results will be posted by SBC s main entrance. Good luck! Del 1 1. Figur 1 visar ett enkelt orotat fylogenetiskt träd. Hur skriver man det trädet i Newick-format? (2p) Figure 1 shows a simple unrooted phylogenetic tree. How do you write that tree in Newick format? A B C G F E D Figur 1: A simple unrooted phylogenetic tree. Var god börja nästa uppgift på nytt papper. Please start next question on a new paper. 2. (a) Beskriv prokaryot och eukaryot genstruktur. (2p) (b) Beskriv vilka egenskaper gensekvenser har som gör att ett datorprogram kan hitta dem så bra som de gör. Förklara också varför det ändå är svårt att göra datoriserad genprediktion och vilka misstag som kan göras. (3p) (a) Describe prokaryote and eukaryote gene structure. (b) Describe the gene sequence properties that make it possible for a computer program, to a fair extent, to find genes. Explain also why computational gene prediction is considered difficult and what kind of mistakes typically occur. 3. (a) Vad är det som gör att PSI-Blast har större känslighet, d.v.s. kan hitta mer avlägsna homologer, än Blast? (2p) (b) Hur kan en databas över protein- eller domän-familjer, som t.ex. SCOP, hjälpa dig att hitta avlägsna homologer? (1p) 1
(a) What makes PSI-Blast more sensitive, i.e. can find more distant homologs, than Blast? (b) How can a database of protein or domain families, such as SCOP, help you find distant homologs? 4. Vilka egenskaper har sekvenser från transmembranproteiner som gör att vi ofta med hjälp av ett datorprogram kan (a) urskilja var transmembranregionerna ligger? (1p) (b) avgöra topologin, dvs vilka delar som ligger i cytoplasm? (1p) What properties of sequences from transmembrane proteins make it often possible to computationally (a) distinguish where transmembrane regions are? (b) determine the topology, i.e., what parts of the protein are located in the cytoplasm? 5. Ni såg i laboration 3 att programmet HMMSEARCH, som letar domäner i proteinsekvenser, ger både score och E-värde för en träff. Antag nu att vi inte kan lita på de E-värden som ges och att vi därför skulle vilja komplettera med ett Z-värde för att avgöra hur väl en sekvens passar in i en given domänfamilj. Beskriv nu, steg för steg, hur man borde gå tillväga för att beräkna detta Z-värde. (3p) You saw i lab 3 that the program HMMSEARCH, which finds domains in protein sequences, returns both a score and an E value for a hit. Suppose that we cannot trust those E values and that we would like to complement with a Z value to determine how well a sequence matches with a given domain family. Describe how to compute the Z value, as if you talking to a programmer whom would help you. Del 2 6. Bakgrund: När man linjerar proteinsekvenser använder man vanligen så kallad affin gap-kostnad, d.v.s. score för att ett gap av längd l är s open +l s extend. Om s open = 10 och s extend = 1 kommer score för tre indels att bli -13. Det visar sig att affine gap-score motsvarar en probabilistisk modell där gap dyker upp med en viss sannolikhet p g och längden på gapet är geometriskt fördelad med parametern p e. Sannolikheten för ett gap av längd l blir i denna modell p g p l e (1 p e). Lägg märke till att om man logaritmerar detta uttryck kan vi identifiera s open = log(p g (1 p e )) och s extend = log(p e ). Benner, Cohen, och Gonnet visade redan 1993 att denna modell av gap stämmer dåligt överens med verkligheten och att man istället borde använda en modell där p g är en funktion av det evolutionära avståndet mellan sekvenserna, och själva gap-längden följer en Zipf-fördelning så att sannolikheten för längd l är αl β, för två parametrar α och β. Märk att gaplängden alltså är oberoende av avståndet mellan sekvenserna. Frågeställning: Om du skulle göra om den här undersökningen idag, nu när vi har betydligt mer fler kända proteinsekvenser än 1993, hur skulle du göra då? Vilken databas skulle du välja och varför? Föreslå en ansats som (a) verifierar att p g är en funktion av avstån och ger oss information för att bestämma hur den funktionen ser ut. (b) ger oss frekvenser för olika gap-längder. Du behöver inte förklara hur sannolikheterna och funktionerna ska se ut, utan det är det bioinformatiska grundarbetet du ska berätta om. (4p) Background: When aligning protein sequences, an affine gap cost is often used, i.e., the score for a gap of length l is s open + l s extend. If s open = 10 and s extend = 1 then the score for a gap of three indels is -13. It turns out that affine gap score corresponds to a probabilistic model where gaps occur with probability p g and the length of the gap follows a geometric distribution with parameter p e. The probability of a gap of length l is in this model p g p l e (1 p e). Notice 2
that if you take the logarithm of this expression, you can identify s open = log(p g (1 p e)) and s extend = log(p e). Benner, Cohen and Gonnet showed already in 1993 that this gap model has a bad fit to nature and that a more appropriate model has that p g is a function of the evolutionary distance between sequences, and gap length follows a Zipf distribution such that the probability of a gap of length l is αl β, for two parameters α and β. Notice that gap length is independent of evolutionary distance. Question: If you were to repeat the investigation today, with all our new protein sequence information, how would you do it? What database would you use and why? Propose an approach that (a) can verify that p g is a function of distance and give us the information to determine what the function looks like. (b) provides frequences for various gap lengths. You do not have to explain how probabilities and functions are determined, only discuss the basic Bioinformatic work. 7. I den här uppgiften ska du beskriva en HMM som hittar en speciell typ av lågkomplexitetsregioner i genomsekvenser. Regionerna består till ungefär 95% av adenin. De övriga tre nukleotiderna är jämnt utspridda och kan dyka varsomhelst i regionen. Regionernas längd varierar, men de är minst 10 bp långa. Vi har ingen information of max- eller medel-längd. (a) Rita upp en HMM för problemet och beskriv hur emissionssannolikheter och övergångssannolikheter bör sättas. Argumentera för varför din modell beskriver de sökta regionerna och varför andra regioner antagligen inte passar in så bra. (2p) (b) Beskriv hur du kan utöka din modell för att identifiera regioner där någon nukleotid, inte nödvändigtvis adenin, förekommer till 95%. (2p) In this question you should describe an HMM that finds a special type of low-complexity regions in genome sequences: The regions are to 95% composed out of adenine. Other nucleotides are evenly distributed and can occur anywhere in a region. The regions are of variable length, but are at least 10 bp long. We have no information about max or average lengths. (a) Draw an HMM for the problem and describe how emission and transition probabilities should be set. Argue why your model describes the sought-for regions and why other regions probably not fit well to this model. (b) Describe how you can extend your model to identify regions where some nucleotide, not necessarily adenine, is found in 95% of the positions. 8. Häromåret kom en artikel som hävdade att gamla gener har evolverat långsammare än unga gener. Undersökningen gjordes ungefär så här: Identifiera ortologa par av gener i mus och människa. Beräkna det evolutionära avståndet dem emellan. Detta avstånd delat med tiden från artdelningen mus/människa ger oss den evolutionära hastigheten. Bestäm hur gammalt genparet är genom att kontrollera om homologer återfinns i andra arter; Om generna fanns i zebrafisk, fluga, mask, gräs, och jäst (alla fem arter) klassades paret som gammalt. Om det inte återfanns i något av dessa var det nytt. Man använde Blast för att hitta homologer och drog gränsen för homologi vid E = 10 4. Resultatet blev alltså att den gruppen av gamla gener evolverade mer långsamt än de nya. I början av detta år bemöttes påståendet av Elhaik, Sabath och Graur som med hjälp av simulerade evolution visade att det var ett metodfel som gav upphov till fenomenet. Vad kan ha gått fel? (2p) There was an article last year that claimed that old genes have evolved more slowly that young genes. The investigation was carried out similar to this: Identify orthologous pairs of genes in mouse and man. Compute the evolutionary distance between them. This distance divided by the time from the mouse/human speciation gives the evolutionary rate. 3
Determine how old a gene pair is be checking whether homologs are found in other species; If a gene is found in all of fly, worm, grass and yeast, then it is classified as old. If it was not found in any of these it was said to be young. Blast was used to find homologs and an E value of 10 4 was required for homology. This setup showed that the old genes evolved more slowly than young ones. In the beginning of this year that claim was refuted by Elhaik, Sabath and Graur, who used simulated evolution to show that there was a methodological problem that gave rise to the reported phenomenon. What had gone wrong? 9. I tidskriften BMC Genomics har Nalbant et al. (2005) publicerat en artikel som presenterar en familj gener som de visat är inblandad i regleringen av celldifferentiering. Familjen har fått namnet Fam20. Forskarna identifierade först en intressant gen i mus, hittade senare två paraloger, samt homologer i ett flertal arter. Däggdjur har tre varianter av genen, Fam20a, Fam20b, samt Fam20c, fiskar har fler, och i andra djur har man bara hittat en variant. Du ska nu använda artträdet (Cel, ((Dm, Ag), (Ci, ((Fr, Dr), (Hs, (Rn, Mm)))))) och betrakta figur 2 i de följande delfrågorna. Arttillhörighet är förklarad i tabell 9. (a) Vi saknar en bra avlägsen utgrupp för att göra en rotning, men har istället artträdet att använda som stöd. Vad är det rimligaste sättet att rota trädet i figur 2? Motivera ditt svar. Visa rotningen med en bild. Du får gärna sammanfatta delträd i bilden för att förenkla ritandet och göra ditt svar mer överskådligt, så länge den ursprungliga trädstrukturen framgår. (2p) (b) I artikeln föreslås det att ryggradsdjurens senast gemensamma anfader hade endast en enda Fam20-gen eftersom Ciona intestinalis (Ci), ryggradsdjurens närmsta släkting, endast har en Fam20-gen. Stödjer eller motsäger det givna trädet påståendet? Motivera. (2p) (c) Uppdelningen i tre delfamiljer har författarna gjort genom att titta på exon-strukturen hos generna. Alla gener i delfamilj A har till exempel samma uppsättning av exoner, men i delfamilj B är det ett annat mönster av exoner. Stödjer det fylogenetiska trädet dessa familjer? Motivera. (1p) The journal BMC Genomics published a paper by Nalbant et al. (2005) that presents a family of genes that is shown to be involved in the regulation of cell differentiation. The family has been named Fam20. The researchers first identified one interesting gene in mouse, later found two paralogs, and then homologs in several species. Mammals have three variants of the gene, Fam20a, Fam20b, and Fam20c, fishes have more, and in other animals only a single variant have thus far been determined. You will now use the species tree (Cel, ((Dm, Ag), (Ci, ((Fr, Dr), (Hs, (Rn, Mm)))))) and consider figure 2 in the following subquestions. Table 9 provides species information. (a) We do not have a good distant outgroup for rooting, but have a species tree that can support us. What is the most reasonable way to root the tree in figure 2? Justify your answer. Show the rooting with a picture. You are free to summarize subtrees in the figure to make the drawing easier and perhaps even easier to understand, as long as the original tree structure is carried on. (b) In the article, it is suggested that most recent ancestor of vertebrates had only one Fam20 gene since Ciona intestinalis (Ci), vertebrates closest living relative, only have one Fam20 gene. Does the given phylogeny support or contradict this suggestion? Justify your answer. (c) The authors have partitioned Fam20 into three subfamilies by looking at the exon-structure of the genes. For example, all genes in subfamily A has a specific set of exons, but in subfamily B there is another pattern of exons. Does the phylogenetic tree support these families? Justify your answer. 4
Figur 2: From BMC Genomics: A dendrogram showing the relationships between FAM20 proteins from human (Hs), mouse (Mm), rat (Rn), Fugu rubripes (Fr), Danio rerio (Dr), D. melanogaster (Dm), A. gambiae (Ag), C. intestinalis (Ci) and C. elegans. The accession numbers of the cdna sequences from which each protein sequence was derived are shown in parentheses except in the case of the mosquito family members where the accession number is used as the gene/protein name. [...] The FAM20 nomenclature has not been extended to the invertebrate sequences and the previous gene names have been used for Drosophila and C. elegans family members. The subfamily assignment of each family member is shown on the right. (Accession number avser en sekvens unika identifierare.) Abbrv Species Common name Vertbrate Hs Homo sapiens Human Yes Mm Mus musculus Mouse Yes Rn Rattus norvegicus Rat Yes Fr Fugu rubripes Puffer fish Yes Dr Danio rerio Zebra fish Yes Ci Ciona intestinalis Sea squirt No Ce Caenorhabditis elegans Nematode No Dm Drosophila melanogaster Fly No Ag Anopheles gambiae Mosquito No Tabell 1: Species list 5