Tentamen i 2D1396 Bioinformatik, 11 mars 2006

Relevanta dokument
Webbregistrering pa kurs och termin

LUNDS TEKNISKA HÖGSKOLA Institutionen för Elektro- och Informationsteknik

Adding active and blended learning to an introductory mechanics course

Webbreg öppen: 26/ /

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Tentamen i Matematik 2: M0030M.


Materialplanering och styrning på grundnivå. 7,5 högskolepoäng

1. Varje bevissteg ska motiveras formellt (informella bevis ger 0 poang)

Högskolan i Skövde (SK, JS) Svensk version Tentamen i matematik

Room E3607 Protein bioinformatics Protein Bioinformatics. Computer lab Tuesday, May 17, 2005 Sean Prigge Jonathan Pevsner Ingo Ruczinski

Exam Molecular Bioinformatics X3 (1MB330) - 1 March, Page 1 of 6. Skriv svar på varje uppgift på separata blad. Lycka till!!

Isometries of the plane

Writing with context. Att skriva med sammanhang

8 < x 1 + x 2 x 3 = 1, x 1 +2x 2 + x 4 = 0, x 1 +2x 3 + x 4 = 2. x 1 2x 12 1A är inverterbar, och bestäm i så fall dess invers.

Module 1: Functions, Limits, Continuity

Styrteknik: Binära tal, talsystem och koder D3:1

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Support Manual HoistLocatel Electronic Locks

denna del en poäng. 1. (Dugga 1.1) och v = (a) Beräkna u (2u 2u v) om u = . (1p) och som är parallell

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Accomodations at Anfasteröd Gårdsvik, Ljungskile

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

FÖRBERED UNDERLAG FÖR BEDÖMNING SÅ HÄR

Preschool Kindergarten

F ξ (x) = f(y, x)dydx = 1. We say that a random variable ξ has a distribution F (x), if. F (x) =

Workplan Food. Spring term 2016 Year 7. Name:

Pre-Test 1: M0030M - Linear Algebra.

Beijer Electronics AB 2000, MA00336A,

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Health café. Self help groups. Learning café. Focus on support to people with chronic diseases and their families

Support for Artist Residencies

12.6 Heat equation, Wave equation

E: 9p D: 10p C: 14p B: 18p A: 22p

DVG C01 TENTAMEN I PROGRAMSPRÅK PROGRAMMING LANGUAGES EXAMINATION :15-13: 15

x 2 2(x + 2), f(x) = by utilizing the guidance given by asymptotes and stationary points. γ : 8xy x 2 y 3 = 12 x + 3

Grafisk teknik IMCDP IMCDP IMCDP. IMCDP(filter) Sasan Gooran (HT 2006) Assumptions:

and u = och x + y z 2w = 3 (a) Finn alla lösningar till ekvationssystemet

Tentamen MMG610 Diskret Matematik, GU

2(x + 1) x f(x) = 3. Find the area of the surface generated by rotating the curve. y = x 3, 0 x 1,

Hur fattar samhället beslut när forskarna är oeniga?

BOENDEFORMENS BETYDELSE FÖR ASYLSÖKANDES INTEGRATION Lina Sandström

Schenker Privpak AB Telefon VAT Nr. SE Schenker ABs ansvarsbestämmelser, identiska med Box 905 Faxnr Säte: Borås

SWESIAQ Swedish Chapter of International Society of Indoor Air Quality and Climate

Questionnaire for visa applicants Appendix A

(D1.1) 1. (3p) Bestäm ekvationer i ett xyz-koordinatsystem för planet som innehåller punkterna

6 th Grade English October 6-10, 2014

Stiftelsen Allmänna Barnhuset KARLSTADS UNIVERSITET

EVALUATION OF ADVANCED BIOSTATISTICS COURSE, part I

Immigration Studying. Studying - University. Stating that you want to enroll. Stating that you want to apply for a course.

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Chapter 2: Random Variables

Analys och bedömning av företag och förvaltning. Omtentamen. Ladokkod: SAN023. Tentamen ges för: Namn: (Ifylles av student.

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Användning av Erasmus+ deltagarrapporter för uppföljning

LUNDS TEKNISKA HÖGSKOLA Inst. for Elektro- och Informationsteknik. SIGNALBEHANDLING I MULTIMEDIA, ETI265 Inlämningsuppgift 1 (av 2), Task 1 (out of 2)

Bridging the gap - state-of-the-art testing research, Explanea, and why you should care

S 1 11, S 2 9 and S 1 + 2S 2 32 E S 1 11, S 2 9 and 33 S 1 + 2S 2 41 D S 1 11, S 2 9 and 42 S 1 + 2S 2 51 C 52 S 1 + 2S 2 60 B 61 S 1 + 2S 2 A

FANNY AHLFORS AUTHORIZED ACCOUNTING CONSULTANT,

Grafisk teknik IMCDP. Sasan Gooran (HT 2006) Assumptions:

Kurskod: TAMS11 Provkod: TENB 07 April 2015, 14:00-18:00. English Version

6. a) Visa att följande vektorer är egenvektorer till matrisen A = , och ange motsvarande

Matthew Thurley Industriell bildanalys (E0005E) Response rate = 65 %

Kursutvärderare: IT-kansliet/Christina Waller. General opinions: 1. What is your general feeling about the course? Antal svar: 17 Medelvärde: 2.

samhälle Susanna Öhman

KTH MMK JH TENTAMEN I HYDRAULIK OCH PNEUMATIK allmän kurs kl

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Grafisk teknik. Sasan Gooran (HT 2006)

Problem som kan uppkomma vid registrering av ansökan

Examensarbete Introduk)on - Slutsatser Anne Håkansson annehak@kth.se Studierektor Examensarbeten ICT-skolan, KTH

Att stödja starka elever genom kreativ matte.

Tentamen i Matematik 2: M0030M.

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

SF1911: Statistik för bioteknik

Technique and expression 3: weave. 3.5 hp. Ladokcode: AX1 TE1 The exam is given to: Exchange Textile Design and Textile design 2.

Module 6: Integrals and applications

2.1 Installation of driver using Internet Installation of driver from disk... 3

Isolda Purchase - EDI

STORSEMINARIET 3. Amplitud. frekvens. frekvens uppgift 9.4 (cylindriskt rör)

Exempel på uppgifter från 2010, 2011 och 2012 års ämnesprov i matematik för årskurs 3. Engelsk version

Solutions to exam in SF1811 Optimization, June 3, 2014

Unit course plan English class 8C

Discovering!!!!! Swedish ÅÄÖ. EPISODE 6 Norrlänningar and numbers Misi.se

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

Resultat av den utökade första planeringsövningen inför RRC september 2005

Chapter 1 : Who do you think you are?

Viktig information för transmittrar med option /A1 Gold-Plated Diaphragm

FRÅGA: Jag tilldelades stipendium 2014, kan jag ändå söka de riktade stipendierna i år?

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

Algoritmer och Komplexitet ht 08. Övning 6. NP-problem

PORTSECURITY IN SÖLVESBORG

Exempel på uppgifter från års ämnesprov i matematik för årskurs 3. Engelsk version

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

State Examinations Commission

Ren Katt. Författare Deepa Balsavar Illustratör Kanchan Bannerjee. Översatt av Bokkok.se

OPPOSITION FOR MASTER S PROJECT

Transkript:

Tentamen i 2D1396 Bioinformatik, 11 mars 2006 Kursansvarig: Lars Arvestad Inga hjälpmedel förutom skrivmedel är tillåtna. Skriv tydligt! Skriv bara på en sida av pappret och behandla bara en uppgift per pappersblad. Ge dina svar tydliga motiveringar. Lämna plats för kommentarer vid rättning. För godkänt krävs 15 poäng, 20 poäng ger betyg 4, och vid 25 poäng ges betyg 5. Lösningsförslag kommer att hittas på kursens hemsida. Resultaten anslås bredvid huvudingången till SBC:s korridor. Lycka till! No aids beyond writing equipment are accepted. Write clearly! Please use only one side of each paper and don t address more than one question per page. Justify your answers! Leave room for comments during grading. A passing grade is awarded at 15 points, 20 points are required for grade 4, and 25 points for grade 5. Suggested solutions will be available at the course web page. Exam results will be posted by SBC s main entrance. Good luck! Del 1 1. Figur 1 visar ett enkelt orotat fylogenetiskt träd. Hur skriver man det trädet i Newick-format? (2p) Figure 1 shows a simple unrooted phylogenetic tree. How do you write that tree in Newick format? A B C G F E D Figur 1: A simple unrooted phylogenetic tree. Var god börja nästa uppgift på nytt papper. Please start next question on a new paper. 2. (a) Beskriv prokaryot och eukaryot genstruktur. (2p) (b) Beskriv vilka egenskaper gensekvenser har som gör att ett datorprogram kan hitta dem så bra som de gör. Förklara också varför det ändå är svårt att göra datoriserad genprediktion och vilka misstag som kan göras. (3p) (a) Describe prokaryote and eukaryote gene structure. (b) Describe the gene sequence properties that make it possible for a computer program, to a fair extent, to find genes. Explain also why computational gene prediction is considered difficult and what kind of mistakes typically occur. 3. (a) Vad är det som gör att PSI-Blast har större känslighet, d.v.s. kan hitta mer avlägsna homologer, än Blast? (2p) (b) Hur kan en databas över protein- eller domän-familjer, som t.ex. SCOP, hjälpa dig att hitta avlägsna homologer? (1p) 1

(a) What makes PSI-Blast more sensitive, i.e. can find more distant homologs, than Blast? (b) How can a database of protein or domain families, such as SCOP, help you find distant homologs? 4. Vilka egenskaper har sekvenser från transmembranproteiner som gör att vi ofta med hjälp av ett datorprogram kan (a) urskilja var transmembranregionerna ligger? (1p) (b) avgöra topologin, dvs vilka delar som ligger i cytoplasm? (1p) What properties of sequences from transmembrane proteins make it often possible to computationally (a) distinguish where transmembrane regions are? (b) determine the topology, i.e., what parts of the protein are located in the cytoplasm? 5. Ni såg i laboration 3 att programmet HMMSEARCH, som letar domäner i proteinsekvenser, ger både score och E-värde för en träff. Antag nu att vi inte kan lita på de E-värden som ges och att vi därför skulle vilja komplettera med ett Z-värde för att avgöra hur väl en sekvens passar in i en given domänfamilj. Beskriv nu, steg för steg, hur man borde gå tillväga för att beräkna detta Z-värde. (3p) You saw i lab 3 that the program HMMSEARCH, which finds domains in protein sequences, returns both a score and an E value for a hit. Suppose that we cannot trust those E values and that we would like to complement with a Z value to determine how well a sequence matches with a given domain family. Describe how to compute the Z value, as if you talking to a programmer whom would help you. Del 2 6. Bakgrund: När man linjerar proteinsekvenser använder man vanligen så kallad affin gap-kostnad, d.v.s. score för att ett gap av längd l är s open +l s extend. Om s open = 10 och s extend = 1 kommer score för tre indels att bli -13. Det visar sig att affine gap-score motsvarar en probabilistisk modell där gap dyker upp med en viss sannolikhet p g och längden på gapet är geometriskt fördelad med parametern p e. Sannolikheten för ett gap av längd l blir i denna modell p g p l e (1 p e). Lägg märke till att om man logaritmerar detta uttryck kan vi identifiera s open = log(p g (1 p e )) och s extend = log(p e ). Benner, Cohen, och Gonnet visade redan 1993 att denna modell av gap stämmer dåligt överens med verkligheten och att man istället borde använda en modell där p g är en funktion av det evolutionära avståndet mellan sekvenserna, och själva gap-längden följer en Zipf-fördelning så att sannolikheten för längd l är αl β, för två parametrar α och β. Märk att gaplängden alltså är oberoende av avståndet mellan sekvenserna. Frågeställning: Om du skulle göra om den här undersökningen idag, nu när vi har betydligt mer fler kända proteinsekvenser än 1993, hur skulle du göra då? Vilken databas skulle du välja och varför? Föreslå en ansats som (a) verifierar att p g är en funktion av avstån och ger oss information för att bestämma hur den funktionen ser ut. (b) ger oss frekvenser för olika gap-längder. Du behöver inte förklara hur sannolikheterna och funktionerna ska se ut, utan det är det bioinformatiska grundarbetet du ska berätta om. (4p) Background: When aligning protein sequences, an affine gap cost is often used, i.e., the score for a gap of length l is s open + l s extend. If s open = 10 and s extend = 1 then the score for a gap of three indels is -13. It turns out that affine gap score corresponds to a probabilistic model where gaps occur with probability p g and the length of the gap follows a geometric distribution with parameter p e. The probability of a gap of length l is in this model p g p l e (1 p e). Notice 2

that if you take the logarithm of this expression, you can identify s open = log(p g (1 p e)) and s extend = log(p e). Benner, Cohen and Gonnet showed already in 1993 that this gap model has a bad fit to nature and that a more appropriate model has that p g is a function of the evolutionary distance between sequences, and gap length follows a Zipf distribution such that the probability of a gap of length l is αl β, for two parameters α and β. Notice that gap length is independent of evolutionary distance. Question: If you were to repeat the investigation today, with all our new protein sequence information, how would you do it? What database would you use and why? Propose an approach that (a) can verify that p g is a function of distance and give us the information to determine what the function looks like. (b) provides frequences for various gap lengths. You do not have to explain how probabilities and functions are determined, only discuss the basic Bioinformatic work. 7. I den här uppgiften ska du beskriva en HMM som hittar en speciell typ av lågkomplexitetsregioner i genomsekvenser. Regionerna består till ungefär 95% av adenin. De övriga tre nukleotiderna är jämnt utspridda och kan dyka varsomhelst i regionen. Regionernas längd varierar, men de är minst 10 bp långa. Vi har ingen information of max- eller medel-längd. (a) Rita upp en HMM för problemet och beskriv hur emissionssannolikheter och övergångssannolikheter bör sättas. Argumentera för varför din modell beskriver de sökta regionerna och varför andra regioner antagligen inte passar in så bra. (2p) (b) Beskriv hur du kan utöka din modell för att identifiera regioner där någon nukleotid, inte nödvändigtvis adenin, förekommer till 95%. (2p) In this question you should describe an HMM that finds a special type of low-complexity regions in genome sequences: The regions are to 95% composed out of adenine. Other nucleotides are evenly distributed and can occur anywhere in a region. The regions are of variable length, but are at least 10 bp long. We have no information about max or average lengths. (a) Draw an HMM for the problem and describe how emission and transition probabilities should be set. Argue why your model describes the sought-for regions and why other regions probably not fit well to this model. (b) Describe how you can extend your model to identify regions where some nucleotide, not necessarily adenine, is found in 95% of the positions. 8. Häromåret kom en artikel som hävdade att gamla gener har evolverat långsammare än unga gener. Undersökningen gjordes ungefär så här: Identifiera ortologa par av gener i mus och människa. Beräkna det evolutionära avståndet dem emellan. Detta avstånd delat med tiden från artdelningen mus/människa ger oss den evolutionära hastigheten. Bestäm hur gammalt genparet är genom att kontrollera om homologer återfinns i andra arter; Om generna fanns i zebrafisk, fluga, mask, gräs, och jäst (alla fem arter) klassades paret som gammalt. Om det inte återfanns i något av dessa var det nytt. Man använde Blast för att hitta homologer och drog gränsen för homologi vid E = 10 4. Resultatet blev alltså att den gruppen av gamla gener evolverade mer långsamt än de nya. I början av detta år bemöttes påståendet av Elhaik, Sabath och Graur som med hjälp av simulerade evolution visade att det var ett metodfel som gav upphov till fenomenet. Vad kan ha gått fel? (2p) There was an article last year that claimed that old genes have evolved more slowly that young genes. The investigation was carried out similar to this: Identify orthologous pairs of genes in mouse and man. Compute the evolutionary distance between them. This distance divided by the time from the mouse/human speciation gives the evolutionary rate. 3

Determine how old a gene pair is be checking whether homologs are found in other species; If a gene is found in all of fly, worm, grass and yeast, then it is classified as old. If it was not found in any of these it was said to be young. Blast was used to find homologs and an E value of 10 4 was required for homology. This setup showed that the old genes evolved more slowly than young ones. In the beginning of this year that claim was refuted by Elhaik, Sabath and Graur, who used simulated evolution to show that there was a methodological problem that gave rise to the reported phenomenon. What had gone wrong? 9. I tidskriften BMC Genomics har Nalbant et al. (2005) publicerat en artikel som presenterar en familj gener som de visat är inblandad i regleringen av celldifferentiering. Familjen har fått namnet Fam20. Forskarna identifierade först en intressant gen i mus, hittade senare två paraloger, samt homologer i ett flertal arter. Däggdjur har tre varianter av genen, Fam20a, Fam20b, samt Fam20c, fiskar har fler, och i andra djur har man bara hittat en variant. Du ska nu använda artträdet (Cel, ((Dm, Ag), (Ci, ((Fr, Dr), (Hs, (Rn, Mm)))))) och betrakta figur 2 i de följande delfrågorna. Arttillhörighet är förklarad i tabell 9. (a) Vi saknar en bra avlägsen utgrupp för att göra en rotning, men har istället artträdet att använda som stöd. Vad är det rimligaste sättet att rota trädet i figur 2? Motivera ditt svar. Visa rotningen med en bild. Du får gärna sammanfatta delträd i bilden för att förenkla ritandet och göra ditt svar mer överskådligt, så länge den ursprungliga trädstrukturen framgår. (2p) (b) I artikeln föreslås det att ryggradsdjurens senast gemensamma anfader hade endast en enda Fam20-gen eftersom Ciona intestinalis (Ci), ryggradsdjurens närmsta släkting, endast har en Fam20-gen. Stödjer eller motsäger det givna trädet påståendet? Motivera. (2p) (c) Uppdelningen i tre delfamiljer har författarna gjort genom att titta på exon-strukturen hos generna. Alla gener i delfamilj A har till exempel samma uppsättning av exoner, men i delfamilj B är det ett annat mönster av exoner. Stödjer det fylogenetiska trädet dessa familjer? Motivera. (1p) The journal BMC Genomics published a paper by Nalbant et al. (2005) that presents a family of genes that is shown to be involved in the regulation of cell differentiation. The family has been named Fam20. The researchers first identified one interesting gene in mouse, later found two paralogs, and then homologs in several species. Mammals have three variants of the gene, Fam20a, Fam20b, and Fam20c, fishes have more, and in other animals only a single variant have thus far been determined. You will now use the species tree (Cel, ((Dm, Ag), (Ci, ((Fr, Dr), (Hs, (Rn, Mm)))))) and consider figure 2 in the following subquestions. Table 9 provides species information. (a) We do not have a good distant outgroup for rooting, but have a species tree that can support us. What is the most reasonable way to root the tree in figure 2? Justify your answer. Show the rooting with a picture. You are free to summarize subtrees in the figure to make the drawing easier and perhaps even easier to understand, as long as the original tree structure is carried on. (b) In the article, it is suggested that most recent ancestor of vertebrates had only one Fam20 gene since Ciona intestinalis (Ci), vertebrates closest living relative, only have one Fam20 gene. Does the given phylogeny support or contradict this suggestion? Justify your answer. (c) The authors have partitioned Fam20 into three subfamilies by looking at the exon-structure of the genes. For example, all genes in subfamily A has a specific set of exons, but in subfamily B there is another pattern of exons. Does the phylogenetic tree support these families? Justify your answer. 4

Figur 2: From BMC Genomics: A dendrogram showing the relationships between FAM20 proteins from human (Hs), mouse (Mm), rat (Rn), Fugu rubripes (Fr), Danio rerio (Dr), D. melanogaster (Dm), A. gambiae (Ag), C. intestinalis (Ci) and C. elegans. The accession numbers of the cdna sequences from which each protein sequence was derived are shown in parentheses except in the case of the mosquito family members where the accession number is used as the gene/protein name. [...] The FAM20 nomenclature has not been extended to the invertebrate sequences and the previous gene names have been used for Drosophila and C. elegans family members. The subfamily assignment of each family member is shown on the right. (Accession number avser en sekvens unika identifierare.) Abbrv Species Common name Vertbrate Hs Homo sapiens Human Yes Mm Mus musculus Mouse Yes Rn Rattus norvegicus Rat Yes Fr Fugu rubripes Puffer fish Yes Dr Danio rerio Zebra fish Yes Ci Ciona intestinalis Sea squirt No Ce Caenorhabditis elegans Nematode No Dm Drosophila melanogaster Fly No Ag Anopheles gambiae Mosquito No Tabell 1: Species list 5