Vetenskapsfestivalen, Gothenburg 9 May 2014 Serik Sagitov Matematiska Vetenskaper, Chalmers och Göteborgs Universitet Matematisk Fylogenetik Innehåll Sidor Inledning 2-5 Grundkurs i Matematisk Statistik 6-11 Fylogenetiskt stickprov 12-17 Skattning av evolutionstakten 18-20 Matematiskt LISEBERG 21-?? 1
Inledning Fylogenetik systematiserar evolutionära relationer mellan arter via morfologiska och genetiska likheter. Carl von Linné (1758) Darwins teckning (1837) Dess viktiga uppgift är att konstruera ett fylogenetiskt träd som kartlägger arternas släktskap. 2
Matematisk Fylogenetik är ett nytt forskningsområde där man studerar olika mätbara aspekter av evolutionära relationer mellan arter med hjälp av lämpliga matematiska modeller. Google sökresultat Mathematical Phylogenetics 3,230 Bayesian Phylogenetics 24,700 Branching Processes 133,000 Phylogenetics 1,450,000 Carl Bildt 2,140,000 Probability Theory 3,230,000 Linneaus 8,620,000 Darwin 286,000,000 Science 2,840,000,000 NSF / CBMS Mathematical Phylogeny Conference NSF / CBMS Conference Mathematical Phylogeny Mike Steel, Principal Lecturer June 28 - July 2, 2014 http://www.birdnest.org/phylogeny/ 4/22/14 12:20 PM Inledning UuNnMm-PpNnMm SsTtAaTtEeWwIiıDdEe MmAaTtHhEeMmAaTtIiıCcSs CcOoNnTtEeSsTt LlEeCcTtUuRrEe Invited Speakers: Barbara Holland, Lacey Knowles, Tandy Warnow, Laura Kubatko Registration The Lectures (pdf) Tentative Schedule (pdf) Working Groups Participant There will be a registration fee of $75 for unsupported participants to help cover List Mathematics and Phylogenetics Directions, Transportation, Elizabeth Allman and Parking University of Alaska Fairbanks Page 1 of 2 Phylogenetics is the field of biology concerned with determining the evolutionary relationship between species. Are humans closest relatives among the great apes gorillas or chimpanzees? When did the human species arise on earth? Cutting-edge research by biologists, mathematicians, statisticians, and computer scientists seeks to answer these and related questions. This talk will give a short overview to the field of mathematical phylogenetics, and describe how one can mathematically model the evolution of present- day DNA sequences from a common ancestor. Dr. Elizabeth Allman is Professor of Mathematics at the University of Alaska Fair-banks, a Senior Research Associate at the Institute for Arctic Biology and a Fellow of the American Mathematical Society. Her interests include Biomathematics and Algebraic Statistics, but a common theme throughout is her use of Algebra. 3
Doctoral thesis defence in mathematical statistics: Krzysztof Bartoszek 5/1/14 4:31 PM Inledning Doctoral thesis defence in mathematical statistics: Krzysztof Bartoszek!Stochastic Models in Phylogenetic Comparative Methods: Analytical Properties and Parameter Estimation Faculty opponent Dr. Tanja Stadler, Institut f. Integrative Biologie, ETH Zürich, Schweiz > Category Dissertation Phylogenomics News atics for matics - course ept Species trees 25 Feb, SU PhD defense - Sebastian Höhna 29/11, 10:00, SU Location: Room Pascal, Chalmers tvärgata 3 Starts: 10/18/2013 1:15 PM Ends: 10/18/2013 3:00 PM posted Nov 15, 2013, 4:35 AM by Johan Nylander [ updated Nov 15, 2013, 4:38 AM ] Upcoming PhD defense in Stockholm (Academic dissertation for the Degree of Doctor of Philosophy in Mathematical Statistics at Stockholm University)! Title: Bayesian Phylogenetic Inference - Estimating Diversification Rates from Reconstructed Phylogenies By: Sebastian Höhna ub 17 April Opponent: Prof. Ziheng Yang, University College London dish web forum rmatics When: Friday 29 November 2013 at 10:00 ting in Uppsala, p Where: Sal 14, hus 5, Kräftriket, Roslagsvägen 101. Lartillot visit 4
Inledning Jag vill ge en inblick i mitt eget bidrag till detta spännande område. Sagitov S. and Bartoszek K. Interspecies correlation for neutrally evolving traits. Journal of Theoretical Biology 309 (2012) 11-19 Jones G., Sagitov S. and Oxelman B. Statistical Inference of Allopolyploid Networks in the Presence of Incomplete Lineage Sorting. Systematic Biology 62 (2013) 467-478 Bartoszek K., Jones G., Oxelman B., and Sagitov S. Time to a single hybridization event in a group of species with unknown ancestral history. Journal of Theoretical Biology 322 (2013) 1-6 Bartoszek K. and Sagitov S. Phylogenetic confidence intervals for the optimal trait value. (To be submitted) Bartoszek K. and Sagitov S. A consistent estimate of the evolutionary rate. 5
Grundkurs i Matematisk Statistik Sannolikhetsteori Matematisk Statistik Sannolikhetsteori beräknar hur data kan se ut för en given stokastisk (icke deterministisk) modell. Tuggummi problem Det finns 2 tuggummin per ruta. Vilken andel av rutorna är tuggummifria? Poisson-modellen utgår från att samtliga rutor på torget är lika utsatta för tuggummin. Modellen ger Svaret blir P [X = k] = 2k k! e 2, för k = 0, 1, 2,... P [X = 0] = e 2 14% 6
Grundkurs i Matematisk Statistik Sannolikhetsteori Matematisk Statistik Matematisk Statistik tolkar data med hjälp av lämpliga stokastiska modeller. Tuggummi data Poissonmodell med okänd parameter λ: det finns λ tuggummin per ruta. Vad är λ? Medelvärde skattning ˆλ = 15 0+10 1+4 2+1 3 15+10+4+1 = 0.7. Antal rutor med k tuggummin k = 0 k = 1 k = 2 k = 3 Data 15 10 4 1 Modell med λ = 0.7 14.9 10.4 3.6 0.8 7
Grundmodell för ett stickprov Grundkurs i Matematisk Statistik oberoende och likfördelade observationer (X 1,..., X n ) där n är stickprovsstorleken, dvs antalet observationer. Evas IQ. Tre IQ-mätningar för Eva X 1 = 120, X 2 = 125, X 3 = 115, n = 3. Stickprovsmedelvärde X = 120 Stickprovs standardavvikelse S = 5. Evas IQ uppskattas som 120. Standardfelet av skattningen är S n = 5 3 3. Bill Gates IQ är 160 8
Normalfördelade observationer Grundkurs i Matematisk Statistik oberoende och normalfördelade observationer (X 1,..., X n ) f(x) = 1 2πσ e (x µ)2 2σ 2 Ian Stewart s book titled "In Pursuit of the Unknown: 17 Equations That Changed the World" Två okända parametrar: väntevärde µ och standardavvikelse σ. Väntevärdet och variansen E [X] = µ, Var [X] = E [ (X µ) 2] = σ 2. 9
Grundkurs i Matematisk Statistik Stickprovsmedelvärde X = X 1 +... + X n n ger en skattning av µ som är väntevärderiktig (utan systematiskt fel) E [ X] = µ, och konsistent, dvs osäkerheten i skattningen försvinner för stora n Var [ X] = σ 2 Standardavvikelsen av stickprovsmedelvärdet X är n 0, n. σ n. 10
Stickprovsvarians Grundkurs i Matematisk Statistik S 2 = (X 1 X) 2 +... + (X n X) 2 n 1 ger en skattning av σ 2 som är väntevärderiktig och konsistent E [ S 2] = σ 2, Var [ S 2] = 2σ4 n 1. Standardavvikelsen av stickprovsvariansen S 2 är 2 n 1 σ2 11
Fylogenetiskt stickprov X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 Här är (X 1,..., X n ) ett visst kroppsmått taget på n olika arter med gemensamt ursprung. 12
J.Felsenstein (1985) Fylogenetiskt stickprov Under evolutionens gång varierar kroppsmåttet pga förändringar i miljön. Kroppsmåttets utveckling modelleras med Wienerprocessen (Brownsk rörelse): om den ursprungliga arten hade kroppsmåttet X 0 blir nutidens kroppsmått normalfördelat med väntevärdet X 0 och variansen som är lika med σ 2 gånger evolutionstiden. σ 2 är takten av evolutionära förändringar Grundmodellen är olämpligt för ett fylogenetiskt stickprov eftersom observationerna (X 1,..., X n ) är beroende av varandra. 13
BMpaths.png 360 209 pixels Fylogenetiskt stickprov Tio oberoende simuleringar (X 1,..., X 10 ) av Wienerprocessen. 14
Fylogenetiskt stickprov Beroendet mellan observationerna (X 1,..., X 5 ) orsakas av släktrelationer. Till exempel hinner X 1 och X 2 inte växa ifrån varandra eftersom de motsvarande arterna är närbesläktade. 15
G.U.Yule (1924) Ett okänt artträd modelleras som en linjär födelseprocess. En ny art bildas per tidsenhet och stamart. Fylogenetiskt stickprov Exempel på två träd slumpgenererade med hjälp av Yule-algoritm. Här är n = 6. 16
Fylogenetiskt stickprov När vi kombinerar Yulemodellen för ett okänt träd med Winerprocessen för utvecklingen av kroppsmåttet får vi en dubbelstokastisk evolutionsmodell. Två parametrar som vi vill uppskatta med hjälp av det fylogenetiska stickprovet (X 1,..., X n ) är - ursprungsvärdet X 0 - evolutionstakten σ 2 17
Fylogenetiskt stickprovsmedelvärde Skattning av evolutionstakten X = X 1 +... + X n n är väntevärderiktig dock icke konsistent uppskattning av X 0 E [ X] = X0 Var [ ) X] = (2 H n n σ 2 2σ 2 Harmoniskt tal H n = 1 + 1 2 +... + 1 n H 1 = 1, H 10 = 2.9, H 100 = 5.2, H 1000 = 7.5, H 1000000 = 14.39. ln n + 0.577 Var(X n ) 1.0 1.2 1.4 1.6 1.8 2.0 0 50 100 150 Number of tips true simulated 18
Skattning av evolutionstakten För fylogenetiskt stickprovsvarians visar vi att väntevärdet är och variansen är S 2 = (X 1 X) 2 +... + (X n X) 2 n 1 E [ S 2] = (n + 1)H n 2n n 1 vår nyckelresultat Var [ S 2 n σ 2 ] (1 + π2 6 ) σ 4 Det innebär att ˆσ 2 = (n 1)S 2 (n + 1)H n 2n S2 ln n ger väntevärderiktig och konsistent skattning av evolutionstakten σ 2. 19
Skattning av evolutionstakten E(S n 2 ) 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 true simulated Var(S n 2 ) 0.0 0.5 1.0 1.5 2.0 2.5 1 + π2 6 = 2.645 0 50 100 150 200 0 50 100 150 200 n n Datorsimuleringar av E [ S 2 n] (vänster) och Var [ S 2 n ] (höger). Varie punkt är räknad via 10000 simulerade Yule-träd med Wienerprocesser ovanpå. Här satte vi parametrarna till X 0 = 0, σ 2 = 1. 20
Matematiskt LISEBERG 21