Matematisk Fylogenetik

Relevanta dokument
Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

Lektionsanteckningar 11-12: Normalfördelningen

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

FÖRELÄSNING 7:

MVE051/MSG Föreläsning 7

TMS136. Föreläsning 7

Tentamen MVE301 Sannolikhet, statistik och risk

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 31 May 2016, 8:00-12:00. English Version

Coalescent trees in phylogenetic inference

F9 SAMPLINGFÖRDELNINGAR (NCT

Tentamen MVE301 Sannolikhet, statistik och risk

TMS136. Föreläsning 4

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

F9 Konfidensintervall

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

Kurskod: TAMS11 Provkod: TENB 12 January 2015, 08:00-12:00. English Version

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 8: Konfidensintervall

Föreläsning 7: Punktskattningar

TMS136. Föreläsning 10

Tentamen MVE301 Sannolikhet, statistik och risk

S0005M, Föreläsning 2

English Version. 1 x 4x 3 dx = 0.8. = P (N(0, 1) < 3.47) = =

Föreläsning 7: Punktskattningar

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 7. Statistikens grunder.

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 08 June 2015, 14:00-18:00. English Version

Formel- och tabellsamling i matematisk statistik

Föreläsning 11: Mer om jämförelser och inferens

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Tentamen MVE301 Sannolikhet, statistik och risk

9. Konfidensintervall vid normalfördelning

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE302 Sannolikhet och statistik

Samplingfördelningar 1

Kurskod: TAMS24 / Provkod: TEN (8:00-12:00) English Version

SF1901 Sannolikhetsteori och statistik I

Formler och tabeller till kursen MSG830

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version

Föreläsningsanteckningar till kapitel 8, del 2

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Webbregistrering pa kurs och termin

Tentamen MVE301 Sannolikhet, statistik och risk

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Tentamen MVE300 Sannolikhet, statistik och risk

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Flervariabel Analys för Civilingenjörsutbildning i datateknik

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

The Academic Career Path - choices and chances ULRIKKE VOSS

Tentamen MVE300 Sannolikhet, statistik och risk

Beslutas att fastställa särskild behörighet för masterprogram enligt handling.

Webbreg öppen: 26/ /

English Version. Number of sold cakes Number of days

FÖRELÄSNING 8:

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

SF1911: Statistik för bioteknik

MVE051/MSG Föreläsning 14

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 12: Repetition

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

1 Särskild behörighet Masterprogram (Till Studiehandboken 2017) Dnr LiU

Kurskod: TAMS11 Provkod: TENB 07 April 2015, 14:00-18:00. English Version

Föreläsning 12: Linjär regression

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

English Version. + 1 n 2. n 1

Studietyper, inferens och konfidensintervall

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Samråd har skett med utbildningsledare vid akademin för innovation, design och teknik för de kurser de ansvarar för.

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F3 Introduktion Stickprov

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Arbetsplatsträff 8 mars 2011

Avd. Matematisk statistik

Tentamen i Matematik 2: M0030M.

Anders Persson Philosophy of Science (FOR001F) Response rate = 0 % Survey Results. Relative Frequencies of answers Std. Dev.

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Grundläggande matematisk statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tenta i Statistisk analys, 15 december 2004

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Att stödja starka elever genom kreativ matte.

Transkript:

Vetenskapsfestivalen, Gothenburg 9 May 2014 Serik Sagitov Matematiska Vetenskaper, Chalmers och Göteborgs Universitet Matematisk Fylogenetik Innehåll Sidor Inledning 2-5 Grundkurs i Matematisk Statistik 6-11 Fylogenetiskt stickprov 12-17 Skattning av evolutionstakten 18-20 Matematiskt LISEBERG 21-?? 1

Inledning Fylogenetik systematiserar evolutionära relationer mellan arter via morfologiska och genetiska likheter. Carl von Linné (1758) Darwins teckning (1837) Dess viktiga uppgift är att konstruera ett fylogenetiskt träd som kartlägger arternas släktskap. 2

Matematisk Fylogenetik är ett nytt forskningsområde där man studerar olika mätbara aspekter av evolutionära relationer mellan arter med hjälp av lämpliga matematiska modeller. Google sökresultat Mathematical Phylogenetics 3,230 Bayesian Phylogenetics 24,700 Branching Processes 133,000 Phylogenetics 1,450,000 Carl Bildt 2,140,000 Probability Theory 3,230,000 Linneaus 8,620,000 Darwin 286,000,000 Science 2,840,000,000 NSF / CBMS Mathematical Phylogeny Conference NSF / CBMS Conference Mathematical Phylogeny Mike Steel, Principal Lecturer June 28 - July 2, 2014 http://www.birdnest.org/phylogeny/ 4/22/14 12:20 PM Inledning UuNnMm-PpNnMm SsTtAaTtEeWwIiıDdEe MmAaTtHhEeMmAaTtIiıCcSs CcOoNnTtEeSsTt LlEeCcTtUuRrEe Invited Speakers: Barbara Holland, Lacey Knowles, Tandy Warnow, Laura Kubatko Registration The Lectures (pdf) Tentative Schedule (pdf) Working Groups Participant There will be a registration fee of $75 for unsupported participants to help cover List Mathematics and Phylogenetics Directions, Transportation, Elizabeth Allman and Parking University of Alaska Fairbanks Page 1 of 2 Phylogenetics is the field of biology concerned with determining the evolutionary relationship between species. Are humans closest relatives among the great apes gorillas or chimpanzees? When did the human species arise on earth? Cutting-edge research by biologists, mathematicians, statisticians, and computer scientists seeks to answer these and related questions. This talk will give a short overview to the field of mathematical phylogenetics, and describe how one can mathematically model the evolution of present- day DNA sequences from a common ancestor. Dr. Elizabeth Allman is Professor of Mathematics at the University of Alaska Fair-banks, a Senior Research Associate at the Institute for Arctic Biology and a Fellow of the American Mathematical Society. Her interests include Biomathematics and Algebraic Statistics, but a common theme throughout is her use of Algebra. 3

Doctoral thesis defence in mathematical statistics: Krzysztof Bartoszek 5/1/14 4:31 PM Inledning Doctoral thesis defence in mathematical statistics: Krzysztof Bartoszek!Stochastic Models in Phylogenetic Comparative Methods: Analytical Properties and Parameter Estimation Faculty opponent Dr. Tanja Stadler, Institut f. Integrative Biologie, ETH Zürich, Schweiz > Category Dissertation Phylogenomics News atics for matics - course ept Species trees 25 Feb, SU PhD defense - Sebastian Höhna 29/11, 10:00, SU Location: Room Pascal, Chalmers tvärgata 3 Starts: 10/18/2013 1:15 PM Ends: 10/18/2013 3:00 PM posted Nov 15, 2013, 4:35 AM by Johan Nylander [ updated Nov 15, 2013, 4:38 AM ] Upcoming PhD defense in Stockholm (Academic dissertation for the Degree of Doctor of Philosophy in Mathematical Statistics at Stockholm University)! Title: Bayesian Phylogenetic Inference - Estimating Diversification Rates from Reconstructed Phylogenies By: Sebastian Höhna ub 17 April Opponent: Prof. Ziheng Yang, University College London dish web forum rmatics When: Friday 29 November 2013 at 10:00 ting in Uppsala, p Where: Sal 14, hus 5, Kräftriket, Roslagsvägen 101. Lartillot visit 4

Inledning Jag vill ge en inblick i mitt eget bidrag till detta spännande område. Sagitov S. and Bartoszek K. Interspecies correlation for neutrally evolving traits. Journal of Theoretical Biology 309 (2012) 11-19 Jones G., Sagitov S. and Oxelman B. Statistical Inference of Allopolyploid Networks in the Presence of Incomplete Lineage Sorting. Systematic Biology 62 (2013) 467-478 Bartoszek K., Jones G., Oxelman B., and Sagitov S. Time to a single hybridization event in a group of species with unknown ancestral history. Journal of Theoretical Biology 322 (2013) 1-6 Bartoszek K. and Sagitov S. Phylogenetic confidence intervals for the optimal trait value. (To be submitted) Bartoszek K. and Sagitov S. A consistent estimate of the evolutionary rate. 5

Grundkurs i Matematisk Statistik Sannolikhetsteori Matematisk Statistik Sannolikhetsteori beräknar hur data kan se ut för en given stokastisk (icke deterministisk) modell. Tuggummi problem Det finns 2 tuggummin per ruta. Vilken andel av rutorna är tuggummifria? Poisson-modellen utgår från att samtliga rutor på torget är lika utsatta för tuggummin. Modellen ger Svaret blir P [X = k] = 2k k! e 2, för k = 0, 1, 2,... P [X = 0] = e 2 14% 6

Grundkurs i Matematisk Statistik Sannolikhetsteori Matematisk Statistik Matematisk Statistik tolkar data med hjälp av lämpliga stokastiska modeller. Tuggummi data Poissonmodell med okänd parameter λ: det finns λ tuggummin per ruta. Vad är λ? Medelvärde skattning ˆλ = 15 0+10 1+4 2+1 3 15+10+4+1 = 0.7. Antal rutor med k tuggummin k = 0 k = 1 k = 2 k = 3 Data 15 10 4 1 Modell med λ = 0.7 14.9 10.4 3.6 0.8 7

Grundmodell för ett stickprov Grundkurs i Matematisk Statistik oberoende och likfördelade observationer (X 1,..., X n ) där n är stickprovsstorleken, dvs antalet observationer. Evas IQ. Tre IQ-mätningar för Eva X 1 = 120, X 2 = 125, X 3 = 115, n = 3. Stickprovsmedelvärde X = 120 Stickprovs standardavvikelse S = 5. Evas IQ uppskattas som 120. Standardfelet av skattningen är S n = 5 3 3. Bill Gates IQ är 160 8

Normalfördelade observationer Grundkurs i Matematisk Statistik oberoende och normalfördelade observationer (X 1,..., X n ) f(x) = 1 2πσ e (x µ)2 2σ 2 Ian Stewart s book titled "In Pursuit of the Unknown: 17 Equations That Changed the World" Två okända parametrar: väntevärde µ och standardavvikelse σ. Väntevärdet och variansen E [X] = µ, Var [X] = E [ (X µ) 2] = σ 2. 9

Grundkurs i Matematisk Statistik Stickprovsmedelvärde X = X 1 +... + X n n ger en skattning av µ som är väntevärderiktig (utan systematiskt fel) E [ X] = µ, och konsistent, dvs osäkerheten i skattningen försvinner för stora n Var [ X] = σ 2 Standardavvikelsen av stickprovsmedelvärdet X är n 0, n. σ n. 10

Stickprovsvarians Grundkurs i Matematisk Statistik S 2 = (X 1 X) 2 +... + (X n X) 2 n 1 ger en skattning av σ 2 som är väntevärderiktig och konsistent E [ S 2] = σ 2, Var [ S 2] = 2σ4 n 1. Standardavvikelsen av stickprovsvariansen S 2 är 2 n 1 σ2 11

Fylogenetiskt stickprov X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 Här är (X 1,..., X n ) ett visst kroppsmått taget på n olika arter med gemensamt ursprung. 12

J.Felsenstein (1985) Fylogenetiskt stickprov Under evolutionens gång varierar kroppsmåttet pga förändringar i miljön. Kroppsmåttets utveckling modelleras med Wienerprocessen (Brownsk rörelse): om den ursprungliga arten hade kroppsmåttet X 0 blir nutidens kroppsmått normalfördelat med väntevärdet X 0 och variansen som är lika med σ 2 gånger evolutionstiden. σ 2 är takten av evolutionära förändringar Grundmodellen är olämpligt för ett fylogenetiskt stickprov eftersom observationerna (X 1,..., X n ) är beroende av varandra. 13

BMpaths.png 360 209 pixels Fylogenetiskt stickprov Tio oberoende simuleringar (X 1,..., X 10 ) av Wienerprocessen. 14

Fylogenetiskt stickprov Beroendet mellan observationerna (X 1,..., X 5 ) orsakas av släktrelationer. Till exempel hinner X 1 och X 2 inte växa ifrån varandra eftersom de motsvarande arterna är närbesläktade. 15

G.U.Yule (1924) Ett okänt artträd modelleras som en linjär födelseprocess. En ny art bildas per tidsenhet och stamart. Fylogenetiskt stickprov Exempel på två träd slumpgenererade med hjälp av Yule-algoritm. Här är n = 6. 16

Fylogenetiskt stickprov När vi kombinerar Yulemodellen för ett okänt träd med Winerprocessen för utvecklingen av kroppsmåttet får vi en dubbelstokastisk evolutionsmodell. Två parametrar som vi vill uppskatta med hjälp av det fylogenetiska stickprovet (X 1,..., X n ) är - ursprungsvärdet X 0 - evolutionstakten σ 2 17

Fylogenetiskt stickprovsmedelvärde Skattning av evolutionstakten X = X 1 +... + X n n är väntevärderiktig dock icke konsistent uppskattning av X 0 E [ X] = X0 Var [ ) X] = (2 H n n σ 2 2σ 2 Harmoniskt tal H n = 1 + 1 2 +... + 1 n H 1 = 1, H 10 = 2.9, H 100 = 5.2, H 1000 = 7.5, H 1000000 = 14.39. ln n + 0.577 Var(X n ) 1.0 1.2 1.4 1.6 1.8 2.0 0 50 100 150 Number of tips true simulated 18

Skattning av evolutionstakten För fylogenetiskt stickprovsvarians visar vi att väntevärdet är och variansen är S 2 = (X 1 X) 2 +... + (X n X) 2 n 1 E [ S 2] = (n + 1)H n 2n n 1 vår nyckelresultat Var [ S 2 n σ 2 ] (1 + π2 6 ) σ 4 Det innebär att ˆσ 2 = (n 1)S 2 (n + 1)H n 2n S2 ln n ger väntevärderiktig och konsistent skattning av evolutionstakten σ 2. 19

Skattning av evolutionstakten E(S n 2 ) 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 true simulated Var(S n 2 ) 0.0 0.5 1.0 1.5 2.0 2.5 1 + π2 6 = 2.645 0 50 100 150 200 0 50 100 150 200 n n Datorsimuleringar av E [ S 2 n] (vänster) och Var [ S 2 n ] (höger). Varie punkt är räknad via 10000 simulerade Yule-träd med Wienerprocesser ovanpå. Här satte vi parametrarna till X 0 = 0, σ 2 = 1. 20

Matematiskt LISEBERG 21