Coalescent trees in phylogenetic inference

Relevanta dokument
Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Karl Holm Ekologi och genetik, EBC, UU. ebc.uu.se. Nick Brandt. Populationsgenetik

Introduktion till statistik för statsvetare

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Evolution, del 2: Evolutionsprocesser och förändringar i det genetiska materialet. Jessica Abbott Forskare Evolutionär Ekologi

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk Fylogenetik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

Motsvarade kursen dina förväntningar?/did the course live up to your expectations?

MVE051/MSG Föreläsning 7

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE302 Sannolikhet och statistik

Hardy-Weinberg jämnvikt Processer som minskar genetisk variation: Inavel Genetisk drift

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Bayes i praktiken. exempel och reflektioner från en forskarutbildningskurs. Ralf Rittner, Arbets och Miljömedicin

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

EVOLUTIONENS DRIVKRAFTER ARTBILDNING

Föreläsning 6, Repetition Sannolikhetslära

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Vad man bör tänka på när man har en liten ras? Erling Strandberg, professor vid institutionen för husdjursgenetik, SLU, Uppsala

Föreläsning 6, Matematisk statistik Π + E

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik för D, I, Π och Fysiker

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

9. Konfidensintervall vid normalfördelning

Föreläsning 11: Mer om jämförelser och inferens

Tentamen MVE302 Sannolikhet och statistik

SF1911: Statistik för bioteknik

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

7.5 Experiment with a single factor having more than two levels

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Prognoser för lodjurspopulationen 2012 och 2013 i Sverige. Forecasting the lynx population to 2012 and 2013 in Sweden

Föreläsning 8, Matematisk statistik Π + E

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för B, K, N, BME och Kemister

Detta formelblad får användas under både KS2T och KS2D, samt ordinarie tentamen. x = 1 n. x i. with(stats): describe[mean]([3,5]); 4.

Bevarandegenetik och de svenska nationalraserna: lägesrapport. Mija Jansson

*****************************************************************

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

TENTAMEN I MATEMATISK STATISTIK 19 nov 07

Bayesiansk statistik, 732g43, 7.5 hp

8FA224. Medicinsk genetik, 7,5 hp. Medical Genetics. Fristående kurs. Medicinska fakulteten. Gäller från: 2014 HT. Kursplan

Chapter 2: Random Variables

STATISTISK ANALYS AV KOMPLEXA DATA

Bayesiansk statistik, 732g43, 7.5 hp

F3 Introduktion Stickprov

Matematisk statistik för D, I, Π och Fysiker

5B Portföljteori och riskvärdering

Formel- och tabellsamling i matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Tentamen MVE301 Sannolikhet, statistik och risk

Kurskod: TAMS24 / Provkod: TEN (8:00-12:00) English Version

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Summor av slumpvariabler

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Metod och teori. Statistik för naturvetare Umeå universitet

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

SF1911: Statistik för bioteknik

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik för D, I, Π och Fysiker

Exempel på tentamensuppgifter

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Genetik II. Jessica Abbott

Stokastiska vektorer

Centrala gränsvärdessatsen (CGS). Approximationer

4.1 Grundläggande sannolikhetslära

SF1901 Sannolikhetsteori och statistik I

Analys av DNA-kopietal med dolda markovmodeller

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

8MEA07. Medicinsk genetik, 7,5 hp. Medical Genetics. Programkurs. Medicinska fakulteten. Gäller från: 2017 HT PRELIMINÄR. Kursplan

Förädling och genbevarande två sidor av samma mynt

SF1901: Sannolikhetslära och statistik

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Jörgen Säve-Söderbergh

Matematisk statistik för B, K, N, BME och Kemister

Preliminärt lösningsförslag - omtentamen i Finansiell statistik,

Statistiska metoder för säkerhetsanalys

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Transkript:

Serik Sagitov Matematiska Vetenskaper, Chalmers Coalescent trees in phylogenetic inference 1

Example of a species tree and 3 gene trees Species tree S Gene trees G 2

Liang Liu and Dennis K. Pearl Systematic Biology 56 (2007), 504-514 Species Trees from Gene Trees: reconstructing Bayesian posterior distributions of a species phylogeny using estimated gene tree distributions 3

BAYESIAN HIERARCHICAL MODEL f ( S D) = 1 f ( D G, Λ) f (G S, θ ) f (θ ) f ( S ) f (Λ)dθdGdΛ f ( D) f (S ) prior probability of species tree S f ( S D) posterior probability of species tree given sequence data D f ( D G, Λ ) likelihood of the sequence data D given the gene trees G and parameters Λ in the substitution model f (G S, θ ) prior distribution of the gene trees given the species trees and θ = 4µ N eff scaled effective population sizes 4

3 independent coalescent trees 3 n= n=2 5

WF-populationsmodell R.A.Fisher S.Wright Sewell Wright R. A. Fisher Antaganden J. B. S. Haldane Sewell Wright generationer R. A. Fisher 3. icke-överlappande 4. konstant generationsstorlek N 5. WF-nedärvning (slumpgifte) J. B. S. Haldane 6

WF-nedärvning med N=5 Barn Föräldrar 2 0 0 2 0 3 1 0 1 1 7

Tid 18 generationer i WF-modellen N=11

Tid Genetisk drift i balans med neutral mutation

Fullt genträd med mutationer TCGAGGTATTAAC TCTAGGTATTAAC TCGAGGCATTAAC

Delträd för n=5 sekvenser utav 2N=22

Kingmans koalescent trädmodellen för n sekvenser som är utvalda på måfå från en stor WF-population ett viktigt redskap i molekylär populationsgenetik WF-tolkningen av grenlängden i koalescent-träd 1 längdenhet = 2N generationer 12

1000 generationer 1 Simulerade koalescentträd för n=25 Tolkningen för WFmodellen med N=500 13

Effektiv populationsstorlek Neff Mer realistisk modell Koalescent Neff = N WF-modellen Tolkningen av grenlängden i koalescent-träd 1 längdenhet = 2Neff generationer 14

Två populationer med samma verkliga storlek N men skilda effektiva storlekar Neff Antalet mutationer placerade i varje koalescentträd är proportionellt mot Neff n=4 mindre Neff större Neff mindre genetisk större genetisk variation variation 15

Exempel på små Neff Nordliga elefantsälen: Ingen genetisk variation funnen vid jämförelse av 20 olika gener Dagens verkliga populationsstorlek överstiger 30,000 På 1890-talet jagades beståndet ner till 20 individer Den genetiska variationen hos vilda gepardbestånd är betydligt mindre än hos andra däggdjur med liknande populationsstorlekar. 16

Faktorer som påverkar genetiska driften fluktuationer i populationsstorlek parningssystem migrationsmönster åldersfördelning variationsgrad i antalet barn per familj 17

Neff = N/σ2 Generaliserad WF-nedärvning konstant populationsstorlek N variansen σ2 i antal barn per familj WF-modellen ger σ2 1 Större varians σ2 gör att Neff blir mindre 18

Neff = N/cgeo cgeo = v12 /x1+ + vk2 /xk Geografiskt strukturerad modell med snabb migration subpopulationer av storlekarna Nx1,, Nxk stationära frekvenser för bakåtriktad migration v1,, vk WF-nedärvning 19

Neff = N/cdem cdem = i j vi σij2 π ij xj /xi2 Varierande populationsstorlek [Jagers and Sagitov, JAP-04] möjliga populationsstorlekar Nx1,, Nxk övergångssannolikheter πij stationära frekvenser v1,, vk generaliserad WF-nedärvning 20

Neff = N/cage en ny formel för cage Modell med överlappande generationer [Sagitov and Jagers, AAP-05] konstant populationsstorlek konstant åldersfördelning konstant åldersfördelning för mödrar vid barnafödande generaliserad WF-nedärvning 21

Exempel: svenska kvinnor 2002 111 årskullar Neff = medellivslängd 82.6 år mödrarnas snittålder vid barnafödande 30.6 år 0.39 N 22

Kommande projekt 1. Geografiskt strukturerade populationer i varierande miljö 2. WF-modellen med något som kallas för isolering via avstånd 3. Två-könsmodeller med polygamisk parning För dessa tre modeller skall det etableras nya formler för Neff 23

Publikationer 1. 2. 3. 4. 5. 6. Sagitov S. (1999) The general coalescent with asynchronous mergers of ancestral lines. J. Appl. Prob. 36, 1116-1125. Möhle M. and Sagitov S. (2001) A classification of coalescent processes for haploid exchangeable population models. Ann. Prob. 29, 1547-1562. Sagitov, S. (2003) Convergence to the coalescent with simultaneous multiple mergers. J. Appl. Prob. 40, 839-854 Möhle M. and Sagitov S. (2003) Coalescent Patterns in Exchangeable Diploid Population Models. J. Math. Biol. 47, 337-352. Jagers P. and Sagitov S. (2004) Convergence to the coalescent in populations of substantially varying size. J. Appl. Prob. 41, 368-378. Sagitov S. and Jagers P. (2005) The coalescent effective size of age-structured populations. Ann. Appl. Probab. 15, 1778-1797 Tack så mycket för er sammanlagt mer än 60 timmars uppmärksamhet!!! 24