Skattning av avstånd mellan arter i fylogenetiska träd

Relevanta dokument
TAMS79: Föreläsning 10 Markovkedjor

Föreläsning 8: Konfidensintervall

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Matematisk statistik TMS064/TMS063 Tentamen

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

SF1901 Sannolikhetsteori och statistik I

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

MVE051/MSG Föreläsning 7

Markovprocesser SF1904

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Markovprocesser SF1904

Markovprocesser SF1904

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Markovprocesser SF1904

P =

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

TMS136: Dataanalys och statistik Tentamen

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik KTH. Formelsamling i matematisk statistik

f(x) = 2 x2, 1 < x < 2.

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Matematisk statistik TMS063 Tentamen

FÖRELÄSNING 8:

Markovprocesser SF1904

Matematisk statistik för D, I, Π och Fysiker

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

LKT325/LMA521: Faktorförsök

Lektionsanteckningar 11-12: Normalfördelningen

Härledning av Black-Littermans formel mha allmänna linjära modellen

Stokastiska processer med diskret tid

Grundläggande matematisk statistik

tisdag 8 oktober 13 Carl Von Linné

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tenta i Statistisk analys, 15 december 2004

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Avd. Matematisk statistik

4 Diskret stokastisk variabel

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 12: Repetition

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

Exempel på tentamensuppgifter

Jörgen Säve-Söderbergh

Stokastiska processer

Lufttorkat trä Ugnstorkat trä

DNA-molekylen upptäcktes DNA - varken protein, kolhydrat eller lipid.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Stokastiska processer och simulering I 24 maj

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Tentamen MVE301 Sannolikhet, statistik och risk

Formler och tabeller till kursen MSG830

Genetik. - cellens genetik - individens genetik. Kap 6

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Tentamen MVE302 Sannolikhet och statistik

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 4: Konfidensintervall (forts.)

1 Stokastiska processer. 2 Poissonprocessen

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

F13 Regression och problemlösning

Grafer och grannmatriser

9. Konfidensintervall vid normalfördelning

TMS136. Föreläsning 11

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p)

Matematisk statistik för B, K, N, BME och Kemister

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik för D, I, Π och Fysiker

Tentamen MVE301 Sannolikhet, statistik och risk

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Markovprocesser SF1904

Föreläsning 11, Matematisk statistik Π + E

Markovprocesser SF1904

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Föreläsning 11, FMSF45 Konfidensintervall

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Regression

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning

Demonstration av laboration 2, SF1901

e x/1000 för x 0 0 annars

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Lösningsförslag till Matematisk statistik LKT325 Tentamen

3 Maximum Likelihoodestimering

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning 7: Punktskattningar

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Transkript:

U.U.D.M. Project Report 2018:28 Skattning av avstånd mellan arter i fylogenetiska träd Linnéa Eriksson Examensarbete i matematik, 15 hp Handledare: Ingemar Kaj Examinator: Martin Herschend Juni 2018 Department of Mathematics Uppsala University

Sammanfattning I det här arbetet beräknas och visas det om skattning av avståndet mellan genfrekvenser. De matematiska modellerna kan tillämpas inom fylogeni. Modellerna som arbetet tar upp är JC69, Jukes-Cantor, och K80-modellen, Kimura. De två modellerna studeras steg för steg och tillämpas därefter på en människas genfrekvens mot fem olika djur. De fem djuren är schimpans, gorilla, bonobo, gibbon och ett utstickande djuret som är lejon. Genfrekvenserna från djuren som är jämförda med människans är hämtade ifrån GeneBank. Genfrekvenserna studeras och data tillämpas sedan på de matematiska modellerna. Beräkningar och grafer har utförts i datorprogrammet MatLab. Slutligen så jämförs alla beräkningar med varandra och de diskuteras hur man skulle kunna gå tillväga för att utveckla arbetet. 1

Innehåll 1 Inledning 4 2 Biologisk bakgrund 5 2.1 Fylogeni................................ 5 2.2 DNA.................................. 5 2.3 Protein och nukleotider....................... 6 2.4 Kodonbias.............................. 7 3 Modeller för nukleotidsubstitution 7 3.1 JC69 (Jukes and Cantor 1969)................... 8 3.2 K80 (Kimura 1980).......................... 11 3.3 Generellt för båda modellerna.................... 14 3.4 Avståndsuppskattning med UNREST............... 15 4 Maximum likelihood-metoden 15 4.1 JC69.................................. 16 4.2 K80.................................. 17 5 Uppbyggnad av fylogenetiska träd 17 5.1 Avstånd mellan arter......................... 18 5.1.1 Minstakvadratmetoden................... 18 5.2 Maximum likelihood-metoden - er generationer......... 19 5.2.1 Likelihood beräkningar på träd............... 19 6 Resultat 20 6.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes)................................. 20 6.1.1 JC69 modellen........................ 21 6.1.2 K80-modellen......................... 23 6.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla). 25 6.2.1 JC69 modellen........................ 25 6.2.2 K80-modellen......................... 27 6.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus). 29 6.3.1 JC69 modellen........................ 30 6.3.2 K80-modellen......................... 32 6.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis)............................. 34 6.4.1 JC69 modellen........................ 34 6.4.2 K80-modellen......................... 36 6.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo)... 38 6.5.1 JC69 modellen........................ 39 6.5.2 K80-modellen......................... 41 6.6 Jämförelse av resultat........................ 43 7 Diskussion 45 2

8 Bilagor 46 8.1 Tabell för 95%-kondensintervall - normalfördelnings kvantiler. 46 8.2 Tabell för χ 2 κ,5%............................ 46 8.3 Genfrekvenser från GeneBank.................... 47 8.3.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes troglodytes)................... 47 8.3.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla)............................ 48 8.3.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus)............................. 49 8.3.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis).................... 50 8.3.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) 51 8.4 Matlab-kod för uträkningar för modellerna............. 52 8.4.1 Matris - Människa mot Schimpans............. 52 8.4.2 Matris - Människa mot Gorilla............... 52 8.4.3 Matris - Människa mot Bonobo............... 53 8.4.4 Matris - Människa mot Svarthandad Gibbon....... 53 8.4.5 Matris - Människa mot Lejon................ 54 8.4.6 Kod för JC69......................... 54 8.4.7 Kod för K80......................... 56 9 Referenser 58 9.1 Referenser för matematiska modeller................ 58 9.2 Referenser för fakta.......................... 58 9.3 Referenser genfrekvens........................ 58 9.4 Referenser för bilder......................... 58 3

1 Inledning Att beräkna avståndet mellan två genfrekvenser är en relativt enkel fylogenetisk analys men ändå väldigt viktig. En viktig del är beräkningar av avstånd mellan sekvenspar. Vilket är de första steget i metoden för konstruktion av avståndsmatrisen inom fylogeni. De består av att klusteralgoritmer som konverterar en avståndsmatris till ett fylogenetiskt träd. De andra viktiga är modeller för markovprocesser av nukleotidsubstitution. Det används i avståndsberäkningarna från basen av maximum likelihood och bayesiansk analys av multipla sekvenser i fylogeni. I det här arbetet har jag till stor del utgått från boken Computational Molecular Evolution av Ziheng Yang. Det är en modern bok som bygger på statistiska och beräkningsmässiga metoder som används i molekylär evolutionsanalys, såsom maximum likelihood, markovprocesser och bayesianska statistik. I boken analyseras molekylär sekvensdata och som vi under de senaste åren fått extremt mycket mer förståelse för. Boken går inte in på djupare matematiska bevis utan håller sig till metoder och hur de beräknas. Det nämns även lite om hur man går till väga för att påbörja byggandet av ett fylogenetiskt träd. Metoderna som studeras i det här arbetet är de två modellerna JC69 och K80. Det används olika metoder så som markovprocesser, maximum likelihoodmetoden och avståndsmetoden. De olika genfrekvenserna som studerats i arbetet kommer från GeneBank och beräkningarna som genomförts har gjorts i datorprogrammet MatLab. 4

2 Biologisk bakgrund Genom matematisk statistik analyseras biologisk data för att få fram sannolikheten av önskad hypotes. För att sedan studera den samt se vad resultatet visar och om hypotesen kan förkastas eller inte. 2.1 Fylogeni Fylogeni är en studie om organismers släktskap där resultaten sammanställs med fylogenetiska träd. Idag studeras släktskap mellan organismer genom att jämföra deras DNA. Längre tillbaka när människan inte hade någon större vetskap om DNA, studerade man de olika organismernas yttre och morfologiska egenskaper. Under de senaste åren har vetenskapen om DNA och den molekylära evolutionen ökat explosionsartat. Detta då kunskapen har ökat något enormt inom det tekniska, vilket gör att det nu går mycket snabbare att ackumulera genetisk sekvensdata, vår förbättring inom hårdvara och mjukvara samt utvecklingen av analysmetoder. Den stora ökningen av genomisk data kräver kraftfulla statistiska modeller och datorer för att de ska kunna analyseras och tolkas. Tre termer som ofta används inom fylogeni är monofyli, parafyli och polyfyli. Monofyli är de som omfattar ättlingar, det vill säga de närmsta individerna med gemensam stamfader och gemensamma förfäder. Parafyli är när en grupp bestående av ättlingar till en stamfader men i denna grupp ingår inte alla ättlingar utan vissa kan uteslutas på grund utav olika anledningar. Polyfyli är en grupp som är besläktade men inte nära, det vill säga de har en avlägsen gemensam stamfader. De vetenskapliga metoderna som används inom fylogenetik brukar grupperas i vad som benämns kladistik. Skillnaden mellan fylogenetik och kladistik är att fylogenetik kan innehålla hypoteser om släktskap, medan kladistik istället tillämpas mer vetenskapligt som till exempel i matematiska modeller. Vanliga vetenskapliga modeller som används inom kladistik är maximum likelihoodmetoden och markovprocesser med en bayesiansk inferens. Markovprocesser och maximum likelihood-metoden är de metoder som kommer att studeras i det här arbetet. Inom fylogeni och kladistik studeras homologa egenskaper hos organismer. Organismer som har homologa egenskaper anses vara närmare besläktade och tvärtom, färre likheter mer avlägsna från varandra. Inom detta konstruerar man träd för att på ett enkelt sätt se hur organismer är besläktade, de benämns fylogenetiska träd eller kladogram. Dessa två är väldigt lika varandra, de som bland annat skiljer dem åt är att i ett fylogenetiskt träd indikerar grenarna på olika tidsförhållanden. 2.2 DNA DNA är en förkortning av deoxyribonucleic acid och är det ämne i en organism som bär på den genetiska informationen. DNA-molekylens viktigaste funktion är att lagra information om organismens funktioner och utveckling. DNA innehåller 5

all information om hur organismen ska konstruera och hur den ska bygga upp alla ämnen. Därför kan DNA kallas för kroppens alldeles egna receptbok. En DNA-molekyl har två strängar, så kallade polymer, som i sin tur är uppbyggda av nukleotider. En nukleotid består av en kvävebas och en pentos. Där det är kvävebaserna som innehåller den genetiska koden. Det nns fyra olika typer av kvävebaser, Adenin (A), Cytosin (C), Guanin (G) och Tymin (T). De fyra nukleotider kan inte kopplas samma hur som helst, adenin och tymin kopplas ihop samt cytosin och guanin kopplas ihop. Fig.1 En DNA spiral som delas och som visar alla fyra nukleotider samt hur de kopplas samman. 2.3 Protein och nukleotider Ett protein är en lång kedja bestående av aminosyror. En aminosyra är kemiska föreningar mellan en aminogrupp och en karboxylgrupp. Det nns en stor mängd olika aminosyror men alla nns inte levande i organismers celler. När det pratas om levande organismer säger man att det existerar 20 aminosyror, det nns dock enstaka undantag för några få organismer. Ett protein byggs upp inuti en cell i två steg. I det första steget transkriberas proteinet och det benämns även för RNA-syntes. Detta är en process där den genetiska informationen i en cells DNA kopieras och skapar ett RNA. RNA är som DNA uppbyggt av nukleotider. Nukleotiderna är nästintill lika som de som används för DNA, det som skiljer är att tymin (T) har ersatts av uracil (U). När själva transkriptionen sker delar sig DNA-strängen för att den ska kunna bilda en mall för RNA:t. Nukleotiderna A, C, G och T i DNA-kedjan kommer att ge upphov till U, G, C och A på motsvarande plats i RNA-molekylen. Denna typ av RNA benämns för mrna som är förkortning för messenger RNA och agerar som förnamnet säger som budbärare mellan cellkärnan och ribosomerna. I andra steget translaterar mrna i ribosomerna till aminosyror. Det är alltså här som aminosyrorna sätts samman till det färdiga proteinet. Translationen sker så att nukleotiderna kopplas ihop och läses av tre och tre, där tre nukleotider kodar tillsammans för en specik aminosyra. En grupp av tre nukleotider benämns för ett kodon och det nns 4 3 = 64 möjliga kombinationer. Det nns dock bara 20 olika aminosyror, så olika kodon kan koda för samma aminosyra. Det nns ett startkodon som startar translationen och tre stoppkodon som gör att translationen avbryts. 6

2.4 Kodonbias Det nns fördelar med att en aminosyra svara för er än ett kodon, en anledning är att den blir mer tålig mot mutationer. Det förekommer nämligen främst att det är den sista nukleotiden som har översatts felaktigt utav de tre nukleotiderna. Organismer fungerar så nurligt att den sista nukleotiden sällan har någon större betydelse för vilken aminosyra den kodar för. Det är alltså de två första nukleotiderna som till största del är avgörande för vilken aminosyra den kodar för. Studeras till exempel aminosyran alanin och dess genetiska kod så är den GCU, GCC, GCA och GCG. Här ser man tydligt att de två första nukleotiderna är densamma varav den sista varierar och alla kodar ändå för alanin. Det är dock inte alltid så simpelt, organismer har listigt nog gjort att aminosyror med liknande kodon generellt har relativt lika egenskaper. Vilket därför sällan gör någon större skillnad om ett kodon blir fel då aminosyran oftast har likvärdiga funktioner som den tilltänkta aminosyran. Därav kan proteinet relativt ofta fungera som de ska ändå. Kodonbias är alltså de praktiska som organismen skapat som gör att relativt små skillnader i ett kodon sällan har någon större betydelse för de kodande DNA:t. Kodonbias kan även förekomma i övergångarna mellan olika nukleotider och göra att det inte sker likformigt. Övergångarna delar man i transition och transversion. Först delas nukleotiderna in i två grupper, puriner och pyrimidin. Nukleotiderna A och G är puriner som är heterocykliska kväveföreningar som är uppbyggda av två ringar. C och T är pyrimidin och är även dem heterocykliska föreningar men är endast uppbyggd av en ring istället. Övergångarna inom grupperna purin och pyrimidin är transitioner och övergångar mellan de två grupperna är transversioner. Fig.2: Bilden visar vilka övergångar mellan nukleotider samt vilka som är transition och transversion. De blåa pilarna är transversion och de röda är transition. 3 Modeller för nukleotidsubstitution Här kommer två modeller för nukleotidsubstitution att studeras steg för steg. Den första heter Jukes-Cantor modellen, JC69, och är en av enklare modeller för 7

nukleotidsubstitution. Den andra heter Kimura modellen, K80, och är fortfarande relativt enkel men något mer avancerad än Jukes-Cantor modellen. Figur 3, nedan, illustrerar övergångarna mellan de fyra nukleotiderna samt hur transition och transversion har lite olika betydelse mellan de två modellerna. För JC69- modellen har samtliga övergångar samma frekvens, a. För K80-modellen skiljer sig övergångarna, transitioner har frekvens a och transversioner har frekvens b. Fig.3: Visar hur övergångarna är för modell K80. JC69 är liknande bara att alla övergångar är α, det vill säga β = α. 3.1 JC69 (Jukes and Cantor 1969) JC69 antar att alla nukleotidsekvenser har samma frekvens, λ, av en förändring till en annan nukleotid. Frekvensen q ij = ögonblicksfrekvensen av substitution f rån nukleotid i till j, där i, j = T, C, A och G. Matris (1), nedan, har ordningen T, C, A och G för nukleotiderna. Varje matrisrad måste ha summan noll. Den totala substitutionskvoten för bytet av nukleotid, i, är 3λ vilket i matrisen står för q ii. Det är q ii som motsvarar substitutionfrekvensen för nukleotid, i, det vill säga frekvens det tar för markovkedjan att lämna tillståndet i. Frekvensmatrisen är Q = {q ij } = 3λ λ λ λ λ 3λ λ λ λ λ 3λ λ λ λ λ 3λ (1) Övergångsmatrisen är P (t) = {p ij (t)}. Övergångssannolikheten, p ij (t), är sannolikheten där given nukleotid, i, vill bli nukleotid, j, över tiden, t. Beräkningen på övergångsmatrisen ger som följer P (t) = { p ij (t) } = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) (2) 8

där övergångssannolikheten är { p 0 (t) = 1 4 + 3 4 e 4λt p 1 (t) = 1 4 1 4 e 4λt (3) Beräkningar görs på övergångsmatrisen P (t) och en matris exponentiellt genom taylorutveckling. Denitionen för taylorutveckling följer P (t) = e Qt = I + Qt + 1 2! (Qt)2 + 1 3! (Qt)3 + 1 4! (Qt)4 +... (4) En taylorutveckling på nukleotider är varken avancerad eller tidskrävande då matrisen generellt är förhållandevis liten. Emellertid kan denna metod bli mer kostsam och ostabil om man gör det för någon aminosyra eller för ett kodon då det ger en mycket större matris. En matris för en aminosyra är storlek 20 x 20 och för ett kodon 61 x 61. Från matris (2) kommer i att för varje plats vara någon nukleotid i en lång sekvens under tiden, t. Den andra nukleotiden j i en sekvens kommer att vara p ij (t), där j = T, C, A, G. Summan av varje radmatrisen är ett, P (t) = 1. För tiden noll, t = 0, är blir övergångsmatrisen identitetsmatrisen, P (0) = I. De nns två generella modeller för markovkedjor. Den första är den generella tidsövergångsmodellen och den andra är den generella otvungna modellen. Notera att markovprocesser klassiceras beroende på om tiden på tillståndet är diskret eller kontinuerligt. Den teori som visas här, för JC69, är en relativt enkel modell där utbytet sker mellan aminosyror och kodon. När t är p ij (t) = 1 4 för alla i och j. Detta visar när en substitution har inträat många gånger på varje plats, så att den slutliga nukleotiden är slumpmässig med sannolikheten 1 4 för varje nukleotid oberoende från vart man började. Sannolikheten att kedjan är i tillståndet j när t betecknas för π j. Distributionen är (π T, π C, π A, π G ) och benämns för limiting distribution. För JC69 är π j = 1 4 för varje nukleotid j, där jämviktdistributionen blir π = ( 1 4, 1 4, 1 4, 1 4 ). Detta ger πq = 0 givet att i π i = 1. Om det nns en markovkedja med era tillstånd används följande ekvation, även kallad för Chapman-Kolmogorov teoremet p ij (t 1 + t 2 ) = k p ik (t 1 )p kj (t 2 ) (5) Sannolikheten att nukleotid i blir nukleotid j under tiden t 1 + t 2 är summan av alla möjliga tillstånd, k, vid varje mellanliggande tidpunkt t 1. Det är avståndet mellan dessa två sekvenser som ska beräknas. Från frekvensmatrisen, matris (1), får man den totala substitutionsfrekvensen för någon nukleotid, som är 3λ. Därav kan avståndet mellan två sekvenser beräknas till d = 3λt. Där d är avståndet, t är tiden och λ är frekvensen. Antag att x utav n platser är olika mellan två sekvenser, då kommer proportionen av dierensen av platserna att bli ˆp = x n. Detta är sannolikheten, p, för att en plats har olika nukleotider mellan de två sekvenserna med ett avstånd, d, som ger följande p = 3p 1 (t) = 3 4 3 [ ] d 4 e 4λt = 3 = λt = 3 4 3 4 e 4d/3 (6) 9

Beräkning för att räkna ut den uppskattade avståndet är Vidare förenklingar ger ˆp 3 4 = 3 4 e 4 ˆd/3 1 4 ˆd/3 ˆp = e 4 3 log(1 4 3 ˆp) = log(e 4 ˆd/3 ) log(1 4 ˆd ˆp) = 4 3 3 3 4 log(1 4 ˆp) = ˆd 3 Följande blir den slutgiltiga uppskattningen för avståndet ˆd = 3 4 log(1 4 ˆp) (7) 3 När ˆp > 3 4 går de skattade avståndet inte att tillämpas, två slumpmässiga sekvenser bör alltså ha omkring 75% olika platser. När ˆp < 3 4 är de skattade avståndet oändligt. Sannolikheten, p, är binomial i förhållande till variansen, ˆp(1 ˆp) n. Variansen av de skattade avståndet, ˆd, ska nu härledas, där ˆd är en funktion av den skattade sannolikheten, ˆp. Gauss-approximationen används för att räkna ut variansen. var( ˆd) = var(ˆp) ˆd ˆp(1 ˆp) = dˆp n 1 (1 4ˆp 3 )2 (8) Gauss-approximationen används som en generell riktlinje för att derivera väntevärdet, variansen och kovariansen av funktion med slumpmässiga variabler. Där en icke-linjär funktion, f(x), där x är en slumpmässig variabel som har väntevärdet är µ och variansen är σ 2. Följande gäller E(f(x)) fe((x)). När n är ett positivt heltal, kan taylorutvecklingen skrivas som följande med ordningen n och funktionen, f, där f(x) = T n (x) + R n (x) T n (z) = f(a) + f (a) 1! (z a) + f (a) 2! (z a) 2 +... + f (n) (a) (z a) n (9) n! Taylorutvecklingen ska nu tillämpas på Gauss-approximation. Taylorutveckling av f(x) runt väntevärdet µ ger f = f(x) = f(µ) + df(µ) dx (x µ) + d2 f(µ) 2! dx 2 (x µ)2 +... (10) Funktionen, f, och derivatorna är ekvivalent med x = µ. Alla termer med exponent tre eller högre ger ett väntevärde för funktionen. Det approximerade väntevärdet för funktionen, f, blir 10

E(f) f(µ) + 1 d 2 f(µ) 2 dx 2 σ 2 Där E(x µ) = 0 och E(x µ) 2 = σ 2. Derivatan är ekvivalent med x = µ och de är konstant där när man tar förväntade värden över x. Den approximerande variansen av funktionen, f, och den uppskattade parametern x. var(f) E(f E(f)) 2 σ 2 [ df(µ) dx Efter att ha räknat ut variansen av den skattade sannolikheten, ˆp, var( ˆp) = ˆp(1 ˆp) n, och variansen av det skattade avståndet, ˆd, var( ˆd) = ˆp(1 ˆp) 1 n (1 4ˆp/3), 2 â kan man beräkna derivatan av dem, ˆd âˆp = 1. Slutligen tillämpas detta (1 4 ˆp 3 ) tillsammans med ett approximerat 95%-kondensintervall, ˆd ± λ0.025. ε. Där ε är de standard felet, ε = var( ˆd), och där signikansnivån på 95% ger λ 0.025 = 1.96. Olika signikanta nivåer och dess värden kommer från tabell som ligger under bilagor, bilaga 8.1. 3.2 K80 (Kimura 1980) I K80 modellen nns en substitution mellan antingen två pyrimidin (heterocyklisk förening, cytosin och tymin) T C eller mellan två puriner (heterocyklisk kväveförening, har två ringar, adenin och guanin) A G. När någon av dessa två sker benämns det för transition. Substitutioner sker mellan pyrimidin och puriner (T, C A, G) och det benämns för transversioner. I verkligheten uppkommer transitioner med högre frekvens än transversioner. Alltså notera att transitionen och transversionen inom biologin inte har exakt samma sannolikhet som för modellerna. Substitutionsfrekvensen för transitionen kallas för α och för transversionen β. Frekvensmatrisen blir som följer ] Q = {q ij } = (α + 2β) α β β α (α + 2β) α β β α (α + 2β) α β β α (α + 2β) (11) Den totala substitutionsfrekvensen för någon nukleotid är α+2β. Där avståndet mellan två sekvenser multipliceras med tiden t, vilket ger avståndet d = (α + 2β)t. Där αt är det förväntade värdet transitioner per plats och 2βt är det förväntade värdet för transversioner per plast. Oftast används avståndet, d, eller transitions-/transversionsfrekvenskvoten, κ = α β. Jämviktsfördelningen för K80 är identisk som för JC69, alltså π = ( 1 4, 1 4, 1 4, 1 4 ). Där πq = 0 givet att i π i = 1. Övergångsmatrisen är följande 11

P (t) = {p ij (t)} = e Qt = p 0 (t) p 1 (t) p 2 (t) p 2 (t) p 1 (t) p 0 (t) p 2 (t) p 2 (t) p 2 (t) p 2 (t) p 0 (t) p 1 (t) p 2 (t) p 2 (t) p 1 (t) p 0 (t) (12) De tre olika övergångssannolikheterna, p, som nns i matrisen beräknas via taylorutveckling, se ekvation (9), och blir med de nya värdena. p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+2β)t = 1 4 + 1 4 e 4d(κ+2) + 1 2 e 2d(κ+1)/(κ+2) p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+2β)t = 1 4 + 1 4 e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) p 2 (t) = 1 4 1 4 e 4βt = 1 4 1 4 e 4d(κ+2) (13) Summan av en radmatris måste bli värdet ett, det vill säga p 0 (t) + p 1 (t) + 2p 2 (t) = 1. Denna datasekvens kan nu delas in i andelar av transitional och transversional dierens, de kommer att få betäckningarna S och V. Genom symmetrin i modellen och matris (12) blir sannolikheten för uppkomsten av en plats nukleotider den transitionala dierensen E(S) = p 1 (t) och transversionala dierensen E(V ) = 2p 2 (t). Där det skattade avståndet, ˆd, samt de skattade transitions-/transversionsfrekvenskvoten, ˆκ, ger p = p 1 (t) + 2p 2 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+2β)t + 2( 1 4 1 4 e 4βt ) = 1 4 +1 4 e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) +2( 1 4 1 4 e 4d(κ+2) ) = 3 4 1 4 e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) Det skattade avståndet, ˆd, blir ˆd = 1 2 log(1 2S V ) 1 log(1 2V ) (14) 4 Där det skattade transitions-/transversionsfrekvenskvoten, ˆκ, blir ˆκ = 2log(1 2S V ) log(1 2V ) 1 (15) Transitionsavståndet är ekvivalent med αt och transversionsavståndet med 2βt och är skattade till följande αt = 1 2 log(1 2S V ) + 1 log(1 2V ) (16) 4 2 βt = 1 log(1 2V ) (17) 2 12

Transitionsavståndet gäller endast om 1 2S V > 0 samt 1 2V > 0. S och V får följande varianser var(s) = S(1 S) n och var(v ) = V (1 V ) n. Det ger en kovarians på cov(s, V ) = SV n. Därefter används Gauss-approximationen, se ekvation (10), och deriverar varians-kovariansmatrisen. Varians-kovariansmatrisen ser ut som följer ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) (18) där n står för antal platser i sekvensen. En skattning görs av ˆd och ˆκ på en funktion av S och V. Tillämpningen blir följande var( ˆd ˆκ ) = J var( S V ) J T (19) J står för en Jacobimatris av en anpassad storlek m x n. Här blir Jacobianen följande J = = ( 1 1 2S V ( ˆd S ˆκ S ˆd V ˆκ V ) 1 2(1 2V ) + 1 2(1 2S V ) 4 (1 2S V )log(1 2V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 Det gör att att variansen av ˆd slutligen kan deriveras. Så ) (20) var(f) n n i=1 j=1 cov(x i, x j )( f x i )( f x j ) (21) som är variansen av ett enkelvärdesfunktion av f(x) approximerat av x. Där cov(x i, x j ) är kovariansen av x i och när i j och när i = j blir det variansen istället. Därefter får man var( ˆd) =( ˆd ˆd )var(s) + 2 S S ˆd ˆd cov(s, V ) + ( V V )2 var(v ) = [ a 2 S + b 2 V (as + bv ) 2] /n (22) där a och b står för följande a = (1 2S V ) 1 (23) b = 1 2 [ (1 2S V ) 1 + (1 2V ) 1] (24) 13

Till sist kan man använda det man beräknat och tillämpa de i ett approximerat 95%-kondensintervall ˆd±λ 0.025. ε. Avståndet och standard felet räknas ut ifrån S och V. Det går även att studera transitionsfrekvensen för att se hur mycket större eller mindre den är jämfört med transversionsfrekvensen. 3.3 Generellt för båda modellerna Låt tillståndet i kedjan vid tidpunkt t så den blir X(t). X(t) är en av de fyra nukleotiderna A,T,C eller G. Antag att alla positioner i en DNA-sekvens utvecklas oberoende och att markovprocessen används för att beskriva nukleotidsubstitutionerna för alla positioner. Där är P r {X(t + t X(t) = i} = q ij t om markovprocessen q ij beror av tiden t. Beror q ij inte av tiden, t, säger man att den är tidshomogen. Den generella modellen utan några begränsningar av uppbyggnaden utav frekvensmatrisen, Q, kommer att bestå av 12 fria parametrar. Den angivna frekvensmatrisen, Q, över någon tid t > 0 : P (t) = {p ij (t)}, där p ij (t) = P r {X(t) = j X(0) = i}. P (t) ger alltså följande ekvation dp (t) = P (t)q, (25) dt med ett randvillkor på P (0) = I, där I är identitetsmatrisen. Detta ger i sin tur lösningen P (t) = e Qt (26) Frekvensmatrisen, Q, och tiden, t, är en produkt där Q varierar i olika skalfaktorer att den genomsnittliga frekvensen blir ett. Markovkedjan X(t) har en initial fördelning π (0) = (π (0) T, π(0) C, π(0) A, π(0) G ), medan tiden t har fördelningen π (t) = (π (t) T, π(t) C, π(t) A, π(t) G ), vilket ger följande π (t) = π (0) P (t) (27) Ett exempel om man tar ekvation (27) med nukleotiden T som slutpunkt och ett initialvärde på noll. Får man ekvationen π (t) = (π (0) T T, π(0) CT, π(0) AT, π(0) GT ). När den initiala och slutliga fördelningen är ekvivalenta, det vill säga π (0) = π (t), så kommer kedjan att stanna i fördelningen i en oändlighet. Då säger man att kedjan är stationär eller att den är i jämvikt. Man säger även att fördelningen π är stationär eller i steady-state fördelning. Markovkedjan gör att alla tillstånd kan anta vilket annat tillstånd inom en ändlig tid med en positiv sannolikhet. Denna kedja säger man är irreducibel och har då en unik stationär fördelning, vilket också är begränsad fördelning när tiden t. Från ekvation (27) är följande ekvivalent πq = 0 (28) Notera att de totala ödet av något j är i j π iq ij medan det totala utödet är för något j är π j q jj. När kedjan är stationär kommer detta tillsammans med ekvation (28) att vara identiska, alltså i π iq ij = 0 för något j. Ekvation (28) tillsammans med π j 0 och j π j = 1 ger oss möjlighet att bestämma den stationära fördelningen från Q för någon markovkedja. 14

3.4 Avståndsuppskattning med UNREST UNREST är en generell modell för nukleotidsubstitution med en frekvensmatris, Q, utan några större begränsningar och med 12 parametrar. Frekvensmatrisen, Q, denieras av den relativa frekvensen där 11 parametrar är involverade. Modellen implementerades av Yang (1994b) för att uppskatta avståndet av sekvenser som använder två grenlängder, t 1 och t 2. Maximum likelihood-metoden ger den multinomiella sannolikheten med 16 olika cellerna, där de 16 cellerna motsvarar 16 möjliga kombinationer. Låt funktionen f ij (t 1, t 2 ) vara sannolikheten för den ij-te cellen, det vill säga den sannolikhet för att någon plats har nukleotid i i ena sekvens och nukleotid j i den andra sekvens. Då de fyra möjliga nukleotiderna härstammar från förfäder måste den genomsnittliga beräknas över dem f ij (t 1, t 2 ) = k π k p ki (t 1 )p kj (t 2 ) (29) Låt n ij vara antalet platser i den ij-te cellen. Då blir logaritmen av maximum likelihood-metoden som följer l(t 1, t 2, Q) = i,j n ij log{f ij (t 1, t 2 )} (30) Frekvensparametrarna π T, π C, π A, π G denieras från frekvensmatrisen, Q, med hjälp av ekvation (30) och de är inte fria parametrar. Det nns dock två problem med denna modell som därför inte alltid gör att den är helt lämplig att tillämpa. Det ena problemet är att den numeriska metoden som används för att hitta maximum likelihood-metodens parametrarna där ingen analytisk lösning verkar möjlig. Egenvärdena för frekvensmatrisen Q tar nämligen inte hänsyn till komplexa tal. Den andra anledningen är att den typiska datamängderna sällan är tillräckliga för att ge otillräckligt med information för att kunna skatta parametrarna. 4 Maximum likelihood-metoden Generellt används maximum likelihood som en metod för att skatta parametrar i en modell och för att testa hypoteser om parametern. Denna metod har många användningsområden och inom molekylärfylogeni har den en viktig roll. Här används maximum likelihood-metoden för att uppsatta avståndet i en sekvens. Låt X vara vår data och θ den parameter som man vill skatta. Maximum likelihood-funktionen betecknas som följande L(θ; X) = f(θ X). Den kan med ord förklaras så att sannolikheten av den observerade informationen är X med en studerad funktion av en okänd parameter θ, med en given data. Likelihoodprincipen säger att maximum likelihood-funktionen har all information i data om θ. 15

4.1 JC69 Vid användning av maximum likelihood-metoden för JC69 skattas avståndet mellan sekvenser och parametrar, där avståndet är d. Data för två sekvenser som vardera har n platser och x antal skillnader mellan de två sekvenserna. Detta är sannolikheten p för att en plats har olika nukleotider mellan de två sekvenserna med en avståndet d, som ger följande p = 3p 1 (t) = 3 4 3 4 e 4d/3 (31) Sannolikheten för den observerade data, x, som är antal skillnader mellan de två sekvenserna och består av n antal platser, får man genom den binomial sannolikheten. L(d; x) = f(x d) = Cp x (1 p) n x = C( 3 4 3 4 e 4d/3 ) x ( 1 4 + 3 4 e 4d/3 ) n x (32) Sannolikheten av den observerade data, x, skrivs som en funktion utav parametern d, det vill säga avståndet. Värden för avståndet, d, med ett högt värde av maximum likelihood, L, stöds bättre än för låga värden för maximum likelihood, L. Ekvation (32) ska nu kompletteras. Först adderas den binomiala koecien- [ ten, C = n! x!(n x)! ], men eftersom det är en konstant och kan den förkastas. Samma denition kommer därför att användas för samtliga substitutionsmodeller och där det nns 16 möjligheter istället för två stycken som i ekvation (32), p och 1 p. I JC69 nns fyra konstanta mönster (TT, CC, AA, GG) där alla har samma sannolikhet att inträa, där det är lika för de andra 12 möjligheterna (TC, TA, TG etc.). Detta är en omdenierad multinomial sannolikhet för 16 celler L(d; x) = ( 1 4 p 1) x ( 1 4 p 0) n x = ( 1 16 1 16 e 4d/3 ) x ( 1 16 3 16 e 4d/3 ) n x (33) Parametrarna p 0 och p 1 kommer från den tidigare ekvation (3). De andra 12 möjligheterna har en sannolikhet på p1 4 eller p 12. Då blir sannolikheten för den första nukleotiden 1 4, då det existerar fyra möjligheter (A, T, C, G). Sannolikheten att det sker en transition är p 1, detta tillsammans blir då p1 4. Är det istället en transversion blir det istället p0 1 p 4 och 12. Det går enkelt att se hur ekvationerna (32) och (33) enbart skiljer sig på proportionerna av konstanterna. Sannolikheten för maximum likelihood, L, är väldigt små och blir därför ganska besvärliga att arbeta med. Det är därför vanligt att man istället använder logaritmen, l(d) = log {L(d)}. Logaritmfunktionen är monoton och den uppnår samma resultat som är L(d 1 ) > L(d 2 ) om och endast om l(d 1 ) > l(d 2 ). Logaritmfunktionen blir följande l(d; x) = log {L(d; x)} = x log( 1 16 1 16 e 4d/3 )+(n x)log( 1 16 + 1 16 e 4d/3 ) (34) 16

Genom att dl dd = 0 kan man bestämma att logaritmen, l, är maximerad av maximum likelihood, L. Därifrån kan man få det skattade avståndet, d, ˆd = 3 4 log(1 4 x 3 n ) (35) Detta är precis lika som avståndet i ekvationen (7) för JC69-modellen som deriverades och hade i den ekvationen ˆp = x n. 4.2 K80 K80-modellen har era parametrar än JC69, vilket gör att maximum likelihoodmetoden behöver justeras lite i jämfört med det tidigare avsnittet. Maximum likelihood-metoden tillämpas för att uppskatta sekvensens avstånd, d, samt transitions-/transversionsfrekvensens förhållande till, κ. Informationen som krävs för metoden är antalet nukleotider, n, samt antalet antalet övergångar, n S, och antalet transversionaler, n V. Sannolikheten beräknas för en konstant plats (exempelvis T T ) är p0 4, och sannolikheten för en transitions skillnaden (exempel TC) är p1 4. Till sist är sannolikheten för en transversell skillnad (till exempel TA) p2 4. I ekvation (13) anges vad p 0, p 1 och p 2 står för. Log-likelihood är l(d, κ n S, n V ) = log{f(n S, n V d, κ)} =(n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) Maximum likelihood-metoden av avståndet, d, och transitions- /transversionsfrekvenskvoten, κ, härleds genom l l d = 0 och κ = 0. Detta kan lösas med ekvation (15), S = n S n och V = n V n. 5 Uppbyggnad av fylogenetiska träd Det kommer att visas i en enklare grad hur man konstruerar och skapar fylogenetiska träd. Ett fylogenetiska träd är en trädliknande graf där man ingående studerar relationer mellan arter, gener eller individer. Inom matematiken byggs grafer upp med hörn och kanter som bygger upp trädet bildligt. Här kommer det att skrivs om fylogeniträd uppbyggnad av arter. När ett träd konstrueras för arter kommer de externa noderna, eller löven som de också kallas, att representera de arter som existerar idag och de interna noderna är arter som är utdöda. Slutligen vid roten av de fylogenetiska träd nns förfäderna. Träden ritas vanligtvis med roten högst upp där de interna noderna infaller nedanför och avslutas trädet med de externa noderna. Det är så generellt träden är uppbyggda, men det nns såklart era modeller utav uppbyggnad av träd. Ett träd kan till exempel vara orotad, då är man inte är säker på vilken förfadern är. Det ger trädet en lite mer rundare form. Har man en evolutionsfrekvens som är konstant över tiden så kallar man det för den molekylära klockan. Då avståndsmatrisen och maximum likelihood-metoden identierar roten och sedan 17

konstruerar trädet. Utan den molekylära klockan är de svårt att identiera roten, vilket gör det svårare att skapa ett träd. I ett fylogenetiskt träd brukar man kalla de närmsta besläktade arterna för ingrupper och de som är släkt på lite längre håll för utgrupper. Två vanliga trädtyper är kladogram och fylogram. Ett kladogram är ett träd som inte visar någon information av grenarnas längd medan ett fylogram ger information genom grenarnas längder. 5.1 Avstånd mellan arter Avståndsmetoder innebär två steg; beräkning av genetiska avstånd mellan två arter och rekonstruktion av ett fylogenetiskt träd från en avståndsmatris. En av de simplare avståndsmetoden är kanske UPGMA (Sokal och Sneath 1963). Denna metod är baserad på den molekylära klockans antagande och genererar rotade träd. Det är tillämpligt på befolkningsuppgifter och används sällan för att analysera data arter, eftersom klockan ofta krävs när sekvenserna är avvikande. En metod som inte kräver den molekylära klockans antagande är den minstakvadratmetoden. 5.1.1 Minstakvadratmetoden Minstakvadratmetoden tar den parvisa avståndsmatrisen, med given data, och uppskattar grenarnas längd på ett träd genom att para ihop deras avstånd så noga som möjligt. Det görs genom att minimera summan av kvadratskillnaden mellan det förutbestämda avståndet, d, och det skattade avståndet, ˆd. De förutbestämda avståndet beräknas genom att summera grenarnas längd mellan två gränsande arterna. Låt avståndet mellan art i och j vara d ij. Låt summan av grenarnas längd från art i till j vara ˆd ij. Därefter används minstakvadratmetoden för att minimera summan över samtliga par i och j med kvadratskillnaden (d ij ˆd ij ) 2, så att trädet passar avståndet så mycket som möjligt. Summan av kvadratskillnaden är som följer S = i<j(d ij ˆd ij ) 2 (36) 18

Om man exempelvis har fyra arter a, b, c och d som bildar följande träd Fig.4: Ett artträd som demonstrerar för minstakvadratmetoden där kriterier för grenarna ((a, b), c, d) Trädet består av fem grenar, t 0, t 1, t 2, t 3 och t 4. Det förutsagda avståndet mellan till exempel a och b är t 1 + t 2 medan för a och c är avståndet t 1 + t 0 + t 2. För a och d är avståndet t 1 + t 0 + t 4, för b och c är avståndet t 2 + t 0 + t 3 och till sist är avståndet för c och d är lika med t 3 + t 4. Summan av kvadratskillnaden för detta fall är följande S = (d ij ˆd ij ) 2 = (d 12 ˆd 12 ) 2 i<j +(d 13 ˆd 13 ) 2 + (d 14 ˆd 14 ) 2 + (d 23 ˆd 23 ) 2 + (d 24 ˆd 24 ) 2 + (d 34 ˆd 34 ) 2 5.2 Maximum likelihood-metoden - er generationer Här diskuteras och beräknas sannolikheten för multipla sekvenser på ett fylogenetiskt träd. Detta kommer att ske som en naturlig förlängning från de tidigare beräkningar av avståndet mellan två sekvenser. Boken går igenom två sätt att beräkna detta på, men i det här arbetet blir det bara fokus på en av möjliga metoder. Den metoden uppskattar parametrar i den evolutionära modellen och testar en hypotes om den evolutionära processen när en trädtopologi är känd samt xerad. Där tillämpas maximum likelihood-metoden som har många bra statistiska egenskaper och som ger en kraftfull och exibel för denna analys. 5.2.1 Likelihood beräkningar på träd Som det tidigare förklarades denierar maximum likelihood-metoden sannolikheten för att observera data för en given parameter, även fast de anses vara en funktion av parametrar. Här kommer man att utgå från K80 metoden. Man utgår från att de olika platserna utvecklas oberoende av varandra och att en gren är oberoende av en annan gren. 19

Fig.5: Ett träd med 5 arter som används för att demonstrera exemplet som används under maximum likelihood-funktionen. Grenarnas längd är mätta med förväntat antal nukleotid substitutioner per plats. Förfäderna i trädet i Figur 5 är noderna 0, 6, 7 och 8, där 0 är roten. Grenarnas längder betecknas t i, där i står för noden grenen går till. Parametrarna i modellen inkluderar grenarnas längd och dess transition-/transversionsfrekvensen, κ, med gemensamma betäckningar θ = {t 1, t 2, t 3, t 4, t 5, t 6, t 7, t 8, κ}. Eftersom antagandet av en oberoende evolution mellan platserna där sannolikheten av hela datasekvensen är produkten av sannolikheten för enskild individs plats. Detta är ekvivalent med logaritmen av maximum likelihood-metoden är summan över platserna i sekvensen. 6 Resultat l = log(l) = log{f(x n θ)} 6.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes) Här jämförs genfrekvensen D38112 hos en människa med en schimpans. Genfrekvensen nns under bilagor, bilaga 8.3.1. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 956 stycken. Tabell 1 är lätt avrundad med små modieringar. 20

Människa Schimpans T C A G π T 195(0.2039) 15(0.0157) 0(0) 4(0.0042) 0.2238 C 9(0.0094) 247(0.2584) 2(0.0021) 0(0) 0.2699 A 0(0) 0(0) 309(0.3232) 0(0) 0.3232 G 0(0) 0(0) 6(0.0063) 169(0.1768) π 0.2133 0.2741 0.3316 0.1810 0.1831 1 Tabell 1. Tabell 1 visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Det genomsnittliga värdet på frekvensen för de olika nukleotiderna är T = 0.21855, C = 0.24685, A = 0.30075 och G = 0.18205. 6.1.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda i det här fallet är n = 956. De nukleotider som skiljer sig från varandra summeras ihop, x = 2+ 6+9+15+4 = 36. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = 36 956 = 0.03765690377. De skattade avståndet beräknas från ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = 0.03863515. Därefter räknas variansen ut från ekvation (8), var( ˆd) = ˆp(1 ˆp) n 1 = 0.00004202. Variansen behövs för att kunna räkna ut (1 4 3 ˆp)2 var( ˆd) = standardfelet, som är roten ur på variansen, så standardfelet blir ε = 0.0064823. Till sist tillämpas ett approximerat 95%-kondensintervall { 0.0513405 ˆd ± λ 0.025 ε = 0.0259298 där λ 0.025 = 1.96, värdet nns i tabellen under bilagor, bilaga 8.1. Om variansen istället räknas ut med sannolikheten, p, från ekvation (8), var(ˆp) = ˆp(1 ˆp) n = 0.0000379. Det nya standardfelet räknas ut till ε = var(ˆp) = 0.006157 och de approximerade 95%-kondensintervallet blir { 0.0507026 ˆd ± λ 0.025 ε = 0.0265677 Från ekvation (33) kan man räkna ut maximum liklihood där p : ˆp = x n l( ˆd) =l(ˆp) = x log( x 12n 36 =36 log( 12 956 ) + (n x) log(n x 4n ) ) + (956 36) log(956 36 4 956 ) = 1518.213558 21

Genom att sänka värdet av log-likelihood till χ 2 1,5% från toppen skapas ett approximerat 95%-kondensintervall för avståndet, d, och sannolikheten, p. Den generella formen är χ 2 k,5% där k står för grad av frihet och det står för antalet parametrar. Då får vi χ 2 1,5% /2 = 3.841/2 = 1.921, vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = 1520.134559. Därefter görs en fplot av maximum likelihoodfunktionen av avståndet, d. Därefter studeras intervallet för avståndet, d, under χ 2 1,5% som blir l(d) = 1520.134559. Fig 6: Graf av loglikelihood-funktionen över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Grafen ger oss ett intervall för avståndet, d, på (0.02659, 0.05104). Gör man en fplot på maximum likelihood av sannolikheten, p, istället och studerar intervallet för det under χ 2 1,5%, l(p) = 1520.134599. Fig 7: Graf av loglikelihood-funktionen över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, blir som följer (0.02714, 0.0506). 22

P (t) = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheterna blir { p 0 (t) = 1 4 + 3 4 e 4λt = 1 4 + 3 4 e 4d/3 = 0.962343 p 1 (t) = 1 4 1 4 e 4λt 1 4 1 4 e 4d/3 = 0.0125523 En kontroll görs, p 0 + 3 p 1 = 1, och det visar att det stämmer. 6.1.2 K80-modellen Här beräknas K80-modellen för samma data som för JC69. Beräkningarna för K80 blir bara lite mer precisare än för JC69. Istället för att endast räkna alla nukleotider som skiljer sig från varandra delar man upp de i två grupper, transitions och transversions skillnad. Andelen av alla transitions skillnader blir S = (9 + 15 + 6 + 0)/956 = 30/956 = 15/478 och transversions skillnaden blir V = (0 + 0 + 0 + 0 + 2 + 4 + 0 + 0 + 0)/956 = 6/956 = 3/478. Efter detta beräknas de skattade avståndet ut från ekvation (14), ˆd = 1 2 log(1 2S V ) 1 4log(1 2V ) = 0.03892616. Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data räknas ut och blir a = 1.074157, b = 1.043435 och var( ˆd) = 0.0000434067. Med all insamlad data kan det approximerade 95%-kondensintervallet beräknas till { 0.05183938 ˆd ± λ 0.025 ε = 0.02601294 där standardelet är ε = var( ˆd) = 0.00658838. Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, som blir ˆκ = 2log(1 2S V ) log(1 2V ) 1 = 10.326454. Detta visar oss att transitionsfrekvenskvoten är ungefär 10 gånger högre än transversionfrekvenen. αt = 1 2 log(1 2S V ) + 1 log(1 2V ) 4 = 1 2 log(0.9309623) + 1 log(0.9874477) = 0.0326103 4 2βt = 1 2 log(1 2V ) = 1 log(0.9874476) = 0.00631587 2 23

Maximum likelihood-metoden beräknas enligt ekvation (36) och ser ut som följer l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.01263174 + 1 2 e 0.07153645 = 0.962343 p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.01263174 1 2 e 0.07153645 = 0.031381 p 2 (t) = 1 4 1 4 e 4β = 1 4 1 4 e 0.01263174 = 0.003138 Detta ger oss följande l(d, κ n S, n V ) = (956 30 6) log( p 0 4 )+30 log(p 1 4 )+6 log(p 2 4 ) = 1468.654387 En kontroll kan görs för att kotrollera att värdena för övergångssannolikheterna stämmer, p 0 + p 1 + 2 p 2 = 1. I vårt fall stämmer kontrollera. Även här studeras χ 2 1,5% med en frihetsgrad 1 och från toppen skapas ett approximerat 95%-kondensintervall för avståndet, d. Där χ 2 1,5% /2 = 1.921 vilket ger oss l( ˆd) χ 2 1,5% /2 = 1500.963602. Fig 8: Graf av likelihood över sannolikheten, p, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Från grafen får vi intervall (0.02903, 0.05089). För att kunna räkna ut variansen av ˆd över ˆκ behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( 0.00003179498 0.00000020601 0.00000020601 0.00000652381 ) 24

Där jacobianen räknas ut såhär J = = ( 1 1 2S V 4 (1 2S V ) log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V ) (log(1 2V )) 2 ( 1.0741573 1.0434346 340.14539 1646.05531 ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( V ) J T 0.0000433265 0.0007030852 = 0.0007030852 21.585582163 6.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) Här jämförs genfrekvensen D38112 hos en människa med en gorilla. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 956 nukleotider. Genfrekvenserna nns under bilagor, bilaga 8.3.2. Människa Gorilla T C A G π T 194(0.2029) 12(0.0126) 0(0) 6(0.0063) 0.2218 C 12(0.0126) 244(0.2552) 1(0.0010) 0(0) 0.2688 A 0(0) 3(0.0031) 312(0.3264) 0(0) 0.3295 G 0(0) 0(0) 5(0.0052) 167(0.1747) π 0.2155 0.2709 0.3326 0.181 0.1799 1 ) Tabell 2. Tabell 2, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de olika nukleotiderna är T = 0.21865, C = 0.26985, A = 0.33105 och G = 0.18045. 6.2.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 956. De nukleotider som skiljer sig från varandra summeras ihop x = 1 + 5 + 12 + 3 + 12 + 6 = 39. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = 39 956 = 0.04079498. Det uppskattade avståndet beräknas genom ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = 0.041946. Därefter räknas variansen ut för det skattade 25

avståndet, ˆd, från ekvation (8) vilket ger oss ˆp(1 ˆp) 1 n = 0.00004578. Variansen behövs för att kunna beräkna standardfelet, detta görs genom att roten (1 4 3 ˆp)2 ur på variansen, ε = var( ˆd) = 0.0067658. Till sist tillämpas ett approximerat 95%-kondensintervall { 0.0552074 ˆd ± λ 0.025 ε = 0.0286854 där λ 0.025 = 1.96 och tabellen nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8) får vi var( ˆp) = ˆp(1 ˆp) n 0.00004093. Det nya standardfelet räknas ut och blir ε = var(ˆp) = 0.0063978 och det approximerade 95%-kondensintervallet justeras till följande Maximum likelihood ger oss ˆd ± λ 0.025 ε = { 0.0544860 0.0294067 l( ˆd) =l(ˆp) = x log( x 12n 39 =39 log( 12 956 ) + (n x) log(n x 4n ) ) + (956 39) log(956 39 4 956 ) = 1531.105397 Genom att sänka log-likelihood till χ 2 1,5% från maximum likelihood-metoden skapas ett 95% intervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = 1.921 vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = 1533.026397. Därefter görs en fplot av maximum likelihood funktionen av avståndet,d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = 1533.026397. Fig 9: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. 26

Detta ger oss ett intervall för avståndet, d, på (0.02956, 0.05715). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = 1533.026397. Fig 10: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, blir som följer (0.03424, 0.05337). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = 1 4 + 3 4 e 4λt = 1 4 + 3 4 e 4d/3 = 0.9592050 p 1 (t) = 1 4 1 4 e 4λt = 1 4 1 4 e 4d/3 = 0.01359832 En kontroll görs, p 0 + 3 p 1 = 1, och det stämmer. 6.2.2 K80-modellen Här beräknas K80-modellen istället med samma data som innan. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnader. Andelen av transitions skillnaden blir S = (12 + 12 + 5 + 0)/956 = 29/956 och transversions skillnaden blir V = (0 + 0 + 3 + 0 + 1 + 6 + 0 + 0)/956 = 10/956 = 5/478. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log(0.928870) 1 4 log(0.979079) = 0.0421787. Variansen av det skattade avståndet är var( ˆd) = a 2 S+b 2 V (as+bv ) [ 2 n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Med genfrekvensens data blir a = 1.076577, b = 1.048972 och 27

var( ˆd) = 0.00004690. Med all insamlad data kan ett approximerat 95%- kondensintervall beräknas till { 0.05560158 ˆd ± λ 0.025 ε = 0.02875581 där standardfelet är ε = var( ˆd) = 0.00684841. Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas till ˆκ = 2log(1 2S V ) log(1 2V ) 1 = 5.9799117. Detta visar oss att transitionsfrekvensen är nästan 6 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log(0.928870)+1 log(0.979079) = 0.0316075 4 2βt = 1 2 log(1 2V ) = 1 log(0.979079) = 0.0105712 2 Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.0211424 + 1 2 e 0.0737862 = 0.95920502 p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.0211424 1 2 e 0.0737862 = 0.03033473 p 2 (t) = 1 4 1 4 e 4β = 1 4 1 4 e 0.0211424 = 0.0052301 Vilket ger oss l(d, κ n S, n V ) = (956 29 10) log( p 0 4 )+29 log(p 1 4 )+10 log(p 2 4 ) = 1471.895889 Kontrollerar övergångssannolikheternas värden som innan, p 0 + p 1 + 2 p 2 = 1, och det stämmer. Studera χ 2 1,5% med frihetsgraden 1 och från maximum skapas ett approximerat 95%-kondensintervall för avståndet, d. Där χ 2 1,5% /2 = 1.921 ger l( ˆd) χ 2 2,5% /2 = 1519.313464. 28

Fig 11: Graf av likelihood över avståndet, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för avståndet, d, är (0.03086, 0.0545). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på här ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( 0.000030768 0.000000332 0.000000332 0.0000108272 ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( 1.076577 1.04897 203.6807 572.5431 ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas till var( ˆd ˆκ ) = J var( S ( ) V ) J T 0.00004683 0.00037784 = 0.00037785 4.90309071 6.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) Här jämförs genfrekvensen D38112 hos en människa med en schimpans. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna 29

som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 957 nukleotider. Under bilagor, bilaga 8.3.3. nns genfrekvensen. Människa Bonbo T C A G π T 196(0.2048) 15(0.0157) 0(0) 5(0.0052) 0.2257 C 9(0.0094) 246(0.2571) 2(0.0021) 0 (0) 0.2686 A 1(0.0010) 0(0) 310(0.3243) 0 (0) 0.3253 G 0(0) 0(0) 5(0.0052) 168(0.1755) π 0.2152 0.2728 0.3316 0.1807 0.1807 1 Tabell 3. Tabell 3, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra nukleotiderna är T = 0.22045, C = 0.2707, A = 0.32845 och G = 0.1807. 6.3.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 957. De nukleotider som skiljer sig från varandra summeras ihop till x = 2 + 5 + 1 + 9 + 15 + 5 = 37. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = 37 957 ekvation (7), ˆd = 3 4 log(1 4 3 = 0.0386625. Det uppskattade avståndet beräknas genom ˆp) = 0.03969494. Därefter räknas variansen av 1 = 0.00004317. (1 4 3 ˆp)2 var( ˆd) = det skattade avståndet, ˆd, ut från ekvation (8), ˆp(1 ˆp) n Variansen behövs som sagt för att kunna beräkna standardfelet, ε = 0.00657071. Till sist tillämpas ett approximerat 95%-kondensintervall { 0.0525721406 ˆd ± λ 0.025 ε = 0.0268177406 där λ 0.025 = 1.96, tabell nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8), var(ˆp) = ˆp(1 ˆp) n = 0.00003884. Det nya standardfelet räknas ut till ε = var(ˆp) = 0.00623199 och det nya approximerade 95%-kondensintervallet blir { 0.0519093 ˆd ± λ 0.025 ε = 0.0274799 Maximum likelihood-metodens ger följande beräkningar l( ˆd) =l(ˆp) = x log( x 12n 37 =37 log( 12 957 ) + (n x) log(n x 4n ) ) + (957 37) log(957 37 4 957 ) = 1523.964465 30

Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95% intervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = 1.921 vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = 1525.885465. Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = 1525.885465. Fig 12: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d, på (0.02907, 0.05184). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = 1525.885465. Fig 13: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Figur 13, ovan, ger oss intervallet över sannolikheten, p, blir som följer (0.02966, 0.05047). 31

P (t) = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t), där övergångssannolikheten blir { p 0 (t) = 1 4 + 3 4 e 4λt = 1 4 + 3 4 e 4d/3 = 0.9613375 p 1 (t) = 1 4 1 4 e 4λt = 1 4 1 4 e 4d/3 = 0.0128875 En kontroll görs, p 0 + 3 p 1 = 1, och är stämmer. 6.3.2 K80-modellen Här beräknas K80-modellen för samma data som ovan i JC69-modellen. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnaden. Andelen av transitions skillnaden blir S = (9 + 15 + 5 + 0)/957 = 29/957 = 1/33 och transversions skillnaden V = (1+0+0+0+0+2+5+0)/957 = 8/957. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log(0.9310345) 1 4log(0.983281) = 0.0399445. Variansen av det uppskattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas och blir a = 1.074074, b = 1.0455386 och var( ˆd) = 0.0000443707. Med all insamlad data kan det ett approximerat 95%-kondensintervall beräknas till { 0.05300037 ˆd ± λ 0.025 ε = 0.02688872 där standardfelet, ε = var( ˆd) = 0.006661. Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = 7.4766188. Detta visar att transitionsfrekvensen är ungefär 7 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log(0.9310345)+1 log(0.983281) = 0.0315144 4 2βt = 1 2 log(1 2V ) = 1 log(0.983281) = 0.00843013 2 Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) 32

där övergångssannolikheten är p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.01686025 + 1 2 e 0.07145896 = 0.9613375 p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.01686025 1 2 e 0.07145896 = 0.0303030 p 2 (t) = 1 4 1 4 e 4β = 1 4 1 4 e 0.01686025 = 0.0041797 Vilket ger l(d, κ n S, n V ) = (957 29 8) log( p 0 4 )+29 log(p 1 4 )+8 log(p 2 4 ) = 1508.177838 Kontrollerar övergångssannolikheternas värden som innan, p 0 + p 1 + 2 p 2 = 1. Även här används en parameter vilket gör att man använder frihetsgraden 1 när man sänker log-likelihood, χ 2 1,5%, från maximum skapas ett 95%-intervall för avståndet, d. Detta ger l( ˆd) χ 2 1,5% /2 = 1510.098839. Fig 14: Graf av likelihood över avståndet, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för d blir som följer (0.02792, 0.05573). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n Där jacobianen räknas ut såhär ) = ( 0.000030705 0.0000002647 0.0000002647 0.00000866204 ) J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( 1.074074 1.04553863 254.818038 895.203029 ) ) 33

Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( V ) J T 0.000044297 0.0004803603 = 0.000480360 9.0561741899 6.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) Här jämförs genfrekvensen D38112 hos en människa med en svarthandad gibbon. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 947 nukleotider. Genfrekvensen nns under bilagor, bilaga 8.3.4. Tabell 4 är lätt avrundad med små modieringar. Människa Gibbon T C A G π T 174(0.1837) 15(0.0158) 2(0.0021) 15(0.0158) 0.2174 C 27(0.0285) 234(0.2471) 4(0.0042) 0(0) 0.2798 A 3(0.0032) 3(0.0032) 290(0.3063) 1(0.0011) 0.3138 G 2(0.0021) 2(0.0021) 18(0.0190) 157(0.1658) π 0.2175 0.2682 0.3316 0.1827 0.189 1 ) Tabell 4. Tabell 4, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra nukleotiderna är T = 0.21745, C = 0.274, A = 0.3227 och G = 0.18585. 6.4.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 947. De nukleotider som skiljer sig ifrån varandra och summeras ihop x = 2+4+18+ 3+27+2+3+15+2+15+1 = 92. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = 92 947 = 0.09714889. Det skattade avståndet beräknas genom ˆp) = 0.104043. Därefter räknas variansen av det ekvation (7), ˆd = 3 4 log(1 4 3 skattade avståndet, ˆd, ut från ekvation (8), ˆp(1 ˆp) n = 0.00012224. Vari- (1 4 3 ˆp)2 var( ˆd) = 0.011056. ansen behövs för att kunna beräkna standardfelet, ε = Till sist tillämpas ett approximerat 95%-kondensintervall { 0.1257128457 ˆd ± λ 0.025 ε = 0.0823733257 1 där λ 0.025 = 1.96, tabell nns under bilagor, bilaga 8.1. Om variansen räknas ut med sannolikheten, p, istället som i ekvation (8) blir den var(ˆp) = ˆp(1 ˆp) n = 34

0.00009262. Det nya standardfelet räknas ut till ε = var(ˆp) = 0.009623920 och approximerat 95-kondensintervallet justeras till { 0.122906 ˆd ± λ 0.025 ε = 0.085180 Maximum likelihood ger oss det maximalavärdet l( ˆd) =l(ˆp) = x log( x 12n 92 =92 log( 12 947 ) + (n x) log(n x 4n ) ) + (947 92) log(947 92 4 947 ) = 1715.771027 Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%- kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = 1.921 vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = 1717.692027. Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = 1717.692027. Fig 15: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d på (0.08574, 0.1251). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = 1717.692027. 35

Fig 16: Graf av likelihood över sannolikheten,p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för sannolikheteb, p, blir som följer (0.08213, 0.1134). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = 1 4 + 3 4 e 4λt = 1 4 + 3 4 e 4d/3 = 0.9028511 p 1 (t) = 1 4 1 4 e 4λt = 1 4 1 4 e 4d/3 = 0.03238297 En kontroll görs, p 0 + 3 p 1 = 1, och den stämmer. 6.4.2 K80-modellen Här beräknas K80-modellen för samma data som tidigare med JC69-modellen. Istället för att beräkna nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnad. Andelen av transitions skillnaden blir S = (27 + 15 + 18 + 1)/947 = 61/947 och transversions skillnaden V = (3 + 2 + 3 + 2 + 2 + 4 + 15 + 0)/947 = 31/947. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log(0.83843717) 1 4 log(0.934530095) = 0.1050357. Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas till a = 1.192695, b = 1.131376 och var( ˆd) = 0.00012825. Med all insamlad data kan det ett approximerat 95%-kondensintervall beräknas ˆd ± λ 0.025 ε = { 0.1272320 0.0828394 36

där standardfelet är ε = var( ˆd) = 0.01132466. Från ekvation (15) kan den uppskattade transitions- och transversionsferkvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = 4.204899. Detta visar att transitionsfrekvensen är ungefär 4 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log(0.83843717)+1 log(0.934530095) = 0.07117995 4 2βt = 1 2 log(1 2V ) = 1 log(0.934530095) = 0.0338557 2 Maximum likelihood-metoden beräknas enligt ekvation (36) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.0677114 + 1 2 e 0.1762156 = 0.9028511 p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.0677114 1 2 e 0.1762156 = 0.0644139 p 2 (t) = 1 4 1 4 e 4β = 1 4 1 4 e 0.0677114 = 0.0163675 Vilket ger l(d, κ n S, n V ) = (947 61 31) log( p 0 4 )+61 log(p 1 4 )+31 log(p 2 4 ) = 1694.973899 Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett approximerat 95%-kondensintervall för avståndet, d. vilket ger l( ˆd) χ 2 1,5% /2 = 1696.894899. Fig 17: Graf av likelihood över distansen, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. 37

Figur 17 ger oss intervallet (0.08667, 0.1260). Kontrollerar övergångssannolikheternas värdena som tidigare, p 0 + p 1 + 2 p 2 = 1, som stämmer. För att kunna räkna ut variansen av ˆd över ˆκ behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( 0.000063637 0.000002227 0.000002227 0.00003343545 ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( 1.192695 1.1313758 70.457522 129.27920 ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( ) V ) J T 0.0001273 0.0006232 = 0.0006232 0.9152869 6.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) Här jämförs genfrekvensen D38112 hos en människa med ett lejon. De först 1020 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 983 nukleotider. Genfrekvenser nns under bilagor, bilaga 8.3.5. Människa Lejon T C A G π T 172(0.1750) 35(0.0356) 7(0.0071) 23(0.0234) 0.2411 C 25(0.0254) 195(0.1984) 14(0.0143) 3(0.0031) 0.2412 A 15(0.0152) 26(0.0265) 293(0.2981) 2(0.0020) 0.3418 G 2(0.0020) 7(0.0071) 13(0.0132) 151(0.1536) π 0.2176 0.2676 0.3327 0.1821 0.1759 1 Tabell 5. Tabell 5, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra olika nukleotiderna är T = 0.22935, C = 0.2544, A = 0.33725 och G = 0.179. 38

6.5.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 983. De nukleotider som skiljer sig ifrån varandra summeras ihop x = 7 + 14 + 13 + 15 + 25 + 2 + 26 + 35 + 7 + 23 + 3 + 2 = 172. Tillsammans med n och = 0.174975. Det skattade avståndet beräknas genom ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = 0.199244. Därefter räknas variansen av det skattade avståndet, ˆd, ut från ekvation (8) och ger oss ˆp(1 ˆp) 1 n = 0.0002498. Variansen behövs för att kunna beräkna (1 4 3 ˆp)2 var( ˆd) = 0.015806. Till sist tillämpas ett approximerat x räknas andelen olika platser ut, ˆp = x n = 172 983 standardfelet, ε = 95%-kondensintervall ˆd ± λ 0.025 ε = { 0.2302237 0.1682647 där λ 0.025 = 1.96, tabellen nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8) var(ˆp) = ˆp(1 ˆp) n = 0.000146855. Det nya standardfelet beräknas till ε = var(ˆp) = 0.0121183 och de approximerade 95%-kondensintervallet justeras till { 0.2229962 ˆd ± λ 0.025 ε = 0.1754922 Maximum likelihood-metodens ger följande beräkningar l( ˆd) =l(ˆp) = x log( x 12n 172 =37 log( 12 983 ) + (n x) log(n x 4n ) ) + (957 37) log(983 172 4 983 ) = 2007.492994 Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%- kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = 1.921 vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = 2009.413994 Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% 39

Fig 18: Graf av likelihood över distansen, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d, på (0.1696, 0.228). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = 2009.413994. Fig 19: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, får vi från gur 19. och blir (0.1531, 0.1961). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = 1 4 + 3 4 e 4λt = 1 4 + 3 4 e 4d/3 = 0.825025 p 1 (t) = 1 4 1 4 e 4λt = 1 4 1 4 e 4d/3 = 0.0583248 Kontrollerar så att p 0 + 3 p 1 = 1 stämmer, vilket det gör i vårt fall. 40

6.5.2 K80-modellen Här beräknas K80-modellen för samma data som tidigare med JC69-modellen. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i transitions och transversions skillnaden. Andelen av transitions skillnaden blir S = (35 + 25 + 13 + 2)/983 = 75/983 och den transversions skillnaden V = (15+2+26+7+7+14+23+3)/983 = 97/983. Efter detta kalkyleras det uppskattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log(0.74872838) 1 4 log(0.80264496) = 0.1996502. Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas och blir a = 1.3355978, b = 0.12907393 samt var( ˆd) = 0.0002538. Med all insamlad data kan det ett 95%-kondensintervall beräknas till { 0.230875522 ˆd ± λ 0.025 ε = 0.168424879 där standardfelet, ε = var( ˆd) = 0.01593129. Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = 1.6325993. Detta visar att transitionsfrekvensen är nästan 2 gånger högre än transversionsfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log(0.74872838)+1 log(0.80264496) = 0.0897288 4 2βt = 1 2 log(1 2V ) = 1 log(0.80264496) = 0.109921 2 Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = 1 4 + 1 4 e 4βt + 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.219842 + 1 2 e 0.289379 = 0.82502543 p 1 (t) = 1 4 + 1 4 e 4βt 1 2 e 2(α+β)t = 1 4 + 1 4 e 0.219842 1 2 e 0.289379 = 0.07629705 p 2 (t) = 1 4 1 4 e 4β = 1 4 1 4 e 0.219842 = 0.45066124 Vilket ger l(d, κ n S, n V ) = (983 75 97) log( p 0 4 )+n S log( p 1 4 )+n V log( p 2 4 ) = 1789.01285 41

Kontrollerar övergångssannolikhetens värdena som innan, p 0 + p 1 + 2 p 2 = 1, och de stämmer för oss. Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%-kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 2,5% /2 = 5.991/2 = 2.996 vilket ger l( ˆd) χ 2 2,5% /2 = 1792.00885. Fig 20: Graf av likelihood över distansen, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet kommer från gur 20. och är (0.1706, 0.2314). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över det skattade transitions- /transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas som följer ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( 0.0000716946 0.000007659 0.000007659 0.000090478 ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( 1.3355978 1.2907393 24.300961 17.688159 ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( ) V ) J T 0.0002522 0.00020195 = 0.00020195 0.07723065 42

6.6 Jämförelse av resultat Här kommer de olika beräkningarna studeras mellan dem olika arterna. Jag börjar med att studera antalet gener som skiljer arterna ifrån människan och ser att det är ganska stor skillnad dem emellan. Som förväntat har schimpansen och gorillan minst antal nukleotider som skiljer men även bonobo har relativt få avvikelser. Förväntat hade lejonet est avvikelser i genfrekvensen. Därefter studera de olika avstånden för både de två modellerna för alla fem arter. Tabellen nedan sammanfattar alla avstånd. Avstånd, d Schimpans Gorilla Bonobo Gibbon Lejon JC69 0.0386 0.0419 0.0397 0.1040 0.1992 K80 0.0389 0.0422 0.0399 0.1050 0.1996 Tabell 6. I tabell 6, ovan, visas alla beräknade avstånd över de två modellerna och samtliga arter. Studerar man och jämför avstånden mellan de två olika modellerna, JC69 och K80, kan man se att det är relativt liten skillnad modellerna emellan för alla fem arter. Jämför man istället avståndet dem fem olika arterna emellan nns det skillnader. Mellan schimpanser, gorillor och bonobo är skillnaden relativt liten. Gibbonapan sticker ut i jämfört med de tre andra aporna då avståndet skiljer mer än två gånger så mycket. Jämför man lejonet med schimpanser så har lejonet ett avstånd på ungefär fem gånger större. Nedan, tabell 7, är en tabell gjord över ett approximerat 95%-kondensintervallet för avståndet mellan modellerna. JC69 och K80, för de fem arterna. Övre kvantil visar det större värdet från det approximerade 95%-kondensintervallet och den undre kvantilen visar det lägre värdet. JC69 K80 Tabell 7. Kondensintervall för avstånd, d Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil 0.0513 0.0552 0.0526 0.1257 0.2302 undre kvantil 0.0259 0.0287 0.0268 0.0824 0.1683 övre kvantil 0.0518 0.0556 0.0530 0.1272 0.2309 undre kvantil 0.0260 0.0288 0.0269 0.0828 0.1684 Från tabell 7. kan vi se alla arter har relativt små avstånd i sina intervall. Man kan även se att den undre kvantilen i kondensintervallet för alla arterna har väldigt små skillnader mellan de två modellerna. I tabell 8, nedan visas χ 2 -testet för alla arter samt de två modellerna, JC69 och K80. 43

JC69 K80 χ 2 av avståndet, d Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil 0.0510 0.0571 0.0518 0.1251 0.2280 undre kvantil 0.0266 0.0296 0.0291 0.0857 0.1696 övre kvantil 0.0509 0.0545 0.0557 0.1260 0.2314 undre kvantil 0.0290 0.0309 0.0279 0.0867 0.1706 Tabell 8. Studerar man kondensintervallet för avståndet, d, med χ 2 i tabell 8. ser man att för alla apor är intervallen relativt små medan för lejonet är det något större. Vilket var förväntat. Studerar man det första approximerade 95%-kondensintervallet med kondensintervallet för χ 2 kan man se att intervallen ligger väldigt nära varandra. Kondensintervallet för χ 2 ligger bara en aning längre ner än för det approximerade 95%-kondensintervallet. I tabell 9. nedan är ser vi alla approximerade 95%-kondensintervall för sannolikheten för JC69 modellen och de fem arterna. JC69 Tabell 9. Kondensintervall för sannolikheten, p Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil 0.0507 0.0545 0.0519 0.1229 0.2230 undre kvantil 0.0266 0.0294 0.0275 0.0852 0.1755 Tabell 9. visar som förväntat att schimpans, gorilla och bonobo har relativt liknande kondensintervall. Lejonet har högst kondensintervall för sannolikheten och spannet är även något större än för schimpansen, gorillan och bonobon. Spannet för lejonet är störst utav de fem arterna. I Tabell 10. nedan har vi χ 2 -testet för sannolikheten. χ 2 av sannolikheten, p JC69 Schimpans Gorilla Bonobo Gibbon Lejon över kvantil 0.0506 0.0534 0.0505 0.1134 0.1961 undre kvantil 0.0271 0.0342 0.0297 0.0821 0.1531 Tabell 10. De approximerade 95%-kondensintervallen i tabell 10. visar att sannolikheten, p, relativt små för aporna och något större för lejonet. Även här skiljer det inte mycket mellan det approximerade 95%-kondensintervallet och kondensintervallet för χ 2. Kondensintervallet för χ 2 ligger en aning längre ner än de approximerade 95%-kondensintervallet. Logartmfunktionen Schimpans Gorilla Bonobo Gibbon Lejon JC69-1518.2136-1531.1054-1523.9645-1715.7710-2007.4930 K80-1468.6544-1471.8959-1508.1778-1694.9739-1789.0128 Tabell 11. 44

Från tabell 11. visar de olika värdena för maximum likelihood-metoden för de två modellerna och de fem arterna. JC69 visar något högre värde för alla maximum likelihood-metoderna jämfört med K80. Som tidigare ligger värdena för schimpans, gorilla och bonobo väldigt nära varandra. Lejonet har som förväntat även det högsta värdet. För K80-modellen visar något större skillnad för bonobon mellan gorillan och schimpansen. χ 2 av logaritmfunktionen Schimpans Gorilla Bonobo Gibbon Lejon JC69-1520.1346-1533.0263-1525.8855-1717.6920-2009.4140 K80-1500.9636-1519.3135-1510.0988-1696.8949-1792.0088 Tabell 12. Genom att studera tabell 12. som visar χ 2 -testet för de olika arterna och modellerna, kan man se att värdena inte skiljer sig så värst mycket jämfört med maximum likelihood-modellen. χ 2 -testet är endast omkring 2 mindre än maximum likelihood för alla arter utom schimpansen, som har identiskt värde, för JC69. För K80-modellen skiljer det lite mer mellan värdena jämfört med maximum likelihood-metoden. Som för att innan är det störts skillnad för lejonet. Man måste ha hänsyn till att i K80-modellen används en transitions- /transversionsfrekvens E(S) E(V ) = p1(t) p 2(t) är generellt ett mått. 7 Diskussion Syftet med detta arbete är att studera släktskapet mellan olika arter. Alla resultat blev som jag hade förväntat, med att schimpans, gorilla och bonobon hade ett väldigt litet avstånd mot människan. Det var även förväntat att lejonet skulle ha störts avstånd till människan jämfört med aporna. Vi kunde se att människan har mycket små skillnader jämfört med aporna, speciellt schimpanser och gorillor. Det var som sagt förväntat eftersom vi redan vet att det är de två arterna är närmst besläktade med oss människor. Lejonet hade förstås störst skillnader, dock kanske man hade trott att det skulle vara något större än det var. Det nns mycket som skulle kunna utvecklas i det här arbetet. Så som till exempel att man skulle kunna utveckla och konstruera fylogenetiska träd. Det skulle även gå att räkna ut den molekylära klockan. Det tog lite tid innan jag lyckades lista ut hur jag skulle kunna använda GeneBank och på så sätt få ut genfrekvenser att studera. En annan klurighet jag stötte på efter var att få till graferna över χ 2 -testets kondensintervall. Några av graferna såg till en början tomma ut, men när jag zoomade in på rätt axlar kunde man hitta grafen. 45

8 Bilagor 8.1 Tabell för 95%-kondensintervall - normalfördelnings kvantiler a 0.0005 0.001 0.005 0.01 0.025 0.05 0.10 λ 3.29 3.09 2.58 2.33 1.96 1.64 1.28 8.2 Tabell för χ 2 κ,5% Grad av Sannolikhet av stora värden av x 2 frihet, κ 0.05 = 5% 1 3.82 2 5.99 3 7.81 4 9.49 5 11.07 46

8.3 Genfrekvenser från GeneBank 8.3.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes troglodytes) 47

8.3.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) 48

8.3.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) 49

8.3.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) 50

8.3.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) 51