Skattning av avstånd mellan arter i fylogenetiska träd

Storlek: px
Starta visningen från sidan:

Download "Skattning av avstånd mellan arter i fylogenetiska träd"

Transkript

1 U.U.D.M. Project Report 2018:28 Skattning av avstånd mellan arter i fylogenetiska träd Linnéa Eriksson Examensarbete i matematik, 15 hp Handledare: Ingemar Kaj Examinator: Martin Herschend Juni 2018 Department of Mathematics Uppsala University

2

3 Sammanfattning I det här arbetet beräknas och visas det om skattning av avståndet mellan genfrekvenser. De matematiska modellerna kan tillämpas inom fylogeni. Modellerna som arbetet tar upp är JC69, Jukes-Cantor, och K80-modellen, Kimura. De två modellerna studeras steg för steg och tillämpas därefter på en människas genfrekvens mot fem olika djur. De fem djuren är schimpans, gorilla, bonobo, gibbon och ett utstickande djuret som är lejon. Genfrekvenserna från djuren som är jämförda med människans är hämtade ifrån GeneBank. Genfrekvenserna studeras och data tillämpas sedan på de matematiska modellerna. Beräkningar och grafer har utförts i datorprogrammet MatLab. Slutligen så jämförs alla beräkningar med varandra och de diskuteras hur man skulle kunna gå tillväga för att utveckla arbetet. 1

4 Innehåll 1 Inledning 4 2 Biologisk bakgrund Fylogeni DNA Protein och nukleotider Kodonbias Modeller för nukleotidsubstitution JC69 (Jukes and Cantor 1969) K80 (Kimura 1980) Generellt för båda modellerna Avståndsuppskattning med UNREST Maximum likelihood-metoden JC K Uppbyggnad av fylogenetiska träd Avstånd mellan arter Minstakvadratmetoden Maximum likelihood-metoden - er generationer Likelihood beräkningar på träd Resultat Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes) JC69 modellen K80-modellen Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) JC69 modellen K80-modellen Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) JC69 modellen K80-modellen Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) JC69 modellen K80-modellen Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) JC69 modellen K80-modellen Jämförelse av resultat Diskussion 45 2

5 8 Bilagor Tabell för 95%-kondensintervall - normalfördelnings kvantiler Tabell för χ 2 κ,5% Genfrekvenser från GeneBank Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes troglodytes) Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) Matlab-kod för uträkningar för modellerna Matris - Människa mot Schimpans Matris - Människa mot Gorilla Matris - Människa mot Bonobo Matris - Människa mot Svarthandad Gibbon Matris - Människa mot Lejon Kod för JC Kod för K Referenser Referenser för matematiska modeller Referenser för fakta Referenser genfrekvens Referenser för bilder

6 1 Inledning Att beräkna avståndet mellan två genfrekvenser är en relativt enkel fylogenetisk analys men ändå väldigt viktig. En viktig del är beräkningar av avstånd mellan sekvenspar. Vilket är de första steget i metoden för konstruktion av avståndsmatrisen inom fylogeni. De består av att klusteralgoritmer som konverterar en avståndsmatris till ett fylogenetiskt träd. De andra viktiga är modeller för markovprocesser av nukleotidsubstitution. Det används i avståndsberäkningarna från basen av maximum likelihood och bayesiansk analys av multipla sekvenser i fylogeni. I det här arbetet har jag till stor del utgått från boken Computational Molecular Evolution av Ziheng Yang. Det är en modern bok som bygger på statistiska och beräkningsmässiga metoder som används i molekylär evolutionsanalys, såsom maximum likelihood, markovprocesser och bayesianska statistik. I boken analyseras molekylär sekvensdata och som vi under de senaste åren fått extremt mycket mer förståelse för. Boken går inte in på djupare matematiska bevis utan håller sig till metoder och hur de beräknas. Det nämns även lite om hur man går till väga för att påbörja byggandet av ett fylogenetiskt träd. Metoderna som studeras i det här arbetet är de två modellerna JC69 och K80. Det används olika metoder så som markovprocesser, maximum likelihoodmetoden och avståndsmetoden. De olika genfrekvenserna som studerats i arbetet kommer från GeneBank och beräkningarna som genomförts har gjorts i datorprogrammet MatLab. 4

7 2 Biologisk bakgrund Genom matematisk statistik analyseras biologisk data för att få fram sannolikheten av önskad hypotes. För att sedan studera den samt se vad resultatet visar och om hypotesen kan förkastas eller inte. 2.1 Fylogeni Fylogeni är en studie om organismers släktskap där resultaten sammanställs med fylogenetiska träd. Idag studeras släktskap mellan organismer genom att jämföra deras DNA. Längre tillbaka när människan inte hade någon större vetskap om DNA, studerade man de olika organismernas yttre och morfologiska egenskaper. Under de senaste åren har vetenskapen om DNA och den molekylära evolutionen ökat explosionsartat. Detta då kunskapen har ökat något enormt inom det tekniska, vilket gör att det nu går mycket snabbare att ackumulera genetisk sekvensdata, vår förbättring inom hårdvara och mjukvara samt utvecklingen av analysmetoder. Den stora ökningen av genomisk data kräver kraftfulla statistiska modeller och datorer för att de ska kunna analyseras och tolkas. Tre termer som ofta används inom fylogeni är monofyli, parafyli och polyfyli. Monofyli är de som omfattar ättlingar, det vill säga de närmsta individerna med gemensam stamfader och gemensamma förfäder. Parafyli är när en grupp bestående av ättlingar till en stamfader men i denna grupp ingår inte alla ättlingar utan vissa kan uteslutas på grund utav olika anledningar. Polyfyli är en grupp som är besläktade men inte nära, det vill säga de har en avlägsen gemensam stamfader. De vetenskapliga metoderna som används inom fylogenetik brukar grupperas i vad som benämns kladistik. Skillnaden mellan fylogenetik och kladistik är att fylogenetik kan innehålla hypoteser om släktskap, medan kladistik istället tillämpas mer vetenskapligt som till exempel i matematiska modeller. Vanliga vetenskapliga modeller som används inom kladistik är maximum likelihoodmetoden och markovprocesser med en bayesiansk inferens. Markovprocesser och maximum likelihood-metoden är de metoder som kommer att studeras i det här arbetet. Inom fylogeni och kladistik studeras homologa egenskaper hos organismer. Organismer som har homologa egenskaper anses vara närmare besläktade och tvärtom, färre likheter mer avlägsna från varandra. Inom detta konstruerar man träd för att på ett enkelt sätt se hur organismer är besläktade, de benämns fylogenetiska träd eller kladogram. Dessa två är väldigt lika varandra, de som bland annat skiljer dem åt är att i ett fylogenetiskt träd indikerar grenarna på olika tidsförhållanden. 2.2 DNA DNA är en förkortning av deoxyribonucleic acid och är det ämne i en organism som bär på den genetiska informationen. DNA-molekylens viktigaste funktion är att lagra information om organismens funktioner och utveckling. DNA innehåller 5

8 all information om hur organismen ska konstruera och hur den ska bygga upp alla ämnen. Därför kan DNA kallas för kroppens alldeles egna receptbok. En DNA-molekyl har två strängar, så kallade polymer, som i sin tur är uppbyggda av nukleotider. En nukleotid består av en kvävebas och en pentos. Där det är kvävebaserna som innehåller den genetiska koden. Det nns fyra olika typer av kvävebaser, Adenin (A), Cytosin (C), Guanin (G) och Tymin (T). De fyra nukleotider kan inte kopplas samma hur som helst, adenin och tymin kopplas ihop samt cytosin och guanin kopplas ihop. Fig.1 En DNA spiral som delas och som visar alla fyra nukleotider samt hur de kopplas samman. 2.3 Protein och nukleotider Ett protein är en lång kedja bestående av aminosyror. En aminosyra är kemiska föreningar mellan en aminogrupp och en karboxylgrupp. Det nns en stor mängd olika aminosyror men alla nns inte levande i organismers celler. När det pratas om levande organismer säger man att det existerar 20 aminosyror, det nns dock enstaka undantag för några få organismer. Ett protein byggs upp inuti en cell i två steg. I det första steget transkriberas proteinet och det benämns även för RNA-syntes. Detta är en process där den genetiska informationen i en cells DNA kopieras och skapar ett RNA. RNA är som DNA uppbyggt av nukleotider. Nukleotiderna är nästintill lika som de som används för DNA, det som skiljer är att tymin (T) har ersatts av uracil (U). När själva transkriptionen sker delar sig DNA-strängen för att den ska kunna bilda en mall för RNA:t. Nukleotiderna A, C, G och T i DNA-kedjan kommer att ge upphov till U, G, C och A på motsvarande plats i RNA-molekylen. Denna typ av RNA benämns för mrna som är förkortning för messenger RNA och agerar som förnamnet säger som budbärare mellan cellkärnan och ribosomerna. I andra steget translaterar mrna i ribosomerna till aminosyror. Det är alltså här som aminosyrorna sätts samman till det färdiga proteinet. Translationen sker så att nukleotiderna kopplas ihop och läses av tre och tre, där tre nukleotider kodar tillsammans för en specik aminosyra. En grupp av tre nukleotider benämns för ett kodon och det nns 4 3 = 64 möjliga kombinationer. Det nns dock bara 20 olika aminosyror, så olika kodon kan koda för samma aminosyra. Det nns ett startkodon som startar translationen och tre stoppkodon som gör att translationen avbryts. 6

9 2.4 Kodonbias Det nns fördelar med att en aminosyra svara för er än ett kodon, en anledning är att den blir mer tålig mot mutationer. Det förekommer nämligen främst att det är den sista nukleotiden som har översatts felaktigt utav de tre nukleotiderna. Organismer fungerar så nurligt att den sista nukleotiden sällan har någon större betydelse för vilken aminosyra den kodar för. Det är alltså de två första nukleotiderna som till största del är avgörande för vilken aminosyra den kodar för. Studeras till exempel aminosyran alanin och dess genetiska kod så är den GCU, GCC, GCA och GCG. Här ser man tydligt att de två första nukleotiderna är densamma varav den sista varierar och alla kodar ändå för alanin. Det är dock inte alltid så simpelt, organismer har listigt nog gjort att aminosyror med liknande kodon generellt har relativt lika egenskaper. Vilket därför sällan gör någon större skillnad om ett kodon blir fel då aminosyran oftast har likvärdiga funktioner som den tilltänkta aminosyran. Därav kan proteinet relativt ofta fungera som de ska ändå. Kodonbias är alltså de praktiska som organismen skapat som gör att relativt små skillnader i ett kodon sällan har någon större betydelse för de kodande DNA:t. Kodonbias kan även förekomma i övergångarna mellan olika nukleotider och göra att det inte sker likformigt. Övergångarna delar man i transition och transversion. Först delas nukleotiderna in i två grupper, puriner och pyrimidin. Nukleotiderna A och G är puriner som är heterocykliska kväveföreningar som är uppbyggda av två ringar. C och T är pyrimidin och är även dem heterocykliska föreningar men är endast uppbyggd av en ring istället. Övergångarna inom grupperna purin och pyrimidin är transitioner och övergångar mellan de två grupperna är transversioner. Fig.2: Bilden visar vilka övergångar mellan nukleotider samt vilka som är transition och transversion. De blåa pilarna är transversion och de röda är transition. 3 Modeller för nukleotidsubstitution Här kommer två modeller för nukleotidsubstitution att studeras steg för steg. Den första heter Jukes-Cantor modellen, JC69, och är en av enklare modeller för 7

10 nukleotidsubstitution. Den andra heter Kimura modellen, K80, och är fortfarande relativt enkel men något mer avancerad än Jukes-Cantor modellen. Figur 3, nedan, illustrerar övergångarna mellan de fyra nukleotiderna samt hur transition och transversion har lite olika betydelse mellan de två modellerna. För JC69- modellen har samtliga övergångar samma frekvens, a. För K80-modellen skiljer sig övergångarna, transitioner har frekvens a och transversioner har frekvens b. Fig.3: Visar hur övergångarna är för modell K80. JC69 är liknande bara att alla övergångar är α, det vill säga β = α. 3.1 JC69 (Jukes and Cantor 1969) JC69 antar att alla nukleotidsekvenser har samma frekvens, λ, av en förändring till en annan nukleotid. Frekvensen q ij = ögonblicksfrekvensen av substitution f rån nukleotid i till j, där i, j = T, C, A och G. Matris (1), nedan, har ordningen T, C, A och G för nukleotiderna. Varje matrisrad måste ha summan noll. Den totala substitutionskvoten för bytet av nukleotid, i, är 3λ vilket i matrisen står för q ii. Det är q ii som motsvarar substitutionfrekvensen för nukleotid, i, det vill säga frekvens det tar för markovkedjan att lämna tillståndet i. Frekvensmatrisen är Q = {q ij } = 3λ λ λ λ λ 3λ λ λ λ λ 3λ λ λ λ λ 3λ (1) Övergångsmatrisen är P (t) = {p ij (t)}. Övergångssannolikheten, p ij (t), är sannolikheten där given nukleotid, i, vill bli nukleotid, j, över tiden, t. Beräkningen på övergångsmatrisen ger som följer P (t) = { p ij (t) } = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) (2) 8

11 där övergångssannolikheten är { p 0 (t) = e 4λt p 1 (t) = e 4λt (3) Beräkningar görs på övergångsmatrisen P (t) och en matris exponentiellt genom taylorutveckling. Denitionen för taylorutveckling följer P (t) = e Qt = I + Qt + 1 2! (Qt) ! (Qt) ! (Qt) (4) En taylorutveckling på nukleotider är varken avancerad eller tidskrävande då matrisen generellt är förhållandevis liten. Emellertid kan denna metod bli mer kostsam och ostabil om man gör det för någon aminosyra eller för ett kodon då det ger en mycket större matris. En matris för en aminosyra är storlek 20 x 20 och för ett kodon 61 x 61. Från matris (2) kommer i att för varje plats vara någon nukleotid i en lång sekvens under tiden, t. Den andra nukleotiden j i en sekvens kommer att vara p ij (t), där j = T, C, A, G. Summan av varje radmatrisen är ett, P (t) = 1. För tiden noll, t = 0, är blir övergångsmatrisen identitetsmatrisen, P (0) = I. De nns två generella modeller för markovkedjor. Den första är den generella tidsövergångsmodellen och den andra är den generella otvungna modellen. Notera att markovprocesser klassiceras beroende på om tiden på tillståndet är diskret eller kontinuerligt. Den teori som visas här, för JC69, är en relativt enkel modell där utbytet sker mellan aminosyror och kodon. När t är p ij (t) = 1 4 för alla i och j. Detta visar när en substitution har inträat många gånger på varje plats, så att den slutliga nukleotiden är slumpmässig med sannolikheten 1 4 för varje nukleotid oberoende från vart man började. Sannolikheten att kedjan är i tillståndet j när t betecknas för π j. Distributionen är (π T, π C, π A, π G ) och benämns för limiting distribution. För JC69 är π j = 1 4 för varje nukleotid j, där jämviktdistributionen blir π = ( 1 4, 1 4, 1 4, 1 4 ). Detta ger πq = 0 givet att i π i = 1. Om det nns en markovkedja med era tillstånd används följande ekvation, även kallad för Chapman-Kolmogorov teoremet p ij (t 1 + t 2 ) = k p ik (t 1 )p kj (t 2 ) (5) Sannolikheten att nukleotid i blir nukleotid j under tiden t 1 + t 2 är summan av alla möjliga tillstånd, k, vid varje mellanliggande tidpunkt t 1. Det är avståndet mellan dessa två sekvenser som ska beräknas. Från frekvensmatrisen, matris (1), får man den totala substitutionsfrekvensen för någon nukleotid, som är 3λ. Därav kan avståndet mellan två sekvenser beräknas till d = 3λt. Där d är avståndet, t är tiden och λ är frekvensen. Antag att x utav n platser är olika mellan två sekvenser, då kommer proportionen av dierensen av platserna att bli ˆp = x n. Detta är sannolikheten, p, för att en plats har olika nukleotider mellan de två sekvenserna med ett avstånd, d, som ger följande p = 3p 1 (t) = [ ] d 4 e 4λt = 3 = λt = e 4d/3 (6) 9

12 Beräkning för att räkna ut den uppskattade avståndet är Vidare förenklingar ger ˆp 3 4 = 3 4 e 4 ˆd/3 1 4 ˆd/3 ˆp = e 4 3 log(1 4 3 ˆp) = log(e 4 ˆd/3 ) log(1 4 ˆd ˆp) = log(1 4 ˆp) = ˆd 3 Följande blir den slutgiltiga uppskattningen för avståndet ˆd = 3 4 log(1 4 ˆp) (7) 3 När ˆp > 3 4 går de skattade avståndet inte att tillämpas, två slumpmässiga sekvenser bör alltså ha omkring 75% olika platser. När ˆp < 3 4 är de skattade avståndet oändligt. Sannolikheten, p, är binomial i förhållande till variansen, ˆp(1 ˆp) n. Variansen av de skattade avståndet, ˆd, ska nu härledas, där ˆd är en funktion av den skattade sannolikheten, ˆp. Gauss-approximationen används för att räkna ut variansen. var( ˆd) = var(ˆp) ˆd ˆp(1 ˆp) = dˆp n 1 (1 4ˆp 3 )2 (8) Gauss-approximationen används som en generell riktlinje för att derivera väntevärdet, variansen och kovariansen av funktion med slumpmässiga variabler. Där en icke-linjär funktion, f(x), där x är en slumpmässig variabel som har väntevärdet är µ och variansen är σ 2. Följande gäller E(f(x)) fe((x)). När n är ett positivt heltal, kan taylorutvecklingen skrivas som följande med ordningen n och funktionen, f, där f(x) = T n (x) + R n (x) T n (z) = f(a) + f (a) 1! (z a) + f (a) 2! (z a) f (n) (a) (z a) n (9) n! Taylorutvecklingen ska nu tillämpas på Gauss-approximation. Taylorutveckling av f(x) runt väntevärdet µ ger f = f(x) = f(µ) + df(µ) dx (x µ) + d2 f(µ) 2! dx 2 (x µ) (10) Funktionen, f, och derivatorna är ekvivalent med x = µ. Alla termer med exponent tre eller högre ger ett väntevärde för funktionen. Det approximerade väntevärdet för funktionen, f, blir 10

13 E(f) f(µ) + 1 d 2 f(µ) 2 dx 2 σ 2 Där E(x µ) = 0 och E(x µ) 2 = σ 2. Derivatan är ekvivalent med x = µ och de är konstant där när man tar förväntade värden över x. Den approximerande variansen av funktionen, f, och den uppskattade parametern x. var(f) E(f E(f)) 2 σ 2 [ df(µ) dx Efter att ha räknat ut variansen av den skattade sannolikheten, ˆp, var( ˆp) = ˆp(1 ˆp) n, och variansen av det skattade avståndet, ˆd, var( ˆd) = ˆp(1 ˆp) 1 n (1 4ˆp/3), 2 â kan man beräkna derivatan av dem, ˆd âˆp = 1. Slutligen tillämpas detta (1 4 ˆp 3 ) tillsammans med ett approximerat 95%-kondensintervall, ˆd ± λ ε. Där ε är de standard felet, ε = var( ˆd), och där signikansnivån på 95% ger λ = Olika signikanta nivåer och dess värden kommer från tabell som ligger under bilagor, bilaga K80 (Kimura 1980) I K80 modellen nns en substitution mellan antingen två pyrimidin (heterocyklisk förening, cytosin och tymin) T C eller mellan två puriner (heterocyklisk kväveförening, har två ringar, adenin och guanin) A G. När någon av dessa två sker benämns det för transition. Substitutioner sker mellan pyrimidin och puriner (T, C A, G) och det benämns för transversioner. I verkligheten uppkommer transitioner med högre frekvens än transversioner. Alltså notera att transitionen och transversionen inom biologin inte har exakt samma sannolikhet som för modellerna. Substitutionsfrekvensen för transitionen kallas för α och för transversionen β. Frekvensmatrisen blir som följer ] Q = {q ij } = (α + 2β) α β β α (α + 2β) α β β α (α + 2β) α β β α (α + 2β) (11) Den totala substitutionsfrekvensen för någon nukleotid är α+2β. Där avståndet mellan två sekvenser multipliceras med tiden t, vilket ger avståndet d = (α + 2β)t. Där αt är det förväntade värdet transitioner per plats och 2βt är det förväntade värdet för transversioner per plast. Oftast används avståndet, d, eller transitions-/transversionsfrekvenskvoten, κ = α β. Jämviktsfördelningen för K80 är identisk som för JC69, alltså π = ( 1 4, 1 4, 1 4, 1 4 ). Där πq = 0 givet att i π i = 1. Övergångsmatrisen är följande 11

14 P (t) = {p ij (t)} = e Qt = p 0 (t) p 1 (t) p 2 (t) p 2 (t) p 1 (t) p 0 (t) p 2 (t) p 2 (t) p 2 (t) p 2 (t) p 0 (t) p 1 (t) p 2 (t) p 2 (t) p 1 (t) p 0 (t) (12) De tre olika övergångssannolikheterna, p, som nns i matrisen beräknas via taylorutveckling, se ekvation (9), och blir med de nya värdena. p 0 (t) = e 4βt e 2(α+2β)t = e 4d(κ+2) e 2d(κ+1)/(κ+2) p 1 (t) = e 4βt 1 2 e 2(α+2β)t = e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) p 2 (t) = e 4βt = e 4d(κ+2) (13) Summan av en radmatris måste bli värdet ett, det vill säga p 0 (t) + p 1 (t) + 2p 2 (t) = 1. Denna datasekvens kan nu delas in i andelar av transitional och transversional dierens, de kommer att få betäckningarna S och V. Genom symmetrin i modellen och matris (12) blir sannolikheten för uppkomsten av en plats nukleotider den transitionala dierensen E(S) = p 1 (t) och transversionala dierensen E(V ) = 2p 2 (t). Där det skattade avståndet, ˆd, samt de skattade transitions-/transversionsfrekvenskvoten, ˆκ, ger p = p 1 (t) + 2p 2 (t) = e 4βt 1 2 e 2(α+2β)t + 2( e 4βt ) = e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) +2( e 4d(κ+2) ) = e 4d(κ+2) 1 2 e 2d(κ+1)/(κ+2) Det skattade avståndet, ˆd, blir ˆd = 1 2 log(1 2S V ) 1 log(1 2V ) (14) 4 Där det skattade transitions-/transversionsfrekvenskvoten, ˆκ, blir ˆκ = 2log(1 2S V ) log(1 2V ) 1 (15) Transitionsavståndet är ekvivalent med αt och transversionsavståndet med 2βt och är skattade till följande αt = 1 2 log(1 2S V ) + 1 log(1 2V ) (16) 4 2 βt = 1 log(1 2V ) (17) 2 12

15 Transitionsavståndet gäller endast om 1 2S V > 0 samt 1 2V > 0. S och V får följande varianser var(s) = S(1 S) n och var(v ) = V (1 V ) n. Det ger en kovarians på cov(s, V ) = SV n. Därefter används Gauss-approximationen, se ekvation (10), och deriverar varians-kovariansmatrisen. Varians-kovariansmatrisen ser ut som följer ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) (18) där n står för antal platser i sekvensen. En skattning görs av ˆd och ˆκ på en funktion av S och V. Tillämpningen blir följande var( ˆd ˆκ ) = J var( S V ) J T (19) J står för en Jacobimatris av en anpassad storlek m x n. Här blir Jacobianen följande J = = ( 1 1 2S V ( ˆd S ˆκ S ˆd V ˆκ V ) 1 2(1 2V ) + 1 2(1 2S V ) 4 (1 2S V )log(1 2V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 Det gör att att variansen av ˆd slutligen kan deriveras. Så ) (20) var(f) n n i=1 j=1 cov(x i, x j )( f x i )( f x j ) (21) som är variansen av ett enkelvärdesfunktion av f(x) approximerat av x. Där cov(x i, x j ) är kovariansen av x i och när i j och när i = j blir det variansen istället. Därefter får man var( ˆd) =( ˆd ˆd )var(s) + 2 S S ˆd ˆd cov(s, V ) + ( V V )2 var(v ) = [ a 2 S + b 2 V (as + bv ) 2] /n (22) där a och b står för följande a = (1 2S V ) 1 (23) b = 1 2 [ (1 2S V ) 1 + (1 2V ) 1] (24) 13

16 Till sist kan man använda det man beräknat och tillämpa de i ett approximerat 95%-kondensintervall ˆd±λ ε. Avståndet och standard felet räknas ut ifrån S och V. Det går även att studera transitionsfrekvensen för att se hur mycket större eller mindre den är jämfört med transversionsfrekvensen. 3.3 Generellt för båda modellerna Låt tillståndet i kedjan vid tidpunkt t så den blir X(t). X(t) är en av de fyra nukleotiderna A,T,C eller G. Antag att alla positioner i en DNA-sekvens utvecklas oberoende och att markovprocessen används för att beskriva nukleotidsubstitutionerna för alla positioner. Där är P r {X(t + t X(t) = i} = q ij t om markovprocessen q ij beror av tiden t. Beror q ij inte av tiden, t, säger man att den är tidshomogen. Den generella modellen utan några begränsningar av uppbyggnaden utav frekvensmatrisen, Q, kommer att bestå av 12 fria parametrar. Den angivna frekvensmatrisen, Q, över någon tid t > 0 : P (t) = {p ij (t)}, där p ij (t) = P r {X(t) = j X(0) = i}. P (t) ger alltså följande ekvation dp (t) = P (t)q, (25) dt med ett randvillkor på P (0) = I, där I är identitetsmatrisen. Detta ger i sin tur lösningen P (t) = e Qt (26) Frekvensmatrisen, Q, och tiden, t, är en produkt där Q varierar i olika skalfaktorer att den genomsnittliga frekvensen blir ett. Markovkedjan X(t) har en initial fördelning π (0) = (π (0) T, π(0) C, π(0) A, π(0) G ), medan tiden t har fördelningen π (t) = (π (t) T, π(t) C, π(t) A, π(t) G ), vilket ger följande π (t) = π (0) P (t) (27) Ett exempel om man tar ekvation (27) med nukleotiden T som slutpunkt och ett initialvärde på noll. Får man ekvationen π (t) = (π (0) T T, π(0) CT, π(0) AT, π(0) GT ). När den initiala och slutliga fördelningen är ekvivalenta, det vill säga π (0) = π (t), så kommer kedjan att stanna i fördelningen i en oändlighet. Då säger man att kedjan är stationär eller att den är i jämvikt. Man säger även att fördelningen π är stationär eller i steady-state fördelning. Markovkedjan gör att alla tillstånd kan anta vilket annat tillstånd inom en ändlig tid med en positiv sannolikhet. Denna kedja säger man är irreducibel och har då en unik stationär fördelning, vilket också är begränsad fördelning när tiden t. Från ekvation (27) är följande ekvivalent πq = 0 (28) Notera att de totala ödet av något j är i j π iq ij medan det totala utödet är för något j är π j q jj. När kedjan är stationär kommer detta tillsammans med ekvation (28) att vara identiska, alltså i π iq ij = 0 för något j. Ekvation (28) tillsammans med π j 0 och j π j = 1 ger oss möjlighet att bestämma den stationära fördelningen från Q för någon markovkedja. 14

17 3.4 Avståndsuppskattning med UNREST UNREST är en generell modell för nukleotidsubstitution med en frekvensmatris, Q, utan några större begränsningar och med 12 parametrar. Frekvensmatrisen, Q, denieras av den relativa frekvensen där 11 parametrar är involverade. Modellen implementerades av Yang (1994b) för att uppskatta avståndet av sekvenser som använder två grenlängder, t 1 och t 2. Maximum likelihood-metoden ger den multinomiella sannolikheten med 16 olika cellerna, där de 16 cellerna motsvarar 16 möjliga kombinationer. Låt funktionen f ij (t 1, t 2 ) vara sannolikheten för den ij-te cellen, det vill säga den sannolikhet för att någon plats har nukleotid i i ena sekvens och nukleotid j i den andra sekvens. Då de fyra möjliga nukleotiderna härstammar från förfäder måste den genomsnittliga beräknas över dem f ij (t 1, t 2 ) = k π k p ki (t 1 )p kj (t 2 ) (29) Låt n ij vara antalet platser i den ij-te cellen. Då blir logaritmen av maximum likelihood-metoden som följer l(t 1, t 2, Q) = i,j n ij log{f ij (t 1, t 2 )} (30) Frekvensparametrarna π T, π C, π A, π G denieras från frekvensmatrisen, Q, med hjälp av ekvation (30) och de är inte fria parametrar. Det nns dock två problem med denna modell som därför inte alltid gör att den är helt lämplig att tillämpa. Det ena problemet är att den numeriska metoden som används för att hitta maximum likelihood-metodens parametrarna där ingen analytisk lösning verkar möjlig. Egenvärdena för frekvensmatrisen Q tar nämligen inte hänsyn till komplexa tal. Den andra anledningen är att den typiska datamängderna sällan är tillräckliga för att ge otillräckligt med information för att kunna skatta parametrarna. 4 Maximum likelihood-metoden Generellt används maximum likelihood som en metod för att skatta parametrar i en modell och för att testa hypoteser om parametern. Denna metod har många användningsområden och inom molekylärfylogeni har den en viktig roll. Här används maximum likelihood-metoden för att uppsatta avståndet i en sekvens. Låt X vara vår data och θ den parameter som man vill skatta. Maximum likelihood-funktionen betecknas som följande L(θ; X) = f(θ X). Den kan med ord förklaras så att sannolikheten av den observerade informationen är X med en studerad funktion av en okänd parameter θ, med en given data. Likelihoodprincipen säger att maximum likelihood-funktionen har all information i data om θ. 15

18 4.1 JC69 Vid användning av maximum likelihood-metoden för JC69 skattas avståndet mellan sekvenser och parametrar, där avståndet är d. Data för två sekvenser som vardera har n platser och x antal skillnader mellan de två sekvenserna. Detta är sannolikheten p för att en plats har olika nukleotider mellan de två sekvenserna med en avståndet d, som ger följande p = 3p 1 (t) = e 4d/3 (31) Sannolikheten för den observerade data, x, som är antal skillnader mellan de två sekvenserna och består av n antal platser, får man genom den binomial sannolikheten. L(d; x) = f(x d) = Cp x (1 p) n x = C( e 4d/3 ) x ( e 4d/3 ) n x (32) Sannolikheten av den observerade data, x, skrivs som en funktion utav parametern d, det vill säga avståndet. Värden för avståndet, d, med ett högt värde av maximum likelihood, L, stöds bättre än för låga värden för maximum likelihood, L. Ekvation (32) ska nu kompletteras. Först adderas den binomiala koecien- [ ten, C = n! x!(n x)! ], men eftersom det är en konstant och kan den förkastas. Samma denition kommer därför att användas för samtliga substitutionsmodeller och där det nns 16 möjligheter istället för två stycken som i ekvation (32), p och 1 p. I JC69 nns fyra konstanta mönster (TT, CC, AA, GG) där alla har samma sannolikhet att inträa, där det är lika för de andra 12 möjligheterna (TC, TA, TG etc.). Detta är en omdenierad multinomial sannolikhet för 16 celler L(d; x) = ( 1 4 p 1) x ( 1 4 p 0) n x = ( e 4d/3 ) x ( e 4d/3 ) n x (33) Parametrarna p 0 och p 1 kommer från den tidigare ekvation (3). De andra 12 möjligheterna har en sannolikhet på p1 4 eller p 12. Då blir sannolikheten för den första nukleotiden 1 4, då det existerar fyra möjligheter (A, T, C, G). Sannolikheten att det sker en transition är p 1, detta tillsammans blir då p1 4. Är det istället en transversion blir det istället p0 1 p 4 och 12. Det går enkelt att se hur ekvationerna (32) och (33) enbart skiljer sig på proportionerna av konstanterna. Sannolikheten för maximum likelihood, L, är väldigt små och blir därför ganska besvärliga att arbeta med. Det är därför vanligt att man istället använder logaritmen, l(d) = log {L(d)}. Logaritmfunktionen är monoton och den uppnår samma resultat som är L(d 1 ) > L(d 2 ) om och endast om l(d 1 ) > l(d 2 ). Logaritmfunktionen blir följande l(d; x) = log {L(d; x)} = x log( e 4d/3 )+(n x)log( e 4d/3 ) (34) 16

19 Genom att dl dd = 0 kan man bestämma att logaritmen, l, är maximerad av maximum likelihood, L. Därifrån kan man få det skattade avståndet, d, ˆd = 3 4 log(1 4 x 3 n ) (35) Detta är precis lika som avståndet i ekvationen (7) för JC69-modellen som deriverades och hade i den ekvationen ˆp = x n. 4.2 K80 K80-modellen har era parametrar än JC69, vilket gör att maximum likelihoodmetoden behöver justeras lite i jämfört med det tidigare avsnittet. Maximum likelihood-metoden tillämpas för att uppskatta sekvensens avstånd, d, samt transitions-/transversionsfrekvensens förhållande till, κ. Informationen som krävs för metoden är antalet nukleotider, n, samt antalet antalet övergångar, n S, och antalet transversionaler, n V. Sannolikheten beräknas för en konstant plats (exempelvis T T ) är p0 4, och sannolikheten för en transitions skillnaden (exempel TC) är p1 4. Till sist är sannolikheten för en transversell skillnad (till exempel TA) p2 4. I ekvation (13) anges vad p 0, p 1 och p 2 står för. Log-likelihood är l(d, κ n S, n V ) = log{f(n S, n V d, κ)} =(n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) Maximum likelihood-metoden av avståndet, d, och transitions- /transversionsfrekvenskvoten, κ, härleds genom l l d = 0 och κ = 0. Detta kan lösas med ekvation (15), S = n S n och V = n V n. 5 Uppbyggnad av fylogenetiska träd Det kommer att visas i en enklare grad hur man konstruerar och skapar fylogenetiska träd. Ett fylogenetiska träd är en trädliknande graf där man ingående studerar relationer mellan arter, gener eller individer. Inom matematiken byggs grafer upp med hörn och kanter som bygger upp trädet bildligt. Här kommer det att skrivs om fylogeniträd uppbyggnad av arter. När ett träd konstrueras för arter kommer de externa noderna, eller löven som de också kallas, att representera de arter som existerar idag och de interna noderna är arter som är utdöda. Slutligen vid roten av de fylogenetiska träd nns förfäderna. Träden ritas vanligtvis med roten högst upp där de interna noderna infaller nedanför och avslutas trädet med de externa noderna. Det är så generellt träden är uppbyggda, men det nns såklart era modeller utav uppbyggnad av träd. Ett träd kan till exempel vara orotad, då är man inte är säker på vilken förfadern är. Det ger trädet en lite mer rundare form. Har man en evolutionsfrekvens som är konstant över tiden så kallar man det för den molekylära klockan. Då avståndsmatrisen och maximum likelihood-metoden identierar roten och sedan 17

20 konstruerar trädet. Utan den molekylära klockan är de svårt att identiera roten, vilket gör det svårare att skapa ett träd. I ett fylogenetiskt träd brukar man kalla de närmsta besläktade arterna för ingrupper och de som är släkt på lite längre håll för utgrupper. Två vanliga trädtyper är kladogram och fylogram. Ett kladogram är ett träd som inte visar någon information av grenarnas längd medan ett fylogram ger information genom grenarnas längder. 5.1 Avstånd mellan arter Avståndsmetoder innebär två steg; beräkning av genetiska avstånd mellan två arter och rekonstruktion av ett fylogenetiskt träd från en avståndsmatris. En av de simplare avståndsmetoden är kanske UPGMA (Sokal och Sneath 1963). Denna metod är baserad på den molekylära klockans antagande och genererar rotade träd. Det är tillämpligt på befolkningsuppgifter och används sällan för att analysera data arter, eftersom klockan ofta krävs när sekvenserna är avvikande. En metod som inte kräver den molekylära klockans antagande är den minstakvadratmetoden Minstakvadratmetoden Minstakvadratmetoden tar den parvisa avståndsmatrisen, med given data, och uppskattar grenarnas längd på ett träd genom att para ihop deras avstånd så noga som möjligt. Det görs genom att minimera summan av kvadratskillnaden mellan det förutbestämda avståndet, d, och det skattade avståndet, ˆd. De förutbestämda avståndet beräknas genom att summera grenarnas längd mellan två gränsande arterna. Låt avståndet mellan art i och j vara d ij. Låt summan av grenarnas längd från art i till j vara ˆd ij. Därefter används minstakvadratmetoden för att minimera summan över samtliga par i och j med kvadratskillnaden (d ij ˆd ij ) 2, så att trädet passar avståndet så mycket som möjligt. Summan av kvadratskillnaden är som följer S = i<j(d ij ˆd ij ) 2 (36) 18

21 Om man exempelvis har fyra arter a, b, c och d som bildar följande träd Fig.4: Ett artträd som demonstrerar för minstakvadratmetoden där kriterier för grenarna ((a, b), c, d) Trädet består av fem grenar, t 0, t 1, t 2, t 3 och t 4. Det förutsagda avståndet mellan till exempel a och b är t 1 + t 2 medan för a och c är avståndet t 1 + t 0 + t 2. För a och d är avståndet t 1 + t 0 + t 4, för b och c är avståndet t 2 + t 0 + t 3 och till sist är avståndet för c och d är lika med t 3 + t 4. Summan av kvadratskillnaden för detta fall är följande S = (d ij ˆd ij ) 2 = (d 12 ˆd 12 ) 2 i<j +(d 13 ˆd 13 ) 2 + (d 14 ˆd 14 ) 2 + (d 23 ˆd 23 ) 2 + (d 24 ˆd 24 ) 2 + (d 34 ˆd 34 ) Maximum likelihood-metoden - er generationer Här diskuteras och beräknas sannolikheten för multipla sekvenser på ett fylogenetiskt träd. Detta kommer att ske som en naturlig förlängning från de tidigare beräkningar av avståndet mellan två sekvenser. Boken går igenom två sätt att beräkna detta på, men i det här arbetet blir det bara fokus på en av möjliga metoder. Den metoden uppskattar parametrar i den evolutionära modellen och testar en hypotes om den evolutionära processen när en trädtopologi är känd samt xerad. Där tillämpas maximum likelihood-metoden som har många bra statistiska egenskaper och som ger en kraftfull och exibel för denna analys Likelihood beräkningar på träd Som det tidigare förklarades denierar maximum likelihood-metoden sannolikheten för att observera data för en given parameter, även fast de anses vara en funktion av parametrar. Här kommer man att utgå från K80 metoden. Man utgår från att de olika platserna utvecklas oberoende av varandra och att en gren är oberoende av en annan gren. 19

22 Fig.5: Ett träd med 5 arter som används för att demonstrera exemplet som används under maximum likelihood-funktionen. Grenarnas längd är mätta med förväntat antal nukleotid substitutioner per plats. Förfäderna i trädet i Figur 5 är noderna 0, 6, 7 och 8, där 0 är roten. Grenarnas längder betecknas t i, där i står för noden grenen går till. Parametrarna i modellen inkluderar grenarnas längd och dess transition-/transversionsfrekvensen, κ, med gemensamma betäckningar θ = {t 1, t 2, t 3, t 4, t 5, t 6, t 7, t 8, κ}. Eftersom antagandet av en oberoende evolution mellan platserna där sannolikheten av hela datasekvensen är produkten av sannolikheten för enskild individs plats. Detta är ekvivalent med logaritmen av maximum likelihood-metoden är summan över platserna i sekvensen. 6 Resultat l = log(l) = log{f(x n θ)} 6.1 Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes) Här jämförs genfrekvensen D38112 hos en människa med en schimpans. Genfrekvensen nns under bilagor, bilaga De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 956 stycken. Tabell 1 är lätt avrundad med små modieringar. 20

23 Människa Schimpans T C A G π T 195(0.2039) 15(0.0157) 0(0) 4(0.0042) C 9(0.0094) 247(0.2584) 2(0.0021) 0(0) A 0(0) 0(0) 309(0.3232) 0(0) G 0(0) 0(0) 6(0.0063) 169(0.1768) π Tabell 1. Tabell 1 visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Det genomsnittliga värdet på frekvensen för de olika nukleotiderna är T = , C = , A = och G = JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda i det här fallet är n = 956. De nukleotider som skiljer sig från varandra summeras ihop, x = = 36. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = = De skattade avståndet beräknas från ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = Därefter räknas variansen ut från ekvation (8), var( ˆd) = ˆp(1 ˆp) n 1 = Variansen behövs för att kunna räkna ut (1 4 3 ˆp)2 var( ˆd) = standardfelet, som är roten ur på variansen, så standardfelet blir ε = Till sist tillämpas ett approximerat 95%-kondensintervall { ˆd ± λ ε = där λ = 1.96, värdet nns i tabellen under bilagor, bilaga 8.1. Om variansen istället räknas ut med sannolikheten, p, från ekvation (8), var(ˆp) = ˆp(1 ˆp) n = Det nya standardfelet räknas ut till ε = var(ˆp) = och de approximerade 95%-kondensintervallet blir { ˆd ± λ ε = Från ekvation (33) kan man räkna ut maximum liklihood där p : ˆp = x n l( ˆd) =l(ˆp) = x log( x 12n 36 =36 log( ) + (n x) log(n x 4n ) ) + (956 36) log( ) =

24 Genom att sänka värdet av log-likelihood till χ 2 1,5% från toppen skapas ett approximerat 95%-kondensintervall för avståndet, d, och sannolikheten, p. Den generella formen är χ 2 k,5% där k står för grad av frihet och det står för antalet parametrar. Då får vi χ 2 1,5% /2 = 3.841/2 = 1.921, vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = Därefter görs en fplot av maximum likelihoodfunktionen av avståndet, d. Därefter studeras intervallet för avståndet, d, under χ 2 1,5% som blir l(d) = Fig 6: Graf av loglikelihood-funktionen över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Grafen ger oss ett intervall för avståndet, d, på ( , ). Gör man en fplot på maximum likelihood av sannolikheten, p, istället och studerar intervallet för det under χ 2 1,5%, l(p) = Fig 7: Graf av loglikelihood-funktionen över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, blir som följer ( , ). 22

25 P (t) = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheterna blir { p 0 (t) = e 4λt = e 4d/3 = p 1 (t) = e 4λt e 4d/3 = En kontroll görs, p p 1 = 1, och det visar att det stämmer K80-modellen Här beräknas K80-modellen för samma data som för JC69. Beräkningarna för K80 blir bara lite mer precisare än för JC69. Istället för att endast räkna alla nukleotider som skiljer sig från varandra delar man upp de i två grupper, transitions och transversions skillnad. Andelen av alla transitions skillnader blir S = ( )/956 = 30/956 = 15/478 och transversions skillnaden blir V = ( )/956 = 6/956 = 3/478. Efter detta beräknas de skattade avståndet ut från ekvation (14), ˆd = 1 2 log(1 2S V ) 1 4log(1 2V ) = Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data räknas ut och blir a = , b = och var( ˆd) = Med all insamlad data kan det approximerade 95%-kondensintervallet beräknas till { ˆd ± λ ε = där standardelet är ε = var( ˆd) = Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, som blir ˆκ = 2log(1 2S V ) log(1 2V ) 1 = Detta visar oss att transitionsfrekvenskvoten är ungefär 10 gånger högre än transversionfrekvenen. αt = 1 2 log(1 2S V ) + 1 log(1 2V ) 4 = 1 2 log( ) + 1 log( ) = βt = 1 2 log(1 2V ) = 1 log( ) =

26 Maximum likelihood-metoden beräknas enligt ekvation (36) och ser ut som följer l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = e 4βt e 2(α+β)t = e e = p 1 (t) = e 4βt 1 2 e 2(α+β)t = e e = p 2 (t) = e 4β = e = Detta ger oss följande l(d, κ n S, n V ) = ( ) log( p 0 4 )+30 log(p 1 4 )+6 log(p 2 4 ) = En kontroll kan görs för att kotrollera att värdena för övergångssannolikheterna stämmer, p 0 + p p 2 = 1. I vårt fall stämmer kontrollera. Även här studeras χ 2 1,5% med en frihetsgrad 1 och från toppen skapas ett approximerat 95%-kondensintervall för avståndet, d. Där χ 2 1,5% /2 = vilket ger oss l( ˆd) χ 2 1,5% /2 = Fig 8: Graf av likelihood över sannolikheten, p, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Från grafen får vi intervall ( , ). För att kunna räkna ut variansen av ˆd över ˆκ behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( ) 24

27 Där jacobianen räknas ut såhär J = = ( 1 1 2S V 4 (1 2S V ) log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V ) (log(1 2V )) 2 ( ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( V ) J T = Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) Här jämförs genfrekvensen D38112 hos en människa med en gorilla. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 956 nukleotider. Genfrekvenserna nns under bilagor, bilaga Människa Gorilla T C A G π T 194(0.2029) 12(0.0126) 0(0) 6(0.0063) C 12(0.0126) 244(0.2552) 1(0.0010) 0(0) A 0(0) 3(0.0031) 312(0.3264) 0(0) G 0(0) 0(0) 5(0.0052) 167(0.1747) π ) Tabell 2. Tabell 2, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de olika nukleotiderna är T = , C = , A = och G = JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 956. De nukleotider som skiljer sig från varandra summeras ihop x = = 39. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = = Det uppskattade avståndet beräknas genom ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = Därefter räknas variansen ut för det skattade 25

28 avståndet, ˆd, från ekvation (8) vilket ger oss ˆp(1 ˆp) 1 n = Variansen behövs för att kunna beräkna standardfelet, detta görs genom att roten (1 4 3 ˆp)2 ur på variansen, ε = var( ˆd) = Till sist tillämpas ett approximerat 95%-kondensintervall { ˆd ± λ ε = där λ = 1.96 och tabellen nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8) får vi var( ˆp) = ˆp(1 ˆp) n Det nya standardfelet räknas ut och blir ε = var(ˆp) = och det approximerade 95%-kondensintervallet justeras till följande Maximum likelihood ger oss ˆd ± λ ε = { l( ˆd) =l(ˆp) = x log( x 12n 39 =39 log( ) + (n x) log(n x 4n ) ) + (956 39) log( ) = Genom att sänka log-likelihood till χ 2 1,5% från maximum likelihood-metoden skapas ett 95% intervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = Därefter görs en fplot av maximum likelihood funktionen av avståndet,d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = Fig 9: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. 26

29 Detta ger oss ett intervall för avståndet, d, på ( , ). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = Fig 10: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, blir som följer ( , ). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = e 4λt = e 4d/3 = p 1 (t) = e 4λt = e 4d/3 = En kontroll görs, p p 1 = 1, och det stämmer K80-modellen Här beräknas K80-modellen istället med samma data som innan. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnader. Andelen av transitions skillnaden blir S = ( )/956 = 29/956 och transversions skillnaden blir V = ( )/956 = 10/956 = 5/478. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log( ) 1 4 log( ) = Variansen av det skattade avståndet är var( ˆd) = a 2 S+b 2 V (as+bv ) [ 2 n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Med genfrekvensens data blir a = , b = och 27

30 var( ˆd) = Med all insamlad data kan ett approximerat 95%- kondensintervall beräknas till { ˆd ± λ ε = där standardfelet är ε = var( ˆd) = Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas till ˆκ = 2log(1 2S V ) log(1 2V ) 1 = Detta visar oss att transitionsfrekvensen är nästan 6 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log( )+1 log( ) = βt = 1 2 log(1 2V ) = 1 log( ) = Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = e 4βt e 2(α+β)t = e e = p 1 (t) = e 4βt 1 2 e 2(α+β)t = e e = p 2 (t) = e 4β = e = Vilket ger oss l(d, κ n S, n V ) = ( ) log( p 0 4 )+29 log(p 1 4 )+10 log(p 2 4 ) = Kontrollerar övergångssannolikheternas värden som innan, p 0 + p p 2 = 1, och det stämmer. Studera χ 2 1,5% med frihetsgraden 1 och från maximum skapas ett approximerat 95%-kondensintervall för avståndet, d. Där χ 2 1,5% /2 = ger l( ˆd) χ 2 2,5% /2 =

31 Fig 11: Graf av likelihood över avståndet, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för avståndet, d, är ( , ). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på här ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över det skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas till var( ˆd ˆκ ) = J var( S ( ) V ) J T = Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) Här jämförs genfrekvensen D38112 hos en människa med en schimpans. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna 29

32 som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 957 nukleotider. Under bilagor, bilaga nns genfrekvensen. Människa Bonbo T C A G π T 196(0.2048) 15(0.0157) 0(0) 5(0.0052) C 9(0.0094) 246(0.2571) 2(0.0021) 0 (0) A 1(0.0010) 0(0) 310(0.3243) 0 (0) G 0(0) 0(0) 5(0.0052) 168(0.1755) π Tabell 3. Tabell 3, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra nukleotiderna är T = , C = , A = och G = JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 957. De nukleotider som skiljer sig från varandra summeras ihop till x = = 37. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = ekvation (7), ˆd = 3 4 log(1 4 3 = Det uppskattade avståndet beräknas genom ˆp) = Därefter räknas variansen av 1 = (1 4 3 ˆp)2 var( ˆd) = det skattade avståndet, ˆd, ut från ekvation (8), ˆp(1 ˆp) n Variansen behövs som sagt för att kunna beräkna standardfelet, ε = Till sist tillämpas ett approximerat 95%-kondensintervall { ˆd ± λ ε = där λ = 1.96, tabell nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8), var(ˆp) = ˆp(1 ˆp) n = Det nya standardfelet räknas ut till ε = var(ˆp) = och det nya approximerade 95%-kondensintervallet blir { ˆd ± λ ε = Maximum likelihood-metodens ger följande beräkningar l( ˆd) =l(ˆp) = x log( x 12n 37 =37 log( ) + (n x) log(n x 4n ) ) + (957 37) log( ) =

33 Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95% intervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = Fig 12: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d, på ( , ). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = Fig 13: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Figur 13, ovan, ger oss intervallet över sannolikheten, p, blir som följer ( , ). 31

34 P (t) = e Qt = p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t), där övergångssannolikheten blir { p 0 (t) = e 4λt = e 4d/3 = p 1 (t) = e 4λt = e 4d/3 = En kontroll görs, p p 1 = 1, och är stämmer K80-modellen Här beräknas K80-modellen för samma data som ovan i JC69-modellen. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnaden. Andelen av transitions skillnaden blir S = ( )/957 = 29/957 = 1/33 och transversions skillnaden V = ( )/957 = 8/957. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log( ) 1 4log( ) = Variansen av det uppskattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas och blir a = , b = och var( ˆd) = Med all insamlad data kan det ett approximerat 95%-kondensintervall beräknas till { ˆd ± λ ε = där standardfelet, ε = var( ˆd) = Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = Detta visar att transitionsfrekvensen är ungefär 7 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log( )+1 log( ) = βt = 1 2 log(1 2V ) = 1 log( ) = Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) 32

35 där övergångssannolikheten är p 0 (t) = e 4βt e 2(α+β)t = e e = p 1 (t) = e 4βt 1 2 e 2(α+β)t = e e = p 2 (t) = e 4β = e = Vilket ger l(d, κ n S, n V ) = ( ) log( p 0 4 )+29 log(p 1 4 )+8 log(p 2 4 ) = Kontrollerar övergångssannolikheternas värden som innan, p 0 + p p 2 = 1. Även här används en parameter vilket gör att man använder frihetsgraden 1 när man sänker log-likelihood, χ 2 1,5%, från maximum skapas ett 95%-intervall för avståndet, d. Detta ger l( ˆd) χ 2 1,5% /2 = Fig 14: Graf av likelihood över avståndet, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för d blir som följer ( , ). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n Där jacobianen räknas ut såhär ) = ( ) J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( ) ) 33

36 Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( V ) J T = Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) Här jämförs genfrekvensen D38112 hos en människa med en svarthandad gibbon. De först 960 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 947 nukleotider. Genfrekvensen nns under bilagor, bilaga Tabell 4 är lätt avrundad med små modieringar. Människa Gibbon T C A G π T 174(0.1837) 15(0.0158) 2(0.0021) 15(0.0158) C 27(0.0285) 234(0.2471) 4(0.0042) 0(0) A 3(0.0032) 3(0.0032) 290(0.3063) 1(0.0011) G 2(0.0021) 2(0.0021) 18(0.0190) 157(0.1658) π ) Tabell 4. Tabell 4, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra nukleotiderna är T = , C = 0.274, A = och G = JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 947. De nukleotider som skiljer sig ifrån varandra och summeras ihop x = = 92. Tillsammans med n och x räknas andelen olika platser ut, ˆp = x n = = Det skattade avståndet beräknas genom ˆp) = Därefter räknas variansen av det ekvation (7), ˆd = 3 4 log(1 4 3 skattade avståndet, ˆd, ut från ekvation (8), ˆp(1 ˆp) n = Vari- (1 4 3 ˆp)2 var( ˆd) = ansen behövs för att kunna beräkna standardfelet, ε = Till sist tillämpas ett approximerat 95%-kondensintervall { ˆd ± λ ε = där λ = 1.96, tabell nns under bilagor, bilaga 8.1. Om variansen räknas ut med sannolikheten, p, istället som i ekvation (8) blir den var(ˆp) = ˆp(1 ˆp) n = 34

37 Det nya standardfelet räknas ut till ε = var(ˆp) = och approximerat 95-kondensintervallet justeras till { ˆd ± λ ε = Maximum likelihood ger oss det maximalavärdet l( ˆd) =l(ˆp) = x log( x 12n 92 =92 log( ) + (n x) log(n x 4n ) ) + (947 92) log( ) = Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%- kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% alltså för l(d) = Fig 15: Graf av likelihood över avståndet, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d på ( , ). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) =

38 Fig 16: Graf av likelihood över sannolikheten,p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet för sannolikheteb, p, blir som följer ( , ). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = e 4λt = e 4d/3 = p 1 (t) = e 4λt = e 4d/3 = En kontroll görs, p p 1 = 1, och den stämmer K80-modellen Här beräknas K80-modellen för samma data som tidigare med JC69-modellen. Istället för att beräkna nukleotider som skiljer sig från varandra delar man upp dem i två grupper, transitions och transversions skillnad. Andelen av transitions skillnaden blir S = ( )/947 = 61/947 och transversions skillnaden V = ( )/947 = 31/947. Efter detta kalkyleras det skattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log( ) 1 4 log( ) = Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas till a = , b = och var( ˆd) = Med all insamlad data kan det ett approximerat 95%-kondensintervall beräknas ˆd ± λ ε = {

39 där standardfelet är ε = var( ˆd) = Från ekvation (15) kan den uppskattade transitions- och transversionsferkvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = Detta visar att transitionsfrekvensen är ungefär 4 gånger högre än transversionfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log( )+1 log( ) = βt = 1 2 log(1 2V ) = 1 log( ) = Maximum likelihood-metoden beräknas enligt ekvation (36) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = e 4βt e 2(α+β)t = e e = p 1 (t) = e 4βt 1 2 e 2(α+β)t = e e = p 2 (t) = e 4β = e = Vilket ger l(d, κ n S, n V ) = ( ) log( p 0 4 )+61 log(p 1 4 )+31 log(p 2 4 ) = Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett approximerat 95%-kondensintervall för avståndet, d. vilket ger l( ˆd) χ 2 1,5% /2 = Fig 17: Graf av likelihood över distansen, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. 37

40 Figur 17 ger oss intervallet ( , ). Kontrollerar övergångssannolikheternas värdena som tidigare, p 0 + p p 2 = 1, som stämmer. För att kunna räkna ut variansen av ˆd över ˆκ behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas på följande sett ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( ) V ) J T = Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) Här jämförs genfrekvensen D38112 hos en människa med ett lejon. De först 1020 nukleotiderna har blivit jämförda med varandra, dock har de nukleotiderna som inte kunnat jämföras tagits bort så det totala antalet jämförda nukleotider är 983 nukleotider. Genfrekvenser nns under bilagor, bilaga Människa Lejon T C A G π T 172(0.1750) 35(0.0356) 7(0.0071) 23(0.0234) C 25(0.0254) 195(0.1984) 14(0.0143) 3(0.0031) A 15(0.0152) 26(0.0265) 293(0.2981) 2(0.0020) G 2(0.0020) 7(0.0071) 13(0.0132) 151(0.1536) π Tabell 5. Tabell 5, visar alla nukleotider i sekvensen och vilka nukleotider som skiljer sig åt mellan arterna. I parenteserna visas dierensen för alla möjliga utfall. Medelvärdet av frekvensen för de fyra olika nukleotiderna är T = , C = , A = och G =

41 6.5.1 JC69 modellen De totala antalet nukleotider från genfrekvensen som är jämförda är n = 983. De nukleotider som skiljer sig ifrån varandra summeras ihop x = = 172. Tillsammans med n och = Det skattade avståndet beräknas genom ekvation (7), ˆd = 3 4 log(1 4 3 ˆp) = Därefter räknas variansen av det skattade avståndet, ˆd, ut från ekvation (8) och ger oss ˆp(1 ˆp) 1 n = Variansen behövs för att kunna beräkna (1 4 3 ˆp)2 var( ˆd) = Till sist tillämpas ett approximerat x räknas andelen olika platser ut, ˆp = x n = standardfelet, ε = 95%-kondensintervall ˆd ± λ ε = { där λ = 1.96, tabellen nns under bilagor, bilaga 8.1. Om variansen kalkyleras ut med sannolikheten, p, istället i ekvation (8) var(ˆp) = ˆp(1 ˆp) n = Det nya standardfelet beräknas till ε = var(ˆp) = och de approximerade 95%-kondensintervallet justeras till { ˆd ± λ ε = Maximum likelihood-metodens ger följande beräkningar l( ˆd) =l(ˆp) = x log( x 12n 172 =37 log( ) + (n x) log(n x 4n ) ) + (957 37) log( ) = Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%- kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 1,5% /2 = 3.841/2 = vilket ger l(p) = l(d) = l( ˆd) χ 2 1,5% /2 = Därefter görs en fplot av maximum likelihood-funktionen av avståndet, d. Därefter studeras intervallet av avståndet, d, under χ 2 1,5% 39

42 Fig 18: Graf av likelihood över distansen, d, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Detta ger oss ett intervall för avståndet, d, på (0.1696, 0.228). Om en fplot istället görs på maximum likelihood av sannolikheten, p, och studerar intervallet av p under χ 2 1,5%, l(p) = Fig 19: Graf av likelihood över sannolikheten, p, för JC69. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet över sannolikheten, p, får vi från gur 19. och blir (0.1531, ). p 0 (t) p 1 (t) p 1 (t) p 1 (t) P (t) = e Qt = p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) p 1 (t) p 1 (t) p 1 (t) p 1 (t) p 0 (t) där övergångssannolikheten blir { p 0 (t) = e 4λt = e 4d/3 = p 1 (t) = e 4λt = e 4d/3 = Kontrollerar så att p p 1 = 1 stämmer, vilket det gör i vårt fall. 40

43 6.5.2 K80-modellen Här beräknas K80-modellen för samma data som tidigare med JC69-modellen. Istället för att beräkna alla nukleotider som skiljer sig från varandra delar man upp dem i transitions och transversions skillnaden. Andelen av transitions skillnaden blir S = ( )/983 = 75/983 och den transversions skillnaden V = ( )/983 = 97/983. Efter detta kalkyleras det uppskattade avståndet ut från ekvation (14) ˆd = 1 2 log(1 2S V ) 1 4 log(1 2V ) = 1 2 log( ) 1 4 log( ) = Variansen av det skattade avståndet är var( ˆd) = a2 S+b 2 V (as+bv ) 2 [ n, där a = (1 2S V ) 1 och b = 1 2 (1 2S V ) 1 + (1 2V ) 1]. Genfrekvensens data beräknas och blir a = , b = samt var( ˆd) = Med all insamlad data kan det ett 95%-kondensintervall beräknas till { ˆd ± λ ε = där standardfelet, ε = var( ˆd) = Från ekvation (15) kan den skattade transitions- och transversionsfrekvenskvoten beräknas, ˆκ = 2log(1 2S V ) log(1 2V ) 1 = Detta visar att transitionsfrekvensen är nästan 2 gånger högre än transversionsfrekvensen. αt = 1 2 log(1 2S V )+1 4 log(1 2V ) = 1 2 log( )+1 log( ) = βt = 1 2 log(1 2V ) = 1 log( ) = Maximum likelihood-metoden beräknas enligt ekvation (35) l(d, κ n S, n V ) = (n n S n V ) log( p 0 4 ) + n S log( p 1 4 ) + n V log( p 2 4 ) där övergångssannolikheten blir p 0 (t) = e 4βt e 2(α+β)t = e e = p 1 (t) = e 4βt 1 2 e 2(α+β)t = e e = p 2 (t) = e 4β = e = Vilket ger l(d, κ n S, n V ) = ( ) log( p 0 4 )+n S log( p 1 4 )+n V log( p 2 4 ) =

44 Kontrollerar övergångssannolikhetens värdena som innan, p 0 + p p 2 = 1, och de stämmer för oss. Genom att sänka log-likelihood till χ 2 1,5% från maximum skapas ett 95%-kondensintervall för avståndet, d, och sannolikheten, p. Där χ 2 2,5% /2 = 5.991/2 = vilket ger l( ˆd) χ 2 2,5% /2 = Fig 20: Graf av likelihood över distansen, d, för K80. Grafen visar vilka värden kondensintervallet under χ 2 1,5% antar. Intervallet kommer från gur 20. och är (0.1706, ). För att kunna räkna ut variansen av det skattade avståndet, ˆd, över det skattade transitions- /transversionsfrekvenskvoten, ˆκ, behövs bland annat variansen av S över V samt jacobianen, J. Ekvation (19) visar hur formeln ser ut. Variansen av S över V beräknas som följer ( var( S S(1 S) V ) = n SV n SV n V (1 V ) n ) = ( ) Där jacobianen beräknas såhär J = = ( 1 1 2S V 4 (1 2S V )log(1 2V ) 1 2(1 2V ) + 1 2(1 2S V ) 2 (1 2S V )log(1 2V ) + 4log(1 2S V ) (1 2V )(log(1 2V )) 2 ( ) ) Med all denna information kan nu variansen av det skattade avståndet, ˆd, över de skattade transitions-/transversionsfrekvenskvoten, ˆκ, beräknas var( ˆd ˆκ ) = J var( S ( ) V ) J T =

45 6.6 Jämförelse av resultat Här kommer de olika beräkningarna studeras mellan dem olika arterna. Jag börjar med att studera antalet gener som skiljer arterna ifrån människan och ser att det är ganska stor skillnad dem emellan. Som förväntat har schimpansen och gorillan minst antal nukleotider som skiljer men även bonobo har relativt få avvikelser. Förväntat hade lejonet est avvikelser i genfrekvensen. Därefter studera de olika avstånden för både de två modellerna för alla fem arter. Tabellen nedan sammanfattar alla avstånd. Avstånd, d Schimpans Gorilla Bonobo Gibbon Lejon JC K Tabell 6. I tabell 6, ovan, visas alla beräknade avstånd över de två modellerna och samtliga arter. Studerar man och jämför avstånden mellan de två olika modellerna, JC69 och K80, kan man se att det är relativt liten skillnad modellerna emellan för alla fem arter. Jämför man istället avståndet dem fem olika arterna emellan nns det skillnader. Mellan schimpanser, gorillor och bonobo är skillnaden relativt liten. Gibbonapan sticker ut i jämfört med de tre andra aporna då avståndet skiljer mer än två gånger så mycket. Jämför man lejonet med schimpanser så har lejonet ett avstånd på ungefär fem gånger större. Nedan, tabell 7, är en tabell gjord över ett approximerat 95%-kondensintervallet för avståndet mellan modellerna. JC69 och K80, för de fem arterna. Övre kvantil visar det större värdet från det approximerade 95%-kondensintervallet och den undre kvantilen visar det lägre värdet. JC69 K80 Tabell 7. Kondensintervall för avstånd, d Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil undre kvantil övre kvantil undre kvantil Från tabell 7. kan vi se alla arter har relativt små avstånd i sina intervall. Man kan även se att den undre kvantilen i kondensintervallet för alla arterna har väldigt små skillnader mellan de två modellerna. I tabell 8, nedan visas χ 2 -testet för alla arter samt de två modellerna, JC69 och K80. 43

46 JC69 K80 χ 2 av avståndet, d Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil undre kvantil övre kvantil undre kvantil Tabell 8. Studerar man kondensintervallet för avståndet, d, med χ 2 i tabell 8. ser man att för alla apor är intervallen relativt små medan för lejonet är det något större. Vilket var förväntat. Studerar man det första approximerade 95%-kondensintervallet med kondensintervallet för χ 2 kan man se att intervallen ligger väldigt nära varandra. Kondensintervallet för χ 2 ligger bara en aning längre ner än för det approximerade 95%-kondensintervallet. I tabell 9. nedan är ser vi alla approximerade 95%-kondensintervall för sannolikheten för JC69 modellen och de fem arterna. JC69 Tabell 9. Kondensintervall för sannolikheten, p Schimpans Gorilla Bonobo Gibbon Lejon övre kvantil undre kvantil Tabell 9. visar som förväntat att schimpans, gorilla och bonobo har relativt liknande kondensintervall. Lejonet har högst kondensintervall för sannolikheten och spannet är även något större än för schimpansen, gorillan och bonobon. Spannet för lejonet är störst utav de fem arterna. I Tabell 10. nedan har vi χ 2 -testet för sannolikheten. χ 2 av sannolikheten, p JC69 Schimpans Gorilla Bonobo Gibbon Lejon över kvantil undre kvantil Tabell 10. De approximerade 95%-kondensintervallen i tabell 10. visar att sannolikheten, p, relativt små för aporna och något större för lejonet. Även här skiljer det inte mycket mellan det approximerade 95%-kondensintervallet och kondensintervallet för χ 2. Kondensintervallet för χ 2 ligger en aning längre ner än de approximerade 95%-kondensintervallet. Logartmfunktionen Schimpans Gorilla Bonobo Gibbon Lejon JC K Tabell

47 Från tabell 11. visar de olika värdena för maximum likelihood-metoden för de två modellerna och de fem arterna. JC69 visar något högre värde för alla maximum likelihood-metoderna jämfört med K80. Som tidigare ligger värdena för schimpans, gorilla och bonobo väldigt nära varandra. Lejonet har som förväntat även det högsta värdet. För K80-modellen visar något större skillnad för bonobon mellan gorillan och schimpansen. χ 2 av logaritmfunktionen Schimpans Gorilla Bonobo Gibbon Lejon JC K Tabell 12. Genom att studera tabell 12. som visar χ 2 -testet för de olika arterna och modellerna, kan man se att värdena inte skiljer sig så värst mycket jämfört med maximum likelihood-modellen. χ 2 -testet är endast omkring 2 mindre än maximum likelihood för alla arter utom schimpansen, som har identiskt värde, för JC69. För K80-modellen skiljer det lite mer mellan värdena jämfört med maximum likelihood-metoden. Som för att innan är det störts skillnad för lejonet. Man måste ha hänsyn till att i K80-modellen används en transitions- /transversionsfrekvens E(S) E(V ) = p1(t) p 2(t) är generellt ett mått. 7 Diskussion Syftet med detta arbete är att studera släktskapet mellan olika arter. Alla resultat blev som jag hade förväntat, med att schimpans, gorilla och bonobon hade ett väldigt litet avstånd mot människan. Det var även förväntat att lejonet skulle ha störts avstånd till människan jämfört med aporna. Vi kunde se att människan har mycket små skillnader jämfört med aporna, speciellt schimpanser och gorillor. Det var som sagt förväntat eftersom vi redan vet att det är de två arterna är närmst besläktade med oss människor. Lejonet hade förstås störst skillnader, dock kanske man hade trott att det skulle vara något större än det var. Det nns mycket som skulle kunna utvecklas i det här arbetet. Så som till exempel att man skulle kunna utveckla och konstruera fylogenetiska träd. Det skulle även gå att räkna ut den molekylära klockan. Det tog lite tid innan jag lyckades lista ut hur jag skulle kunna använda GeneBank och på så sätt få ut genfrekvenser att studera. En annan klurighet jag stötte på efter var att få till graferna över χ 2 -testets kondensintervall. Några av graferna såg till en början tomma ut, men när jag zoomade in på rätt axlar kunde man hitta grafen. 45

48 8 Bilagor 8.1 Tabell för 95%-kondensintervall - normalfördelnings kvantiler a λ Tabell för χ 2 κ,5% Grad av Sannolikhet av stora värden av x 2 frihet, κ 0.05 = 5%

49 8.3 Genfrekvenser från GeneBank Människa (Homo sapiens) D38112 mot Schimpans (Pan troglodytes troglodytes) 47

50 8.3.2 Människa (Homo sapiens) D38112 mot Gorilla (Gorilla gorilla) 48

51 8.3.3 Människa (Homo sapiens) D38112 mot Bonobo (Pan paniscus) 49

52 8.3.4 Människa (Homo sapiens) D38112 mot Svarthandad Gibbon (Hylobates agilis) 50

53 8.3.5 Människa (Homo sapiens) D38112 mot Lejon (Panthera leo) 51

TAMS79: Föreläsning 10 Markovkedjor

TAMS79: Föreläsning 10 Markovkedjor TAMS79: Föreläsning 0 Markovkedjor Johan Thim december 08 0. Markovkedjor Vi ska nu betrakta en speciell tidsdiskret diskret stokastisk process, nämligen Markovkedjan. Vi börjar med en definition Definition.

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016 SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 4 KONTINUERLIGA STOKASTISKA VARIABLER Tatjana Pavlenko 7 september 2016 PLAN FÖR DAGENS FÖRELÄSNING Repetition av diskreta stokastiska variabler. Väntevärde

Läs mer

Matematisk statistik TMS064/TMS063 Tentamen

Matematisk statistik TMS064/TMS063 Tentamen Matematisk statistik TMS64/TMS63 Tentamen 29-8-2 Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 3 Markovprocesser 16 April 2015 Johan Westerborn Markovprocesser (1) Föreläsning 3 Föreläsningsplan 1 Förra Föreläsningen 2 Markovprocesser

Läs mer

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Markovkedjor. Patrik Zetterberg. 8 januari 2013 Markovkedjor Patrik Zetterberg 8 januari 2013 1 / 15 Markovkedjor En markovkedja är en stokastisk process där både processen och tiden antas diskreta. Variabeln som undersöks kan både vara numerisk (diskreta)

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 3 Markovprocesser 13 April 2016 Johan Westerborn Markovprocesser (1) Föreläsning 3 Föreläsningsplan 1 Förra Föreläsningen 2 Markovprocesser

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 5 Markovprocesser 24 April 2015 Johan Westerborn Markovprocesser (1) Föreläsning 5 Föreläsningsplan 1 Förra Föreläsningen 2 Poissonprocessen

Läs mer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p) Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 5 Markovprocesser 2 Maj 2016 Johan Westerborn Markovprocesser (1) Föreläsning 5 Föreläsningsplan 1 Förra Föreläsningen 2 Poissonprocessen

Läs mer

P =

P = Avd. Matematisk statistik TENTAMEN I SF297 (f d 5B157) TILLFÖRLITLIGHETSTEORI LÖRDAGEN DEN 2 OKTOBER 21 KL 1. 18.. Examinator: Gunnar Englund, tel. 79716, e-postadress: gunnare@math.kth.se Tillåtna hjälpmedel:

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

TMS136: Dataanalys och statistik Tentamen

TMS136: Dataanalys och statistik Tentamen TMS136: Dataanalys och statistik Tentamen 013-08-7 Examinator och jour: Mattias Sunden, tel. 0730 79 9 79 Hjälpmedel: Chalmersgodkänd räknare och formelsamling (formelsamling delas ut med tentan). Betygsgränser:

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

f(x) = 2 x2, 1 < x < 2.

f(x) = 2 x2, 1 < x < 2. Avd. Matematisk statistik TENTAMEN I SF90,SF907,SF908,SF9 SANNOLIKHETSTEORI OCH STATISTIK TORSDAGEN DEN 7:E JUNI 0 KL 4.00 9.00. Examinator: Gunnar Englund, tel. 07 7 45 Tillåtna hjälpmedel: Formel- och

Läs mer

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion Avd. Matematisk statistik TENTAMEN I 5B57 MATEMATISK STATISTIK FÖR T och M ONSDAGEN DEN 9 OKTOBER 25 KL 8. 3.. Examinator: Jan Enger, tel. 79 734. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk

Läs mer

Matematisk statistik TMS063 Tentamen

Matematisk statistik TMS063 Tentamen Matematisk statistik TMS63 Tentamen 8-8- Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof Elias,

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 4 Markovprocesser 20 April 2015 Johan Westerborn Markovprocesser (1) Föreläsning 4 Föreläsningsplan 1 Förra Föreläsningen 2 Innbäddade

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 9 Johan Lindström 16 oktober 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F9 1/26 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

LKT325/LMA521: Faktorförsök

LKT325/LMA521: Faktorförsök Föreläsning 2 Innehåll Referensfördelning Referensintervall Skatta variansen 1 Flera mätningar i varje grupp. 2 Antag att vissa eekter inte existerar 3 Normalfördelningspapper Referensfördelning Hittills

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

tisdag 8 oktober 13 Carl Von Linné

tisdag 8 oktober 13 Carl Von Linné Carl Von Linné Carl Von Linné Svensk Botanikprofessor. Carl Von Linné Svensk Botanikprofessor. Utformade ett taxonomi system. Carl Von Linné Svensk Botanikprofessor. Utformade ett taxonomi system. Taxonomi:

Läs mer

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =

Läs mer

Tenta i Statistisk analys, 15 december 2004

Tenta i Statistisk analys, 15 december 2004 STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik, ML 15 december 004 Lösningar Tenta i Statistisk analys, 15 december 004 Uppgift 1 Vi har två stickprov med n = 5 st.

Läs mer

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:... Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 8:E JANUARI 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, Avd. Matematisk statistik TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, TORSDAGEN DEN 7 JUNI 2012 KL 14.00 19.00 Examinator:Gunnar Englund, 073 3213745 Tillåtna hjälpmedel: Formel- och

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Jörgen Säve-Söderbergh

Jörgen Säve-Söderbergh SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 8 Binomial-, hypergeometrisk- och Poissonfördelning Exakta egenskaper Approximativa egenskaper Jörgen Säve-Söderbergh Binomialfördelningen

Läs mer

Stokastiska processer

Stokastiska processer Stokastiska processer Fredrik Olsson, fredrik.olsson@iml.lth.se Avdelningen för produktionsekonomi Lunds tekniska högskola, Lunds universitet Dessa förläsningsanteckningar kommer att behandla diskreta

Läs mer

Lufttorkat trä Ugnstorkat trä

Lufttorkat trä Ugnstorkat trä Avd. Matematisk statistik TENTAMEN I SF1901 och SF1905 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 18:E OKTOBER 2012 KL 14.00 19.00. Examinator: Tatjana Pavlenko, tel 790 8466. Tillåtna hjälpmedel:

Läs mer

DNA-molekylen. 1869 upptäcktes DNA - varken protein, kolhydrat eller lipid.

DNA-molekylen. 1869 upptäcktes DNA - varken protein, kolhydrat eller lipid. Genetik Ärftlighetslära - hur går det till när egenskaper går i arv? Molekylär genetik - information i DNA och RNA Klassisk genetik - hur olika egenskaper ärvs Bioteknik - Hur DNA flyttas mellan olika

Läs mer

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18 LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA241/9MA341, STN2) 213-1-11 kl 14 18 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd

Läs mer

Stokastiska processer och simulering I 24 maj

Stokastiska processer och simulering I 24 maj STOCKHOLMS UNIVERSITET LÖSNINGAR MATEMATISKA INSTITUTIONEN Stokastiska processer och simulering I Avd. Matematisk statistik 24 maj 2016 Lösningar Stokastiska processer och simulering I 24 maj 2016 9 14

Läs mer

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F9: Konfidensintervall 1/19 Stickprov & Skattning Ett stickprov, x 1, x 2,...,

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE31 Sannolikhet, statistik och risk 218-1-12 kl. 8:3-13:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Formler och tabeller till kursen MSG830

Formler och tabeller till kursen MSG830 Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)

Läs mer

Genetik. - cellens genetik - individens genetik. Kap 6

Genetik. - cellens genetik - individens genetik. Kap 6 Genetik - cellens genetik - individens genetik Kap 6 Vad bestämmer hur en organism (cell) ser ut och fungerar? Generna (arvsanlagen) och miljön Hur går det till? En gen är en ritning för hur ett protein

Läs mer

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5 LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan

Läs mer

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall Anna Lindgren 7+8 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F11: Konfidensintervall 1/19 Stickprov & Skattning Ett

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4: Konfidensintervall (forts.) Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika

Läs mer

1 Stokastiska processer. 2 Poissonprocessen

1 Stokastiska processer. 2 Poissonprocessen 1 Stokastiska processer En stokastisk process är en stokastisk variabel X(t), som beror på en parameter t, kallad tiden. Tiden kan vara kontinuerlig, eller diskret (i vilket fall man brukar beteckna processen

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Grafer och grannmatriser

Grafer och grannmatriser Föreläsning 2, Linjär algebra IT VT2008 Som avslutning på kursen ska vi knyta samman linjär algebra med grafteori och sannolikhetsteori från första kursen. Resultatet blir så kallade slumpvandringar på

Läs mer

9. Konfidensintervall vid normalfördelning

9. Konfidensintervall vid normalfördelning TNG006 F9 09-05-016 Konfidensintervall 9. Konfidensintervall vid normalfördelning Låt x 1, x,..., x n vara ett observerat stickprov av oberoende s.v. X 1, X,..., X n var och en med fördelning F. Antag

Läs mer

TMS136. Föreläsning 11

TMS136. Föreläsning 11 TMS136 Föreläsning 11 Andra intervallskattningar Vi har sett att vi givet ett stickprov och under vissa antaganden kan göra intervallskattningar för väntevärden Man kan även gör intervallskattningar för

Läs mer

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p)

b) Vad är sannolikheten att personen somnar i lägenheten? (4 p) c) Hur många gånger förväntas personen byta rum? (4 p) Avd. Matematisk statistik TENTAMEN I SF904 MARKOVPROCESSER TISDAGEN DEN 9 JUNI 05 KL 4.00 9.00. Examinator: Boualem Djehiche tel. 790 78 75. Tillåtna hjälpmedel: Formel- och tabellsamling i Matematisk

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

FACIT: Tentamen L9MA30, LGMA30

FACIT: Tentamen L9MA30, LGMA30 Göteborgs Universitetet GU Lärarprogrammet 20 FACIT: Tentamen L9MA0, LGMA0 Matematik för lärare, åk 7-9, Sannolikhetslära och statistik, Matematik för gymnasielärare, Sannolikhetslära och statistik 20-0-2

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 11 Johan Lindström 13 november 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 1/25 Repetition Stickprov & Skattning Maximum likelihood

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 2 Markovprocesser 4 April 2016 Johan Westerborn Markovprocesser (1) Föreläsning 2 Föreläsningsplan 1 Förra Föreläsningen 2 Absorption

Läs mer

Föreläsning 11, Matematisk statistik Π + E

Föreläsning 11, Matematisk statistik Π + E Repetition Konfidensintervall I Fördelningar Konfidensintervall II Föreläsning 11, Matematisk statistik Π + E Johan Lindström 27 Januari, 2015 Johan Lindström - johanl@maths.lth.se FMS012 F11 1/19 Repetition

Läs mer

Markovprocesser SF1904

Markovprocesser SF1904 Markovprocesser SF1904 Johan Westerborn johawes@kth.se Föreläsning 2 Markovprocesser 30 Mars 2015 Johan Westerborn Markovprocesser (1) Föreläsning 2 Föreläsningsplan 1 Förra Föreläsningen 2 Absorption

Läs mer

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski FACIT för Förberedelseuppgifter: SF9 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 206 KL 4.00 9.00. Examinator: Timo Koski - - - - - - - - - - - - - - - - - - - - - - - - 0. FACIT Problem

Läs mer

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik 9hp Föreläsning 7: Normalfördelning Matematisk statistik 9hp Föreläsning 7: Normalfördelning Anna Lindgren 29+3 september 216 Anna Lindgren anna@maths.lth.se FMS12/MASB3 F7: normalfördelning 1/18 Kovarians, C(X, Y) Repetition Normalfördelning

Läs mer

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1

LINKÖPINGS UNIVERSITET EXAM TAMS 15 / TEN 1 LINKÖPINGS UNIVERSITET Matematiska institutionen EXAM TAMS 5 / TEN januari 08, klockan 4.00-8.00 Examinator: Jörg-Uwe Löbus (Tel: 0709-6087) Tillåtna hjälpmedel är en räknare, formelsamling i matematisk

Läs mer

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12 LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.

Läs mer

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R) Exempel Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V mulet (M regn (R Exempel Vackert idag vackert imorgon sannolikheten 0.6 Vackert idag mulet imorgon sannolikheten

Läs mer

Föreläsning 11, FMSF45 Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall Repetition Konfidensintervall I Fördelningar Konfidensintervall II Föreläsning 11, FMSF45 Konfidensintervall Stas Volkov 2017-11-7 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F11: Konfidensintervall

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II Sannolikhetslära och inferens II Kapitel 4 Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar 1 Kontinuerliga slumpvariabler En slumpvariabel som kan anta alla värden på något intervall sägs

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 5 Johan Lindström 12 september 216 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 F5 1/23 Repetition Gauss approximation Delta metoden

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler Jörgen Säve-Söderbergh Stokastisk variabel Singla en slant två gånger. Ω = {Kr Kr, Kr Kl, Kl Kr, Kl Kl}

Läs mer

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL

TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL Avd. Matematisk statistik TENTAMEN I SF1904 MARKOVPROCESSER FREDAGEN DEN 17 AUGUSTI 2018 KL 8.00 13.00. Examinator: Björn-Olof Skytt tel. 790 86 49 Kursansvarig: Björn-Olof Skytt tel. 790 86 49 Tillåtna

Läs mer

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning Bioinformatisk metodik (1MB331) VT11 - Sammanfattning Per Enström & Eli Burell Innehåll 1 Inledning 2 2 Databastyper 2 2.1 Depåer (repositories)............................. 2 2.2 Vårdade (curated)..............................

Läs mer

Demonstration av laboration 2, SF1901

Demonstration av laboration 2, SF1901 KTH 29 November 2017 Laboration 2 Målet med dagens föreläsning är att repetera några viktiga begrepp från kursen och illustrera dem med hjälp av MATLAB. Laboration 2 har följande delar Fördelningsfunktion

Läs mer

e x/1000 för x 0 0 annars

e x/1000 för x 0 0 annars VK Matematiska institutionen avd matematisk statistik TENTAMEN I 5B506 MATEMATISK STATISTIK GRUNDKURRS FÖR D OCH F, 5B504 MATEMATISK STATISTIK GRUNDKURS FÖR ÄLDRE OCH 5B50 MARKOVPROCESSER ONSDAGEN DEN

Läs mer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A

Läs mer

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Lösningsförslag till Matematisk statistik LKT325 Tentamen Lösningsförslag till Matematisk statistik LKT325 Tentamen 20190115 Kursansvarig: Reimond Emanuelsson Betygsgränser: för betyg 3 krävs minst 20 poäng, för betyg 4 krävs minst 30 poäng, för betyg 5 krävs

Läs mer

3 Maximum Likelihoodestimering

3 Maximum Likelihoodestimering Lund Universitet med Lund Tekniska Högskola Finansiell Statistik Matematikcentrum, Matematisk Statistik VT 2006 Parameterestimation och linjär tidsserieanalys Denna laborationen ger en introduktion till

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 5:E APRIL 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF50: Matematisk statistik för L och V OH-bilder på föreläsning 7, 2017-11-20 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska

Läs mer

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0 Avd. Matematisk statistik TENTAMEN I SF191, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 1:A JUNI 216 KL 8. 13.. Kursledare: Thomas Önskog, 8-79 84 55 Tillåtna hjälpmedel: Formel- och tabellsamling i

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer