Evolverar gener inom reproduktionen ovanligt snabbt?



Relevanta dokument
7.5 Experiment with a single factor having more than two levels

Appendix 1 - Vad som ska ingå i de olika delmålen

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

OBS! Vi har nya rutiner.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Uppgift 1. Produktmomentkorrelationskoefficienten

Evolution, del 2: Evolutionsprocesser och förändringar i det genetiska materialet. Jessica Abbott Forskare Evolutionär Ekologi

Hur skriver man statistikavsnittet i en ansökan?

EXAMINATION KVANTITATIV METOD vt-11 (110204)

, s a. , s b. personer från Alingsås och n b

Anvisningar till rapporter i psykologi på B-nivå

Vad är MHC? MHC och TCR struktur. Antigen processering och presentation. Kursbok: The immune system Peter Parham

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Totalt finns det alltså 20 individer i denna population. Hälften, dvs 50%, av dem är svarta.

Bakgrund. Problemidentifiering. Fleet Management. Utveckling av verktyg för estimering av underhållskostnader

Konfidensintervall, Hypotestest

Vad är en art? morfologiska artbegreppet

MVE051/MSG Föreläsning 7

Föreläsning 5. Kapitel 6, sid Inferens om en population

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Sammanfattning Arv och Evolution

Tentamen i matematisk statistik

Regression med Genetiska Algoritmer

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Släktskap mellan människa och några ryggradsdjur

Titel på examensarbetet. Dittnamn Efternamn. Examensarbete 2013 Programmet

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Evolution. Hur arter uppstår, lever och försvinner

Kapitel 10 Hypotesprövning

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Evolution. Hur arter uppstår, lever och försvinner

Parade och oparade test

Laboration 2 Inferens S0005M VT16

Kursintroduktion. B-uppsats i hållbar utveckling vårterminen 2017

Lektionsanteckningar 11-12: Normalfördelningen

Provmoment: Tentamen 3 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

Abstract. Pettersson, Karin, 2005: Kön och auktoritet i expertintervjuer. TeFa nr 43. Uppsala universitet. Uppsala.

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Tentamen i Matematisk statistik Kurskod S0001M

5. Förmåga att använda kunskaper i biologi för att kommunicera samt för att granska och använda information.

Patientutbildning om diabetes En systematisk litteraturstudie

Pedagogisk planering Bi 1 - Individens genetik

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Bilaga 6 till rapport 1 (5)

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Föreläsning 12: Regression

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

F3 Introduktion Stickprov

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Metod och teori. Statistik för naturvetare Umeå universitet

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Medicin, Immunologi 7,5hp Kurskod: MC018G. Kursansvarig: Birgitta Olsen. Totalpoäng: 57 p Del 1, 16 p Del 2, 23 p del 3, 18 p

Second handbook of research on mathematics teaching and learning (NCTM)

Lektion 1: Fördelningar och deskriptiv analys

Hypotestestning och repetition

Innehåll. Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4

Bearbetning och Presentation

Tentamen i matematisk statistik

x 2 2(x + 2), f(x) = by utilizing the guidance given by asymptotes and stationary points. γ : 8xy x 2 y 3 = 12 x + 3

Algoritm för uppskattning av den maximala effekten i eldistributionsnät med avseende på Nätnyttomodellens sammanlagringsfunktion

732G60 - Statistiska Metoder. Trafikolyckor Statistik

Gamla tentor (forts) ( x. x ) ) 2 x1

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Kritisk reflektion av använd teori för införande av digitala teknologier, Tidsläckage Teorin.

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Henrik Brändén. bioscience explained Vol 3 No 1. Undersökning av influensavirus med hjälp av släktträd. Vetenskapsrådet Stockholm Sverige

Delprov 3 Vetenskaplig artikel

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Biologiskt kön i ett evolutionärt perspektiv

Evolution. Hur arter uppstår, lever och försvinner

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Beräkningsvetenskap introduktion. Beräkningsvetenskap I

Laboration 2 Inferens S0005M VT18

Kriterier för bedömning av examensarbete vid den farmaceutiska fakulteten

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Beräkningsvetenskap introduktion. Beräkningsvetenskap I

Vetenskaplig metodik

Mutationer. Typer av mutationer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Lokal pedagogisk planering för arbetsområdet genetik i årskurs 9

Richard Öhrvall, 1

Utbildningsplaner för kandidat-, magister och masterprogram. 1. Identifikation. Avancerad nivå

Oppositionsprotokoll-DD143x

Sänkningen av parasitnivåerna i blodet

Bedömningskriterier för kandidatuppsats i omvårdnad

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Statistik Lars Valter

Examinationsuppgift 2014

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Tekniska beräkningar. Vad är tekn beräkningar? Vad är beräkningsvetenskap? Informationsteknologi. Informationsteknologi

Transkript:

Evolverar gener inom reproduktionen ovanligt snabbt? En jämförelsestudie av tre gengruppers evolutionshastigheter OSKAR THORIN Examensarbete Stockholm, Sverige 2010

Evolverar gener inom reproduktionen ovanligt snabbt? En jämförelsestudie av tre gengruppers evolutionshastigheter OSKAR THORIN Examensarbete i datalogi om 30 högskolepoäng vid Programmet för bioteknik Kungliga Tekniska Högskolan år 2010 Handledare på CSC var Lars Arvestad Examinator var Stefan Arnborg TRITA-CSC-E 2010:024 ISRN-KTH/CSC/E--10/024--SE ISSN-1653-5715 Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC 100 44 Stockholm URL: www.kth.se/csc

Evolverar gener inom reproduktionen ovanligt snabbt? En jämförelsestudie av tre gengruppers evolutionshastigheter. Sammanfattning/Abstrakt Gener inom reproduktionen har nu på senaste år uppmärksammats då generna, enligt ett flertal vetenskapliga artiklar, evolverar i en snabbare takt än normalt. Detta är något uppseendeväckande då reproduktionen är en mycket viktig funktion för fortlevnad. Examensarbetets syfte är att kunna motsäga eller bekräfta hypotesen att gener inom reproduktionen generellt sett evolverar snabbare än normen. Utifrån detta formulerades frågeställningen: Evolverar gener inom reproduktionen ovanligt snabbt? En jämförelsestudie med tre olika gengrupper har utförts för att jämföra evolutionshastigheterna grupperna emellan. Gengrupperna består av gener inom reproduktionen och två referensgrupper, hushållningsgener (så kallade housekeeping, HK-gener) och gener inom immunförsvaret. HK-gener är generellt sett konserverade och tros vanligtvis ha en lägre evolutionshastighet än normalt. Motsatsen gäller för gener inom immunförsvaret som är divergenta och ska ha en högre evolutionshastighet än normalt. Studien uppskattar evolutionshastigheter med ett nytt program, PrIME-GSR. Detta program bygger på modellen GSR som beskriver hur ett genträd skapas med ett artträd i beaktande. Majoriteten av tidigare utförda studier inkluderar enbart ett fåtal gener och de metoder som använts är i stort sett desamma. Med detta som bakgrund anses det motiverat med en alternativ metod med PrIME-GSR och en studie som inbegriper ett stort antal gener. Resultatet visade att evolutionshastigheterna från gener inom reproduktionen hade ett högre medelvärde än HK-gener och ett lägre medelvärde än gener inom immunförsvaret. Skillnaden grupperna emellan är emellertid inte alltför stor. För att kunna avgöra om skillnaderna är statistiskt signifikanta eller ej tillämpades ett Mann-Whitney U-test. Slutsatsen från Mann-Whitney U-testet blev att skillnaderna mellan evolutionshastigheterna från de tre olika gengrupperna inte är statistiskt signifikanta. Utifrån detta kan man utläsa att studien inte ger några klara svar på frågeställningen. Nyckelord: reproduktion, hushållningsgener (HK-gener), evolutionshastighet, immunförsvar, PrIME- GSR, Mann-Whitney U-test

Do genes involved in reproduction evolve unusually fast? A comparison study of rates of evolution from three gene groups. Summery/Abstract Genes within reproduction have in the last couple of years caused attention because, according to several scientific articles, they are evolving at a higher rate than normal. This is somewhat surprising because of the important function that reproduction has. The purpose of this master thesis is to contradict or validate the hypothesis that genes involved in reproduction evolve at a higher rate than normal. From this the following question was formulated: Do genes involved in reproduction evolve unusually fast? A comparison study with three different gene groups have been performed to compare the rates of evolution between the groups. The gene groups consists of genes in reproduction and two groups of reference, housekeeping (HK) genes and genes in the immune defense. HK genes are generally speaking conserved and is thought to usually have a lower rate of evolution than normal. The opposite holds for genes in the immune defense, which are divergent and are supposed to have a higher rate of evolution than normal. The study estimates rates of evolution with a new program, PrIME-GSR. PrIME-GSR is based upon a model, GSR, that describes how a gene tree is created with a species tree in consideration. The majority of the previous performed studies only include a few genes and the methods deployed are more or less the same. With this background it is considered motivated with an alternative method with PrIME-GSR and a study that includes a large number of genes. The result showed that the rates of evolution from genes in reproduction had a higher average than the HK genes and a lower average than the genes in the immune defense. The difference between the groups was however not that big. To decide weather the differences are statistically significant or not a Mann-Whitney U-test was applied. The conclusion from the Mann-Whitney U-test was that the differences between the rates of evolution from the three different gene groups are not statistically significant. From this we conclude that the study does not give any clear answers to the question at issue. Key words: reproduction, housekeeping (HK), rate of evolution, immune defense, PrIME-GSR, Mann- Whitney U-test

Innehållsförteckning 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Evolution... 2 1.2.2 Molekylär evolution...2 1.2.2.1 Protein... 2 1.2.2.2 DNA...2 1.2.3 Evolutionshastighet... 3 1.2.3.1 Negativ och positiv selektion...3 1.2.3.2 Omega -metoden... 3 1.2.3.3 GSR...4 1.3 Gengrupper...4 1.3.1 Gener inom reproduktionen...4 1.3.1.1 Definition... 5 1.3.1.2 Studier... 5 1.3.1.3 Orsaker...6 1.3.2 Hushållningsgener... 7 1.3.2.1 Definition... 7 1.3.2.2 Studier... 7 1.3.2.3 Orsak... 8 1.3.3 Gener inom immunförsvaret...8 1.3.3.1 Definition... 8 1.3.3.2 Studie... 8 1.3.3.3 Orsak... 8 2. Problembeskrivning... 9 2.1 Frågeställning... 9 2.2 Syfte...9 2.3 Avgränsning...9 3. Metod... 11 3.1 Litteraturstudie... 11 3.2 Jämförelsestudie... 12 3.2.1 Utförande... 12 3.2.2 Pilotstudie... 13 3.2.2.1 Resultat... 14 4. Resultat...15 4.1 Reproduktionsgener...15 4.2 Hushållningsgener...16 4.3 Immungener...17 4.4 Analys av resultat... 18 4.4.1 Grafiska analyser... 18 4.4.2 Statistisk utvärdering av resultatet...20 4.4.2.1 Teori och genomförande... 20 4.4.2.2 Resultat... 20 4.4.3 Evolutionshastighet-funktionsanalys...21 5. Diskussion...22 5.1 Arbetsmetod...22 5.2 Resultat...22 6. Slutsats... 24

6.1 Nytta med studie...24 6.2 Förslag till framtida forskning...24 7. Referenser... 25 Bilaga 1 Artträd... 27 Bilaga 2 Resultat från pilotstudie... 28 Bilaga 3 Resultat från reproduktionsgener...29 Bilaga 4 Resultat från HK-gener... 31 Bilaga 5 Resultat från immungener...32

1. Inledning I detta inledande kapitel kommer examensarbetets bakgrund, grundläggande information om evolution och ett avsnitt om tre gengrupper att gås igenom. Med syfte att besvara frågeställningen har en jämförelsestudie utförts med tre olika gengrupper. Gengrupperna består av gener inom reproduktionen och två referensgrupper, hushållningsgener (så kallade housekeeping, HK-gener) och gener inom immunförsvaret. Frågeställningen som önskas besvaras är: Evolverar gener inom reproduktionen ovanligt snabbt? I kapitel 2 presenteras problembeskrivningen med frågeställning, syfte och begränsningen av arbetet. Kapitel 3 redogör för den metod som tillämpats vid utförandet av examensarbetet. Resultatet från ovan nämnda jämförelsestudien beskrivs i kapitel 4 för att sedan diskuteras (kapitel 5) och därefter ge slutsatser och förslag till framtida forskning (kapitel 6). Bakgrunden, som presenteras nedan i avsnitt 1.1, har för avsikt att sätta in uppsatsen i ett sammanhang samt fungera som en introduktion till uppsatsen i stort. 1.1 Bakgrund En fundamental fråga i evolutionsbiologin är vilka processer som genererar den enorma mängd arter som kan observeras i naturen. Ett tillvägagångssätt för att besvara denna fråga har varit att identifiera de gener som uppvisar en hög divergens mellan arter då dessa kan ha spelat en stor roll vid de tidiga stadierna av artbildning [1]. Ett antal gener involverade inom reproduktionen har visats ha en hög evolutionshastighet. Evolutionshastigheten kan emellertid variera mellan olika arter. Miljön där gameter (könsceller) interagerar varierar mellan arter, i synnerhet mellan extern respektive intern befruktning [2]. Studier på reproduktionsprotein har inom ryggradsdjur främst fokuserats på däggdjur. Dessa studier har inkluderat flera steg inom reproduktionen och på olika taxonomiska nivåer. Genomiska tillvägagångssätt har dokumenterat höga evolutionshastigheter hos spermieprotein [1], protein i sädesvätska [3], proteiner som uttrycks under spermatogenes (process där manliga könsceller blir färdiga spermier) [4] etc. Tillsammans visar studierna att selektionen agerar på en funktionell spridd mängd av protein i däggdjuren. Reproduktionen är en viktig process. Att ett flertal proteiner inblandade inom reproduktionen är divergerade är intressant. En hög evolutionshastighet hos reproduktionsprotein kan ge en stor medverkan till reproduktionsisolering mellan divergerande arter. För att kunna förstå artbildning är det därför av stor vikt att kunna förstå reproduktionsisolering. I de flesta fall där reproduktionsprotein har visats ha en hög evolutionshastighet är de funktionella konsekvenserna okända. Samtidigt kan evolutionsanalyser ge nya insikter till dessa reproduktionsmekanismer. Till exempel kan sekvensanalyser identifiera proteinregioner med höga evolutionshastigheter som kan vara viktiga i kritiska interaktioner under befruktningen [5]. Många evolutionsbiologer har en standardprocedur för att studera selektion eller evolutionshastighet från DNA- eller proteinsekvenser. Först väljs kandidatgener ut och sekvenseras i flera taxonomiska grupper. Därefter undersöks om generna evolverar adaptivt genom statistiska tester. De kan därefter gå vidare och undersöka om det finns specifika regioner som är utsatta för adaptiv selektion. Dessa tester har kritiserats för att de bara kan detektera selektion när adaptionen har skett genom multipla aminosyra-substitutioner i ett protein. Den snabba evolutionshastigheten hos reproduktionsproteiner verkar dock inte vara ovanlig, särskilt inte bland protein som möjliggör 1

interaktioner mellan manliga och kvinnliga gameter (könsceller) [5]. Det finns även studerade reproduktionsprotein som inte har visat upp lika höga evolutionshastigheter. En mer detaljerad studie med olika arter och funktionella klasser är nödvändig för att mer konkret bestämma om evolution hos reproduktionsprotein generellt är snabb [2]. I den studie som gjorts i samband med examensarbetet används en alternativ metod för att uppskatta evolutionshastighet. Studien inkluderar en större mängd gener för att statistiskt sett kunna stödja eller motsäga hypotesen att reproduktionsprotein generellt har höga evolutionshastigheter. Evolutionshastigheten mäts i substitutioner per tidsenhet vilket majoriteten av tidigare studier inte har gjort. Programmet bakom studien, är baserad på en ny modell GSR (Som man kan läsa mer utförligt i artikeln, Simultaneous Bayesian gene tree reconstruction and reconciliation analysis, [6]) som integrerar gen-duplikationer, sekvensevolution och en så kallad relaxerad molekylär klocka som relaterar substitutionshastighet till verklig tid. Programmet, PrIME-GSR, är ett Bayesianskt analysverktyg som tar med ett artträd i beräkningen. Algoritmen bakom modellen har validerats på syntetiska data och utvärderats på gensekvenser från jästgenomet [6]. 1.2 Evolution Charles Darwin föreslog i On the Origin of Species att alla organismer på jorden uppkommit från en organism där den främsta bakomliggande kraften är naturlig selektion. Naturlig selektion är en process där fördelaktiga egenskaper hos fenotyper blir mer vanliga och ofördelaktiga egenskaper mer ovanliga. Senare kom det fram att mutationer (förändring av DNA) är den primära kraften bakom evolutionen och selektion uppkommer då fördelaktiga mutationer räddas och skadliga elimineras. Studier på molekylärnivå av evolutionen har genererat många nya upptäckter som har bevisat att mutationer spelar en stor roll i evolutionen av DNA eller proteinmolekyler [7]. 1.2.2 Molekylär evolution Vad organismer har för egenskaper och utseende beror i grunden på vad deras molekylära beståndsdelar har för sekvenser och form. Evolutionen bestäms därav beroende på den molekylära evolutionen. 1.2.2.1 Protein En hypotes med benämningen molekylärklocka kom till 1960 och föreslår att proteinevolution sker via en ungefärlig konstant hastighet. Systematiska studier har dock övertygande visat att generellt varierar hastigheten mellan arter, protein och över tiden. Att olika protein evolverar i olika hastigheter är nu ett faktum. Undersökningar har visat att proteinevolution inte bestäms exklusivt genom selektion på proteinets yta och funktion, men bland annat också påverkas av position i genomet, expressionsmönster och position i biologiska nätverk [8]. Den moderna utvecklingen av den molekylära klockan är en relaxerad klocka som tillåter variation. 1.2.2.2 DNA När man studerar evolution så är DNA-sekvenser mer informativa än proteinsekvenser då en stor del av DNA-sekvenserna inte översätts till proteinsekvenser och då den genetiska koden är redundant (Det finns flera DNA-kombinationer, kodon, som kodar för samma aminosyra). Den genetiska variationen i de icke-kodande regionerna såsom introner och synonyma säten kan bara studeras genom att studera DNA-sekvenserna. Den genetiska koden är redundant och på grund av detta så förväntas en viss proportion av nukleotid-substitutionerna inte resultera i aminosyra- 2

substitution [7]. Hastigheten av synonyma substitutioner är enligt den neutrala teorin högre än hastigheten för aminosyra-substitutioner (icke-synonyma substitutioner). 1997 så testade Kimura denna teori genom att jämföra hastigheten mellan aminosyra-substitutioner och nukleotid-substitutioner på den tredje kodon positionen (Testet gjordes med histone 4 mrna sekvenser från två arter). Den tredje kodon positionen valdes då majoriteten av synonyma substitutioner sker där. Resultatet bekräftade klart den neutrala teorin. Starkare bevis kom fram då pseudogener, som inte har någon funktion, visats ha en hög evolutionshastighet [7]. Nyliga studier har klargjort att genduplikation är en viktigt mekanism vid skapandet av nya gener och nya genetiska system. Två mekanismer som skapar duplikerade gener är genomduplikation och tandem genduplikation. Men det är svårt att spåra vilka evolutionära processer som skapar genduplikationerna. Retrotransposition är en annan mekanism som ligger bakom genduplikationer [7]. Till skillnad från pseudogenerna så evolverar funktionellt viktiga gener mycket långsamt. Likartade egenskaper existerar också i evolution på fenotyp-nivå, där tex. organismer som lever i varierande nya miljöer kan fort evolvera till olika taxonomiska grupper. Det finns alltså likheter mellan fenotyp och molekylärevolution med hänsyn till funktionella eller miljömässiga restriktioner [7]. 1.2.3 Evolutionshastighet Hur mäts evolutionshastighet och finns det flera alternativa metoder till detta? Det är frågor som det här avsnittet ska behandla. Begreppen negativ samt positiv selektion har här också en kort genomgång. Den metod som tillämpats allra mest vid studier av evolutionshastighet är omega - metoden. GSR-metoden har tillämpats vid jämförelsestudien som utförts i samband med denna uppsats. 1.2.3.1 Negativ och positiv selektion För att kunna förstå evolutionshastighet kan det vara bra att förtydliga begreppen negativ och positiv selektion. Negativ eller renande selektion råder då protein förändras i en långsammare takt än normen. Den bakomliggande orsaken till negativ selektion är att det är viktigt att bibehålla proteinets funktion. Positiv selektion å andra sidan sägs råda när protein förändras med en högre hastighet än normen (accelererad evolution). Om en synonym substitution sker är det samma aminosyra som skapas (proteinet förändras inte) och det motsatta gäller för en icke-synonym substitution (proteinet förändras). Det är därför av intresse att undersöka synonyma och ickesynonyma substitutioner. 1.2.3.2 Omega -metoden Detektion av positiv selektion görs genom att jämföra den icke-synonyma substitutionshastigheten (d n ) med den synonyma substitutionshastigheten (d s ) (se formel 1) (1) ω = d n /d s Det här är ett sätt att uppskatta evolutionshastighet. En gen evolverar neutralt om ω estimeras till att vara nära ett. Om ω är större än ett anses det vara starka bevis för att genen genomgår positiv selektion. Om ω är mycket låg tyder det däremot på negativ eller renande selektion. För att kunna uppskatta ω-värden används Maximum likelihood -metoder [2]. 3

1.2.3.3 GSR GSR är en sannolikhetsmodell för genevolution som för samman sekvens-evolutionsmodeller, substitutions-hastighetsmodeller och en duplikation-förlust process. Modellen beskriver hur ett genträd skapas med ett artträd i beaktande. GSR är uppbyggd utifrån tre submodeller, i punktform nedan [6]. En duplikation-förlustmodell som beskriver genevolution. Genduplikationer och förluster modelleras med en linjär födelse-död process med en duplikationshastighet och en förlusthastighet [6]. En substitutions-hastighetsmodell som beskriver hastighetsvariation över genträdet. Detta kallas även för en relaxerad molekylär klocka eftersom man lämnar ett striktare påstående om att mutationer sker i en konstant takt [6]. En sekvens-evolutionsmodell som beskriver substitutionshändelser. Gjord med utgångspunkt från en standardsubstitutionsmodell (JTT aminosyramodell, beskriver hur sekvenser evolverar genom nukleotidsubstitutioner) där varje aminosyra har en sannolikhet och varje mutation har en egen hastighet. Den verkliga mutationshastigheten blir därmed en produkt av substitutionshastigheten över en kant i genträdet och denna molekylspecifika substitutionshastighet [6]. Metoden implementeras genom att använda ett MCMC-ramverk i programmet, PrIME-GSR. MCMC, Markov chain Monte Carlo, tillämpas då GSR är uppbyggt efter Bayesiansk interferens och en kvantitet som kallas a posteriori (efterföljande, senare) sannolikhetsfördelning av träd, vilket är sannolikheten för ett träd givet observationerna. A posteriori sannolikhetsfördelning av träd är omöjligt att beräkna analytiskt och därför används simulationstekniken MCMC för att approximera sannolikhetsfördelningen [6, 21]. MCMC utför en process som föreslår och accepterar eller avslår nya tillstånd (i det här fallet genträd) och detta upprepas tusentals eller miljontals gånger. Antalet gånger, proportionen, som ett träd dyker upp är ett approximerat värde på trädets a posteriori sannolikhetsfördelning. Tillstånden ger sannolikhetsvärden och om ett nytt tillstånd har högre sannolikhet än det äldre, så accepteras det nya tillståndet och annars så avslås värdet [21]. Ett svårt steg är att avgöra hur många iterationer som krävs för att konvergera till en stationär fas, där man samplar från a posteriori -fördelningen, med en acceptabel felmarginal. Parametern av intresse i detta sammanhang som PrIME-GSR beräknar fram är evolutionshastighet i form av ett medelvärde, substitutioner per tidsenhet. Medelvärdet tas fram från den stationära fasen. 1.3 Gengrupper Med gengrupper menas här en samling gener som kan grupperas i ett visst fack efter funktion eller plats (cellokalisering). Tre olika gengrupper, gener inom reproduktionen, hushållningsgener och gener inom immunförsvaret, ges här definitioner och allmän information. 1.3.1 Gener inom reproduktionen Gener inom reproduktionen är i fokus i den här uppsatsen och har därför en ingående genomgång. 4

1.3.1.1 Definition Reproduktion är en biologisk process där nya organismer kommer till. Gener inom reproduktionen utför uppgifter för att möjliggöra detta. Deras uppgifter varierar väsentligt, men de är alla på något sätt verksamma i fortplantningen. 1.3.1.2 Studier Det har bedrivits många studier angående reproduktionsgeners evolution. Nedan följer några korta sammanfattningar av totalt sex studier. En evolutionsanalys utfördes på två proteiner ZP2 (zona pellucida glycoprotein 2) och ZP3 (zona pellucida glycoprotein 3) inom ett genus (Peromyscus) och dokumenterade positiv selektion för båda proteinerna. De två äggproteinerna är två av totalt fyra protein som bygger upp zona pellucida (ett glykoprotein-membran som omger ägget och är det som spermien först binder till). Proteinerna är inblandade i ägg-spermie igenkännande, ett kritiskt steg i art-specifik befruktning. Positiv selektion verkade på regioner hos ZP3 som är direkt inblandade i spermiebindning [2]. En studie från 2001 undersökte generna, ZP2. ZP3 och OGP (Oviductal glycoprotein) från ett flertal däggdjur. Som jämförelse så analyserade också manliga reproduktionsprotein (protamine1, protamine2 och transition protein 2). För att ytterligare demonstrera tillförlitligheten av dessa nya analyser utfördes analyser på två kontroller, klass 1 MHC glykoprotein (positiv kontroll) och en hushållningsgen, Carbonic anhydrase 1 (negativ kontroll). Resultatet från undersökningen visade att de genomsnittliga ω-värdena var relativt låga för de kvinnliga reproduktionsproteinerna i jämförelse med övriga. Det kan vara så att dessa protein innehåller restriktiva aminosyra-säten som är under renande selektion med ω- värden nära noll. Ett stort antal av sådana säten skulle maskera signaler av positiv selektion med ett genomsnittligt ω-värde. Därav ansågs att ett genomsnittligt ω-värde inte vara tillräckligt känsligt för att detektera selektion. Därför testades det efter positiv selektion med metoder som tar med varierande selektiva krafter mellan regioner genom att anta att det finns olika regioner med olika ω-värden. Då detekterades ett flertal regioner som uppvisade positiv selektion (ω-värden större än 1) för alla reproduktionsprotein och för den positiva kontrollen, klass 1 MHC. För den negativa kontrollen ( Carbonic anhydrase 1) detekterades inte några sådan regioner [9]. Graden av polyandri kan vara en faktor i den molekylära evolutionen. Evolutionen för SEMG2, en gen som kodar för en viktig strukturell komponent i sädesvätska, är snabb för polyandriska jämfört med monogama primater. Från ett antal primater, totalt 12 stycken arter, togs ω-värden fram. I många fall var ω-värdena högre än 1 vilket är ett starkt tecken på positiv selektion och en trend upptäcktes där arter med högre grad av polyandri har högre ω- värden [10]. Icke-synonyma substitutionshastigheter är signifikant högre för spermieprotein, i en studie med mus och människa, än protein som uttrycks specifikt i alla andra ingående vävnader. Inga skillnader hittades för den synonyma substitutionshastigheten vilket indikerar att det är selektiva krafter och inte mutationshastigheten som är orsaken till den höga evolutionshastigheten hos spermieprotein. Fyra av de 19 spermiespecifika generna med karaktäriserade funktioner visade på stark positiv selektion. Dessa var PRM1, ett protein inblandad i glykolysen, GAPDS och två äggbindande protein, ADAM2 och SAM1 [1]. 5

Bland gener inom manlig reproduktion är protaminer unika i det att de har funktionella analoger i somatiska histoner. De somatiska histonerna är bland de mest långsamt evolverande generna i det mänskliga genomet, samtidigt verkar protaminer ligga i extrem motsatt i det spektrumet. Den snabba evolutionshastigheten observerades hos primater och var speciellt märkbar mellan människa och schimpans [11]. Sju gener som är de främsta kandidaterna inblandade i däggdjurens fortplanting präglas av positiv selektion. Detta indikerar att positiv selektion är genomgripande inom reproduktionsgener. Regioner inblandade i ägg-spermie interaktioner identifierades som att ligga under positiv selektion [12]. 1.3.1.3 Orsaker Vilka är de selektiva krafterna som driver proteinevolutionen? De kan komma från exogen påverkan eller endogena krafter det vill säga gameternas (könscellernas) interaktioner vid befruktning. Fem möjliga mekanismer (se figur 1) är spermietävlan, sexuell selektion, sexuell konflikt, patogen resistans och undvikandet av heterospecifika befruktningar. De skulle individuellt eller i kombination kunna driva den snabba evolutionen. Spermietävlan sker då varje spermie tävlar med de andra spermierna för att vara den som smälter samman med äggcellen. Den förutser en kontinuerlig adaptiv kapprustning där intensiteten borde kunna jämföras med graden av polyandri. Tävlingen kan driva den selektiva pressen på flera olika steg, den bästa simmaren, bindning till äggcellen och så vidare [13, 14]. Sexuell selektion, också känd som det kryptiska kvinnliga valet, är då äggcellen på något sätt föredrar vissa spermier. Det kan vara på grund av att den lättare binder till en särskild alleletyp (en allele är en form av olika former av en gen) hos ett protein vid spermiens yta [14]. Sexuell konflikt sker då det är ett överflöd av spermier. Detta kan vara skadligt för äggcellen, då befruktning av flera spermier gör att utvecklingen av embryot inte kan ske. Äggcellen måste undvika detta och bara tillåta sig bli befruktad av en spermie. Konsekvensen av detta blir att kvinnliga gameter evolverar för att sänka befruktningshastigheten medan de manliga gameterna evolverar för att öka den [13, 14]. För att befruktning ska kunna ske så måste äggceller och spermier komma i kontakt. Gameterna är under detta stadium utsatta för mikrobiella attacker. Äggceller och spermier måste därför ha goda skydd mot dessa, det vill säga de ska vara resistenta mot patogener. De blir således utvalda efter förmåga att undvika mikrobiella attacker oberoende av evolutionära krafter som främjar lyckosamma befruktningar [5]. Selektion kan komma ifrån att befruktning mellan olika arter inte är gynnsamt då avkomman har en reducerad förmåga att överleva. För att inte slösa bort onödig energi, så favoriserar selektion proteins interaktioner som reducerar heterospecifik befruktning [5]. 6

Sexuell konflikt Patogen resistans Undvika heterospecifika befruktninar Evolutionshatighet Spermietävlan Sexuell selektion Figur 1. Fem möjliga mekanismer, sexuell konflikt, patogen resistans, spermietävlan, sexuell selektion och undvikandet av heterospecifika befruktningar, bakom höga evolutionshastigheter. 1.3.2 Hushållningsgener Här sammanfattas information angående, hushållningsgener (såkallade housekeeping, HK-gener). HK-gener är generellt sett konserverade mellan arter och anses därför ha relativt låga evolutionshastigheter. 1.3.2.1 Definition av HK-gener Hushållningsgener är gener som alltid uttrycks i all vävnad för att underhålla cellulära funktioner. Mer vaga beskrivningar finns dock. Storskaliga genexpressionstudier har gjort det möjligt att undersöka expressionsmönster hos många gener vid olika utvecklingstider och vävnader och därmed skapa en mer konkret bild av HK-gener [15]. En mer konkret beskrivning lyder: De gener kritiska för de aktiviteterna som måste utföras för en lyckosam cellcykel [16]. 1.3.2.2 Studier Gener som kan karakteriseras som HK-gener med befintlig data är i fokus i en studie från 2008. Resultatet av studien visade att 40 % av det totala antalet annoterade (det finns information noterat) mänskliga gener bör klassificeras som HK-gener (uttrycktes i 16 av 18 olika vävnader). 408 gener som tidigare experimentellt definierats som HK-gener användes som riktmärke [17]. Ortologa genpar mellan människa-mus undersöktes för att avgöra om HK-gener evolverar långsammare än andra gener som bara är igång vid specifika utvecklingsperioder eller vävnader. Resultatet visade på att HK-gener i genomsnitt evolverar långsammare (lägre ω-värden) och är under starkare selektiva restriktioner än vävnadsspecifika gener [15]. En utvärdering av relationen mellan HK-gener och vävnadspecifika gener visades bland annat att HK-generna är äldre och evolverar långsammare i kodande sekvenser [18]. 7

1.3.2.3 Orsak Eftersom HK-gener spelar en nyckelroll i underhållet av de flesta celler råder starkt renande selektion för att behålla deras normala funktion. Vävnadsspecifika gener uttrycks däremot i få vävnader och följden av skadliga mutationer är därför mindre än för HK-gener [15]. 1.3.3 Gener inom immunförsvaret Gener inom immunförsvaret utgör kroppens försvar mot inkräktare som kan ta sin form som till exempel virus eller bakterier. Generna förser alltså med en livsuppehållande funktion. 1.3.3.1 Definition Gener inom immunförsvaret bygger upp immunsystemet. Immunsystemet är ett nätverk av celler, vävnader och organ som agerar som försvar mot främmande inkräktare. Dessa utgörs främst av bakterier, virus, parasiter och svamp (fungi), vilka också benämns som antigen. Några exempel på viktiga proteingrupper, som kodas av immungener, är immunoglobuliner (antikroppar är en del av denna grupp), MHC-proteiner (protein som bildar major histocompatibility complex ) och T-cell receptorer [19]. 1.3.3.2 Studie I en jämförelsestudie med totalt 107 gener, ortologa immunglobulinc2-domäner från människa och mus, undersöktes synonyma och icke-synonyma substitutionshastigheter. De 107 generna placerades i sju kategorier beroende på vilken celltyp de finns i [20]. De sju kategorierna listas här: Enbart immunceller Immunceller och andra celler (ej nervceller) Enbart nervceller Nervceller och andra celler (ej immunceller) Immun- och nervceller Celler som inte är immun- eller nervceller Immun-, nerv- och andra celler Resultatet av studien visade att den icke-synonyma substitutionshastigheten var högst inom gener som bara återfinns i celler från immunförsvaret. Generellt så var det en stark korrelation mellan inblandning i immunsystemet och den icke-synonyma substitutionshastigheten [20]. 1.3.3.3 Orsak I vissa däggdjurs immungener så är hastigheten för den icke-synonyma nukleotidsubstitutionen mycket snabbare än den synonyma substitutionen. Dessa inkluderar MHC ( Major histocompatibility complex ), immunoglobuliner och T-cellreceptorer. Alla dessa gener kodar för proteiner som är direkt involverade i att känna igen främmande antigener och är därför i en potentiell evolutionär kapprustning med parasiter [20]. Det finns bevis för att molekyler som interagerar med immunsystemreceptorer kan evolvera väldigt snabbt. Ett exempel är så kallade natural killer cell receptorer som interagerar med klass 1 MHC molekyler. Den är ett av de mest slående exempel på snabb evolution hos däggdjur. Hos primater är denna receptor en medlem av immunoglobulin superfamily, samtidigt som den i gnagare är en C-type lectin. Molekylen har alltså ersatts av en totalt obesläktad molekyl på relativt kort tid [20]. 8

2. Problembeskrivning I det här kapitlet presenteras problembeskrivning med frågeställning, syfte och avgränsning. För att kunna uppskatta evolutionshastighet hos gener behövs ett tillförlitligt verktyg. Det är först när det går att konstatera evolutionshastigheter som bakomliggande orsaker verkligen kan börja utredas. För att kunna besvara frågan om hur reproduktionsgener generellt sett evolverar så måste ett stort antal gener inkluderas i studien och tillförlitligheten för resultatet måste vara stort. Det behövs också referensgrupper i samma studie för att kunna jämföra hastigheterna och på detta sätt styrka resultatet. Det har i tidigare artiklar nämnts att mer utförliga studier bör genomföras då: Det har varit en stark ökning i mängden genomisk data under de senaste åren, vilket uppmanar till att göra om tidigare undersökningar av vissa klassiska antaganden angående proteinevolution [8]. En mer detaljerad undersökning med olika arter och funktionella grupper är nödvändig för att mer konkret bestämma om evolution hos reproduktionsprotein generellt är snabb [2]. Snabbt evolverade reproduktionsprotein kan ha implikationer för mänsklig fertilitet och hälsa. Ungefär 10 % av in vitro befruktningsförsök resulterar i misslyckanden utan känd orsak. En möjlig hypotes för infertilitet är resultat från inkompatibiliteten hos ägg-spermie som uppstår på grund av snabb evolution [5]. Det verkar ligga skillnader hos olika reproduktionsproteiner inom en art [2]. Evolutionshastigheten kan variera mellan olika arter [9]. En studie av evolutionshastigheter från gener inom reproduktionen är på grund av dessa orsaker motiverad. Då majoriteten av tidigare studier använt samma metod för att uppskatta evolutionshastighet är en ny metod dessutom att önska. 2.1 Frågeställning Med problemformuleringen som grund har följande frågeställning utarbetats: Evolverar gener inom reproduktionen ovanligt snabbt? 2.2 Syfte Syftet med examensarbetet är att undersöka med vilken hastighet olika gengrupper evolverar med fokus på reproduktionsgener. Det är med ett nytt program, PrIME-GSR, från modellen GSR [6] som jämförelsestudien av evolutionshastigheter från tre olika gengrupper har gjorts. Det nya programmet hoppas kunna vara ett bra alternativt sätt att uppskatta evolutionshastighet. Ett delsyfte är alltså att utvärdera om programmet, som har ett flertal funktioner, är bra på att få fram pålitliga evolutionshastigheter. Den parameter som uppskattar hastigheten har tidigare inte analyserats ingående. 2.3 Avgränsning Följande gengrupper ska ingå i arbetet: Gener inom reproduktionen Hushållningsgener Gener inom immunförsvaret 9

Studien begränsas till följande arter inom däggdjur: Människa - Homo sapiens Krabbmakak - Macaca fascicularis Ko - Bos taurus Hund - Canis domesticus Nordamerikansk opossum - Didelphis virginiana Råtta - Rattus norvegicus Mus - Mus musculus Häst - Equus caballus Begränsningen av arter är på grund av att det finns bra med data insamlade för dessa arter och då man vill ha en bra spridning på arterna för att undvika att ta med arter som är alltför lika varandra (som till exempel människa och schimpans). För att bättre kunna beräkna antalet gener som rimligen kan inräknas i studien gjordes en pilotstudie med en mindre mängd gener och bara två gengrupper, reproduktionsgener och HK-gener. Detta för att underlätta planeringen av det fortsatta arbetet. 10

3. Metod I detta kapitel kommer en redogörelse för hur arbetet har utförts att presenteras. Detta för att tydliggöra och motivera val av metod för att besvara examensarbetets frågeställning. Denna uppsats bygger på en jämförelsestudie som utförts i samband med examensarbetet. Arbetsmetoden illustreras i sin helhet i figur 2 samt förklaras och motiveras i detalj nedan. Litteraturstudier Pilotstudie och utveckling av arbetssätt Utförande av jämförelsestudie Analys av resultat Figur 2. Arbetsmetodens steg: Litteraturstudier följt av en pilotstudie och utveckling av arbetssätt. Därefter påbörjades jämförelsestudien och sedan analyserades resultatet med återkoppling till litteraturen. 3.1 Litteraturstudie Som grund för framtagande av kunskap och lämplig data har en djupgående litteraturstudie genomförts. Artiklar och litteratur om evolution och evolutionshastigheter inom reproduktionsgenerna, immungener och HK-gener har studeras. Även artiklar och litteratur om matematisk statistik och Bayesianska modeller liksom litteratur som berör begrepp inom bioinformatik har gåtts igenom. De frågeställningar som har legat till grund för litteraturstudien är: Vilka studier har tidigare gjorts i ämnet? Vilka metoder har använts vid andra studier? Hur många gener har studerats? Vad finns det för orsaker till en snabb evolution? Hur ska resultatet analyseras? Finns det förslag på ytterligare studier eller hänvisningar? 11

3.2 Jämförelsestudie I jämförelsestudien undersöks evolutionshastigheter från gener inom tre olika grupper. Den grupp av högst intresse är reproduktionsgener och uppgick totalt till 57 gener. Två andra grupper används som referensramar, HK- och immungener, 31 gener av varje. Målet med studien är att kunna jämföra medelvärden och fördelningar mellan grupperna. Följande däggdjur ingår: människa, krabbmakak, ko, hund, nordamerikansk opossum, råtta, mus och häst. Gener från reproduktionsgruppen klassificerades främst genom litteraturstudier, där de flesta tidigare har ingått i liknande studier. HK-generna togs ifrån en artikel, How many human genes can be defined as housekeeping with current expression data? [17], där en samling av HK-gener definierats och listats upp. Immungener hittades från litteraturen och genom sökningar (MHC, immunoglobuliner etc) på websidan, Ensembl.org [22]. Alla gener som inkluderades har en adekvat beskrivning i Ensembl.org för att kunna klassificeras inom aktuell grupp. Det är de kodande sekvenserna hos generna som är av intresse och därför är det dessa som tagits med. 3.2.1 Utförande Programmet, PrIME-GSR, är det analysverktyg som uppskattar evolutionshastigheter. Programmet behöver följande indata: En multilinjering av alla gensekvenser (alla ortologer) som hittats från en specifik gen (Av de arter som ingår i studien). Generna har hämtats från websidan, Ensembl.org [22]. Multilinjeringen utfördes med två multilinjeringsprogram för att kunna jämföra resultaten. Revtrans [23], som är en onlinetjänst och Coal som är ett program i uppbyggnad (och som på grund av några felaktigheter i Coal senare inte inkluderades i slutresultatet). Ett artträd (se bilaga 1), som har upprättats med utgång från artikeln Paleontological Evidence to Date the Tree of Life [24]. Författarna har beräknat fram, med fossila data som utgångspunkt, tidpunkter för artdelning. Från artikeln har det tagits fram ett mellanvärde från artikelns minimum respektive maximum ålder för artdelningar och inkorporerat dessa i artträdet. En koppling mellan artnamn och korresponderande gennamn. Syftet med detta är att tala om för PrIME-GSR vilken art som en gensekvens kommer ifrån. När indata (multilinjering, artträd och gen till art avbildning) skapats så körs programmet PrIME- GSR och en fil kommer som utdata. Det krävs många iterationer för att kunna uppnå tillförlitliga resultat. Av denna anledning användes ett datakluster, Ferlin, för att kunna erhålla resultat inom rimlig tid. För att verifiera resultatet ytterligare utfördes fyra stycken körningar med samma indata för alla gener i undersökningen. Detta för att kunna avgöra om det blir samma resultat av en körning med samma indata (vilket det bör bli) eller om konvergens ännu inte har uppnåtts för vissa. Ett medelvärde från de fyra körningarna användes som resultat, eller den körning som har ett resultat med större sannolikhetsvärde och därmed troligare har konvergerat till en stationär fas med ett tillförlitligt resultat. Processen för att få fram en evolutionshastighet för en gen illustreras i figur 3 och utfördes för samtliga gener, totalt 57 reproduktionsgener, 31 HK-gener och 31 immungener (totalt 119 gener). 12

Ortologa gener Revtrans Multilinjering av ortologa gener Ensembl.org Gen till art avbildning PrIME-GSR Artikel Paleontological Evidence to Date the Tree of Life Information för artträd Finjusterad data inklusive evolutionshastighet Rådata (gen.mcmc) PrIME-GSR mcmc_analysis Figur 3. Process för att få fram evolutionshastighet för en gen. Rektanglar är filer. Cirklar är program eller internetverktyg. Filerna som PrIME-GSR ger som utdata, behandlades vidare med inbyggda analysverktyg, mcmc_analysis, för att få fram evolutionshastigheter. PrIME-GSR ger ett flertal parametrar som utdata, men den parameter som är intressant för denna studie och därmed inkluderas är evolutionshastigheten i enheten substitutioner per tidsenhet. Vidare utfördes analyser för att bestämma lämpligt burnin (hur stor del av iterationerna som ska räknas bort vid beräkning av ett medelvärde på evolutionshastighet, det vill säga det intervall då konvergens inte är uppnådd än). 3.2.2 Pilotstudie En pilotstudie utfördes för att kunna strukturera arbetet bättre och avgöra till vilken utsträckning den slutliga jämförelsestudien skulle ha. I pilotstudien valdes 10 HK-gener från en lista, 408 manually-curated housekeeping genes [17]. Generna togs från olika grupper inom HK-definitionen, men annars på måfå. Reproduktionsgener, 10 gener, hittades i artiklar som också behandlar evolutionshastighet. 13

Till en början ingick 10 däggdjur: Människa - Homo sapiens Krabbmakak - Macaca fascicularis Ko - Bos taurus Hund - Canis domesticus Nordamerikansk opossum - Didelphis virginiana Råtta - Rattus norvegicus Mus - Mus musculus Häst - Equus caballus Fugu - Takifugu rubripes Sebrafisk - Danio rerio Det visade sig emellertid att det inte gick att inkludera sebrafisken och fugun på grund av begränsningar hos PrIME-GSR. Således blev det bara 8 däggdjur som inkluderades i studien. Under pilotstudien bestämdes att antalet iterationer under en körning av PrIME-GSR som behövs för att få tillförlitliga resultat minst skulle vara 10 miljoner. Först testades iterationer på 200 000 och 1 miljon, men körningar med samma input fick alltför ofta olika resultat. 3.2.2.1 Resultat Medelvärden (i substitutioner per 100 miljoner år) med standardavvikelse för de båda gengrupperna finns i punktform nedan. Reproduktionsgenerna har ett högre medelvärde än HK-generna. Reproduktionsgener 2.67 ± 2.12 HK-gener 2.22 ± 1.78 För fullständiga resultat från pilotstudien, se bilaga 2. 14

4. Resultat Resultatet från jämförelsestudien summeras här i form av olika värden och skattade fördelningar. För fullständiga värden på alla ingående gener, se bilaga 3-5. Därefter analyseras resultatet med grafiska illustrationer, en statistisk utvärdering och en evolutionshastighet-funktionsanalys. generellt sett var medelvärdet högre för immungruppen än reproduktionsgruppen som i sin tur hade ett medelvärde högre än HK-gruppen. Den högst uppskattade evolutionshastigheten kommer från en gen inom immungruppen och det lägsta värdet kommer från HK-generna. Antalet substitutioner per miljoner år blev för dessa 7.32 (CD1E), och 0.037 (CUL3). En faktor på nästan 200 skiljer dessa två evolutionshastigheter. Medelvärdena skiljer sig inte mycket och kan ses här i punktform (i substitutioner per 100 miljoner år ± standardavvikelse). Reproduktionsgruppen: 2.82 ± 2.53 HK-gruppen: 2.72 ± 2.54 Immungruppen: 3.25 ± 2.61 4.1 Reproduktionsgener Resultatet för gener inom reproduktionen illustreras i grafen nedan (graf 1). Generna är ordnade efter stigande evolutionshastighet. Därefter kommer en tabell (tabell 1) med olika värden av intresse (högsta, lägsta, median- och medelvärde). Alla uppskattade evolutionshastigheter för alla gener inom denna grupp finns i bilaga 3. I graf 1 nedan, har vi alla gener, totalt 57 stycken, som enligt position och funktion definierats som reproduktionsgener. Evolutionshastigheterna (i substitutioner per 100 miljoner år) för generna har ett spektra från det lägsta värdet på 0.10 till det högsta värdet på 7.14. 22 av 57 gener har värden över 3 och medelvärdet och övriga 35 gener har värden under medelvärdet. Inom området 2-5 substitutioner per 100 miljoner år har endast 4 (ZP1, PRM3, PRKA1 och PKDREJ) gener beräknats ligga (se diskussion för mer om detta). 8 Gener inom reproduktionen ordnade efter stigande evolutionshastighet Evolutionshastighet (substitutioner per 100 miljoner år) 7 6 5 4 3 2 1 0 Reproduktionsgener Graf 1. Stigande evolutionshastigheter för 57 gener inom reproduktionen. Varje stapel representerar en gen. 15

I tabell 1, kan vi se att det lägsta värdet blev 0.10 substitutioner per 100 miljoner år. Denna uppskattade evolutionshastighet kommer från genen, ROPN. Genen MSMB fick det högsta värdet inom denna grupp. Medelvärdet blev 2.82 och medianvärdet blev 1.59 substitutioner per 100 miljoner år. Tabell 1. Lägsta och högsta evolutionshastigheten som noterades samt medelvärdet och medianvärdet för gruppen i sin helhet. Värden av intresse Antal substitutioner per 100 miljoner år ± standardavvikelse Lägsta (ROPN) 0.10 ± 0.03 Högsta (MSMB) 7.14 ± 2.81 Medel 2.82 ± 2.53 Median (OGP) 1.59 ± 3.03 4.2 Hushållningsgener Medelvärdet för de 31 evolutionshastigheter från HK-generna var lägst bland de tre grupperna i studien. Alla gener i denna grupp illustreras i graf 2 efter stigande evolutionshastighet. För exakta evolutionshastigheter, se bilaga 4. I graf 2 är det lägsta värdet 0.037 (CUL3) och stiger därefter ända upp till 6.23 (CA1) substitutioner per 100 miljoner år. Det kan konstateras att det inte finns några värden mellan 2.1 och 5.15 (se diskussion för mer om detta). 18 av 31 gener har ett värde som ligger under medelvärdet. 7 HK-gener ordnade efter stigande evolutionshastighet Evolutionshastighet (substitutioner per 100 miljoner år) 6 5 4 3 2 1 0 Hushållningsgener House Hushållningsgener keeping gener Graf 2. Alla evolutionshastigheter för 31 stycken HK-gener. Varje stapel representerar en gen. Tabell 2 visar upp det lägsta värdet (från genen CUL3) inom HK-gruppen, som också är det lägsta värdet av alla gener i hela studien. Här hittar vi också det högsta värdet samt medel och 16

medianvärde för gruppen. Alla värden i tabell 2 är lägre än motsvarande värden för reproduktionsgruppen (tabell1) och immungruppen (tabell 3). Tabell 2. Lägsta och högsta evolutionshastigheten som noterades samt medelvärdet och medianvärdet för gruppen i sin helhet. Värden av intresse Antal substitutioner per 100 miljoner år ± standardavvikelse Lägsta (CUL3) 0.037 ± 0.01 Högsta (CA1) 6.23 ± 2.24 Medel 2.72 ± 2.54 Median (POLR2B) 1.14 ± 2.50 4.3 Immungener Denna grupp har det högsta medelvärdet, från 31 geners evolutionshastigheter, av de tre gengrupperna. Liksom i tidigare avsnitt illustreras resultatet i en graf (se graf 3) och en tabell (se tabell 3). För exakta evolutionshastigheter se bilaga 5. Evolutionshastigheterna som kan ses i graf 3 sträcker sig ifrån 0.297 (CRTAM) till 7.32 (CD1E) substitutioner per 100 miljoner år. 15 av totalt 31 gener har substitutioner per 100 miljoner år över 4. Det kan konstateras att det är väldigt få värden ligger mellan 2 och 5. 2 stycken gener, CD160 (2.51) och CD244 (4.09), har beräknats ligga i detta område (Se diskussion för mer om detta). 8 Gener inom immunförsvaret ordnade efter stigande evolutionshastighet Evolutionshastighet (substitutioner per 100 miljoner år) 7 6 5 4 3 2 1 0 Immungener Graf 3. Evolutionshastigheter för 31 stycken immungener. Varje stapel representerar en gen. Tabell 3 visar bland annat upp den högsta evolutionshastigheten (från genen CD1E) inom immungruppen, som också är det högsta värdet av alla gener inom hela studien. Här hittar vi också det lägsta värdet samt medel- och medianvärde för gruppen. Alla värden i tabell 3 är högre än motsvarande värden för reproduktionsgruppen (tabell1) och HK-gruppen (tabell 2). 17

Tabell 3. Lägsta och högsta evolutionshastigheten som noterades samt medel- och medianvärdet för gruppen i sin helhet. Värden av intresse Antal substitutioner / (100 miljoner år) ± standardavvikelse Lägsta (CRTAM) 0.297 ± 0.641 Högsta (CD1E) 7.32 ± 4.43 Medel 3.25± 2.61 Median (CD244) 2.51± 3.51 4.4 Analys av resultat Här analyseras resultatet mer ingående med grafiska analyser i form av låddiagram ( boxplots ) och en graf som möjliggör en jämförelse mellan de skattade fördelningarna. Därefter redovisas en statistisk utvärdering med ett Mann-Whitney test (avsnitt 4.4.2) som följs av en evolutionshastighets-funktionsanalys (se avsnitt 4.4.3). Tre olika medelvärden beräknades utifrån evolutionshastigheter från de tre olika gengrupper. Enligt resultaten så följer medelvärden (i substitutioner per 100 miljoner år) följande storleksordning: HK-gruppen, 2.72 < Reproduktionsgruppen, 2.82 < Immungruppen, 3.25 Reproduktionsgruppens medelvärde är 3.4 % högre än HK-gruppens. Immungruppen i sin tur har ett medelvärde som är 15.4 % högre än reproduktionsgruppen. Slutligen så kan det konstateras att medelvärdet från immungruppen är 19.3 % högre än HK-gruppen. Gengrupperna följer samma storleksordning, som redovisas ovan i form av högsta och lägsta värde samt medianvärde. Detta kan summeras med låddiagram ( boxplots ), enligt avsnitt nedan 4.4.1. 4.4.1 Grafiska analyser Låddiagram ( boxplots ) ger en enkel grafisk jämförelse mellan grupper och indikerar här, se graf 4, att immungruppen ger högre evolutionshastigheter än reproduktionsgruppen som i sin tur ger högre evolutionshastigheter än HK-gruppen. 18

8 Boxplots av evolutionshastigheter för reproduktions-, HK- och immungener. Evolutionshastighet (substitutioner per 100 miljoner år) 7 6 5 4 3 2 1 0 Reproduktion HK Immun Graf 4. Låddiagram ( boxplots ) av evolutionshastigheter från reproduktions-, HK, och immungener. Boxarna representerar 50% av generna. Linjerna sträcker sig till det största respektive det minsta värdet inom gruppen. I graf 5 nedan så kan vi mer överskådligt jämföra de skattade fördelningarna. HK-gruppens fördelning ligger längst till vänster sedan kommer reproduktionsgenerna och till sist immungenerna. Evolutionshastigheter från de tre gengrupperna Evolutionshastighet(substitutioner/(100 miljoner år)) 8 7 6 5 4 3 2 1 0 HK-gener Reproduktionsgener Immungener Graf 5. De skattade fördelningarna från de tre gengrupperna. HK-generna ligger längst till vänster, reproduktionsgenerna är i mitten och immungenerna till höger. Varje stapel representerar en gen. För att avgöra om skillnaderna mellan grupperna är statistiskt signifikanta eller för att avgöra vilken grupp som reproduktionsgruppen är mest lik behövs ytterligare analys, vilket görs i följande avsnitt. 19

4.4.2 Statistisk utvärdering av resultatet För att avgöra om det erhållna resultatet är signifikant eller ej måste det utvärderas statistiskt. För detta krävs ett statistiskt test som är passande för de aktuella fördelningarna från evolutionshastigheterna. Mann-Whitney testet, har tidigare tillämpats i statistiska utvärderingar av liknande slag som i denna studie. 4.4.2.1 Teori och genomförande Huruvida skillnaden mellan evolutionshastigheterna i de olika gengrupperna är statistiskt signifikant eller ej kan avgöras med ett statistiskt test, Mann Whitney U-test [25]. Testet används för att utvärdera om två samlingar av observationer kommer från samma fördelning eller ej och det gör inga antaganden om vilken fördelning som observationerna följer. Testet summerar antal observationer i A som är mindre än varje observation i B och detta betecknas U. Där det största värdet som teoretiskt är möjligt, na nb (I den här studien är det högsta teoretiska värdet: 31 57 = 1767). Null-hypotesen benämns det fall då observationerna kommer från samma fördelning. Med U som utgångspunkt uppskattas sannolikheten (p-värde) av att nullhypotesen är sann. P-värdet är då sannolikheten av att få de observerade resultat då null-hypotesen är sann. Skillnaden är signifikant då p-värdet är litet och understiger en signifikansnivå, α, på 0.05 (vilket också kan sättas lägre).testet utfördes i R [26], ett språk och en miljö för statistisk programmering, som har en inbyggd funktion där testet enkelt kan utföras. 4.4.2.2 Resultat Resultatet från Mann-whitney testet presenteras här i punktform. Alla kombinationer med de tre gengrupperna ger tre olika resultat. Reproduktionsfördelningen jämfört med HK-fördelningen, U = 990, n 1 = 57, n 2 = 31 p-värde = 0.3545 > 0.05 Reproduktionsfördelningen jämfört med immunfördelningen, U = 801, n 1 =57, n 2 =31, p-värde = 0.4738 > 0.05 HK-fördelningen jämfört med immunfördelningen, U = 577, n 1 = n 2 = 31, p-värde = 0.1778 > 0.05 Där n är antalet observationer, evolutionshastigheter, från reproduktionsgener (n =57), immungener (n = 31) samt HK-gener (n = 31). Vid en vald signifikansnivå, α, på 0.05 så är resultaten inte statistiskt signifikanta, med alla p-värden (0.4738, 0.3545 och 0.1778) högre än 0.05. Null-hypotesen kan inte förkastas det vill säga det går inte att förkasta möjligheten att evolutionshastigheterna från de olika gengrupperna kommer från samma fördelning. Av att tolka från det här resultatet kan man även påstå att HK-gruppen och immungruppen är mest olika, med ett p-värde som är närmast signifikansnivån av de tre. Med samma resonemang skulle man kunna hävda att reproduktionsgruppen är mer lik immungruppen än HK-gruppen då 0.3545 < 0.4738. 20