Bioinformatisk metodik (1MB331) VT11 - Sammanfattning



Relevanta dokument
Mutationer. Typer av mutationer

Symboler och abstrakta system

Henrik Brändén. bioscience explained Vol 3 No 1. Undersökning av influensavirus med hjälp av släktträd. Vetenskapsrådet Stockholm Sverige

Stamträd med hjälp av databaser och program från Internet

Tomat och banan hur är de släkt?

I. Flersekvensjämförelser, sekvensmotiv och profiler. II. Fylogenetisk analys

Släktträd med hjälp av databaser och program från Internet

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Att bygga ett fylogenetiskt träd

Evolution, del 2: Evolutionsprocesser och förändringar i det genetiska materialet. Jessica Abbott Forskare Evolutionär Ekologi

HKGBB0, Artificiell intelligens

Vinjetter TDDC91 Datastrukturer och algoritmer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

International Olympiad in Informatics July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor

Släktskap mellan människa och några ryggradsdjur

Regression med Genetiska Algoritmer

Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL2 och Media 1, SF1610 och 5B1118, onsdagen den 17 augusti 2011, kl

Härledning av Black-Littermans formel mha allmänna linjära modellen

Introduktion till statistik för statsvetare

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Ärftliga sjukdomar och egenskaper hos hund

Delprov l, fredag 11/11,

Sannolikhetsbegreppet

NUKLEINSYRORNAS UPPBYGGNAD: Två olika nukleinsyror: DNA deoxyribonukleinsyra RNA ribonukleinsyra

RNA-syntes och Proteinsyntes

Övning i bioinformatik

Business research methods, Bryman & Bell 2007

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Tentamen Marco Kuhlmann

UPPGIFT 1 V75 FIGUR 1.

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret Lektion 4

En bioinformatisk genjakt

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Transkription och translation = Översättning av bassekvensen till aminosyrasekvens

LAB 1. FELANALYS. 1 Inledning. 2 Flyttal. 1.1 Innehåll. 2.1 Avrundningsenheten, µ, och maskinepsilon, ε M

Mer om analytisk geometri

Forskningsmetodik 2006 lektion 2

Laboration 2: Styrkefunktion samt Regression

Betingad sannolikhet och oberoende händelser

Ansiktsigenkänning med MATLAB

1 Stokastiska processer. 2 Poissonprocessen

Ämnesprov i matematik. Bedömningsanvisningar. Skolår 9 Vårterminen Lärarhögskolan i Stockholm

Statistik 1 för biologer, logopeder och psykologer

Kundts rör - ljudhastigheten i luft

1 Positivt definita och positivt semidefinita matriser

1. Klicka på längst upp, när du har fönstret Familjeöversikt på skärmen. Denna meny visas:

Matematisk statistik - Slumpens matematik

ger rötterna till ekvationen x 2 + px + q = 0.

Vetenskaplig metod och statistik

a = a a a a a a ± ± ± ±500

Tentamen i Beräkningsvetenskap I/KF, 5.0 hp,

de var svåra att implementera och var väldigt ineffektiva.

Analys av egen tidsserie

Tentamen 3p mikrobiologi inom biologi 45p, Fråga 1 (2p) Fråga 2 (2p) Fråga 3 (2p)

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

TATA42: Föreläsning 9 Linjära differentialekvationer av ännu högre ordning

Checklista för funktionsundersökning

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Statistisk röjandekontroll att visa skogen men inte träden. Qun Wang, metodstatistiker SCB Stockholm

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

FÖRELÄSNING 8:

Tentamen i Matematisk statistik Kurskod S0001M

Kapitel 10 Hypotesprövning

Beskrivande statistik

MVE051/MSG Föreläsning 7

Analys av korstabeller

Föreläsning 13. Dynamisk programmering

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

SF1901 Sannolikhetsteori och statistik I

Nonogram

Kapitel Ekvationsräkning

Matematiska uppgifter

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Extramaterial till Matematik X

Mätning av fokallängd hos okänd lins

Ekvivalensrelationer

Matematisk statistik TMS064/TMS063 Tentamen

Del 18 Autocalls fördjupning

Uppgift 1 ( Betyg 3 uppgift )

Simulera evolutionen Ett spel för att lära ut principerna kring evolutionen med hjälp av olika föremål.

Omentamen 3p mikrobiologi inom biologi 45p, Fråga 1 (2p) Fråga 2 (2p) Fråga 3 (2p)

Genetik II. Jessica Abbott

1. Ekvationer 1.1. Ekvationer och lösningar. En linjär ekvation i n variabler x 1,..., x n är en ekvation på formen. 2x y + z = 3 x + 2y = 0

TAMS65 - Föreläsning 6 Hypotesprövning

Bayes i praktiken. exempel och reflektioner från en forskarutbildningskurs. Ralf Rittner, Arbets och Miljömedicin

Föreläsning G60 Statistiska metoder

Kvalificeringstävling den 30 september 2008

Skattning av avstånd mellan arter i fylogenetiska träd

TAMS65 - Föreläsning 6 Hypotesprövning

DNA-analyser: Introduktion till DNA-analys med PCR och gelelektrofores. Niklas Dahrén

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Systemkonstruktion Z3 (Kurs nr: SSY-046)

Moralfilosofi. Föreläsning 4

Programmeringsuppgift Game of Life

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Transkript:

Bioinformatisk metodik (1MB331) VT11 - Sammanfattning Per Enström & Eli Burell Innehåll 1 Inledning 2 2 Databastyper 2 2.1 Depåer (repositories)............................. 2 2.2 Vårdade (curated).............................. 2 3 Nukleotidmönster 2 3.1 Open reading fram (ORF).......................... 2 3.2 Alien genes.................................. 3 4 Sekvensinpassning 3 4.1 Enkel (parvis)................................. 3 4.2 Multipel.................................... 4 4.2.1 Sum-of-pairs............................. 4 4.2.2 Divide and conquer.......................... 4 4.2.3 Progressiv inpassning........................ 4 4.3 Empiriska poängmatriser.......................... 5 4.3.1 PAM.................................. 5 4.3.2 BLOSUM............................... 5 5 Sekvensevolution 5 5.1 Jukes-Cantor................................. 5 5.2 Kimuras 2-parametermodell......................... 5 5.3 Proteinmetoder................................ 6 5.4 Definitioner.................................. 6 6 Fylogenianalys 6 6.1 Relaterade termer.............................. 6 6.2 Rotade och orotade träd........................... 7 6.3 Att välja träd................................. 7 6.3.1 Maximum parsimony......................... 7 6.3.2 Minimum evolution.......................... 8 6.3.3 Maximum likelihood......................... 8 6.4 Bayesian.................................... 8 6.5 Bootstrapping................................. 9 1

3 NUKLEOTIDMÖNSTER 1 Inledning Det här dokumentet är en sammanfattning av kursen Bioinformatisk metodik (1MB331) som hölls av Michael Thollesson vid Uppsala Universitet vårterminen 2011. Sammanfattningen är baserad på föreläsningspresentationer från föreläsaren, kursboken Understanding Bioinformatics (Zvelebil & Baum) samt övriga mindre resurser. Innehållet i dokumentet är baserat på en övningstentamen från 100219. Vi tar inget ansvar alls för eventuella fel som finns i den här texten, utgå inte ifrån att det som står här är korrekt, dubbelkolla allt. Dokumentet är heller ingen vettig källa. Vi tar heller inget ansvar för eventuella ekonomiska eller personliga förluster som sammanfattningen åsamkat. Eventuell likhet med verkliga personer, levande eller döda, är ett totalt sammanträffande. 2 Databastyper När databaser nämns inom olika sammanhang kan de betyda väldigt olika saker; den lagrade datan; strukturen på hur informationen är samlad; eller den sida eller det system man använder för att komma åt innehållet i databasen. I bioinformatiska sammanhang använder man ofta beteckningen databas för en samling data av något slag, exempelvis GenBank. Det finns ingen felfri databas. Det är alltid möjligt att den data som erhållits från en databas är felaktig. 2.1 Depåer (repositories) Depådatabser är databaser som främst innehåller data från experiement. Den information som sätts in brukar bara kontrolleras en gång efter insättning och eventuella fel som finns rättas endast till om användare informerar administratörer om detta. Ett exempel på en depådatabas är GenBank. 2.2 Vårdade (curated) Vårdade databaser undersöks och bearbetas kontinuerligt. Uppdateringar och rättning av tillgänglig data sker regelbunder. Som resultat är det mindre sannolikt att det är fel i databasen. Ett exempel på en vårdad databas är SwissProt. 3 Nukleotidmönster 3.1 Open reading fram (ORF) En ORF definieras som ett stycke DNA-sekvens som inte innehåller ett stoppkodon. Då man slumpmässigt genererar DNA med samma sannolikhet på alla nukleotider är sannolikhet att man träffar på ett stoppkodon en gång för var 21 kodon passerade. Man kan således identifiera möjliga proteinkodande sekvenser genom att leta efter långa ORFs. En annan teknik är att analysera så kallad GC-content, hur mycket G och C- baser som finns i området, en typisk proteinkodande sekvens har oftast högre halt G och C. Man kan även leta efter regulatoriska sekvenser i närheten av startkodon, ett proteinkodande område har regulatoriska sekvenser för att kontrollera transkription. ORFs är någonting som finns främst i prokaryot DNA. I eukaryot DNA är det inte möjligt att göra samma typer av identifieringar på grund av alternative splicing. 2

4 SEKVENSINPASSNING 3.2 Alien genes Alien genes (kopplat till xenologi) är genetiskt material som överförts via horisontell genöverföring. 4 Sekvensinpassning Sekvensnpassning, oavsett hur måga sekvenser som inpassas mot varandra är i grunden till för att kunna kontrollera om dess sekvenser är homologa eller inte. Den bästa inpassingsmetoden som finns är den metod som ger högst poäng till de inpassningar som korrekt matchar homologa sekvenser (till skillnad från matchningar mellan ickehomologa sekvenser). Exakta algoritmer Metoder som använder sig av all tillgänglig data för att ta fram en hypotes över hur två sekvenser skall anpassas efter varandra. Detta är en utförlig metod som oftast tar alldeles för lång tid att genomföra. Exempel på exakta metoder är Needleman-Wunsch och Smith-Waterman. Heuristiska algoritmer En heuristisk metod är en metod som är tränad på något sätt. Den utgår ifrån befintlig data för att bygga upp en hypotes om inpassning. Dessa metoder är snabbare än de exakta men kan i vissa fall ge felaktiga resultat. Exempel på heuristiska algoritmer är BLAST och FASTA. 4.1 Enkel (parvis) Det finns i regel tre olika sätt att passa in sekvenser mot varandra. Dessa är global inpassning, lokal inpassning och överlappande inpassning. Då alla möjliga inpassningar mellan två sekvenser ska undersökas är det möjligt att använda sig av matriser. På axlarna placeras de sekvenser som ska passas in. I matrisen fylls sedan med markeringar som visar vilka punkter som överensstämmer. Från denna kan man sedan få fram diagonala linjer som representerar matchande subsekvenser. Då dessa inpassningar är till för att hitta homologa sekvenser blir det nödvändigt att ändra på de poäng som varje inpassning ger. De modifikationer som görs tar hänsyn till om de gap eller felmatchningar som finns i inpassningen stämmer överens med de teorier som finns kring sekvensevolution. En sådan teori är skillnaden mellan transitioner och transversioner då en bas muterar. Transitioner är då mutationen är från en purin till en annan purin (A <=> G) eller från en pyrimidin till en annan pyrimidin (C <=> T). Transversioner är när en mutation går från en purin till en pyrimidin eller vice versa. Global inpassning (Needleman-Wunsch) är en metod som lämpar sig när man vet att de två sekvenserna är homologa och även för multipel sekvensinpassning (flera körningar efter varandra). I denna metod försöker man anpassa hela sekvenser mot varandra och räknar med allt innehåll. Needleman-Wunch är en matrismetod där man utför beräknningar från (0, 0) ner till (m, n). Därefter vandrar man från nedre högre hörnet och väljer de celler som har högst poäng för att bilda en s.k. traceback. Denna ger den bästa inpassningen. 3

4 SEKVENSINPASSNING Lokal inpassning (Smith-Waterman) innebär att man gör antagandet att inte hela sekvensen är homolog. Istället räknar man med att en viss del av sekvens A är homolog med en del av sekvens B. Inpassningen sker således mellan undersekvenser och kan vara användbart när man försöker matcha konserverade sekvenser. Smith-Waterman fungerar på samma sätt som N-W med några skillnader. Den första är att den lägsta möjliga poäng som en cell kan ha är noll, vilket även resulterar i att man inte rör sig vidare från cellen när man utför traceback. Den andra är att man vandrar från den cell som har högst poäng oavsett placering. Överlappande sekvensinpassning används då en av sekvenserna (kortare) antas ha en fullständig motsvarighet i den andra sekvensen (längre). Ett exempel på detta är när man försöker passa in ett genduplikat eller ett PCR-fragment mot ett genom. Det kan även användas om man försöker anpassa två sekvensfragment som överlappar i ändarna (jmf. HUGO). Metoden tillåter således stora gap i ändarna på sekvenserna som anpassas. Det är även möjligt att använda sig av en anpassad version av Needleman-Wunch för att beräkna överlappande sekvensinpassningar. Till skillnad från en tidigare nämnda versionen är vandrar man från den cell som har högst poäng belägen på antingen den nedersta raden eller den rad som är belägen längst till höger. Vandringen sker därefter tills att man når raden lägst till vänster eller den översta raden. 4.2 Multipel 4.2.1 Sum-of-pairs SoP är en poängsättningsmetod för multipel sekvensinpassning där man summerar poängen hos varje par som finns i uppsättningen sekvenser. 4.2.2 Divide and conquer DaC bygger på att man delar upp långa sekvenser som ska anpassas till kortare bitar. Dessa bitar passas in mot varandra för att sedan slås ihop. Metoden avlastar de matriser som används genom uppdelningen men är trots det fortfarande begränsad till att endast kunna anpassa en liten mängd sekvenser. 4.2.3 Progressiv inpassning Vid progressiv inpassning görs ett flertal parvisa inpassningar mellan sekvenser, mellan sekvenser och profiler samt mellan profiler. Profiler är en uppsättning inpassade sekvenser. Dessa inpassingar utförs tills att alla sekvenser som undersöks har inpassats mot varandra. ClustalW är mjukvara som hanterar multipel progressiv inpassning och utför följande steg: 1. Parvis inpassning mellan alla sekvenser. 2. Beräkna alla parvis skillnader i procent. 3. Uppbyggnad av ett träd (NJ) baserat på de tidigare beräknade skillnaderna och rota detta träd med mittpunktsrotning. Trädet används sedan för att bestämma ordningen på parvisa inpassningar och vilka vikter som ska användas i senare steg. 4. Trädet och dess grenar kan nu användas för att bestämma hur senare inpassningar ska göras. 4

5 SEKVENSEVOLUTION 5. När alla inpassningar har gjort rapporteras MSA-resultaten. 4.3 Empiriska poängmatriser 4.3.1 PAM PAM står för Percent Accepted Mutations och är baserad på förväntade ersättningshastigheter för aminosyror. Matrisen är uppbyggd med alla tjugo vanliga aminosyrpor på både raderna och kolumnerna, i varje cell anges hur sannolikt det är att en amonosyra skall byta från den ena till den andra. Beroende på vilken procent av accepterade mutationer man vill ha använder man sig av olika PAM-matriser. PAM1 motsvarar substitutionssannolikheter för sekvenser som har haft en mutation för var hundrade aminosyra. För att öka detta värde multiplicerar man matrisen med sig själv. PAM250 är således PAM1 250. Ett högre PAM-värde betyder alltså att matrisen bör användas på sekvenser med mindre likhet, eftersom fler mutationer har skett. PAM-matrisen är konstruerad genom impiriska data. Dayhoff samlade data från ett stort antal relaterade sekvenser och konstruerade utifrån det empirisk statistik på hur ofta aminosyror muterade. 4.3.2 BLOSUM För att hantera problemet med att PAM antar att mutationshastigheterna är uniforma över hela sekvensen skapade Henikoff & Henikoff. BLOSUM står för BLOcks SUbstitution Matrix och är baserad på BLOCKS-databasen för att söka efter likheter mellan sekvenser, men används endast på konserverade regioner av en proteinfamilj. För att analysera sekvenser som är mindre närbesläktade än andra sammanställer man proteinsekvenser med en viss procentuell likhet till en sekvens. Denna procentuella likheten återspeglas i namnet för BLOSUM-matrisen. I BLOSUM62 har exempelvis alla sekvenser med likhet över 62% sammanställts till en sekvens. Ett högre BLOSUM-värde betyder alltså att matrisen bör användas på sekvenser med större likhet, eftersom fler sekvenser som är lika finns kvar som individuella sekvenser. 5 Sekvensevolution 5.1 Jukes-Cantor Jukes-Cantor-modellen (JC) är en enkel modell för att uppskatta förändring i en nukleotidsekvens. Modellen utgår ifrån att alla baser återfinns med samma frekvens, samt att alla mutationer sker med samma hastighet. Divergensen K definieras som medelantalet substitutioner per position och beräknas med ( K JC = 3/4 ln 1 P ) diff 3/4 (5.1) där P diff är antalet positioner med olika baser dividerat med totala sekvenslängden. 5.2 Kimuras 2-parametermodell Kimuras 2-parametermodell (K2P) är baserad på JC men har lagt till en till parameter. K2P antar att transversioner och transitioner har olika substitutionsfrekvenser. Detta leder till en lite mer komplicerad modell, här beräknas divergensen med 5

6 FYLOGENIANALYS K JC = 1/2 ln (1 2P Q) (1 2Q) (5.2) där P är antalet transitioner dividerat med längden och Q är antalet transversioner dividerat med längden. Efter en väldigt kort tid av mutation kommer observerade antalet transversioner och transitioner samt sannolikheten för att multiple hits har inträffat att vara väldigt låg. Detta leder till att divergensen kan approximeras med den observerade skillnaden, vilket gör att både JC och K2P ger samma resultat. 5.3 Proteinmetoder För att avgöra evolutionen hos proteinsekvenser kan man använda sig av JTT eller WAG. Dessa använder sig av matriser uppbyggda empiriska data, nackdelen med att använda dessa metoder är att man måste hantera en 20x20-matris, något som tar lång tid. 5.4 Definitioner Multiple hits Multiple hits är en term för att beskriva då en position har blivit utsatt för substitution flera gånger. Detta kan göra att en position som har två olika baser kan ha utsatts för flera substitutioner och på samma sätt kan en position med lika baser ha blivit utsatt för flera substitutioner och återkommit till likhet. Saturation (mättnad) När en sekvens har muterats under lång tid kommer alla frekvenser att närma sig en fjärdedel av sekvenslängden. Sekvensen har uppnått slumpmässighet och all relation till den ursprungliga sekvensen har gått förlorad. 6 Fylogenianalys Fylogenetiska träd är en hypotes som försöker beskriva relationen mellan Operational Taxonomuc Units (OTU). Dessa OTUs kan vara gener, arter eller andra relevanta replikatorer. Det är nödvändigt att skilja mellan fylogenetiska träd och själva fylogenin som strikt sett är den faktiska, korrekta historien mellan de olika OTUs som man undersöker. 6.1 Relaterade termer Accuracy vs precision Accuracy är ett mått på hur bra ett mätsystem kan generera värden som liknar det faktiska, sanna värdet. Hög accuracy skulle kunna ses som att de skott som avfyras mot en måltavla trots spridningen ger upphov till en genomsnittsträff som ligger mitt i tavlan. Precision är ett mått på hur bra mätsystemet kan återskapa tidigare resultat givet samma parametrar vid mätning. Hög precision skulle kunna ses som att de skott som avfyras mot en måltavla trots avvikelsen från centrum hamnar på ungefär samma avvikande punkt. Styrka Styrkan hos en metod är ett mått på hur bra accuracy och precision som en metod har jämfört med andra. 6

6 FYLOGENIANALYS Konsistens Hos en metod som är konsistent minskar antalet fel i data i takt med att antalet tagna prov ökar. Stickprovsfel Stickprovsfel är de fel i data som kan uppstå då man felaktigt tar prov eller tar otillräckliga provmängder. Den data som man får är avvikande i just det prov som man tar och är inte representativt för den mängd som provet tillhör. Systematiskt fel Systematiska fel har sitt urprung i de mätmetoder som man använder och kommer till skillnad från stickprovsfel vara närvarande i all data som togs vid samma tillfälle. Dessa fel beror vanligtvis på felkalibreringar eller att man inte tar hänsyn till vissa parametrar vid provtagning. 6.2 Rotade och orotade träd De träd som genereras av analytiska fylogenetiska metoder saknar i de flesta fall en rot. Träd som saknar rötter beskriver endast relationen mellan OTUs och ger ingen information om historia och utvecklingen av dessa OTU. När ett träd rotas blir det samtidigt riktat. Roten är alltid den tidigaste gemensamma förfadern till de OTU som finns i trädet vilket gör att man rör sig framåt i tiden då man vandrar i ett träd från rot till gren. Ett träd rotas vanligen genom att välja en utgrupp. Denna är en OTU som har längre evolutionärt avstånd med alla andra OTUs i trädet jämfört med det evolutionära avstånd som finns mellan två andra godtyckliga OTUs i trädet. Evolutionärt Avstånd UG OTU > Evolutionärt Avstånd OTU OTU Man kan däremot inte bara välja en OTU som ligger långt bort från de övriga OTU som trädet består av då detta kan försvåra analys eller förvränga resultat. Exempelvis skulle fåglar vara en acceptabel utgrupp om man utförde en analys på däggdjur. 6.3 Att välja träd Då ett stort antal möjliga träd genereras från data blir det nödvändigt att välja bland dessa och hitta det träd som är den bästa möjliga förklaringen för den data som man undersöker. Nedan listas de kriterier som kan användas för att välja träd. 6.3.1 Maximum parsimony I MP betygsätts träden med avseende på hur många förändringar som behövs för att gå från ett stadie till ett annat i trädet. Dessa förändringar sker hos de olika OTUs som finns i trädet och det träd som förklarar observerad data med minst antal förändringar anses vara det bästa. MP är en snabb och enkel metod som inte kräver någon tidigare kunskap om hur förändringar sker evolutionärt. Nackdelen är dock att den inte kan ta hansyn till förändringar som drabbar samma punkt flera gånger. Ju större avståndet är mellan de olika OTUs som undersöks desto fler förändringar kan ha drabbat samma punkt(er). En tumregel är att MP fungerar bäst om sekvenserna inte divergerar mer än 5%. För att utöka funktionaliteten hos MP kan man lägga till vikter vid analysen. Dessa gör att vissa förändringar straffas genom att tilldelas ett högre värde än andra. Det finns två typer av sådana viktningar, transitionella och positionella. Transitionella Olika vikter tilldelas förändringar mellan olika typer av baser, ofta ger man transversioner en högre kostnad än transitioner. 7

6 FYLOGENIANALYS Positionella Vissa positioner tilldelas högre kostnad än andra. Exempel på detta är MPanalys på proteinkodande sekvenser, den tredje basen i ett kodon ändras oftare än de första två i och med att aminosyran oftare bevaras. 6.3.2 Minimum evolution ML bygger på sama grundkriterium som MP, nämligen att det träd som på minst antal förändringar förklarar den observerade datan är det bästa. ME försöker däremot inte jämföra varje punkt och dess förändringar. Istället gör den större avvägningar genom att använda sig av de avstånd (grenlängder) som finns mellan OTUs. Dessa avstånd representerar i grund och botten fortfarande antalet förändringar som skett. De grenlängder som används och presenteras i samband med ME kan i vissa fall vara svåra eller rentav omöjliga att tyda. Det kan dessutom uppstå fall där längden som krävs för att förklara en inpassning överskrider den totala längden i trädet. En annan nackdel som ME medför är att man som användare inte får någon förklaring till vilka förändringar som skett. 6.3.3 Maximum likelihood ML är en metod som skiljer sig från MP och ME på den punkt att den kräver en explicit modell som beskriver tillståndsförändringar. Sannolikheten som beräknas är sannolikheten att man erhåller den observerade datan förutsatt att den modell som används är korrekt. ML plockar precis som namnet anger det träd som har störst sannolikhetsvärde och anser detta träd vara den bästa förklaringen för den data som man undersöker. Den huvudsakliga fördelen med ML är att man kan applicera en probabilistisk modell på all tillgänglig data vilket leder till bättre anpassningar och förklaringar kring fylogenin utan att förlora information. De problem som finns är att man måste ha en explicit modell för förändringar. Om denna modell väljs felaktigt kommer det leda till felaktiga resultat. Det är även så att tiden som krävs för att utföra undersökningen av träd ökar allteftersom att modellens komplexitet (och således förmåga att efterapa verkligheten) ökar. 6.4 Bayesian Eftersom maximum likelihood, som bygger på att ta fram en sannolikhet för datan baserat på att en hypotes är sann, är en lätt bakvänd teori konstruerade Bayes en analysmetod som istället gav en hypotes för hur saker har utvecklats baserat på den data man har. Värdet man får ut, posterior probabilities, ges av p(h x D) = p(d H x) p(h x ) p(d H) p(h). (6.1) H H Sannolikheten av hypotesen är likelihood multiplicerat med sannolikheten för hypotesen dividerat med summan av uttrycket för alla möjliga hypoteser av samma typ. Dessa värden tas fram genom Markow Chain Monte Carlo-metod (MCMC), denna börjar med ett slumpmässigt värde på de parametrar man har och ändrar sedan dessa enligt en algoritm till ett steady state har infunnits. Bra egenskaper hos en Bayesiansk analys inkluderar de eftersökta egenskaperna hos ML eftersom tekniken är baserad på ML, MCMC gör dock tekniken mycket snabbare 8

6 FYLOGENIANALYS än ML. Tekniken ger även direkt säkerhetvärden på träden. Dock är Baysiansk analys endast bra, för att kunna utföra den måste det finnas tidigare kunskap om verkligheten, MCMC-algoritmen måste övervakas och någon måste avgöra när tillräckligt många generationer har körts för att den skall vara i steady-state. 6.5 Bootstrapping Bootstrapping är en utvärderingsmetod man utför efter någon annan form av analys. Den går ut på att man konstruerar nya sekvenser genom att slumpmässigt ta positioner från den ursprungliga datamängden, detta kan resultera i att en position upprepas i de nya replikaten. Från dessa nya slumpmässigt konstruerade replikat kör man samma analys som tidigare. Träden som denna analys ger summeras till ett konsensusträd och sannolikheter för att en viss splittring skall finnas. Dessa värden appliceras sedan på det ursprunliga trädet och man får på så sätt ett värde på varje gren hur sannolik den är. Ett värde över 85% är okej men för att ha starkt stöd för trädet skall värdet vara över 95%. 9