Uppsala Universitet. Statistiska Institutionen. En statistisk undersökning av transkriptionsnoggrannheten i kodande DNA-sekvenser i E.

Relevanta dokument
Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

FÖRELÄSNING 8:

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 12: Repetition

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

DNA-molekylen upptäcktes DNA - varken protein, kolhydrat eller lipid.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Kapitel 10 Hypotesprövning

Föreläsning 5. Kapitel 6, sid Inferens om en population

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Lektionsanteckningar 11-12: Normalfördelningen

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

F9 SAMPLINGFÖRDELNINGAR (NCT

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

FACIT (korrekta svar i röd fetstil)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

, s a. , s b. personer från Alingsås och n b

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

2. Test av hypotes rörande medianen i en population.

Hur man tolkar statistiska resultat

Genetik. - cellens genetik - individens genetik. Kap 6

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Kap 26 Nukleinsyror och proteinsyntes. Bilder från McMurry

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Datorlaboration 2 Konfidensintervall & hypotesprövning

Föreläsning G60 Statistiska metoder

Transkription och translation = Översättning av bassekvensen till aminosyrasekvens

DEN MINSTA BYGGSTENEN CELLEN

Uppgift a b c d e Vet inte Poäng

RNA-syntes och Proteinsyntes

7.5 Experiment with a single factor having more than two levels

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

OBS! Vi har nya rutiner.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

F3 Introduktion Stickprov

Föreläsning G60 Statistiska metoder

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Metod och teori. Statistik för naturvetare Umeå universitet

Jämförelse av två populationer

1. Lära sig beräkna kon densintervall och täckningsgrad 2. Lära sig rita en exponentialfördelning 3. Lära sig illustrera centrala gränsvärdessatsen

TENTAMEN I STATISTIKENS GRUNDER 2

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

TMS136. Föreläsning 11

Avd. Matematisk statistik

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

F22, Icke-parametriska metoder.

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Föreläsning 11: Mer om jämförelser och inferens

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 5: Hypotesprövningar

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Poisson Point Processes. Edvin Listo Zec Maja Fahlén

Jörgen Säve-Söderbergh

Parade och oparade test

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 13

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Statistik 1 för biologer, logopeder och psykologer

TMS136. Föreläsning 7

Kap 2. Sannolikhetsteorins grunder

Multipel Regressionsmodellen

import totalt, mkr index 85,23 100,00 107,36 103,76

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

(a) Anta att Danmarksprojektet inte lyckas hålla budgeten. Vad är då sannolikheten att Sverigeprojektet inte heller lyckas hålla budgeten? Motivera!

ÄR OBSERVERAT SKILJT FRÅN FÖRVÄNTAT? (CHI2, χ 2 )

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Uppgift 1. Produktmomentkorrelationskoefficienten

2 Dataanalys och beskrivande statistik

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Hypotestestning och repetition

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Transkript:

Uppsala Universitet Statistiska Institutionen En statistisk undersökning av transkriptionsnoggrannheten i kodande DNA-sekvenser i E.coli-bakterien Författare: Johan Vegelius och Sofie Froby Juni 2015 Handledare: Fredrik Johansson Bihandledare: Harriet Mellenius

Abstract Bacteria are exposed to evolutionary pressure to an extent unlike other organisms. This leads to a high degree of adaptation to its surrounding. This thesis investigates the degree of adaptation towards higher accuracy in the transcription of DNA to RNA in coding sequences in the DNA of the E. coli bacteria. Two coding sequences with different nucleotide contents were investigated. Goodness-of-fit tests were performed but no significant adaptation towards higher transcription accuracy was found in the investigated sequences. 2

Innehållsförteckning 1. Inledning... 4 1.1 Syfte... 4 1.2 Frågeställning... 4 2. Bakgrund... 5 2.1 Tidigare forskning... 6 3. Data... 6 4. Statistisk metod... 7 4.1 Normalapproximation av Poissonfördelningen... 7 4.2 z-test... 8 4.3 χ2-test... 8 4.4 Alternativ metod... 9 5. Resultat... 9 5.1 rrnc... 9 5.2 thra... 13 5.3 Jämförelse mellan rrnc och thra... 16 5.4 Jämförelse mellan målpopulationerna... 17 6. Diskussion och slutsats... 18 7. Referenser... 20 Bilaga 1... 21 Bilaga 2... 23 Bilaga 3... 26 3

1. Inledning De första encelliga organismerna uppstod för ca 3,6 miljarder år sedan. Genom naturligt urval har sedan dess mångfalden av organismer ökat enormt. Anpassningar av olika slag har skett. Flercelliga organismer uppstod för cirka en miljard år sedan och den kambriska explosionen inträffade för cirka 600 miljoner år sedan, då en kraftig ökning i mångfalden av komplexa flercelliga organismer skedde. Olika typer av organismer lever nu under väldigt olika betingelser. Alla organismer utsätts för evolutionärt tryck, men i mycket olika omfattning. Bakterier lever under väldigt hårt evolutionärt tryck och reproducerar sig ofta. Därför sker en kraftig anpassning till deras omgivande miljö. Varje cell i varje organism innehåller DNA. DNA är en stabil molekyl som innehåller information om hur organismen ska utvecklas och fungera. DNA-molekylen fungerar som en beskrivning av proteiner som organismen behöver. Proteiner är organismens byggstenar och upprätthåller nödvändiga funktioner. Denna process går till på följande sätt: Gener uttrycks genom att DNA transkriberas till RNA, som är en annan molekyl som översätts till en kedja av aminosyror. Denna kedja bildar ett protein. Det är förstås viktigt att denna process sker så felfritt som möjligt. Enligt en matematisk modell ges transkriptionsnoggrannheten (från DNA till RNA) av den exakta DNA-sekvensen. Noggrannheten varierar med flera storleksordningar och en hypotes är att bakterier, som utsätts för hårt evolutionärt selektionstryck, har tvingats till hög noggrannhet vid transkriptionen. I den här uppsatsen undersöks huruvida det har skett någon anpassning med avseende på transkriptionsnoggrannheten. 1.1 Syfte Syftet med denna uppsats är därför att undersöka variationen i transkriptionsnoggrannheten från DNA till RNA i två kodande sekvenser av E. coli-bakteriens DNA-sekvens. 1.2 Frågeställning Följer transkriptionsnoggrannhetsfördelningen hos E. coli-bakteriens kodande DNAsekvenser (rrnc och thra) samma fördelning som noggrannhetsfördelningen hos en slumpmässig sekvens givet ett visst förhållande mellan innehållet av nukleotiderna adenin, guanin, cytosin och tymin? 4

2. Bakgrund En DNA-molekyl består av kopplade nukleotider i en lång sekvens. I DNA finns fyra nukleotider: Adenin (A) Guanin (G) Cytosin (C) Tymin (T) En sekvens av nukleotider kodar för en kedja av aminosyror i kodande DNA. Tre nukleotider efter varandra i sekvensen kodar för en aminosyra. Alltså en nukleotid-triplett motsvarar en aminosyra. En kedja av aminosyror kallas för ett protein och har någon specifik uppgift i organismen. DNA-molekylen har formen av en dubbelspiral. Det vill säga, varje nukleotid sitter ihop med en motstående nukleotid enligt C-G och A-T. Detta kallas för basparning. Denna struktur ger upphov till en stabil molekyl. Vid transkription från DNA till RNA öppnas en så kallad transkriptionsbubbla bestående av 12 baspar. Man inkluderar även två baspar före och två baspar efter transkriptionsbubblan i modellen. I modellen ingår alltså 16 baspar. Ett visst baspar har en viss interaktionsenergi vilket påverkar noggrannheten, men även närliggande baspar påverkar varandras stabilitet och därmed transkriptionsnoggrannheten. Se Figur 1 för en schematisk bild av en transkriptionsbubbla. Orangea och gröna måsvingar indikerar interaktionen mellan grannar. Figur 1: Schematisk bild av en transkriptionsbubbla (Mellenius och Ehrenberg, 2013). 5

Enligt en matematisk modell ges transkriptionsnoggrannheten av en sekvens i en transkriptionsbubbla, av den aktuella sekvensen. Transkriptionsnoggrannheten är definierad som kvoten mellan sannolikheten att basparningen sker korrekt och sannolikheten att basparningen sker inkorrekt (Mellenius och Ehrenberg, 2015). Med andra ord är transkriptionsnoggrannheten oddskvoten för korrekt basparning. Två av E. coli-bakteriens DNA-sekvenser kommer att undersökas i den här uppsatsen. Den ena sekvensen, rrnc, kodar för ribosamalt RNA, alltså ett funktionellt RNA. Ribosomalt RNA är en beståndsdel i ribosomen som står för bildandet av protein i bakterien. Den andra sekvensen, thra, kodar för ett mrna som i sin tur translateras till en del av ett enzym. 2.1 Tidigare forskning Det har föreslagits att det genom naturlig selektion har skett en förskjutning mot högre transkriptionsnogrannheter i bakterier så som E. coli-bakterien. Dock är det komplicerat att skapa sekvenser med väsentligt högre eller lägre noggrannheter. Detta beror på att sekvenser med hög noggrannhet har ändar som liknar starter hos sekvenser med låg noggrannhet, och tvärtom. Indikationer på adaption mot högre transkriptionsnoggrannheter upptäcktes (Mellenius och Ehrenberg, 2013). Detta undersöktes med hjälp av en matematisk modell för transkriptionsnoggrannheter (Mellenius och Ehrenberg, 2015). 3. Data Datat för analysen består ursprungligen av två DNA-sekvenser (rrnc och thra) från E. colibakterien (BioCyc Database Collection, 2014). DNA-sekvenserna körs i en matematisk modell som stegvis beräknar transkriptionsnoggrannheten för varje del av sekvensen (Mellenius och Ehrenberg, 2015). Det går till så att transkriptionsbubblan vid första noggrannhetsberäkningen består av sekvensens första 16 baspar (12 baspar läggs till innan den kodande sekvensen börjar för att modellen ska börja på rätt ställe). Sedan flyttas transkriptionsbubblan ett steg i transkriptionsriktningen och en ny noggrannhet beräknas. Varje 16-baspars-sekvens har alltså en transkriptionsnoggrannhet given av modellen. Se tabell 1 för exempel. 6

Tabell 1-DNA-sekvenser med motsvarande transkriptionsnoggrannheter DNA-Sekvens Transkriptionsnoggrannhet GCGTTTNNNNNGCATT 34,66 CGCTTTNNNNNGCATT 34,67 CGCTTTNNNNNGCATG 34,68 I transkriptionsbubblan finns fem baspar som inte påverkar transkriptionsnoggrannheten. De betecknas här med bokstaven N. I tabell 2 visas andelen av respektive nukleotider hos de två undersökta sekvenserna. De relativa andelarna för respektive nukleotider skiljer sig mellan rrnc och thra som syns i tabell 2. Tabell 2-Andelar nukleotider i rrnc och thra Antal Sekvens nukleotider Andel A Andel T Andel C Andel G rrnc 4611 0,259 0,203 0,224 0,314 thra 2460 0,225 0,245 0,249 0,281 De delar av DNA-sekvenser som är relevanta för undersökningen är de som kodar för protein eller ribosomalt RNA (eftersom dessa utsätts för selektion). rrnc består av tre kodande sektioner som har klippts ihop, medan thra är en enda sammanhängande sekvens (se bilaga 3). 4. Statistisk metod 4.1 Normalapproximation av Poissonfördelningen Vid stickprov av en kontinuerlig variabel kan antalet dragningar med värden inom ett litet intervall approximeras med en Poisson-fördelning. En Po(N)-fördelning följer samma fördelning som summan av N oberoende Po(1)-fördelningar. En summa av likafördelade, oberoende stokastiska variabler närmar sig en normalfördelning då N ökar, enligt centrala gränsvärdessatsen (Moore, McCabe och Craig, 2012). Om det förväntade värdet av antalet observationer inom detta intervall är tillräckligt stort, kan alltså antalet dragningar inom intervallet därför approximeras med en normalfördelning. 7

4.2 z-test För varje transkriptionsnoggrannhetskategori beräknas ett approximativt z-värde. Detta för att undersöka om transkriptionsnoggrannheterna i de kodande sekvenserna har samma noggrannhetsfördelning som en slumpmässig sekvens med samma relativa nukleotidinnehåll. Följande hypotestest genomförs för samtliga noggrannhetskategorier: H 0 : Det finns ingen skillnad i transkriptionsnoggrannhet mellan den kodande sekvensen och noggrannhetsfördelningen hos den slumpmässiga sekvensen i kategori i H 1 : Det finns en skillnad i transkriptionsnoggrannhet mellan den kodande sekvensen och noggrannhetsfördelningen hos den slumpmässiga sekvensen i kategori i Signifikansnivån α = 0,05 väljs då inga allvarliga konsekvenser inträffar vid ett typ-i fel. Teststatistika: H 0 förkastas om z i > z 0,05 = 1,96. z i O i E i E i Om z i är större än det kristiska värdet förkastas nollhypotesen, om z i är mindre än det kritiska värdet accepteras nollhypotesen (Mendenhall, Scheaffer och Wackerly, 2008). 4.3 χ 2 -test χ 2 -test används för att se om de obseverade frekvenserna skiljer sig signifikant från de förväntade frekvenserna. Måttet mäter alltså avvikelserna mellan de observerade och de förväntade frekvenserna, vilka måste vara utryckta i absoulta tal. För att ett χ 2 -test ska vara lämpligt att använda måste datan uppfylla följande krav: Stickprovet är draget med obundet slumpmässigt urval Populationen är minst tio gånger så stor som stickprovet Det förväntade värdet av stickprovets observationer för varje nivå av variabeln är minst fem Den observerade variabeln är kategorisk χ 2 -testet utförs för att se om fördelningen i alla kategorier för de kodande sekvenserna kommer från respektive noggrannhetsfördelningen hos den slumpmässiga fördelningen i respektive kategori. Följande hypotestest genomförs för samtliga noggrannhetskategorier: 8

H 0 : Antalet observationer i de 16 kategorier ges av noggrannhetsfördelningen hos den slumpmässiga fördelningen H 1 : Antalet observationer i de 16 kategorier ges ej av noggrannhetsfördelningen hos den slumpmässiga fördelningen Signifikansnivån α =0,05 väljs då inga allvarliga konsekvenser inträffar vid ett typ-i fel. Teststatistiska: k 2 χ obs = (O i E i ) 2 i=1 E i Där O i =Observerad frekvens och E i = Förväntad frekvens i de olika kategorierna. För att bestämma det kritiska värdet används frihetsgrader DF = k 1 och signifikansnivån. Om 2 2 χ obs är större än det kritiska värdet förkastas nollhypotesen, om χ obs är mindre än det kritiska värdet accepteras nollhypotesen (Körner och Whalgren, 2009). Det kritiska värdet är det som 2 ger sannolikheten 0,05 för χ obs att vara större än detta kritiska värde. 4.4 Alternativ metod Målet är att undersöka hur fördelningen i transkriptionsnoggrannhet i kodande rrnc-dna skiljer sig från noggrannhetsfördelningen hos den slumpmässiga fördelningen. En tänkbar metod vore att studera huruvida medelvärdet i transkriptionsnoggrannheten i rrnc avviker signifikant från transkriptionsnoggrannheten i noggrannhetsfördelningen hos den slumpmässiga fördelningen. Detta kan göras med ett z-test. Ett problem är att en viktig frågeställning inte går att besvara entydigt med ett z-test. Nämligen huruvida låga noggrannheter har selekterats bort genom naturligt urval. Ett z-test undersöker bara medelvärdet och man kan därför inte uttala sig om fördelningens utseende. 5. Resultat 5.1 rrnc I figur 2 visas fördelningen av den logaritmerade transkriptionsnoggrannheten hos kodande delar av rrnc. För varje kategori visas antalet transkriptionsnoggrannheter inom respektive noggrannhetsintervall. De undersökta logaritmerade transkriptionsnoggrannheterna ligger i 9

Frekvens spannet 1,5 till 22,5. Samtliga intervall har bredden 1,0. Fördelningen liknar något den hos en log-normal fördelning, men är något skev då den är klippt vid låga transkriptionsnoggrannheter. 600 Histogram (rrnc) 500 400 480489 507 471 432 392 377 300 200 100 92 258 216 166 276 179 135 62 39 21 2 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 2-Histogram av transkriptionsnoggrannheter hos rrnc I figur 3 visas fördelningen av den logaritmerade transkriptionsnoggrannheten hos en slumpmässig sekvens skapad på så sätt att först dras en nukleotid ur rrnc utan återläggning. Detta blir första nukleotiden i den slumpmässiga sekvensen. Sedan dras en till nukleotid från rrnc utan återläggning. Detta blir nästa nukleotid i den slumpmässiga sekvensen. Denna procedur fortsätter tills alla nukleotider är dragna. Den slumpmässiga sekvensen har då samma innehåll av de respektive nukleotiderna som rrnc. 10

Frekvens Frekvens Histogram (slumpmässig sekvens rrnc:s längd) 600 500 400 300 200 100 110 223 176 280 343 411 483 496 475 440 399 308 199 124 82 32 12 1 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 3-Histogram av transkriptionsnoggrannheter hos en slumpmässig sekvens med rrnc som bas Det är eftersträvansvärt att hitta en fördelning som i så hög utsträckning som möjligt liknar målpopulationen för rrnc. I det här sammanhanget vore målpopulationen alla transkriptionsnoggrannheter i en oändligt lång sekvens med samma relativa innehåll av de fyra nukleotiderna som hos rrnc. Därför skapas nu en tio gånger så lång slumpmässig sekvens som rrnc. Fördelningen av transkriptionsnoggrannheterna för denna sekvens visas i figur 4. 6000 Histogram (slumpmässig sekvens, 10 gånger rrnc:s längd) 5000 4437 4806 4902 4862 4335 4000 3800 3694 3000 2000 1000 2747 2174 1687 985 2960 2093 1286 785 358 152 30 0 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 4-Histogram av transkriptionsnoggrannheter hos en slumpmässig sekvens med rrnc som bas (10 ggr längre) I figur 5 visas fördelningen av den logaritmerade transkriptionsnoggrannheten hos den slumpmässiga sekvensen som är 100 gånger så lång som rrnc med samma relativa 11

Frekvens nukleotidinnehåll. Denna fördelning liknar påtagligt den i figur 4. Eftersom fördelningarna tycks ha börjat konvergera betraktas från och med nu den slumpmässiga sekvensens noggrannhetsfördelning som målpopulationen för en slumpmässig sekvens. 60000 Histogram (slumpmässig sekvens, 100 gånger rrnc:s längd) 50000 43878 47778 49404 48550 43972 40000 37601 38116 30000 20000 10000 27486 21643 17026 9988 29170 20560 12688 7916 0 3675 1396 236 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 5-Histogram av transkriptionsnoggrannheter hos en slumpmässig sekvens med rrnc som bas (100 ggr längre) För varje transkriptionsnoggrannhetskategori beräknas ett approximativt z-värde. Detta för att undersöka om transkriptionsnoggrannheterna i rrnc har samma noggrannhetsfördelning som en slumpmässig sekvens med samma relativa nukleotidinnehåll. Kategorier med få observerade noggrannheter har lagts ihop för att antalet observationer i en kategori ska kunna betraktas som normalfördelade. Efter detta blev det 16 kategorier och därmed 16 z-värden, z i, i = 1,2,.,16. I figur 6 observeras att inget z-värde ligger i förkastelseområdet. I ingen av kategorierna förkastas H 0. Det går alltså inte i någon kategori att hävda att det finns någon skillnad mellan en kodande och en slumpmässig sekvens. 12

Observerat z-värde Stapeldiagram över z-värden för rrnc i respektive kategorier 2 1,5 1 0,5 0-0,5-1 -1,5-2 -2,5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Transkriptionsnoggrannhetskategori Figur 6-Stapeldiagram över z-värden för rrnc i respektive noggrannhetskategorier Sedan genomförs ett χ 2 -test för att se om fördelningen i alla kategorier kommer från noggrannhetsfördelningen hos den slumpmässiga fördelningen (rrnc) i respektive kategorier. Antalet frihetsgrader är: 16-1=15 vilket ger det kritiska χ 2 2 -värdet: 24,99. Det χ obs = 15,86 < 24,99, nollhypotesen kan inte förkastas. Det går alltså inte att säga att det finns någon skillnad mellan en kodande och en slumpmässig sekvens på 5 % signifikansnivå. 5.2 thra I figur 7 visas fördelningen av den logaritmerade transkriptionsnoggrannheten hos kodande delar av thra. För varje kategori visas antalet transkriptionsnoggrannheter inom respektive noggrannhetsintervall. De undersökta logaritmerade transkriptionsnoggrannheterna ligger i spannet 1,5 till 22,5. Samtliga intervall har bredden 1,0. Fördelningen liknar något den hos en log-normal fördelning, men är något skev då den är klippt vid låga transkriptionsnoggrannheter. 13

Frekvens Frekvens Histogram (thra) 300 250 200 150 100 50 0 63 138141 111 199 241 275 277 246 223 214 130 100 51 35 10 4 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 7-Histogram av transkriptionsnoggrannheter hos thra I figur 8 visas fördelningen av den logaritmerade transkriptionsnoggrannheten hos en slumpmässig sekvens som är 100 gånger så lång som thra med samma relativa nukleotidinnehåll. 30000 Histogram (slumpmässig sekvens, 100 gånger thra:s längd) 25000 20000 15000 10000 5000 0 5556 10372 13003 16431 21625 26044 26618 25457 24495 22420 18988 14484 9884 6021 3630 1721 629 104 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Logaritmen av transkriptionsnoggrannheten Figur 8-Histogram av transkriptionsnoggrannheter hos en slumpmässig sekvens med thra som bas (100 ggr längre) För varje transkriptionsnoggrannhetskategori beräknas ett approximativt z-värde. Detta för att undersöka om transkriptionsnoggrannheterna i thra har samma noggrannhetsfördelning som en slumpmässig sekvens med samma relativa nukleotidinnehåll. 14

Observerat z-värde Kategorier med få observerade noggrannheter har lagts ihop för att antalet observationer i en kategori ska kunna betraktas som normalfördelade. Efter detta blev det 16 kategorier och därmed 16 z-värden, z i, i = 1,2,.,16. I figur 9 visas z-värden motsvarande de 16 noggrannhetskategorierna. I alla kategorier förutom i kategori 16 kan nollhypotesen förkastas. Det går alltså inte att säga att det finns någon skillnad mellan en kodande och en slumpmässig sekvens i dessa 15 kategorier på 5 % signifikansnivå. I i genomsnitt var tjugonde test på signifikansnivån 0,05 begås ett typ-i fel. Det har nu genomförts totalt 32 z-test på signifikansnivån 0,05 så det är troligt att ett typ-i fel har begåtts i den 16:e kategorin. 2,5 2 1,5 1 0,5 0-0,5-1 -1,5-2 -2,5 Stapeldiagram över z-värden för thra i respektive kategorier 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Transkriptionsnoggrannhetskategori Figur 9-Stapeldiagram över z-värden för thra i respektive kategorier Sedan genomförs ett χ 2 -test för att se om fördelningen i alla kategorier kommer från noggrannhetsfördelningen hos den slumpmässiga fördelningen (thra) i respektive kategorier. Antalet frihetsgrader är: 16-1=15 vilket ger det kritiska χ 2 2 -värdet: 24,99. χ obs = 18,88 < 24,99, nollhypotesen kan inte förkastas. Det går alltså inte att säga att det finns någon skillnad mellan en kodande och en slumpmässig sekvens på 5 % signifikansnivå. 15

Observerat z-värde 5.3 Jämförelse mellan rrnc och thra I de två undersökta sekvenserna har inte transkriptionsnoggrannhetsfördelningen påverkats av det naturliga urvalet enligt de utförda testerna. I följande analys undersöks hur förhållandet mellan nukleotidinnehållet påverkar fördelningen. Detta görs genom att jämföra noggrannhetsfördelningen hos thra med målpopulationen för rrnc och vice versa. I figur 10 observeras att i fem av kategorierna förkastas nollhypotesen på signifikansnivån 0,05, vilket tyder på att det finns en skillnad mellan den kodande thra-sekvensen och en slumpmässig sekvens baserad på rrnc. 3 Stapeldiagram över z-värden för thra jämfört med rrnc:s målpopulation 2 1 0-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16-2 -3 Transkriptionsnoggrannhetskategori Figur 10-Stapeldiagram över z-värden för thra med rrnc som bas Ett χ 2 -test utfördes enligt följande: Antalet frihetsgrader är: 16-1=15 vilket ger det kritiska χ 2 2 -värdet: 24,99. χ obs = 39,99 > 24,99, så nollhypotesen förkastas. Hypotesen om att antalet observationer i de 16 kategorierna i thra kommer ifrån samma fördelningar som i rrnc, förkastas. I figur 11 observeras att i fyra av kategorierna förkastas nollhypotesen med signifikansnivån 0,05, vilket indikerar att det finns en skillnad mellan den kodande rrnc-sekvensen och noggrannhetsfördelningen hos den slumpmässiga fördelningen för thra. 16

Observerat z-värde 3 Stapeldiagram över z-värden för rrnc jämfört med thra:s målpopulation 2 1 0-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16-2 -3 Transkriptionsnoggrannhetskategori Figur 11-Stapeldiagram över z-värden för rrnc med thra som bas Ytterligare ett χ 2 -test utfördes enligt följande: Antalet frihetsgrader är: 16-1=15 vilket ger det kritiska χ 2 2 -värdet: 24,99. χ obs = 39,09 > 24,99, så nollhypotesen förkastas. Hypotesen om att antalet observationer i de 16 kategorierna i rrnc kommer ifrån samma fördelningar som i thra, förkastas. 5.4 Jämförelse mellan målpopulationerna Slutligen visas en jämförelse mellan de två slumpmässiga sekvenserna som har betraktats som målpopulationerna för thra respektive rrnc. Det som skiljer de två slumpmässiga sekvenserna är deras nukleotidinnehåll. Sekvensen baserad på rrnc innehåller större andelar A och G än sekvensen baserad på thra, vilket leder till en noggrannhetsfördelning förskjuten mot högre noggrannheter jämfört med sekvensen baserad på thra. Detta illustreras i figur 12. 17

Sannolikhet Förväntade sannolikheter för noggrannhetskategorier 0,12 0,1 0,08 0,06 0,04 rrnc thra 0,02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Transkriptiosnoggrannhetskategori Figur 12-Förväntade sannolikheter för noggrannhetskategorier 6. Diskussion och slutsats Om de DNA-sekvenser som vi undersökt hade anpassats genom evolutionen till en hög transkriptionsnoggrannhet genom val av specifika nukleotidsekvenser, så borde den slumpmässiga sekvensen ha en högre noggrannhet än den selekterade. Två χ 2 -test för thra respektive rrnc indikerar att det naturliga urvalet inte har någon effekt på fördelningen i transkriptionsnoggrannhet givet en sekvens med ett visst nukleotidinnehåll. Sedan genomfördes två χ 2 -test där rrnc och thra korsjämfördes åt båda hållen vilket indikerade att endast nukleotidinnehållet påverkar noggrannhetsfördelningen. En möjlig invändning mot analysen är att valet av noggrannhetskategorier inte är entydigt, utan kan väljas godtyckligt. Analysen skulle kunna genomföras med andra noggrannhetsintervall för att säkerställa validiteten av detta resultat. En ytterligare potentiell invändning är att de långa slumpmässiga sekvenserna (100 gånger originalets längd) definieras som bassekvenser för målpopulationen av transkriptionsnoggrannheter för respektive sekvenser. I själva verket är den verkliga målpopulationen baserad på en oändligt lång slumpmässig sekvens. Dock illustreras ovan att noggrannhetspopulationen tycks konvergera vid DNA-sekvenser av längder 10-100 gånger längden av originalet. Analysen antyder alltså att det inte är tillräckligt fördelaktigt för E. coli-bakterien att anpassa kodande delar av DNA-sekvensen mot högre transkriptionsnoggrannheter. 18

I den här uppsatsen förutsätts att den matematiska modellen korrekt förutsäger transkriptionsnoggrannheten för en viss transkriptionsbubbla, vilket inte nödvändigtvis är sant. Sammanfattningsvis kan sägas att analyserna indikerar att det naturliga urvalet inte har någon effekt på fördelningen i transkriptionsnoggrannhet. Endast nukleotidinnehållet påverkar noggrannhetsfördelningen. 19

7. Referenser BioCyc Database Collection. 2014. EcoCyc E. coli Database. http://ecocyc.org/ecoli/new- IMAGE?type=LOCUS-POSITION&object=NIL&orgids=ECOLI&chromosome=COLI- K12&bp-range=1/50000 (Hämtad 2015-04-15). Körner, S. Whalgren, L. 2009. Statistisk dataanalys. 4:4. Uppl. Sid. 237-240. India: Replika Press Pvt Ltd. Mellenius H, Ehrenberg M. Large DNA template dependent error variation during transcription. In: Puglisi, JD and Margaris, MV, editors. Biophysics and Structure to Counter Threats and Challenges. Netherlands: Springer; 2013. pp 39-57. Mellenius H, Ehrenberg M. 2015. DNA template dependent accuracy variation of nucleotide selection in transcription. PLoS ONE 10(3):e0119588. Mendenhall III. W, Scheaffer L. R, Wackerly D. D. 2008. Mathemetical Statistics with applications. Seventh edition. pp 496-498. Canada: Nelson Education, Ltd Moore D. S, McCabe G. P, Craig B. A. 2012. Introduction to the practice of statistics. Seventh edition. pp 323-324. New York: W.H. Freeman and Company 20

Bilaga 1 Chi-två test för rrnc random_100 Obs E O-E (O-E)/sqrt(E) (O-E)^2/E 9988 92 99,5-7,5-0,753 0,567 17026 166 169,6-3,6-0,279 0,078 21643 216 215,6 0,3 0,024 0,001 27486 258 273,8-15,8-0,958 0,918 37601 392 374,6 17,3 0,897 0,804 43878 432 437,1-5,1-0,247 0,061 47778 480 476 3,9 0,181 0,033 49404 489 492,2-3,2-0,145 0,021 48550 507 483,7 23,2 1,058 1,119 43972 471 438,1 32,8 1,571 2,468 38116 377 379,7-2,7-0,142 0,020 29170 276 290,6-14,6-0,858 0,736 20560 179 204,8-25,8-1,806 3,261 12688 135 126,4 8,5 0,763 0,582 7916 62 78,8-16,8-1,899 3,608 5307 62 52,8 9,1 1,254 1,574 2 = 15,86 χ obs Chi-två test för thra random_100 Obs E O-E (O-E)/sqrt(E) (O-E)^2/E 5556 63 55,2 7,7 1,045 1,094 10372 111 103,1 7,9 0,778 0,605 13003 138 129,2 8,7 0,769 0,592 16431 141 163,3-22,3-1,746 3,051 21625 199 214,9-15,9-1,088 1,183 24495 241 243,4-2,4-0,158 0,025 26044 275 258,8 16,1 1,002 1,004 26618 277 264,5 12,4 0,763 0,582 25457 246 253-7,1-0,442 0,196 22420 223 222,8 0,1 0,009 0,000 18988 214 188,7 25,2 1,838 3,380 14484 130 143,9-13,9-1,164 1,355 9884 100 98,2 1,7 0,176 0,031 6021 51 59,8-8,8-1,143 1,308 3630 35 36,1-1,1-0,180 0,032 2455 14 24,4-10,4-2,105 4,434 2 = 18,88 χ obs 21

Förväntade sannolikheter för noggrannhetskategorier rrnc thra 0,021 0,022 0,036 0,041 0,046 0,052 0,059 0,066 0,081 0,087 0,095 0,099 0,103 0,105 0,107 0,107 0,105 0,102 0,095 0,090 0,082 0,076 0,063 0,058 0,044 0,039 0,027 0,024 0,017 0,014 22

Bilaga 2 Sas-kod data ln_acc_rrnc; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_rrnc.txt"; input ln_acc_rrnc; run; data ln_acc_rrnc_rand1; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_rrnc_rand1.txt"; input ln_acc_rrnc_rand1; run; data ln_acc_rrnc_rand10; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_rrnc_rand10.txt"; input ln_acc_rrnc_rand10; run; data ln_acc_rrnc_rand100; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_rrnc_rand100.txt"; input ln_acc_rrnc_rand100; run; data ln_acc_thra; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_thra.txt"; input ln_acc_thra; run; data ln_acc_thra_rand100; infile "X:\Documents\Stat C\C-uppsats\Data\Slutgiltig data\ln(acc)_thra_rand100.txt"; input ln_acc_thra_rand100; run; proc univariate data=ln_acc_rrnc; histogram ln_acc_rrnc /barlabel=count midpoints = (2 to 22 by 1); run; proc univariate data=ln_acc_rrnc_rand1; histogram ln_acc_rrnc_rand1 /barlabel=count midpoints = (2 to 22 by 1); run; proc univariate data=ln_acc_rrnc_rand10; histogram ln_acc_rrnc_rand10 /barlabel=count midpoints = (2 to 22 by 1); run; proc univariate data=ln_acc_rrnc_rand100; histogram ln_acc_rrnc_rand100 /barlabel=count midpoints = (2 to 22 by 1); run; proc univariate data=ln_acc_thra; histogram ln_acc_thra /barlabel=count midpoints = (2 to 22 by 1); run; 23

proc univariate data=ln_acc_thra_rand100; histogram ln_acc_thra_rand100 /barlabel=count midpoints = (2 to 22 by 1); run; Matlab-kod Beräknar andelen A, C, T respective G I en DNA-sekvens function[]=calcactg() fileid = fopen('random_rrnasequence10_2.txt'); C = textscan(fileid,'%s'); fclose(fileid); sequence = C{1}{1}; sequencet = sequence'; size_array = size(sequence); length_sequence = size_array(2); na=0; nt=0; nc=0; ng=0; size_array(2) for i=1:size_array(2) sequence(i); if sequence(i)=='a'; na=na+1; elseif sequence(i)=='t'; nt=nt+1; elseif sequence(i)=='c'; nc=nc+1; elseif sequence(i)=='g'; ng=ng+1; end end na nt nc ng Läser in noggrannhetsdata på lämplig form (kompatibel med SAS) function[]=read_logacc() fid=fopen('logacc_etta100.txt'); a=fscanf(fid,'%g %g',[1,inf]); a=a' fclose(fid); fileid = fopen('logacc_etta100.txt','w'); fprintf(fileid,'%12s\n'); fprintf(fileid,'%12.8f\n',a); fclose(fileid); 24

Skapa slumpmässig sekvens med korrekt A-, C-, T-, G-innehåll function[]=randomdna2() fileid = fopen('rrna_3klippta_till_en.txt'); C = textscan(fileid,'%s'); fclose(fileid); sequence = C{1}{1}; sequencet = sequence'; size_array = size(sequence); length_sequence = size_array(2); fid=fopen('random_rrnasequence100_3.txt','wt'); j=0; for j=1:100 x=randsample(length_sequence,length_sequence); j for i=1:length_sequence fprintf(fid,'%s',sequence(x(i))); end end fclose(fid); Klipper kodande delar av DNA-sekvens function[]=readdna() fileid = fopen('rrnc_plos1.txt'); C = textscan(fileid,'%s'); fclose(fileid); sequence = C{1}{1}; sequencet = sequence' size_array = size(sequence); length_sequence = size_array(2) start(1)=293; final(1)=1849; start(2)=2189; final(2)=5119; start(3)=5185; final(3)=5331; %16S rrna %23S rrna %5S rrna %skip trna gltu 1919-1994 fid=fopen('rna_5s.txt','wt'); j=3; %for j=1:3 for i=start(j):final(j) fprintf(fid,'%s',sequence(i)); end %end fclose(fid); 25

Bilaga 3 Exempel på DNA-sekvens (thra) ATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGG AAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGC GATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAA CTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAAT TTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCT GATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACT GTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCAC CCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGTAATGAA AAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGACTACTCTGCTGCGGTGCTGGCTGCCTGTTTACGCG CCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTCTATACCTGCGACCCGCGTCAGGTGCCCGATGCGA GGTTGTTGAAGTCGATGTCCTACCAGGAAGCGATGGAGCTTTCCTACTTCGGCGCTAAAGTTCTTCACCCCCGC ACCATTACCCCCATCGCCCAGTTCCAGATCCCTTGCCTGATTAAAAATACCGGAAATCCTCAAGCACCAGGTAC GCTCATTGGTGCCAGCCGTGATGAAGACGAATTACCGGTCAAGGGCATTTCCAATCTGAATAACATGGCAATG TTCAGCGTTTCTGGTCCGGGGATGAAAGGGATGGTCGGCATGGCGGCGCGCGTCTTTGCAGCGATGTCACGC CGTATTTCCGTGGTGCTGATTACGCAATCATCTTCCGAATACAGCATCAGTTTCTGCGTTCCACAAAGCGACTGT GTGCGAGCTGAACGGGCAATGCAGGAAGAGTTCTACCTGGAACTGAAAGAAGGCTTACTGGAGCCGCTGGCA GTGACGGAACGGCTGGCCATTATCTCGGTGGTAGGTGATGGTATGCGCACCTTGCGTGGGATCTCGGCGAAA TTCTTTGCCGCACTGGCCCGCGCCAATATCAACATTGTCGCCATTGCTCAGGGATCTTCTGAACGCTCAATCTCT GTCGTGGTAAATAACGATGATGCGACCACTGGCGTGCGCGTTACTCATCAGATGCTGTTCAATACCGATCAGG TTATCGAAGTGTTTGTGATTGGCGTCGGTGGCGTTGGCGGTGCGCTGCTGGAGCAACTGAAGCGTCAGCAAA GCTGGCTGAAGAATAAACATATCGACTTACGTGTCTGCGGTGTTGCCAACTCGAAGGCTCTGCTCACCAATGTA CATGGCCTTAATCTGGAAAACTGGCAGGAAGAACTGGCGCAAGCCAAAGAGCCGTTTAATCTCGGGCGCTTAA TTCGCCTCGTGAAAGAATATCATCTGCTGAACCCGGTCATTGTTGACTGCACTTCCAGCCAGGCAGTGGCGGAT CAATATGCCGACTTCCTGCGCGAAGGTTTCCACGTTGTCACGCCGAACAAAAAGGCCAACACCTCGTCGATGG ATTACTACCATCAGTTGCGTTATGCGGCGGAAAAATCGCGGCGTAAATTCCTCTATGACACCAACGTTGGGGCT GGATTACCGGTTATTGAGAACCTGCAAAATCTGCTCAATGCAGGTGATGAATTGATGAAGTTCTCCGGCATTCT TTCTGGTTCGCTTTCTTATATCTTCGGCAAGTTAGACGAAGGCATGAGTTTCTCCGAGGCGACCACGCTGGCGC GGGAAATGGGTTATACCGAACCGGACCCGCGAGATGATCTTTCTGGTATGGATGTGGCGCGTAAACTATTGAT TCTCGCTCGTGAAACGGGACGTGAACTGGAGCTGGCGGATATTGAAATTGAACCTGTGCTGCCCGCAGAGTTT AACGCCGAGGGTGATGTTGCCGCTTTTATGGCGAATCTGTCACAACTCGACGATCTCTTTGCCGCGCGCGTGG CGAAGGCCCGTGATGAAGGAAAAGTTTTGCGCTATGTTGGCAATATTGATGAAGATGGCGTCTGCCGCGTGA AGATTGCCGAAGTGGATGGTAATGATCCGCTGTTCAAAGTGAAAAATGGCGAAAACGCCCTGGCCTTCTATAG CCACTATTATCAGCCGCTGCCGTTGGTACTGCGCGGATATGGTGCGGGCAATGACGTTACAGCTGCCGGTGTC TTTGCTGATCTGCTACGTACCCTCTCATGGAAGTTAGGAGTCTGA 26

Exempel på noggrannhetsdata av thra 5.4353471e+000 1.2880953e+001 8.5669840e+000 1.3933441e+001 1.1054982e+001 8.0330644e+000 5.8630687e+000 8.6111813e+000 1.0740633e+001 1.1232287e+001 4.9978822e+000 1.0494519e+001 1.2113649e+001 1.4775996e+001 1.2731516e+001 8.1572615e+000 8.5260461e+000 1.4700456e+001 9.3258372e+000 7.9054009e+000 1.1292619e+001 1.6578325e+001 1.5463433e+001 8.3871897e+000 1.5801661e+001............ 27