Department of Mathematics Uppsala University

Storlek: px
Starta visningen från sidan:

Download "Department of Mathematics Uppsala University"

Transkript

1 Optimering av metodiken vid genotypning av stora DNA-material Karin Jensevik U.U.D.M. Project Report 003:14 Examensarbete i matematisk statistik, 0 poäng Handledare: Lars Berglund, UCR, Uppsala universitet och Tomas Axelsson, Institutionen för medicinska vetenskaper, Uppsala universitet Examinator: Dag Jonsson Oktober 003 Department of Mathematics Uppsala University

2 Sammanfattning Vid studier av människans DNA används ibland så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Vid genotypning av stora DNA-material skulle en förfinad metodik spara både tid och pengar. Målet är att på ett tidigt stadium i genotypningen upptäcka de markörer som är kopplade till varandra. Genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. De simuleringsmetoder som användes var bootstrapmetoden och jackknife-metoden. Det bästa resultatet erhölls från jackknife-metoden och enkelsidiga 95 % konfidensintervall till kopplingsmåtten räknades fram. Via en enkel grafisk lösning kan sedan ett snabbt svar fås om kopplingen mellan markörerna i ett par är tillräckligt stark för att avsluta genotypning av en av markörerna.

3 Ett tack till Jag vill tacka min examinator Dag Jonsson (Matematiska institutionen, Uppsala Universitet) och mina handledare Lars Berglund (UCR, Uppsala Universitet) och Tomas Axelsson (Institutionen för medicinska vetenskaper, Uppsala Universitet) för all hjälp och vägledning under mitt examensarbete. Ett tack även till alla andra som jag har varit i kontakt med under arbetets gång.

4 Innehållsförteckning Innehållsförteckning Introduktion.... Genetisk bakgrund Grundläggande begrepp Rekombination Genotyper och haplotyper Linkage Disequilibrium Vad menas med Linkage Disequilibrium? Olika mått på graden av LD Studiepopulation och datamaterial Genotypning och studiepopulation Datamaterial Metoder Programvara Omskrivning av R Härledning av en allmän variansformel för R ^ Simuleringsmetoder Bootstrap Jackknife Jämförelser mellan bootstrap och jackknife Bootstrap- och jackknife-simuleringarna Resultat De 10 LD-måtten och deras standardavvikelser enligt Gauss-approximationen Resultat av bootstrap- och jackknife-simuleringarna Jämförelser mellan de tre olika standardavvikelserna Vid vilket n kan man överväga att endast genotypa en SNP? Diskussion Referenser Genetisk ordlista Bilaga 1. Haplotyptabeller för de tre mindre stickproven Bilaga. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för R ^ i Maple... 4 Bilaga 3. Konstanterna Ca, Cb, Cc och Cd i uttrycket för variansen för R ^ Bilaga 4. SAS-utskrift av resultatet från regressionsanalysen Bilaga standardavvikelser genererade m.h.a. SAS

5 1. Introduktion Genetiken är en relativt ung vetenskap som innehåller många frågeställningar som man ännu inte funnit svar på. Man gör fortfarande nya upptäckter och man slutförde alldeles nyligen en omfattande kartläggning av människans genom, arvsmassa. Studier av människans arvsanlag har t. ex. påvisat att vissa sjukdomar kan vara ärftliga. Vid studier av människans DNA används ofta så kallade genetiska markörer för att mäta olika typer av genetisk variation. Dessa markörer studeras sedan när man genotypar sitt DNAmaterial, dvs. man läser av markörerna för varje individ som ingår i studiepopulationen. Syftet med detta examensarbete är att förfina metodiken vid genotypning av stora DNAmaterial. Man vill på ett tidigt stadium i genotypningen kunna upptäcka om det finns några markörer som är kopplade till varandra. Starkt kopplade markörer ökar inte informationsvärdet och genom att mäta kopplingsgraden mellan par av genetiska markörer kan man överväga, om beroendet är starkt, att bortse från en av markörerna i den fortsatta genotypningen. Detta sparar både tid och pengar vid genotypning av stora DNA-material. I kapitel förklaras de genetiska begrepp och termer, som denna uppsats innefattar. De kopplingsmått som finns att tillgå vid beräkningar av beroende mellan olika typer av genetiska markörer i en DNA-sekvens introduceras i kapitel 3. Sedan följer i kapitel 4 en presentation av studiepopulationen och en beskrivning av valet av datamaterial, som beräkningarna sedan utfördes på. Det visade sig att det inte fanns något självklart uttryck för variansen till det mått vi valt att beräkna kopplingsgraden med. Detta gjorde att vi fick härleda en variansformel och testa dess egenskaper med simuleringsmetoder. Hur detta gjordes redovisas i kapitel 5. I kapitel 6 sammanfattas de resultat vi fick och i kapitel 7 diskuteras resultaten. I kapitel 9 finns en genetisk ordlista, som ger en lite mer detaljerad förklaring av de genetiska termer och begrepp, som är markerad med kursivstil i texten.

6 . Genetisk bakgrund.1. Grundläggande begrepp De mest grundläggande enheterna vid studier av arv hos människan är generna. Människan har ca gener som är uppdelade på 46 kromosomer, som i sin tur bildar 3 stycken kromosompar. Ett av kromosomparen bestämmer könet på individen. Dessa kromosomer kallas för X- och Y-kromosomer, könskromosomerna. Kvinnor har ett par av X-kromosomer medan män har en X-kromosom och en Y-kromosom. Övriga kromosomer kallas autosomer. I ett kromosompar är den ena kromosomen ett arv från fadern och den andra kromosomen ett arv från modern. Dessa kromosomer är lika till form och storlek, samt nästan identiska i genetisk komposition. Man säger att dessa kromosomer är homologa. Människans kroppsceller har alltså dubbel uppsättning av kromosomer, en från varje förälder. Sådana celler eller individer kallas för diploider. De minsta byggstenarna i en kromosom är basparen, som består av de fyra kvävebaserna adenin (A), cytosin (C), guanin (G) och tymin (T). Adenin och tymin binder kemiskt med varandra och cytosin binder kemiskt med guanin. Kvävebaserna bildar tillsammans med fosfat- och sockergrupper nukleotider. Gener är sammansatta sektioner av nukleotider, som bildar en lång molekyl kallad deoxyribonukleinsyra, DNA. DNA-molekylen har formen av en dubbelspiral, en s.k. dubbel helix. (Figur 1). Figur 1: Schematisk bild över kromosomens byggstenar och utseende. [15] 3

7 En individs DNA-sekvens är till 99.9 % identisk med en annan individs DNA-sekvens. Cirka 80 % av de 0.1 % DNA, som skiljer sig åt mellan individer, är så kallade Single Nucleotide Polymorphisms, SNP. [16] En SNP är en genetisk variation som förekommer i en individs DNA-sekvens. Det är en enkel bassubstitution av en nukleotid med en annan, t.ex. att en nukleotid med basen A har ersatt en av de andra nukleotiderna C, G eller T. [19] Ett exempel på en SNP är om en individ har DNA-sekvensen GAACCT i en av kromosomerna i ett homologt kromosompar och DNA-sekvensen GAGCCT i den andra kromosomen, dvs. variationen i den tredje positionen utgörs av baserna A och G. Man säger att polymorfismen är A/G (Figur ). Det speciella genetiska mönstret som ses i en individs DNA kallas för genotyp och i exemplet i figur är A/G en av tre möjliga genotyper för just denna polymorfi, som en individ kan ha i populationen. Det två andra genotyperna en individ kan ha i exemplet nedan är A/A eller G/G. [16] Figur : En Single Nucleotide Polymorphism, SNP [15] Man säger att en individ är heterozygot för en SNP när kvävebaserna är olika, t.ex. A/G, och homozygot om det är två likadana kvävebaser, t.ex. A/A. För att få ett korrekt resultat vid bestämning av SNP är det viktigt att man läser av basparen i kromosomerna från samma håll, dvs. att man väljer en sida av den kemiska bindningen mellan basparen i DNA-molekylen och läser av dessa baspar. I exemplet ovan blir en heterozygot individ T/C om man läser av basparen på den motsatta sidan av den kemiska bindningen. För att det ska vara en SNP måste den minst förekommande basen i en genotyp förekomma med en frekvens större än 1 % i den allmänna populationen på kromosomnivå. [16] Med kromosomnivå menas att man tittar på alla kromosomer i populationen, dvs. två gånger antalet individer i populationen. Om frekvensen för den minst förekommande basen i en genotyp är mindre än 1 % kallas inte DNA-variationen för SNP utan istället för mutation. Människans DNA producerar proteiner som har olika funktioner i våra celler. Det är basparens inbördes ordning i en DNA-sekvens som bestämmer vilken typ av protein som ska bildas. Dock är det endast ca 3-5 % av en individs DNA, som kodar för produktionen av 4

8 protein. Resten sägs hittills bara vara tom kod. De flesta SNP:ar hittas just i dessa avsnitt av tom kod. SNP:ar som finns med i ett avsnitt som kodar för protein eller som styr uttrycket av genen är av stort intresse, eftersom det kan bidra till alternering av biologiska funktioner hos proteinet eller leda till att förändra mängden protein som bildas. En eller flera alternativa former av en gensekvens vid ett specifikt kromosomalt locus kallas för en allel. Med locus (pl. loci) menas en unik kromosomal plats som definierar positionen för en enskild gen eller en DNA-sekvens eller ett baspar. Man har alltid två alleler vid ett s.k. autosomalt locus, dvs. i våra kroppsceller, en från modern och en från fadern. Dessa alleler kan vara lika eller olika, samt ha olika typer av nedärvningsmönster som t.ex. dominanta eller recessiva alleler. Om egenskapen har dominant nedärvning som i ögonfärg, är det den dominanta allelen som bestämmer. Till exempel om en person ärver en allel för bruna ögon från en förälder och en allel för blåa ögon från den andra föräldern kommer det nästan alltid resultera i att personen får bruna ögon, eftersom den allel, som ger brun ögonfärg är dominant gentemot blå ögonfärg. För att en recessiv allel skall slå igenom måste det finnas två recessiva alleler och ingen dominant allel vid ett och samma locus. [13].1.1. Rekombination Det är endast vid celldelning som kromosomerna blir synliga för oss. Det är då de långa DNA- molekylerna rullar ihop sig och får en kryssliknande form, som då kan ses med hjälp av ett mikroskop. Det finns två typer av celldelning, mitosis och meiosis. Mitosis sker i våra vanliga celler, t ex. vid tillväxt, medan meiosis bildar könsceller, dvs. ägg hos kvinnan och spermier hos mannen. [6] Könscellerna innehåller inga homologa kromosompar utan endast en uppsättning av kromosomer, dvs. 3 stycken. Celler som endast har en uppsättning av kromosomer kallas för haploider. Vid befruktningen då ägg och spermie förenas bildas en diploid cell med varsin uppsättning kromosomer från modern och från fadern. Kvinnor bildar könsceller endast en gång i livet och det är i fosterstadiet. Då bildas cirka ägg. För männen börjar produktionen av spermier i puberteten och dessa nybildas sedan regelbundet under hela livet. Figur 3 visar en bild av de olika faserna i meiosis. Figur 3: Illustration över hur 4 könsceller bildas när en enkel diploid föräldrarcell delar sig och bildar fyra haploida dotterceller. [15] 5

9 Under profas 1 i meiosis kan det ske något som kallas för rekombination. Det är då par av homologa kromosomer kommer i kontakt med varandra och utbyter segment. Varje kromosom består av två så kallade syster-kromatider, som är exakt identiska med varandra. Dessa förenar sig vid celldelning och hålls ihop av en punkt som kallas för centromer. Bara två av de fyra kromatiderna är involverade i rekombinationen. Processen kallas också överkorsning eller crossover. Om överkorsning sker mellan två loci på homologa kromatider kommer två kromatider att skapas som är rekombinanta. Följaktligen genererar en sådan crossover 50 % rekombinanta kromatider och 50 % icke-rekombinanta kromatider s.k. föräldrartyper. Sannolikheten att en överkorsning sker mellan två närliggande loci är mindre än om avståndet är stort mellan dem. Därför kommer rekombination sällan att separera loci som ligger väldigt nära varandra på en kromosom. Detta leder till att set av alleler inom begränsade kromosomala segment tenderar att bli överförda som block genom generationer. Ett sådant block kallas för haplotyp. [6] Låt oss antaga att vi har en individ som är heterozygot för två loci som ligger på samma kromosom, t.ex. a 1 A 1 b B, och att allelerna a 1 och b för denna individ kommer från en förälder och att A 1 och B kommer från den andra föräldern. Denna individs barn som ärver en av föräldrarkombinationerna a 1 b eller A 1 B sägs vara icke-rekombinanta, dvs. de ärver en hel haplotyp. Däremot barn som ärver a 1 B eller b A 1 sägs vara rekombinanta, dvs. haplotypen bryts upp. Proportionen barn vilka är rekombinanta är rekombinationsandelen θ mellan de två loci 1 och. [6] Figur 3: Visar ett schema över en kromosom som duplicerar sig under meiosis och vars kromatider utbyter DNA-segment med varandra, en så kallad överkorsning. Kromosomalsegment inom begränsade områden är opåverkade av rekombination och behåller därför sin struktur. Detta innebär att DNA-variationer, som t.ex. SNP:ar, inom segmentet nedärves i ett haplotypblock. Färska undersökningar har visat att människans genom (arvsmassa) kan delas upp i haplotypblock med en begränsad diversitet, dvs. de typer av 6

10 haplotypblock, som man kan rekonstruera med hjälp av DNA-markörer, som t.ex. SNP:ar, i människans genom är relativt få. I fall då man ej kan påvisa att enskilda polymorfier påverkar en egenskap kan analys av haplotyper användas. Endast ett begränsat antal SNP:ar behövs för att skilja på olika haplotyper vilket gör att det inte är nödvändigt att genotypa samtliga polymorfier inom ett haplotypblock. Förhoppningen är att genetiska studier av t.ex. komplexa sjukdomar och egenskaper kommer att förenklas genom analys av haplotyper. Detta förutsätter dock att DNA-variationer som påverkar dessa egenskaper är vanliga och finns i relativt hög frekvens i populationen. Mutationer som uppkommit naturligt i en individ eller på grund av strålning eller virus kan ge upphov till DNA-variationer, men dessa uppträder oftast i enstaka individer eller familjer och räknas inte som vanliga DNA-variationer... Genotyper och haplotyper I tabell 1 nedan visas ett exempel med de tre möjliga genotyperna för ett par av SNP:ar och deras frekvenser n ij i stickprovet, där i, j = 1,, 3. Genotyperna är C/C, C/T och T/T för SNP 1 och A/A, A/G och G/G för SNP. Haplotyperna i detta exempel ges i tabell nedan. Tabell 1. Genotypsfrekvenser för ett par av SNP:ar SNP 1 SNP C/C C/T T/T radsumma A/A n 11 n 1 n 13 n 1. A/G n 1 n n 3 n. G/G n 31 n 3 n 33 n 3. kolonnsumma n.1 n. n.3 n.. När man har två SNP:ar som båda är homozygoter blir haplotypbestämningen enkel. I tabell 1 ovan finns det n 11 stycken personer vars SNP 1 är C/C och SNP är A/A. Dessa kan vi kombinera på två sätt men de båda sätten ger samma haplotypresultat, CA. När vi sedan ska räkna fram haplotypfrekvensen för CA får vi multiplicera n 11 med två. Låt oss nu titta på de personer, n 1 och n 1, som har SNP-kombinationer med en homozygot SNP och en heterozygot SNP. De personer vars SNP 1 är C/C och SNP är A/G har haplotypkombinationerna CA och CG och de personer vars SNP 1 är C/T och SNP är A/A har haplotypkombinationerna CA och TA. Här ser vi att haplotypen CA förekommer i de båda fallen, så n 1 och n 1 ska även räknas med i haplotypfrekvensen för CA. Haplotypsbestämningen av n, SNP 1 C/T och SNP A/G, är ej entydig. Förklaringen är att vi här har två SNP:ar som båda är heterozygoter. I ett laboratorium kan man inte avgöra från vilken förälder nukleotiderna kommer från, vilket resulterar i att vi får olika möjliga haplotyper, dvs. CA och TG, eller TA och CG. Oftast är en av haplotypvarianterna mer vanlig än den andra och förekommer med en större sannolikhet i populationen. För att kunna bestämma vilken av haplotypvarianterna som är mer vanlig tas EM-algoritmen till hjälp. EM-algoritmen är en iterativ metod som ger en maximum likelihood-skattning (ML) av haplotypfrekvenserna i en multinomial population, förutsatt att man inte väljer partner efter haplotyper. [9] 7

11 Låt oss säga att det är haplotyperna 1 och 4, se tabell, som är mest vanliga i DNA-materialet och att de förekommer tillsammans i populationen med en sannolikhet Vi ska då addera 0.97*n till Haplotyp 1 och Haplotyp 4, samt 0.03* n till Haplotyp och Haplotyp 3. Tabell. Haplotyper Haplotyp 1: C A = *n 11 + n 1 + n *n = a Haplotyp : T A = n 1 + *n 13 + n *n = b Haplotyp 3: C G = n 1 +*n 31 + n *n = c Haplotyp 4: T G = *n 33 + n 3 + n *n = d Nu är haplotypbestämningarna fullständiga. Tabell över haplotyperna och deras frekvenser kan skrivas om till en korstabell. Tabell 3 visar de absoluta haplotypfrekvenserna för ett stickprov. Tabell 3. Korstabell för de absoluta haplotypfrekvenserna för ett stickprov SNP 1 SNP C T A a b G c d Tabell 4 visar de relativa haplotypfrekvenserna för stickprovet och tabell 5 visar de motsvarande haplotypfrekvenserna för populationen. Tabell 4. Korstabell för de relativa haplotypfrekvenserna för ett stickprov SNP 1 SNP C T summa A pr a pr b pr a + pr b G pr c pr d pr c + pr d summa pr a + pr c pr b + pr d 1 Tabell 5. Korstabell för de relativa haplotypfrekvenserna i populationen SNP 1 SNP C T summa A p a p b p a + p b G p c p d p c + p d summa p a + p c p b + p d 1 8

12 3. Linkage Disequilibrium 3.1. Vad menas med Linkage Disequilibrium? Den kopplingsgrad, som nämndes i introduktionen och som mäter beroendet mellan par av genetiska markörer kallas för Linkage Disequilibrium*. Definitionen av Linkage Disequilibrium (LD) eller allelic association som det också kallas, är när enskilda alleler vid två distinkta loci förekommer mer frekvent i könscellerna än förväntat under hypotes om oberoende, dvs. linkage equilibrium. Detta förutsätter att man känner till allelfrekvenserna i populationen mellan de aktuella loci, samt rekombinationsandelen θ. [13] LD hänvisar till ett icke-oberoende förhållandet mellan alleler vid olika positioner. Antag till exempel att allelen A vid locus 1 och allelen B vid locus har frekvenserna π A respektive π B i populationen. Om de två loci är oberoende av varandra förväntas allelfrekvensen för AB-haplotypen vara π A π B. Visar det sig att allelfrekvensen i populationen för ABhaplotypen antingen är lägre eller högre än π A π B, vilket i det senare fallet indikerar att vissa alleler tenderar att bli observerade tillsammans, så är de två loci i LD med varandra. [1] När man studerar närliggande SNP:ar finns det ofta en grad av LD, dvs. att en persons värde på SNP 1 kan predicera personens värdet på SNP. En förklaring till detta kan vara att SNP 1 och SNP ingår i samma haplotypblock. Om man vet att SNP:arna står i hög LD med varandra kan man välja att endast genotypa en av dem. Det sparar både tid och pengar vid genotypning av stora DNA-material. 3.. Olika mått på graden av LD Ett locus med två alleler kallas för ett di-allelt locus, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. För ett par av di-allela loci, 1 och, mäter LD-statistikan D skillnader mellan två kvantiteter: (1) Sannolikheten för att en allel från locus 1, (A1), och en allel från locus, (B), förekommer tillsammans på samma kromosom. () Den förväntade förekomsten av A1 och B tillsammans under linkage equilibrium. Det uttryck som vi här betecknar p 11 är proportionen av kromosomer på vilka allelerna A1 och B förekommer tillsammans i en population. Under linkage equilibrium är detta lika med produkten av allelfrekvenserna av A1 och B i populationen, dvs. differensen blir (3.1) D = p11 p1q1 * equilibrium = jämviktsläge 9

13 Tabell 6. Relativa allelfrekvenserna för loci A och B A B Summa A1 p 11 p 1 -p 11 p 1 B1 q 1 -p 11 1-p 1 -q 1 +p 11 p Summa q 1 q 1 Om D skiljer sig signifikant ifrån 0, så säger man att LD troligtvis existerar. Graden av LD mellan två loci är beroende av både rekombinationsandelen θ och tiden t i generationer, D ( ) t t = D 0 1 θ. Detta leder till att D tenderar att minska när de två loci kommer längre ifrån varandra och med tiden genom rekombination. D ger en enkel indikation om frekvensen av rekombination, samt om det fysiska avståndet mellan två loci. D kan skalas om till D =D/D max, där D max = min( p q, p q 1 1). I många jämförbara analyser där man har mätt LD mellan två loci har det visats sig att i nästan alla fall har LD-måttet D varit att föredra när man beräknar det fysiska avståndet mellan SNP:ar eller markörer. Det beror till största delen på att andra mått, som till exempel D, är beroende av allelfrekvenserna. En annan vanlig omskalning av D är R, som fås genom att dividera uttrycket för D med p p q. ( ) 1 1q (3.) R = p 11 1 p q p p q q där 1 R 1 Vid insättning av de observerade haplotypfrekvenserna fås ^ R. ^ R har formen χ -statistikan med 1 frihetsgrad kan åstadkommas från en *-tabell av de absoluta χ N, där haplotypfrekvenserna, ( a, b, c, d ) (se tabell 3). N är här det totala antalet haplotyper i stickprovet. Detta gäller under förutsättning att loci A och B är oberoende av varandra, dvs. under hypotesen att p 11 = p1q1. Det handlar alltså om χ -statistikan vid ett oberoendetest. [11] LD-måtten R och R har några fördelar jämfört med D. För små stickprovsstorlekar och för låga allelfrekvenser överskattas D, medan R uppvisar mer pålitliga stickprovsegenskaper. För ett par av SNP:ar måste det definitionsmässigt minst finnas två haplotyper med en frekvens > 0. D kommer att vara lika med 1.0 när en eller två haplotyper saknas i stickprovet. Fördelen med R är att R är lika med 1.0 när det bara är två haplotyper som saknas av de fyra möjliga. När ingen rekombination har skett mellan två markörer kommer D att vara lika med 1.0, förutsatt att inte det förekommit någon mutation eller fel vid genotypningen. Detta gäller ej för R, som är beroende av allelfrekvenserna för de två markörerna. Detta medför att man använder sig av D vid modellering av graden av rekombination och R och R vid modellering av associationsstyrkan. En annan viktig egenskap hos R vid associationsstudier är när man ska designa en studie för att hitta association mellan en specifik SNP A och en sjukdom och samtidigt uppnå en given styrka i studien. Om man antar att man kommer att mäta en SNP B som en markör med en viss grad av LD, mätt med R, till SNP A så behöver man öka antalet individer i studien med faktorn 1 R för att få rätt styrka i testen. Detta enkla förhållande mellan styrkan för två SNP:ar föreligger inte om man använder D eller D som LD-mått. [8] Ett aktuellt ämne som är av stort intresse är omfattningen av och fördelningen för LD i människan. LD spelar en fundamental roll vid kartläggningen av gener, både som ett verktyg 10

14 för en noggrannare kartläggning av komplexa sjukdomar och i den planerade vidsträckta associationsstudien av mänskliga gener. LD är också av intresse för vad den kan avslöja om människans historia och människans ursprung, eftersom fördelningen av LD i huvudsak bestäms av populationens historia. [1] Eftersom vi varken är intresserade av att beräkna det fysiska avståndet mellan SNP:arna eller rekombinationsandelen har vi valt att använda LD-måttet R i våra beräkningar av LD. 11

15 4. Studiepopulation och datamaterial 4.1. Genotypning och studiepopulation Vid enheten för molekylär medicin vid institutionen för medicinska vetenskaper i Uppsala bedrivs genotypning med flera olika metoder för ett antal tillämpningsområden. Som exempel kan nämnas farmakogenomik, där kandidatgener som reglerar svar på läkemedelsbehandling studeras. Vid genotypning har man möjlighet att studera stora patientmaterial av DNA. Tillvägagångssättet är att man väljer ut ett kromosomalt område eller en eller flera gener man vill studera och sätter så kallade marker, genetiska markörer, vid de SNP:ar man är intresserade av. Sedan genotypas dessa för varje person som är med i studien, dvs. man läser av SNP:arna vid markörerna för varje person. Det material som legat till grunden för vårt arbete är ULSAM, Uppsala Longitudinal Study of Adult Men. [0] Detta är en pågående studie av nästan alla män som är födda mellan 190 och 194 och som bodde i Uppsala kommun Dessa män blev undersökta vid 50, 60, 70 och 77 års ålder. Man har fokuserat sig på att identifiera faktorer som tros ligga bakom kardiovaskulära och metabola sjukdomar, som t. ex. hjärtinfarkt och diabetes. [7] Eftersom det nästan är alla män som är födda mellan dessa år är det ett populationsbaserat material. Det är totalt 3 män som ingår ULSAM-projektet, men det DNA-material som vi har haft tillgång till omfattar 105 män, som var med vid 70-årsundersökningen och för vilka DNA finns sparat. 4.. Datamaterial DNA-materialet från genotypningen består av 5 st gener med 10, 14, 8, 6 samt 1 SNP:ar. Vi är endast intresserade av att beräkna LD för par av SNP:ar inom gener. Med hjälp av dataprogrammet Haplotyp Reconstructor, framtaget för att beräkna haplotyper, valdes den gen, som när ofullständiga genotypdata tagits bort gav störst stickprovsstorlek. Denna gen har 5 SNP:ar, som är numrerade, 3, 4, 8 och 9, samt en stickprovsstorlek på 95 personer. Detta ger oss 10 st LD-mått att analysera. Nästa steg var att haplotypbestämma materialet med de 5 SNP:arna. Resultatet blev följande: Tabell 7. Estimerade haplotypsdata för de 10 paren av SNP:ar SNP nr a b c d N

16 Här motsvarar a, b, c och d de fyra möjliga haplotyperna i stickprovet, jämför med tabell 3. Beräkningarna av LD sker på kromosomnivå, så stickprovsstorleken ökar till 1904, eftersom människan är en diploid organism. När man genotypar stora DNA-material skulle det vara optimalt om man på ett tidigt stadium, t.ex. efter ca 50 genotypningar, kunde avgöra om kopplingsgraden mellan SNP:ar är så stor att man kan utesluta någon SNP i den fortsatta genotypningen. Detta har gjort att vi har tagit 3 st mindre stickprov från det ursprungliga stickprovet på 95 personer. De 50, 100 respektive 150 första personerna från det ursprungliga stickprovet utgör dessa mindre stickprov. Tanken är att vi ska studera kopplingsmåtten i de mindre stickproven och se om de resultat vi får stämmer överens med resultatet i det stora stickprovet. Resultaten av haplotypbestämningarna för de mindre stickprovsstorlekarna finns under bilaga 1. 13

17 5. Metoder 5.1. Programvara I våra beräkningar använde vi oss av SAS [] version 8., som är ett statistiskt mjukvaruprogram för datorer. Vi hade också användning av ett matematiskt formelberäkningsprogram, Maple [1] version Omskrivning av R Om man tittar på tabellerna 5 och 6 ser man att de beskriver samma sak. Detta ger oss följande samband för allelfrekvenserna: (5.1) p a p 11 = p a p 1 = p a + p b p = p c + p d q 1 = p a + p c q = p b + p d p + p + p + b c d = 1 Med hjälp av detta kan vi nu skriva om uttrycket för R. (5.) D = p11 p1q1 = = p p + p )( p + p ) = a ( a b a c = p ( p + p p + p p + p p ) = a a a c = pa pa pa pc pb pa pb pc = p ( 1 p p p ) p p = = a a c b b c = p a p d p b b p a c b c Detta ger oss slutligen följande formel för R, (5.3) R = D p p q q = p 11 p q 1 1 p p q q = ( p + p )( p a b c d a c b d p a p d p b + p )( p p c + p )( p + p ) 14

18 Definition 5.1. Låt a, b, c och d vara de absoluta frekvenserna av de fyra haplotyperna i stickprovet och p a, pb, pc, pd de motsvarande relativa haplotypfrekvenserna i populationen. Då definieras ρ enligt följande, (i) ρ = abs(r) där (ii) R = ( pa pd pb pc ) /(( pa + pb )( pa + pc )( pb + pd )( pc + pd )) 1/ Stickprovsestimatet av R uttryckt i de absoluta haplotypfrekvenserna, ^ R = ( ad bc) /(( a + b)( a + c)( b + d)( c + d)) och uttryckt i de relativa haplotypfrekvenserna, ^ R = ( pra prd prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd )) 1/ 1/ Att man tar absolutbeloppet av R är en praxis i genetiska sammanhang. Sats 5.1. Stickprovsestimatet av ρ är ^ ρ = r = abs( R ^ ). Variansen för R ^ är följande under hypotesen H 0 : Inget samband. (1) 1 3 ( pa pd ) ( pb pc ) 1 R + ( R + R ) ^ (( pa + pb )( pa + pc )( pb + pd )( pc + pd )) Var( R) = n 1/ 3 4 () σ = Var R) ( pa + pb pc pd ) R ( pa + pb )( pc + pd ) n ( ^ ( pa + pc pb ( p + p )( p a c b p d + p d ) ) (3) ^ 1 ( ) ( ) σ exp R R R Var r = Var R + R + Φ Φ R π σ σ σ där Φ(x) är fördelningsfunktion för standardnormalfördelningen N(0.1). Den variansformel som ges ovan (1) gäller för ρ -värden kring 0. Den förutsätter att inget samband råder mellan SNP:arna, vilket inte är tillräckligt för oss. Vi behöver ett allmänt uttryck för variansen av R ^. 15

19 5.3. Härledning av en allmän variansformel för ^ R Vi behöver alltså finna ett allmänt uttryckt för Var R), som sedan kan ge oss Var (r). Dessa beräkningar är inte helt triviala, eftersom uttrycket för R ^ är en kvot med fyra variabler. Ett sätt att få en approximation av Var ( R ^ ) är att Taylorutveckla uttrycket för R ^ kring väntevärdet E (R). Vi nöjer oss med att endast ta med de första partiella derivatorna för R ^, eftersom det ger oss ett linjärt uttryck, som i sin tur underlättar fortsatta beräkningar. Sedan används Gauss-approximationsformel för variansen. Vi använde oss av Maple för att göra ovanstående Taylorutveckling på R ^ (Bilaga ), men visar här i liten skala hur principen går till. För att gör det hela lite enklare väljer vi att tittar på R ^ :s täljare. (5.4) täljare = f ( pra, prb, prc, prd ) = pra prd prb prc De första partiella derivatorna med avseende på täljarens fyra variablerna ( pr a, prb, prc, prd ), som är de relativa frekvenserna i stickprovet, räknas fram. Dessa partiella derivator sätt sedan in i Taylorutvecklingen för täljaren. ( ^ Definition 5.. ( ) Om alla ordningar av derivator till f (x) existerar i punkten x = c, dvs. om f k ( c) för k = 0,1,,... så kallar vi existerar k = 0 f k ) ( c) ( x c) k! ( k = f ( c) + f '( c)( x c) + f ''( c) ( x c)! +... Taylorutvecklingen av f kring x = c. v Täljaren (5.4) Taylorutvecklades kring vektorn p = p, p, p, p ). ( a b c d f ( pra, prb, prc, prd ) f ( pra, prb, prc, prd ) = f ( pa, pb, pc, pd ) + ( pra pa ) Taylor pr a v f ( pra, prb, prc, prd ) + pr b v p ( pr b p f ( pra, prb, prc, prd ) pb ) + pr c f ( pra, prb, prc, prd ) ( prc pc ) + ( prd pd ) pr d v p v p 16

20 v Efter insättning av partiella derivator för vektorn p = ( pa, pb, pc, pd ) Taylorutvecklingen för täljaren får man följande. och förenklingar av (5.5) f ( pra, prb, prc, prd ) Taylor = pd pra pc prb pb prc + pa prd + pb pc pa pd Vi har nu fått en approximation av (5.4) via Taylorutvecklingen, som är matematiskt mycket lättare att handskas med. Frågan är nu bara hur bra denna approximation är? Låt oss jämföra vår approximation f ( pr, pr, pr, pr ) med f pr, pr, pr, pr ) i punkten a b c d Taylor ( a b c d ,,,. Dessa värden sätts in i uttrycket för täljaren, samt dess approximation och följande resultat fås. 868 f f , , , , , , 1904 = = Taylor Approximationen visar sig vara bra. Det motsvarande R-värdet är vilket ger ett lågt värde på r. Låt oss ta en annan punkt,,,, som ger ett högre r-värde Efter insättning i formler fås f, f, , , , , 1904 = = Taylor Även denna punkt ger en bra approximation. Det motsvarande R-värdet här är , vilket ger ett högt värde på r. Vi kan fortsätta våra beräkningar av variansen för approximationen av täljaren. Variansformeln för (5.5) ser ut på följande vis: (5.6) Var ( f Taylor ) = p Var( pr ) + p Var( pr ) + p Var( pr ) + p Var( pr ) + d a c b b c a d p d pccov( pra, prb ) pd pbcov( pra, prc ) + pd pacov( pra, prd pc pbcov( prb, prc ) pc pacov( prb, prd ) pb pacov( prc, prd ) ) De fyra variablerna är binomialfördelade, n pri Bin( n, pi ) och variansen för pr i är därmed pri ( 1 pri ). Eftersom summan av de fyra variablerna är n så kan kovariansen för två relativa n 17

21 pi p j frekvenser skrivas som Cov( pri, prj ) =,( i = a, b, c eller d ). Insättning av varianser n och kovarianser i (5.6) ger oss följande: (5.7) Var f ) ( Taylor pa ( 1 pa ) pb (1 pb ) pc (1 pc ) pd (1 pd ) = pd + pc + pb + pa n n n n + ( 4 pa pb pc pd pa pd pb pc ) n Om vi räknar fram variansen med formel (5.7) för det f Taylor som gav ett lågt r-värde får man Var ( f Taylor ) = som ger Std ( f Taylor ) = Detta kan jämföras med resultatet från en simuleringsmetod kallad bootstrap (se kap ), som ger Std ( f Bootstrap ) = Låt oss nu göra samma sak för det f Taylor som gav ett högt r-värde. Variansen som fås från (5.7) blir ( f Taylor ) = Std ( f Taylor ) = Detta ska jämföras med standardavvikelsen från bootstrapsimuleringen, Std ( ) = f Taylor Var och dess standardavvikelse. Man kan se att (5.7) skattar variansen bättre för höga r-värden och sämre får låga r-värden. Eftersom vi är intresserade av par av SNP:ar som ger hög LD kan vi godta denna approximation tillsvidare. På samma sätt genomfördes beräkningarna på kvoten för R ^. Som nämndes tidigare gjordes en Taylorutveckling av R ^ med hjälp av Maple och varians- och kovariansberäkningar gjordes numeriskt i SAS. Resultatet, se formel (5.8), blev en allmän variansformel för R som ger en bra approximation av variansen för höga r-värden, men sämre för låga r-värden. (5.8) Var RTaylor ) ( ^ a a b b c c d Var( prd ) C acbcov( pra, prb ) + CaCcCov( pra, prc ) + CaCd Cov( pra, prd C bcccov( prb, prc ) + CbCd Cov( prb, prd ) + CcCd Cov( prc, prd = C Var( pr ) + C Var( pr ) + C Var( pr ) + C + + ) ) Här är C a, Cb, Cb och C d konstanter, se bilaga 3 för definitioner, och relativa haplotypfrekvenserna i stickprovet. pr, pr, pr, pr de a b c d (5.9) Var RTaylor ) ( ^ pa ( 1 pa ) pb (1 pb ) pc (1 pc ) pd (1 p = Ca + Cb + Cc + Cd n n n n pa pa pa pc pa pd pb pc CaCb CaCc C acd CbCc n n n n pb pd pc pd CbCd CcCd n n d ) 18

22 5.4. Simuleringsmetoder Bootstrap När man inte känner till fördelningen för en eller flera stokastiska variabler kan man med hjälp av simulering kontrollera sina data. Vi använde oss av en simuleringsmetod kallad bootstrap för att kontrollera hur bra approximationen av variansen (5.9) är. Bootstrapsimulering är en icke-parametrisk metod som är mycket användbar. Metoden går ut på att man från sitt stickprov drar data med återläggning och skapar ett så kallat bootstrap-sampel. Detta sampel har samma stickprovsstorlek som det ursprungliga stickprovet. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på det nya bootstrap-samplet precis som på det ursprungliga. Man gör denna procedur ett antal gånger beroende på vad man vill testa. Vi är intresserade av att approximera en varians, så vi skapade 1000 bootstrapsampel. Om man t. ex. ska approximera en låg precentil bör man minst ta tio gånger fler bootstrap-sampel än vad vi gjorde Standardavvikelsen för bootstrap-estimatorn Givet statistikan ( X X,..., ) standardavvikelsen för ^ θ som ^ θ, 1 X n definierad symmetriskt i X, X,..., X ~ 1 n F, skrivs ^,. (5.10) Std = σ F n, θ = σ ( F ) Den sista notationen visar att, givet stickprovsstorleken n och formen på statistikan θ (,,, ) är standardavvikelsen en funktion av den okända sannolikhetsfördelningen F. Bootstrap- ^ σ = evaluerat för F = F, estimatet av standardavvikelsen är helt enkelt ( ) ^ ^ (5.11) Std boot = σ F. ^ F är den icke-parametriska maximum likelihood-estimatorn av F Bootstrap-proceduren för att finna sampelfördelningen av ^ θ Vanligtvis kan inte funktionen σ ( F ) skrivas ned explicit. För att kunna klara beräkningar av ^ Std är det nödvändigt att använda sig av en Monte Carlo-algoritm. (1) Anpassa den icke-parametriska maximum likelihood-estimatorn av F, ^ 1 (5.1) F :mass på x i, i = 1,, n. n dvs. sannolikhetsmassan fördelas jämnt över observationerna. iid ^, så 19

23 () Drag ett bootstrap-sampel från ^ F, (5.13) X 1, X,..., X iid n ~ F ^ ^ och beräkna = θ ( X 1, X,..., X n ) θ. (3) Upprepa steg ett stort antal gånger, B, oberoende av varandra. Då fås följande ^ 1 ^ bootstrap-replikat θ, θ,..., θ ^ B och bootstrap-estimatet av standardavvikelsen blir 1/ ^ B (5.14) ^ b 1 ^ Std boot = θ θ. B 1 b= 1 ^ b 1 B ^ Det som är betecknat med en punkt betyder: θ = = θ. b 1 B Om man låter B så kommer (5.14) att bli exakt lika med (5.10). I praktiken är det begränsad datorkapacitet som avgör hur många bootstrap-sampel som kan genereras. ^ θ kan även användas för att t. ex. bestämma ett icke-parametriskt konfidensintervall för θ Jackknife Vi använde oss av ytterligare en simuleringsmetod kallad jackknife, som även den är en ickeparametrisk metod. Jackknife introducerades av Maurice Quenouille i slutet av 1940-talet och var den första datorbaserade metoden för att estimera bias på standardavvikelser. Inte förrän många år senare, 1979, skulle bootstrap-metoden introduceras. Jackknife-metoden går till så att man skapar n st nya stickprov med stickprovsstorleken n-1, så kallade jackknife-sampel, från sitt ursprungliga stickprov med stickprovstorlek n. Första steget är att utelämna den första observationen i stickprovet, vilket ger det första jackknifesamplet x (1). Steg två är att utelämna den andra observationen i stickprovet och då fås jackknife-samplet x (). Denna procedur görs n gånger och då har alla observationer blivit utelämnade varsin gång. Beräkningar av estimat, som t. ex. medelvärde och standardavvikelse, utförs på de nya samplen precis som på det ursprungliga stickprovet. Vår studiepopulation består av 95 personer, vilket ger oss 95 st jackknife-sampel. Det är nästan lika många sampel som bootstrap-metoden gav (1000 sampel). Skillnaden är att jackknife-metoden har en begränsning när det gäller antalet sampel. Antalet observationer bestämmer antalet jackknife-sampel, medans bootstrap-metoden kan teoretiskt sett ge oändligt många sampel. 0

24 Standardavvikelsen för jackknife-estimatorn Antag att vi har ett stickprov x = ( x1, x,..., xn ) och en estimator θ = s (x). Vi vill estimera standardavvikelsen för ^ θ. Jackknife riktar fokus på de stickprov som bortser från en observation varje gång: (5.15) = x, x,..., x, x,..., x ), x ( i) ( 1 i 1 i+ 1 n där i = 1,,, n. Här är x (i) ett så kallat jackknife-sampel. Det i:te jackknife-samplet består av ett data-set där den i:te observationen är borttagen. ^ Låt θ ( i ) = s (x (i) ) vara det i:te jackknife-replikatet av ^ θ. Jackknife-estimatorns standardavvikelse definieras då som 1/ (5.16) ^ n n 1 ^ ^ Std jack = ( θ ( i) θ (.) ), n i= 1 ^ n 1 ^ ) n i= 1 där θ (.) = θ ( i Jämförelser mellan bootstrap och jackknife ^ Vilken metod är bäst? Eftersom det endast krävs n st jackknife-stickprov för att beräkna ^ θ kan man tycka att jackknife-metoden är enklare om, låt oss säga, n är mindre än de 100 eller 00 replikat som dras enligt bootstrap-metoden. Genom att endast titta på de n stickproven jackknife-metoden ger, ser jackknife ut att ge en begränsad information om statistikan ^ θ, vilket i sin tur leder till att man kan tro att bootstrap är mer effektiv än jackknife. Det visar sig att jackknife-metoden kan ses som en approximation av bootstrap-metoden. Här är essensen bakom denna ide. Låt oss antaga att vi har en linjär statistika, dvs. en statistika som kan skrivas som ^ n 1 (5.17) θ = s( x) = µ + α( x i ), n där µ är en konstant och α ( ) är en funktion. Medelvärdet är det enklaste exemplet på en linjär statistika där µ = 0 och α ( x i ) = xi. För en sådan statistika visar det sig att jackknifeoch bootstrap-estimatet av standardavvikelsen nästan är detsamma bortsett en faktor, {( n 1) / n} 1/, som finns hos jackknife-estimatet. Detta är vad vi exakt fann för θ = x : i= 1 ^ _ Std Std jack boot n = ( x i= 1 i _ x) n _ ( ) = xi x 1 i= {( n 1) / n} 1/ 1/ 1

25 För icke-linjära statistikor går dock information förlorad när jackknife tillämpas. Jackknife gör en linjär approximation av bootstrap-estimatet, dvs. den ger samma resultat som bootstrap, förutom faktorn {( n 1) / n} 1/ ), för en viss form av linjär statistika (5.17) som approximerar ^ θ. Det visar sig att noggrannheten för jackknife-estimat är beroende av hur linjär ^ θ är. För klart icke-linjära funktioner kan jackknife-metoden vara ineffektiv, rent av dålig. Jackknife är även väldigt känslig för om datamängden inte är smooth, dvs. små förändringar i data kan ge stora förändringar i statistikan Bootstrap- och jackknife-simuleringarna De 1000 bootstrap-samplen skapades med hjälp av SAS. I varje bootstrap-sampel räknades r- värdet fram för varje SNP-kombination, dvs. för SNP i och SNP j, i j, erhölls 1000 r- värden. Bootstrap-estimatet av r ij för graden av LD mellan SNP i och j är medelvärdet av r- värdena från de 1000 bootstrap-samplen B *. 1 * b ij = r ij B b= 1 och standardavvikelsen för bootstrap-estimaten ges av r * b *. [ r r ] 1/ B * 1 Std boot ( rij ) = ij ij. B 1 b= 1 I vårt fall blev jackknife-simuleringen enkel, eftersom vi endast har fyra olika grupper av individer som har samma typ av haplotyper. För individer inom samma grupp är definitionen av jackknife-estimatet densamma, jämfört med normalfallet då varje individ har ett eget definierat jackknife-estimat. Detta är anledningen till att simuleringen blev enklare i vårt fall. Bokstäver a, b, c och d symboliserar de fyra möjliga haplotyperna och i och j står för SNPkombinationen, dvs. SNP i och SNP j där i j. Dessa togs bort på följande vis, Rij a Rij b Rij c Rij d = = = = ( a 1) d bc (( a 1) + b)(( a 1) + c)( b + d)( c + d) ad ( b 1) c ( a + ( b 1))( a + c)(( b 1) + d)( c + d) ad b( c 1) ( a + b)( a + ( c 1))( b + d)(( c 1) + d) a( d 1) bc ( a + b)( a + c)( b + ( d 1))( c + ( d 1))

26 Detta ger r = abs R ), r = abs R ), r = abs R ) och r = abs R ), som är ij a ( ija ij b ( ijb ij c ( ijc ij d ( ijd jackknife-estimaten för de fyra olika haplotyp-grupperna. Dessa r vägdes sedan ihop till r ijw arij + br cr dr a ij + b ij + c ijd =. ( a + b + c + d) Jackknife-estimatens standardavvikelse har följande form Std jack ( r ij ) n 1 n ( a( r r ) + b( r r ) + c( r r ) + d( r r ) ) = ija ijw ijb ijw ijc ijw ijd ij w 1/. 3

27 6. Resultat 6.1. De 10 LD-måtten och deras standardavvikelser enligt Gaussapproximationen I SAS utfördes numeriska beräkningar på det datamaterial som presenterades i kapitel 4, se tabell 7. För beräkningar av LD användes ρ, där ^ ρ = abs(r) och r = abs R) R = ( pra prd prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd )) ( ^ 1/ och för beräkningar av standardavvikelser användes (6.1) Std (r) = ^ Var( R) + R σ π 1 exp R σ R R + R Φ Φ σ σ 1/ där Var R) är den allmänna variansformeln som härleddes i kapitel 5.3 med hjälp av Gaussapproximationsformler, ( ^ Var R) ( ^ a a b b c c d Var( prd ) C acbcov( pra, prb ) + CaCcCov( pra, prc ) + CaCd Cov( pra, prd C bcccov( prb, prc ) + CbCd Cov( prb, prd ) + CcCd Cov( prc, prd C Var( pr ) + C Var( pr ) + C Var( pr ) + C + + ) ). Tabell 8 nedan visar resultatet för det stickprov där alla 95 personerna togs med. Tabell 8. SNP nr r Std(r) Tabell 9 visar resultaten för de tre mindre stickproven, där stickprovsstorlekarna är 50, 100 respektive 150 personer. Tabell 9. SNP nr r_ Std(r_50) r_ Std(r_100) r_ Std(r_150)

28 För att lättare kunna se skillnaderna mellan de 10 LD-måtten gjordes ett diagram över alla stickprovsstorlekar och LD-mått. Diagram 1: De fyra stickprovsstorlekarna och deras r-värden för de tio LD-måtten 1, 1,0 r 0,8 0,6 0,4 n = 95 n = 150 n = 100 n = 50 0, 0,0 SNP -3 SNP -4 SNP -8 SNP -9 SNP 3-4 SNP 3-8 SNP 3-9 SNP 4-8 SNP 4-9 SNP 8-9 De tio LD-måtten Diagram 1 visar den variation som förekommer mellan stickprovsstorlekarna. Diagram : Standardavvikelserna för Gauss-approximationen för de fyra stickprovsstorlekarna vs r-värdet 0,050 0,045 0,040 Std 0,035 0,030 0,05 0,00 0,015 0,010 0,005 0,000 0,00 0,0 0,40 0,60 0,80 1,00 1,0 r n =95 n = 150 n = 100 n = 50 Den framtagna Gauss-approximationen av standardavvikelsen för ij r visas för de fyra stickprovsstorlekarna i diagrammet ovan. Nästa steg är att bestämma vilken standardavvikelse som passar bäst till våra r-värden. 5

29 Resultat av bootstrap- och jackknife-simuleringarna Numeriska beräkningar utfördes i SAS på de 1000 bootstrap-samplen och följande resultat för stickprovet med 95 personer erhölls. Tabell 10: SNP nr r boot Std(r boot ) För de mindre stickproven, n = 50, 100 respektive 150, blev resultatet följande. Tabell 11: SNP nr r boot Std(r boot ) r boot Std(r boot ) r boot Std(r boot ) Diagram 3 visar skillnaderna mellan de fyra stickprovsstorlekarnas standardavvikelser. Diagram 3: Bootstrap-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet Std 0,10 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 0,00 0,00 0,0 0,40 0,60 0,80 1,00 1,0 r n=95 n=150 n=100 n=50 Som väntat är standardavvikelsen för den största stickprovsstorleken minst och kurvan är jämnare än för de mindre stickprovstorlekarna. Låt oss nu titta på resultaten av jackknife-simuleringarna. Numeriska beräkningar i SAS gav följande resultat för stickprovet med 95 personer, Tabell 1: SNP nr r jack Std(r jack )

30 För de mindre stickproven blev resultatet följande. Tabell 13: SNP nr r jack Std(r jack ) r jack Std(r jack ) r jack Std(r jack ) Om man jämför resultaten för jackknife-estimaten med resultaten från beräkningarna på våra ursprungliga stickprov ser man att dessa ger samma r-värdena, men olika standardavvikelser. Det är inte oväntat, eftersom de jackknife-sampel vi får vid simuleringen nästan är identiska med det ursprungliga stickprovet, till skillnad mot bootstrap-estimatet * r ij, som skiljer sig en aning från det r ij som fås från beräkningar på det ursprungliga stickprovet. Det som just nu är av intresse är standardavvikelserna och inte r-värdena. Diagram 4 visar hur jackknifestandardavvikelserna ser ut mellan de fyra stickprovsstorlekarna. 0,1 Diagram 4: Jackknife-standardavvikelserna för de fyra stickprovsstorlekarna vs r-värdet 0,10 Std 0,08 0,06 0,04 n=95 n=150 n=100 n=50 0,0 0,00 0,00 0,0 0,40 0,60 0,80 1,00 1,0 r Nu har vi fått fram två stycken standardavvikelser genom att använda två olika simuleringsmetoder. Dessa kan vi nu jämföra med varandra och med Gauss-approximationen av standardavvikelsen för r ij, se (6.1) Jämförelser mellan de tre olika standardavvikelserna Om man nu resonerar så att bootstrap ger det sanna värdet på standardavvikelsen för ij r, ser man att vår formel för standardavvikelsen, som i diagrammen nedan kallas för Gauss, skattar 7

31 standardavvikelsen dåligt för låga r-värden och bra för höga r-värden. Med höga r-värden menas r ij > Diagram 5 visar skillnaderna för den största stickprovsstorleken och diagram 6 visar skillnaderna för den minsta stickprovsstorleken. Diagram 5: De tre standardavvikelserna vs r-värdet (n = 95) 0,030 0,05 Std 0,00 0,015 0,010 Gauss Bootstrap Jackknife 0,005 0,000 0,00 0,0 0,40 0,60 0,80 1,00 1,0 r Skillnaderna mellan standardavvikelserna för de båda simuleringsmetoderna minskar när r närmar sig 1.0. Diagram 6: De tre standardavvikelserna vs r-värdet (n = 50) 0,1 0,10 0,08 Std 0,06 0,04 Gauss Bootstrap Jackknife 0,0 0,00 0,00 0,0 0,40 0,60 0,80 1,00 1,0 r För höga r-värden är skillnaderna mellan de tre standardavvikelserna i diagram 5 och diagram 6 i stort sett desamma. Detta är bra för oss, eftersom vi är intresserade av höga värden på r. Låt oss titta närmare på de tre högsta LD-måtten. De tre SNP:ar som ger de största LD-måtten är SNP:arna och 3, 3 och 4, samt 4 och 8. Nedan i tabell 14 är resultaten för dessa SNP:ar för stickprovsstorleken n = 95 sammanfattade. 8

32 FREQUENCY FREQUENCY r _34 MI DPOI NT r _34 MI DPOI NT FREQUENCY FREQUENCY r _48 MI DPOI NT r _48 MI DPOI NT Tabell 14: Resultaten för de tre par av SNP:ar som ger högst LD (n=95) SNP nr r r-bootstrap r-jackknife Std-Gauss Std-bootstrap Std-jackknife Vi är intresserade av att beräkna den nedre gränsen i ett 95 % konfidensintervall till våra estimerade r-värden. Vi har i kapitlet innan fått fram tre olika formler för standardavvikelsen till r ij. Vi ska nu bedöma vilken som är bäst lämpad för vårt problem. Med hjälp av bootstrap-simuleringen fick vi 1000 bootstrap-sampel för varje LD-mått inom varje stickprovsstorlek. För att få en uppfattning om hur bootstrap-sampelfördelningen ser ut för ett visst LD-mått kan man titta på histogrammet för r ij över de 1000 bootstrap-samplen. FREQUENCY r _3 MI DPOI NT Histogrammen som visas ovan är för följande LD-mått, SNP -3, SNP 3-4 och SNP 4-8 i ordning från vänster. Stickprovsstorleken, n = 50 personer, är densamma för alla histogrammen. Nedan visas histogrammen för samma LD-mått, men med stickprovsstorlek n = 100 personer. FREQUENCY r _3 MI DPOI NT Fyra av de sex histogrammen liknar en normalfördelning, så man skulle kunna beräkna de enkelsidiga 95 % konfidensintervallen med hjälp av normalfördelningskvantilen Alla bootstrap-sampelfördelningar liknar dock inte normalfördelningen, se t ex. histogrammen för r. Detta par av SNP:ar har mycket hög LD. Bootstrap-metoden ger för det största 3 9

33 stickprovet r 3 = och för de tre mindre stickproven r 3 = Beräkningar på de ursprungliga stickproven och jackknife-samplen ger samma resultat förutom för det största stickprovet då r 3 = För en sådan SNP-kombination vars r-värde ligger mycket nära eller antar 1.0, är fortsatta beräkningar av standardavvikelsen oftast ointressanta, eftersom det inte existerar någon variation om r ij = Därför utesluter vi inte normalfördelningskvantilen i våra fortsatta beräkningar av den nedre gränsen till det 95 % konfidensintervallet för r ij. Det skulle även vara önskvärt att använda jackknife-standardavvikelser vid beräkningarna av den nedre gränsen, eftersom den simuleringsmetoden är programmeringsmässigt lättare och effektivare än bootstrap-simuleringen. För att få en uppfattning om man kan använda sig av jackknife-standardavvikelsen och normalfördelningskvantilen 1.64 vid beräkning av den nedre gränsen, trots att bootstrap-sampelfördelningen för r ij inte alltid är normalfördelad. Vi jämför därvid resultatet vi får av våra beräkningar med den femte percentilen i motsvarande bootstrap-sampelfördelning. Tabellerna nedan visar dessa jämförelser för de tre minsta stickprovsstorlekarna. Det är ingen idé att göra detta för SNP -3 eftersom r 3 = 1. 0, dvs. det existerar inte någon variation. Tabell 15: SNP 3-4 Stickprovsstorlek Nedre gräns beräknad m.h.a jackknife-std och 1.64 Bootstrapfördelningens 5:e percentil Tabell 16: SNP 4-8 Stickprovsstorlek Nedre gräns beräknad m.h.a jackknife-std och 1.64 Bootstrapfördelningens 5:e percentil Av dessa resultat att döma kan man använda sig av jackknife-standardavvikelsen och normalfördelningenskvantilen 1.64 vid beräkningarna av den nedre gränsen för r ij, eftersom skillnaderna mellan den femte percentilen i bootstrap-fördelningen och den nedre gränsen är små. 6.. Vid vilket n kan man överväga att endast genotypa en SNP? Man vill gärna på ett tidigt stadium, t ex. efter att ha genotypat 30 personer, kunna finna par av SNP:ar som har höga r-värden, så man kan bortse från en av SNP:arna i den fortsatta genotypningen, om man finner det lämpligt. Via en enkel grafisk lösning till problemet får vi ett snabbt svar på den frågan. (Se diagram 8). Den nedre gräns för r ij som avgör när det är onödigt att fortsätta genotypa båda SNP:arna i ett par av SNP:ar kallar vi för d. För de par av SNP:ar vars nedre gräns överstiger eller är lika 30

34 med d, dvs. r ij 1.64* Std ( r ) d, kan man bortse från en av de två SNP:arna i jack ij fortsättningen. Som vi har visat ovan kan den nedre gränsen i det 95 % konfidensintervallet för r ij beräknas med hjälp av rij 1.64* Std jack ( rij ). Vi har satt d = 0.80, vilket ger oss följande. r ij 1.64* Std ( r ) = 0.80 jack ij Vårt uttryck för jackknife-standardavvikelsen kan skrivas om till Std ( r ) k n, där k är jack ij = en konstant och n antalet personer i studien. Vi har alltså en funktion för jackknifestandardavvikelsen som beror av n. En regressionsanalys gjordes för att skatta konstanten k. (Se bilaga 4.) En brytpunkt c för r ij kan räknas fram med avseende på d = Om r ij antar ett högre värde eller är lika med denna brytpunkt kan man överväga att bortse från en SNP i det paret vid den fortsatta genotypningen. r ij * k n = c En graf över c-värdena gjordes med data hämtade för de fyra stickprovsstorlekarna n = 50, 100, 150 respektive 95 för ett par av SNP:ar som gav ett högt LD-mått ( r 48 = ) och för ett par av SNP:ar som gav ett lågt LD-mått ( r 34 = ). Dessa jämfördes sedan för att se om hög eller låg LD gav någon märkbar skillnad på c-värdena. Resultatet visas i diagrammet nedan. 1,00 Diagram 7: Graf över brytpunkten c för hög och låg LD vs antalet personer 0,95 r 0,90 hög LD låg LD 0,85 0,80 0, antal personer Här kan man se att det inte finns någon avgörande skillnad för c mellan hög och låg LD. För att få en bättre graf för c genererades 1000 standardavvikelser i SAS (se bilaga 5) med hjälp av formeln Std ( r ) k n. Detta resulterade i en jämnare graf över c. Se diagram 8. jack ij = 31

35 Diagram 8: Förfinad graf för brytpunkten c vs antalet personer r 0,93 0,9 0,91 0,90 0,89 0,88 0,87 0,86 0,85 0,84 0, antal personer Detta diagram ger snabbt och enkelt ett svar på om man kan överväga att bortse från en SNP i ett par av SNP:ar i den fortsatta genotypningen. Det är bara att läsa av kurvan för c för ett givet n och se om r-värdena ligger över eller under kurvan. Ligger r-värdet över eller exakt på kurvan för c kan man, om man finner det lämpligt, bortse från en av SNP:arna vid den fortsatta genotypningen. 3

36 7. Diskussion Som nämndes tidigare i kapitel kan jackknife-metoden vara mindre lämplig att tillämpa på icke-linjära statistikor. Det kopplingsmått vi har valt att beräkna LD med är en kvot med fyra variabler. Trots detta visar det sig att jackknife-metoden ger minst lika bra skattning av standardavvikelsen som bootstrap-metoden. Kanske är det så att uttrycket för R ^ är någorlunda linjärt i de områden vi är intresserade av, dvs. värden nära 1 och 1. Anledningen till att vi har valt att använda jackknife-standardavvikelsen i våra beräkningar av de enkelsidiga 95 % konfidensintervallen är att jackknife-metoden, i vårt fall, ger så pass enkla beräkningar, vilket medför att den är programmeringsmässigt effektivare än bootstrapmetoden. Diagram 8 i slutet av kapitel 6. bör användas med en viss försiktighet. De konfidensintervall vi beräknar är till 95 % säkra, så det finns 5 % risk att få med par av SNP:ar som inte har tillräcklig hög LD om man testar ett stort antal par av SNP:ar. Det finns även en risk att styrkan i testen sänks om man testar sina par av SNP:ar vid för många olika stickprovsstorlekar. Man bör använda sig av sekventiella test om man vill testa vid olika stickprovsstorlekar för att få korrekt resultat. Ett problem som vi stötte på under arbetets gång var att det inte finns någon given variansformel till LD-måttet R ^. Den variansformel som är angiven på sidan 15, sats 5.1, gäller vid oberoende, men ordet oberoende betyder inte här det vi i vanliga fall menar med oberoende, ty då skulle R vara lika med 0 och inte förekomma i variansuttryckt för R ^. Här förekommer ett annat oberoendebegrepp, där man i stället för oberoende borde välja att använda sig av ett lämpligare uttryck som inget samband. Om R ^ har observerats till 0 säger man att inget samband råder, men det behöver inte betyda att R = 0 dvs. att vi har stokastiskt oberoende. Slutsatsen av detta blir att vi kan säga att variansformeln gäller för små värden på ρ. Vi kunde inte nöja oss med detta utan behövde en allmän variansformel till R ^, som kunde ge oss en god skattning av variansen för höga värden på ρ. I kapitel 5.3 härleder vi en variansformel till R ^ med hjälp av Taylorutveckling av R ^ och Gauss-approximationsformel för variansen. Denna variansformel (5.9) visar sig vara bäst lämpad för höga ρ, som i vårt fall var önskvärt. I detta examensarbete har vi studerat LD mellan par av SNP:ar. En fortsättning på detta arbete skulle vara att studera LD mellan ett större antal SNP:ar, t ex. tre och tre eller fyra och fyra. Antalet haplotyper ökar då fler SNP:ar tillkommer, t. ex. studerar man SNP:ar tre och tre ger det 8 stycken möjliga haplotyper. Detta ger mer avancerade beräkningar än de som har visats i detta examensarbete. Det kan i vissa fall hända att en haplotyp inte förekommer i en population för att den är så ovanlig. Så är även fallet i vår studiepopulation. I kapitel 4, tabell 7, kan man se att för tre par av SNP:ar är en av de fyra möjliga haplotyperna inte observerad i studiepopulationen. 33

37 8. Referenser [1] Blume, Lawrence, David Easley, and Maureen O Hara, Market statistics and technical analysis: the role of volume, Journal of Finance, XLIX, (1994), No.1, p [] Efron Bradley, The Jackknife, the Bootstrap and Other Resampling Plans, Society for Industrial and Applied Mathematics: Bristol, (1985) [3] Efron Bradley, Tibshirani Robert J., An Introduction to the Bootstrap, Chapman & Hall: New York, (1993) [4] Griffiths Anthony J. F., Lewontin Richard C., Miller Jeffrey H. & Suzuki David T., An Introduction To Genetic Analysis, third edition, W. H. Freeman and Company: New York, (1986) [5] Kendall & Stuart, The Advanced Theory of Statistics, fourth edition, Vol, Charles Griffin & Company Limited: London, (1979), p [6] Read Andrew P. & Strachan Tom, (1999), Human Molecular Genetics, second edition. [7] Zethelius Björn, Proinsulin and Insulin Sensitivity as Predictors of Type Diabetes Mellitus and Coronary Heart Disease, Uppsala Universitet: Uppsala, (003) [8] Darvasi Ariel, Kokoris Mark, Kuypers Jane & Shifman Sagiv, Linkage Disequilibrium Patterns of the Human Genome Across Populations, Human Molecular Genetics 003, Vol. 1, No 7. [9] Dawson Elisabeth & Abecasis Gonçalo R. et al., A First-Generation Linkage Disequilibrium Map of Human Chromosome, Nature 00, Vol 418, No 6897, p [10] Excoffier Laurent & Slatkin Montgomery, Maximum-Likelihood Estimation of Molecular Haplotype Frequencies in a Diploid Population, Mol. Biol. Evol. 1995, 1(5): [11] Jorde L.B., Linkage Disequilibrium and the Search for Complex Disease Genes, Genome Research 000, Vol 10, Issue 10. [1] Pritchard Jonathan K. & Przeworski Molly, Linkage Disequilibrium in Humans: Models and Data, American Journal of Human Genetics 001, 69:1-14. [13] [14] [15] [16]

38 [17] [18] [19] [0] [1] []

39 9. Genetisk ordlista adenin: Se bas. allel: En av flera olika former av en gen. Varje person ärver två alleler till varje gen, en allel från varje förälder. Dessa alleler kan vara likadana eller skilja sig från varandra. [1] association: I genetiska studier där man studerar härkomst hos människan och i sambandsstudier förekommer ofta jämförelser av allelfrekvenser för ett marker-locus mellan en sjukdomspopulation och en kontrollpopulation. När statistiskt signifikanta skillnader mellan frekvenserna för en eller flera alleler uppträder mellan en kontroll- och sjukdomspopulation, säger man att sjukdomen och allelen eller allelerna är i association med varandra. [1] autosom: Varje kromosom som inte är inblandad i bestämmandet av vilket kön organismen ska ha. Människan har par av autosomer i varje cell. [1] bas: En av molekylerna - adenin, guanin, cytosin, tymin eller uracil - vilka formar delar av strukturen för DNA- och RNA-molekylen. Ordningen av baser i en DNA-molekyl bestämmer strukturen hos proteinet som DNA:t kodar för. [1] baspar (bp): Två kompletterande nukleotidbaser som är sammansatta av en kemisk bindning. Dessa två slingor av DNA-molekylen hålls ihop med hjälp av basparen och är formad som en dubbel spiral. Basen adenin bildar par med tymin och cytosin bildar par med guanin. [1] centromer: Den ihopsnörda delen nära mitten av en mänsklig kromosom. I denna del förenas de båda syster-kromatiderna. Se kromatid. [17] cytosin: Se bas. di-allelt locus: Ett locus med två alleler, dvs. det finns två varianter av ett locus som skiljer sig på något sätt, t.ex. en polymorfi som en SNP. diploid: En fullständig uppsättning av genetiskt material, som innehåller par av kromosomer från varje förälder. De flesta djurs celler bortsett från könscellerna har en diploid uppsättning kromosomer. Det mänskliga genomet har 46 kromosomer. Jämför med haploid. [1] DNA (deoxyribonucleic acid): Molekyl som innehåller genetisk information. DNA är en dubbelslingad spiral sammanhållen av bindningar mellan par av nukleotider. Se bas och baspar. [1] dominant allel: En allel, vid ett bestämt locus, som kommer att forma eller påverka fenotypen av en organism oavsett karaktären på den andra allelen vid locuset. Till exempel är allelen för brun ögonfärg dominant gentemot allelen för blå ögonfärg, så en person som ärver allelen för blå ögonfärg från en förälder och en allel för brun ögonfärg från den andra föräldern kommer nästan alltid ha bruna ögon. Se genetiskt uttryck och jämför med recessiv allel. [1] 36

40 fenotyp: En uppsättning av observerade fysikaliska karaktärer hos en individuell organism. En enskild karaktär kan refereras till som en egenskap, även om en enskild egenskap ibland också kan kallas för en fenotyp. Till exempel kan blont hår kallas för egenskap men också fenotyp, vilket även fetma kan. En fenotyp kan vara resultatet av många faktorer, inkluderat en individs genotyp, omgivning och livsstil, samt samspel mellan dessa faktorer, dvs. det observerade uttrycket för en genotyp. Fenotypen kan både uttryckas fysikaliskt, biokemiskt och fysiologiskt. [1] gen: En bit DNA som kodar för ett speciellt protein, eller i vissa fall en funktionell eller strukturell RNA-molekyl. [1] genetisk kartläggning: En karta över ett genom vilken visar de relativa positionerna av generna och/eller markörerna på kromosomerna. [1] genetisk polymorfism: En skillnad i DNA-sekvens bland individer, grupper eller populationer (t. ex. en genetisk polymorfism kan ge upphov till blå ögon kontra bruna ögon eller rakt hår kontra lockigt hår). Genetisk polymorfism kan vara ett resultat av en ändringsprocess eller kan ha orsakats av andra yttre faktorer såsom virus eller strålning. Om det visar sig att en skillnad i en DNA-sekvens bland individer kan associeras med en sjukdom, kallas den vanligtvis för mutation. Variationer i DNA-sekvenser som man vet har uppstått genom påverkan från yttre faktorer kallas generellt för mutationer istället för polymorfier. [1] genetiskt uttryck: Processen som konverterar en gens kodade information till befintliga och opererande strukturer i en cell. Uttryckta gener inkluderar de som är kopierade till mrna och sedan översatta till protein och de som är kopierade till RNA men inte översätta till protein. [16] genom: Allt genetiskt material i kromosomerna av en speciell organism. Dess storlek är generellt angiven som det totala antalet baspar. [1] genotyp: Det speciella genetiska mönster som ses i en persons DNA. En genotyp används vanligtvis till att hänvisa till ett särskilt par av alleler som en person har vid en viss position i genomet. Jämför med fenotyp. [1] guanin: Se bas. haploid: En cell som innehåller halva genetiska komplementet till en somatisk cell, dvs. halva antalet kromosomer. Exempel: könscellerna, ägget och spermierna. [1] haplotyp: Den uppställda linjära ordningsföljden av alleler på en kromosom. Haplotypanalyser är användbara när man ska identifiera rekombinationshändelser. [1] heterozygot: En diploid organism med två bestämda alleler vid ett särskilt locus under analys. I detta fall är locuset tänkt att vara heterozygot. [1] homolog: En medlem i ett par av homologa kromosomer. [17] homologa kromosomer: Medlemmar av ett par av identiska kromosomer som punkt för punkt paras ihop under meiosis. Kromosomer som bildar par med varandra vid meiosis eller kromosomer i olika arter som har bibehållit det mesta av samma gen under deras evolution från en liknande förfader. [17] 37

41 homozygot: En individ som har ett homozygot genpar. En diploid eller en polyoid med identiska alleler vid ett locus. [17] karyotyp: En fotomikrografik över en individs kromosomer arrangerade i en standardform som visar nummer, storlek och form på varje kromosomtyp. [1] kromatid: En kromatid utgör en del av en kromosom efter att den har förenat sig för delningsprocesserna mitosis eller meiosis. Varje kromosom består av två exakt identiska systerkromatider. Efter att de har dragits isär av mitotisk axel, kallas kromatider för kromosomer. Systerkromatider är förenas i en punkt som kallas för centromer. [13] kromosom: I en cell är DNA indelad i strukturer som kallas kromosomer. Kromosomer är tillräckligt stora så att man kan se dem i ett mikroskop. I människan består alla celler utom könscellerna av 46 kromosomer, par av autosomer och antingen ett par av X- kromosomer (hos kvinnan) eller en X-kromosom och en Y-kromosom (hos mannen). I varje kromosompar är en kromosom nedärvd från en individs far och en från dess mor. [1] kromosomal markör: En allel som har ett välkänt fenotypisk uttryck och locus. Används som en referenspunkt vid kartläggningen av en ny genetisk mutant. [1] könskromosomer: X- och Y-kromosomerna hos människan bestämmer könet hos en individ. Kvinnor har två stycken X-kromosomer i en diploid cell och mannen har en X- kromosom och en Y-kromosom. Könskromosomerna utgör det 3:e kromosomparet i en karyotyp. Se detta ord. [1] linkage (koppling): Linkage hänvisar till att vissa gener tenderar att nedärvas tillsammans. Två gener sägs vara kopplade (linked) om de ofta nedärvs tillsammans, oavsett deras närhet på en kromosom. Se marker. [1] linkage disequilibrium: Linkage disequilibrium kallas ofta allelic association. När alleler vid två distinkta loci förekommer i könscellerna mer frekvent än förväntat, givet de kända allelfrekvenserna och rekombinationsandelen mellan de aktuella loci, sägs allelerna vara i linkage disequilibrium (kopplingsobalans). Bevis för linkage disequilibrium kan vara till hjälp vid kartläggning av gener som orsakar sjukdomar, eftersom dessa oftast ligger väldigt nära varandra. [1] locus (pl. loci): Positionen för en gen på en kromosom eller en annan kromosommarkör, även DNA i denna position. Användningen av locus är ibland begränsad till vissa regioner av DNA, som är uttryckt. Se genetiskt uttryck. [1] marker: En sekvens av baser vid en fysiskt given unikt plats på genomet, vilket varierar tillräckligt mellan individer så att nedärvningsmönstret kan följas genom familjer och/eller kan användas vid särskiljning av celltyper. En markör kan vara en del av en gen, men behöver inte vara det. Markörer är fundamentala vid studier av härkomst och genetisk kartläggning för att hjälpa forskarna att minska ned de möjliga positionerna för nya gener och att upptäcka samband mellan genetiska mutationer och sjukdomar. [1] meiosis: Processen av två celldelningar av könsceller som sker i följd hos diploida stamfäder. Resultatet av meiosis ger fyra stycken dotterceller och var och en av dessa dotterceller har en haploid uppsättning av kromosomer. [1] 38

42 mitosis: Processen för kärndelning i celler som skapar dotterceller som är genetiskt identiska med varandra och med föräldercellen. [1] mutation: En förändring, ett borttagande eller en omplacering i en DNA-sekvens som kan leda till syntes av ett förändrat inaktivt protein eller oförmåga att producera proteinet. Om en mutation förekommer i en embryocell så är det en ärftlig förändring som kan ärvas från generation till generation. Mutationer kan också förekomma i somatiska celler, men dessa nedärvs inte i traditionell mening utan endast till sina dotterceller. [1] nukleotid: Byggstenen till nukleinsyrorna, som t. ex. DNA-molekylen. En nukleotid består av en av de fyra baserna adenin, cytosin, guanin och tymin, som i sin tur är bunden till en fosfat-sockergrupp. I DNA är sockergruppen en deoxiribo. I RNA, som är en DNA-relaterad molekyl som hjälper till med att transportera genetisk information från gen till protein, så är sockergruppen en ribo och basen tymin är utbytt mot basen uracil. Varje grupp om tre nukleotider i en gen kallas för kodon. Vid proteinsyntesen avläses varje kodon till en specifik aminosyra. Nukleinsyra är en lång kedja av sammansatta nukleotider och kan ibland kallas för en polynukleotid. [1] organism: En levande individ vars fysiologiska funktioner utförs av små delar eller organ, (t ex. ett hjärta eller en lever), som har skilda funktioner men som inbördes är beroende av varandra. [1] polymorfism: Se genetisk polymorfism. protein: En biologisk molekyl bestående av många aminosyror som är sammansatta av peptidbindningar. Sekvensen av aminosyror i proteinet bestäms av sekvensen av nukleotiderna i DNA-molekylen. Allteftersom kedjan av aminosyror blir syntetiserade, viks den ihop till en högre grad av strukturerad form, t. ex. dubbelspiraler. Proteiner är nödvändiga för att bygga upp strukturen, funktionen och regleringar av celler, vävnader och andra organ i kroppen. [1] recessiv allel: En allel som endast kommer att ge resultat i en speciell fenotyp om dess motpart också är recessiv eller om det inte existerar någon motpart. Autosomal recessiv oordning framkallad hos individer som ärver två liknande kopior av en gen lokaliserade på en av autosomerna. När en recessiv gen associerad med en sjukdom förekommer på vissa platser på X-kromosomen (hemofilia eller blödarsjukan är en sådan sjukdom) kallas det X-linkage recessive disorder (X-kopplad recessiv sjukdom). X-linkage recessive disorder kan förekomma oftare hos män än hos kvinnor, eftersom män bara ärver en kopia av genen (de har endast en X-kromosom). [1] rekombinant: Resultatet av en crossover i en dubbel heterozygot förälder så att alleler vid två loci som finns på homologer mitt emot varandra förs ihop på samma homolog. Termen används för att beskriva såväl kromosomen som den organism där de sammanträffat. [1] rekombinationsandelen (θ): Frekvensen av crossing-over mellan två loci. Estimat av rekombinationsandelen mellan två loci som är mindre än 0.50 är förenlig med loci som är länkade med varandra. Estimat av rekombinationsandelen som är lika med 0.50 är förenliga med loci som icke är länkade med varandra. I teorin ska rekombinationsandelen mellan två 39

43 loci inte överstiga 0.50, men estimat > 0.50 för två loci kan påvisa en högre rekombinogenikarea eller fel i data. När θ = 0 så är markören och sjukdomen på samma locus. [1] SNP (single nucleotide polymorphism): Variation i en DNA-sekvens som uppstår när en enkel nukleotid (A, T, C eller G) bytts ut mot en annan nukleotid i genom-sekvensen. [16] tymin: Se bas. uracil: Se bas. överkorsning (crossing-over): Brott i en kromosom från modern och i en kromosom från fadern under meiosis, då utbyte av motsvarande DNA-sektioner sker innan kromosomerna förenar sig igen. Denna procedur kan resultera i att alleler byter plats med varandra mellan kromosomer. Jämför med rekombination. [1] 40

44 Bilaga 1. Haplotyptabeller för de tre mindre stickproven Tabell 17. Haplotyper för stickprovet med de 50 första personerna. SNP nr a b c d N Tabell 18. Haplotyper för stickprovet med de 100 första personerna. SNP nr a b c d N Tabell 19. Haplotyper för stickprovet med de 150 första personerna. SNP nr a b c d N

45 Bilaga. Resultatet av Taylorutvecklingen m.a.p. de första partiella derivatorna för ^ R i Maple ^ 1/ R = ( pra prd prb prc ) /(( pra + prb )( pra + prc )( prb + prd )( prc + prd )) där pr a prb, prc, prd, är de relativa haplotypfrekvenserna i stickprovet. 4

Tidiga erfarenheter av arvets mysterier

Tidiga erfarenheter av arvets mysterier Cellens genetik Cellen Växtcellen Växtcellen Tidiga erfarenheter av arvets mysterier Artförädling genom riktad avel Religiösa förbud mot syskongiftemål Redan de gamla grekerna.. Aristoteles ~350 år före

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Medicinsk genetik del 1: Introduktion till genetik och medicinsk genetik. Niklas Dahrén

Medicinsk genetik del 1: Introduktion till genetik och medicinsk genetik. Niklas Dahrén Medicinsk genetik del 1: Introduktion till genetik och medicinsk genetik Niklas Dahrén Vad menas med genetik och medicinsk genetik? Genetik: Genetik är det samma som ärftlighetslära och handlar om hur

Läs mer

Karl Holm Ekologi och genetik, EBC, UU. ebc.uu.se. Nick Brandt. Populationsgenetik

Karl Holm Ekologi och genetik, EBC, UU. ebc.uu.se. Nick Brandt. Populationsgenetik Karl Holm Ekologi och genetik, EBC, UU karl.holm@ ebc.uu.se Nick Brandt Populationsgenetik Kursens upplägg Föreläsningar 24/4, 10:15-16:00 Friessalen Introduktion, HWE 27/4, 10:15-16:00 Inavel 28/4, 10:15-16:00

Läs mer

Genetik II. Jessica Abbott

Genetik II. Jessica Abbott Genetik II Jessica Abbott Nukleosid Sockergrupp + kvävebas Kvävebaser: Puriner (adenin, guanin) Pyrimidiner (cytosin, thymin i DNA, uracil i RNA) Basparning A=T G C Packning av DNA i eukaryot cellkärna

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Uppgift 1. f(x) = 2x om 0 x 1

Uppgift 1. f(x) = 2x om 0 x 1 Avd. Matematisk statistik TENTAMEN I Matematisk statistik SF1907, SF1908 OCH SF1913 TORSDAGEN DEN 30 MAJ 2013 KL 14.00 19.00. Examinator: Gunnar Englund, 073 321 3745 Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p) Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-

Läs mer

Samplingfördelningar 1

Samplingfördelningar 1 Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Genetik - Läran om det biologiska Arvet

Genetik - Läran om det biologiska Arvet Genetik - Läran om det biologiska Arvet Uppgift Arv eller miljö Våra egenskaper formas både av vårt arv och den miljö vi växer upp i. Hurdan är du och hur ser du ut? Vad beror på arv och vad beror på miljö?.

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Genetik. - cellens genetik - individens genetik. Kap 6

Genetik. - cellens genetik - individens genetik. Kap 6 Genetik - cellens genetik - individens genetik Kap 6 Vad bestämmer hur en organism (cell) ser ut och fungerar? Generna (arvsanlagen) och miljön Hur går det till? En gen är en ritning för hur ett protein

Läs mer

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 11: Mer om jämförelser och inferens Föreläsning 11: Mer om jämförelser och inferens Matematisk statistik David Bolin Chalmers University of Technology Maj 12, 2014 Oberoende stickprov Vi antar att vi har två oberoende stickprov n 1 observationer

Läs mer

Mitos - vanlig celldelning

Mitos - vanlig celldelning Mitos - vanlig celldelning Interfas Cellens normala tillstånd kopiering sker. Enskilda kromosomer kan inte urskiljas Profas DNA molekylerna packar ihop sig i tydliga kromosomer Metafas Cellkärnans membran

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Skrivning för biolog- och molekylärbiologlinjen, genetik 5p.

Skrivning för biolog- och molekylärbiologlinjen, genetik 5p. Skrivning för biolog- och molekylärbiologlinjen, genetik 5p. Namn: Adress: Resultat: Betyg: Hjälpmedel: Miniräknare. Formelblad med tabell. Skrivtid: 9.00-13.00. Beräkningar och svar ska vara motiverade.

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

GENETIK - Läran om arvet

GENETIK - Läran om arvet GENETIK - Läran om arvet Kroppens minsta levande enheter är cellerna I cellkärnorna finns vår arvsmassa - DNA (DNA - Deoxiribonukleinsyra) Proteiner Transportproteiner Strukturproteiner Enzymer Reglerande

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska

Läs mer

Förökning och celldelning. Kap 6 Genetik

Förökning och celldelning. Kap 6 Genetik Förökning och celldelning Kap 6 Genetik Obs! fel i boken: Sid 215, stycket längst ner står systerkromatider, skall stå homologa kromosomer Sid 217, fjärde raden andra stycket: står eller zygoter vilket

Läs mer

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0 Avd. Matematisk statistik TENTAMEN I SF191, SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 1:A JUNI 216 KL 8. 13.. Kursledare: Thomas Önskog, 8-79 84 55 Tillåtna hjälpmedel: Formel- och tabellsamling i

Läs mer

Sammanfattning Arv och Evolution

Sammanfattning Arv och Evolution Sammanfattning Arv och Evolution Genetik Ärftlighetslära Gen Information om ärftliga egenskaper. Från föräldrar till av komma. Tillverkar proteiner. DNA (deoxiribonukleinsyra) - DNA kan liknas ett recept

Läs mer

TENTAMEN I STATISTIKENS GRUNDER 2

TENTAMEN I STATISTIKENS GRUNDER 2 STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson HT2012 TENTAMEN I STATISTIKENS GRUNDER 2 2012-11-01 Skrivtid: kl 9.00-14.00 Godkända hjälpmedel: Miniräknare, språklexikon Bifogade hjälpmedel:

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

F22, Icke-parametriska metoder.

F22, Icke-parametriska metoder. Icke-parametriska metoder F22, Icke-parametriska metoder. Christian Tallberg Statistiska institutionen Stockholms universitet Tidigare när vi utfört inferens, dvs utifrån stickprov gjort konfidensintervall

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Tenta i Statistisk analys, 15 december 2004

Tenta i Statistisk analys, 15 december 2004 STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik, ML 15 december 004 Lösningar Tenta i Statistisk analys, 15 december 004 Uppgift 1 Vi har två stickprov med n = 5 st.

Läs mer

Föreläsning 12: Repetition

Föreläsning 12: Repetition Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse

Läs mer

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Matematisk statistik 9hp Föreläsning 7: Normalfördelning Matematisk statistik 9hp Föreläsning 7: Normalfördelning Anna Lindgren 29+3 september 216 Anna Lindgren anna@maths.lth.se FMS12/MASB3 F7: normalfördelning 1/18 Kovarians, C(X, Y) Repetition Normalfördelning

Läs mer

FÖRELÄSNING 7:

FÖRELÄSNING 7: FÖRELÄSNING 7: 2016-05-10 LÄRANDEMÅL Normalfördelningen Standardnormalfördelning Centrala gränsvärdessatsen Konfidensintervall Konfidensnivå Konfidensintervall för väntevärdet då variansen är känd Samla

Läs mer

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg. Tentamenskrivning för TMS63, Matematisk Statistik. Onsdag fm den 1 juni, 16, Eklandagatan 86. Examinator: Marina Axelson-Fisk. Tel: 7-88113. Tillåtna hjälpmedel: typgodkänd miniräknare, tabell- och formelhäfte

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

AMatematiska institutionen avd matematisk statistik

AMatematiska institutionen avd matematisk statistik Kungl Tekniska Högskolan AMatematiska institutionen avd matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR B OCH K FREDAGEN DEN 11 JANUARI 2002 KL 14.00 19.00. Examinator: Gunnar

Läs mer

Kromosomer, celldelning och förökning

Kromosomer, celldelning och förökning Kromosomer, celldelning och förökning Kromosomen Hur ligger DNA lagrat? DNA 2 nm Prokaryota celler har vanligtvis endast en kromosom. I eukaryota celler finns alltid mer än en DNA-molekyl som bildar olika

Läs mer

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab Repetition: Gnuer i (o)skyddade områden χ 2 -metoder, med koppling till binomialfördelning och genetik. Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 Endast 2 av de 13 observationerna

Läs mer

Bootstrapping i fall-/kontrollstudier av genetiska markörer

Bootstrapping i fall-/kontrollstudier av genetiska markörer Bootstrapping i fall-/kontrollstudier av genetiska markörer Håkan Lövkvist RSKC 2011-03-09 Vad är bootstrapping? Bootstrap = stövelstropp Annan översättning: Ta sig i kragen, vara självbärande Litterär

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

Parade och oparade test

Parade och oparade test Parade och oparade test Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning: möjliga jämförelser Jämförelser mot ett

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka. Avd. Matematisk statistik TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 11 JANUARI 2016 KL 14.00 19.00. Kursledare för CINEK2: Thomas Önskog, tel: 08 790 84 55 Kursledare för

Läs mer

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A

Läs mer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13 Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare

Läs mer

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL TENTAMEN I SF950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 010 KL 14.00 19.00 Examinator : Gunnar Englund, tel. 790 7416, epost: gunnare@math.kth.se Tillåtna hjälpmedel: Formel-

Läs mer

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012 Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Anna Lindgren 27+28 september 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F6: linjärkombinationer 1/21 sum/max/min V.v./var Summa av

Läs mer

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 4: Konfidensintervall (forts.) Föreläsning 4: Konfidensintervall forts. Johan Thim johan.thim@liu.se 3 september 8 Skillnad mellan parametrar Vi kommer nu fortsätta med att konstruera konfidensintervall och vi kommer betrakta lite olika

Läs mer

Lycka till!

Lycka till! Avd. Matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR K OCH B MÅNDAGEN DEN 25 AUGUSTI 2003 KL 14.00 19.00. Examinator: Gunnar Englund, 790 7416. Tillåtna hjälpmedel: Formel- och

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) SF1901: Sannolikhetslära och statistik Föreläsning 9. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 21.02.2012 Jan Grandell & Timo Koski () Matematisk statistik 21.02.2012

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 8:E JANUARI 2018 KL 14.00 19.00. Examinator: Thomas Önskog, 08 790 84 55. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p) Avd. Matematisk statistik TENTAMEN I SF90 OCH SF905 SANNOLIKHETSTEORI OCH STATISTIK, FREDAGEN DEN 4:E MARS 204 KL 4.00 9.00. Kursledare: För D och Media: Gunnar Englund, 073 32 37 45 Kursledare: För F:

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE302 Sannolikhet och statistik 2019-06-05 kl. 8:30-12:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 031-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat. Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSLÄRA OCH STATISTIK I, MÅNDAGEN DEN 15 AUGUSTI 2016 KL 08.00 13.00. Examinator: Tatjana Pavlenko, 08 790 84 66. Kursledare: Thomas Önskog, 08 790

Läs mer

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE302 Sannolikhet och statistik Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.

Läs mer

Konvergens för iterativa metoder

Konvergens för iterativa metoder Konvergens för iterativa metoder 1 Terminologi Iterativa metoder används för att lösa olinjära (och ibland linjära) ekvationssystem numeriskt. De utgår från en startgissning x 0 och ger sedan en följd

Läs mer

Föreläsning 6, Matematisk statistik Π + E

Föreläsning 6, Matematisk statistik Π + E Repetition Kovarians Stora talens lag Gauss Föreläsning 6, Matematisk statistik Π + E Sören Vang Andersen 2 december 2014 Sören Vang Andersen - sva@maths.lth.se FMS012 F6 1/20 Repetition Kovarians Stora

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-06-01 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Pedagogisk planering Bi 1 - Individens genetik

Pedagogisk planering Bi 1 - Individens genetik Centralt innehåll Genetik Arvsmassans uppbyggnad samt ärftlighetens lagar och mekanismer. Celldelning, dnareplikation och mutationer. Genernas uttryck. Proteinsyntes, monogena och polygena egenskaper,

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

Kapitel 9 Egenskaper hos punktskattare

Kapitel 9 Egenskaper hos punktskattare Sannolikhetslära och inferens II Kapitel 9 Egenskaper hos punktskattare 1 Egenskaper hos punktskattare En skattare är en funktion av stickprovet och således en slumpvariabel. En bedömning av kvaliteten

Läs mer

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 5 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Andelar (kap 24) o Binomialfördelning (kap 24.1) o Test och konfidensintervall för en andel (kap 24.5, 24.6, 24.8) o Test

Läs mer

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:... Avd. Matematisk statistik TENTAMEN I SF9/SF94/SF95/SF96 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 4:E OKTOBER 08 KL 8.00 3.00. Examinator för SF94/SF96: Tatjana Pavlenko, 08-790 84 66 Examinator för

Läs mer

Matematisk statistik TMS063 Tentamen

Matematisk statistik TMS063 Tentamen Matematisk statistik TMS63 Tentamen 8-8- Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof Elias,

Läs mer

0 om x < 0, F X (x) = c x. 1 om x 2.

0 om x < 0, F X (x) = c x. 1 om x 2. Avd. Matematisk statistik TENTAMEN I SF193 SANNOLIKHETSLÄRA OCH STATISTIK FÖR 3-ÅRIG Media TIMEH MÅNDAGEN DEN 16 AUGUSTI 1 KL 8. 13.. Examinator: Gunnar Englund, tel. 7974 16. Tillåtna hjälpmedel: Läroboken.

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF194 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAG 1 AUGUSTI 019 KL 8.00 13.00. Examinator: Björn-Olof Skytt, 08-790 86 49. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva Stat. teori gk, ht 006, JW F14 HYPOTESPRÖVNING (NCT 10., 10.4-10.5, 11.5) Hypotesprövning för en proportion Med hjälp av data från ett stickprov vill vi pröva H 0 : P = P 0 mot någon av H 1 : P P 0 ; H

Läs mer

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p) Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 27:E OKTOBER 2014 KL 08.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66, Björn-Olof Skytt, 08-790 86 49.

Läs mer

F9 Konfidensintervall

F9 Konfidensintervall 1/16 F9 Konfidensintervall Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 18/2 2013 2/16 Kursinformation och repetition Första inlämningsuppgiften rättas nu i veckan. För att

Läs mer

Kap 3: Diskreta fördelningar

Kap 3: Diskreta fördelningar Kap 3: Diskreta fördelningar Sannolikhetsfördelningar Slumpvariabler Fördelningsfunktion Diskreta fördelningar Likformiga fördelningen Binomialfördelningen Hypergeometriska fördelningen Poisson fördelningen

Läs mer

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 5. Kapitel 6, sid Inferens om en population Föreläsning 5 Kapitel 6, sid 153-185 Inferens om en population 2 Agenda Statistisk inferens om populationsmedelvärde Statistisk inferens om populationsandel Punktskattning Konfidensintervall Hypotesprövning

Läs mer

TMS136. Föreläsning 11

TMS136. Föreläsning 11 TMS136 Föreläsning 11 Andra intervallskattningar Vi har sett att vi givet ett stickprov och under vissa antaganden kan göra intervallskattningar för väntevärden Man kan även gör intervallskattningar för

Läs mer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski SF1901: Sannolikhetslära och statistik Föreläsning 10. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski 18.02.2016 Jan Grandell & Timo Koski Matematisk statistik 18.02.2016

Läs mer

Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13

Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13 Tryckfel i K. Vännman, Matematisk Statistik, upplaga 2:13 Kasper K. S. Andersen 11 oktober 2018 s. 10, b, l. 8: 1 4 17.62 1 5 17.62 s. 25, Tabell 1.13, linje 1, kolonn 7: 11 111 s. 26, Figur 1.19 b, l.

Läs mer

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14 STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik 3 maj 013 Lösningar Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 3 maj 013 kl. 9 14 Uppgift 1 a Eftersom

Läs mer

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen Kap 6: Normalfördelningen Normalfördelningen Normalfördelningen som approximation till binomialfördelningen σ μ 1 Sats 6 A Om vi ändrar läge och/eller skala på en normalfördelning så har vi fortfarande

Läs mer

FACIT (korrekta svar i röd fetstil)

FACIT (korrekta svar i röd fetstil) v. 2013-01-14 Statistik, 3hp PROTOKOLL FACIT (korrekta svar i röd fetstil) Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta

Läs mer