Human Molekylärgenetik Del 2 Identifiering av riskgener för komplexa sjukdomar ANDERS MÄLARSTIG, molekylärgenetiker på enheten för aterosklerosforskning, Centrum för Molekylärmedicin, Karolinska Institutet, Solna anders.malarstig@ki.se
Att identifiera och karakterisera humana sjukdomsgener Kliniska frågeställningar vid molekylärgenetiska studier av komplex sjukdom Att designa studier för komplex sjukdom Bioinformatik Små och storskalig SNP analys Statistiska metoder (case-control, kvantitativ fenotyp) Funktionella studier av genetisk variation Farmakogenetik Genetiska test av komplexa anlag Etiska aspekter av genetiska test
Vetenskaplig frågeställning / hypotes Design av experimentell eller klinisk studie Bioinformatik Genotypning Statistisk analys Funktionella studier Design av genetiska test
Venös trombos (blodpropp) Allvarligt tillstånd där blodflödet i en ven hindras Hög ålder, cancer, p-piller och kirurgiska ingrepp är vanliga riskfaktorer Genetiska riskfaktorer i factor 5, protrombin, protein C och S generna, vilka ingår i reglering av koagulation SNPs i 5 andra gener har visat association till sjukdomen Heritabilitet över 50 %
Kandidatgen Utgångspunkt i kända biologiska sjukdomsmekanismer Prövar en hypotes, men den är begränsad av befintlig biologisk kunskap om sjukdomen Enkel epidemiologisk statistik kan användas Många SNPs inom en liten region kan bestämmas för att maximera genetisk information
Frågeställningar Funktionella SNPs i genen för Tissue factor skulle troligen spela roll för risken att drabbas av venös trombos, eftersom tissue factor startar blodets koagulation Ärftligheten av koncentrationer av tissue factor på cellmembran och i blodet är hög Stora skillnader i koncentrationer av tissue factor mellan individer, men små skillnader i samma individ vid olika mättillfällen, trots års mellanrum mellan mätningar
Vilka SNPs finns i tissue factor genen? Primary Transcript rs592435 Exon 4 rs610277 Exon 5 rs3917642 Exon 3 rs1034363 rs3917641 rs762484 rs3917643 Exon 6 rs958587 Exon 1 Exon 2 rs1144300 rs3354-2695 rs644530-9914 rs698942 F3 Gene
NCBI dbsnp refsnp ID: rs3354 Organism: Molecule Type: Created/Updated in build: Map to Genome Build: human (Homo sapiens) Genomic 36/127 36.2 Variation Class: Alleles: Ancestral Allele: Allele SNP: single nucleotide polymorphism C/T C GeneView via analysis of contig annotation: F3 coagulation factor III (thromboplastin, tissue factor) Click to see [all] [csnp] [has frequency] [double hit] [haplotype tagged] variations associated with this gene..gttaaaaatt AAAACTTGGA ATTGGTTGTA GTACCATT C/T GTTACATTTC AAAGTGACTA ATGCTGATGT CAAAACCAGA.
Allel och genotypfrekvenser Individual Chrom. ss# Population Source C/C C/T T/T Sample Group Cnt. HWP C T ss1882765 CEPH 184 AF 0.710 0.290 HapMap-CEU European 120 IG 0.500 0.483 0.017 0.050 0.742 0.258 HapMap-HCB Asian 90 IG 0.267 0.578 0.156 0.254 0.556 0.444 HapMap-JPT Asian 88 IG 0.295 0.545 0.159 0.479 0.568 0.432 HapMap-YRI African 120 IG 0.633 0.283 0.083 0.150 0.775 0.225 CHMJ Asian 74 IG 0.554 0.446
Prediktion av vilka SNPs som kan påverka funktion PolyPhen - Predikterar hur en aminosyraförändring påverkar proteinets hydrofobicitet, isolelektriska punkt och struktur Ensembl Sammanfogar information från ett hundratal databaser för regioner i genomet Fylogenetisk footprinting (ECR-browser) undersöker om SNPn ligger i en region som är evolutionärt konserverad genom att jämföra ortologa sekvenser i andra arter Transfac undersöker vilka transkriptionsfaktorer som potentiellt kan binda i regionen där SNPn är positionerad ESEfinder söker potentiella splice sites
Splice-sites
The first 400 basepairs in the tissue factor promoter and potential transcription factor binding sites
Samvariation mellan SNPs (www.hapmap.org) D -måttet R 2 -måttet bäst 1 sämst 0
Linkage disequilibrium i hund och människa
Fall-kontroll (enklast) Studiedesign Populationsbaserad prospektiv studie Prospektiv patientstudie Friska frivilliga tex. för en kvantitativ fenotyp som är relaterad till sjukdomen (koncentration av tissue factor protein i blodet)
Urval av fall och kontroller Rekrytering av patientgrupp via klinik Rekrytering av matchade friska individer via populationsregister Venöst blodprov för att ta DNA och blodplasma Exkludering av patienter som inte uppfyller fördefinierade kriterier, Längd, vikt, ålder, livsstilsvanor dokumenteras Databas Bestämning av plasmaprotein i blodprover Upprättande av biobank Framrening av DNA från blod
Teknologier för SNP genotypning Pålitliga Snabba Kostnadseffektiva Robotiserade mindre manuellt arbete Flexibilitet vid design av metod
Litet urval av genotypningsmetoder Traditionella metoder RFLP Allelspecifik amplifiering Sangersekvensering Moderna metoder Realtids PCR (Taqman och Lightcycler) Chip-teknik (Primer extension) Massive parallell sequencing (Solexa, 454-sequencing)
RFLP
Elektroforesbaserad detektion
Allelspecifik amplifiering
Taqman-probe
Realtids PCR
Alleldiskriminering med realtids-pcr CC CT TT
Statistisk metodik 1, Hardy-Weinberg Equilibrium (kvalitetskontroll av genotypning) Hardy-Weinberg observed expected chi-square p-value (1-tailed) Cont r ols AA 146 146,238 0,0004 Aa 129 128,523 0,0018 aa 28 28,238 0,0020 SUM 0,004171869 0,9485 check result Patients AA 161 155,842 0,1707 Aa 155 165,316 0,6438 aa 49 43,842 0,6069 SUM 1,421413249 0,233171 check result p-värde >0.05 ger att fördelningen av genotyper av vår SNP är inom Hardy-Weinberg equilibrium
Statistisk metodik 2 Allele Frequency rs3354 count C total frequency C Kontroller CC 182 CT 129 TT 28 185 678 72,7% Fall CC 161 CT 155 TT 49 253 730 65,3% Räkna genotyper och frekvens av allel 1 och 2.
Statistisk metodik 3 homogenitetstest med chi-två fördelningen Kontroller Fall Observed Exp Observed Exp Total rad C 185 210,91 253 227,09 438 T 493 467,09 477 502,91 970 Total Kolumn 678 730 1408 ChiTvåvärde 3,18 1,44 2,96 1,34 ChiTvåvärde 8,91 Kritiskt värde 3,841 p-value (1-tailed) 0,0028 check result P-värde <0.05, alltså är fördelningen av allelerna är signifikant skilda i fall och kontroller. Högre frekvens av C allel i patientgruppen ger att: C allelen ökar risken för venös blodpropp.
Identifiering av riskgen Från känd biologi Genome-wide association Kandidatgen Genotypning av ett stort antal SNPs spridda över genomet Genotypning av ett mindre antal SNPs Statistisk analys Statistisk analys Funktionella studier och bekräftande kliniska studier
ATGCT GCGCT ATGCC TCGGG AAATG ATGCT CTGTAA CTAT G TCATATTGTTGC AATGCGT GGCCA GCCCT GCGCT TCGGG ATGCT GGCCA TCATAT GCGCT GGCCA TCATAT GCGCT 1 million 5000 10 1 Princip för genom-wide association
Genome-wide association prövar hypoteser som ännu inte formulerats Fall-kontrollstudier, oftast med över 2000 individer Chip tekniker som Affymetrix och Illumina Helgenoms-chip för mellan 100k SNPs och 1M SNPs Särskilda statistiska tekniker som beaktar att ett stort antal statistiska test görs
Helgenomsstudier har identifierat flera sjukdomslokus senaste 2 åren bl.a. TCF7L2 för typ-2 diabetes Kromosom 9 p21 för hjärtinfarkt och typ-2 diabetes Kromosom 6q23 och IRF5 genen för reumatoid artrit 10q26 i den okända genen LOC387715 för grön starr FTO genen för ökat body mass index m.m.
Protein Molekylärgenetisk funktionalitet mängd aktivitet aminosyrasekvens och struktur timing post-translationella förändringar (tex fosforylering) interaktion med andra protein Alla ovanstående förändringar på proteinet kan detekteras på transkriptionsnivå (mrna).
Exempel: Variationer IRF-5 genen
Detektion av mrna förändringar Studier i rätt typ av cell under förhållanden som efterliknar sjukdomen Long-range PCR och elektrofores kan detektera förekomsten av flera transkript (splice-varianter) Realtids-PCR kan detektera hur mycket mrna som finns i ett prov Odling av celler, stopp av nysyntes av med Actinomycin- D, detektion med realtids PCR (halveringstid för mrna) Jämföra exonsekvens i DNA med mrna sekvens för allelisk obalans Kloning av luciferas-reporter gene i en gens promotor kan visa skillnader i transkriptionseffektivitet för ena eller andra allelen
Allelspecifikt mrna uttryck G/C Regulatory region C/A Coding region Obalans av alleluttryck i mrna G C mrna C A mrna Kaijzel et al Genes Immunity 2001;2:135-144 Kureeman et al Hum Mol Genetics 2004;13:1755-1762
VISION OM GENETISKA TEST Sjukdomsrisk Träningsråd Kostråd Läkemedel
Komplexa sjukdomar vanligaste dödsorsaken
Träning och genomik Sänkning av kolesterol Muskelmassa Syreupptagningsförmåga Hormonsystem Blodvolym
Genetiska test forts. Test för monogena sjukdomar är inte samma sak som test för komplexa anlag Diagnos vs. riskbedömning Ovanlig vs. vanlig Erfarenhet om genetisk rådgivning för komplexa anlag finns från bedömningen av faktor 5 SNPn för risken för venös blodpropp och BRCA generna för bröstcancer
GENETISKT TEST FÖR INVÄNDNINGAR Att tidigt kunna förutsäga sjukdomsrisk Kost och livsstil Lägga upp träning Effektivitet och biverkningsrisk av läkemedel Hjälp att ta emot informationen behövs! Effektiva sätt att förhindra att sjukdomen bryter ut måste hittas! Kliniska prövningar om kostrekommendationerna på genetisk basis är effektivt behövs. Mer kunskap behövs. Kan användas begränsat idag för tex VKORC1 genen. Många studier görs i skrivande stund.
Andra etiska aspekter runt genetiska test för att förutsäga framtida sjukdom Finns tillräckliga vetenskapliga bevis för testet? Vem vill veta? Hjälper det att veta och hur drastiska är åtgärderna för att i så fall minska sjukdomsrisken? Vill släktingar veta? Vem äger den genetiska informationen? Hur ska informationen om det egna DNAt skyddas?