Pilotstudie NGS: E. coli ESBL från patienter med misstänkt sepsis Helena Enroth, Med Dr (PhD), Klinisk molekylärbiologi, Unilabs, Skövde och Adj. Professor, Systems Biology Research Group, Inst. för biovetenskap, Högskolan i Skövde
Molekylärbiologer behöver kunna en del bioinformatik! Bioinformatiker behöver kunna en del molekylärbiologi! Om 5 år: Bioinformatik används inom diagnostik och behövs på varje kliniskt (universitets) laboratorium
NGS inom mikrobiologi i Sverige SciLife lab i Solna (www.scilifelab.se): plattform för klinisk diagnostik (mikrobiologi och humangenetik) Clinical biomarkers, national facility Clinical genomics, national facility Clinical sequencing, national facility, bench-to-bedside services Andra laboratorier: Folhälsomyndigheten FHM, Stockholm Örebro universitets sjukhus Fler lab i Sverige?
Utvecklingsprojekt 2014-2015: Pilotstudie NGS Samarbete mellan Unilabs Skövde, Avd. för infektionssjukdomar på SkaS, Högskolan i Skövde och 1928 Diagnostics Sekvensering och bioinformatisk analys utfördes på SciLifeLab Medel från Unilabs interna FoU-anslag
Bakgrund Sepsisstudien Skaraborg, september 2011- juni 2012 2300 patogena bakterieisolat insamlade: 497 E. coli (9 ESBL) 317 S. aureus (4 MRSA) 245 Streptokocker 1250 andra isolat, många olika arter Alla isolat kommer från patienter inkluderade i sepsisstudien Olika provtyper och provlokaler
Metoderna från studien ska ge oss insikt! Kunskap, teoretiskt och praktiskt, vad NGS/WGS innebär Tid och kostnader Arbetsbelastning på lab Arbetsbelastning för bioinformatisk analys, databearbetning, vilka mjukvaror ska man använda Vilka jämförelser kan man göra Proof of concept, analys utförs av 1928 Diagnostics Dataset som kan användas inom undervisning i bioinformatik på Högskolan i Skövde
Målen med pilotstudien Att genom praktiskt arbete vid SciLifeLab i Solna lära oss om arbetsflödet vid NGSanalys Att få en översikt över arbetsflödet vid analys av NGS-data Att få en förståelse för vilken information man kan få fram vid sekvensering av bakteriegenom Att jämföra genomen mellan E. coli och E. coli ESBL Finns detekterbara skillnader mellan isolat från olika lokaler/ olika sepsispatienter avseende plasmider, virulensmarkörer, resistensgener, fylogenetisk gruppering
Projektplanering 16 matchade patienter (15 pyelonefrit, 1 liggsår) 21 E. coli isolat: 9 ESBL/12 E. coli Urin (15), blod (4), allmän odling (2) Fenotypisk resistensbestämning DNA extraktion på MagnaPure Compact DNA koncentration på Biospec SciLifeLab: Helgenomsekvensering på MiSeq (Illumina) Bioinformatik: Sekvensanalys av NGS datat utförs på SciLifeLab, HiS och 1928Diagnostics Molekylärgenetisk analys inkluderar patogenes, virulens, resistens Statistisk analys av resultat: SPSS
Metoder på SciLifeLab Mätning av dsdna koncentration broad/low range, (Qubit) Nextera XT DNA sample preparation guide (Illumina): Dilution of DNA, DNA measurement Tagmentation of genomic DNA (PCR), library preparation PCR clean up of library fragments Fragment analysis DNA measurement Dilution of amplicon libraries, NaOH treatment (average length, DNA konc) Pooling/dilution of amplicon libraries, sample concentration 12pM in 600 microliter to the instrument Add Illumina sequence control, 1% PhiX Heat denaturation before sequencing
Metoder på SciLifeLab Miseq systems user guide (Illumina): Wash Miseq with Tween 20 before/after run Loading of flow cell, pooled library into reagent cartridge, buffer, waste bottle Load Sample sheet on Miseq (sample ID+tags) Cluster generation in flow cell Sequencing by synthesis (SBS-technology) http://www.illumina.com/t echnology/nextgeneration-sequencing/sequencingtechnology.html Analysis time approx 72 h Up to 25 million reads/run in one flowcell Run QC; length of reads, cluster density www.illumina.com
Bioinformatisk analys av NGS data Rådatat är svart/vita foton från flödescellen (.bcl files) Teoretisk coverage : #reads x read length #samples x genome size Demultiplexing,.fastq files (sample name, tags), forward och reverse Quality trimming, remove tags,.fasta files Assembly av data till contigs (SPAdes genome assembler, RAY) Contigs: dependent on read lenght, coverage Summan av contigs = genomet + plasmider Analysen utförs på assembled datasets (contigs)
Bioinformatisk översikt (UNIX) 1) Bcl FastQ Demultiplexing sample_001_r1_fastq sample_001_r2_fastq 4 rader/read: @miseq-{fc10} {BARCODE} ATGCCGTTAGCCTCTGAA. + i&awt!$... 2) Removal of duplicates, adaptor removal, quality trimming, k-mer 30bp (fastuniq, Seqprep), FastQC report 3) Assembly (SPAdes, RAY) sample_001_contigs.fasta >contig_123 ATGCCGTTAGCCTCTGAA. 4) Tre olika dataset: hela arvsmassan, kromosom, plasmid 5) Analys med gratis mjukvara: Resfinder, Virulencefinder, Plasmidfinder, MLST. 6) Fylogenetisk gruppering med 4 primerpar (Doumith et al JCM 2012)
Mjukvara för NGS-dataanalys http://www.genomicepidemiology.org/ https://cge.cbs.dtn.dk
NGS-dataanalys Referenser tillgängliga för mjukvaran/databasen Dataset: approx 5 MB/sample, contigs > whole genome One bacterial genome approx a few hundred contigs Uploads: assembled contigs, in fasta-format SPAdes: all contigs (chromosomal and plasmids) RAY: all contigs, chromosomal contigs, plasmid contigs (high copy no=more reads) Species finder: 16SrRNA based species identification Pathogen finder: The input organism was predicted as human pathogen, matched family 100%, complete genome reference from NCBI database Resfinder: Select ID threshold (98-100%), minimum length overlap (60%) no results = no resistance genes found Virulence finder: Select species, threshold for ID (98-100%), type of reads Virulence factor, protein function Plasmid finder: Select database, threshold for ID (95-100%), type of reads Plasmid/Locusname or No plasmid replicons found MLST: Select MLST configuration, E coli #1 (7 genes), E coli #2 (8 genes), type of reads (also pmlst available) Typing results ST = Sequence type
Patient Isolate Sample type MLST #1 No. of plasmids >95% No. of virulence genes >98% No. of resistance genes >98% 1 1 E coli ESBL Urine ST-127 No plasmids 8 1 B2 2 2 E coli ESBL Urine ST-10 2 2 8 A 3 3 E coli ESBL Other ST-10 5 4 14 A 4 4 E coli ESBL Urine ST-131 3 6 7 A 5 5 E coli ESBL Blood ST-12 5 8 2 D 6 E coli ESBL Urine ST-12 6 8 9 A 6 7 E coli ESBL Urine ST-38 1 4 3 A 7 8 E coli ESBL Urine ST-69 4 4 11 D 8 9 E coli ESBL Blood ST-156 2 4 2 A 9 10 E coli Urine ST-80 No plasmids 11 0 A 10 11 E coli Urine ST-69 3 6 7 D 11 12 E coli Other ST-744 4 2 10 A 13 E coli Urine ST-744 2 2 10 A 12 14 E coli Urine ST-91 3 5 0 D 13 15 E coli Blood ST-48 No plasmids 2 0 A 16 E coli Urine ST-48 No plasmids 2 0 A 14 17 E coli Urine ST-127 No plasmids 8 0 A 15 18 E coli Urine ST-131 No plasmids 3 0 B1 19 E coli Urine ST-131 No plasmids 3 0 B1 16 20 E coli Blood ST-2448 2 3 5 A 21 E coli Urine ST-2448 2 3 5 A Phylogenetic group
Resultat från analys Par av isolat från samma patient, men olika provlokaler, gav nästan helt identiska resultat för plasmider, resistens, virulens, MLST och fylogenetisk gruppering Ingen signifikant skillnad mellan isolat från olika lokaler 7/21 sekvenser gav E. coli med Speciesfinder, resten gav Failed result (Shigella boydii/e coli) Pathogenfinder föreslog match med E. coli UTI89 complete genome De fyra vanligast förekommande virulensgenerna, iss, prfb, gad, vat, överrensstämde väl med uropatogena E. coli (UPEC) De flesta virulens- och resistensgenerna lokaliserades till plasmiderna Fem av virulensgenerna återfanns i kromosomdatasetet, men 3/5 hittades inte i plasmiddatasetet E. coli ESBL hade (statistiskt signifikant) fler plasmider och resistensgener än E. coli 9/9 E. coli ESBL och 1/12 E. coli hade resistensgener (100% match) mot Beta-lactam antibiotika vilket överensstämde väl med fenotypen 7/12 E. coli hade inga resistensgener De flesta virulens- och resistensgenerna lokaliserades till plasmiderna MLST #1 gav fler ST resultat än MLST#2 Fylogenetisk gruppering stämde väl med övriga resultat
Statistisk analys (SPSS) Isolat Antal isolat Median IQR P-värde* Antal plasmider E. coli ESBL 9 3 4 0,049 (0,147) E. coli 12 1 3 Antal virulensgener E. coli ESBL 9 4 4 0,148 (0,444) E. coli 12 3 4 Antal resistensgener E. coli ESBL 9 7 7 0,049 (0,147) E. coli 12 0 8 IQR= Inter Quartile Range *P värde efter Bonferroni korrigering visas i parentes.
Framtida planer NGS på fler av isolaten insamlade under sepsisstudien Ansökan inskickad till SciLifeLab, Biodiversity, Maj 2015 NGS inom klinisk diagnostik i framtiden?