Generell detektion av patogen med metagenomik Maria Lind Karlberg Björn Hallström Avdelningen för mikrobiologi Enheten för laboratorieutveckling
Hur identifieras en patogen hos en patient med infektion? Brett spektrum av analysmetoder???? Alternativ metod för det okända provet : Mer robust och ospecifik (generell detektion av patogen) Identifiera låga mängder patogen i en komplex värdbakgrund Sid 2.
Vad har alla patogener gemensamt? RNA? protein Sid 3.
Next Generation Sequencing (NGS) Fördelar: Detekterar både odlingsbara och icke odlingsbara agens Kräver liten eller ingen a priori kunskap om patogenen Möjligt att analysera komplext prov bestående av nukleinsyror (DNA eller RNA) från flera olika organismer (och virus): Metagenomisk sekvensering Sid 4.
Metod för generell detektion av patogen: RNA sekvensering (RNA seq) Metagenomisk dataanalys Metagenomisk sekvensering av isolerat RNA från kliniska prover Sid 5.
Metagenomisk sekvensering av RNA RNA (DNA) extraktion Fragmentering Sekvensering Genome A Genome B Genome C Genome D Genome E BLASTn Assembly Reads: >seq1 GCCGTAGCAA N 50-400 >seq2 TATGCCGGTA N 50-400 >seq3 CCAGGTCAAT N 50-400... >seq5742378 TAAGCTGCCT N 50-400 Dataanalys Identifiering Sid 6. 13/06/2016
Hur känslig är metoden? Sid 7.
RNA seq vs RT-qPCR Okänt RNA Humant RNA RT-qPCR*(Cq) 20 20 20 18 20 RNAseq (reads) 10% 5% 50% 50% 75% *kräver rätt RT-qPCR metod Sid 8.
Detektionsgräns (LoD) för RNA seq Prov Virus Provmaterial Cq/kvantitet NGS. Reads per miljon totala reads* Chik1 Chikungunya virus Spikat serum 23 60969 Chik2 Chikungunya virus Spikat serum 27 1121 Chik3 Chikungunya virus Spikat serum 30 3605 Chik4 Chikungunya virus Spikat serum 33 1049 Chik5 Chikungunya virus Spikat serum 36 0,13 Chik6 Chikungunya virus Spikat serum 38 ND Chik7 Chikungunya virus Spikat serum 40 ND Chik8 Chikungunya virus Spikat serum ND ND Viruspool RSV A Spikat serum 17 88411 Viruspool Enterovirus Spikat serum 14 4226 Viruspool Parvovirus Spikat serum 350 cop/µl 0,57* Viruspool Adenovirus Spikat serum 7900 cop/µl 341* Viruspool CMV Spikat serum 2,6 cop/µl 1,44* Infl_1 Influenza A virus Nasopharynx 20 11834 Infl_3 Influenza B virus Nasopharynx 21 52870 Infl_5 Influenza A virus Nasopharynx 29 185 Infl_9 Influenza A virus Nasopharynx 33 ND Infl_11 Influenza A virus Nasopharynx 37 ND LASV1 Lassa virus Serum 36 ND LASV2 Lassa virus Urin 35 ND LASV3 Lassa virus Serum 30 144 Sollentuna 1 Sapovirus Feces ND 46600 Sollentuna 2 Sapovirus Feces ND 467 *540 chip ger 60-90 miljoner reads på 50-250 bp *DNA seq Sid.
Metod för generell detektion av patogen: Art nr 4407 Metagenomik för generell detektion av okänd pathogen Analysen utförs endast efter kontakt med Folkhälsomyndigheten tel 010-205 2444 RNA sekvensering Ion Total RNA-seq kit for the AB Library Builder System (Thermo Fisher Scientific) Whole transcriptome eller small RNA bibliotek Metagenomisk dataanalys Automatisk dataanalys (Kraken) Sid 10.
Dataanalys av metagenomisk sekvensering
Problembeskrivning Stora mängder sekvensdata (10-100 miljoner sekvensläsningar) Stor sökrymd ( alla genomsekvenser) Hög känslighet krävs Bråttom! Sid 12.
Lösning Kraken Mjukvara för ultrasnabb klassificering av reads mot en stor databas av referensgenom. ~1000x snabbare än Megablast, bättre taxonomisk precision och jämförbar känslighet. Sid 13.
Förklaring: K-mer Referensdatabas Människogenomet ~5000 bakteriearter ~5500 virusarter ~100 protozoer ~200 svampar TCGATGGACGGTATGGACGATCG TCGA CGAT GATG ATGG TGGA... Alla 31-merer i referensdatabasen klassificeras till lowest common ancestor (LCA). Exempel: Om en 31-mer finns i någon art av Salmonella och någon art av Escherichia så klassificeras den till Family: Enterobacteriaceae. Sid 14.
Analysflöde, sekvensfiltrering Sekvensdata AATAATAATAATAATAATAATAATAATAAT GATGGCTAAAGTTGCGTACCCAGTTAGAGT TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT ACCTGATTAGACCATTAGCGATTGACTGAC Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads AATAATAATAATAATAATAATAATAATAAT GATGGCTAAAGTTGCGTACCCAGTTAGAGT TTTTTTTTTTTTTTTTTTTTTTTTTTTTTT ACCTGATTAGACCATTAGCGATTGACTGAC Sid 15.
Analysflöde, klassificering Sekvensdata Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads @read1 GATGGCTAAAGTTGCGTACCCAGTTAGAGT K-mer 1: GATGGCTAA - Unclassified K-mer 2: ATGGCTAAA Species A K-mer 3: TGGCTAAAG - Unclassified K-mer 4: GGCTAAAGT Genus B K-mer 5: GCTAAAGTT Species A... LCA-klassificering (Kraken) Read 1 klassificerat till Species A Upprepa för alla X miljoner reads! Sid 16.
Analysflöde, sammanställning Sekvensdata Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads LCA-klassificering (Kraken) Klassificering av alla sekvensläsningar Sammanställning Sid 17.
Analysflöde, validering Sekvensdata Mappning av klassificerade reads till referensgenom Lågkomplexitetsfilter (DUST) Sekvensdata utan lågkomplexa reads LCA-klassificering (Kraken) BLASTa reads/assembly mot NCBI NT Klassificering av alla sekvensläsningar Sammanställning Validering Sid 18.
Fallgropar Falska positiva Inkorrekta sekvenser i referensdatabasen Kontamination??? Falska negativa Referenssekvens saknas i databas Hög divergens från referenssekvens Sid 19.
Tack till MI-LU: Erik Alm Gunnel Lindegren Gabriel Östlund Reza Advani Anna-Lena Hammarin Mattias Mild MI Nina Lagerqvist Thomas Tolfvenstam Kerstin Falk Andreas Bråve Åsa Wiman Tove Samuelsson Per Sikora Steve Glavas Sid 20.