CY
Chao Yang
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
8
h-index:
31
/
i10-index:
72
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Exploring high-quality microbial genomes by assembling short-reads with long-range connectivity

Zhenmiao Zhang et al.May 31, 2024
Abstract Although long-read sequencing enables the generation of complete genomes for unculturable microbes, its high cost limits the widespread adoption of long-read sequencing in large-scale metagenomic studies. An alternative method is to assemble short-reads with long-range connectivity, which can be a cost-effective way to generate high-quality microbial genomes. Here, we develop Pangaea, a bioinformatic approach designed to enhance metagenome assembly using short-reads with long-range connectivity. Pangaea leverages connectivity derived from physical barcodes of linked-reads or virtual barcodes by aligning short-reads to long-reads. Pangaea utilizes a deep learning-based read binning algorithm to assemble co-barcoded reads exhibiting similar sequence contexts and abundances, thereby improving the assembly of high- and medium-abundance microbial genomes. Pangaea also leverages a multi-thresholding algorithm strategy to refine assembly for low-abundance microbes. We benchmark Pangaea on linked-reads and a combination of short- and long-reads from simulation data, mock communities and human gut metagenomes. Pangaea achieves significantly higher contig continuity as well as more near-complete metagenome-assembled genomes (NCMAGs) than the existing assemblers. Pangaea also generates three complete and circular NCMAGs on the human gut microbiomes.
0
Citation3
0
Save
26

Benchmarking de novo assembly methods on metagenomic sequencing data

Zhenmiao Zhang et al.May 24, 2022
ABSTRACT Metagenome assembly is an efficient approach to deciphering the “microbial dark matter” in the microbiota based on metagenomic sequencing, due to the technical challenges involved in isolating and culturing all microbes in vitro. Although short-read sequencing has been widely used for metagenome assembly, linked- and long-read sequencing have shown their advancements by providing long-range DNA connectedness in assembly. Many metagenome assembly tools use dedicated algorithms to simplify the assembly graphs and resolve the repetitive sequences in microbial genomes. However, there remains no comprehensive evaluation of the pros and cons of various metagenomic sequencing technologies in metagenome assembly, and there is a lack of practical guidance on selecting the appropriate metagenome assembly tools. Therefore, this paper presents a comprehensive benchmark of 15 de novo assembly tools applied to 32 metagenomic sequencing datasets obtained from simulation, mock communities, or human stool samples. These datasets were generated using mainstream sequencing platforms, such as Illumina and BGISEQ short-read sequencing, 10x Genomics linked-read sequencing, and PacBio and Oxford Nanopore long-read sequencing. The assembly tools were extensively evaluated against many criteria, which revealed that compared with the other sequencing technologies, long-read assemblers generated the highest contig continuity but failed to reveal some medium- and high-quality metagenome-assembled genomes (MAGs). In addition, hybrid assemblers using both short- and long-read sequencing were promising tools to both improve contig continuity and increase the number of near-complete MAGs. This paper also discussed the running time and peak memory consumption of these tools and provided practical guidance on selecting them.
26
Citation2
0
Save
13

LRTK: A platform agnostic toolkit for linked-read analysis of both human genomes and metagenomes

Chao Yang et al.Aug 13, 2022
Abstract Linked-read sequencing technologies generate high base quality reads that contain extrapolative information on long-range DNA connectedness. These advantages of linked-read technologies are well known and has been demonstrated in many human genomic and metagenomic studies. However, existing linked-read analysis pipelines (e.g., Long Ranger) were primarily developed to process sequencing data from the human genome and are not suited for analyzing metagenomic sequencing data. Moreover, linked-read analysis pipelines are typically limited to one specific sequencing platform. To address these limitations, we present the Linked-Read ToolKit (LRTK), a unified and versatile toolkit for platform agnostic processing of linked-read sequencing data from both human genomes and metagenomes. LRTK provides functions to perform linked-read simulation, barcode error correction, read cloud assembly, barcode-aware read alignment, reconstruction of long DNA fragments, taxonomic classification and quantification, as well as barcode-assisted genomic variant calling and phasing. LRTK has the ability to process multiple samples automatically, and provides the user with the option to generate reproducible reports during processing of raw sequencing data and at multiple checkpoints throughout downstream analysis. We applied LRTK on two benchmarking and three real linked-read data sets from both the human genome and metagenome. We showcase LRTK’s ability to generate comparative performance results from the preceding benchmark study and to report these results in publication-ready HTML document plots. LRTK provides comprehensive and flexible modules along with an easy-to-use Python-based workflow for processing linked-read sequencing datasets, thereby filling the current gap in the field caused by platform-centric genome-specific linked-read data analysis tools.
13
Citation1
0
Save