MX
Mengyang Xu
Author with expertise in RNA Sequencing Data Analysis
BGI Group (China), Hong Kong University of Science and Technology, Jiangsu University
+ 11 more
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
11
(27% Open Access)
Cited by:
2
h-index:
21
/
i10-index:
45
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
14

MetaTrass: High-quality metagenome assembly on the human gut microbiome by co-barcoding sequencing reads

Yanwei Qi et al.Oct 24, 2023
+9
Y
S
Y
Abstract With the development of sequencing technologies and computational analysis in metagenomics, the genetic diversity of non-conserved regions has been receiving intensive attention to unravel the human gut microbial community. However, it remains a challenge to obtain enough microbial draft genomes at a high resolution from a single sample. In this work, we presented MetaTrass with a strategy of binning first and assembling later to assemble high-quality draft genomes based on metagenomics co-barcoding reads and the public reference genomes. We applied the tool to the single tube long fragment reads datasets for four human faecal samples, and generated more high-quality draft genomes with longer contiguity and higher resolution than the common combination strategies of genome assembling and binning. A total of 178 high-quality genomes was successfully assembled by MetaTrass, but the maximum of 58 was generated by the optimal common combination strategy in our tests. These high-quality genomes paved the way for genetic diversity and lineage analysis among different samples. With the high capability of assembling high-quality genomes of metagenomics datasets, MetaTrass will facilitate the study of spatial characters and dynamics of complex microbial communities at high resolution. The open-source code of MetaTrass is available at https://github.com/BGI-Qingdao/MetaTrass .
14
Citation1
0
Save
0

Effect of oral tryptamines on the gut microbiome of rats—a preliminary study

Mengyang Xu et al.Sep 6, 2024
+2
J
A
M
Background Psilocybin and related tryptamines have come into the spotlight in recent years as potential therapeutics for depression. Research on the mechanisms of these effects has historically focused on the direct effects of these drugs on neural processes. However, in addition to such neural effects, alterations in peripheral physiology may also contribute to their therapeutic effects. In particular, substantial support exists for a gut microbiome-mediated pathway for the antidepressant efficacy of other drug classes, but no prior studies have determined the effects of tryptamines on microbiota. Methods To address this gap, in this preliminary study, male Long Evans rats were treated with varying dosages of oral psilocybin (0.2 or 2 mg/kg), norbaeocystin (0.25 or 2.52 mg/kg), or vehicle and their fecal samples were collected 1 week and 3 weeks after exposure for microbiome analysis using integrated 16S ribosomal DNA sequencing to determine gut microbiome composition. Results We found that although treatment with neither psilocybin nor norbaeocystin significantly affected overall microbiome diversity, it did cause significant dose- and time-dependent changes in bacterial abundance at the phylum level, including increases in Verrucomicrobia and Actinobacteria , and decreases in Proteobacteria . Conclusion and Implications These preliminary findings support the idea that psilocybin and other tryptamines may act on the gut microbiome in a dose- and time-dependent manner, potentially identifying a novel peripheral mechanism for their antidepressant activity. The results from this preliminary study also suggest that norbaeocystin may warrant further investigation as a potential antidepressant, given the similarity of its effects to psilocybin.
0
Citation1
0
Save
0

Comparison of long read methods for sequencing and assembly of a plant genome

Valentine Murigneux et al.May 7, 2020
+16
A
S
V
Sequencing technologies have advanced to the point where it is possible to generate high accuracy, haplotype resolved, chromosome scale assemblies. Several long read sequencing technologies are available on the market and a growing number of algorithms have been developed over the last years to assemble the reads generated by those technologies. When starting a new genome project, it is therefore challenging to select the most cost-effective sequencing technology as well as the most appropriate software for assembly and polishing. For this reason, it is important to benchmark different approaches applied to the same sample. Here, we report a comparison of three long read sequencing technologies applied to the de novo assembly of a plant genome, Macadamia jansenii . We have generated sequencing data using Pacific Biosciences (Sequel I), Oxford Nanopore Technologies (PromethION) and BGI (single-tube Long Fragment Read) technologies for the same sample. Several assemblers were benchmarked in the assembly of PacBio and Nanopore reads. Results obtained from combining long read technologies or short read and long read technologies are also presented. The assemblies were compared for contiguity, accuracy and completeness as well as sequencing costs and DNA material requirements. Overall, the three long read technologies produced highly contiguous and complete genome assemblies of Macadamia jansenii . At the time of sequencing, the cost associated with each method was significantly different but continuous improvements in technologies have resulted in greater accuracy, increased throughput and reduced costs. We propose updating this comparison regularly with reports on significant iterations of the sequencing technologies.
0

SpaGRN: investigating spatially informed regulatory paths for spatially resolved transcriptomics data

Yao Li et al.Nov 20, 2023
+6
L
X
Y
Cells expressing similar transcriptional regulatory circuits spatially aggregate into distinct cell types or states. However, most existing methods for inferring gene regulatory networks from spatially resolved transcriptomics are devoted to spatial co-expression modules or interactions between transcription factors and target genes, neglecting mediated effects from extracellular signals. Here we introduce SpaGRN, a statistical framework for predicting the comprehensive intracellular regulatory network underlying spatial patterns by integrating spatial expression profiles with prior knowledge on regulatory relationships and signaling paths. We validate and assess SpaGRN using simulated and real datasets, demonstrating its efficiency, performance, and robustness. When applied to 3D datasets of developing Drosophila embryos and larvae, SpaGRN identifies spatiotemporal variations in specific regulatory patterns, delineating the cascade of events from receptor stimulation to downstream transcription factors and targets, revealing synergetic regulation mechanism during organogenesis. Moreover, SpaGRN provides flexible visualization functions. We construct an online 3D regulatory network atlas database for interactive exploration and sharing.
0

SLR-superscaffolder: a de novo scaffolding tool for synthetic long reads using a top-to-bottom scheme

Lidong Guo et al.May 7, 2020
+8
W
M
L
Synthetic long read (SLR) sequencing technologies, such as stLFR co-barcoded reads and 10X genomics linked-reads, have recently been developed and widely applied in genomics research. Here, we developed the SLR-superscaffolder, a standalone scaffolding tool for general synthetic long reads, with a top-to-bottom scheme where long fragment reads information is firstly used in large-scale scaffolding and followed by the paired-end information used in local scaffolding, to effectively use the SLR information. We tested SLR-superscaffolder power to assemble the human genome from three data resources. For instance, using the draft assembly with contig NG50 of 13 kb generated from 64-fold stLFR co-barcoded reads, SLR-superscaffolder significantly improved its scaffold NG50 to 15 Mb. Based on the draft assembly with scaffold NG50 of 58kb using 20-fold PCR-free NGS data, its scaffold NG50 was also drastically increased to 8 Mb. For the draft assembly with contig NG50 of 6.6 Mb from about 30-fold Oxford Nanopore long reads, SLR-superscaffolder presented a notable improvement in scaffold polishing with a scaffold NG50 of 21 Mb. Furthermore, comparing with other available SLR scaffolding tools, SLR-superscaffolder could produce an assembly with the highest quality of the longest contiguity and the least errors. Thanks to the valuable long-range information provided by SLR, SLR-superscaffolder shows a broad range of applications in the genome assembly. The source code is accessible on GitHub (https://github.com/BGI-Qingdao/SLR-superscaffolder).
0
0
Save
0

Stereopy: modeling comparative and spatiotemporal cellular heterogeneity via multi-sample spatial transcriptomics

Shuangsang Fang et al.Dec 6, 2023
+34
L
M
S
Tracing cellular dynamic changes across conditions, time, and space is crucial for understanding the molecular mechanisms underlying complex biological systems. However, integrating multi-sample data in a unified and flexible way to explore cellular heterogeneity remains a major challenge. Here, we present Stereopy, a flexible and versatile framework for modeling and dissecting comparative and spatiotemporal patterns in multi-sample spatial transcriptomics with interactive data visualization. To optimize this flexible framework, we have developed three key components: a multi-sample tailored data container, a scope controller, and an analysis transformer. Furthermore, Stereopy showcases three transformative applications supported by pivotal algorithms. Firstly, the multi-sample cell community detection (CCD) algorithm introduces an innovative capability to detect specific cell communities and identify genes responsible for pathological changes in comparable datasets. Secondly, the spatially resolved temporal gene pattern inference (TGPI) algorithm represents a notable advancement in detecting important spatiotemporal gene patterns while concurrently considering spatial and temporal features, which enhances the identification of important genes, domains and regulatory factors closely associated with temporal datasets. Finally, the 3D niche-based regulation inference tool, named NicheReg3D, reconstructs the 3D cell niches to enable the inference of cell-gene interaction network within the spatial texture, thus bridging intercellular communications and intracellular regulations to unravel the intricate regulatory mechanisms that govern cellular behavior. Overall, Stereopy serves as both a bioinformatics toolbox and an extensible framework that provides researchers with enhanced data interpretation abilities and new perspectives for mining multi-sample spatial transcriptomics data.
0

ST-GEARS: Advancing 3D Downstream Research through Accurate Spatial Information Recovery

Tianyi Xia et al.Dec 11, 2023
+16
L
L
T
Three-dimensional Spatial Transcriptomics has revolutionized our understanding of tissue regionalization, organogenesis, and development. However, to reconstruct single sections back to their in situ three-dimensional morphology, existing approaches either neglect experiment-induced section distortions, or fail to account for structural consistency during reconstruction. This leads to significant discrepancies between reconstruction results and the actual in vivo locations of cells, imposing unreliable spatial profiles to downstream analysis. To address these challenges, we propose ST-GEARS (Spatial Transcriptomics GEospatial profile recovery system through AnchoRS), which solves optimized "anchors" between in situ closest spots utilizing expressional and structural similarity across sections and recovers in vivo spatial information under the guidance of anchors. By employing innovative Distributive Constraints into the Optimization scheme, it retrieves more precise anchors compared to existing methods. Taking these anchors as reference points, ST-GEARS first rigidly aligns sections, then introduces and infers Elastic Fields to counteract distortions. ST-GEARS denoises the fields using context information by Gaussian Denoising. Utilizing the denoised fields, it eliminates distortions and eventually recovers original spatial profile through innovative and mathematically proved Bi-sectional Fields Application. Studying ST-GEARS on both bi-sectional registration and complete tissue reconstruction across sectional distances and sequencing platforms, we observed its outstanding performance in spatial information recovery across tissue, cell, and gene levels compared to current approaches. Through this recovery, ST-GEARS provides a precise and well-explainable bridge between in vitro analysis and 3D in vivo situations, powerfully fueling the potential of biological discoveries.
0

Draft genome of a porcupinefish, Diodon Holocanthus

Mengyang Xu et al.May 7, 2020
+5
M
X
M
The long-spine porcupinefish, Diodon holocanthus (Diodontidae, Tetraodontiformes, Actinopterygii), also known as the freckled porcupinefish, attracts great interest of ecology and economy. Its distinct characteristics including inflation reaction, spiny skin and tetradotoxin, however, have not been fully studied without a complete genome assembly.In this study, the whole genome of a single individual was sequenced using single tube-Long Fragment Read co-barcode reads, generating 154.3 Gb of paired-end data (219.8× depth). The gap was further filled using small amount of Oxford Nanopore MinION long read dataset (11.4Gb, 15.9× depth). Taking full use of long, medium, short-range of genome assembly information, the final assembled sequences with a total length of 650.02 Mb obtained contig and scaffold N50 sizes of 2.15 Mb and 8.13 Mb, respectively, despite of high repetitive content. Benchmarking Universal Single-Copy Orthologs captured 95.7% (2,474) of core genes to assess the completeness. In addition, 206.5 Mb (32.10%) of repetitive sequences were identified, and 20,840 protein-coding genes were annotated, among which 18,281 (87.72%) proteins were assigned with possible functions.This is the first demonstration of de novo genome of the porcupinefish, which will benefit downstream analysis of ontogeny, phylogeny, and evolution, and improve the exploration of its unique defensive mechanism.
0
0
Save
7

Symbiont-Screener: a reference-free filter to automatically separate host sequences and contaminants for long reads or co-barcoded reads by unsupervised clustering

Mengyang Xu et al.Oct 24, 2023
+4
C
L
M
Abstract Decontamination is necessary for eliminating the effect of foreign genomes on the symbiont studies and biomedical discoveries. However, direct extraction of host sequencing reads with no references remains challenging. Here, we present a triobased method to classify the host error-prone long reads or sparse co-barcoded reads prior to assembly, free of any alignments against DNA or protein references. This method first identifies high-confident host reads by haplotype-specific k -mers inherited from parents, and then groups remaining host reads by the unsupervised clustering. Experimental results demonstrated that this approach successfully classified up to 97.38% of the host human long reads with the precision rate of 99.9999%, and 79.95% host co-barcoded reads with the precision rate of 98.36% using an artificially mixed data. Moreover, the tool also exhibited a good performance on the decontamination of the real algae data. The purified reads reconstructed two haplotypes and improved the assembly with larger contig NGA50 value and less misassemblies. Symbiont-Screener can be freely downloaded at https://github.com/BGI-Qingdao/Symbiont-Screener .
7

Designing efficient randstrobes for sequence similarity analyses

M Karami et al.Oct 16, 2023
+7
M
A
M
Substrings of length k, commonly referred to as k-mers, play a vital role in sequence analysis, reducing the search space by providing anchors between queries and references. However, k-mers are limited to exact matches between sequences. This has led to alternative constructs, such as spaced k-mers, that can match across substitutions. We recently introduced a class of new constructs, strobemers, that can match across substitutions and smaller insertions and deletions. Randstrobes, the most sensitive strobemer proposed in (Sahlin, 2021), has been incorporated into several bioinformatics applications such as read classification, short read mapping, and read overlap detection. Randstrobes are constructed by linking together k-mers in a pseudo-random fashion and depend on a hash function, a link function, and a comparator for their construction. Recently, we showed that the more random this linking appears (measured in entropy), the more efficient the seeds for sequence similarity analysis. The level of pseudo-randomness will depend on the hashing, linking, and comparison operators. However, no study has investigated the efficacy of the underlying operators to produce randstrobes. In this study, we propose several new construction methods. One of our proposed methods is based on a Binary Search Tree (BST), which lowers the time complexity and practical runtime to other methods for some parametrizations. To our knowledge, we are also the first to describe and study the types of biases that occur during construction. We designed three metrics to measure the bias. Using these new evaluation metrics, we uncovered biases and limitations in previous methods and showed that our proposed methods have favorable speed and sampling uniformity to previously proposed methods. Lastly, guided by our results, we change the seed construction in strobealign, a short-read mapper, and find that the results change substantially. Also, we suggest combining the two versions to improve accuracy for the shortest reads in our evaluated datasets. Our evaluation highlights sampling biases that can occur and provides guidance on which operators to use when implementing randstrobes.
Load More