JD
Jiayuan Ding
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(56% Open Access)
Cited by:
7
h-index:
8
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
19

DANCE: A Deep Learning Library and Benchmark Platform for Single-Cell Analysis

Jiayuan Ding et al.Oct 21, 2022
Abstract In the realm of single-cell analysis, computational approaches have brought an increasing number of fantastic prospects for innovation and invention. Meanwhile, it also presents enormous hurdles to reproducing the results of these models due to their diversity and complexity. In addition, the lack of gold-standard benchmark datasets, metrics, and implementations prevents systematic evaluations and fair comparisons of available methods. Thus, we introduce the DANCE platform, the first standard, generic, and extensible benchmark platform for accessing and evaluating computational methods across the spectrum of benchmark datasets for numerous single-cell analysis tasks. Currently, DANCE supports 3 modules and 8 popular tasks with 32 state-of-art methods on 21 benchmark datasets. People can easily reproduce the results of supported algorithms across major benchmark datasets via minimal efforts (e.g., only one command line). In addition, DANCE provides an ecosystem of deep learning architectures and tools for researchers to develop their own models conveniently. The goal of DANCE is to accelerate the development of deep learning models with complete validation and facilitate the overall advancement of single-cell analysis research. DANCE is an open-source python package that welcomes all kinds of contributions. All resources are integrated and available at https://omicsml.ai/ .
0

Graph Contrastive Learning of Subcellular-resolution Spatial Transcriptomics Improves Cell Type Annotation and Reveals Critical Molecular Pathways

Qiaolin Lu et al.Mar 13, 2024
Abstract Imaging based spatial transcriptomics (iST), such as MERFISH, CosMx SMI, and Xenium, quantify gene expression level across cells in space, but more importantly, they directly reveal the subcellular distribution of RNA transcripts at the single-molecule resolution. The subcellular localization of RNA molecules plays a crucial role in the compartmentalization-dependent regulation of genes within individual cells. Understanding the intracellular spatial distribution of RNA for a particular cell type thus not only improves the characterization of cell identity but also is of paramount importance in elucidating unique subcellular regulatory mechanisms specific to the cell type. However, current cell type annotation approaches of iST primarily utilize gene expression information while neglecting the spatial distribution of RNAs within cells. In this work, we introduce a semi-supervised graph contrastive learning method called Focus, the first method, to the best of our knowledge, that explicitly models RNA’s subcellular distribution and community to improve cell type annotation. Focus first constructs gene neighborhood networks based on the subcellular colocalization relationship of RNA transcripts. Next, the subcellular graph of each cell can be augmented by adding important edges and nodes or removing trivial edges and nodes. Focus then aims to maximize the similarity between positive pairs from two augmented views of the same cell and minimize the similarity between negative pairs from different cells within a common batch. Guided by a limited amount of labeled data, Focus is capable of assigning cell type identities for the entire datasets at high accuracy. Extensive experiments demonstrate the effectiveness of Focus compared to existing state-of-the-art approaches across a range of spatial transcriptomics platforms and biological systems. Furthermore, Focus enjoys the advantages of revealing intricate cell type-specific subcellular spatial gene patterns and providing interpretable subcellular gene analysis, such as defining the gene importance score. Importantly, with the importance score, Focus identifies genes harboring strong relevance to cell type-specific pathways, indicating its potential in uncovering novel regulatory programs across numerous biological systems. Focus is freely accessible at https://github.com/OmicsML/focus .
0
Citation1
0
Save
0

SpatialCTD: A Large-Scale Tumor Microenvironment Spatial Transcriptomic Dataset to Evaluate Cell Type Deconvolution for Immuno-Oncology

Jiayuan Ding et al.Aug 8, 2024
Recent technological advancements have enabled spatially resolved transcriptomic profiling but at a multicellular resolution that is more cost-effective. The task of cell type deconvolution has been introduced to disentangle discrete cell types from such multicellular spots. However, existing benchmark datasets for cell type deconvolution are either generated from simulation or limited in scale, predominantly encompassing data on mice and are not designed for human immuno-oncology. To overcome these limitations and promote comprehensive investigation of cell type deconvolution for human immuno-oncology, we introduce a large-scale spatial transcriptomic deconvolution benchmark dataset named SpatialCTD, encompassing 1.8 million cells and 12,900 pseudo spots from the human tumor microenvironment across the lung, kidney, and liver. In addition, SpatialCTD provides more realistic reference than those generated from single-cell RNA sequencing (scRNA-seq) data for most reference-based deconvolution methods. To utilize the location-aware SpatialCTD reference, we propose a graph neural network-based deconvolution method (i.e., GNNDeconvolver). Extensive experiments show that GNNDeconvolver often outperforms existing state-of-the-art methods by a substantial margin, without requiring scRNA-seq data. To enable comprehensive evaluations of spatial transcriptomics data from flexible protocols, we provide an online tool capable of converting spatial transcriptomic data from various platforms (e.g., 10× Visium, MERFISH, and sci-Space) into pseudo spots, featuring adjustable spot size. The SpatialCTD dataset and GNNDeconvolver implementation are available at https://github.com/OmicsML/SpatialCTD, and the online converter tool can be accessed at https://omicsml.github.io/SpatialCTD/.
11

SpatialCTD: a large-scale TME spatial transcriptomic dataset to evaluate cell type deconvolution for immuno-oncology

Jiayuan Ding et al.Apr 12, 2023
Abstract Recent technological advancements have enabled spatially resolved transcriptomic profiling but at multi-cellular resolution. The task of cell type deconvolution has been introduced to disentangle discrete cell types from such multi-cellular spots. However, existing datasets for cell type deconvolution are limited in scale, predominantly encompassing data on mice, and are not designed for human immuno-oncology. In order to overcome these limitations and promote comprehensive investigation of cell type deconvolution for human immuno-oncology, we introduce a large-scale spatial transcriptomic dataset named S patial CTD, encompassing 1.8 million cells from the human tumor microenvironment across the lung, kidney, and liver. Distinct from existing approaches that primarily depend on single-cell RNA sequencing data as a reference without incorporating spatial information, we introduce Graph Neural Network-based method (i.e., GNND econvolver ) that effectively utilize the spatial information from reference samples, and extensive experiments show that GNND econvolver often outperforms existing state-of-the-art methods by a substantial margin, without requiring single-cell RNA-seq data. To enable comprehensive evaluations on spatial transcriptomics data from flexible protocols, we provide an online tool capable of converting spatial transcriptomic data from other platforms (e.g., 10x Visium, MERFISH and sci-Space) into pseudo spots, featuring adjustable spot size. The S patial CTD dataset and GNND econvolver implementation are available at https://github.com/OmicsML/SpatialCTD , and the online converter tool can be accessed at https://omicsml.github.io/SpatialCTD/ .
20

CellPLM: Pre-training of Cell Language Model Beyond Single Cells

Hongzhi Wen et al.Oct 5, 2023
Abstract The current state-of-the-art single-cell pre-trained models are greatly inspired by the success of large language models. They trained transformers by treating genes as tokens and cells as sentences. However, three fundamental differences between single-cell data and natural language data are overlooked: (1) scRNA-seq data are presented as bag-of-genes instead of sequences of RNAs; (2) Cell-cell relations are more intricate and important than inter-sentence relations; and (3) The quantity of single-cell data is considerably inferior to text data, and they are very noisy. In light of these characteristics, we propose a new pre-trained model CellPLM , which takes cells as tokens and tissues as sentences. In addition, we leverage spatially-resolved transcriptomic data in pre-training to facilitate learning cell-cell relationships and introduce a Gaussian mixture prior distribution as an additional inductive bias to overcome data limitation. CellPLM is the first single-cell pre-trained transformer that encodes cell-cell relations and it consistently outperforms existing pre-trained and non-pre-trained models in diverse downstream tasks, with 100x times higher inference speed compared to existing pre-trained models.
0

MEM-GAN: A Pseudo Membrane Generator for Single-cell Imaging in Fluorescent Microscopy

Yixin Wang et al.Jan 1, 2023
Motivation: Fluorescent microscopy imaging is vital to capturing single-cell spatial data, characterizing tissue organization and facilitating comprehensive analysis of cellular state. Advancements in fluorescent microscopy imaging technologies have enabled precise downstream cellular analysis, particularly in cell segmentation. Accurate segmentation of individual cells allows better profiling and understanding of cell properties and behaviors. The majority of existing segmentation methods predominantly concentrate on enhancing segmentation algorithms, and their effectiveness strongly relies on the input stained image quality. Factors such as high cellular density, indistinct cell boundaries, and staining artifacts can result in uneven and low-quality staining, particularly causing missing or unclear membrane staining. These artifacts adversely impact the efficacy of the subsequent cell segmentation methods.Results: To tackle this insufficient membrane staining, we propose a novel approach, MEM-GAN, to generate high-quality membranes for cells with missing or weak membranes. Inspired by advanced style transfer techniques in computer vision, MEM-GAN styles the content of the cells with missing or weak membranes into cells with integrated membrane staining. Considering the differences in membrane morphology between epithelial/tumor cells and immune cells, MEM-GAN deals with tumor and immune cells separately, not only enhancing membrane staining for cells with partially weak membrane signals but also generating membranes for cells with only nuclear channels. The proposed MEM-GAN is evaluated using the publicly available CosMx dataset. Experimental results demonstrate significant improvements in image staining quality, more accurate representation of membrane morphology characteristics, and better performance in downstream segmentation tasks. MEM-GAN is flexibly adapted and applied to other spatially resolved transcriptomics datasets, such as MERFISH and FISHseq. Our work provides a new perspective on tackling the challenges in cell segmentation from fluorescent microscopy image restoration. Availability and implementation: The implementation of MEM-GAN is open-source and available at the github repository https://github.com/OmicsML/Mem-GAN. The interactive webserver-based demo of MEM-GAN can be accessed at https://omicsml.ai/memgan.