JM
Jian Ma
Author with expertise in Regulation of Chromatin Structure and Function
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(77% Open Access)
Cited by:
27
h-index:
27
/
i10-index:
45
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
90

Best Practices for Interpretable Machine Learning in Computational Biology

Valerie Chen et al.Nov 1, 2022
+3
W
M
V
Abstract Advances in machine learning (ML) have enabled the development of next-generation prediction models for complex computational biology problems. These developments have spurred the use of interpretable machine learning (IML) to unveil fundamental biological insights through data-driven knowledge discovery. However, in general, standards and guidelines for IML usage in computational biology have not been well-characterized, representing a major gap toward fully realizing the potential of IML. Here, we introduce a workflow on the best practices for using IML methods to perform knowledge discovery which covers verification strategies that bridge data, prediction model, and explanation. We outline a workflow incorporating these verification strategies to increase an IML method’s accountability, reliability, and generalizability. We contextualize our proposed workflow in a series of widely applicable computational biology problems. Together, we provide an extensive workflow with important principles for the appropriate use of IML in computational biology, paving the way for a better mechanistic understanding of ML models and advancing the ability to discover novel biological phenomena.
1

Genome-wide analysis of the interplay between chromatin-associated RNA and 3D genome organization in human cells

Riccardo Calandrelli et al.Jun 11, 2021
+17
W
C
R
Abstract The interphase genome is dynamically organized in the nucleus and decorated with chromatin-associated RNA (caRNA). It remains unclear whether the genome architecture modulates the spatial distribution of caRNA and vice versa. Here, we generate a resource of genome-wide RNA-DNA and DNA-DNA contact maps in human cells. These maps reveal the chromosomal domains demarcated by locally transcribed RNA, hereafter termed RNA-defined chromosomal domains. Further, the spreading of caRNA is constrained by the boundaries of topologically associating domains (TADs), demonstrating the role of the 3D genome structure in modulating the spatial distribution of RNA. Conversely, stopping transcription or acute depletion of RNA induces thousands of chromatin loops genome-wide. Activation or suppression of the transcription of specific genes suppresses or creates chromatin loops straddling these genes. Deletion of a specific caRNA-producing genomic sequence promotes chromatin loops that straddle the interchromosomal target sequences of this caRNA. These data suggest a feedback loop where the 3D genome modulates the spatial distribution of RNA, which in turn affects the dynamic 3D genome organization.
1
Citation5
0
Save
0

Concurrent profiling of multiscale 3D genome organization and gene expression in single mammalian cells

Tianming Zhou et al.Jul 25, 2023
+8
X
Z
T
Abstract The organization of mammalian genomes within the nucleus features a complex, multiscale three-dimensional (3D) architecture. The functional significance of these 3D genome features, however, remains largely elusive due to limited single-cell technologies that can concurrently profile genome organization and transcriptional activities. Here, we report GAGE-seq, a highly scalable, robust single-cell co-assay that simultaneously measures 3D genome structure and transcriptome within the same cell. Employing GAGE-seq on mouse brain cortex and human bone marrow CD34+ cells, we comprehensively characterized the intricate relationships between 3D genome and gene expression. We found that these multiscale 3D genome features collectively inform cell type-specific gene expressions, hence contributing to defining cell identity at the single-cell level. Integration of GAGE-seq data with spatial transcriptomic data revealed in situ variations of the 3D genome in mouse cortex. Moreover, our observations of lineage commitment in normal human hematopoiesis unveiled notable discordant changes between 3D genome organization and gene expression, underscoring a complex, temporal interplay at the single-cell level that is more nuanced than previously appreciated. Together, GAGE-seq provides a powerful, cost-effective approach for interrogating genome structure and gene expression relationships at the single-cell level across diverse biological contexts.
0
Citation4
0
Save
38

Concert: Genome-wide prediction of sequence elements that modulate DNA replication timing

Yang� Yang et al.Apr 22, 2022
+2
Y
Y
Y
Abstract Proper control of replication timing (RT) is of vital importance to maintain genome and epigenome integrity. However, the genome-wide sequence determinants regulating RT remain unclear. Here, we develop a new machine learning method, named C oncert , to simultaneously predict RT from sequence features and identify RT-modulating sequence elements in a genome-wide manner. C oncert integrates two functionally cooperative modules, a selector, which performs importance estimationbased sampling to detect predictive sequence elements, and a predictor, which incorporates bidirectional recurrent neural networks and self-attention mechanism to achieve selective learning of longrange spatial dependencies across genomic loci. We apply C oncert to predict RT in mouse embryonic stem cells and multiple human cell types with high accuracy. The identified RT-modulating sequence elements show novel connections with genomic and epigenomic features such as 3D chromatin interactions. In particular, C oncert reveals a class of RT-modulating elements that are not transcriptional regulatory elements but are enriched with specific repetitive sequences. As a generic interpretable machine learning framework for predicting large-scale functional genomic profiles based on sequence features, C oncert provides new insights into the potential sequence determinants of RT.
38
Citation3
0
Save
25

scGHOST: Identifying single-cell 3D genome subcompartments

Kyle Xiong et al.May 25, 2023
J
R
K
Abstract New single-cell Hi-C (scHi-C) technologies enable probing of the genome-wide cell-to-cell variability in 3D genome organization from individual cells. Several computational methods have been developed to reveal single-cell 3D genome features based on scHi-C data, including A/B compartments, topologically-associating domains, and chromatin loops. However, no scHi-C analysis method currently exists for annotating single-cell subcompartments, which are crucial for providing a more refined view of large-scale chromosome spatial localization in single cells. Here, we present SCGHOST, a single-cell subcompartment annotation method based on graph embedding with constrained random walk sampling. Applications of SCGHOST to scHi-C data and single-cell 3D genome imaging data demonstrate the reliable identification of single-cell subcompartments and offer new insights into cell-to-cell variability of nuclear subcompartments. Using scHi-C data from the human prefrontal cortex, SCGHOST identifies cell type-specific subcompartments that are strongly connected to cell type-specific gene expression, suggesting the functional implications of single-cell subcompartments. Overall, SCGHOST is an effective new method for single-cell 3D genome subcompartment annotation based on scHi-C data for a broad range of biological contexts.
25
Citation2
0
Save
1

Ultrafast and interpretable single-cell 3D genome analysis with Fast-Higashi

Ruochi Zhang et al.Apr 19, 2022
J
T
R
Abstract Single-cell Hi-C (scHi-C) technologies can probe three-dimensional (3D) genome structures in single cells and their cell-to-cell variability. However, existing scHi-C analysis methods are hindered by the data quality and the complex 3D genome patterns. The lack of computational scalability and interpretability poses further challenges for large-scale scHi-C analysis. Here, we introduce Fast-Higashi, an ultrafast and interpretable method based on tensor decomposition that can jointly identify cell identities and chromatin meta-interactions. Fast-Higashi is able to simultaneously model multiple tensors with unmatched features of different sizes. A new partial random walk with restart (Partial RWR) algorithm in Fast-Higashi efficiently mitigates data sparseness. Extensive evaluations on real scHi-C datasets demonstrate the advantage of Fast-Higashi over existing methods for embedding, leading to improved delineation of rare cell types and better reconstruction of developmental trajectories. Fast-Higashi can directly infer chromatin meta-interactions, identify 3D genome features that define distinct cell types, and help elucidate cell type-specific connections between genome structure and function. Moreover, Fast-Higashi can be generalized to incorporate other single-cell omics data. Fast-Higashi provides a highly efficient and interpretable scHi-C analysis solution that is applicable to a broad range of biological contexts.
1
Citation2
0
Save
180

Nucleome Browser: An integrative and multimodal data navigation platform for 4D Nucleome

Xiaopeng Zhu et al.Feb 22, 2022
+4
Y
Y
X
Abstract We introduce Nucleome Browser ( http://www.nucleome.org ), an interactive, multimodal data visualization and exploration platform for 4D Nucleome research. Our tool effectively integrates heterogeneous datasets (e.g., genomics, imaging, 3D genome structure models, and single-cell data) and external data portals by a new adaptive communication mechanism. Nucleome Browser provides a scalable solution for integrating massive amounts of 4D Nucleome data to navigate multiscale nuclear structure and function in a wide range of biological contexts, enabling hypothesis generation and data sharing with the broad community.
180
Citation1
0
Save
0

MOCHI enables discovery of heterogeneous interactome modules in 3D nucleome

Dechao Tian et al.Feb 7, 2019
+2
Y
R
D
The composition of the cell nucleus is highly heterogeneous, with different constituents forming complex interactomes. However, the global patterns of these interwoven heterogeneous interactomes remain poorly understood. Here we focus on two different interactomes, chromatin interaction network and gene regulatory network, as a proof-of-principle, to identify heterogeneous interactome modules (HIMs) in the nucleus. Each HIM represents a cluster of gene loci that are in spatial contact more frequently than expected and that are regulated by the same group of transcription factor proteins. We develop a new algorithm MOCHI to facilitate the discovery of HIMs based on network motif clustering in heterogeneous interactomes. By applying MOCHI to five different cell types, we found that HIMs have strong spatial preference within the nucleus and exhibit distinct functional properties. Through integrative analysis, this work demonstrates the utility of MOCHI to identify HIMs, which may provide new perspectives on 3D genome organization and function.
7

PhyGCN: Pre-trained Hypergraph Convolutional Neural Networks with Self-supervised Learning

Yihe Deng et al.Jan 1, 2023
+3
P
J
Y
Hypergraphs are powerful tools for modeling complex interactions across various domains, including biomedicine. However, learning meaningful node representations from hypergraphs remains a challenge. Existing supervised methods often lack generalizability, thereby limiting their real-world applications. We propose a new method, Pre-trained Hypergraph Convolutional Neural Networks with Self-supervised Learning (PhyGCN), which leverages hypergraph structure for self-supervision to enhance node representations. PhyGCN introduces a unique training strategy that integrates variable hyperedge sizes with self-supervised learning, enabling improved generalization to unseen data. Applications on multi-way chromatin interactions and polypharmacy side-effects demonstrate the effectiveness of PhyGCN. As a generic framework for high-order interaction datasets with abundant unlabeled data, PhyGCN holds strong potential for enhancing hypergraph node representations across various domains.
35

SPICEMIX: Integrative single-cell spatial modeling of cell identity

Benjamin Chidester et al.Nov 30, 2020
J
S
T
B
Abstract Spatial transcriptomics technologies promise to reveal spatial relationships of cell-type composition in complex tissues. However, the development of computational methods that can utilize the unique properties of spatial transcriptome data to unveil cell identities remains a challenge. Here, we introduce S pice M ix , a new interpretable method based on probabilistic, latent variable modeling for effective joint analysis of spatial information and gene expression from spatial transcriptome data. Both simulation and real data evaluations demonstrate that S pice M ix markedly improves upon the inference of cell types and their spatial patterns compared with existing approaches. By applying to spatial transcriptome data of brain regions in human and mouse acquired by seqFISH+, STARmap, and Visium, we show that S pice M ix can enhance the inference of complex cell identities, reveal interpretable spatial metagenes, and uncover differentiation trajectories. S pice M ix is a generalizable framework for analyzing spatial transcriptome data to provide critical insights into the cell type composition and spatial organization of cells in complex tissues.
35
0
Save
Load More