SZ
Shihua Zhang
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
34
(68% Open Access)
Cited by:
1,730
h-index:
39
/
i10-index:
113
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Discovery of multi-dimensional modules by integrative analysis of cancer genomic data

Shihua Zhang et al.Aug 8, 2012
Recent technology has made it possible to simultaneously perform multi-platform genomic profiling (e.g. DNA methylation (DM) and gene expression (GE)) of biological samples, resulting in so-called ‘multi-dimensional genomic data’. Such data provide unique opportunities to study the coordination between regulatory mechanisms on multiple levels. However, integrative analysis of multi-dimensional genomics data for the discovery of combinatorial patterns is currently lacking. Here, we adopt a joint matrix factorization technique to address this challenge. This method projects multiple types of genomic data onto a common coordinate system, in which heterogeneous variables weighted highly in the same projected direction form a multi-dimensional module (md-module). Genomic variables in such modules are characterized by significant correlations and likely functional associations. We applied this method to the DM, GE, and microRNA expression data of 385 ovarian cancer samples from the The Cancer Genome Atlas project. These md-modules revealed perturbed pathways that would have been overlooked with only a single type of data, uncovered associations between different layers of cellular activities and allowed the identification of clinically distinct patient subgroups. Our study provides an useful protocol for uncovering hidden patterns and their biological implications in multi-dimensional ‘omic’ data.
0
Citation321
0
Save
0

Deciphering spatial domains from spatially resolved transcriptomics with an adaptive graph attention auto-encoder

Kangning Dong et al.Apr 1, 2022
Abstract Recent advances in spatially resolved transcriptomics have enabled comprehensive measurements of gene expression patterns while retaining the spatial context of the tissue microenvironment. Deciphering the spatial context of spots in a tissue needs to use their spatial information carefully. To this end, we develop a graph attention auto-encoder framework STAGATE to accurately identify spatial domains by learning low-dimensional latent embeddings via integrating spatial information and gene expression profiles. To better characterize the spatial similarity at the boundary of spatial domains, STAGATE adopts an attention mechanism to adaptively learn the similarity of neighboring spots, and an optional cell type-aware module through integrating the pre-clustering of gene expressions. We validate STAGATE on diverse spatial transcriptomics datasets generated by different platforms with different spatial resolutions. STAGATE could substantially improve the identification accuracy of spatial domains, and denoise the data while preserving spatial expression patterns. Importantly, STAGATE could be extended to multiple consecutive sections to reduce batch effects between sections and extracting three-dimensional (3D) expression domains from the reconstructed 3D tissue effectively.
0
Paper
Citation254
0
Save
0

A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules

Shihua Zhang et al.Jun 14, 2011
It is well known that microRNAs (miRNAs) and genes work cooperatively to form the key part of gene regulatory networks. However, the specific functional roles of most miRNAs and their combinatorial effects in cellular processes are still unclear. The availability of multiple types of functional genomic data provides unprecedented opportunities to study the miRNA-gene regulation. A major challenge is how to integrate the diverse genomic data to identify the regulatory modules of miRNAs and genes.Here we propose an effective data integration framework to identify the miRNA-gene regulatory comodules. The miRNA and gene expression profiles are jointly analyzed in a multiple non-negative matrix factorization framework, and additional network data are simultaneously integrated in a regularized manner. Meanwhile, we employ the sparsity penalties to the variables to achieve modular solutions. The mathematical formulation can be effectively solved by an iterative multiplicative updating algorithm. We apply the proposed method to integrate a set of heterogeneous data sources including the expression profiles of miRNAs and genes on 385 human ovarian cancer samples, computationally predicted miRNA-gene interactions, and gene-gene interactions. We demonstrate that the miRNAs and genes in 69% of the regulatory comodules are significantly associated. Moreover, the comodules are significantly enriched in known functional sets such as miRNA clusters, GO biological processes and KEGG pathways, respectively. Furthermore, many miRNAs and genes in the comodules are related with various cancers including ovarian cancer. Finally, we show that comodules can stratify patients (samples) into groups with significant clinical characteristics.The program and supplementary materials are available at http://zhoulab.usc.edu/SNMNMF/.xjzhou@usc.edu; zsh@amss.ac.cn
0
Citation237
0
Save
8

Deciphering spatial domains from spatially resolved transcriptomics with adaptive graph attention auto-encoder

Kangning Dong et al.Aug 23, 2021
ABSTRACT Recent advances in spatially resolved transcriptomics have enabled comprehensive measurements of gene expression patterns while retaining the spatial context of the tissue microenvironment. Deciphering the spatial context of spots in a tissue needs to use their spatial information carefully. To this end, we developed a graph attention auto-encoder framework STAGATE to accurately identify spatial domains by learning low-dimensional latent embeddings via integrating spatial information and gene expression profiles. To better characterize the spatial similarity at the boundary of spatial domains, STAGATE adopts an attention mechanism to adaptively learn the similarity of neighboring spots, and an optional cell type-aware module through integrating the pre-clustering of gene expressions. We validated STAGATE on diverse spatial transcriptomics datasets generated by different platforms with different spatial resolutions. STAGATE could substantially improve the identification accuracy of spatial domains, and denoise the data while preserving spatial expression patterns. Importantly, STAGATE could be extended to multiple consecutive sections to reduce batch effects between sections and extracting three-dimensional (3D) expression domains from the reconstructed 3D tissue effectively.
8
Paper
Citation13
0
Save
7

STAMarker: Determining spatial domain-specific variable genes with saliency maps in deep learning

Chihao Zhang et al.Nov 8, 2022
Abstract Spatial transcriptomics characterizes gene expression profiles while retaining the information of the spatial context, providing an unprecedented opportunity to understand cellular systems. One of the essential tasks in such data analysis is to determine spatially variable genes (SVGs), which demonstrate spatial expression patterns. Existing methods only consider genes individually and fail to model the inter-dependence of genes. To this end, we present an analytic tool STAMarker for robustly determining spatial domain-specific SVGs with saliency maps in deep learning. STAMarker is a three-stage ensemble framework consisting of graphattention autoencoders, multilayer perceptron (MLP) classifiers, and saliency map computation by the backpropagated gradient. We illustrate the effectiveness of STAMarker and compare it with three competing methods on four spatial transcriptomic data generated by various platforms. STAMarker considers all genes at once and is more robust when the dataset is very sparse. STAMarker could identify spatial domain-specific SVGs for characterizing spatial domains and enable in-depth analysis of the region of interest in the tissue section.
1

Integrating spatial transcriptomics data across different conditions, technologies, and developmental stages

Xiang Zhou et al.Dec 26, 2022
Abstract With the rapid generation of spatial transcriptomics (ST) data, integrative analysis of multiple ST datasets from different conditions, technologies, and developmental stages is becoming increasingly important. However, identifying shared and specific spatial domains across ST datasets of multiple slices remains challenging. To this end, we develop a graph attention neural network STAligner for integrating and aligning ST datasets, enabling spatially-aware data integration, simultaneous spatial domain identification, and downstream comparative analysis. We apply STAligner to the integrative analysis of ST datasets of the human cortex slices from different samples, the mouse olfactory bulb slices generated by two profiling technologies, the mouse hippocampus tissue slices under normal and Alzheimer’s disease conditions, and the spatiotemporal atlases of mouse organogenesis. STAligner efficiently captures the shared tissue structures across different slices, the disease-related substructures, and the dynamical changes during mouse embryonic development. Additionally, the shared spatial domain and nearest neighbor pairs identified by STAligner can be further considered as corresponding pairs to guide the three-dimensional reconstruction of consecutive slices, achieving more accurate local structure-guided registration results than the existing method.
103

Cross-species cell-type assignment of single-cell RNA-seq by a heterogeneous graph neural network

Xingyan Liu et al.Sep 26, 2021
Abstract Cross-species comparative analyses of single-cell RNA sequencing (scRNA-seq) data allow us to explore, at single-cell resolution, the origins of cellular diversity and the evolutionary mechanisms that shape cellular form and function. Here, we aimed to utilize a heterogeneous graph neural network to learn aligned and interpretable cell and gene embeddings for cross-species c ell type a ssignment and gene m odule e xtraction (CAME) from scRNA-seq data. A systematic evaluation study on 649 pairs of cross-species datasets showed that CAME outperformed six benchmarking methods in terms of cell-type assignment and model robustness to insufficiency and inconsistency of sequencing depths. Comparative analyses of the major types of human and mouse brains by CAME revealed shared cell type-specific functions in homologous gene modules. Alignment of the trajectories of human and macaque spermatogenesis by CAME revealed conservative gene expression dynamics during spermatogenesis between humans and macaques. Owing to the utilization of non-one-to-one homologous gene mappings, CAME made a significant improvement on cell-type characterization cross zebrafish and other species. Overall, CAME can not only make an effective cross-species assignment of cell types on scRNA-seq data but also reveal evolutionary conservative and divergent features between species.
103
Citation5
0
Save
0

VP-Detector: A 3D convolutional neural network for automated macromolecule localization and classification in cryo-electron tomograms

Yu Hao et al.May 25, 2021
Abstract Motivation Cryo-electron tomography (Cryo-ET) with sub-tomogram averaging (STA) is indispensable when studying macromolecule structures and functions in their native environments. However, current tomographic reconstructions suffer the low signal-to-noise (SNR) ratio and the missing wedge artifacts. Hence, automatic and accurate macromolecule localization and classification become the bottleneck problem for structural determination by STA. Here, we propose a 3D multi-scale dense convolutional neural network (MSDNet) for voxel-wise annotations of tomograms. Weighted focal loss is adopted as a loss function to solve the class imbalance. The proposed network combines 3D hybrid dilated convolutions (HDC) and dense connectivity to ensure an accurate performance with relatively few trainable parameters. 3D HDC expands the receptive field without losing resolution or learning extra parameters. Dense connectivity facilitates the re-use of feature maps to generate fewer intermediate feature maps and trainable parameters. Then, we design a 3D MSDNet based approach for fully automatic macromolecule localization and classification, called VP-Detector (Voxel-wise Particle Detector). VP-Detector is efficient because classification performs on the pre-calculated coordinates instead of a sliding window. Results We evaluated the VP-Detector on simulated tomograms. Compared to the state-of-the-art methods, our method achieved a competitive performance on localization with the highest F1-score. We also demonstrated that the weighted focal loss improves the classification of hard classes. We trained the network on a part of training sets to prove the availability of training on relatively small datasets. Moreover, the experiment shows that VP-Detector has a fast particle detection speed, which costs less than 14 minutes on a test tomogram. Contact zsh@amss.ac.cn , xfcui@email.sdu.edu.cn , zhangfa@ict.ac.cn Supplementary information Supplementary data are available at Bioinformatics online.
0
Citation3
0
Save
Load More