XZ
Xiang Zhou
Author with expertise in Genomic Studies and Association Analyses
University of Michigan–Ann Arbor, Shanghai Center for Brain Science and Brain-Inspired Technology, Southwest Jiaotong University
+ 13 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
39
(31% Open Access)
Cited by:
35
h-index:
50
/
i10-index:
113
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Spatially Aware Dimension Reduction for Spatial Transcriptomics

Lulu Shang et al.Oct 24, 2023
X
L
Abstract Spatial transcriptomics are a collection of genomic technologies that have enabled transcriptomic profiling on tissues with spatial localization information. Analyzing spatial transcriptomic data is computationally challenging, as the data collected from various spatial transcriptomic technologies are often noisy and display substantial spatial correlation across tissue locations. Here, we develop a spatially-aware dimension reduction method, SpatialPCA, that can extract a low dimensional representation of the spatial transcriptomics data with enriched biological signal and preserved spatial correlation structure, thus unlocking many existing computational tools previously developed in single-cell RNAseq studies for tailored and novel analysis of spatial transcriptomics. We illustrate the benefits of SpatialPCA for spatial domain detection and explores its utility for trajectory inference on the tissue and for high-resolution spatial map construction. In the real data applications, SpatialPCA identifies key molecular and immunological signatures in a newly detected tumor surrounding microenvironment, including a tertiary lymphoid structure that shapes the gradual transcriptomic transition during tumorigenesis and metastasis. In addition, SpatialPCA detects the past neuronal developmental history that underlies the current transcriptomic landscape across tissue locations in the cortex.
1
Citation9
0
Save
1

Integrating spatial transcriptomics data across different conditions, technologies, and developmental stages

Xiang Zhou et al.Oct 24, 2023
S
K
X
Abstract With the rapid generation of spatial transcriptomics (ST) data, integrative analysis of multiple ST datasets from different conditions, technologies, and developmental stages is becoming increasingly important. However, identifying shared and specific spatial domains across ST datasets of multiple slices remains challenging. To this end, we develop a graph attention neural network STAligner for integrating and aligning ST datasets, enabling spatially-aware data integration, simultaneous spatial domain identification, and downstream comparative analysis. We apply STAligner to the integrative analysis of ST datasets of the human cortex slices from different samples, the mouse olfactory bulb slices generated by two profiling technologies, the mouse hippocampus tissue slices under normal and Alzheimer’s disease conditions, and the spatiotemporal atlases of mouse organogenesis. STAligner efficiently captures the shared tissue structures across different slices, the disease-related substructures, and the dynamical changes during mouse embryonic development. Additionally, the shared spatial domain and nearest neighbor pairs identified by STAligner can be further considered as corresponding pairs to guide the three-dimensional reconstruction of consecutive slices, achieving more accurate local structure-guided registration results than the existing method.
64

Multi-scale Inference of Genetic Trait Architecture using Biologically Annotated Neural Networks

Pınar Demetçi et al.Oct 24, 2023
+3
G
W
P
Abstract In this article, we present Biologically Annotated Neural Networks (BANNs), a nonlinear probabilistic framework for association mapping in genome-wide association (GWA) studies. BANNs are feedforward models with partially connected architectures that are based on biological annotations. This setup yields a fully interpretable neural network where the input layer encodes SNP-level effects, and the hidden layer models the aggregated effects among SNP-sets. We treat the weights and connections of the network as random variables with prior distributions that reflect how genetic effects manifest at different genomic scales. The BANNs software uses variational inference to provide posterior summaries which allow researchers to simultaneously perform ( i ) mapping with SNPs and ( ii ) enrichment analyses with SNP-sets on complex traits. Through simulations, we show that our method improves upon state-of-the-art association mapping and enrichment approaches across a wide range of genetic architectures. We then further illustrate the benefits of BANNs by analyzing real GWA data assayed in approximately 2,000 heterogenous stock of mice from the Wellcome Trust Centre for Human Genetics and approximately 7,000 individuals from the Framingham Heart Study. Lastly, using a random subset of individuals of European ancestry from the UK Biobank, we show that BANNs is able to replicate known associations in high and low-density lipoprotein cholesterol content. Author Summary A common goal in genome-wide association (GWA) studies is to characterize the relationship between genotypic and phenotypic variation. Linear models are widely used tools in GWA analyses, in part, because they provide significance measures which detail how individual single nucleotide polymorphisms (SNPs) are statistically associated with a trait or disease of interest. However, traditional linear regression largely ignores non-additive genetic variation, and the univariate SNP-level mapping approach has been shown to be underpowered and challenging to interpret for certain trait architectures. While nonlinear methods such as neural networks are well known to account for complex data structures, these same algorithms have also been criticized as “black box” since they do not naturally carry out statistical hypothesis testing like classic linear models. This limitation has prevented nonlinear regression approaches from being used for association mapping tasks in GWA applications. Here, we present Biologically Annotated Neural Networks (BANNs): a flexible class of feedforward models with partially connected architectures that are based on biological annotations. The BANN framework uses approximate Bayesian inference to provide interpretable probabilistic summaries which can be used for simultaneous ( i ) mapping with SNPs and ( ii ) enrichment analyses with SNP-sets (e.g., genes or signaling pathways). We illustrate the benefits of our method over state-of-the-art approaches using extensive simulations. We also demonstrate the ability of BANNs to recover novel and previously discovered genomic associations using quantitative traits from the Wellcome Trust Centre for Human Genetics, the Framingham Heart Study, and the UK Biobank.
0

Testing and controlling for horizontal pleiotropy with the probabilistic Mendelian randomization in transcriptome-wide association studies

Zhongshang Yuan et al.May 7, 2020
+5
P
H
Z
Abstract Integrating association results from both genome-wide association studies (GWASs) and expression quantitative trait locus (eQTL) mapping studies has the potential to shed light on the molecular mechanisms underlying disease etiology. Several statistical methods have been recently developed to integrate GWASs with eQTL studies in the form of transcriptome-wide association studies (TWASs). These existing methods can all be viewed as a form of two sample Mendelian randomization (MR) analysis, which has been widely applied in various GWASs for inferring the causal relationship among complex traits. Unfortunately, most existing TWAS and MR methods make an unrealistic modeling assumption and assume that instrumental variables do not exhibit horizontal pleiotropic effects. However, horizontal pleiotropic effects have been recently discovered to be wide spread across complex traits, and, as we will show here, are also wide spread across gene expression traits. Therefore, not allowing for horizontal pleiotropic effects can be overly restrictive, and, as we will be show here, can lead to a substantial inflation of test statistics and subsequently false discoveries in TWAS applications. Here, we present a probabilistic MR method, which we refer to as PMR-Egger, for testing and controlling for horizontal pleiotropic effects in TWAS applications. PMR-Egger relies on an MR likelihood framework that unifies many existing TWAS and MR methods, accommodates multiple correlated instruments, tests the causal effect of gene on trait in the presence of horizontal pleiotropy, and, with a newly developed parameter expansion version of the expectation maximization algorithm, is scalable to hundreds of thousands of individuals. With extensive simulations, we show that PMR-Egger provides calibrated type I error control for causal effect testing in the presence of horizontal pleiotropic effects, is reasonably robust for various types of horizontal pleiotropic effect mis-specifications, is more powerful than existing MR approaches, and, as a by-product, can directly test for horizontal pleiotropy. We illustrate the benefits of PMR-Egger in applications to 39 diseases and complex traits obtained from three GWASs including the UK Biobank. In these applications, we show how PMR-Egger can lead to new biological discoveries through integrative analysis.
1

Genetic control of the dynamic transcriptional response to immune stimuli and glucocorticoids at single cell resolution

Justyna Resztak et al.Oct 24, 2023
+9
S
J
J
Synthetic glucocorticoids, such as dexamethasone, have been used as treatment for many immune conditions, such as asthma and more recently severe COVID-19. Single cell data can capture more fine-grained details on transcriptional variability and dynamics to gain a better understanding of the molecular underpinnings of inter-individual variation in drug response. Here, we used single cell RNA-seq to study the dynamics of the transcriptional response to glucocorticoids in activated Peripheral Blood Mononuclear Cells from 96 African American children. We employed novel statistical approaches to calculate a mean-independent measure of gene expression variability and a measure of transcriptional response pseudotime. Using these approaches, we demonstrated that glucocorticoids reverse the effects of immune stimulation on both gene expression mean and variability. Our novel measure of gene expression response dynamics, based on the diagonal linear discriminant analysis, separated individual cells by response status on the basis of their transcriptional profiles and allowed us to identify different dynamic patterns of gene expression along the response pseudotime. We identified genetic variants regulating gene expression mean and variability, including treatment-specific effects, and demonstrated widespread genetic regulation of the transcriptional dynamics of the gene expression response.
1

STAREG: an empirical Bayesian approach to detect replicable spatially variable genes in spatial transcriptomic studies

Yan Li et al.Oct 24, 2023
+2
R
X
Y
Abstract Identifying replicable genes that display spatial expression patterns from different yet related spatially resolved transcriptomic studies provides stronger scientific evidence and more powerful inference. We present an empirical Bayesian method, STAREG, for identifying replicable spatially variable genes in data generated from various spatially resolved transcriptomic techniques. STAREG models the joint distribution of p -values from different studies with a mixture model and accounts for the heterogeneity of different studies. It provides effective control of the false discovery rate and has higher power by borrowing information across genes and different studies. Moreover, it provides different rankings of important spatially variable genes. With the EM algorithm in combination with pool-adjacent-violator-algorithm (PAVA), STAREG is scalable to datasets with tens of thousands of genes measured on tens of thousands of spatial spots without any tuning parameters. Analyzing three pairs of spatially resolved transcriptomic datasets using STAREG, we show that it makes biological discoveries that otherwise cannot be obtained by using existing methods.
1
Citation2
0
Save
1

Joint dimension reduction and clustering analysis for single-cell RNA-seq and spatial transcriptomics data

Wei Liu et al.Oct 24, 2023
+5
Y
X
W
Abstract Dimension reduction and (spatial) clustering is usually performed sequentially; however, the low-dimensional embeddings estimated in the dimension-reduction step may not be relevant to the class labels inferred in the clustering step. We therefore developed a computation method, Dimension-Reduction Spatial-Clustering (DR-SC), that can simultaneously perform dimension reduction and (spatial) clustering within a unified framework. Joint analysis by DR-SC produces accurate (spatial) clustering results and ensures the effective extraction of biologically informative low-dimensional features. DR-SC is applicable to spatial clustering in spatial transcriptomics that characterizes the spatial organization of the tissue by segregating it into multiple tissue structures. Here, DR-SC relies on a latent hidden Markov random field model to encourage the spatial smoothness of the detected spatial cluster boundaries. Underlying DR-SC is an efficient expectation-maximization algorithm based on an iterative conditional mode. As such, DR-SC is scalable to large sample sizes and can optimize the spatial smoothness parameter in a data-driven manner. With comprehensive simulations and real data applications, we show that DR-SC outperforms existing clustering and spatial clustering methods: it extracts more biologically relevant features than conventional dimension reduction methods, improves clustering performance, and offers improved trajectory inference and visualization for downstream trajectory inference analyses.
0

Effect of apolipoprotein E ε4 and its modification by sociodemographic characteristics on cognitive measures in South Asians from LASI‐DAD

Yi-Zhe Wang et al.Sep 11, 2024
+7
P
W
Y
We investigated the effects of apolipoprotein E (APOE) ε4 and its interactions with sociodemographic characteristics on cognitive measures in South Asians from the Diagnostic Assessment of Dementia for the Longitudinal Aging Study of India (LASI-DAD).
0

Accuracy, Robustness and Scalability of Dimensionality Reduction Methods for Single Cell RNAseq Analysis

Shuang Sun et al.May 6, 2020
X
Y
J
S
Background Dimensionality reduction (DR) is an indispensable analytic component for many areas of single cell RNA sequencing (scRNAseq) data analysis. Proper DR can allow for effective noise removal and facilitate many downstream analyses that include cell clustering and lineage reconstruction. Unfortunately, despite the critical importance of DR in scRNAseq analysis and the vast number of DR methods developed for scRNAseq studies, however, few comprehensive comparison studies have been performed to evaluate the effectiveness of different DR methods in scRNAseq.Results Here, we aim to fill this critical knowledge gap by providing a comparative evaluation of a variety of commonly used DR methods for scRNAseq studies. Specifically, we compared 18 different DR methods on 30 publicly available scRNAseq data sets that cover a range of sequencing techniques and sample sizes. We evaluated the performance of different DR methods for neighborhood preserving in terms of their ability to recover features of the original expression matrix, and for cell clustering and lineage reconstruction in terms of their accuracy and robustness. We also evaluated the computational scalability of different DR methods by recording their computational cost.Conclusions Based on the comprehensive evaluation results, we provide important guidelines for choosing DR methods for scRNAseq data analysis. We also provide all analysis scripts used in the present study at [www.xzlab.org/reproduce.html][1]. Together, we hope that our results will serve as an important practical reference for practitioners to choose DR methods in the field of scRNAseq analysis. [1]: http://www.xzlab.org/reproduce.html
0

CoMM-S2: a collaborative mixed model using summary statistics in transcriptome-wide association studies

Yi Yang et al.May 7, 2020
+7
Y
X
Y
Motivation Although genome-wide association studies (GWAS) have deepened our understanding of the genetic architecture of complex traits, the mechanistic links that underlie how genetic variants cause complex traits remains elusive. To advance our understanding of the underlying mechanistic links, various consortia have collected a vast volume of genomic data that enable us to investigate the role that genetic variants play in gene expression regulation. Recently, a collaborative mixed model (CoMM) [[42][1]] was proposed to jointly interrogate genome on complex traits by integrating both the GWAS dataset and the expression quantitative trait loci (eQTL) dataset. Although CoMM is a powerful approach that leverages regulatory information while accounting for the uncertainty in using an eQTL dataset, it requires individual-level GWAS data and cannot fully make use of widely available GWAS summary statistics. Therefore, statistically efficient methods that leverages transcriptome information using only summary statistics information from GWAS data are required.Results In this study, we propose a novel probabilistic model, CoMM-S2, to examine the mechanistic role that genetic variants play, by using only GWAS summary statistics instead of individual-level GWAS data. Similar to CoMM which uses individual-level GWAS data, CoMM-S2 combines two models: the first model examines the relationship between gene expression and genotype, while the second model examines the relationship between the phenotype and the predicted gene expression from the first model. Distinct from CoMM, CoMM-S2 requires only GWAS summary statistics. Using both simulation studies and real data analysis, we demonstrate that even though CoMM-S2 utilizes GWAS summary statistics, it has comparable performance as CoMM, which uses individual-level GWAS data.Contact jin.liu{at}duke-nus.edu.sgAvailability and implementation The implement of CoMM-S2 is included in the CoMM package that can be downloaded from .Supplementary information Supplementary data are available at Bioinformatics online. [1]: #ref-42
Load More