HC
Hongyuan Cao
Author with expertise in Microarray Data Analysis and Gene Expression Profiling
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(80% Open Access)
Cited by:
272
h-index:
20
/
i10-index:
29
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

STAREG: an empirical Bayesian approach to detect replicable spatially variable genes in spatial transcriptomic studies

Yan Li et al.May 30, 2023
Abstract Identifying replicable genes that display spatial expression patterns from different yet related spatially resolved transcriptomic studies provides stronger scientific evidence and more powerful inference. We present an empirical Bayesian method, STAREG, for identifying replicable spatially variable genes in data generated from various spatially resolved transcriptomic techniques. STAREG models the joint distribution of p -values from different studies with a mixture model and accounts for the heterogeneity of different studies. It provides effective control of the false discovery rate and has higher power by borrowing information across genes and different studies. Moreover, it provides different rankings of important spatially variable genes. With the EM algorithm in combination with pool-adjacent-violator-algorithm (PAVA), STAREG is scalable to datasets with tens of thousands of genes measured on tens of thousands of spatial spots without any tuning parameters. Analyzing three pairs of spatially resolved transcriptomic datasets using STAREG, we show that it makes biological discoveries that otherwise cannot be obtained by using existing methods.
1
Citation2
0
Save
9

Combining protein sequences and structures with transformers and equivariant graph neural networks to predict protein function

Frimpong Boadu et al.Jan 20, 2023
Abstract Motivation Millions of protein sequences have been generated by numerous genome and transcriptome sequencing projects. However, experimentally determining the function of the proteins is still a time consuming, low-throughput, and expensive process, leading to a large protein sequence-function gap. Therefore, it is important to develop computational methods to accurately predict protein function to fill the gap. Even though many methods have been developed to use protein sequences as input to predict function, much fewer methods leverage protein structures in protein function prediction because there was lack of accurate protein structures for most proteins until recently. Results We developed TransFun - a method using a transformer-based protein language model and 3D-equivariant graph neural networks to distill information from both protein sequences and structures to predict protein function. It extracts feature embeddings from protein sequences using a pre-trained protein language model (ESM) via transfer learning and combines them with 3D structures of proteins predicted by AlphaFold2 through equivariant graph neural networks. Benchmarked on the CAFA3 test dataset and a new test dataset, TransFun outperforms several state-of-the-art methods, indicating the language model and 3D-equivariant graph neural networks are effective methods to leverage protein sequences and structures to improve protein function prediction. Combining TransFun predictions and sequence similarity-based predictions can further increase prediction accuracy. Availability The source code of TransFun is available at https://github.com/jianlin-cheng/TransFun Contact chengji@missouri.edu
10

Statistical analysis of spatially resolved transcriptomic data by incorporating multi-omics auxiliary information

Yan Li et al.Apr 22, 2022
Abstract Effective control of false discovery rate is key for multiplicity problems. Here, we consider incorporating informative covariates from external datasets in the multiple testing procedure to boost statistical power while maintaining false discovery rate control. In particular, we focus on the statistical analysis of innovative high-dimensional spatial transcriptomic data while incorporating external multi-omics data that provide distinct but complementary information to the detection of spatial expression patterns. We extend OrderShapeEM, an efficient covariate-assisted multiple testing procedure that incorporates one auxiliary study, to make it permissible to incorporate multiple external omics studies, to boost statistical power of spatial expression pattern detection. Specifically, we first use a recently proposed computationally efficient statistical analysis method, spatial pattern recognition via kernels, to produce the primary test statistics for spatial transcriptomic data. Afterwards, we construct the auxiliary covariate by combining information from multiple external omics studies, such as bulk or single-cell RNA-seq data and genome wise association study data, using the Cauchy combination rule. Finally, we extend and implement the integrative analysis method OrderShapeEM on the primary p -values along with auxiliary data incorporating multi-omics information for efficient covariate-assisted spatial expression analysis. We conduct a series of realistic simulations to evaluate the performance of our method with known ground truth. Four case studies in mouse olfactory bulb, mouse cerebellum, human breast cancer and human heart tissues further demonstrate the substantial power gain of our method in detecting genes with spatial expression patterns compared to existing classic approaches that do not utilize any external information.
1

JUMP: replicability analysis of high-throughput experiments with applications to spatial transcriptomic studies

Pengfei Lyu et al.Feb 15, 2023
Abstract Motivation Replicability is the cornerstone of scientific research. The current statistical method for high-dimensional replicability analysis either cannot control the false discovery rate (FDR) or is too conservative. Results We propose a statistical method, JUMP, for the high-dimensional replicability analysis of two studies. The input is a high dimensional paired sequence of p -values from two studies and the test statistic is the maximum of p -values of the pair. JUMP uses four states of the p -value pairs to indicate whether they are null or non-null. Conditional on the hidden states, JUMP computes the cumulative distribution function of the maximum of p -values for each state to conservatively approximate the probability of rejection under the composite null of replicability. JUMP estimates unknown parameters and uses a step-up procedure to control FDR. By incorporating different states of composite null, JUMP achieves a substantial power gain over existing methods while controlling the FDR. Analyzing two pairs of spatially resolved transcriptomic datasets, JUMP makes biological discoveries that otherwise cannot be obtained by using existing methods. Availability An R package JUMP implementing the JUMP method is available on CRAN ( https://CRAN.R-project.org/package=JUMP ).