SC
Siyuan Chen
Author with expertise in Genomic Studies and Association Analyses
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(100% Open Access)
Cited by:
22
h-index:
57
/
i10-index:
372
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

An Effector Index to Predict Causal Genes at GWAS Loci

Vincenzo Forgetta et al.Jun 28, 2020
Abstract Drug development and biological discovery require effective strategies to map existing genetic associations to causal genes. To approach this problem, we began by identifying a set of positive control genes for 12 common diseases and traits that cause a Mendelian form of the disease or are the target of a medicine used for disease treatment. We then identified a widely-available set of genomic features enriching GWAS-associated single nucleotide variants (SNVs) for these positive control genes. Using these features, we trained and validated the Effector Index ( Ei ), a causal gene mapping algorithm using the 12 common diseases and traits. The area under Ei’s receiver operator curve to identify positive control genes was 80% and area under the precision recall curve was 29%. Using an enlarged set of independently curated positive control genes for type 2 diabetes which included genes identified by large-scale exome sequencing, these areas increased to 85% and 61%, respectively. The best predictors were coding or transcript altering SNVs, distance to gene and open chromatin-based metrics. We provide the Ei algorithm for its widespread use and have created a web-portal to facilitate understanding of results. This work outlines a simple, understandable approach to prioritize genes at GWAS loci for functional follow-up and drug development. Author summary In order to derive biological insight, or develop drugs based on genome-wide association studies (GWAS) data, causal genes at associated loci need to be identified. GWAS usually identify large genome regions containing many genes, but seldomly identifies specific causal genes. We have developed an algorithm to predict which genes in a region of disease association are likely causal and have named this algorithm the Effector Index. The Effector Index was optimized on diseases that have known causal or drug target genes, and further validated to predict these types of genes in independent datasets. The Effector Index formalizes these predictive features into a tool that can be used by researchers, and results from the traits and diseases studied here are available via the Accelerating Medicine Partnership web-portal at http://hugeamp.org/effectorgenes.html .
3
Citation9
0
Save
6

Self-supervised contrastive learning for integrative single cell RNA-seq data analysis

Wenkai Han et al.Jul 27, 2021
Abstract Single-cell RNA-sequencing (scRNA-seq) has become a powerful tool to reveal the complex biological diversity and heterogeneity among cell populations. However, the technical noise and bias of the technology still have negative impacts on the downstream analysis. Here, we present a self-supervised Contrastive LEArning framework for scRNA-seq (CLEAR) profile representation and the downstream analysis. CLEAR overcomes the heterogeneity of the experimental data with a specifically designed representation learning task and thus can handle batch effects and dropout events. In the task, the deep learning model learns to pull together the representations of similar cells while pushing apart distinct cells, without manual labeling. It achieves superior performance on a broad range of fundamental tasks, including clustering, visualization, dropout correction, batch effect removal, and pseudo-time inference. The proposed method successfully identifies and illustrates inflammatory-related mechanisms in a COVID-19 disease study with 43,695 single cells from peripheral blood mononuclear cells. Further experiments to process a million-scale single-cell dataset demonstrate the scalability of CLEAR. This scalable method generates effective scRNA-seq data representation while eliminating technical noise, and it will serve as a general computational framework for single-cell data analysis.
7

easyMF: A Web Platform for Matrix Factorization-based Biological Discovery from Large-scale Transcriptome Data

Wenlong Ma et al.Dec 22, 2020
Abstract With the development of high-throughput experimental technologies, large-scale RNA sequencing (RNA-Seq) data have been and continue to be produced, but have led to challenges in extracting relevant biological knowledge hidden in the produced high-dimensional gene expression matrices. Here, we present easyMF, a user-friendly web platform that aims to facilitate biological discovery from large-scale transcriptome data through matrix factorization (MF). The easyMF platform enables users with little bioinformatics experience to streamline transcriptome analysis from raw reads to gene expression and to decompose expression matrix from thousands of genes to a handful of metagenes. easyMF also offers a series of functional modules for metagene-based exploratory analysis with an emphasis on functional gene discovery. As a modular, containerized and open-source platform, easyMF can be customized to satisfy users’ specific demands and deployed as a web server for broad applications. easyMF is freely available at https://github.com/cma2015/easyMF . We demonstrated the application of easyMF with four case studies using 940 RNA sequencing datasets from maize ( Zea mays L.).
7
Citation1
0
Save
1

Penalized Logistic Regression Analysis for Genetic Association Studies of Binary Phenotypes

Ying Yu et al.Feb 14, 2021
ABSTRACT Introduction Increasingly, logistic regression methods for genetic association studies of binary phenotypes must be able to accommodate data sparsity, which arises from unbalanced case-control ratios and/or rare genetic variants. Sparseness leads to maximum likelihood estimators (MLEs) of log-OR parameters that are biased away from their null value of zero and tests with inflated type 1 errors. Different penalized-likelihood methods have been developed to mitigate sparse-data bias. We study penalized logistic regression using a class of log- F priors indexed by a shrinkage parameter m to shrink the biased MLE towards zero. Methods We propose a two-step approach to the analysis of a genetic association study: first, a set of variants that show evidence of association with the trait is used to estimate m ; and second, the estimated m is used for log- F -penalized logistic regression analyses of all variants using data augmentation with standard software. Our estimate of m is the maximizer of a marginal likelihood obtained by integrating the latent log-ORs out of the joint distribution of the parameters and observed data. We consider two approximate approaches to maximizing the marginal likelihood: (i) a Monte Carlo EM algorithm (MCEM) and (ii) a Laplace approximation (LA) to each integral, followed by derivative-free optimization of the approximation. Results We evaluate the statistical properties of our proposed two-step method and compared its performance to other shrinkage methods by a simulation study. Our simulation studies suggest that the proposed log- F -penalized approach has lower bias and mean squared error than other methods considered. We also illustrate the approach on data from a study of genetic associations with “super senior” cases and middle aged controls. Discussion/Conclusion We have proposed a method for single rare variant analysis with binary phenotypes by logistic regression penalized by log- F priors. Our method has the advantage of being easily extended to correct for confounding due to population structure and genetic relatedness through a data augmentation approach.
1

Multi-omic profiling of the leukemic microenvironment shows bone marrow interstitial fluid is distinct from peripheral blood plasma

Lorenz Nierves et al.Apr 1, 2022
ABSTRACT The bone marrow is the place of hematopoiesis with a microenvironment that supports lifelong maintenance of stem cells and high proliferation. It is not surprising that this environment is also favourable for malignant cells emerging in the bone marrow or metastasizing to it. While the cellular composition of the bone marrow microenvironment has been extensively studied, the extracellular matrix and interstitial fluid components have received little attention. Since the sinusoids connect the bone marrow interstitial fluid to the circulation, it is often considered to have the same composition as peripheral blood plasma. Stark differences in the cellular composition of the bone marrow and peripheral blood with different secretory capacities would however suggest profound differences. In this study we set out to better define if and how the bone marrow interstitial fluid (BMIF) compares to the peripheral blood plasma (PBP) and how both are remodeled during chemotherapy. We applied a multi-omic strategy to quantify the metabolite, lipid and protein components as well as the proteolytic modification of proteins to gain a comprehensive understanding of the two compartments. We found that the bone marrow interstitial fluid is clearly distinct from peripheral blood plasma, both during active pediatric acute lymphoblastic leukemia and following induction chemotherapy. Either compartment was shaped differently by active leukemia, with the bone marrow interstitial fluid being rich in extracellular vesicle components and showing protease dysregulation while the peripheral blood plasma showed elevation of immune regulatory proteins. Following chemotherapy, the BMIF showed signs of cellular remodeling and impaired innate immune activation while the peripheral blood plasma was characterized by restored lipid homeostasis.