GL
Guanxun Li
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
2
h-index:
6
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
51

scTenifoldKnk: an efficient virtual knockout tool for gene function predictions via single-cell gene regulatory network perturbation

Daniel Osorio et al.Mar 23, 2021
Bigger Picture Gene knockout (KO) experiments, using genetically altered animals, are a proven powerful approach to elucidate the role of a gene in a biological process. However, systematic KO experiments targeting many genes are usually prohibitive due to limited experimental and animal resources. Here, we present scTenifoldKnk, an efficient virtual KO tool that allows the systematic deletion of many genes individually. scTenifoldKnk uses single-cell RNA sequencing (scRNAseq) data from wild-type (WT) samples to predict gene function in a cell type-specific manner. We show that predictions made by scTenifoldKnk recapitulate findings from real-animal KO experiments. scTenifoldKnk has proven to be a powerful and effective approach for elucidating gene function, prioritizing KO targets, predicting experimental outcomes before real-animal KO experiments are conducted. Highlights scTenifoldKnk performs virtual KO experiments using scRNAseq data. scTenifoldKnk only requires data from WT samples; no data is needed from KO samples. Predictions made by scTenifoldKnk recapitulate findings from real-animal KO experiments. Data Science Maturity Level eTOC blurb scTenifoldKnk is a machine learning workflow performing virtual KO experiments to predict gene function. It constructs gene regulatory networks using single-cell RNA sequencing data from wild-type samples and then computationally deletes target genes. Real-data applications demonstrate that scTenifoldKnk recapitulates findings of real-animal KO experiments and accurately predicts gene function in analyzed cells. Summary Gene knockout (KO) experiments are a proven, powerful approach for studying gene function. However, systematic KO experiments targeting a large number of genes are usually prohibitive due to the limit of experimental and animal resources. Here, we present scTenifoldKnk, an efficient virtual KO tool that enables systematic KO investigation of gene function using data from single-cell RNA sequencing (scRNAseq). In scTenifoldKnk analysis, a gene regulatory network (GRN) is first constructed from scRNAseq data of wild-type samples, and a target gene is then virtually deleted from the constructed GRN. Manifold alignment is used to align the resulting reduced GRN to the original GRN to identify differentially regulated genes, which are used to infer target gene functions in analyzed cells. We demonstrate that the scTenifoldKnk-based virtual KO analysis recapitulates the main findings of real-animal KO experiments and recovers the expected functions of genes in relevant cell types.
51
Citation2
0
Save
0

Extent, heritability, and functional relevance of single cell expression variability in highly homogeneous populations of human cells

Daniel Osorio et al.Mar 11, 2019
Because of recent technological developments, single-cell assays such as single-cell RNA sequencing (scRNA-seq) have become much more widely available and have achieved unprecedented resolution in revealing cell heterogeneity. The extent of intrinsic cell-to-cell variability in gene expression, or single cell expression variability (scEV), has thus been increasingly appreciated. However, it remains unclear whether this variability is functionally important and, if so, what its implications are for multi-cellular organisms. We therefore analyzed multiple scRNA-seq data sets from lymphoblastoid cell lines (LCLs), lung airway epithelial cells (LAECs), and dermal fibroblasts (DFs). For each of the three cell types, we estimated scEV in homogeneous populations of cells; we identified 465, 466, and 291 highly variable genes (HVGs), respectively. These HVGs were enriched with specific functions precisely relevant to the cell types, from which the scRNA-seq data used to identify HVGs were generated—e.g., HVGs identified in lymphoblastoid cells were enriched in cytokine signaling pathways, LAECs collagen formation, and DFs keratinization. HVGs were deeply embedded in gene regulatory networks specific to corresponding cell types. We also found that scEV is a heritable trait, partially determined by cell donors’ genetic makeups. Furthermore, across genes, especially immune genes, levels of scEV and between-individual variability in gene expression were positively correlated, suggesting a potential link between the two variabilities measured at different organizational levels. Taken together, our results support the “variation is function” hypothesis, which postulates that scEV is required for higher-level system function. Thus, we argue that quantifying and characterizing scEV in relevant cell types may deepen our understating of normal as well as pathological cellular processes.
1

Interpretable modeling of time-resolved single-cell gene-protein expression using CrossmodalNet

Yongjian Yang et al.May 18, 2023
Abstract Cell-surface proteins play a critical role in cell function and are primary targets for therapeutics. CITE-seq is a single-cell technique that enables simultaneous measurement of gene and surface protein expression. It is powerful but costly and technically challenging. Computational methods have been developed to predict surface protein expression using gene expression information such as from single-cell RNA sequencing (scRNA-seq) data. Existing methods however are computationally demanding and lack the interpretability to reveal underlying biological processes. We propose CrossmodalNet, an interpretable machine learning model, to predict surface protein expression from scRNA-seq data. Our model with a customized adaptive loss accurately predicts surface protein abundances. When samples from multiple time points are given, our model encodes temporal information into an easy-to-interpret time embedding to make prediction in a time point-specific manner able to uncover noise-free causal gene-protein relationships. Using two publicly available time-resolved CITE-seq data sets, we validate the performance of our model by comparing it to benchmarking methods and evaluate its interpretability. Together, we show our method accurately and interpretably profiles surface protein expression using scRNA-seq data, thereby expanding the capacity of CITE-seq experiments for investigating molecular mechanisms involving surface proteins.