CX
Chenling Xu
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
12
(58% Open Access)
Cited by:
942
h-index:
15
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Natural selection interacts with recombination to shape the evolution of hybrid genomes

Molly Schumer et al.Apr 19, 2018
+8
D
C
M
To investigate the consequences of hybridization between species, we studied three replicate hybrid populations that formed naturally between two swordtail fish species, estimating their fine-scale genetic map and inferring ancestry along the genomes of 690 individuals. In all three populations, ancestry from the "minor" parental species is more common in regions of high recombination and where there is linkage to fewer putative targets of selection. The same patterns are apparent in a reanalysis of human and archaic admixture. These results support models in which ancestry from the minor parental species is more likely to persist when rapidly uncoupled from alleles that are deleterious in hybrids. Our analyses further indicate that selection on swordtail hybrids stems predominantly from deleterious combinations of epistatically interacting alleles.
0
Citation370
0
Save
94

scvi-tools: a library for deep probabilistic analysis of single-cell omics data

Adam Gayoso et al.Apr 29, 2021
+23
G
R
A
A bstract Probabilistic models have provided the underpinnings for state-of-the-art performance in many single-cell omics data analysis tasks, including dimensionality reduction, clustering, differential expression, annotation, removal of unwanted variation, and integration across modalities. Many of the models being deployed are amenable to scalable stochastic inference techniques, and accordingly they are able to process single-cell datasets of realistic and growing sizes. However, the community-wide adoption of probabilistic approaches is hindered by a fractured software ecosystem resulting in an array of packages with distinct, and often complex interfaces. To address this issue, we developed scvi-tools ( https://scvi-tools.org ), a Python package that implements a variety of leading probabilistic methods. These methods, which cover many fundamental analysis tasks, are accessible through a standardized, easy-to-use interface with direct links to Scanpy, Seurat, and Bioconductor workflows. By standardizing the implementations, we were able to develop and reuse novel functionalities across different models, such as support for complex study designs through nonlinear removal of unwanted variation due to multiple covariates and reference-query integration via scArches. The extensible software building blocks that underlie scvi-tools also enable a developer environment in which new probabilistic models for single cell omics can be efficiently developed, benchmarked, and deployed. We demonstrate this through a code-efficient reimplementation of Stereoscope for deconvolution of spatial transcriptomics profiles. By catering to both the end user and developer audiences, we expect scvi-tools to become an essential software dependency and serve to formulate a community standard for probabilistic modeling of single cell omics.
0

SymSim: simulating multi-faceted variability in single cell RNA sequencing

Xiuwei Zhang et al.Jul 28, 2018
N
C
X
The abundance of new computational methods for processing and interpreting transcriptomes at a single cell level raises the need for in-silico platforms for evaluation and validation. Simulated datasets which resemble the properties of real datasets can aid in method development and prioritization as well as in questions in experimental design by providing an objective ground truth. Here, we present SymSim, a simulator software that explicitly models the processes that give rise to data observed in single cell RNA-Seq experiments. The components of the SymSim pipeline pertain to the three primary sources of variation in single cell RNA-Seq data: noise intrinsic to the process of transcription, extrinsic variation that is indicative of different cell states (both discrete and continuous), and technical variation due to low sensitivity and measurement noise and bias. Unlike other simulators, the parameters that govern the simulation process directly represent meaningful properties such as mRNA capture rate, the number of PCR cycles, sequencing depth, or the use of unique molecular identifiers. We demonstrate how SymSim can be used for benchmarking methods for clustering and differential expression and for examining the effects of various parameters on their performance. We also show how SymSim can be used to evaluate the number of cells required to detect a rare population and how this number deviates from the theoretical lower bound as the quality of the data decreases. SymSim is publicly available as an R package and allows users to simulate datasets with desired properties or matched with experimental data.
0

Engineering of highly active and diverse nuclease enzymes by combining machine learning and ultra-high-throughput screening

Neil Thomas et al.Mar 24, 2024
+14
D
C
N
Optimizing enzymes to function in novel chemical environments is a central goal of synthetic biology with broad applications. In this work, we develop a technique for designing active and diverse libraries of protein variants by blending evolutionary information and experimental data from an ultra-high-throughput functional screen using machine learning (ML). We validate our methodology in a multi-round campaign to optimize the activity of NucB, a nuclease enzyme with applications in the treatment of chronic wounds. We compare our ML-guided campaign to parallel campaigns of in-vitro directed evolution (DE) and in-silico hit recombination (HR). The ML-guided campaign discovered hundreds of highly-active variants with up to 19-fold nuclease activity improvement, outperforming the 12-fold improvement discovered by DE, and outperforming HR in both hit rate and diversity. We also show that models trained on evolutionary data alone, without access to any experimental data, can design functional variants at a significantly higher rate than a traditional approach to initial library generation. To drive future progress in ML-guided enzyme design, we curate a dataset of 55K diverse variants, one of the most extensive genotype-phenotype enzyme activity landscapes to date. Data and code is available at: https://github.com/google-deepmind/nuclease_design.
9

Consensus prediction of cell type labels with popV

Can Ergen et al.Aug 21, 2023
+5
G
A
C
Abstract Cell-type classification is a crucial step in single-cell analysis. To facilitate this, several methods have been proposed for the task of transferring a cell-type label from an annotated reference atlas to unannotated query data sets. Existing methods for transferring cell-type labels lack proper uncertainty estimation for the resulting annotations, limiting interpretability and usefulness. To address this, we propose popular Vote (popV, https://github.com/YosefLab/popV ), an ensemble of prediction models with an ontology-based voting scheme. PopV achieves accurate cell-type labeling and provides effective uncertainty scores. In multiple case studies, popV confidently annotates the majority of cells while highlighting cell populations that are challenging to annotate. This additional step helps to reduce the load of manual inspection, which is often a necessary component of the annotation process, and enables one to focus on the most problematic parts of the annotation, streamlining the overall annotation process.
2

Mucosal vaccination with cyclic-di-nucleotide adjuvants induces effective T cell homing and IL-17 dependent protection againstM. tuberculosisinfection

Robyn Jong et al.Nov 27, 2020
+6
X
E
R
Abstract The only licensed vaccine for tuberculosis, Mycobacterium bovis Bacille Calmette-Guérin (BCG), is not reliably effective against adult pulmonary tuberculosis. A major hurdle to tuberculosis vaccine development is incomplete understanding of successful immunity against the causative agent Mycobacterium tuberculosis . Recently, we demonstrated that a protein subunit vaccine adjuvanted with STING-activating cyclic-di-nucleotides (CDNs) robustly protects against tuberculosis infection in mice. Here we show mucosal vaccination with this vaccine induces production of T cells that home to lung parenchyma and penetrate lesions in the lung. Protection is partially dependent on IL-17, type I interferon (IFN), and IFN-γ, while the transcription factor STAT-6 is dispensable. Single cell transcriptomics reveals mucosal vaccination with a CDN vaccine increases transcriptional heterogeneity in CD4 cells, including a significant population of non-classical IFN-γ and IL-17 co-expressing Th1-Th17 cells, as well as markers of memory and activation. Th1-Th17 cells in vaccinated mice are enriched for expression of the T cell functional markers Tnfsf8 and Il1r1 relative to more conventional Th1 cells. These data provide critical insight into the immune mediators and diversity of T cell responses that can contribute to vaccine efficacy against M. tuberculosis infection.
0

Adaptation to heavy-metal contaminated environments proceeds via selection on pre-existing genetic variation

Kevin Wright et al.Oct 27, 2015
+7
C
U
K
Across a species range, islands of stressful habitats impose similar selection pressures on isolated populations. It is as yet unclear, when populations respond to these selective pressures, the extent to which this results in convergent genetic evolution and whether convergence is due to independent mutations or shared ancestral variation. We address these questions investigating a classic example of adaptation by natural selection - the colonization of plant species to heavy metal contaminated soils. We use field-based reciprocal transplant experiments to demonstrate that mine alleles at a major copper tolerance QTL, Tol1, are strongly selected in the mine environment, but are neutral, or nearly so, in the off-mine environment. We assemble the genome of a mine adapted genotype and identify regions of this genome in tight genetic linkage to Tol1. We discover Tol1 candidate genes that exhibit significantly large differences in expression between tolerant and non-tolerant genotypes or in allele frequency between mine/off-mine population pairs. We identify a single gene, a multicopper oxidase, which exhibits both large differences in expression and allele frequency. Furthermore, patterns of genetic variation at the five loci with the greatest difference in allele frequency between populations, including the multicopper oxidase, are consistent with selection acting upon beneficial haplotypes that predates the existence of the copper mine habitat. We estimate the age of selected Tol1 haplotype to be at least 1700 years old and was at a frequency of 0.4-0.6% in the ancestral population when mining was initiated 150 years ago. These results suggest that adaptation to the mine habitat routinely occurs via selection on ancestral variation, rather than independent de-novo mutations or migration between populations.
0

Natural selection interacts with the local recombination rate to shape the evolution of hybrid genomes

Molly Schumer et al.Nov 1, 2017
+7
D
C
M
While hybridization between species is increasingly appreciated to be a common occurrence, little is known about the forces that govern the subsequent evolution of hybrid genomes. We considered this question in three independent, naturally-occurring hybrid populations formed between swordtail fish species Xiphophorus birchmanni and X. malinche. To this end, we built a fine-scale genetic map and inferred patterns of local ancestry along the genomes of 690 individuals sampled from the three populations. In all three cases, we found hybrid ancestry to be more common in regions of high recombination and where there is linkage to fewer putative targets of selection. These same patterns are also apparent in a reanalysis of human-Neanderthal admixture. Our results lend support to models in which ancestry from the minor parental species persists only where it is rapidly uncoupled from alleles that are deleterious in hybrids, and show the retention of hybrid ancestry to be at least in part predictable from genomic features. Our analyses further indicate that in swordtail fish, the dominant source of selection on hybrids stems from deleterious combinations of epistatically-interacting alleles.
0

Probabilistic Harmonization and Annotation of Single-cell Transcriptomics Data with Deep Generative Models

Chenling Xu et al.Jan 29, 2019
+3
E
R
C
As single-cell transcriptomics becomes a mainstream technology, the natural next step is to integrate the accumulating data in order to achieve a common ontology of cell types and states. However, owing to various nuisance factors of variation, it is not straightforward how to compare gene expression levels across data sets and how to automatically assign cell type labels in a new data set based on existing annotations. In this manuscript, we demonstrate that our previously developed method, scVI, provides an effective and fully probabilistic approach for joint representation and analysis of cohorts of single-cell RNA-seq data sets, while accounting for uncertainty caused by biological and measurement noise. We also introduce single-cell ANnotation using Variational Inference (scANVI), a semi-supervised variant of scVI designed to leverage any available cell state annotations — for instance when only one data set in a cohort is annotated, or when only a few cells in a single data set can be labeled using marker genes. We demonstrate that scVI and scANVI compare favorably to the existing methods for data integration and cell state annotation in terms of accuracy, scalability, and adaptability to challenging settings such as a hierarchical structure of cell state labels. We further show that different from existing methods, scVI and scANVI represent the integrated datasets with a single generative model that can be directly used for any probabilistic decision making task, using differential expression as our case study. scVI and scANVI are available as open source software and can be readily used to facilitate cell state annotation and help ensure consistency and reproducibility across studies.
0

Integrated single cell analysis of blood and cerebrospinal fluid leukocytes in multiple sclerosis

David Schafflick et al.Aug 29, 2018
+11
M
C
D
Cerebrospinal fluid (CSF) protects the central nervous system (CNS) and analyzing CSF aids the diagnosis of CNS diseases, but our understanding of CSF leukocytes remains superficial. Here, we firstly provide a transcriptional map of single leukocytes in CSF compared to blood. Leukocyte composition and transcriptome were compartment-specific with CSF-enrichment of myeloid dendritic cells and a border-associated phenotype of monocytes.We secondly tested how multiple sclerosis (MS) - an autoimmune disease of the CNS - affected both compartments. MS increased transcriptional diversity in blood, while it preferentially increased cell type diversity in CSF. In addition to the known expansion of B lineage cells, we identified an increase of cytotoxic-phenotype and follicular T helper (TFH) cells in the CSF. In mice, TFH cells accordingly promoted B cell infiltration into the CNS and severity of MS animal models. Immune mechanisms in MS are thus highly compartmentalized and indicate local T/B cell interaction.
Load More