SC
Saket Choudhary
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
12
(42% Open Access)
Cited by:
853
h-index:
14
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Dictionary learning for integrative, multimodal and scalable single-cell analysis

Yuhan Hao et al.May 25, 2023
Mapping single-cell sequencing profiles to comprehensive reference datasets provides a powerful alternative to unsupervised analysis. However, most reference datasets are constructed from single-cell RNA-sequencing data and cannot be used to annotate datasets that do not measure gene expression. Here we introduce ‘bridge integration’, a method to integrate single-cell datasets across modalities using a multiomic dataset as a molecular bridge. Each cell in the multiomic dataset constitutes an element in a ‘dictionary’, which is used to reconstruct unimodal datasets and transform them into a shared space. Our procedure accurately integrates transcriptomic data with independent single-cell measurements of chromatin accessibility, histone modifications, DNA methylation and protein levels. Moreover, we demonstrate how dictionary learning can be combined with sketching techniques to improve computational scalability and harmonize 8.6 million human immune cell profiles from sequencing and mass cytometry experiments. Our approach, implemented in version 5 of our Seurat toolkit ( http://www.satijalab.org/seurat ), broadens the utility of single-cell reference datasets and facilitates comparisons across diverse molecular modalities. Reference mapping is extended beyond scRNA-seq to single-cell epigenetic and proteomic data.
116

Comparison and evaluation of statistical error models for scRNA-seq

Saket Choudhary et al.Jul 9, 2021
Heterogeneity in single-cell RNA-seq (scRNA-seq) data is driven by multiple sources, including biological variation in cellular state as well as technical variation introduced during experimental processing. Deconvolving these effects is a key challenge for preprocessing workflows. Recent work has demonstrated the importance and utility of count models for scRNA-seq analysis, but there is a lack of consensus on which statistical distributions and parameter settings are appropriate. Here, we analyze 58 scRNA-seq datasets that span a wide range of technologies, systems, and sequencing depths in order to evaluate the performance of different error models. We find that while a Poisson error model appears appropriate for sparse datasets, we observe clear evidence of overdispersion for genes with sufficient sequencing depth in all biological systems, necessitating the use of a negative binomial model. Moreover, we find that the degree of overdispersion varies widely across datasets, systems, and gene abundances, and argues for a data-driven approach for parameter estimation. Based on these analyses, we provide a set of recommendations for modeling variation in scRNA-seq data, particularly when using generalized linear models or likelihood-based approaches for preprocessing and downstream analysis.
318

Dictionary learning for integrative, multimodal, and scalable single-cell analysis

Yuhan Hao et al.Feb 26, 2022
Abstract Mapping single-cell sequencing profiles to comprehensive reference datasets represents a powerful alternative to unsupervised analysis. Reference datasets, however, are predominantly constructed from single-cell RNA-seq data, and cannot be used to annotate datasets that do not measure gene expression. Here we introduce ‘bridge integration’, a method to harmonize singlecell datasets across modalities by leveraging a multi-omic dataset as a molecular bridge. Each cell in the multi-omic dataset comprises an element in a ‘dictionary’, which can be used to reconstruct unimodal datasets and transform them into a shared space. We demonstrate that our procedure can accurately harmonize transcriptomic data with independent single cell measurements of chromatin accessibility, histone modifications, DNA methylation, and protein levels. Moreover, we demonstrate how dictionary learning can be combined with sketching techniques to substantially improve computational scalability, and harmonize 8.6 million human immune cell profiles from sequencing and mass cytometry experiments. Our approach aims to broaden the utility of single-cell reference datasets and facilitate comparisons across diverse molecular modalities. Availability Installation instructions, documentations, and vignettes are available at http://www.satijalab.org/seurat
115

CPA-Perturb-seq: Multiplexed single-cell characterization of alternative polyadenylation regulators

Madeline Kowalski et al.Feb 10, 2023
Most mammalian genes have multiple polyA sites, representing a substantial source of transcript diversity that is governed by the cleavage and polyadenylation (CPA) regulatory machinery. To better understand how these proteins govern polyA site choice we introduce CPA-Perturb-seq, a multiplexed perturbation screen dataset of 42 known CPA regulators with a 3' scRNA-seq readout that enables transcriptome-wide inference of polyA site usage. We develop a statistical framework to specifically identify perturbation-dependent changes in intronic and tandem polyadenylation, and discover modules of co-regulated polyA sites exhibiting distinct functional properties. By training a multi-task deep neural network (APARENT-Perturb) on our dataset, we delineate a cis-regulatory code that predicts responsiveness to perturbation and reveals interactions between distinct regulatory complexes. Finally, we leverage our framework to re-analyze published scRNA-seq datasets, identifying new regulators that affect the relative abundance of alternatively polyadenylated transcripts, and characterizing extensive cellular heterogeneity in 3' UTR length amongst antibody-producing cells. Our work highlights the potential for multiplexed single-cell perturbation screens to further our understanding of post-transcriptional regulation in vitro and in vivo.
0

Integrated analyses of early responses to radiation in glioblastoma identify new alterations in RNA processing and candidate target genes to improve treatment outcomes

Saket Choudhary et al.Dec 4, 2019
Background High-dose radiation is the main component of glioblastoma therapy. Unfortunately, radio-resistance is a common problem and a major contributor to tumor relapse. Understanding the molecular mechanisms driving response to radiation is critical for identifying regulatory routes that could be targeted to improve treatment response.Methods We conducted an integrated analysis in the U251 and U343 glioblastoma cell lines to map early alterations in the expression of genes at three levels: transcription, splicing, and translation in response to ionizing radiation.Results Changes at the transcriptional level were the most prevalent response. Downregulated genes are strongly associated with cell cycle and DNA replication and linked to a coordinated module of expression. Alterations in this group are likely driven by decreased expression of the transcription factor FOXM1 and members of the E2F family. Genes involved in RNA regulatory mechanisms were affected at the mRNA, splicing, and translation levels, highlighting their importance in radiation-response. We identified a number of oncogenic factors, with an increased expression upon radiation exposure, including BCL6, RRM2B, IDO1, FTH1, APIP, and LRIG2 and lncRNAs NEAT1 and FTX. Several of these targets have been previously implicated in radio-resistance. Therefore, antagonizing their effects post-radiation could increase therapeutic efficacy.Conclusions Our integrated analysis provides a comprehensive view of early response to radiation in glioblastoma. We identify new biological processes involved in altered expression of various oncogenic factors and suggest new target options to increase radiation sensitivity and prevent relapse.* TCGA : The Cancer Genome Atlas NSCs : Neural stem cells lncRNAs : long non-coding RNAs Ribo-seq : high-throughput ribosome profiling T0 : time point corresponding to no irradiation T1 : time point corresponding to 1 hour post irradiation T24 : time point corresponding to 24 hours post irradiation CDS : coding domain sequence PCA : Principle component analysis BH : Benjamini and Hochberg FDR adjustment procedure WGCNA : Weighted Gene co-expression network analysis TPM : Transcripts per million kME : eigene-gene based connectivity in cluster analysis GO : Gene ontology GSEA : Gene set enrichment analysis
Load More