MB
Mehrtash Babadi
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Broad Institute, State Street (United States), University of Groningen
+ 3 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
12
(67% Open Access)
Cited by:
68
h-index:
23
/
i10-index:
31
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
5

Learning representations for image-based profiling of perturbations

Nikita Moshkov et al.Oct 13, 2023
+11
S
M
N
Abstract Measuring the phenotypic effect of treatments on cells through imaging assays is an efficient and powerful way of studying cell biology, and requires computational methods for transforming images into quantitative data that highlight phenotypic outcomes. Here, we present an optimized strategy for learning representations of treatment effects from high-throughput imaging data, which follows a causal framework for interpreting results and guiding performance improvements. We use weakly supervised learning (WSL) for modeling associations between images and treatments, and show that it encodes both confounding factors and phenotypic features in the learned representation. To facilitate their separation, we constructed a large training dataset with Cell Painting images from five different studies to maximize experimental diversity, following insights from our causal analysis. Training a WSL model with this dataset successfully improves downstream performance, and produces a reusable convolutional network for image-based profiling, which we call Cell Painting CNN-1 . We conducted a comprehensive evaluation of our strategy on three publicly available Cell Painting datasets, discovering that representations obtained by the Cell Painting CNN-1 can improve performance in downstream analysis for biological matching up to 30% with respect to classical features, while also being more computationally efficient.
98

High-throughput RNA isoform sequencing using programmable cDNA concatenation

Aziz Al’Khafaji et al.Oct 24, 2023
+16
K
J
A
Abstract Alternative splicing is a core biological process that enables profound and essential diversification of gene function. Short-read RNA sequencing approaches fail to resolve RNA isoforms and therefore primarily enable gene expression measurements - an isoform unaware representation of the transcriptome. Conversely, full-length RNA sequencing using long-read technologies are able to capture complete transcript isoforms, but their utility is deeply constrained due to throughput limitations. Here, we introduce MAS-ISO-seq, a technique for programmably concatenating cDNAs into single molecules optimal for long-read sequencing, boosting the throughput >15 fold to nearly 40 million cDNA reads per run on the Sequel IIe sequencer. We validated unambiguous isoform assignment with MAS-ISO-seq using a synthetic RNA isoform library and applied this approach to single-cell RNA sequencing of tumor-infiltrating T cells. Results demonstrated a >30 fold boosted discovery of differentially spliced genes and robust cell clustering, as well as canonical PTPRC splicing patterns across T cell subpopulations and the concerted expression of the associated hnRNPLL splicing factor. Methods such as MAS-ISO-seq will drive discovery of novel isoforms and the transition from gene expression to transcript isoform expression analyses.
98
Citation23
0
Save
1

GATK-gCNV: A Rare Copy Number Variant Discovery Algorithm and Its Application to Exome Sequencing in the UK Biobank

Mehrtash Babadi et al.Oct 24, 2023
+11
S
J
M
SUMMARY Copy number variants (CNVs) are major contributors to genetic diversity and disease. To date, exome sequencing (ES) has been generated for millions of individuals in international biobanks, human disease studies, and clinical diagnostic screening. While standardized methods exist for detecting short variants (single nucleotide and insertion/deletion variants) using tools such as the Genome Analysis ToolKit (GATK), technical challenges have confounded similarly uniform large-scale CNV analyses from ES data. Given the profound impact of rare and de novo coding CNVs on genome organization and human disease, the lack of widely-adopted and robustly benchmarked rare CNV discovery tools has presented a barrier to routine exome-wide assessment of this critical class of variation. Here, we introduce GATK-gCNV, a flexible algorithm to discover rare CNVs from genome sequencing read-depth information, which we distribute as an open-source tool packaged in GATK. GATK-gCNV uses a probabilistic model and inference framework that accounts for technical biases while simultaneously predicting CNVs, which enables self-consistency between technical read-depth normalization and variant calling. We benchmarked GATK-gCNV in 7,962 exomes from individuals in quartet families with matched genome sequencing and microarray data. These analyses demonstrated 97% recall of rare (≤1% site frequency) coding CNVs detected by microarrays and 95% recall of rare coding CNVs discovered by genome sequencing at a resolution of more than two exons. We applied GATK-gCNV to generate a reference catalog of rare coding CNVs in 197,306 individuals with ES from the UK Biobank. We observed strong correlations between CNV rates per gene and measures of mutational constraint, as well as rare CNV associations with multiple traits. In summary, GATK-gCNV is a tunable approach for sensitive and specific CNV discovery in ES, which can easily be applied across trait association and clinical screening.
408

A single-nucleus and spatial transcriptomic atlas of the COVID-19 liver reveals topological, functional, and regenerative organ disruption in patients

Yered Pita-Juárez et al.Oct 24, 2023
+60
N
D
Y
The molecular underpinnings of organ dysfunction in acute COVID-19 and its potential long-term sequelae are under intense investigation. To shed light on these in the context of liver function, we performed single-nucleus RNA-seq and spatial transcriptomic profiling of livers from 17 COVID-19 decedents. We identified hepatocytes positive for SARS-CoV-2 RNA with an expression phenotype resembling infected lung epithelial cells. Integrated analysis and comparisons with healthy controls revealed extensive changes in the cellular composition and expression states in COVID-19 liver, reflecting hepatocellular injury, ductular reaction, pathologic vascular expansion, and fibrogenesis. We also observed Kupffer cell proliferation and erythrocyte progenitors for the first time in a human liver single-cell atlas, resembling similar responses in liver injury in mice and in sepsis, respectively. Despite the absence of a clinical acute liver injury phenotype, endothelial cell composition was dramatically impacted in COVID-19, concomitantly with extensive alterations and profibrogenic activation of reactive cholangiocytes and mesenchymal cells. Our atlas provides novel insights into liver physiology and pathology in COVID-19 and forms a foundational resource for its investigation and understanding.
408
Citation6
0
Save
0

Transcriptional profile of the rat cardiovascular system at single cell resolution

Alessandro Arduini et al.Nov 16, 2023
+13
L
S
A
Background: Despite the critical role of the cardiovascular system, our understanding of its cellular and transcriptional diversity remains limited. We therefore sought to characterize the cellular composition, phenotypes, molecular pathways, and communication networks between cell types at the tissue and sub-tissue level across the cardiovascular system of the healthy Wistar rat, an important model in preclinical cardiovascular research. We obtained high quality tissue samples under controlled conditions that reveal a level of cellular detail so far inaccessible in human studies. Methods and Results: We performed single nucleus RNA-sequencing in 78 samples in 10 distinct regions including the four chambers of the heart, ventricular septum, sinoatrial node, atrioventricular node, aorta, pulmonary artery, and pulmonary veins (PV), which produced an aggregate map of 505,835 nuclei. We identified 26 distinct cell types and additional subtypes, including a number of rare cell types such as PV cardiomyocytes and non-myelinating Schwann cells (NMSCs), and unique groups of vascular smooth muscle cells (VSMCs), endothelial cells (ECs) and fibroblasts (FBs), which gave rise to a detailed cell type distribution across tissues. We demonstrated differences in the cellular composition across different cardiac regions and tissue-specific differences in transcription for each cell type, highlighting the molecular diversity and complex tissue architecture of the cardiovascular system. Specifically, we observed great transcriptional heterogeneities among ECs and FBs. Importantly, several cell subtypes had a unique regional localization such as a subtype of VSMCs enriched in the large vasculature. We found the cellular makeup of PV tissue is closer to heart tissue than to the large arteries. We further explored the ligand-receptor repertoire across cell clusters and tissues, and observed tissue-enriched cellular communication networks, including heightened Nppa - Npr1/2/3 signaling in the sinoatrial node. Conclusions: Through a large single nucleus sequencing effort encompassing over 500,000 nuclei, we broadened our understanding of cellular transcription in the healthy cardiovascular system. The existence of tissue-restricted cellular phenotypes suggests regional regulation of cardiovascular physiology. The overall conservation in gene expression and molecular pathways across rat and human cell types, together with our detailed transcriptional characterization of each cell type, offers the potential to identify novel therapeutic targets and improve preclinical models of cardiovascular disease.
0

Transcriptional and Cellular Diversity of the Human Heart

Nathan Tucker et al.May 6, 2020
+15
S
M
N
Introduction: The human heart requires a complex ensemble of specialized cell types to perform its essential function. A greater knowledge of the intricate cellular milieu of the heart is critical to increase our understanding of cardiac homeostasis and pathology. As recent advances in low input RNA-sequencing have allowed definitions of cellular transcriptomes at single cell resolution at scale, here we have applied these approaches to assess the cellular and transcriptional diversity of the non-failing human heart. Methods: Microfluidic encapsulation and barcoding was used to perform single nuclear RNA sequencing with samples from seven human donors, selected for their absence of overt cardiac disease. Individual nuclear transcriptomes were then clustered based upon transcriptional profiles of highly variable genes. These clusters were used as the basis for between-chamber and between-sex differential gene expression analyses and intersection with genetic and pharmacologic data. Results: We sequenced the transcriptomes of 287,269 single cardiac nuclei, revealing a total of 9 major cell types and 20 subclusters of cell types within the human heart. Cellular subclasses include two distinct groups of resident macrophages, four endothelial subtypes, and two fibroblasts subsets. Comparisons of cellular transcriptomes by cardiac chamber or sex reveal diversity not only in cardiomyocyte transcriptional programs, but also in subtypes involved in extracellular matrix remodeling and vascularization. Using genetic association data, we identified strong enrichment for the role of cell subtypes in cardiac traits and diseases. Finally, intersection of our dataset with genes on cardiac clinical testing panels and the druggable genome reveals striking patterns of cellular specificity. Conclusions: Using large-scale single nuclei RNA sequencing, we have defined the transcriptional and cellular diversity in the normal human heart. Our identification of discrete cell subtypes and differentially expressed genes within the heart will ultimately facilitate the development of new therapeutics for cardiovascular diseases.
0

Capturing cell heterogeneity in representations of cell populations for image-based profiling using contrastive learning

Robert Dijk et al.Nov 17, 2023
+2
M
J
R
Image-based cell profiling is a powerful tool that compares perturbed cell populations by measuring thousands of single-cell features and summarizing them into profiles, typically by averaging across cells. Although average profiling is commonly used, it fails to capture the heterogeneity within cell populations. We introduce CytoSummaryNet: a machine learning approach for summarizing cell populations that outperforms average profiling in predicting a compound9s mechanism of action. CytoSummaryNet uses weakly supervised contrastive learning in a multiple-instance learning framework and provides an easier-to-apply method for aggregating single-cell feature data than previously published strategies. Interpretability analysis suggests that CytoSummaryNet achieves this by downweighting noisy cells (small mitotic cells or those with debris) and prioritizing less noisy cells (large uncrowded cells). Remarkably, CytoSummaryNet may also mitigate batch effects, even though this was not part of the training objective. Finally, the framework is designed to facilitate retraining, employing weak labels derived from perturbation replicates that are readily available in all cell profiling datasets. We show on a public dataset that CytoSummaryNet aggregated profiles result in a 68% increase in the mean average precision of mechanism of action retrieval compared to the commonly used average-aggregated profiles.
0

CellBender remove-background: a deep generative model for unsupervised removal of background noise from scRNA-seq datasets

Stephen Fleming et al.May 6, 2020
+6
A
M
S
Droplet-based scRNA-seq assays are known to produce a significant amount of background RNA counts, the hallmark of which is non-zero transcript counts in presumably empty droplets. The presence of background RNA can lead to systematic biases and batch effects in various downstream analyses such as differential expression and marker gene discovery. In this paper, we explore the phenomenology and mechanisms of background RNA generation in droplet-based scRNA-seq assays and present a deep generative model of background-contaminated counts mirroring those mechanisms. The model is used for learning the background RNA profile, distinguishing cell-containing droplets from empty ones, and retrieving background-free gene expression profiles. We implement the model along with a fast and scalable inference algorithm as the remove-background module in CellBender, an open-source scRNA-seq data processing software package. Finally, we present simulations and investigations of several scRNA-seq datasets to show that processing raw data using CellBender significantly boosts the magnitude and specificity of differential expression across different cell types.
27

Uncovering features of synapses in primary visual cortex through contrastive representation learning

A. Wilson et al.Oct 24, 2023
M
A
SUMMARY 3D EM connectomics image volumes are now surpassing sizes of 1 mm 3 , and are therefore beginning to contain multiple meaningful spatial scales of brain circuitry simultaneously. However, the sheer density of information in such datasets makes the development of unbiased, scalable machine learning techniques a necessity for extracting novel insights without extremely time-consuming, intensive labor. In this paper, we present SynapseCLR, a self-supervised contrastive representation learning method for 3D electron microscopy (EM) data, and use the method to extract feature representations of synapses from a 3D EM dataset from mouse visual cortex. We show that our representations separate synapses according to both their overall physical appearance and structural annotations of known functional importance. We further demonstrate the utility of our methodology for several valuable downstream tasks for the growing field of 3D EM connectomics. These include one-shot identification of defective synapse segmentations, dataset-wide similarity-based querying, and accurate imputation of annotations for unlabeled synapses, using only manual annotation of 0.2% of synapses in the dataset. In particular, we show that excitatory vs. inhibitory neuronal cell types can be assigned to individual synapses and highly truncated neurites with accuracy exceeding 99.8%, making this population accessible to connectomics analysis. Finally, we present a data-driven and unsupervised study of the manifold of synaptic structural variation, revealing its intrinsic axes of variation and showing that synapse structure is also strongly correlated with inhibitory neuronal subtypes.
106

A single-cell and spatial atlas of autopsy tissues reveals pathology and cellular targets of SARS-CoV-2

Toni Delorey et al.Oct 11, 2023
+99
G
C
T
The SARS-CoV-2 pandemic has caused over 1 million deaths globally, mostly due to acute lung injury and acute respiratory distress syndrome, or direct complications resulting in multiple-organ failures. Little is known about the host tissue immune and cellular responses associated with COVID-19 infection, symptoms, and lethality. To address this, we collected tissues from 11 organs during the clinical autopsy of 17 individuals who succumbed to COVID-19, resulting in a tissue bank of approximately 420 specimens. We generated comprehensive cellular maps capturing COVID-19 biology related to patients' demise through single-cell and single-nucleus RNA-Seq of lung, kidney, liver and heart tissues, and further contextualized our findings through spatial RNA profiling of distinct lung regions. We developed a computational framework that incorporates removal of ambient RNA and automated cell type annotation to facilitate comparison with other healthy and diseased tissue atlases. In the lung, we uncovered significantly altered transcriptional programs within the epithelial, immune, and stromal compartments and cell intrinsic changes in multiple cell types relative to lung tissue from healthy controls. We observed evidence of: alveolar type 2 (AT2) differentiation replacing depleted alveolar type 1 (AT1) lung epithelial cells, as previously seen in fibrosis; a concomitant increase in myofibroblasts reflective of defective tissue repair; and, putative TP63 + intrapulmonary basal-like progenitor (IPBLP) cells, similar to cells identified in H1N1 influenza, that may serve as an emergency cellular reserve for severely damaged alveoli. Together, these findings suggest the activation and failure of multiple avenues for regeneration of the epithelium in these terminal lungs. SARS-CoV-2 RNA reads were enriched in lung mononuclear phagocytic cells and endothelial cells, and these cells expressed distinct host response transcriptional programs. We corroborated the compositional and transcriptional changes in lung tissue through spatial analysis of RNA profiles in situ and distinguished unique tissue host responses between regions with and without viral RNA, and in COVID-19 donor tissues relative to healthy lung. Finally, we analyzed genetic regions implicated in COVID-19 GWAS with transcriptomic data to implicate specific cell types and genes associated with disease severity. Overall, our COVID-19 cell atlas is a foundational dataset to better understand the biological impact of SARS-CoV-2 infection across the human body and empowers the identification of new therapeutic interventions and prevention strategies.
106
0
Save
Load More