JA
John Arevalo
Author with expertise in Advanced Techniques in Bioimage Analysis and Microscopy
Broad Institute, Industrial University of Santander, University of Potsdam
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(67% Open Access)
Cited by:
67
h-index:
5
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

JUMP Cell Painting dataset: morphological impact of 136,000 chemical and genetic perturbations

Srinivas Chandrasekaran et al.Oct 24, 2023
+96
E
J
S
Abstract Image-based profiling has emerged as a powerful technology for various steps in basic biological and pharmaceutical discovery, but the community has lacked a large, public reference set of data from chemical and genetic perturbations. Here we present data generated by the Joint Undertaking for Morphological Profiling (JUMP)-Cell Painting Consortium, a collaboration between 10 pharmaceutical companies, six supporting technology companies, and two non-profit partners. When completed, the dataset will contain images and profiles from the Cell Painting assay for over 116,750 unique compounds, over-expression of 12,602 genes, and knockout of 7,975 genes using CRISPR-Cas9, all in human osteosarcoma cells (U2OS). The dataset is estimated to be 115 TB in size and capturing 1.6 billion cells and their single-cell profiles. File quality control and upload is underway and will be completed over the coming months at the Cell Painting Gallery: https://registry.opendata.aws/cellpainting-gallery . A portal to visualize a subset of the data is available at https://phenaid.ardigen.com/jumpcpexplorer/ .
1
Paper
Citation36
0
Save
13

Three million images and morphological profiles of cells treated with matched chemical and genetic perturbations

Srinivas Chandrasekaran et al.Oct 13, 2023
+20
A
B
S
Abstract Identifying genetic and chemical perturbations with similar impacts on cell morphology can reveal compounds’ mechanisms of action or novel regulators of genetic pathways. Research on methods for identifying such similarities has lagged due to a lack of carefully designed and well-annotated image sets of cells treated with chemical and genetic perturbations. Here, we create such a Resource dataset, CPJUMP1, where each perturbed gene is a known target of at least two chemical compounds in the dataset. We systematically explore the directionality of correlations among perturbations that target the same gene, and we find that identifying matches between chemical perturbations and genetic perturbations is a challenging task. Our dataset and baseline analyses provide a benchmark for evaluating methods that measure perturbation similarities and impact, and more generally, learn effective representations of cellular state from microscopy images. Such advancements would accelerate the applications of image-based profiling, such as functional genomics and drug discovery.
1

Cell Painting predicts impact of lung cancer variants

Juan Caicedo et al.Oct 24, 2023
+8
F
J
J
Abstract Most variants in most genes across most organisms have an unknown impact on the function of the corresponding gene. This gap in knowledge is especially acute in cancer, where clinical sequencing of tumors now routinely reveals patient-specific variants whose functional impact on the corresponding gene is unknown, impeding clinical utility. Transcriptional profiling was able to systematically distinguish these variants of unknown significance (VUS) as impactful vs. neutral in an approach called expression-based variant-impact phenotyping (eVIP). We profiled a set of lung adenocarcinoma-associated somatic variants using Cell Painting, a morphological profiling assay that captures features of cells based on microscopy using six stains of cell and organelle components. Using deep-learning-extracted features from each cell’s image, we found that cell morphological profiling (cmVIP) can predict variants’ functional impact and, particularly at the single-cell level, reveals biological insights into variants which can be explored in our public online portal. Given its low cost, convenient implementation, and single-cell resolution, cmVIP profiling therefore seems promising as an avenue for using non-gene-specific assays to systematically assess the impact of variants, including disease-associated alleles, on gene function.
1
Paper
Citation3
0
Save
0

Evaluating batch correction methods for image-based cell profiling

John Arevalo et al.Sep 18, 2023
S
A
R
J
High-throughput image-based profiling platforms are powerful technologies capable of collecting data from billions of cells exposed to thousands perturbations in a time- and cost-effective manner. Therefore, image-based profiling data has been increasingly used for diverse biological applications, such as predicting drug mechanism of action or gene function. However, batch effects pose severe limitations to community-wide efforts to integrate and interpret image-based profiling data collected across different laboratories and equipment. To address this problem, we evaluated seven top-ranked batch correction strategies for mRNA profiles in the context of a newly released Cell Painting dataset, the largest publicly accessible image-based dataset. We focused on five different use scenarios with varying complexity, and found that Harmony, a nonlinear method, consistently outperformed the other tested methods. Furthermore, we provide a framework, benchmark, and metrics for the future assessment of new batch correction methods. Overall, this work paves the way for improvements that allow the community to make best use of public Cell Painting data for scientific discovery.
0

A versatile information retrieval framework for evaluating profile strength and similarity

Alexandr Kalinin et al.May 28, 2024
+7
L
J
A
Abstract In profiling assays, thousands of biological properties are measured in a single test, yielding biological discoveries by capturing the state of a cell population, often at the single-cell level. However, for profiling datasets, it has been challenging to evaluate the phenotypic activity of a sample and the phenotypic consistency among samples, due to profiles’ high dimensionality, heterogeneous nature, and non-linear properties. Existing methods leave researchers uncertain where to draw boundaries between meaningful biological response and technical noise. Here, we developed a statistical framework that uses the well-established mean average precision (mAP) as a single, data-driven metric to bridge this gap. We validated the mAP framework against established metrics through simulations and real-world data applications, revealing its ability to capture subtle and meaningful biological differences in cell state. Specifically, we used mAP to assess both phenotypic activity for a given perturbation (or a sample) as well as consistency within groups of perturbations (or samples) across diverse high-dimensional datasets. We evaluated the framework on different profile types (image, protein, and mRNA profiles), perturbation types (CRISPR gene editing, gene overexpression, and small molecules), and profile resolutions (single-cell and bulk). Our open-source software allows this framework to be applied to identify interesting biological phenomena and promising therapeutics from large-scale profiling data.
0

Capturing cell heterogeneity in representations of cell populations for image-based profiling using contrastive learning

Robert Dijk et al.Nov 17, 2023
+2
M
J
R
Image-based cell profiling is a powerful tool that compares perturbed cell populations by measuring thousands of single-cell features and summarizing them into profiles, typically by averaging across cells. Although average profiling is commonly used, it fails to capture the heterogeneity within cell populations. We introduce CytoSummaryNet: a machine learning approach for summarizing cell populations that outperforms average profiling in predicting a compound9s mechanism of action. CytoSummaryNet uses weakly supervised contrastive learning in a multiple-instance learning framework and provides an easier-to-apply method for aggregating single-cell feature data than previously published strategies. Interpretability analysis suggests that CytoSummaryNet achieves this by downweighting noisy cells (small mitotic cells or those with debris) and prioritizing less noisy cells (large uncrowded cells). Remarkably, CytoSummaryNet may also mitigate batch effects, even though this was not part of the training objective. Finally, the framework is designed to facilitate retraining, employing weak labels derived from perturbation replicates that are readily available in all cell profiling datasets. We show on a public dataset that CytoSummaryNet aggregated profiles result in a 68% increase in the mean average precision of mechanism of action retrieval compared to the commonly used average-aggregated profiles.