BB
Bonnie Berger
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Massachusetts Institute of Technology, IIT@MIT, Broad Institute
+ 14 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
60
(67% Open Access)
Cited by:
205
h-index:
79
/
i10-index:
236
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
105

Predicting the mutational drivers of future SARS-CoV-2 variants of concern

M. Maher et al.Jan 17, 2022
+13
S
I
M
SARS-CoV-2 evolution threatens vaccine- and natural infection–derived immunity and the efficacy of therapeutic antibodies. To improve public health preparedness, we sought to predict which existing amino acid mutations in SARS-CoV-2 might contribute to future variants of concern. We tested the predictive value of features comprising epidemiology, evolution, immunology, and neural network–based protein sequence modeling and identified primary biological drivers of SARS-CoV-2 intrapandemic evolution. We found evidence that ACE2-mediated transmissibility and resistance to population-level host immunity has waxed and waned as a primary driver of SARS-CoV-2 evolution over time. We retroactively identified with high accuracy (area under the receiver operator characteristic curve = 0.92 to 0.97) mutations that will spread, at up to 4 months in advance, across different phases of the pandemic. The behavior of the model was consistent with a plausible causal structure where epidemiological covariates combine the effects of diverse and shifting drivers of viral fitness. We applied our model to forecast mutations that will spread in the future and characterize how these mutations affect the binding of therapeutic antibodies. These findings demonstrate that it is possible to forecast the driver mutations that could appear in emerging SARS-CoV-2 variants of concern. We validated this result against Omicron, showing elevated predictive scores for its component mutations before emergence and rapid score increase across daily forecasts during emergence. This modeling approach may be applied to any rapidly evolving pathogens with sufficiently dense genomic surveillance data, such as influenza, and unknown future pandemic viruses.
27

Sequence-based prediction of protein-protein interactions: a structure-aware interpretable deep learning model

Samuel Sledzieski et al.Oct 24, 2023
B
L
R
S
Abstract Protein-protein interaction (PPI) networks have proven to be a valuable tool in systems biology to facilitate the discovery and understanding of protein function. Unfortunately, experimental PPI data remains sparse in most model organisms and even more so in other species. Existing methods for computational prediction of PPIs seek to address this limitation, and while they perform well when sufficient within-species training data is available, they generalize poorly to new species or often require specific types and sizes of training data that may not be available in the species of interest. We therefore present D-SCRIPT, a deep learning method for predicting a physical interaction between two proteins given just their sequences. Compared to existing methods, D-SCRIPT generalizes better to new species and is robust to limitations in training data size. Our approach encodes the intuition that for two proteins to physically interact, a subset of amino acids from each protein should be in contact with the other. The intermediate stages of D-SCRIPT directly implement this intuition; the penultimate stage in D-SCRIPT is a rough estimate of the inter-protein contact map of the protein dimer. This structurally-motivated design enables interpretability of our model and, since structure is more conserved evolutionarily than sequence, improves generalizability across species. We show that a D-SCRIPT model trained on 38,345 human PPIs enables significantly improved functional characterization of fly proteins compared to the state-of-the-art approach. Evaluating the same D-SCRIPT model on protein complexes with known 3-D structure, we find that the inter-protein contact map output by D-SCRIPT has significant overlap with the ground truth. Our work suggests that recent advances in deep learning language modeling of protein structure can be leveraged for protein interaction prediction from sequence. D-SCRIPT is available at http://dscript.csail.mit.edu .
53

Multimodal profiling of lung granulomas reveals cellular correlates of tuberculosis control

Hannah Gideon et al.Oct 24, 2023
+39
C
T
H
Abstract Mycobacterium tuberculosis lung infection results in a complex multicellular structure, the granuloma. In some granulomas, immune activity promotes bacterial clearance; in others, bacteria persist and grow. We identified correlates of bacterial control in cynomolgus macaque lung granulomas by co-registering longitudinal PET-CT imaging, single-cell RNA-sequencing, and measures of bacterial clearance. We find that bacterial persistence occurs in granulomas enriched for mast, endothelial, fibroblast and plasma cells, signaling amongst themselves via Type II immunity and wound healing pathways. In contrast, these interactions are largely absent in granulomas that drive bacterial control, which are often those that form later in the course of infection; these restrictive lesions are characterized by cellular ecosystems enriched for Type1-Type17, stem-like, and cytotoxic T cells engaged in pro-inflammatory signaling networks that involve diverse myeloid and non-immune cell populations. There is also a temporal aspect to bacterial control, in that granulomas that arise later in infection (in the context of an established immune response) share the functional characteristics of restrictive granulomas and are more capable of killing Mtb. Taken together, our results define the complex multicellular ecosystems underlying (lack of) granuloma resolution and highlight host immune targets that can be leveraged to develop new vaccine and therapeutic strategies for TB. One-Sentence Summary Bacterial control in TB lung granulomas correlates with distinct cellular immune microenvironments and time of formation after infection.
53
Citation14
0
Save
0

Coexpression enables multi-study cellular trajectories of development and disease

Brian Hie et al.May 6, 2020
B
B
H
B
Abstract Single-cell transcriptomic studies of diverse and complex systems are becoming ubiquitous. Algorithms now attempt to integrate patterns across these studies by removing all study-specific information, without distinguishing unwanted technical bias from relevant biological variation. Integration remains difficult when capturing biological variation that is distributed across studies, as when combining disparate temporal snapshots into a panoramic, multi-study trajectory of cellular development. Here, we show that a fundamental analytic shift to gene coexpression within clusters of cells, rather than gene expression within individual cells, balances robustness to bias with preservation of meaningful inter-study differences. We leverage this insight in Trajectorama, an algorithm which we use to unify trajectories of neuronal development and hematopoiesis across studies that each profile separate developmental stages, a highly challenging task for existing methods. Trajectorama also reveals systems-level processes relevant to disease pathogenesis within the microglial response to myelin injury. Trajectorama benefits from efficiency and scalability, processing nearly one million cells in around an hour.
0

Sequence biases in CLIP experimental data are incorporated in protein RNA-binding models

Yaron Orenstein et al.May 7, 2020
+2
S
R
Y
We report a newly-identified bias in CLIP data that results from cleaving enzyme specificity. This bias is inadvertently incorporated into standard peak calling methods [1], which identify the most likely locations where proteins bind RNA. We further show how, in downstream analysis, this bias is incorporated into models inferred by the state-of-the-art GraphProt method to predict protein RNA-binding. We call for both experimental controls to measure enzyme specificities and algorithms to identify unbiased CLIP binding sites.
0
Paper
Citation5
0
Save
19

Deciphering the species-level structure of topologically associating domains

Rohit Singh et al.Oct 24, 2023
B
R
Summary Chromosome conformation capture technologies such as Hi-C have revealed a rich hierarchical structure of chromatin, with topologically associating domains (TADs) as a key organizational unit, but experimentally reported TAD architectures, currently determined separately for each cell type, are lacking for many cell/tissue types. A solution to address this issue is to integrate existing epigenetic data across cells and tissue types to develop a species-level consensus map relating genes to TADs. Here, we introduce the TAD Map , a bag-of-genes representation that we use to infer, or “impute,” TAD architectures for those cells/tissues with limited Hi-C experimental data. The TAD Map enables a systematic analysis of gene coexpression induced by chromatin structure. By overlaying transcriptional data from hundreds of bulk and single-cell assays onto the TAD Map, we assess gene coexpression in TADs and find that expressed genes cluster into fewer TADs than would be expected by chance, and show that time-course and RNA velocity studies further reveal this clustering to be strongest in the early stages of cell differentiation; it is also strong in tumor cells. We provide a probabilistic model to summarize any scRNA-seq transcriptome in terms of its TAD activation profile, which we term a TAD signature, and demonstrate its value for cell type inference, cell fate prediction, and multimodal synthesis. More broadly, our work indicates that the TAD Map’s comprehensive, quantitative integration of chromatin structure and scRNA-seq data should play a key role in epigenetic and transcriptomic analyses. Software availability : https://tadmap.csail.mit.edu Graphical Abstract
19
Citation4
0
Save
12

Adapting protein language models for rapid DTI prediction

Samuel Sledzieski et al.Oct 24, 2023
B
L
R
S
Abstract We consider the problem of sequence-based drug-target interaction (DTI) prediction, showing that a straightforward deep learning architecture that leverages pre-trained protein language models (PLMs) for protein embedding outperforms state of the art approaches, achieving higher accuracy, expanded generalizability, and an order of magnitude faster training. PLM embeddings are found to contain general information that is especially useful in few-shot (small training data set) and zero-shot instances (unseen proteins or drugs). Additionally, the PLM embeddings can be augmented with features tuned by task-specific pre-training, and we find that these task-specific features are more informative than baseline PLM features. We anticipate such transfer learning approaches will facilitate rapid prototyping of DTI models, especially in low-N scenarios.
47

Learning with uncertainty for biological discovery and design

Brian Hie et al.Oct 24, 2023
B
B
B
Abstract Machine learning that generates biological hypotheses has transformative potential, but most learning algorithms are susceptible to pathological failure when exploring regimes beyond the training data distribution. A solution is to quantify prediction uncertainty so that algorithms can gracefully handle novel phenomena that confound standard methods. Here, we demonstrate the broad utility of robust uncertainty prediction in biological discovery. By leveraging Gaussian process-based uncertainty prediction on modern pretrained features, we train a model on just 72 compounds to make predictions over a 10,833-compound library, identifying and experimentally validating compounds with nanomolar affinity for diverse kinases and whole-cell growth inhibition of Mycobacterium tuberculosis . We show how uncertainty facilitates a tight iterative loop between computation and experimentation, improves the generative design of novel biochemical structures, and generalizes across disparate biological domains. More broadly, our work demonstrates that uncertainty should play a key role in the increasing adoption of machine learning algorithms into the experimental lifecycle.
0

Democratizing protein language models with parameter-efficient fine-tuning

Samuel Sledzieski et al.Sep 6, 2024
+3
M
M
S
Proteomics has been revolutionized by large protein language models (PLMs), which learn unsupervised representations from large corpora of sequences. These models are typically fine-tuned in a supervised setting to adapt the model to specific downstream tasks. However, the computational and memory footprint of fine-tuning (FT) large PLMs presents a barrier for many research groups with limited computational resources. Natural language processing has seen a similar explosion in the size of models, where these challenges have been addressed by methods for parameter-efficient fine-tuning (PEFT). In this work, we introduce this paradigm to proteomics through leveraging the parameter-efficient method LoRA and training new models for two important tasks: predicting protein–protein interactions (PPIs) and predicting the symmetry of homooligomer quaternary structures. We show that these approaches are competitive with traditional FT while requiring reduced memory and substantially fewer parameters. We additionally show that for the PPI prediction task, training only the classification head also remains competitive with full FT, using five orders of magnitude fewer parameters, and that each of these methods outperform state-of-the-art PPI prediction methods with substantially reduced compute. We further perform a comprehensive evaluation of the hyperparameter space, demonstrate that PEFT of PLMs is robust to variations in these hyperparameters, and elucidate where best practices for PEFT in proteomics differ from those in natural language processing. All our model adaptation and evaluation code is available open-source at https://github.com/microsoft/peft_proteomics . Thus, we provide a blueprint to democratize the power of PLM adaptation to groups with limited computational resources.
1

Causal gene regulatory analysis with RNA velocity reveals an interplay between slow and fast transcription factors

Rohit Singh et al.Oct 24, 2023
B
A
A
R
Abstract Single-cell expression dynamics from differentiation trajectories or RNA velocity have the potential to reveal causal links between transcription factors (TFs) and their target genes in gene regulatory networks (GRNs). However, existing methods either neglect these expression dynamics or require cells to be ordered along a linear pseudotemporal axis, which is incompatible with branching trajectories. We introduce Velorama, an approach to causal GRN inference that represents single-cell differentiation dynamics as a directed acyclic graph (DAG) of cells constructed from pseudotime or RNA velocity measurements. In contrast to previous approaches, Velorama is able to work directly with RNA velocity-based cell-to-cell transition probabilities and enables estimates of TF interaction speeds with their target genes. On a set of synthetic datasets, Velorama substantially outperforms existing approaches, improving area under the precision-recall curve (AUPRC) by 3.7–4.8x over the next best method. Applying Velorama to four RNA velocity datasets, we uncover evidence that the speed of a TF’s interactions is tied to its regulatory function. For human corticogenesis, we find slow TFs to be linked to gliomas and co-regulate preferentially with fast TFs, while fast TFs are associated with neuropsychiatric diseases. We expect Velorama to be a critical part of the RNA velocity toolkit for investigating the causal drivers of differentiation and disease. Software availability https://cb.csail.mit.edu/cb/velorama
Load More