NR
Nathan Rollins
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(78% Open Access)
Cited by:
32
h-index:
9
/
i10-index:
9
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
22

MaveDB v2: a curated community database with over three million variant effects from multiplexed functional assays

Alan Rubin et al.Nov 30, 2021
+21
J
M
A
Abstract A central problem in genomics is understanding the effect of individual DNA variants. Multiplexed Assays of Variant Effect (MAVEs) can help address this challenge by measuring all possible single nucleotide variant effects in a gene or regulatory sequence simultaneously. Here we describe MaveDB v2, which has become the database of record for MAVEs. MaveDB now contains a large fraction of published studies, comprising over two hundred datasets and three million variant effect measurements. We created tools and APIs to streamline data submission and access, transforming MaveDB into a hub for the analysis and dissemination of these impactful datasets.
22
Citation20
0
Save
80

Protein design using structure-based residue preferences

David Ding et al.Nov 1, 2022
+5
S
A
D
Abstract Recent developments in protein design have adapted large neural networks with up to 100s of millions of parameters to learn complex sequence-function mappings. However, it is unclear which dependencies between residues are critical for determining protein function, and a better empirical understanding could enable high quality models that are also more data- and resource-efficient. Here, we observe that the per residue amino acid preferences - without considering interactions between mutations are sufficient to explain much, and sometimes virtually all of the combinatorial mutation effects across 7 datasets (R 2 ∼ 78-98%), including one generated here. These preference parameters (20*N, where N is the number of mutated residues) can be learned from as few as ∼5*20*N observations to predict a much larger number (potentially up to 20 N ) of combinatorial variant effects with high accuracy (Pearson r > 0.8). We hypothesized that the local structural dependencies surrounding a residue could be sufficient to learn these required mutation preferences, and developed an unsupervised design approach, which we term CoVES for ‘ Co mbinatorial V ariant E ffects from S tructure’. We show that CoVES outperforms not just model free sampling approaches but also complicated, high-capacity autoregressive neural networks in generating functional and diverse sequence variants for two example proteins. This simple, biologically-rooted model can be an effective alternative to high-capacity, out of domain models for the design of functional proteins.
80
Citation7
0
Save
37

High-content screening of coronavirus genes for innate immune suppression reveals enhanced potency of SARS-CoV-2 proteins

Erika Olson et al.Mar 2, 2021
+19
P
H
E
Summary Suppression of the host intracellular innate immune system is an essential aspect of viral replication. Here, we developed a suite of medium-throughput high-content cell-based assays to reveal the effect of individual coronavirus proteins on antiviral innate immune pathways. Using these assays, we screened the 196 protein products of seven coronaviruses (SARS-CoV-2, SARS-CoV-1, 229E, NL63, OC43, HKU1 and MERS). This includes a previously unidentified gene in SARS-CoV-2 encoded within the Spike gene. We observe immune-suppressing activity in both known host-suppressing genes (e.g., NSP1, Orf6, NSP3, and NSP5) as well as other coronavirus genes, including the newly identified SARS-CoV-2 protein. Moreover, the genes encoded by SARS-CoV-2 are generally more potent immune suppressors than their homologues from the other coronaviruses. This suite of pathway-based and mechanism-agnostic assays could serve as the basis for rapid in vitro prediction of the pathogenicity of novel viruses based on provision of sequence information alone.
37
Citation4
0
Save
0

Results of the Protein Engineering Tournament: An Open Science Benchmark for Protein Modeling and Design

Chase Armer et al.Aug 12, 2024
+9
D
H
C
Abstract The grand challenge of protein engineering is the development of computational models to characterize and generate protein sequences for arbitrary functions. Progress is limited by lack of 1) benchmarking opportunities, 2) large protein function datasets, and 3) access to experimental protein characterization. We introduce the Protein Engineering Tournament—a fully-remote competition designed to foster the development and evaluation of computational approaches in protein engineering. The tournament consists of an in silico round, predicting biophysical properties from protein sequences, followed by an in vitro round where novel protein sequences are designed, expressed and characterized using automated methods. Upon completion, all datasets, experimental protocols, and methods are made publicly available. We detail the structure and outcomes of a pilot Tournament involving seven protein design teams, powered by six multi-objective datasets, with experimental characterization by our partner, International Flavors and Fragrances. Forthcoming Protein Engineering Tournaments aim to mobilize the scientific community towards transparent evaluation of progress in the field. Abstract Figure
22

Removing bias in sequence models of protein fitness

Ada Shaw et al.Jan 1, 2023
+3
J
H
A
Unsupervised sequence models for protein fitness have emerged as powerful tools for protein design in order to engineer therapeutics and industrial enzymes, yet they are strongly biased towards potential designs that are close to their training data. This hinders their ability to generate functional sequences that are far away from natural sequences, as is often desired to design new functions. To address this problem, we introduce a de-biasing approach that enables the comparison of protein sequences across mutational depths to overcome the extant sequence similarity bias in natural sequence models. We demonstrate our method9s effectiveness at improving the relative natural sequence model predictions of experimentally measured variant functions across mutational depths. Using case studies proteins with very low functional percentages further away from the wild type, we demonstrate that our method improves the recovery of top-performing variants in these sparsely functional regimes. Our method is generally applicable to any unsupervised fitness prediction model, and for any function for any protein, and can thus easily be incorporated into any computational protein design pipeline. These studies have the potential to develop more efficient and cost-effective computational methods for designing diverse functional proteins and to inform underlying experimental library design to best take advantage of machine learning capabilities.
1

High content screening and computational prediction reveal viral genes that suppress innate immune response

Tai Ng et al.Dec 15, 2021
+15
T
E
T
ABSTRACT Suppression of the host innate immune response is a critical aspect of viral replication. Upon infection, viruses may introduce one or more proteins that inhibit key immune pathways, such as the type I interferon pathway. However, the ability to predict and evaluate viral protein bioactivity on targeted pathways remains challenging and is typically done on a single virus/gene basis. Here, we present a medium-throughput high-content cell-based assay to reveal the immunosuppressive effects of viral proteins. To test the predictive power of our approach, we developed a library of 800 genes encoding known, predicted, and uncharacterized human viral genes. We find that previously known immune suppressors from numerous viral families such as Picornaviridae and Flaviviridae recorded positive responses. These include a number of viral proteases for which we further confirmed that innate immune suppression depends on protease activity. A class of predicted inhibitors encoded by Rhabdoviridae viruses was demonstrated to block nuclear transport, and several previously uncharacterized proteins from uncultivated viruses were shown to inhibit nuclear transport of the transcription factors NF-κB and IRF3. We propose that this pathway-based assay, together with early sequencing, gene synthesis, and viral infection studies, could partly serve as the basis for rapid in vitro characterization of novel viral proteins. IMPORTANCE Infectious diseases caused by viral pathogens exacerbate healthcare and economic burdens. Numerous viral biomolecules suppress the human innate immune system, enabling viruses to evade an immune response from the host. Despite our current understanding of viral replications and immune evasion, new viral proteins, including those encoded by uncultivated viruses or emerging viruses, are being unearthed at a rapid pace from large scale sequencing and surveillance projects. The use of medium- and high-throughput functional assays to characterize immunosuppressive functions of viral proteins can advance our understanding of viral replication and possibly treatment of infections. In this study we assembled a large viral gene library from diverse viral families and developed a high content assay to test for inhibition of innate immunity pathways. Our work expands the tools that can rapidly link sequence and protein function, representing a practical step towards early-stage evaluation of emerging and understudied viruses.
0

ProteinGym: Large-Scale Benchmarks for Protein Design and Fitness Prediction

Pascal Notin et al.Jan 1, 2023
+13
R
S
P
Predicting the effects of mutations in proteins is critical to many applications, from understanding genetic disease to designing novel proteins that can address our most pressing challenges in climate, agriculture and healthcare. Despite the surge in machine learning-based protein models to tackle these questions, an assessment of their respective benefits is challenging due to the use of distinct, often contrived, experimental datasets, and the variable performance of models across different protein families. Addressing these challenges requires scale. To that end we introduce ProteinGym, a large-scale and holistic set of benchmarks specifically designed for protein fitness prediction and design. It encompasses both a broad collection of over 250 standardized deep mutational scanning assays, spanning millions of mutated sequences, as well as curated clinical datasets providing high-quality expert annotations about mutation effects. We devise a robust evaluation framework that combines metrics for both fitness prediction and design, factors in known limitations of the underlying experimental methods, and covers both zero-shot and supervised settings. We report the performance of a diverse set of over 70 high-performing models from various subfields (eg., alignment-based, inverse folding) into a unified benchmark suite. We open source the corresponding codebase, datasets, MSAs, structures, model predictions and develop a user-friendly website that facilitates data access and analysis.
71

Learning from pre-pandemic data to forecast viral escape

Nicole Thadani et al.Jul 22, 2022
+5
Y
S
N
Summary Effective pandemic preparedness relies on anticipating viral mutations that are able to evade host immune responses in order to facilitate vaccine and therapeutic design. However, current strategies for viral evolution prediction are not available early in a pandemic – experimental approaches require host polyclonal antibodies to test against and existing computational methods draw heavily from current strain prevalence to make reliable predictions of variants of concern. To address this, we developed EVEscape, a generalizable, modular framework that combines fitness predictions from a deep learning model of historical sequences with biophysical structural information. EVEscape quantifies the viral escape potential of mutations at scale and has the advantage of being applicable before surveillance sequencing, experimental scans, or 3D structures of antibody complexes are available. We demonstrate that EVEscape, trained on sequences available prior to 2020, is as accurate as high-throughput experimental scans at anticipating pandemic variation for SARS-CoV-2 and is generalizable to other viruses including Influenza, HIV, and understudied viruses with pandemic potential such as Lassa and Nipah. We provide continually updated escape scores for all current strains of SARS-CoV-2 and predict likely additional mutations to forecast emerging strains as a tool for ongoing vaccine development ( evescape.org ).
10

Multiplexed measurement of variant abundance and activity reveals VKOR topology, active site and human variant impact

Melissa Chiasson et al.May 10, 2020
+9
N
D
M
ABSTRACT Vitamin K epoxide reductase (VKOR) drives the vitamin K cycle, activating vitamin K-dependent blood clotting factors. VKOR is also the target of the widely used anticoagulant drug, warfarin Despite VKOR’s pivotal role in coagulation, its structure and active site remain poorly understood. In addition, VKOR variants can cause vitamin K-dependent clotting factor deficiency 2 or alter warfarin response. Here, we used multiplexed, sequencing-based assays to measure the effects of 2,695 VKOR missense variants on abundance and 697 variants on activity in cultured human cells. The large-scale functional data, along with an evolutionary coupling analysis, supports a four transmembrane domain topology, with variants in transmembrane domains exhibiting strongly deleterious effects on abundance and activity. Functionally constrained regions of the protein define the active site, and we find that, of four conserved cysteines putatively critical for function, only three are absolutely required. Finally, 25% of human VKOR missense variants show reduced abundance or activity, possibly conferring warfarin sensitivity or causing disease.