PT
Peter Tonner
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(67% Open Access)
Cited by:
14
h-index:
12
/
i10-index:
14
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

The genotype-phenotype landscape of an allosteric protein

Drew Tack et al.Jul 11, 2020
+6
A
P
D
Abstract Allostery is a fundamental biophysical mechanism that underlies cellular sensing, signaling, and metabolism. Quantitative methods to characterize the genotype-phenotype relationships for allosteric proteins would provide data needed to improve engineering of biological systems, to uncover the role of allosteric mis-regulation in disease, and to develop allosterically targeted drugs 1 . Here we report the large-scale measurement of the genotype-phenotype landscape for an allosteric protein: the lac repressor from Escherichia coli , LacI. Using a method that combines long-read and short-read DNA sequencing, we quantitatively determine the dose-response curves for nearly 10 5 variants of the LacI sensor. With the resulting data, we train a deep neural network (DNN) capable of predicting the dose-response curves for additional LacI genotypes in silico. We then map the impact of amino acid substitutions on the allosteric function of LacI. Additionally, we demonstrate engineering of allosteric function with unprecedented accuracy by identifying LacI variants from the measured landscape with quantitatively specified dose-response curves. Finally, we discover sensors with previously unreported band-stop dose-response curves. Overall, our results provide the first high-coverage, quantitative view of genotype-phenotype relationships for an allosteric protein, revealing a surprising diversity of phenotypes and showing that each phenotype is accessible via multiple distinct genotypes.
1
Citation5
0
Save
9

Interpretable modeling of genotype-phenotype landscapes with state-of-the-art predictive power

Peter Tonner et al.Jun 13, 2021
D
A
P
Abstract Large-scale measurements linking genetic background to biological function have driven a need for models that can incorporate these data for reliable predictions and insight into the underlying biochemical system. Recent modeling efforts, however, prioritize predictive accuracy at the expense of model interpretability. Here, we present LANTERN ( https://github.com/usnistgov/lantern ), a hierarchical Bayesian model that distills genotype-phenotype landscape (GPL) measurements into a low-dimensional feature-space that represents the fundamental biological mechanisms of the system while also enabling straightforward, explainable predictions. Across a benchmark of large-scale datasets, LANTERN equals or outperforms all alternative approaches, including deep neural networks. LANTERN furthermore extracts useful insights into the landscape including its inherent dimensionality, a latent space of additive mutational effects, and novel metrics of landscape structure. LANTERN facilitates straightforward discovery of fundamental mechanisms in GPLs, while also reliably extrapolating to unexplored regions of genotypic-space.
9
Citation5
0
Save
29

StratoMod: Predicting sequencing and variant calling errors with interpretable machine learning

Nathan Dwarshuis et al.Jan 21, 2023
+3
N
P
N
Abstract Despite the variety in sequencing platforms, mappers, and variant callers, no single pipeline is optimal across the entire human genome. Therefore, developers, clinicians, and researchers need to make tradeoffs when designing pipelines for their application. Currently, assessing such tradeoffs relies on intuition about how a certain pipeline will perform in a given genomic context. We present Stratomod, which addresses this problem using an interpretable machine-learning classifier to predict variant calling errors in a data-driven manner. We showed Stratomod can precisely quantify the likelihood of missing variants using Hifi or Illumina, and leveraged Stratomod’s interpretability to measure contributions from difficult-to-map and homopolymer regions for each respective outcome. Furthermore, we used Statomod to assess the likelihood of missing variants due to mismapping using linear vs. graph-based references, and identified the hard-to-map regions where graph-based methods excelled and by how much. For these we utilized our new benchmark based on the Q100 HG002 assembly, which contains previously-inaccessible difficult regions. Furthermore, Stratomod presents a new method of finding likely false negatives, which is an improvement over current pipelines which only filter false positives. We anticipate this being useful for performing precise risk-reward analyses when designing variant calling pipelines.
29
Citation3
0
Save
1

Predicted Coronavirus Nsp5 Protease Cleavage Sites in the Human Proteome: A Resource for SARS-CoV-2 Research

Benjamin Scott et al.Jun 8, 2021
+2
D
V
B
Abstract Background The coronavirus nonstructural protein 5 (Nsp5) is a cysteine protease required for processing the viral polyprotein and is therefore crucial for viral replication. Nsp5 from several coronaviruses have also been found to cleave host proteins, disrupting molecular pathways involved in innate immunity. Nsp5 from the recently emerged SARS-CoV-2 virus interacts with and can cleave human proteins, which may be relevant to the pathogenesis of COVID-19. Based on the continuing global pandemic, and emerging understanding of coronavirus Nsp5-human protein interactions, we set out to predict what human proteins are cleaved by the coronavirus Nsp5 protease using a bioinformatics approach. Results Using a previously developed neural network trained on coronavirus Nsp5 cleavage sites (NetCorona), we made predictions of Nsp5 cleavage sites in all human proteins. Structures of human proteins in the Protein Data Bank containing a predicted Nsp5 cleavage site were then examined, generating a list of 92 human proteins with a highly predicted and accessible cleavage site. Of those, 48 are expected to be found in the same cellular compartment as Nsp5. Analysis of this targeted list of proteins revealed molecular pathways susceptible to Nsp5 cleavage and therefore relevant to coronavirus infection, including pathways involved in mRNA processing, cytokine response, cytoskeleton organization, and apoptosis. Conclusions This study combines predictions of Nsp5 cleavage sites in human proteins with protein structure information and protein network analysis. We predicted cleavage sites in proteins recently shown to be cleaved in vitro by SARS-CoV-2 Nsp5, and we discuss how other potentially cleaved proteins may be relevant to coronavirus mediated immune dysregulation. The data presented here will assist in the design of more targeted experiments, to determine the role of coronavirus Nsp5 cleavage of host proteins, which is relevant to understanding the molecular pathology of SARS-CoV-2 infection.
1
Citation1
0
Save
8

The genotype-phenotype landscape of an allosteric protein

Drew Tack et al.Sep 30, 2020
+6
A
P
D
Abstract Allostery is a fundamental biophysical mechanism that underlies cellular sensing, signaling, and metabolism. Yet a quantitative understanding of allosteric genotype-phenotype relationships remains elusive. Here we report the large-scale measurement of the genotype-phenotype landscape for an allosteric protein: the lac repressor from Escherichia coli , LacI. Using a method that combines long-read and short-read DNA sequencing, we quantitatively measure the dose-response curves for nearly 10 5 variants of the LacI genetic sensor. The resulting data provide a quantitative map of the effect of amino acid substitutions on LacI allostery and reveal systematic sequence-structure-function relationships. We find that in many cases, allosteric phenotypes can be quantitatively predicted with additive or neural-network models, but unpredictable changes also occur. For example, we were surprised to discover a new band-stop phenotype that challenges conventional models of allostery and that emerges from combinations of nearly silent amino acid substitutions.
0

A Bayesian Non-parametric Mixed-Effects Model of Microbial Phenotypes

Peter Tonner et al.Oct 4, 2019
+4
F
C
P
Substantive changes in gene expression, metabolism, and the proteome are manifested in overall changes in microbial population growth. Quantifying how microbes grow is therefore fundamental to areas such as genetics, bioengineering, and food safety. Traditional parametric growth curve models capture the population growth behavior through a set of summarizing parameters. However, estimation of these parameters from data is confounded by random effects such as experimental variability, batch effects or differences in experimental material. A systematic statistical method to identify and correct for such confounding effects in population growth data is not currently available. Further, our previous work has demonstrated that parametric models are insufficient to explain and predict microbial response under non-standard growth conditions. Here we develop a hierarchical Bayesian non-parametric model of population growth that identifies the latent growth behavior and response to perturbation, while simultaneously correcting for random effects in the data. This model enables more accurate estimates of the biological effect of interest, while better accounting for the uncertainty due to technical variation. Additionally, modeling hierarchical variation provides estimates of the relative impact of various confounding effects on measured population growth.
0

Detecting differential growth of microbial populations with Gaussian process regression

Peter Tonner et al.May 24, 2016
A
B
C
P
Microbial growth curves are used to study differential effects of media, genetics, and stress on microbial population growth. Consequently, many modeling frameworks exist to capture microbial population growth measurements. However, current models are designed to quantify growth under conditions that produce a specific functional form. Extensions to these models are required to quantify the effects of perturbations, which often exhibit non-standard growth curves. Rather than fix expected functional forms of different experimental perturbations, we developed a general and robust model of microbial population growth curves using Gaussian process (GP) regression. GP regression modeling of high resolution time-series growth data enables accurate quantification of population growth, and can be extended to identify differential growth phenotypes due to genetic background or stress. Additionally, confounding effects due to experimental variation can be controlled explicitly. Our framework substantially outperforms commonly used microbial population growth models, particularly when modeling growth data from environmentally stressed populations. We apply the GP growth model to a collection of growth measurements for seven transcription factor knockout strains of a model archaeal organism, Halobacterium salinarum. Using these models fitted to growth data, two statistical tests were developed to quantify the differential effects of genetic and environmental perturbations on microbial growth. These statistical tests accurately identify known regulators and implicate novel regulators of growth under standard and stress conditions. Furthermore, the fitted GP regression models are interpretable, recapitulating biological knowledge of growth response while providing new insights into the relevant parameters affecting microbial population growth.
17

Precision engineering of biological function with large-scale measurements and machine learning

Drew Tack et al.Aug 5, 2022
+6
A
P
D
Abstract As synthetic biology expands and accelerates into real-world applications, methods for quantitatively and precisely engineering biological function become increasingly relevant. This is particularly true for applications that require programmed sensing to dynamically regulate gene expression in response to stimuli. However, few methods have been described that can engineer biological sensing with any level of quantitative precision. Here, we present two complementary methods for precision engineering of genetic sensors: in silico selection and machine-learning-enabled forward engineering. Both methods use a large-scale genotype-phenotype dataset to identify DNA sequences that encode sensors with quantitatively specified dose response. First, we show that in silico selection can be used to engineer sensors with a wide range of dose-response curves. To demonstrate in silico selection for precise, multi-objective engineering, we simultaneously tune a genetic sensor’s sensitivity ( EC 50 ) and saturating output to meet quantitative specifications. In addition, we engineer sensors with inverted dose-response and specified EC 50 . Second, we demonstrate a machine-learning-enabled approach to predictively engineer genetic sensors with mutation combinations that are not present in the large-scale dataset. We show that the interpretable machine learning results can be combined with a biophysical model to engineer sensors with improved inverted dose-response curves.
0

Improved stability of an engineered function using adapted bacterial strains

Drew Tack et al.Mar 6, 2020
+2
E
P
D
Engineering useful functions into cells is one of the primary goals of synthetic biology. However, engineering novel functions that remain stable for multiple generations remains a significant challenge. Here we report the importance of host fitness on the stability of an engineered function. We find that the initial fitness of the host cell affects the stability of the engineered function. We demonstrate that adapting a strain to the intended growth condition increases fitness and in turn improves the stability of the engineered function over hundreds of generations. This approach offers a simple and effective method to increase the stability of engineered functions without genomic modification or additional engineering and will be useful in improving the stability of novel, engineered functions in living cells.