XF
Xiaozhi Fu
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(80% Open Access)
Cited by:
3
h-index:
7
/
i10-index:
7
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
80

Supervised generative design of regulatory DNA for gene expression control

Jan Zrimec et al.Jul 15, 2021
+11
A
X
J
Abstract In order to control gene expression, regulatory DNA variants are commonly designed using random synthetic approaches with mutagenesis and screening. This however limits the size of the designed DNA to span merely a part of a single regulatory region, whereas the whole gene regulatory structure including the coding and adjacent non-coding regions is involved in controlling gene expression. Here, we prototype a deep neural network strategy that models whole gene regulatory structures and generates de novo functional regulatory DNA with prespecified expression levels. By learning directly from natural genomic data, without the need for large synthetic DNA libraries, our ExpressionGAN can traverse the whole sequence-expression landscape to produce sequence variants with target mRNA levels as well as natural-like properties, including over 30% dissimilarity to any natural sequence. We experimentally demonstrate that this generative strategy is more efficient than a mutational one when using purely natural genomic data, as 57% of the newly-generated highly-expressed sequences surpass the expression levels of natural controls. We foresee this as a lucrative strategy to expand our knowledge of gene expression regulation as well as increase expression control in any desired organism for synthetic biology and metabolic engineering applications.
80
Citation3
0
Save
53

The amino acid sequence determines protein abundance through its conformational stability and reduced synthesis cost.

Filip Buric et al.Jan 1, 2023
+6
X
S
F
Understanding what drives protein abundance is essential to biology, medicine, and biotechnology. Driven by evolutionary selection, the amino acid sequence is tailored to meet the required abundance of proteomes, underscoring the intricate relationship between sequence and functional demand of proteomes. Yet, the specific role of amino acid sequences in determining proteome abundance remains elusive. Here, we demonstrate that the amino acid sequence predicts abundance by shaping a protein9s conformational stability. We show that increasing the abundance provides metabolic cost benefits, underscoring the evolutionary advantage of maintaining a highly abundant and stable proteome. Specifically, using a deep learning model (BERT), we predict 56% of protein abundance variation in Saccharomyces cerevisiae solely based on amino acid sequence. The model reveals latent factors linking sequence features to protein stability. To probe these relationships, we introduce MGEM (Mutation Guided by an Embedded Manifold), a methodology for guiding protein abundance through sequence modifications. We find that mutations increasing abundance significantly alter protein polarity and hydrophobicity, underscoring a connection between protein stability and abundance. Through molecular dynamics simulations and in vivo experiments in yeast, we confirm that abundance-enhancing mutations result in longer-lasting and more stable protein expression. Importantly, these sequence changes also reduce metabolic costs of protein synthesis, elucidating the evolutionary advantage of cost-effective, high-abundance, stable proteomes. Our findings support the role of amino acid sequence as a pivotal determinant of protein abundance and stability, revealing an evolutionary optimization for metabolic efficiency.
53
0
Save
0

How deep can we decipher protein evolution with deep learning models

Xiaozhi FuAug 1, 2024
X
Evolutionary-based machine learning models have emerged as a fascinating approach to mapping the landscape for protein evolution. Lian et al. demonstrated that evolution-based deep generative models, specifically variational autoencoders, can organize SH3 homologs in a hierarchical latent space, effectively distinguishing the specific Sho1
68

Computational Scoring and Experimental Evaluation of Enzymes Generated by Neural Networks

Sean Johnson et al.Mar 4, 2023
+4
S
X
S
Abstract In recent years, generative protein sequence models have been developed to sample novel sequences. However, predicting whether generated proteins will fold and function remains challenging. We evaluate computational metrics to assess the quality of enzyme sequences produced by three contrasting generative models: ancestral sequence reconstruction, a generative adversarial network, and a protein language model. Focusing on two enzyme families, we expressed and purified over 440 natural and generated sequences with 70-90% identity to the most similar natural sequences to benchmark computational metrics for predicting in vitro enzyme activity. Over three rounds of experiments, we developed a computational filter that improved experimental success rates by 44-100%. Surprisingly, neither sequence identity to natural sequences nor AlphaFold2 residue-confidence scores were predictive of enzyme activity. The proposed metrics and models will drive protein engineering research by serving as a benchmark for generative protein sequence models and helping to select active variants to test experimentally.
0

Single Distal Mutation Enhances Activity of known PETases via Stabilisation of PET-binding

Xiaozhi Fu et al.Sep 11, 2024
+5
G
O
X
As a major source of plastic pollution, PET has attracted significant interest for biodegradation due to its potential in the circular economy. Finding effective enzymes still remains a challenge as screening methods are limited by either the low throughput or dependence on alternative non-PET substrates due to PET's insolubility. Here, we report a highly active, stable and robust enzyme, Fast_2.9, identified while directly screening for PET-degrading activity in mesophilic conditions using droplet-based encapsulation of PET nanoparticles with the throughput above 1 kHz. We identified a distal S269T mutation that improves activity in the majority of all known PETases with up to 400 times over wildtype, and more than twice of known engineered PETases, as tested on untreated post-consumer plastics. Microsecond time scale molecular dynamics analyses indicate that this distant mutation possibly influences residues near the substrate-binding cleft via a common mechanism across PETases. Compared to the state-of-the-art FastPETase and LCC_ICCG enzymes, the engineered Fast_2.9 enzyme requires up to 8 and 42 times lower enzyme concentrations to reach the same enzymatic activity, ultimately requiring significantly less enzyme. As such our engineered enzyme degrades multiple post-consumer PET substrates, including polyester textiles, within as least as just 2 days with up to nearly 100% terephthalic acid conversion using as little as 0.72 mgenzyme/gPET at 50 degrees C. Our study presents a universal methodology for direct screening of insoluble substrates at ultra-high-throughput and highlights the techno-economic potential of Fast_2.9 for PET depolymerisation.