BZ
Bozitao Zhong
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(100% Open Access)
Cited by:
4
h-index:
6
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

DeProt: A protein language model with quantizied structure and disentangled attention

Mingchen Li et al.Apr 17, 2024
Abstract Protein language models have exhibited remarkable representational capabilities in various downstream tasks, notably in the prediction of protein functions. Despite their success, these models traditionally grapple with a critical shortcoming: the absence of explicit protein structure information, which is pivotal for elucidating the relationship between protein sequences and their functionality. Addressing this gap, we introduce DeProt, a Transformer-based protein language model designed to incorporate protein sequences and structures. It was pre-trained on millions of protein structures from diverse natural protein clusters. DeProt first serializes protein structures into residue-level local-structure sequences and use a graph neural network based auto-encoder to vectorized the local structures. Then, these vectors are quantized and formed a discrete structure tokens by a pre-trained codebook. Meanwhile, DeProt utilize disentangled attention mechanisms to effectively integrate residue sequences with structure token sequences. Despite having fewer parameters and less training data, DeProt significantly outperforms other state-ofthe-art (SOTA) protein language models, including those that are structure-aware and evolution-based, particularly in the task of zero-shot mutant effect prediction across 217 deep mutational scanning assays. Furthermore, DeProt exhibits robust representational capabilities across a spectrum of supervised-learning downstream tasks. Our comprehensive benchmarks underscore the innovative nature of DeProt’s framework and its superior performance, suggesting its wide applicability in the realm of protein deep learning. For those interested in exploring DeProt further, the code, model weights, and all associated datasets are accessible at: https://github.com/ginnm/DeProt .
0

Simple, Efficient, and Scalable Structure-Aware Adapter Boosts Protein Language Models

Yang Tan et al.Aug 7, 2024
Fine-tuning pretrained protein language models (PLMs) has emerged as a prominent strategy for enhancing downstream prediction tasks, often outperforming traditional supervised learning approaches. As a widely applied powerful technique in natural language processing, employing parameter-efficient fine-tuning techniques could potentially enhance the performance of PLMs. However, the direct transfer to life science tasks is nontrivial due to the different training strategies and data forms. To address this gap, we introduce SES-Adapter, a simple, efficient, and scalable adapter method for enhancing the representation learning of PLMs. SES-Adapter incorporates PLM embeddings with structural sequence embeddings to create structure-aware representations. We show that the proposed method is compatible with different PLM architectures and across diverse tasks. Extensive evaluations are conducted on 2 types of folding structures with notable quality differences, 9 state-of-the-art baselines, and 9 benchmark data sets across distinct downstream tasks. Results show that compared to vanilla PLMs, SES-Adapter improves downstream task performance by a maximum of 11% and an average of 3%, with significantly accelerated convergence speed by a maximum of 1034% and an average of 362%, the training efficiency is also improved by approximately 2 times. Moreover, positive optimization is observed even with low-quality predicted structures. The source code for SES-Adapter is available at https://github.com/tyang816/SES-Adapter.
0

Precise Generation of Conformational Ensembles for Intrinsically Disordered Proteins Using Fine-tuned Diffusion Models

Junjie Zhu et al.May 7, 2024
Intrinsically disordered proteins (IDPs) play pivotal roles in various biological functions and are closely linked to many human diseases including cancer, diabetes and Alzheimer disease. Structural investigations of IDPs typically involve a combination of molecular dynamics (MD) simulations and experimental data to correct for intrinsic biases in simulation methods. However, these simulations are hindered by their high computational cost and a scarcity of experimental data, severely limiting their applicability. Despite the recent advancements in structure prediction for structured proteins, understanding the conformational properties of IDPs remains challenging partly due to the poor conservation of disordered protein sequences and limited experimental characterization. Here, we introduce IDPFold, a method capable of generating conformational ensembles for IDPs directly from their sequences using fine-tuned diffusion models. IDPFold bypasses the need for Multiple Sequence Alignments (MSA) or experimental data, achieving accurate predictions of ensemble properties across numerous IDPs. By sampling conformations at the backbone level, IDPFold provides more detailed structural features and more precise property estimation compared to other state-of-the-art methods. IDPFold is ready to be used in the elucidate the sequence-disorder-function paradigm of IDPs.
20

Conditional Protein Denoising Diffusion Generates Programmable Endonucleases

Bingxin Zhou et al.Aug 14, 2023
Abstract Computation or deep learning-based functional protein generation methods address the urgent demand for novel biocatalysts, allowing for precise tailoring of functionalities to meet specific requirements. This emergence leads to the creation of highly efficient and specialized proteins with wide-ranging applications in scientific, technological, and biomedical domains. This study establishes a conditional protein diffusion model, namely CPDiffusion, to deliver diverse protein sequences with desired functions. While the model is free from extensive training data and the sampling process involves little guidance on the type of generated amino acids, CPDiffusion effectively secures essential highly conserved residues that are crucial for protein functionalities. We employed CPDiffusion and generated 27 artificially designed Argonaute proteins, programmable endonucleases applied for easy-to-implement and high-throughput screenings in gene editing and molecular diagnostics, that mutated approximately 200 − 400 amino acids with 40% sequence identities to those from nature. Experimental tests demonstrate the solubility of all 27 artificially-designed proteins (AP), with 24 of them displaying DNA cleavage activity. Remarkably, 74% of active APs exhibited superior activity compared to the template protein, and the most effective one showcased a remarkable nearly nine-fold enhancement of enzymatic activity. Moreover, 37% of APs exhibited enhanced thermostability. These findings emphasize CPDiffusion’s remarkable capability to generate long-sequence proteins in a single step while retaining or enhancing intricate functionality. This approach facilitates the design of intricate enzymes featuring multi-domain molecular structures through in silico generation and throughput, all accomplished without the need for supervision from labeled data.
0

Scaffold-Lab: Critical Evaluation and Ranking of Protein Backbone Generation Methods in A Unified Framework

Zhi‐Jie Zheng et al.Feb 12, 2024
Abstract De novo protein design has undergone a rapid development in recent years, especially for backbone generation, which stands out as more challenging yet valuable, offering the ability to design novel protein folds with fewer constraints. However, a comprehensive delineation of its potential for practical application in protein engineering remains lacking, as does a standardized evaluation framework to accurately assess the diverse methodologies within this field. Here, we proposed Scaffold-Lab benchmark focusing on evaluating unconditional generation across metrics like designability, novelty, diversity, efficiency and structural properties. We also extrapolated our benchmark to include the motif-scaffolding problem, demonstrating the utility of these conditional generation models. Our findings reveal that FrameFlow and RFdiffusion in unconditional generation along with Rfdiffusion and GPDL in conditional generation showcased the most outstanding performances. Furthermore, we described a systematic study to investigate conditional generation and applied it to the motif-scaffolding task, offering a novel perspective for the analysis and development of conditional protein design methods. All data and scripts will be available at https://github.com/Immortals-33/Scaffold-Lab .