LZ
Lihe Zheng
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(67% Open Access)
Cited by:
257
h-index:
17
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

OnionNet: a Multiple-Layer Intermolecular-Contact-Based Convolutional Neural Network for Protein–Ligand Binding Affinity Prediction

Lihe Zheng et al.Sep 16, 2019
Computational drug discovery provides an efficient tool helping large scale lead molecules screening. One of the major tasks of lead discovery is identifying molecules with promising binding affinities towards a target, a protein in general. The accuracies of current scoring functions which are used to predict the binding affinity are not satisfactory enough. Thus, machine learning (ML) or deep learning (DL) based methods have been developed recently to improve the scoring functions. In this study, a deep convolutional neural network (CNN) model (called OnionNet) is introduced and the features are based on rotation-free element-pair specific contacts between ligands and protein atoms, and the contacts were further grouped in different distance ranges to cover both the local and non-local interaction information between the ligand and the protein. The prediction power of the model is evaluated and compared with other scoring functions using the comparative assessment of scoring functions (CASF-2013) benchmark and the v2016 core set of PDBbind database. When compared to a previous CNN-based scoring function, our model shows improvements of 0.08 and 0.16 in the correlations (R) and standard deviations (SD) of regression, respectively, between the predicted binding affinities and the experimental measured binding affinities. The robustness of the model is further explored by predicting the binding affinities of the complexes generated from docking simulations instead of experimentally determined PDB structures.
1

fastMSA: Accelerating Multiple Sequence Alignment with Dense Retrieval on Protein Language

Hong Liang et al.Dec 21, 2021
Evolutionarily related sequences provide information for the protein structure and function. Multiple sequence alignment, which includes homolog searching from large databases and sequence alignment, is efficient to dig out the information and assist protein structure and function prediction, whose efficiency has been proved by AlphaFold. Despite the existing tools for multiple sequence alignment, searching homologs from the entire UniProt is still time-consuming. Considering the success of AlphaFold, foreseeably, large- scale multiple sequence alignments against massive databases will be a trend in the field. It is very desirable to accelerate this step. Here, we propose a novel method, fastMSA, to improve the speed significantly. Our idea is orthogonal to all the previous accelerating methods. Taking advantage of the protein language model based on BERT, we propose a novel dual encoder architecture that can embed the protein sequences into a low-dimension space and filter the unrelated sequences efficiently before running BLAST. Extensive experimental results suggest that we can recall most of the homologs with a 34-fold speed-up. Moreover, our method is compatible with the downstream tasks, such as structure prediction using AlphaFold. Using multiple sequence alignments generated from our method, we have little performance compromise on the protein structure prediction with much less running time. fastMSA will effectively assist protein sequence, structure, and function analysis based on homologs and multiple sequence alignment.
1
Citation6
0
Save
0

ThermoLink: Bridging disulfide bonds and enzyme thermostability through database construction and machine learning prediction

Ran Xu et al.Aug 15, 2024
Abstract Disulfide bonds, covalently formed by sulfur atoms in cysteine residues, play a crucial role in protein folding and structure stability. Considering their significance, artificial disulfide bonds are often introduced to enhance protein thermostability. Although an increasing number of tools can assist with this task, significant amounts of time and resources are often wasted owing to inadequate consideration. To enhance the accuracy and efficiency of designing disulfide bonds for protein thermostability improvement, we initially collected disulfide bond and protein thermostability data from extensive literature sources. Thereafter, we extracted various sequence‐ and structure‐based features and constructed machine‐learning models to predict whether disulfide bonds can improve protein thermostability. Among all models, the neighborhood context model based on the Adaboost‐DT algorithm performed the best, yielding “area under the receiver operating characteristic curve” and accuracy scores of 0.773 and 0.714, respectively. Furthermore, we also found AlphaFold2 to exhibit high superiority in predicting disulfide bonds, and to some extent, the coevolutionary relationship between residue pairs potentially guided artificial disulfide bond design. Moreover, several mutants of imine reductase 89 (IR89) with artificially designed thermostable disulfide bonds were experimentally proven to be considerably efficient for substrate catalysis. The SS‐bond data have been integrated into an online server, namely, ThermoLink, available at guolab.mpu.edu.mo/thermoLink .
0
Citation1
0
Save
0

Advancing ecotoxicity assessment: Leveraging pre-trained model for bee toxicity and compound degradability prediction

X. Li et al.Aug 1, 2024
The prediction of ecological toxicity plays an increasingly important role in modern society. However, the existing models often suffer from poor performance and limited predictive capabilities. In this study, we propose a novel approach for ecological toxicity assessment based on pre-trained models. By leveraging pre-training techniques and graph neural network models, we establish a highperformance predictive model. Furthermore, we incorporate a variational autoencoder to optimize the model, enabling simultaneous discrimination of toxicity to bees and molecular degradability. Additionally, despite the low similarity between the endogenous hormones in bees and the compounds in our dataset, our model confidently predicts that these hormones are non-toxic to bees, which further strengthens the credibility and accuracy of our model. We also discovered the negative correlation between the degradation and bee toxicity of compounds. In summary, this study presents an ecological toxicity assessment model with outstanding performance. The proposed model accurately predicts the toxicity of chemicals to bees and their degradability capabilities, offering valuable technical support to relevant fields.
0

A New Paradigm for Applying Deep Learning to Protein-Ligand Interaction Prediction

Zechen Wang et al.Jan 1, 2023
Protein-ligand interaction prediction poses a significant challenge in the field of drug design. Numerous machine learning and deep learning models have been developed to identify the most accurate docking poses of ligands and active compounds against specific targets. However, the current models often suffer from inadequate accuracy and lack practical physical significance in their scoring systems. In this research paper, we introduce IGModel, a novel approach that leverages the geometric information of protein-ligand complexes as input for predicting the root mean square deviation (RMSD) of docking poses and the binding strength (the negative value of the logarithm of binding affinity, pKd) with the same prediction framework. By incorporating the geometric information, IGModel ensures that its scores carry intuitive meaning. The performance of IGModel has been extensively evaluated on various docking power test sets, including the CASF-2016 benchmark, PDBbind-CrossDocked-Core, and DISCO set, consistently achieving state-of-the-art accuracies. Furthermore, we assess IGModel9s generalization ability and robustness by evaluating it on unbiased test sets and sets containing target structures generated by AlphaFold2. The exceptional performance of IGModel on these sets demonstrates its efficacy. Additionally, we visualize the latent space of protein-ligand interactions encoded by IGModel and conduct interpretability analysis, providing valuable insights. This study presents a novel framework for deep learning-based prediction of protein-ligand interactions, contributing to the advancement of this field.
0

Fully flexible molecular alignment enables accurate ligand structure modelling

Zhihao Wang et al.Dec 17, 2023
Abstract Accurate protein-ligand binding poses are the prerequisites of structure-based binding affinity prediction, and also provide the structural basis for in depth lead optimization in small molecule drug design. Ligand-based modeling approaches primarily extract valuable information from the structural features of small molecules to assess their potential as drug candidates against specific targets. However, it is challenging to provide reasonable predictions of binding poses for different molecules, due to the complexity and diversity of the chemical space of small molecules. Similarity-based molecular alignment techniques can effectively narrow the search range, as structurally similar molecules are likely to have similar binding modes, with higher similarity usually correlating to higher success rates. However, molecular similarity isn’t consistently high because molecules often require changes to achieve specific purposes, leading to reduced alignment precision. To address this issue, we propose a new alignment method—Z-align. This method uses topological structural information as a criterion for evaluating similarity, reducing the reliance on molecular fingerprint similarity. Our method has achieved significantly higher success rates than other methods at moderate levels of similarity. Additionally, our approach can comprehensively and flexibly optimize bond lengths and angles of molecules, maintaining high accuracy even when dealing with larger molecules. Consequently, our proposed solution helps in achieving more accurate binding poses in protein-ligand docking problems, facilitating the development of small molecule drugs.