FZ
Feisheng Zhong
Author with expertise in Computational Methods in Drug Discovery
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(38% Open Access)
Cited by:
833
h-index:
11
/
i10-index:
12
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

TransformerCPI: improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments

Lifan Chen et al.May 14, 2020
Identifying compound-protein interaction (CPI) is a crucial task in drug discovery and chemogenomics studies, and proteins without three-dimensional structure account for a large part of potential biological targets, which requires developing methods using only protein sequence information to predict CPI. However, sequence-based CPI models may face some specific pitfalls, including using inappropriate datasets, hidden ligand bias and splitting datasets inappropriately, resulting in overestimation of their prediction performance.To address these issues, we here constructed new datasets specific for CPI prediction, proposed a novel transformer neural network named TransformerCPI, and introduced a more rigorous label reversal experiment to test whether a model learns true interaction features. TransformerCPI achieved much improved performance on the new experiments, and it can be deconvolved to highlight important interacting regions of protein sequences and compound atoms, which may contribute chemical biology studies with useful guidance for further ligand structural optimization.https://github.com/lifanchen-simm/transformerCPI.
0

Gram matrix: an efficient representation of molecular conformation and learning objective for molecular pretraining

Wenpei Xiang et al.May 23, 2024
Abstract Accurate prediction of molecular properties is fundamental in drug discovery and development, providing crucial guidance for effective drug design. A critical factor in achieving accurate molecular property prediction lies in the appropriate representation of molecular structures. Presently, prevalent deep learning–based molecular representations rely on 2D structure information as the primary molecular representation, often overlooking essential three-dimensional (3D) conformational information due to the inherent limitations of 2D structures in conveying atomic spatial relationships. In this study, we propose employing the Gram matrix as a condensed representation of 3D molecular structures and for efficient pretraining objectives. Subsequently, we leverage this matrix to construct a novel molecular representation model, Pre-GTM, which inherently encapsulates 3D information. The model accurately predicts the 3D structure of a molecule by estimating the Gram matrix. Our findings demonstrate that Pre-GTM model outperforms the baseline Graphormer model and other pretrained models in the QM9 and MoleculeNet quantitative property prediction task. The integration of the Gram matrix as a condensed representation of 3D molecular structure, incorporated into the Pre-GTM model, opens up promising avenues for its potential application across various domains of molecular research, including drug design, materials science, and chemical engineering.
0

GPCRSPACE: A New GPCR Real Expanded Library Based on Large Language Models Architecture and Positive Sample Machine Learning Strategies

Shiming Chen et al.Sep 17, 2024
The quest for novel therapeutics targeting G protein-coupled receptors (GPCRs), essential in numerous physiological processes, is crucial in drug discovery. Despite the abundance of GPCR-targeting drugs, many receptors lack selective modulators, indicating a significant untapped therapeutic potential. To bridge this gap, we introduce GPCRSPACE, a novel GPCR-focused purchasable real chemical library developed using the G protein-coupled receptors large language models (GPCR LLM) architecture. Different from traditional machine learning models, GPCR LLM uses a positive sample machine learning strategy for training and does not need to construct any negative samples. This not only reduces false negatives but also reduces the time to label negative samples. GPCR LLM accelerates the identification and screening of potential GPCR-interactive compounds by learning the chemical space of GPCR-targeting molecules. GPCRSPACE, built on GPCR LLM, outperforms existing chemical data sets in synthesizability, structural diversity, and GPCR-likeness, making it a valuable tool for GPCR drug discovery.
1

EquiScore: A generic protein-ligand interaction scoring method integrating physical prior knowledge with data augmentation modeling

Duanhua Cao et al.Jun 21, 2023
ABSTRACT Developing robust methods for evaluating protein-ligand interactions has been a long-standing problem. Here, we propose a novel approach called EquiScore, which utilizes an equivariant heterogeneous graph neural network to integrate physical prior knowledge and characterize protein-ligand interactions in equivariant geometric space. To improve generalization performance, we constructed a dataset called PDBscreen and designed multiple data augmentation strategies suitable for training scoring methods. We also analyzed potential risks of data leakage in commonly used data-driven modeling processes and proposed a more stringent redundancy removal scheme to alleviate this problem. On two large external test sets, EquiScore outperformed 21 methods across a range of screening performance metrics, and this performance was insensitive to binding pose generation methods. EquiScore also showed good performance on the activity ranking task of a series of structural analogs, indicating its potential to guide lead compound optimization. Finally, we investigated different levels of interpretability of EquiScore, which may provide more insights into structure-based drug design.
0

Automated design and optimization of multitarget schizophrenia drug candidates by deep learning

Xin Tan et al.Mar 20, 2020
Complex neuropsychiatric diseases such as schizophrenia require drugs that can target multiple G protein-coupled receptors (GPCRs) to modulate complex neuropsychiatric functions. Here, we report an automated system comprising a deep recurrent neural network (RNN) and a multitask deep neural network (MTDNN) to design and optimize multitargeted antipsychotic drugs. The system successfully generates novel molecule structures with desired multiple target activities, among which high-ranking compound 3 was synthesized, and demonstrated potent activities against dopamine D2, serotonin 5-HT1A and 5-HT2A receptors. Hit expansion based on the MTDNN was performed, 6 analogs of compound 3 were evaluated experimentally, among which compound 8 not only exhibited specific polypharmacology profiles but also showed antipsychotic effect in animal models with low potential for sedation and catalepsy, highlighting their suitability for further preclinical studies. The approach can be an efficient tool for designing lead compounds with multitarget profiles to achieve the desired efficacy in the treatment of complex neuropsychiatric diseases.
0

Computational target fishing by mining transcriptional data using a novel Siamese spectral-based graph convolutional network

Feisheng Zhong et al.Apr 3, 2020
Computational target fishing aims to investigate the mechanism of action or the side effects of bioactive small molecules. Unfortunately, conventional ligand-based computational methods only explore a confined chemical space, and structure-based methods are limited by the availability of crystal structures. Moreover, these methods cannot describe cellular context-dependent effects and are thus not useful for exploring the targets of drugs in specific cells. To address these challenges, we propose a novel Siamese spectral-based graph convolutional network (SSGCN) model for inferring the protein targets of chemical compounds from gene transcriptional profiles. Although the gene signature of a compound perturbation only provides indirect clues of the interacting targets, the SSGCN model was successfully trained to learn from known compound-target pairs by uncovering the hidden correlations between compound perturbation profiles and gene knockdown profiles. Using a benchmark set, the model achieved impressive target inference results compared with previous methods such as Connectivity Map and ProTINA. More importantly, the powerful generalization ability of the model observed with the external LINCS phase II dataset suggests that the model is an efficient target fishing or repositioning tool for bioactive compounds.