MZ
Mingyue Zheng
Author with expertise in Computational Methods in Drug Discovery
Shanghai Institute of Materia Medica, Chinese Academy of Sciences, University of Chinese Academy of Sciences
+ 10 more
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
18
(67% Open Access)
Cited by:
4
h-index:
45
/
i10-index:
179
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Fine-tuning Large Language Models for Chemical Text Mining

Wei Zhang et al.Sep 6, 2024
+15
X
Q
W
Extracting knowledge from complex and diverse chemical texts is a pivotal task for both experimental and computational chemists. The task is still considered to be extremely challenging due to the complexity of the chemical language and scientific literature. This study explored the power of fine-tuned large language models (LLMs) on five intricate chemical text mining tasks: compound entity recognition, reaction role labelling, metal-organic framework (MOF) synthesis information extraction, nuclear magnetic resonance spectroscopy (NMR) data extraction, and the conversion of reaction paragraphs to action sequences. The fine-tuned LLMs demonstrated impressive performance, significantly reducing the need for repetitive and extensive prompt engineering experiments. For comparison, we guided ChatGPT (GPT-3.5-turbo) and GPT-4 with prompt engineering and fine-tuned GPT-3.5-turbo as well as other open-source LLMs such as Mistral, Llama3, Llama2, T5, and BART. The results showed that the fine-tuned ChatGPT models excelled in all tasks. They achieved exact accuracy levels ranging from 69% to 95% on these tasks with minimal annotated data. They even outperformed those task-adaptive pre-training and fine-tuning models that were based on a significantly larger amount of in-domain data. Notably, fine-tuned Mistral and Llama3 show competitive abilities. Given their versatility, robustness, and low-code capability, leveraging fine-tuned LLMs as flexible and effective toolkits for automated data acquisition could revolutionize chemical knowledge extraction.
1

Highly accurate carbohydrate-binding site prediction with DeepGlycanSite

Xinheng He et al.Jun 26, 2024
+11
Y
L
X
Abstract As the most abundant organic substances in nature, carbohydrates are essential for life. Understanding how carbohydrates regulate proteins in the physiological and pathological processes presents opportunities to address crucial biological problems and develop new therapeutics. However, the diversity and complexity of carbohydrates pose a challenge in experimentally identifying the sites where carbohydrates bind to and act on proteins. Here, we introduce a deep learning model, DeepGlycanSite, capable of accurately predicting carbohydrate-binding sites on a given protein structure. Incorporating geometric and evolutionary features of proteins into a deep equivariant graph neural network with the transformer architecture, DeepGlycanSite remarkably outperforms previous state-of-the-art methods and effectively predicts binding sites for diverse carbohydrates. Integrating with a mutagenesis study, DeepGlycanSite reveals the guanosine-5’-diphosphate-sugar-recognition site of an important G-protein coupled receptor. These findings demonstrate DeepGlycanSite is invaluable for carbohydrate-binding site prediction and could provide insights into molecular mechanisms underlying carbohydrate-regulation of therapeutically important proteins.
0

Deep representation learning of chemical-induced transcriptional profile for phenotype-based drug discovery

Xiaochu Tong et al.Sep 11, 2024
+9
X
N
X
Abstract Artificial intelligence transforms drug discovery, with phenotype-based approaches emerging as a promising alternative to target-based methods, overcoming limitations like lack of well-defined targets. While chemical-induced transcriptional profiles offer a comprehensive view of drug mechanisms, inherent noise often obscures the true signal, hindering their potential for meaningful insights. Here, we highlight the development of TranSiGen, a deep generative model employing self-supervised representation learning. TranSiGen analyzes basal cell gene expression and molecular structures to reconstruct chemical-induced transcriptional profiles with high accuracy. By capturing both cellular and compound information, TranSiGen-derived representations demonstrate efficacy in diverse downstream tasks like ligand-based virtual screening, drug response prediction, and phenotype-based drug repurposing. Notably, in vitro validation of TranSiGen’s application in pancreatic cancer drug discovery highlights its potential for identifying effective compounds. We envisage that integrating TranSiGen into the drug discovery and mechanism research holds significant promise for advancing biomedicine.
0

GDOP: A graph convolutional network-based drug “on-target” pathway prediction algorithm

Xiaolong Wu et al.May 27, 2024
M
L
X
Abstract Since most compounds do not induce changes in the transcriptomic levels of their target proteins in vivo, traditional gene set enrichment analysis methods can only retrieve downstream differentially expressed genes, which offer little hints to their targets. To address this problem, we proposed a graph convolutional network-based drug “on-target” pathway prediction algorithm, GDOP, which can predict small pathways that contain target gene through the power of deep learning algorithms. Our model receives as input structural information and biological characteristics (gene expression profiles) of molecules. After being trained on the publicly available LINCS data set, GDOP showed better generalization ability, reaching an AUC-ROC of 0.89 and an averaged Top10 accuracy of 0.63 on the test set. Besides, demonstrated that GDOP was able to use RNA-Seq data as input and achieved accuracy prediction results.
0

Identify compound-protein interaction with knowledge graph embedding of perturbation transcriptomics

Songwei Ni et al.May 28, 2024
+17
Y
X
S
Abstract The emergence of perturbation transcriptomics provides a new perspective and opportunity for drug discovery, but existing analysis methods suffer from inadequate performance and limited applicability. In this work, we present PertKGE, a method designed to improve compound-protein interaction with knowledge graph embedding of perturbation transcriptomics. PertKGE incorporates diverse regulatory elements and accounts for multi-level regulatory events within biological systems, leading to significant improvements compared to existing baselines in two critical “cold-start” settings: inferring binding targets for new compounds and conducting virtual ligand screening for new targets. We further demonstrate the pivotal role of incorporating multi- level regulatory events in alleviating dataset bias. Notably, it enables the identification of ectonucleotide pyrophosphatase/phosphodiesterase-1 as the target responsible for the unique anti- tumor immunotherapy effect of tankyrase inhibitor K-756, and the discovery of five novel hits targeting the emerging cancer therapeutic target, aldehyde dehydrogenase 1B1, with a remarkable hit rate of 10.2%. These findings highlight the potential of PertKGE to accelerate drug discovery by elucidating mechanisms of action and identifying novel therapeutic compounds.
1

EquiScore: A generic protein-ligand interaction scoring method integrating physical prior knowledge with data augmentation modeling

Duanhua Cao et al.Oct 24, 2023
+12
J
G
D
ABSTRACT Developing robust methods for evaluating protein-ligand interactions has been a long-standing problem. Here, we propose a novel approach called EquiScore, which utilizes an equivariant heterogeneous graph neural network to integrate physical prior knowledge and characterize protein-ligand interactions in equivariant geometric space. To improve generalization performance, we constructed a dataset called PDBscreen and designed multiple data augmentation strategies suitable for training scoring methods. We also analyzed potential risks of data leakage in commonly used data-driven modeling processes and proposed a more stringent redundancy removal scheme to alleviate this problem. On two large external test sets, EquiScore outperformed 21 methods across a range of screening performance metrics, and this performance was insensitive to binding pose generation methods. EquiScore also showed good performance on the activity ranking task of a series of structural analogs, indicating its potential to guide lead compound optimization. Finally, we investigated different levels of interpretability of EquiScore, which may provide more insights into structure-based drug design.
0

SurfDock is a Surface-Informed Diffusion Generative Model for Reliable and Accurate Protein-ligand Complex Prediction

Duanhua Cao et al.Dec 14, 2023
+5
R
M
D
In the field of structure-based drug design, accurately predicting the binding conformation of ligands to proteins is a long-standing objective. Despite recent advances in deep learning yielding various methods for predicting protein-ligand complex structures, these AI-driven approaches frequently fall short of traditional docking methods in practice and often yield structures that lack physical and chemical plausibility. To overcome these limitations, we present SurfDock, an advanced geometric diffusion network, distinguished by its ability to integrate multiple protein representations including protein sequence, three-dimensional structural graphs, and surface-level details into its equivariant architecture. SurfDock employs a generative diffusion model on a non-Euclidean manifold, enabling precise optimization of molecular translations, rotations, and torsions for reliable binding poses generation. Complemented by a mixture density network for scoring using the same comprehensive representation, SurfDock achieves significantly improved docking success rates over all existing methods, excelling in both accuracy and adherence to physical constraints. Equipped with post-docking energy minimization as an optional feature, the plausibility of generated poses is further enhanced. Importantly, SurfDock demonstrates excellent generalizability to unseen proteins and extensibility to virtual screening tasks with state-of-the-art performance. We consider it a transformative contribution that could serve as an invaluable asset in structure-based drug design.
1

PanGu Drug Model: Learn a Molecule Like a Human

Xinyuan Lin et al.Oct 24, 2023
+11
Z
C
X
Abstract Recent achievements in large-scale pre-trained models like GPT-3 and PanGu-α showed amazing performances in many downstream tasks, which makes AI friendlier toward industrial users. Deep learning has been recognized as the most promising technology for pharmaceuticals, a powerful molecule pre-trained model could save researchers tons of time. In chemistry classes, the students learn two molecule representations, the molecular formula and the structure formula, and learn to translate them from one way to the other. Inspired by this, we developed a novel deep learning architecture using a graph-to-sequence asymmetric conditional variational autoencoders, called PanGu Drug Model, which can appropriately characterize the molecule from both representations and improve the performance of downstream drug discovery tasks. After pretrained with 1.7 billion small molecules, our proposed model achieved the state-of-the-art results in 20 drug discovery tasks, such as molecule property prediction (predict ADMET properties, compound-target interactions, drug-drug interactions and chemical reaction productivity), molecule generation and molecule optimization. A new drug screening library of 100 million drug-like small molecules with 99.68% novelty was generated by PanGu molecule generator, which could efficiently produce novel compounds with similar physiochemical properties to given distribution, this library could be used to supplement existing compound databases. In addition, PanGu molecule optimizer could optimize the chemical structures of starting molecule with improved molecular property of interest. An automatic multi-objective optimization web application implemented by PanGu Drug Model is available at http://www.pangu-drug.com/ .
0

Computational target fishing by mining transcriptional data using a novel Siamese spectral-based graph convolutional network

Feisheng Zhong et al.May 7, 2020
+9
X
X
F
Computational target fishing aims to investigate the mechanism of action or the side effects of bioactive small molecules. Unfortunately, conventional ligand-based computational methods only explore a confined chemical space, and structure-based methods are limited by the availability of crystal structures. Moreover, these methods cannot describe cellular context-dependent effects and are thus not useful for exploring the targets of drugs in specific cells. To address these challenges, we propose a novel Siamese spectral-based graph convolutional network (SSGCN) model for inferring the protein targets of chemical compounds from gene transcriptional profiles. Although the gene signature of a compound perturbation only provides indirect clues of the interacting targets, the SSGCN model was successfully trained to learn from known compound-target pairs by uncovering the hidden correlations between compound perturbation profiles and gene knockdown profiles. Using a benchmark set, the model achieved impressive target inference results compared with previous methods such as Connectivity Map and ProTINA. More importantly, the powerful generalization ability of the model observed with the external LINCS phase II dataset suggests that the model is an efficient target fishing or repositioning tool for bioactive compounds.
0

Facing small and biased data dilemma in drug discovery with federated learning

Zhitao Xiong et al.May 7, 2020
+8
C
Z
Z
Artificial intelligence (AI) models usually require large amounts of high quality training data, which is in striking contrast to the situation of small and biased data faced by current drug discovery pipelines. The concept of federated learning has been proposed to utilize distributed data from different sources without leaking sensitive information of these data. This emerging decentralized machine learning paradigm is expected to dramatically improve the success of AI-powered drug discovery. We here simulate the federated learning process with 7 aqueous solubility datasets from different sources, among which there are overlapping molecules with high or low biases in the recorded values. Beyond the benefit of gaining more data, we also demonstrate federated training has a regularization effect making it superior than centralized training on the pooled datasets with high biases. Further, federated model customization for each client can effectively help us deal with the highly biased data in drug discovery and achieve better generalization performance. Our work demonstrates the application of federated learning in predicting drug related properties, but also highlights its promising role in addressing the small data and biased data dilemma in drug discovery.
Load More