MC
Mingan Chen
Author with expertise in Computational Methods in Drug Discovery
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(75% Open Access)
Cited by:
2
h-index:
2
/
i10-index:
0
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Fine-tuning Large Language Models for Chemical Text Mining

Wei Zhang et al.Jan 1, 2024
+15
X
Q
W
Extracting knowledge from complex and diverse chemical texts is a pivotal task for both experimental and computational chemists. The task is still considered to be extremely challenging due to the complexity of the chemical language and scientific literature. This study explored the power of fine-tuned large language models (LLMs) on five intricate chemical text mining tasks: compound entity recognition, reaction role labelling, metal-organic framework (MOF) synthesis information extraction, nuclear magnetic resonance spectroscopy (NMR) data extraction, and the conversion of reaction paragraphs to action sequences. The fine-tuned LLMs demonstrated impressive performance, significantly reducing the need for repetitive and extensive prompt engineering experiments. For comparison, we guided ChatGPT (GPT-3.5-turbo) and GPT-4 with prompt engineering and fine-tuned GPT-3.5-turbo as well as other open-source LLMs such as Mistral, Llama3, Llama2, T5, and BART. The results showed that the fine-tuned ChatGPT models excelled in all tasks. They achieved exact accuracy levels ranging from 69% to 95% on these tasks with minimal annotated data. They even outperformed those task-adaptive pre-training and fine-tuning models that were based on a significantly larger amount of in-domain data. Notably, fine-tuned Mistral and Llama3 show competitive abilities. Given their versatility, robustness, and low-code capability, leveraging fine-tuned LLMs as flexible and effective toolkits for automated data acquisition could revolutionize chemical knowledge extraction.
0

PackDock: a Diffusion Based Side Chain Packing Model for Flexible Protein-Ligand Docking

Runze Zhang et al.Feb 3, 2024
+15
D
X
R
Structure-based drug design (SBDD) relies on accurate knowledge of protein structure and ligand-binding conformations. However, most of the static conformations obtained by advanced methods such as structural biology and de novo protein folding algorithms often don't meet the needs for drug design. We introduce PackDock, a flexible docking method that combines "conformation selection" and "induced fit" mechanisms in a two-stage docking pipeline. The core module of this method is PackPocket, which uses a diffusion model to explore the side-chain conformation space in ligand binding pockets, both with or without a ligand. We evaluate our method using several tests that reflect real-world application scenarios. (1) Side-chain packing and Re-docking experiments validate the ability of PackDock to predict accurate side-chain conformations and ligand conformations. (2) Cross-docking experiments with apo and non-homologous ligand-induced holo structures align with real docking scenarios, demonstrating PackDock's practical value. (3) Docking experiments with hypothetical models show that PackPocket can potentially conduct SBDD starting from protein sequence information only. Additionally, we found that PackDock can identify key amino acid conformation changes, which may provide insights for lead compound optimization. We demonstrate PackDock can accurately predict the complex conformations in various application scenarios, by combining the conformation selection theory and the induced fit theory, and by using the ability of PackPocket to accurately predict the side chain conformations in the pocket region. We believe this method can improve the usability of existing structures, providing a new perspective for the SBDD community.
1

EquiScore: A generic protein-ligand interaction scoring method integrating physical prior knowledge with data augmentation modeling

Duanhua Cao et al.Jun 21, 2023
+14
J
G
D
ABSTRACT Developing robust methods for evaluating protein-ligand interactions has been a long-standing problem. Here, we propose a novel approach called EquiScore, which utilizes an equivariant heterogeneous graph neural network to integrate physical prior knowledge and characterize protein-ligand interactions in equivariant geometric space. To improve generalization performance, we constructed a dataset called PDBscreen and designed multiple data augmentation strategies suitable for training scoring methods. We also analyzed potential risks of data leakage in commonly used data-driven modeling processes and proposed a more stringent redundancy removal scheme to alleviate this problem. On two large external test sets, EquiScore outperformed 21 methods across a range of screening performance metrics, and this performance was insensitive to binding pose generation methods. EquiScore also showed good performance on the activity ranking task of a series of structural analogs, indicating its potential to guide lead compound optimization. Finally, we investigated different levels of interpretability of EquiScore, which may provide more insights into structure-based drug design.
0

SurfDock is a Surface-Informed Diffusion Generative Model for Reliable and Accurate Protein-ligand Complex Prediction

Duanhua Cao et al.Jan 1, 2023
+7
W
F
D
In the field of structure-based drug design, accurately predicting the binding conformation of ligands to proteins is a long-standing objective. Despite recent advances in deep learning yielding various methods for predicting protein-ligand complex structures, these AI-driven approaches frequently fall short of traditional docking methods in practice and often yield structures that lack physical and chemical plausibility. To overcome these limitations, we present SurfDock, an advanced geometric diffusion network, distinguished by its ability to integrate multiple protein representations including protein sequence, three-dimensional structural graphs, and surface-level details into its equivariant architecture. SurfDock employs a generative diffusion model on a non-Euclidean manifold, enabling precise optimization of molecular translations, rotations, and torsions for reliable binding poses generation. Complemented by a mixture density network for scoring using the same comprehensive representation, SurfDock achieves significantly improved docking success rates over all existing methods, excelling in both accuracy and adherence to physical constraints. Equipped with post-docking energy minimization as an optional feature, the plausibility of generated poses is further enhanced. Importantly, SurfDock demonstrates excellent generalizability to unseen proteins and extensibility to virtual screening tasks with state-of-the-art performance. We consider it a transformative contribution that could serve as an invaluable asset in structure-based drug design.