JX
Jiacheng Xiong
Author with expertise in Computational Methods in Drug Discovery
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
2
h-index:
4
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Fine-tuning Large Language Models for Chemical Text Mining

Wei Zhang et al.Jan 1, 2024
+15
X
Q
W
Extracting knowledge from complex and diverse chemical texts is a pivotal task for both experimental and computational chemists. The task is still considered to be extremely challenging due to the complexity of the chemical language and scientific literature. This study explored the power of fine-tuned large language models (LLMs) on five intricate chemical text mining tasks: compound entity recognition, reaction role labelling, metal-organic framework (MOF) synthesis information extraction, nuclear magnetic resonance spectroscopy (NMR) data extraction, and the conversion of reaction paragraphs to action sequences. The fine-tuned LLMs demonstrated impressive performance, significantly reducing the need for repetitive and extensive prompt engineering experiments. For comparison, we guided ChatGPT (GPT-3.5-turbo) and GPT-4 with prompt engineering and fine-tuned GPT-3.5-turbo as well as other open-source LLMs such as Mistral, Llama3, Llama2, T5, and BART. The results showed that the fine-tuned ChatGPT models excelled in all tasks. They achieved exact accuracy levels ranging from 69% to 95% on these tasks with minimal annotated data. They even outperformed those task-adaptive pre-training and fine-tuning models that were based on a significantly larger amount of in-domain data. Notably, fine-tuned Mistral and Llama3 show competitive abilities. Given their versatility, robustness, and low-code capability, leveraging fine-tuned LLMs as flexible and effective toolkits for automated data acquisition could revolutionize chemical knowledge extraction.
1

Transfer Learning Enhanced Graph Neural Network for Aldehyde Oxidase Metabolism Prediction and Its Experimental Application

Jiacheng Xiong et al.Jun 7, 2023
+7
Z
R
J
Abstract Aldehyde oxidase (AOX) is a molybdoenzyme that is primarily expressed in the liver and is involved in the metabolism of drugs and other xenobiotics. AOX-mediated metabolism can result in unexpected outcomes, such as the production of toxic metabolites and high metabolic clearance, which can lead to the clinical failure of novel therapeutic agents. Computational models can assist medicinal chemists in rapidly evaluating the AOX metabolic risk of compounds during the early phases of drug discovery and provide valuable clues for manipulating AOX-mediated metabolism liability. In this study, we developed a novel graph neural network called AOMP for predicting AOX-mediated metabolism. AOMP integrated the tasks of metabolic substrate/non-substrate classification and metabolic site prediction, while utilizing transfer learning from 13C nuclear magnetic resonance data to enhance its performance on both tasks. AOMP significantly outperformed the benchmark methods in both cross-validation and external testing. Using AOMP, we systematically assessed the AOX-mediated metabolism of common fragments in kinase inhibitors and successfully identified four new scaffolds with AOX metabolism liability, which were validated through in vitro experiments. Furthermore, for the convenience of the community, we established the first online service for AOX metabolism prediction based on AOMP, which is freely available at https://aomp.alphama.com.cn .
0

FAPM: Functional Annotation of Proteins using Multi-Modal Models Beyond Structural Modeling

Wenpei Xiang et al.May 10, 2024
+7
M
W
W
Abstract Assigning accurate property labels to proteins, like functional terms and catalytic activity, is challenging, especially for proteins without homologs and “tail labels” with few known examples. Unlike previous methods that mainly focused on protein sequence features, we use a pretrained large natural language model to understand the semantic meaning of protein labels. Specifically, we introduce FAPM, a contrastive multi-modal model that links natural language with protein sequence language. This model combines a pretrained protein sequence model with a pretrained large language model to generate labels, such as Gene Ontology (GO) functional terms and catalytic activity predictions, in natural language. Our results show that FAPM excels in understanding protein properties, outperforming models based solely on protein sequences or structures. It achieves state-of-the-art performance on public benchmarks and in-house experimentally annotated phage proteins, which often have few known homologs. Additionally, FAPM’s flexibility allows it to incorporate extra text prompts, like taxonomy information, enhancing both its predictive performance and explainability. This novel approach offers a promising alternative to current methods that rely on multiple sequence alignment for protein annotation. The online demo is at: https://huggingface.co/spaces/wenkai/FAPM_demo .
0

PackDock: a Diffusion Based Side Chain Packing Model for Flexible Protein-Ligand Docking

Runze Zhang et al.Feb 3, 2024
+15
D
X
R
Structure-based drug design (SBDD) relies on accurate knowledge of protein structure and ligand-binding conformations. However, most of the static conformations obtained by advanced methods such as structural biology and de novo protein folding algorithms often don't meet the needs for drug design. We introduce PackDock, a flexible docking method that combines "conformation selection" and "induced fit" mechanisms in a two-stage docking pipeline. The core module of this method is PackPocket, which uses a diffusion model to explore the side-chain conformation space in ligand binding pockets, both with or without a ligand. We evaluate our method using several tests that reflect real-world application scenarios. (1) Side-chain packing and Re-docking experiments validate the ability of PackDock to predict accurate side-chain conformations and ligand conformations. (2) Cross-docking experiments with apo and non-homologous ligand-induced holo structures align with real docking scenarios, demonstrating PackDock's practical value. (3) Docking experiments with hypothetical models show that PackPocket can potentially conduct SBDD starting from protein sequence information only. Additionally, we found that PackDock can identify key amino acid conformation changes, which may provide insights for lead compound optimization. We demonstrate PackDock can accurately predict the complex conformations in various application scenarios, by combining the conformation selection theory and the induced fit theory, and by using the ability of PackPocket to accurately predict the side chain conformations in the pocket region. We believe this method can improve the usability of existing structures, providing a new perspective for the SBDD community.