ZX
Zhitao Xiong
Author with expertise in Computational Methods in Drug Discovery
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(60% Open Access)
Cited by:
601
h-index:
12
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Pushing the Boundaries of Molecular Representation for Drug Discovery with the Graph Attention Mechanism

Zhitao Xiong et al.Aug 13, 2019
+8
X
D
Z
Hunting for chemicals with favorable pharmacological, toxicological, and pharmacokinetic properties remains a formidable challenge for drug discovery. Deep learning provides us with powerful tools to build predictive models that are appropriate for the rising amounts of data, but the gap between what these neural networks learn and what human beings can comprehend is growing. Moreover, this gap may induce distrust and restrict deep learning applications in practice. Here, we introduce a new graph neural network architecture called Attentive FP for molecular representation that uses a graph attention mechanism to learn from relevant drug discovery data sets. We demonstrate that Attentive FP achieves state-of-the-art predictive performances on a variety of data sets and that what it learns is interpretable. The feature visualization for Attentive FP suggests that it automatically learns nonlocal intramolecular interactions from specified tasks, which can help us gain chemical insights directly from data beyond human perception.
0
Citation569
0
Save
0

Facing small and biased data dilemma in drug discovery with federated learning

Zhitao Xiong et al.Mar 20, 2020
+8
C
Z
Z
Abstract Artificial intelligence (AI) models usually require large amounts of high-quality training data, which is in striking contrast to the situation of small and biased data faced by current drug discovery pipelines. The concept of federated learning has been proposed to utilize distributed data from different sources without leaking sensitive information of these data. This emerging decentralized machine learning paradigm is expected to dramatically improve the success of AI-powered drug discovery. We here simulate the federated learning process with 7 aqueous solubility datasets from different sources, among which there are overlapping molecules with high or low biases in the recorded values. Beyond the benefit of gaining more data, we also demonstrate federated training has a regularization effect making it superior than centralized training on the pooled datasets with high biases. Further, two more cases are studied to test the usability of federated learning in drug discovery. Our work demonstrates the application of federated learning in predicting drug related properties, but also highlights its promising role in addressing the small data and biased data dilemma in drug discovery.
0
Citation21
0
Save
1

PanGu Drug Model: Learn a Molecule Like a Human

Xinyuan Lin et al.Apr 1, 2022
+12
Q
F
X
Abstract Recent achievements in large-scale pre-trained models like GPT-3 and PanGu-α showed amazing performances in many downstream tasks, which makes AI friendlier toward industrial users. Deep learning has been recognized as the most promising technology for pharmaceuticals, a powerful molecule pre-trained model could save researchers tons of time. In chemistry classes, the students learn two molecule representations, the molecular formula and the structure formula, and learn to translate them from one way to the other. Inspired by this, we developed a novel deep learning architecture using a graph-to-sequence asymmetric conditional variational autoencoders, called PanGu Drug Model, which can appropriately characterize the molecule from both representations and improve the performance of downstream drug discovery tasks. After pretrained with 1.7 billion small molecules, our proposed model achieved the state-of-the-art results in 20 drug discovery tasks, such as molecule property prediction (predict ADMET properties, compound-target interactions, drug-drug interactions and chemical reaction productivity), molecule generation and molecule optimization. A new drug screening library of 100 million drug-like small molecules with 99.68% novelty was generated by PanGu molecule generator, which could efficiently produce novel compounds with similar physiochemical properties to given distribution, this library could be used to supplement existing compound databases. In addition, PanGu molecule optimizer could optimize the chemical structures of starting molecule with improved molecular property of interest. An automatic multi-objective optimization web application implemented by PanGu Drug Model is available at http://www.pangu-drug.com/ .
1
Citation5
0
Save
7

Construction of a neural network energy function for protein physics

Huan Yang et al.Apr 27, 2021
F
Z
H
Abstract Classical potentials are widely used to describe protein physics, due to their simplicity and accuracy, but they are continuously challenged as real applications become more demanding with time. Deep neural networks could help generating alternative ways of describing protein physics. Here we propose an unsupervised learning method to derive a neural network energy function for proteins. The energy function is a probability density model learned from plenty of 3D local structures which have been extensively explored by evolution. We tested this model on a few applications (assessment of protein structures, protein dynamics and protein sequence design), showing that the neural network can correctly recognize patterns in protein structures. In other words, the neural network learned some aspects of protein physics from experimental data.
7
Citation3
0
Save
0

Fine-tuning Large Language Models for Chemical Text Mining

Wei Zhang et al.Jan 1, 2024
+15
X
Q
W
Extracting knowledge from complex and diverse chemical texts is a pivotal task for both experimental and computational chemists. The task is still considered to be extremely challenging due to the complexity of the chemical language and scientific literature. This study explored the power of fine-tuned large language models (LLMs) on five intricate chemical text mining tasks: compound entity recognition, reaction role labelling, metal-organic framework (MOF) synthesis information extraction, nuclear magnetic resonance spectroscopy (NMR) data extraction, and the conversion of reaction paragraphs to action sequences. The fine-tuned LLMs demonstrated impressive performance, significantly reducing the need for repetitive and extensive prompt engineering experiments. For comparison, we guided ChatGPT (GPT-3.5-turbo) and GPT-4 with prompt engineering and fine-tuned GPT-3.5-turbo as well as other open-source LLMs such as Mistral, Llama3, Llama2, T5, and BART. The results showed that the fine-tuned ChatGPT models excelled in all tasks. They achieved exact accuracy levels ranging from 69% to 95% on these tasks with minimal annotated data. They even outperformed those task-adaptive pre-training and fine-tuning models that were based on a significantly larger amount of in-domain data. Notably, fine-tuned Mistral and Llama3 show competitive abilities. Given their versatility, robustness, and low-code capability, leveraging fine-tuned LLMs as flexible and effective toolkits for automated data acquisition could revolutionize chemical knowledge extraction.
1

Crowdsourced identification of multi-target kinase inhibitors for RET- and TAU-based disease: the Multi-Targeting Drug DREAM Challenge

Zhitao Xiong et al.Feb 17, 2021
+18
R
M
Z
Abstract A continuing challenge in modern medicine is the identification of safer and more efficacious drugs. Precision therapeutics, which have one molecular target, have been long promised to be safer and more effective than traditional therapies. This approach has proven to be challenging for multiple reasons including lack of efficacy, rapidly acquired drug resistance, and narrow patient eligibility criteria. An alternative approach is the development of drugs that address the overall disease network by targeting multiple biological targets (‘polypharmacology’). Rational development of these molecules will require improved methods for predicting single chemical structures that target multiple drug targets. To address this need, we developed the Multi-Targeting Drug DREAM Challenge, in which we challenged participants to predict single chemical entities that target pro-targets but avoid anti-targets for two unrelated diseases: RET-based tumors and a common form of inherited Tauopathy. Here, we report the results of this DREAM Challenge and the development of two neural network-based machine learning approaches that were applied to the challenge of rational polypharmacology. Together, these platforms provide a potentially useful first step towards developing lead therapeutic compounds that address disease complexity through rational polypharmacology. Author Summary Many modern drugs are developed with the goal of modulating a single cellular pathway or target. However, many drugs are, in fact, ‘dirty;’ they target multiple cellular pathways or targets. This phenomenon is known as multi-targeting or polypharmacology. While some strive to develop ‘cleaner’ therapeutics that eliminate secondary targets, recent work has shown that multi-targeting therapeutics have key advantages for a variety of diseases. However, while multi-targeting drugs that affect a precisely-defined profile of targets may be more effective, it is difficult to computationally predict which molecules have desirable target profiles. Here, we report the results of a competitive crowdsourcing project (the Multi-Targeting Drug DREAM Challenge), where we challenged participants to predict chemicals that have desired target profiles for cancer and neurodegenerative disease.
1
Citation1
0
Save
0

SciMind: A Multimodal Mixture-of-Experts Model for Advancing Pharmaceutical Sciences

Zhitao Xiong et al.Jul 21, 2024
+5
H
X
Z
Large language models (LLMs) have made substantial strides, but their use in reliably tackling issues within specialized domains, particularly in interdisciplinary areas like pharmaceutical sciences, is hindered by data heterogeneity, knowledge complexity, unique objectives, and a spectrum of constraint conditions. In this area, diverse modalities such as nucleic acids, proteins, molecular structures, and natural language are often involved. We designed a specialized token set and introduced a new Mixture-of-Experts (MoEs) pre-training and fine-tuning strategy to unify these modalities in one model. With this strategy, we've created a multi-modal mixture-of-experts foundational model for pharmaceutical sciences, named SciMind. This model has undergone extensive pre-training on publicly accessible datasets including nucleic acid sequences, protein sequences, molecular structure strings, and biomedical texts, and delivers good performance on biomedical text comprehension, promoter prediction, protein function prediction, molecular description, and molecular generation.
0

Automated design and optimization of multitarget schizophrenia drug candidates by deep learning

Xin Tan et al.Mar 20, 2020
+15
H
X
X
Complex neuropsychiatric diseases such as schizophrenia require drugs that can target multiple G protein-coupled receptors (GPCRs) to modulate complex neuropsychiatric functions. Here, we report an automated system comprising a deep recurrent neural network (RNN) and a multitask deep neural network (MTDNN) to design and optimize multitargeted antipsychotic drugs. The system successfully generates novel molecule structures with desired multiple target activities, among which high-ranking compound 3 was synthesized, and demonstrated potent activities against dopamine D2, serotonin 5-HT1A and 5-HT2A receptors. Hit expansion based on the MTDNN was performed, 6 analogs of compound 3 were evaluated experimentally, among which compound 8 not only exhibited specific polypharmacology profiles but also showed antipsychotic effect in animal models with low potential for sedation and catalepsy, highlighting their suitability for further preclinical studies. The approach can be an efficient tool for designing lead compounds with multitarget profiles to achieve the desired efficacy in the treatment of complex neuropsychiatric diseases.
0

Efficient molecular conformation generation with quantum-inspired algorithm

Yunting Li et al.Jun 25, 2024
+7
Z
X
Y
0

FAPM: Functional Annotation of Proteins using Multi-Modal Models Beyond Structural Modeling

Wenpei Xiang et al.May 10, 2024
+7
M
W
W
Abstract Assigning accurate property labels to proteins, like functional terms and catalytic activity, is challenging, especially for proteins without homologs and “tail labels” with few known examples. Unlike previous methods that mainly focused on protein sequence features, we use a pretrained large natural language model to understand the semantic meaning of protein labels. Specifically, we introduce FAPM, a contrastive multi-modal model that links natural language with protein sequence language. This model combines a pretrained protein sequence model with a pretrained large language model to generate labels, such as Gene Ontology (GO) functional terms and catalytic activity predictions, in natural language. Our results show that FAPM excels in understanding protein properties, outperforming models based solely on protein sequences or structures. It achieves state-of-the-art performance on public benchmarks and in-house experimentally annotated phage proteins, which often have few known homologs. Additionally, FAPM’s flexibility allows it to incorporate extra text prompts, like taxonomy information, enhancing both its predictive performance and explainability. This novel approach offers a promising alternative to current methods that rely on multiple sequence alignment for protein annotation. The online demo is at: https://huggingface.co/spaces/wenkai/FAPM_demo .