PB
Pablo Ballester
Author with expertise in Computational Methods in Drug Discovery
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(53% Open Access)
Cited by:
2,505
h-index:
40
/
i10-index:
65
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A machine learning approach to predicting protein–ligand binding affinity with applications to molecular docking

Pablo Ballester et al.Mar 17, 2010
Abstract Motivation: Accurately predicting the binding affinities of large sets of diverse protein–ligand complexes is an extremely challenging task. The scoring functions that attempt such computational prediction are essential for analysing the outputs of molecular docking, which in turn is an important technique for drug discovery, chemical biology and structural biology. Each scoring function assumes a predetermined theory-inspired functional form for the relationship between the variables that characterize the complex, which also include parameters fitted to experimental or simulation data and its predicted binding affinity. The inherent problem of this rigid approach is that it leads to poor predictivity for those complexes that do not conform to the modelling assumptions. Moreover, resampling strategies, such as cross-validation or bootstrapping, are still not systematically used to guard against the overfitting of calibration data in parameter estimation for scoring functions. Results: We propose a novel scoring function (RF-Score) that circumvents the need for problematic modelling assumptions via non-parametric machine learning. In particular, Random Forest was used to implicitly capture binding effects that are hard to model explicitly. RF-Score is compared with the state of the art on the demanding PDBbind benchmark. Results show that RF-Score is a very competitive scoring function. Importantly, RF-Score's performance was shown to improve dramatically with training set size and hence the future availability of more high-quality structural and interaction data is expected to lead to improved versions of RF-Score. Contact: pedro.ballester@ebi.ac.uk; jbom@st-andrews.ac.uk Supplementary information: Supplementary data are available at Bioinformatics online.
0

Machine Learning Prediction of Cancer Cell Sensitivity to Drugs Based on Genomic and Chemical Properties

Michael Menden et al.Apr 30, 2013
Predicting the response of a specific cancer to a therapy is a major goal in modern oncology that should ultimately lead to a personalised treatment. High-throughput screenings of potentially active compounds against a panel of genomically heterogeneous cancer cell lines have unveiled multiple relationships between genomic alterations and drug responses. Various computational approaches have been proposed to predict sensitivity based on genomic features, while others have used the chemical properties of the drugs to ascertain their effect. In an effort to integrate these complementary approaches, we developed machine learning models to predict the response of cancer cell lines to drug treatment, quantified through IC50 values, based on both the genomic features of the cell lines and the chemical properties of the considered drugs. Models predicted IC50 values in a 8-fold cross-validation and an independent blind test with coefficient of determination R2 of 0.72 and 0.64 respectively. Furthermore, models were able to predict with comparable accuracy (R2 of 0.61) IC50s of cell lines from a tissue not used in the training stage. Our in silico models can be used to optimise the experimental design of drug-cell screenings by estimating a large proportion of missing IC50 values rather than experimentally measuring them. The implications of our results go beyond virtual drug screening design: potentially thousands of drugs could be probed in silico to systematically test their potential efficacy as anti-tumour agents based on their structure, thus providing a computational framework to identify new drug repositioning opportunities as well as ultimately be useful for personalized medicine by linking the genomic traits of patients to drug sensitivity.
0
Citation470
0
Save
0

Self-replicating system

Tjama Tjivikua et al.Jan 1, 1990
ADVERTISEMENT RETURN TO ISSUEPREVArticleNEXTSelf-replicating systemT. Tjivikua, P. Ballester, and J. Rebek Jr.Cite this: J. Am. Chem. Soc. 1990, 112, 3, 1249–1250Publication Date (Print):January 1, 1990Publication History Published online1 May 2002Published inissue 1 January 1990https://doi.org/10.1021/ja00159a057RIGHTS & PERMISSIONSArticle Views1996Altmetric-Citations286LEARN ABOUT THESE METRICSArticle Views are the COUNTER-compliant sum of full text article downloads since November 2008 (both PDF and HTML) across all institutions and individuals. These metrics are regularly updated to reflect usage leading up to the last few days.Citations are the number of other articles citing this article, calculated by Crossref and updated daily. Find more information about Crossref citation counts.The Altmetric Attention Score is a quantitative measure of the attention that a research article has received online. Clicking on the donut icon will load a page at altmetric.com with additional details about the score and the social media presence for the given article. Find more information on the Altmetric Attention Score and how the score is calculated. Share Add toView InAdd Full Text with ReferenceAdd Description ExportRISCitationCitation and abstractCitation and referencesMore Options Share onFacebookTwitterWechatLinked InReddit PDF (219 KB) Get e-Alerts Get e-Alerts
0

Performance of machine-learning scoring functions in structure-based virtual screening

Maciej Wójcikowski et al.Apr 25, 2017
Abstract Classical scoring functions have reached a plateau in their performance in virtual screening and binding affinity prediction. Recently, machine-learning scoring functions trained on protein-ligand complexes have shown great promise in small tailored studies. They have also raised controversy, specifically concerning model overfitting and applicability to novel targets. Here we provide a new ready-to-use scoring function (RF-Score-VS) trained on 15 426 active and 893 897 inactive molecules docked to a set of 102 targets. We use the full DUD-E data sets along with three docking tools, five classical and three machine-learning scoring functions for model building and performance assessment. Our results show RF-Score-VS can substantially improve virtual screening performance: RF-Score-VS top 1% provides 55.6% hit rate, whereas that of Vina only 16.2% (for smaller percent the difference is even more encouraging: RF-Score-VS top 0.1% achieves 88.6% hit rate for 27.5% using Vina). In addition, RF-Score-VS provides much better prediction of measured binding affinity than Vina (Pearson correlation of 0.56 and −0.18, respectively). Lastly, we test RF-Score-VS on an independent test set from the DEKOIS benchmark and observed comparable results. We provide full data sets to facilitate further research in this area ( http://github.com/oddt/rfscorevs ) as well as ready-to-use RF-Score-VS ( http://github.com/oddt/rfscorevs_binary ).
0
0

How reliable are ligand-centric methods for Target Fishing?

Antonio Peón et al.Nov 26, 2015
Computational methods for Target Fishing permit the discovery of new targets of a drug, which may result in its reposition in a new indication or improving our current understanding of its efficacy and side effects. Being a relatively recent class of methods, there is still a need to improve their validation, which is technically difficult, often limited to a small part of the targets and not easily interpretable by the user. Here we propose a new validation approach and use it to assess the reliability of ligand-centric techniques, which by construction provide the widest coverage of the proteome. On average over approved drugs, we find that only five predicted targets will have to be tested in order to find at least two true targets with submicromolar potency, although a strong variability in performance is observed. Also, we identify an average of eight known targets in approved drugs, which suggests that polypharmacology is a common and strong event. In addition, we observe that many known targets of approved drugs are currently missed by these methods. Lastly, by using a control group of randomly-selected molecules, we discuss how the data generation process confounds this analysis and its implications for method validation.
0

In silico molecular target prediction unveils mebendazole as a potent MAPK14 inhibitor

Jérémy Ariey-Bonnet et al.May 20, 2020
Abstract The concept of polypharmacology involves the interaction of drug molecules with multiple molecular targets. It provides a unique opportunity for the repurposing of already-approved drugs to target key factors involved in human diseases. Herein, we used an in silico target prediction algorithm to investigate the mechanism of action of mebendazole, an anti-helminthic drug, currently repurposed in the treatment of brain tumors. First, we confirmed that mebendazole decreased the viability of glioblastoma cells in vitro . Our in silico approach unveiled 21 putative molecular targets for mebendazole, including 12 proteins significantly up-regulated at the gene level in glioblastoma as compared to normal brain tissue. Validation experiments were performed on three major kinases involved in cancer biology: ABL1, MAPK1/ERK2 and MAPK14/p38α. Mebendazole could inhibit the activity of these kinases in vitro in a dose-dependent manner, with a high potency against MAPK14. Its direct binding to MAPK14 was further validated in vitro and inhibition of MAPK14 kinase activity was confirmed in live glioblastoma cells. Consistent with biophysical data, molecular modeling suggested that mebendazole was able to bind to the catalytic site of MAPK14. Finally, gene silencing demonstrated that MAPK14 is involved in glioblastoma tumor spheroid growth and response to mebendazole treatment. This study thus highlighted the role of MAPK14 in the anticancer mechanism of action of mebendazole and provides further rationale for the pharmacological targeting of MAPK14 in brain tumors. It also opens new avenues for the development of novel MAPK14/p38α inhibitors to treat human diseases. Significance Statement This study provides a framework to investigate drug polypharmacology by rapidly identifying novel molecular targets of already-approved drugs. It unveils a new mechanism involved in the anticancer activity of anti-helminthic drug, mebendazole, which is currently being repurposed for the treatment of brain tumors. By helping to decipher the mechanism(s) of action of repurposed drugs in their new indications, this approach could contribute to the development of safer and more effective therapeutic strategies in oncology and beyond.
0

Systematic assessment of multi-gene predictors of pan-cancer cell line sensitivity to drugs exploiting gene expression data

L. Nguyen et al.Dec 18, 2016
Selected gene mutations are routinely used to guide the selection of cancer drugs for a given patient tumour. Large pharmacogenomic data sets were introduced to discover more of these single-gene markers of drug sensitivity. Very recently, machine learning regression has been used to investigate how well cancer cell line sensitivity to drugs is predicted depending on the type of molecular profile. The latter has revealed that gene expression data is the most predictive profile in the pan-cancer setting. However, no study to date has exploited GDSC data to systematically compare the performance of machine learning models based on multi-gene expression data against that of widely-used single-gene markers based on genomics data. Here we present this systematic comparison using Random Forest (RF) classifiers exploiting the expression levels of 13,321 genes and an average of 501 tested cell lines per drug. To account for time-dependent batch effects in IC50 measurements, we employ independent test sets generated with more recent GDSC data than that used to train the predictors and show that this is a more realistic validation than K-fold cross-validation. Across 127 GDSC drugs, our results show that the single-gene markers unveiled by the MANOVA analysis tend to achieve higher precision than these RF-based multi-gene models, at the cost of generally having a poor recall (i.e. correctly detecting only a small part of the cell lines sensitive to the drug). Regarding overall classification performance, about two thirds of the drugs are better predicted by multi-gene RF classifiers. Among the drugs with the most predictive of these models, we found pyrimethamine, sunitinib and 17-AAG.
Load More