YL
Yan Li
Author with expertise in Computational Methods in Drug Discovery
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(100% Open Access)
Cited by:
268
h-index:
5
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Clinical features of COVID-19 mortality: development and validation of a clinical prediction model

Arjun Yadaw et al.Sep 22, 2020
BackgroundThe COVID-19 pandemic has affected millions of individuals and caused hundreds of thousands of deaths worldwide. Predicting mortality among patients with COVID-19 who present with a spectrum of complications is very difficult, hindering the prognostication and management of the disease. We aimed to develop an accurate prediction model of COVID-19 mortality using unbiased computational methods, and identify the clinical features most predictive of this outcome.MethodsIn this prediction model development and validation study, we applied machine learning techniques to clinical data from a large cohort of patients with COVID-19 treated at the Mount Sinai Health System in New York City, NY, USA, to predict mortality. We analysed patient-level data captured in the Mount Sinai Data Warehouse database for individuals with a confirmed diagnosis of COVID-19 who had a health system encounter between March 9 and April 6, 2020. For initial analyses, we used patient data from March 9 to April 5, and randomly assigned (80:20) the patients to the development dataset or test dataset 1 (retrospective). Patient data for those with encounters on April 6, 2020, were used in test dataset 2 (prospective). We designed prediction models based on clinical features and patient characteristics during health system encounters to predict mortality using the development dataset. We assessed the resultant models in terms of the area under the receiver operating characteristic curve (AUC) score in the test datasets.FindingsUsing the development dataset (n=3841) and a systematic machine learning framework, we developed a COVID-19 mortality prediction model that showed high accuracy (AUC=0·91) when applied to test datasets of retrospective (n=961) and prospective (n=249) patients. This model was based on three clinical features: patient's age, minimum oxygen saturation over the course of their medical encounter, and type of patient encounter (inpatient vs outpatient and telehealth visits).InterpretationAn accurate and parsimonious COVID-19 mortality prediction model based on three features might have utility in clinical settings to guide the management and prognostication of patients affected by this disease. External validation of this prediction model in other populations is needed.FundingNational Institutes of Health.
0

Integrating multimodal data through interpretable heterogeneous ensembles

Yan Li et al.May 31, 2020
Abstract Motivation Integrating multimodal data represents an effective approach to predicting biomedical characteristics, such as protein functions and disease outcomes. However, existing data integration approaches do not sufficiently address the heterogeneous semantics of multimodal data. In particular, early and intermediate approaches that rely on a uniform integrated representation reinforce the consensus among the modalities, but may lose exclusive local information. The alternative late integration approach that can address this challenge has not been systematically studied for biomedical problems. Results We propose Ensemble Integration (EI) as a novel systematic implementation of the late integration approach. EI infers local predictive models from the individual data modalities using appropriate algorithms, and uses effective heterogeneous ensemble algorithms to integrate these local models into a global predictive model. We also propose a novel interpretation method for EI models. We tested EI on the problems of predicting protein function from multimodal STRING data, and mortality due to COVID-19 from multimodal data in electronic health records. We found that EI accomplished its goal of producing significantly more accurate predictions than each individual modality. It also performed better than several established early integration methods for each of these problems. The interpretation of a representative EI model for COVID-19 mortality prediction identified several disease-relevant features, such as laboratory test (blood urea nitrogen (BUN) and calcium) and vital sign measurements (minimum oxygen saturation) and demographics (age). These results demonstrated the effectiveness of the EI framework for biomedical data integration and predictive modeling. Availability Code and data are available at https://github.com/GauravPandeyLab/ensemble_integration . Contact gaurav.pandey@mssm.edu
0

A comprehensive exploration of the druggable conformational space of protein kinases using AI-predicted structures

Noah Herrington et al.Jul 24, 2024
Protein kinase function and interactions with drugs are controlled in part by the movement of the DFG and ɑC-Helix motifs that are related to the catalytic activity of the kinase. Small molecule ligands elicit therapeutic effects with distinct selectivity profiles and residence times that often depend on the active or inactive kinase conformation(s) they bind. Modern AI-based structural modeling methods have the potential to expand upon the limited availability of experimentally determined kinase structures in inactive states. Here, we first explored the conformational space of kinases in the PDB and models generated by AlphaFold2 (AF2) and ESMFold, two prominent AI-based protein structure prediction methods. Our investigation of AF2’s ability to explore the conformational diversity of the kinome at various multiple sequence alignment (MSA) depths showed a bias within the predicted structures of kinases in DFG-in conformations, particularly those controlled by the DFG motif, based on their overabundance in the PDB. We demonstrate that predicting kinase structures using AF2 at lower MSA depths explored these alternative conformations more extensively, including identifying previously unobserved conformations for 398 kinases. Ligand enrichment analyses for 23 kinases showed that, on average, docked models distinguished between active molecules and decoys better than random (average AUC (avgAUC) of 64.58), but select models perform well (e.g., avgAUCs for PTK2 and JAK2 were 79.28 and 80.16, respectively). Further analysis explained the ligand enrichment discrepancy between low- and high-performing kinase models as binding site occlusions that would preclude docking. The overall results of our analyses suggested that, although AF2 explored previously uncharted regions of the kinase conformational space and select models exhibited enrichment scores suitable for rational drug discovery, rigorous refinement of AF2 models is likely still necessary for drug discovery campaigns.
0
Citation1
0
Save
1

Exploring the Druggable Conformational Space of Protein Kinases Using AI-Generated Structures

Noah Herrington et al.Sep 1, 2023
Abstract Protein kinase function and interactions with drugs are controlled in part by the movement of the DFG and ɑC-Helix motifs, which enable kinases to adopt various conformational states. Small molecule ligands elicit therapeutic effects with distinct selectivity profiles and residence times that often depend on the kinase conformation(s) they bind. However, the limited availability of experimentally determined structural data for kinases in inactive states restricts drug discovery efforts for this major protein family. Modern AI-based structural modeling methods hold potential for exploring the previously experimentally uncharted druggable conformational space for kinases. Here, we first evaluated the currently explored conformational space of kinases in the PDB and models generated by AlphaFold2 (AF2) (1) and ESMFold (2), two prominent AI-based structure prediction methods. We then investigated AF2’s ability to predict kinase structures in different conformations at various multiple sequence alignment (MSA) depths, based on this parameter’s ability to explore conformational diversity. Our results showed a bias within the PDB and predicted structural models generated by AF2 and ESMFold toward structures of kinases in the active state over alternative conformations, particularly those conformations controlled by the DFG motif. Finally, we demonstrate that predicting kinase structures using AF2 at lower MSA depths allows the exploration of the space of these alternative conformations, including identifying previously unobserved conformations for 398 kinases. The results of our analysis of structural modeling by AF2 create a new avenue for the pursuit of new therapeutic agents against a notoriously difficult-to-target family of proteins. Significance Statement Greater abundance of kinase structural data in inactive conformations, currently lacking in structural databases, would improve our understanding of how protein kinases function and expand drug discovery and development for this family of therapeutic targets. Modern approaches utilizing artificial intelligence and machine learning have potential for efficiently capturing novel protein conformations. We provide evidence for a bias within AlphaFold2 and ESMFold to predict structures of kinases in their active states, similar to their overrepresentation in the PDB. We show that lowering the AlphaFold2 algorithm’s multiple sequence alignment depth can help explore kinase conformational space more broadly. It can also enable the prediction of hundreds of kinase structures in novel conformations, many of whose models are likely viable for drug discovery.