YC
Yue Cao
Author with expertise in Protein Structure Prediction and Analysis
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
4
(25% Open Access)
Cited by:
0
h-index:
10
/
i10-index:
10
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Bayesian Active Learning for Optimization and Uncertainty Quantification in Protein Docking

Yue Cao et al.Jan 31, 2019
Motivation: Ab initio protein docking represents a major challenge for optimizing a noisy and costly "black box"-like function in a high-dimensional space. Despite progress in this field, there is no docking method available for rigorous uncertainty quantification (UQ) of its solution quality (e.g. interface RMSD or iRMSD). Results: We introduce a novel algorithm, Bayesian Active Learning (BAL), for optimization and UQ of such black-box functions and flexible protein docking. BAL directly models the posterior distribution of the global optimum (or native structures for protein docking) with active sampling and posterior estimation iteratively feeding each other. Furthermore, we use complex normal modes to represent a homogeneous Euclidean conformation space suitable for high-dimension optimization and construct funnel-like energy models for encounter complexes. Over a protein docking benchmark set and a CAPRI set including homology docking, we establish that BAL significantly improve against both starting points by rigid docking and refinements by particle swarm optimization, providing for one third targets a top-3 near-native prediction. BAL also generates tight confidence intervals with half range around 25% of iRMSD and confidence level at 85%. Its estimated probability of a prediction being native or not achieves binary classification AUROC at 0.93 and AUPRC over 0.60 (compared to 0.14 by chance); and also found to help ranking predictions. To the best of knowledge, this study represents the first uncertainty quantification solution for protein docking, with theoretical rigor and comprehensive assessment.
0

Predicting Pathogenicity of Missense Variants with Weakly Supervised Regression

Yue Cao et al.Feb 10, 2019
Quickly growing genetic variation data of unknown clinical significance demand computational methods that can reliably predict clinical phenotypes and deeply unravel molecular mechanisms. On the platform enabled by CAGI (Critical Assessment of Genome Interpretation), we develop a novel "weakly supervised" regression (WSR) model that not only predicts precise clinical significance (probability of pathogenicity) from inexact training annotations (class of pathogenicity) but also infers underlying molecular mechanisms in a variant-specific fashion. Compared to multi-class logistic regression, a representative multi-class classifier, our kernelized WSR improves the performance for the ENIGMA Challenge set from 0.72 to 0.97 in binary AUC (Area Under the receiver operating characteristic Curve) and from 0.64 to 0.80 in ordinal multi-class AUC. WSR model interpretation and protein structural interpretation reach consensus in corroborating the most probable molecular mechanisms by which some pathogenic BRCA1 variants confer clinical significance, namely metal-binding disruption for C44F and C47Y, protein-binding disruption for M18T, and structure destabilization for S1715N. Availability: Source codes and data are provided at https://github.com/Shen-Lab/WSR-PredictPofPathogenicity/
0

De Novo Protein Design for Novel Folds using Guided Conditional Wasserstein Generative Adversarial Networks (gcWGAN)

Mostafa Karimi et al.Sep 14, 2019
Motivation: Facing data quickly accumulating on protein sequence and structure, this study is addressing the following question: to what extent could current data alone reveal deep insights into the sequence-structure relationship, such that new sequences can be designed accordingly for novel structure folds? Results: We have developed novel deep generative models, constructed low-dimensional and generalizable representation of fold space, exploited sequence data with and without paired structures, and developed ultra-fast fold predictor as an oracle providing feedback. The resulting semi-supervised gcWGAN is assessed with the oracle over 100 novel folds not in the training set and found to generate more yields and cover 3.6 times more target folds compared to a competing data-driven method (cVAE). Assessed with structure predictor over representative novel folds (including one not even part of basis folds), gcWGAN designs are found to have comparable or better fold accuracy yet much more sequence diversity and novelty than cVAE. gcWGAN explores uncharted sequence space to design proteins by learning from current sequence-structure data. The ultra fast data-driven model can be a powerful addition to principle-driven design methods through generating seed designs or tailoring sequence space.
1

CD81 partners with CD44 in promoting exosome biogenesis, tumor cluster formation, and lung metastasis in triple negative breast cancer

Erika Ramos et al.Feb 25, 2022
Abstract Tumor-initiating cells with reprogramming plasticity are thought to be essential for cancer development and metastatic regeneration in many cancers; however, the molecular mechanisms are not fully understood. This study reports that CD81, a tetraspanin protein marker of small extracellular vesicles (exosomes), functions as a binding partner of CD44 and facilitates self-renewal of tumor initiating cells. Using machine learning-assisted protein structure modeling, co-immunoprecipitation, and mutagenesis approaches, we further demonstrate that CD81 interacts with CD44 on the cellular membrane through their extracellular regions. In-depth global and phosphoproteomic analyses of clustering tumor cells unveils endocytosis-related signature pathways of proteins and phosphorylation patterns regulated by CD81 and CD44 specifically or shared between two. Notably, CRISPR Cas9-mediated depletion of either CD44 or CD81 results in loss of both proteins in cancer cell-secreted exosomes, a state which abolishes exosome-induced self-renewal of recipient cells for mammosphere formation. CD81 is expressed in >80% of human circulating tumor cells (CTCs) and specifically enriched in clustered CTCs along with CD44 isolated from breast cancer patients. Mimicking the phenotypes of CD44 deficiency, loss of CD81 also inhibits tumor cluster aggregation, tumorigenesis, and lung metastasis of triple negative breast cancer (TNBC), supporting the clinical significance of CD81 in association with patient outcomes. Our study highlights the novel role of CD81 and its partnership with CD44 in cancer exosomes, self-renewal, CTC clustering, and metastasis initiation of TNBC.