YL
Yu Luo
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(100% Open Access)
Cited by:
2
h-index:
23
/
i10-index:
35
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Contrastive Fitness Learning: Reprogramming Protein Language Models for Low-NLearning of Protein Fitness Landscape

Junming Zhao et al.Feb 12, 2024
Abstract Machine learning (ML) is revolutionizing our ability to model the fitness landscape of protein sequences, which is critical to answering fundamental life science questions and addressing important protein engineering applications, such as quantifying the pathogenicity of disease variants, forecasting viral evolution in a pandemic, and engineering new antibodies. Recently, the protein language model (pLM) has emerged as an effective ML tool in deciphering the intrinsic semantics of protein sequences and become the foundation of state-of-the-art ML solutions for many problems in protein biology. However, significant challenges remain in leveraging pLMs for protein fitness prediction, in part due to the disparity between the scarce number of sequences functionally characterized by high-throughput assays and the massive data samples required for training large pLMs. To bridge this gap, we introduce Contrastive Fitness Learning (ConFit), a pLM-based ML method for learning the protein fitness landscape with limited experimental fitness measurements as training data. We propose a novel contrastive learning strategy to fine-tune the pre-trained pLM, tailoring it to achieve protein-specific fitness prediction while avoiding overfitting, even when using a small number (low- N ) of functionally assayed mutant sequences for supervised fine-tuning. Evaluated across over 30 benchmark datasets of protein fitness, ConFit consistently provided accurate fitness predictions and outperformed several competitive baseline methods. Further analysis revealed that ConFit’s capability of low- N learning enabled sample-efficient active learning for identifying high-fitness protein variants. Collectively, our work represents a novel strategy to harness the potential of pLMs to elucidate the protein sequence-function relationship. The source code of ConFit is available at https://github.com/luo-group/ConFit .
0
Citation2
0
Save
3

scPretrain: Multi-task self-supervised learning for cell type classification

Ruiyi Zhang et al.Nov 20, 2020
ABSTRACT Rapidly generated scRNA-seq datasets enable us to understand cellular differences and the function of each individual cell at single-cell resolution. Cell type classification, which aims at characterizing and labeling groups of cells according to their gene expression, is one of the most important steps for single-cell analysis. To facilitate the manual curation process, supervised learning methods have been used to automatically classify cells. Most of the existing supervised learning approaches only utilize annotated cells in the training step while ignoring the more abundant unannotated cells. In this paper, we proposed scPretrain, a multi-task self-supervised learning approach that jointly considers annotated and unannotated cells for cell type classification. scPretrain consists of a pre-training step and a fine-tuning step. In the pre-training step, scPretrain uses a multi-task learning framework to train a feature extraction encoder based on each dataset’s pseudo-labels, where only unannotated cells are used. In the fine-tuning step, scPretrain fine-tunes this feature extraction encoder using the limited annotated cells in a new dataset. We evaluated scPretrain on 60 diverse datasets from different technologies, species and organs, and obtained a significant improvement on both cell type classification and cell clustering. Moreover, the representations obtained by scPretrain in the pre-training step also enhanced the performance of conventional classifiers such as random forest, logistic regression and support vector machines. scPretrain is able to effectively utilize the massive amount of unlabelled data and be applied to annotating increasingly generated scRNA-seq datasets. Availability https://github.com/ruiyi-zhang/scPretrain \
1

Supervised biological network alignment with graph neural networks

Kerr Ding et al.Apr 28, 2023
Abstract Motivation Despite the advances in sequencing technology, massive proteins with known sequences remain functionally unannotated. Biological network alignment (NA), which aims to find the node correspondence between species’ protein-protein interaction (PPI) networks, has been a popular strategy to uncover missing annotations by transferring functional knowledge across species. Traditional NA methods assumed that topologically similar proteins in PPIs are functionally similar. However, it was recently reported that functionally unrelated proteins can be as topologically similar as functionally related pairs, and a new data-driven or supervised NA paradigm has been proposed, which uses protein function data to discern which topological features correspond to functional relatedness. Results Here, we propose GraNA , a deep learning framework for the supervised NA paradigm for the pairwise network alignment problem. Employing graph neural networks, GraNA utilizes within-network interactions and across-network anchor links for learning protein representations and predicting functional correspondence between across-species proteins. A major strength of GraNA is its flexibility to integrate multi-faceted non-functional relationship data, such as sequence similarity and ortholog relationships, as anchor links to guide the mapping of functionally related proteins across species. Evaluating GraNA on a benchmark dataset composed of several NA tasks between different pairs of species, we observed that GraNA accurately predicted the functional relatedness of proteins and robustly transferred functional annotations across species, outperforming a number of existing NA methods. When applied to a case study on a humanized yeast network, GraNA also successfully discovered functionally replaceable human-yeast protein pairs that were documented in previous studies. Availability The code of GraNA is available at https://github.com/luo-group/GraNA . Contact yunan@gatech.edu
3

cancerAlign: Stratifying tumors by unsupervised alignment across cancer types

Bowen Gao et al.Nov 20, 2020
ABSTRACT Tumor stratification, which aims at clustering tumors into biologically meaningful subtypes, is the key step towards personalized treatment. Large-scale profiled cancer genomics data enables us to develop computational methods for tumor stratification. However, most of the existing approaches only considered tumors from an individual cancer type during clustering, leading to the overlook of common patterns across cancer types and the vulnerability to the noise within that cancer type. To address these challenges, we proposed cancerAlign to map tumors of the target cancer type into latent spaces of other source cancer types. These tumors were then clustered in each latent space rather than the original space in order to exploit shared patterns across cancer types. Due to the lack of aligned tumor samples across cancer types, cancerAlign used adversarial learning to learn the mapping at the population level. It then used consensus clustering to integrate cluster labels from different source cancer types. We evaluated cancerAlign on 7,134 tumors spanning 24 cancer types from TCGA and observed substantial improvement on tumor stratification and cancer gene prioritization. We further revealed the transferability across cancer types, which reflected the similarity among them based on the somatic mutation profile. cancerAlign is an unsupervised approach that provides deeper insights into the heterogeneous and rapidly accumulating somatic mutation profile and can be also applied to other genome-scale molecular information. Availability https://github.com/bowen-gao/cancerAlign