FB
Frimpong Boadu
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(100% Open Access)
Cited by:
0
h-index:
4
/
i10-index:
1
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
9

Combining protein sequences and structures with transformers and equivariant graph neural networks to predict protein function

Frimpong Boadu et al.Jan 20, 2023
Abstract Motivation Millions of protein sequences have been generated by numerous genome and transcriptome sequencing projects. However, experimentally determining the function of the proteins is still a time consuming, low-throughput, and expensive process, leading to a large protein sequence-function gap. Therefore, it is important to develop computational methods to accurately predict protein function to fill the gap. Even though many methods have been developed to use protein sequences as input to predict function, much fewer methods leverage protein structures in protein function prediction because there was lack of accurate protein structures for most proteins until recently. Results We developed TransFun - a method using a transformer-based protein language model and 3D-equivariant graph neural networks to distill information from both protein sequences and structures to predict protein function. It extracts feature embeddings from protein sequences using a pre-trained protein language model (ESM) via transfer learning and combines them with 3D structures of proteins predicted by AlphaFold2 through equivariant graph neural networks. Benchmarked on the CAFA3 test dataset and a new test dataset, TransFun outperforms several state-of-the-art methods, indicating the language model and 3D-equivariant graph neural networks are effective methods to leverage protein sequences and structures to improve protein function prediction. Combining TransFun predictions and sequence similarity-based predictions can further increase prediction accuracy. Availability The source code of TransFun is available at https://github.com/jianlin-cheng/TransFun Contact chengji@missouri.edu
0

Improving protein function prediction by learning and integrating representations of protein sequences and function labels

Frimpong Boadu et al.Aug 17, 2024
Abstract Motivation As fewer than 1% of proteins have protein function information determined experimentally, computationally predicting the function of proteins is critical for obtaining functional information for most proteins and has been a major challenge in protein bioinformatics. Despite the significant progress made in protein function prediction by the community in the last decade, the general accuracy of protein function prediction is still not high, particularly for rare function terms associated with few proteins in the protein function annotation database such as the UniProt. Results We introduce TransFew, a new transformer model, to learn the representations of both protein sequences and function labels (Gene Ontology (GO) terms) to predict the function of proteins. TransFew leverages a large pre-trained protein language model (ESM2-t48) to learn function-relevant representations of proteins from raw protein sequences and uses a biological natural language model (BioBert) and a graph convolutional neural network-based autoencoder to generate semantic representations of GO terms from their textual definition and hierarchical relationships, which are combined together to predict protein function via the cross-attention. Integrating the protein sequence and label representations not only enhances overall function prediction accuracy, but delivers a robust performance of predicting rare function terms with limited annotations by facilitating annotation transfer between GO terms. Availability Https://github.com/BioinfoMachineLearning/TransFew Supplementary information Supplementary data are available.
0

Improving protein function prediction by learning and integrating representations of protein sequences and function labels

Frimpong Boadu et al.Mar 14, 2024
Abstract Motivation As fewer than 1% of proteins have protein function information determined experimentally, computationally predicting the function of proteins is critical for obtaining functional information for most proteins and has been a major challenge in protein bioinformatics. Despite the significant progress made in protein function prediction by the community in the last decade, the general accuracy of protein function prediction is still not high, particularly for rare function terms associated with few proteins in the protein function annotation database such as the UniProt. Results We introduce TransFew, a new transformer model, to learn the representations of both protein sequences and function labels (Gene Ontology (GO) terms) to predict the function of proteins. TransFew leverages a large pre-trained protein language model (ESM2-t48) to learn function-relevant representations of proteins from raw protein sequences and uses a biological natural language model (BioBert) and a graph convolutional neural network-based autoencoder to generate semantic representations of GO terms from their textual definition and hierarchical relationships, which are combined together to predict protein function via the cross-attention. Integrating the protein sequence and label representations not only enhances overall function prediction accuracy over the existing methods, but substantially improves the accuracy of predicting rare function terms with limited annotations by facilitating annotation transfer between GO terms. Availability https://github.com/BioinfoMachineLearning/TransFew Contact chengji@missouri.edu Supplementary information Supplementary data are available .
0

Multi-omics analyses and machine learning prediction of oviductal responses in the presence of gametes and embryos

Ryan Finnerty et al.Jun 15, 2024
ABSTRACT The oviduct is the site of fertilization and preimplantation embryo development in mammals. Evidence suggests that gametes alter oviductal gene expression. To delineate the adaptive interactions between the oviduct and gamete/embryo, we performed a multi-omics characterization of oviductal tissues utilizing bulk RNA-sequencing (RNA-seq), single-cell RNA-sequencing (scRNA-seq), and proteomics collected from distal and proximal at various stages after mating in mice. We observed robust region-specific transcriptional signatures. Specifically, the presence of sperm induces genes involved in pro-inflammatory responses in the proximal region at 0.5 days post-coitus (dpc). Genes involved in inflammatory responses were produced specifically by secretory epithelial cells in the oviduct. At 1.5 and 2.5 dpc, genes involved in pyruvate and glycolysis were enriched in the proximal region, potentially providing metabolic support for developing embryos. Abundant proteins in the oviductal fluid were differentially observed between naturally fertilized and superovulated samples. RNA-seq data were used to identify transcription factors predicted to influence protein abundance in the proteomic data via a novel machine learning model based on transformers of integrating transcriptomics and proteomics data. The transformers identified influential transcription factors and correlated predictive protein expressions in alignment with the in vivo -derived data. In conclusion, our multi-omics characterization and subsequent in vivo confirmation of proteins/RNAs indicate that the oviduct is adaptive and responsive to the presence of sperm and embryos in a spatiotemporal manner. Significance Statement We conducted a detailed molecular study of how the oviduct changes its gene expression and protein production in response to sperm and embryos after mating in mice. We found that the oviduct has distinct molecular signatures in different regions - upper versus lower regions. Shortly after mating, inflammatory responses are turned on in the lower regions due to the presence of sperm. A bit later, metabolic genes ramp up in the lower regions, likely to provide nutrients for the developing embryos. Overall, this multi-omics study revealed the oviduct dynamically adapts its molecular makeup over time and space to accommodate and support sperm, eggs and embryos.