JF
Juan Ferres
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(89% Open Access)
Cited by:
14
h-index:
18
/
i10-index:
38
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
98

Predicting the locations of cryptic pockets from single protein structures using the PocketMiner graph neural network

Artur Meller et al.Jun 29, 2022
+5
F
M
A
Abstract Cryptic pockets expand the scope of drug discovery by enabling targeting of proteins currently considered undruggable because they lack pockets in their ground state structures. However, identifying cryptic pockets is labor-intensive and slow. The ability to accurately and rapidly predict if and where cryptic pockets are likely to form from a protein structure would greatly accelerate the search for druggable pockets. Here, we present PocketMiner, a graph neural network trained to predict where pockets are likely to open in molecular dynamics simulations. Applying PocketMiner to single structures from a newly-curated dataset of 39 experimentally-confirmed cryptic pockets demonstrates that it accurately identifies cryptic pockets (ROC-AUC: 0.87) >1,000-fold faster than existing methods. We apply PocketMiner across the human proteome and show that predicted pockets open in simulations, suggesting that over half of proteins thought to lack pockets based on available structures are likely to contain cryptic pockets, vastly expanding the druggable proteome.
98
Citation8
0
Save
0

Democratizing protein language models with parameter-efficient fine-tuning

Samuel Sledzieski et al.Jun 20, 2024
+3
M
M
S
Proteomics has been revolutionized by large protein language models (PLMs), which learn unsupervised representations from large corpora of sequences. These models are typically fine-tuned in a supervised setting to adapt the model to specific downstream tasks. However, the computational and memory footprint of fine-tuning (FT) large PLMs presents a barrier for many research groups with limited computational resources. Natural language processing has seen a similar explosion in the size of models, where these challenges have been addressed by methods for parameter-efficient fine-tuning (PEFT). In this work, we introduce this paradigm to proteomics through leveraging the parameter-efficient method LoRA and training new models for two important tasks: predicting protein–protein interactions (PPIs) and predicting the symmetry of homooligomer quaternary structures. We show that these approaches are competitive with traditional FT while requiring reduced memory and substantially fewer parameters. We additionally show that for the PPI prediction task, training only the classification head also remains competitive with full FT, using five orders of magnitude fewer parameters, and that each of these methods outperform state-of-the-art PPI prediction methods with substantially reduced compute. We further perform a comprehensive evaluation of the hyperparameter space, demonstrate that PEFT of PLMs is robust to variations in these hyperparameters, and elucidate where best practices for PEFT in proteomics differ from those in natural language processing. All our model adaptation and evaluation code is available open-source at https://github.com/microsoft/peft_proteomics . Thus, we provide a blueprint to democratize the power of PLM adaptation to groups with limited computational resources.
0

Maternal Obesity and Risk of Sudden Unexpected Infant Death

Darren Tanner et al.Jul 29, 2024
+2
W
J
D
Importance Rates of maternal obesity are increasing in the US. Although obesity is a well-documented risk factor for numerous poor pregnancy outcomes, it is not currently a recognized risk factor for sudden unexpected infant death (SUID). Objective To determine whether maternal obesity is a risk factor for SUID and the proportion of SUID cases attributable to maternal obesity. Design, Setting, and Participants This was a US nationwide cohort study using Centers for Disease Control and Prevention National Center for Health Statistics linked birth–infant death records for birth cohorts in 2015 through 2019. All US live births for the study years occurring at 28 weeks’ gestation or later from complete reporting areas were eligible; SUID cases were deaths occurring at 7 to 364 days after birth with International Statistical Classification of Diseases, Tenth Revision cause of death code R95 (sudden infant death syndrome), R99 (ill-defined and unknown causes), or W75 (accidental suffocation and strangulation in bed). Data were analyzed from October 1 through November 15, 2023. Exposure Maternal prepregnancy body mass index (BMI; calculated as weight in kilograms divided by height in meters squared). Main Outcome and Measure SUID. Results Of 18 857 694 live births eligible for analysis (median [IQR] age: maternal, 29 [9] years; paternal, 31 [9] years; gestational, 39 [2] weeks), 16 545 died of SUID (SUID rate, 0.88/1000 live births). After confounder adjustment, compared with mothers with normal BMI (BMI 18.5-24.9), infants born to mothers with obesity had a higher SUID risk that increased with increasing obesity severity. Infants of mothers with class I obesity (BMI 30.0-34.9) were at increased SUID risk (adjusted odds ratio [aOR], 1.10; 95% CI, 1.05-1.16); with class II obesity (BMI 35.0-39.9), a higher risk (aOR, 1.20; 95% CI, 1.13-1.27); and class III obesity (BMI ≥40.0), an even higher risk (aOR, 1.39; 95% CI, 1.31-1.47). A generalized additive model showed that increased BMI was monotonically associated with increased SUID risk, with an acceleration of risk for BMIs greater than approximately 25 to 30. Approximately 5.4% of SUID cases were attributable to maternal obesity. Conclusions and Relevance The findings suggest that infants born to mothers with obesity are at increased risk of SUID, with a dose-dependent association between increasing maternal BMI and SUID risk. Maternal obesity should be added to the list of known risk factors for SUID. With maternal obesity rates increasing, research should identify potential causal mechanisms for this association.
0
Citation1
0
Save
0

Challenges of COVID-19 Case Forecasting in the US, 2020–2021

Velma Lopez et al.May 6, 2024
+97
R
E
V
0
Citation1
0
Save
9

BindVAE: Dirichlet variational autoencoders for de novo motif discovery from accessible chromatin

Meghana Kshirsagar et al.Sep 24, 2021
C
J
H
M
Abstract We present a novel unsupervised deep learning approach called BindVAE, based on Dirichlet variational autoencoders, for jointly decoding multiple TF binding signals from open chromatin regions. BindVAE can disentangle an input DNA sequence into distinct latent factors that encode cell-type specific in vivo binding signals for individual TFs, composite patterns for TFs involved in cooperative binding, and genomic context surrounding the binding sites. For the task of retrieving motifs of expressed TFs for a given cell type, we find that BindVAE has a higher precision, albeit lower recall, compared to other motif discovery approaches.
9
Citation1
0
Save
0

Conversational Chatbot for Cigarette Smoking Cessation: Report of the User-Centered Design Eleven Step Development Process (Preprint)

Jonathan Bricker et al.Jun 18, 2024
+2
K
B
J
Conversational chatbots are an emerging digital intervention for smoking cessation. No studies have reported on the entire development process of a cessation chatbot.
0

Democratizing Protein Language Models with Parameter-Efficient Fine-Tuning

Samuel Sledzieski et al.Jan 1, 2023
+3
M
M
S
Proteomics has been revolutionized by large pre-trained protein language models, which learn unsupervised representations from large corpora of sequences. The parameters of these models are then fine-tuned in a supervised setting to tailor the model to a specific downstream task. However, as model size increases, the computational and memory footprint of fine-tuning becomes a barrier for many research groups. In the field of natural language processing, which has seen a similar explosion in the size of models, these challenges have been addressed by methods for parameter-efficient fine-tuning (PEFT). In this work, we newly bring parameter-efficient fine-tuning methods to proteomics. Using the parameter-efficient method LoRA, we train new models for two important proteomic tasks: predicting protein-protein interactions (PPI) and predicting the symmetry of homooligomers. We show that for homooligomer symmetry prediction, these approaches achieve performance competitive with traditional fine-tuning while requiring reduced memory and using three orders of magnitude fewer parameters. On the PPI prediction task, we surprisingly find that PEFT models actually outperform traditional fine-tuning while using two orders of magnitude fewer parameters. Here, we go even further to show that freezing the parameters of the language model and training only a classification head also outperforms fine-tuning, using five orders of magnitude fewer parameters, and that both of these models outperform state-of-the-art PPI prediction methods with substantially reduced compute. We also demonstrate that PEFT is robust to variations in training hyper-parameters, and elucidate where best practices for PEFT in proteomics differ from in natural language processing. Thus, we provide a blueprint to democratize the power of protein language model tuning to groups which have limited computational resources.
0

A comparison of convolutional neural networks and few-shot learning in classifying long-tailed distributed tropical bird songs

Zhongqi Miao et al.Jul 27, 2023
+3
M
J
Z
Abstract Biodiversity monitoring depends on reliable species identification, but it can often be difficult due to detectability or survey constraints, especially for rare and endangered species. Advances in bioacoustic monitoring and AI-assisted classification are improving our ability to carry out long-term studies, of a large proportion of the fauna, even in challenging environments, such as remote tropical rainforests. AI classifiers need training data, and this can be a challenge when working with tropical animal communities, which are characterized by high species richness but only a few common species and a long tail of rare species. Here we compare species identification results using two approaches: convolutional neural networks (CNN) and Siamese Neural Networks (SNN), a few-shot learning approach. The goal is to develop methodology that accurately identifies both common and rare species. To do this we collected more than 600 hours of audio recordings from Barro Colorado Island (BCI), Panama and we manually annotated calls from 101 bird species to create the training data set. More than 40% of the species had less than 100 annotated calls and some species had less than 10. The results showed that Siamese Networks outperformed the more widely used convolutional neural networks (CNN), especially when the number of annotated calls is low.