GM
G. Meshcheryakov
Author with expertise in Regulation of Chromatin Structure and Function
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
2
h-index:
5
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

LegNet: a best-in-class deep learning model for short DNA regulatory regions

Dmitry Penzar et al.Dec 23, 2022
Abstract Motivation The increasing volume of data from high-throughput experiments including parallel reporter assays facilitates the development of complex deep learning approaches for DNA regulatory grammar. Results Here we introduce LegNet, an EfficientNetV2-inspired convolutional network for modeling short gene regulatory regions. By approaching the sequence-to-expression regression problem as a soft classification task, LegNet secured first place for the autosome.org team in the DREAM 2022 challenge of predicting gene expression from gigantic parallel reporter assays. Using published data, here we demonstrate that LegNet outperforms existing models and accurately predicts gene expression per se as well as the effects of single-nucleotide variants. Furthermore, we show how LegNet can be used in a diffusion network manner for the rational design of promoter sequences yielding the desired expression level. Availability and Implementation https://github.com/autosome-ru/LegNet . The GitHub repository includes the Python code under the MIT license to reproduce the results presented in the study and a Jupyter Notebook tutorial. Supplementary Information Online-only supplementary data are available at Bioinformatics online. Contact dmitrypenzar1996@gmail.com , ivan.kulakovskiy@gmail.com
1
Citation2
0
Save
1

Evaluation and optimization of sequence-based gene regulatory deep learning models

Abdul Rafi et al.Apr 28, 2023
Abstract Neural networks have proven to be an immensely powerful tool in predicting functional genomic regions, in particular with many recent successes in deciphering gene regulatory logic. However, how model architecture and training strategy choices affect model performance has not been systematically evaluated for genomics models. To address this gap, we held a DREAM Challenge where competitors trained models on a dataset of millions of random promoter DNA sequences and corresponding experimentally determined expression levels to best capture the relationship between regulatory DNA and gene expression in yeast. To robustly evaluate the models, we designed a comprehensive suite of benchmarks encompassing various sequence types. While some benchmarks produced similar results across all models, others differed substantially. For some sequence types, model performances exhibited correlation scores as high as 0.98, while for others, substantial improvement is still required. The top-performing models were all neural networks, which demonstrated substantial performance gains by customizing model architectures to the nature of the experiment and utilizing novel training strategies tailored to genomics sequence data. Overall, our DREAM Challenge highlights the need to benchmark genomics models across different scenarios to uncover their limitations.