DN
Daria Nogina
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
14
h-index:
5
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

GRaNIE and GRaNPA: Inference and evaluation of enhancer-mediated gene regulatory networks applied to study macrophages

Aryan Kamal et al.Dec 21, 2021
+13
R
A
A
Abstract Among the biggest challenges in the post-GWAS (genome-wide association studies) era is the interpretation of disease-associated genetic variants in non-coding genomic regions. Enhancers have emerged as key players in mediating the effect of genetic variants on complex traits and diseases. Their activity is regulated by a combination of transcription factors (TFs), epigenetic changes and genetic variants. Several approaches exist to link enhancers to their target genes, and others that infer TF-gene connections. However, we currently lack a framework that systematically integrates enhancers into TF-gene regulatory networks. Furthermore, we lack an unbiased way of assessing whether inferred regulatory interactions are biologically meaningful. Here we present two methods, implemented as user-friendly R packages: GRaNIE (Gene Regulatory Network Inference including Enhancers) for building enhancer-based gene regulatory networks (eGRNs) and GRaNPA (Gene Regulatory Network Performance Analysis) for evaluating GRNs. GRaNIE jointly infers TF-enhancer, enhancer-gene and TF-gene interactions by integrating open chromatin data such as ATAC-Seq or H3K27ac with RNA-seq across a set of samples (e.g. individuals), and optionally also Hi-C data. GRaNPA is a general framework for evaluating the biological relevance of TF-gene GRNs by assessing their performance for predicting cell-type specific differential expression. We demonstrate the power of our tool-suite by investigating gene regulatory mechanisms in macrophages that underlie their response to infection and cancer, their involvement in common genetic diseases including autoimmune diseases, and identify the TF PURA as putative regulator of pro-inflammatory macrophage polarisation. Availability - GRaNIE: https://bioconductor.org/packages/release/bioc/html/GRaNIE.html - GRaNPA: https://git.embl.de/grp-zaugg/GRaNPA Graphical abstract
1
Citation12
0
Save
1

LegNet: a best-in-class deep learning model for short DNA regulatory regions

Dmitry Penzar et al.Dec 23, 2022
+6
E
D
D
Abstract Motivation The increasing volume of data from high-throughput experiments including parallel reporter assays facilitates the development of complex deep learning approaches for DNA regulatory grammar. Results Here we introduce LegNet, an EfficientNetV2-inspired convolutional network for modeling short gene regulatory regions. By approaching the sequence-to-expression regression problem as a soft classification task, LegNet secured first place for the autosome.org team in the DREAM 2022 challenge of predicting gene expression from gigantic parallel reporter assays. Using published data, here we demonstrate that LegNet outperforms existing models and accurately predicts gene expression per se as well as the effects of single-nucleotide variants. Furthermore, we show how LegNet can be used in a diffusion network manner for the rational design of promoter sequences yielding the desired expression level. Availability and Implementation https://github.com/autosome-ru/LegNet . The GitHub repository includes the Python code under the MIT license to reproduce the results presented in the study and a Jupyter Notebook tutorial. Supplementary Information Online-only supplementary data are available at Bioinformatics online. Contact dmitrypenzar1996@gmail.com , ivan.kulakovskiy@gmail.com
1
Citation2
0
Save
1

Evaluation and optimization of sequence-based gene regulatory deep learning models

Abdul Rafi et al.Apr 28, 2023
+26
D
D
A
Abstract Neural networks have proven to be an immensely powerful tool in predicting functional genomic regions, in particular with many recent successes in deciphering gene regulatory logic. However, how model architecture and training strategy choices affect model performance has not been systematically evaluated for genomics models. To address this gap, we held a DREAM Challenge where competitors trained models on a dataset of millions of random promoter DNA sequences and corresponding experimentally determined expression levels to best capture the relationship between regulatory DNA and gene expression in yeast. To robustly evaluate the models, we designed a comprehensive suite of benchmarks encompassing various sequence types. While some benchmarks produced similar results across all models, others differed substantially. For some sequence types, model performances exhibited correlation scores as high as 0.98, while for others, substantial improvement is still required. The top-performing models were all neural networks, which demonstrated substantial performance gains by customizing model architectures to the nature of the experiment and utilizing novel training strategies tailored to genomics sequence data. Overall, our DREAM Challenge highlights the need to benchmark genomics models across different scenarios to uncover their limitations.
1

A hierarchy in clusters of cephalopod mRNA editing sites

Mikhail Moldovan et al.Jun 17, 2021
M
D
Z
M
Abstract RNA editing in the form of substituting adenine to inosine (A-to-I editing) is the most frequent type of RNA editing, observed in many metazoan species. A-to-I editing sites form clusters in most studied species, and editing at clustered sites depends on editing of the adjacent sites. Although functionally important in some specific cases, A-to-I editing in most considered species is rare, the exception being soft-bodied cephalopods (coleoids), where tens of thousands of potentially important A-to-I editing sites have been identified, making coleoids an ideal object for studying of general properties and evolution of A-to-I editing sites. Here, we apply several diverse techniques to demonstrate a strong tendency of coleoid RNA editing sites to cluster along the transcript. We identify three distinct types of editing site clusters, varying in size, and describe RNA structural features and mechanisms likely underlying formation of these clusters. In particular, these observations may resolve the paradox of sequence conservation at large distances around editing sites.