Healthy Research Rewards
ResearchHub is incentivizing healthy research behavior. At this time, first authors of open access papers are eligible for rewards. Visit the publications tab to view your eligible publications.
Got it
MN
Melania Nowicka
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(80% Open Access)
Cited by:
1
h-index:
3
/
i10-index:
0
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
18

CovRadar: Continuously tracking and filtering SARS-CoV-2 mutations for molecular surveillance

Alice Wittig et al.Feb 3, 2021
ABSTRACT The SARS-CoV-2 pandemic underlined the importance of molecular surveillance to track the evolution of the virus and inform public health interventions. Fast analysis, easy visualization and convenient filtering of the latest virus sequences are essential for this purpose. However, access to computational resources, the lack of bioinformatics expertise, and the sheer volume of sequences in public databases complicate surveillance efforts. CovRadar combines an analytical pipeline and a web application designed for the molecular surveillance of the spike gene of SARS-CoV-2, an important vaccine target. The intuitive web front-end focuses on mutations rather than viral lineages and provides easy access to frequencies and spatio-temporal distributions from global sample collections. The data is regularly updated based on a scalable and reproducible analytical back-end. With this platform, we aim to give users, those with or without bioinformatics skills or sufficient computational resources, the possibility to track and explore mutational changes in the SARS-CoV-2 spike gene and to filter, download, and further analyze data that meet their questions and needs. Advanced computational users have the ability to apply the analytical pipeline and data visualization methods locally on their own data. CovRadar is freely accessible at https://covradar.net , source code is available at https://gitlab.com/dacs-hpi/covradar . GRAPHICAL ABSTRACT
0

Designing Distributed Cell Classifier Circuits using a Genetic Algorithm

Melania Nowicka et al.May 29, 2019
Cell classifiers are decision-making synthetic circuits that allow in vivo cell-type classification. Their design is based on finding a relationship between differential expression of miRNAs and the cell condition. Such biological devices have shown potential to become a valuable tool in cancer treatment as a new type-specific cell targeting approach. So far, only single-circuit classifiers were designed in this context. However, reliable designs come with high complexity, making them difficult to assemble in the lab. Here, we apply so-called Distributed Classifiers (DC) consisting of simple single circuits, that decide collectively according to a threshold function. Such architecture potentially simplifies the assembly process and provides design flexibility. Here, we present a genetic algorithm that allows the design and optimization of DCs. Breast cancer case studies show that DCs perform with high accuracy on real-world data. Optimized classifiers capture biologically relevant miRNAs that are cancer-type specific. The comparison to a single-circuit classifier design approach shows that DCs perform with significantly higher accuracy than individual circuits. The algorithm is implemented as an open source tool.
13

Detecting DNA of novel fungal pathogens using ResNets and a curated fungi-hosts data collection

Jakub Bartoszewicz et al.Dec 1, 2021
Abstract Background Emerging pathogens are a growing threat, but large data collections and approaches for predicting the risk associated with novel agents are limited to bacteria and viruses. Pathogenic fungi, which also pose a constant threat to public health, remain understudied. Relevant data remains comparatively scarce and scattered among many different sources, hindering the development of sequencing-based detection workflows for novel fungal pathogens. No prediction method working for agents across all three groups is available, even though the cause of an infection is often difficult to identify from symptoms alone. Results We present a curated collection of fungal host range data, comprising records on human, animal and plant pathogens, as well as other plant-associated fungi, linked to publicly available genomes. We show that it can be used to predict the pathogenic potential of novel fungal species directly from DNA sequences with either sequence homology or deep learning. We develop learned, numerical representations of the collected genomes and visualize the landscape of fungal pathogenicity. Finally, we train multi-class models predicting if next-generation sequencing reads originate from novel fungal, bacterial or viral threats. Conclusions The neural networks trained using our data collection enable accurate detection of novel fungal pathogens. A curated set of over 1,400 genomes with host and pathogenicity metadata supports training of machine learning models and sequence comparison, not limited to the pathogen detection task. Availability The data, models and code are hosted at https://zenodo.org/record/5846345 , https://zenodo.org/record/5711877 , and https://gitlab.com/dacs-hpi/deepac .
0

A framework for designing miRNA-based distributed cell classifier circuits

Melania Nowicka et al.May 15, 2020
Abstract Motivation Cell classifiers are synthetic bio-devices performing type-specific in vivo classification. The circuits identify a cell state based on its molecular fingerprint. In particular, the classifiers may be designed to recognize cancerous cells and trigger their apoptosis, shaping a novel therapy for cancer patients. Recently, we introduced a new theoretical design of such devices employing distributed classifiers. Here, a group of single-circuit classifiers decides collectively according to a pre-defined threshold function whether a cell is cancerous. The multi-circuit architecture has shown the potential to predict the cell condition with high accuracy. However, lack of far-reaching machinery to design and evaluate distributed cell classifiers, in particular, assessing their robustness to noise and novel information, makes their application limited. Results In this study, we present a comprehensive framework for designing and evaluating miRNA-based distributed cell classifiers comprising data simulation, pre-processing, and an extensive testing scheme. We develop optimization criteria that allow increasing the accuracy and robustness of classifiers to noise and novel information as shown in simulated and real-world data studies. The evaluation performed on cancer data demonstrates that distributed classifiers outperform single-circuit designs in terms of prediction accuracy. Our classifiers include relevant miRNAs previously described in the literature, as well as more complex regulation patterns included in the data. Availability The code and data are available at: https://github.com/MelaniaNowicka/RAccoon . Contact m.nowicka@fu-berlin.de
15

Evaluating Tuning Strategies for Sequence Generation with Protein Language Models

Andrea Nathansen et al.Mar 1, 2023
Abstract Designing artificial proteins with specialized functions promises new solutions for biological, medical, and environmental use cases. This field benefits from advances in natural language processing, with state-of-the-art text generation models already being successfully applied to protein sequences. Openly available pre-trained protein language models are able to generate artificial protein sequences and can be finetuned on very specific tasks. Considering the high computational cost of finetuning a model exclusively for one downstream task, prompt tuning has been proposed as a more cost-efficient alternative that shares one model across different tasks. However, no openly available implementation of this approach compatible with protein language models has been previously published. Thus, we adapt an open-source codebase designed for NLP models to build a pipeline for prompt tuning on protein sequence data, supporting the protein language models ProtGPT2 and RITA. We benchmark this implementation for generating proteins of a specific family and evaluate the approach using text processing metrics as well as family membership prediction and protein activity prediction of generated sequences. Our results confirm the advantages of prompt tuning in resource usage, especially storage, encouraging further research and expansion of this technique to related use cases. For our evaluated use case, prompt tuning does not reach up to finetuning in terms of the quality of generated protein sequences, indicating the need for more extensive optimization. Lastly, we observe discrepancies between results of similar evaluation tools, highlighting open problems for principled assessment of protein sequence generation quality.