SU
Sinan Umu
Author with expertise in MicroRNA Regulation in Cancer and Development
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
7
(43% Open Access)
Cited by:
2
h-index:
14
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
30

Accurate microRNA annotation of animal genomes using trained covariance models of curated microRNA complements in MirMachine

Sinan Umu et al.Nov 25, 2022
Summary The annotation of microRNAs, an important class of post-transcriptional regulators, depends on the availability of transcriptomics data and expert knowledge. This led to a large gap between novel genomes made available and high-quality microRNA complements. Using >16,000 microRNAs from the manually curated microRNA gene database MirGeneDB, we generated trained covariance models for all conserved microRNA families. These models are available in MirMachine, our new tool for the annotation of conserved microRNA complements from genomes only. We successfully applied MirMachine to a wide range of animal species, including those with very large genomes, additional genome duplications and extinct species, where smallRNA sequencing will be hard to achieve. We further describe a microRNA score of expected microRNAs that can be used to assess the completeness of genome assemblies. MirMachine closes a long-persisting gap in the microRNA field facilitating automated genome annotation pipelines and deeper studies on the evolution of genome regulation, even in extinct organisms. Highlights An annotation pipeline using trained covariance models of microRNA families Enables massive parallel annotation of microRNA complements of genomes MirMachine creates meaningful annotations for very large and extinct genomes microRNA score to assess genome assembly completeness Graphical abstract
30
Citation1
0
Save
0

MirGeneDB 3.0: improved taxonomic sampling, uniform nomenclature of novel conserved microRNA families and updated covariance models

Alexander Clarke et al.Nov 30, 2024
Abstract We present a major update of MirGeneDB (3.0), the manually curated animal microRNA gene database. Beyond moving to a new server and the creation of a computational mirror, we have expanded the database with the addition of 33 invertebrate species, including representatives of 5 previously unsampled phyla, and 6 mammal species. MirGeneDB now contains entries for 21 822 microRNA genes (5160 of these from the new species) belonging to 1743 microRNA families. The inclusion of these new species allowed us to refine both the evolutionary node of appearance of a number of microRNA genes/families, as well as MirGeneDB’s phylogenetically informed nomenclature system. Updated covariance models of all microRNA families, along with all smallRNA read data are now downloadable. These enhanced annotations will allow researchers to analyze microRNA properties such as secondary structure and features of their biogenesis within a robust phylogenetic context and without the database plagued with numerous false positives and false negatives. In light of these improvements, MirGeneDB 3.0 will assume the responsibility for naming conserved novel metazoan microRNAs. MirGeneDB is part of RNAcentral and Elixir Norway and is publicly and freely available at mirgenedb.org.
0
Citation1
0
Save
0

Validation of miRNA signatures for ovarian cancer earlier detection in the pre-diagnosis setting using machine learning approaches

Konrad Stawiski et al.Jun 25, 2024
Introduction Effective strategies for early detection of epithelial ovarian cancer are lacking. We evaluated whether a panel of 14 previously established circulating microRNAs could discriminate between cases diagnosed &lt;2 years after serum collection and those diagnosed 2–7 years after serum collection. miRNA sequencing data from subsequent ovarian cancer cases were obtained as part of the ongoing multi-cancer JanusRNA project, utilizing pre-diagnostic serum samples from the Janus Serum Bank and linked to the Cancer Registry of Norway for cancer outcomes. Methods We included a total of 80 ovarian cancer cases contributing 80 serum samples and compared 40 serum samples from cases with samples collected &lt;2 years prior to diagnosis with 40 serum samples from cases with sample collection ≥2 to 7 years. We employed the extreme gradient boosting (XGBoost) algorithm to train a binary classification model using 70% of the available data, while the model was tested on the remaining 30% of the dataset. Results The performance of the model was evaluated using repeated holdout validation. The previously established set of miRNAs achieved a median area under the receiver operating characteristic curve (AUC) of 0.771 in the test sets. Four out of 14 miRNAs (hsa-miR-200a-3p, hsa-miR-1246, hsa-miR-203a-3p, hsa-miR-23b-3p) exhibited higher expression levels closer to diagnosis, consistent with the previously reported upregulation in cancer cases, with statistical significance observed only for hsa-miR-200a-3p (beta=0.14; p=0.04). Discussion The discrimination potential of the selected models provides evidence of the robustness of the miRNA signature for ovarian cancer.
0

A meta-analysis of bioinformatics software benchmarks reveals that publication-bias unduly influences software accuracy

Paul Gardner et al.Dec 7, 2016
Computational biology has provided widely used and powerful software tools for testing and making inferences about biological data. In the face of increasing volumes of data, heuristic methods that trade software speed for mathematical completeness must be employed. We are interested in whether trade-offs between speed and accuracy are reasonable. Also, what factors are indicative of accurate software? In this work we mine published benchmarks of computational biology software, we collect data on the relative accuracy and speed of different software and then test to see what factors influence accuracy e.g. speed, author reputation, journal impact or recency. We found that author reputation, journal impact, the number of citations, software speed and age are not reliable predictors of software accuracy. This implies that useful bioinformatics software is not only the domain of famous senior researchers. In addition, we found that there exists an excess of slow and inaccurate software tools across multiple sub-disciplines of bioinformatics. Meanwhile, there are very few tools of middling accuracy and speed. We hypothesise that a strong publication bias unduly influences the publication and development of bioinformatic software tools. In other words, at present software that is not highly ranked on speed and not highly ranked on accuracy is difficult to publish due to editorial and reviewer practices. This leaves an unfortunate gap in the literature upon which future software refinements cannot be constructed.
0

Circulating small non-coding RNAs associated with age, sex, smoking, body mass and physical activity

Trine Rounge et al.Jan 12, 2018
Non-coding RNAs (ncRNA) are regulators of cell functions and circulating ncRNAs from the majority of RNA classes, such as miRNA, tRNA, piRNAs, lncRNA, snoRNA, snRNA and miscRNAs, are potential non-invasive biomarkers. Understanding how non-disease traits influence ncRNA expression is essential for assessing their biomarker potential. We studied associations of common traits (sex, age, smoking, body mass, physical activity, and technical factors such as sample storage and processing) with serum ncRNAs. We used RNAseq data from 526 donors from the Janus Serum Bank and traits from health examination surveys. We identified associations between all RNA classes and traits. Ageing showed the strongest association with ncRNA expression, both in terms of statistical significance and number of RNAs, regardless of RNA class. Serum processing modifications and storage times significantly altered expression levels of a number of ncRNAs. Interestingly, smoking cessation generally restored RNA expression to non-smoking levels, although for some isomiRs, mRNA fragments and tRNAs smoking-related expression levels persisted. Our results show that common traits influence circulating ncRNA expression. Therefore it is clear that ncRNA biomarker analyses should be adjusted for age and sex. In addition, for specific ncRNAs identified in our study, analyses should also be adjusted for body mass, smoking, physical activity and serum processing and storage.