DH
Doaa Hassan
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
8
h-index:
8
/
i10-index:
6
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Penguin: A Tool for Predicting Pseudouridine Sites in Direct RNA Nanopore Sequencing Data

Doaa Hassan et al.Apr 1, 2021
Abstract Pseudouridine is one of the most abundant RNA modifications, occurring when uridines are catalyzed by Pseudouridine synthase proteins. It plays an important role in many biological processes and also has an importance in drug development. Recently, the single-molecule sequencing techniques such as the direct RNA sequencing platform offered by Oxford Nanopore technologies enable direct detection of RNA modifications on the molecule that is being sequenced, but to our knowledge this technology has not been used to identify RNA Pseudouridine sites. To this end, in this paper, we address this limitation by introducing a tool called Penguin that integrates several developed machine learning (ML) models (i.e., predictors) to identify RNA Pseudouridine sites in Nanopore direct RNA sequencing reads. Penguin extracts a set of features from the raw signal measured by the Oxford Nanopore and the corresponding basecalled k-mer. Those features are used to train the predictors included in Penguin, which in turn, is able to predict whether the signal is modified by the presence of Pseudouridine sites. We have included various predictors in Penguin including Support vector machine (SVM), Random Forest (RF), and Neural network (NN). The results on the two benchmark data sets show that Penguin is able to identify Pseudouridine sites with a high accuracy of 93.38% and 92.61% using SVM in random split testing and independent validation testing respectively. Thus, Penguin outperforms the existing Pseudouridine predictors in the literature that achieved an accuracy of 76.0 at most with an independent validation testing. A GitHub of the tool is accessible at https://github.com/Janga-Lab/Penguin . HIGHLIGHTS Penguin integrates several developed ML learning models (i.e., predictors) to identify RNA Ψ sites in Nanopore direct RNA sequencing reads. The pipeline of penguin automates the data preprocessing including Nanopore direct RNA reads alignment using Minimap2, and Nanopore signal extraction using Nanopolish, feature extraction from raw Nanopore signal for training ML predictors integrated in its platform, and the prediction of RNA Ψ sites with those predictors. Penguin can predict Ψ sites with a performance that outperforms the performance of the state-of-the-art research methods existing in the literature. Penguin platform can be adopted to be used for predicting other/various types of RNA modification. There are 6137606 U-mers samples predicted by penguin best ML model (SVM) as Ψ ones from a total of 67491289 U-mers samples in the complete Hek293 cell line with 556813 unique genomic location of Ψ. There are 1193192 U-mers samples predicted by penguin best ML model (SVM) as Ψ ones from a total of 229637931 U-mers samples in the complete Hela cell line with 39384 unique genomic locations of Ψ. There is a small fraction of 0.01% (6482 unique genomic locations) of Ψ that are common (overlapped) between both Hek293 and Hela cell lines. The extend of Ψ modification (the number of U-mers samples predicted as Ψ samples to the total number of U-mer samples in the complete RNA sequence of the cell line) in RNA sequence of Hek293 cell line is much greater than its counterpart for Hela cell line (9% for Hek293 versus 0. 5 % for Hela cell line).
1

Nm-Nano: A Machine Learning Framework for Transcriptome-Wide Single Molecule Mapping of 2 ́-O-Methylation (Nm) Sites in Nanopore Direct RNA Sequencing Datasets

Doaa Hassan et al.Jan 4, 2022
Nm (2′-O-methylation) is one of the most abundant modifications of mRNAs and non-coding RNAs occurring when a methyl group (-CH3) is added to the 2´ hydroxyl (-OH) of the ribose moiety. This modification can appear on any nucleotide (base) regardless of the type of nitrogenous base, because each ribose sugar has a hydroxyl group and so 2′-O-methyl ribose can occur on any base. Nm modification has a great contribution in many biological processes such as the normal functioning of tRNA, the protection of mRNA against degradation by DXO, and the biogenesis and specificity of rRNA. Recently, the single-molecule sequencing techniques for long reads of RNA sequences data offered by Oxford Nanopore technologies have enabled the direct detection of RNA modifications on the molecule that is being sequenced, but to our knowledge there were only two research attempts that applied this technology to predict the stoichiometry of Nm-modified sites in RNA sequence of yeast cells and 2′-O-Me subtypes in Hek293 human cell line. To this end, in this paper, we extend this research direction by proposing a bio-computational framework, Nm-Nano for predicting the existence Nm sites in Nanopore direct RNA sequencing reads of human cell lines. Nm-Nano framework integrates two supervised machine learning (ML) models for predicting Nm sites in Nanopore direct RNA sequencing data, namely the Extreme Gradient Boosting (XGBoost) and Random Forest (RF) with k-mers embedding models. The XGBoost is trained with the features extracted from the modified and unmodified Nanopore signals and their corresponding K-mers resulting from the reported underlying RNA sequence obtained by base-calling, while RF model is trained with the same set of features used to train the XGBoost, in addition to a dense vector representation of RNA k-mers generated by word2vec technique. The results on two benchmark data sets generated from Nanopore RNA sequencing data of Hela and Hek293 human cell lines show a great performance of Nm-Nano. In integrated validation testing, Nm-Nano has been able to identify Nm sites with a high accuracy of 99% and 92% using XGBoost and RF with k-mers embedding models respectively by training each model on 50% of a combination of Hela and Hek293 benchmark datasets and testing it for identifying Nm sites on the remaining 50% of the same combination. Deploying Nm-Nano to predict Nm sites in Hela cell line revealed that a total of 125 genes were identified as the top frequently Nm-modified genes among all other genes that have been modified by Nm sites in this cell line. The functional and gene set enrichment analysis on these identified genes in Hela cell line shows several high confidences (adjusted p-val < 0.05) enriched ontologies that were more representative of Nm modification role in immune response and cellular processes like: "C3HC4-type 370 RING finger domain binding", "Antigen processing and presentation (class I MHC)", and 371 "cytoplasmic translational initiation". Similarly, deploying Nm-Nano to predict Nm sites in Hek293 cell line revealed that a total of 61 genes were identified as the top frequently Nm-modified genes in this cell line. The functional and gene set enrichment analysis on these identified genes shows a wide range of functional processes like: "Glycolysis/Gluconeogenesis", "Regulation of protein localization to cell sur- 364 face", and "Aggrephagy" being significantly enriched that highlights the diverse regulatory role of Nm modifications, from their involvement in metabolic pathways, protein degradation and localization. The source code of Nm-Nano can be freely accessed at https://github.com/Janga-Lab/Nm-Nano.
0

Diagnostic significance of latent membrane protein 1 (LMP-1), EMA, CD45, CD20 and CD3 in Epstein-Barr Virus-associated Nasopharyngeal Carcinoma

Eman Khalifa et al.May 22, 2024
Background: Nasopharyngeal carcinoma (NPC) is a squamous cell carcinoma which differ from other head and neck cancers and linked to the Epstein Barr virus (EBV) and its encoded oncoproteins, such as EBNA1 and LMP1.These viral oncogenes have been found to be an important factor in its pathogenesis. Objectives: To diagnose NPC and differentiate it from lymphoma, also to assess the expression pattern of LMP1 in the different histological types of NPC in a sample of the Egyptian population and to introduce serologic methods for screening and early detection of NPC. Results: Eighty-eight trans-nasal biopsies were examined. Carcinoma of the nasopharynx was detected in 79 of them. Of NPC patients 74/79 (93.6 %) showed positive test against IgA/ VCA. Late Membrane Protein was detected in 37/43(74 %) of cases of NPC tumor. Using histopathology as the gold standard for NPC, the sensitivity and specificity was 84% and 86% respectively with highly significant (p = 0.018). Epithelial membrane antigen was detected in 32/43 (64 %) NPC biopsies, the sensitivity and specificity was 72 % and 86 % respectively (p= 0.018). CD45 was positive in all 50 biopsies in the background leukocytes and negative in the tumor cells. Conclusion; Type III undifferentiated carcinoma is the commonest type of NPC. The antibodies to EBV-VCA IgA are of diagnostic value in early detection and are recommended for NPC screening at the population level.