ÖT
Öznur Taştan
Author with expertise in Analysis of Gene Interaction Networks
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
19
(47% Open Access)
Cited by:
9
h-index:
17
/
i10-index:
22
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

PHACTboost: A Phylogeny-aware Pathogenicity Predictor for the Missense Mutations via Boosting

Onur Dereli et al.Jun 26, 2024
Most algorithms that are used to predict the effects of variants rely on evolutionary conservation. However, a majority of such techniques compute evolutionary conservation by solely using the alignment of multiple sequences while overlooking the evolutionary context of substitution events. We had introduced PHACT, a scoring-based pathogenicity predictor for missense mutations that can leverage phylogenetic trees, in our previous study. By building on this foundation, we now propose PHACTboost, a gradient boosting tree-based classifier that combines PHACT scores with information from multiple sequence alignments, phylogenetic trees, and ancestral reconstruction. By learning from data, PHACTboost outperforms PHACT. Furthermore, the results of comprehensive experiments on carefully constructed sets of variants demonstrated that PHACTboost can outperform 40 prevalent pathogenicity predictors reported in the dbNSFP, including conventional tools, metapredictors, and deep learning-based approaches as well as more recent tools such as AlphaMissense, EVE, and CPT-1. The superiority of PHACTboost over these methods was particularly evident in case of hard variants for which different pathogenicity predictors offered conflicting results. We provide predictions of 215 million amino acid alterations over 20,191 proteins. PHACTboost is available at https://github.com/CompGenomeLab/PHACTboost. PHACTboost can improve our understanding of genetic diseases and facilitate more accurate diagnoses.
0
Citation1
0
Save
0

DeepKinZero: Zero-Shot Learning for Predicting Kinase-Phosphosite Associations Involving Understudied Kinases

Iman Deznabi et al.Jun 13, 2019
Protein phosphorylation is a key regulator of protein function in signal transduction pathways. Kinases are the enzymes that catalyze the phosphorylation of other proteins in a target specific manner. The dysregulation of phosphorylation is associated with many diseases including cancer. Although the advances in phosphoproteomics enable the identification of phosphosites at the proteome level, most of the phosphoproteome is still in the dark: more than 95% of the reported human phosphosites have no known kinases. Determining which kinase is responsible for phosphorylating a site remains an experimental challenge. Existing computational methods require several examples of known targets of a kinase to make accurate kinase specific predictions, yet for a large body of kinases, only a few or no target sites are reported. We present DeepKinZero, the first zero-shot learning approach to predict the kinase acting on a phosphosite for kinases with no known phosphosite information. DeepKinZero transfers knowledge from kinases with many known target phosphosites to those kinases with no known sites through a zero-shot learning model. The kinase specific positional amino acid preferences are learned using a bidirectional recurrent neural network. We show that DeepKinZero achieves significant improvement in accuracy for kinases with no known phosphosites in comparison to the baseline model and other methods available. By expanding our knowledge on understudied kinases, DeepKinZero can help to chart the phosphoproteome atlas.
0

Potpourri: An Epistasis Test Prioritization Algorithm via Diverse SNP Selection

Gizem Çaylak et al.Nov 4, 2019
Genome-wide association studies explain a fraction of the underlying heritability of genetic diseases. Investigating epistatic interactions between two or more loci help closing this gap. Unfortunately, sheer number of loci combinations to process and hypotheses to test prohibit the process both computationally and statistically. Epistasis test prioritization algorithms rank likely-epistatic SNP pairs to limit the number of tests. Yet, they still suffer from very low precision. It was shown in the literature that selecting SNPs that are individually correlated with the phenotype and also diverse with respect to genomic location, leads to better phenotype prediction due to genetic complementation. Here, we propose that an algorithm that pairs SNPs from such diverse regions and ranks them can improve prediction power. We propose an epistasis test prioritization algorithm which optimizes a submodular set function to select a diverse and complementary set of genomic regions that span the underlying genome. SNP pairs from these regions are then further ranked w.r.t. their co-coverage of the case cohort. We compare our algorithm with the state-of-the-art on three GWAS and show that (i) we substantially improve precision (from 0.003 to 0.652) while maintaining the significance of selected pairs, (ii) decrease the number of tests by 25 folds, and (iii) decrease the runtime by 4 folds. We also show that promoting SNPs from regulatory/coding regions improves the performance (up to 0.8). Potpourri is available at [http:/ciceklab.cs.bilkent.edu.tr/potpourri][1]. [1]: http://ciceklab.cs.bilkent.edu.tr/potpourri
0

NoRCE: Non-coding RNA Sets Cis Enrichment Tool

Gülden Olgun et al.Jun 7, 2019
While some non-coding RNAs (ncRNAs) have been found to play critical regulatory roles in biological processes, most remain functionally uncharacterized. This presents a challenge whenever an interesting set of ncRNAs set needs to be analyzed in a functional context. Transcripts located close-by on the genome are often regulated together, and this spatial proximity hints at a functional association. Based on this idea, we present an R package, NoRCE, that performs cis enrichment analysis for a given set of ncRNAs. Enrichment is carried out by using the functional annotations of the coding genes located proximally to the input ncRNAs. NoRCE allows incorporating other biological information such as the topologically associating domain (TAD) regions, co-expression patterns, and miRNA target information. NoRCE repository includes several data files, such as cell line specific TAD regions, functional gene sets, and cancer expression data. Additionally, users can input custom data files. Results can be retrieved in a tabular format or viewed as graphs. NoRCE is currently available for the following species: human, mouse, rat, zebrafish, fruit fly, worm and yeast. Availability and Implementation: NoRCE R package is platform independent, available at https://github.com/guldenolgun/NoRCE and Bioconductor.
4

DeepCrossCancer Identifies Similar Cancer Patients Across Cancers

Duygu Ay et al.Jan 17, 2021
The treatment decisions for a cancer patient are typically based on the patient's diagnosed cancer type. With the characterization of cancer tumors at the molecular level, there have been reports of patients that bear molecular similarities to other patients that are diagnosed with other cancer types. Motivated from these observations, we aim at discovering cross-cancer patients, which we define as patients whose tumors are more similar to patient tumors diagnosed with another cancer type. Our framework, DeepCrossCancer, identifies a core set of cross-cancer patients that always co-cluster with the other patient from another cancer type. The input to DeepCrossCancer is the transcriptomic profiles of the patient tumors, the age, and gender of the patient. To solve the clustering problem, we propose a semi-supervised deep learning-based clustering method in which the clustering task is supervised by cancer type labels and the survival times of the patients. Applying the method to patient data from nine different cancers, we discover 20 cross-cancer patients. By analyzing the predictive genes of the cross-cancer patients and other genomic information available for the patient such as somatic mutations and copy number variations, we identify striking similarities across these patients validating their similarities. The detection of cross-cancer patients opens up possibilities for transferring clinical decisions across patients at a single patient level. DeepCrossCancer is available at https://github.com/Tastanlab/DeepCrossCancer.
0

miRCoop: Identifying Cooperating miRNAs via Kernel Based Interaction Tests

Gülden Olgun et al.Sep 14, 2019
Although miRNAs can cause widespread changes in expression programs, single miRNAs typically induce mild repression on their targets. Cooperativity is reported as one strategy to overcome this constraint. Expanding the catalog of synergistic miRNAs is critical for understanding gene regulation and for developing miRNA-based therapeutics. In this study, we develop miRCoop to identify synergistic miRNA pairs that have weak or no repression on the target mRNA, but when bound together, induce strong repression. miRCoop uses kernel-based interaction tests together with miRNA and mRNA target information. We apply our approach to kidney tumor patient data and identify 66 putative triplets. For 64 of these triplets, there is at least one common transcription factor that potentially regulates all participating RNAs of the triplet, supporting a functional association among them. Furthermore, we find that triplets are enriched for certain biological processes that are relevant to kidney cancer. Some of the synergistic miRNAs are very closely encoded in the genome, hinting a functional association among them. We believe miRCoop can aid our understanding of the complex regulatory interactions in different health and disease states of the cell and can help in designing miRNA-based therapies. Matlab code for the methodology is provided in .
0

DeepSide: A Deep Learning Framework for Drug Side Effect Prediction

Onur Üner et al.Nov 18, 2019
Drug failures due to unforeseen adverse effects at clinical trials pose health risks for the participants and lead to substantial financial losses. Side effect prediction algorithms have the potential to guide the drug design process. LINCS L1000 dataset provides a vast resource of cell line gene expression data perturbed by different drugs and creates a knowledge base for context specific features. The state-of-the-art approach that aims at using context specific information relies on only the high-quality experiments in LINCS L1000 and discards a large portion of the experiments. In this study, our goal is to boost the prediction performance by utilizing this data to its full extent. We experiment with 5 deep learning architectures. We find that a multi-modal architecture produces the best predictive performance among multi-layer perceptron-based architectures when drug chemical structure (CS), and the full set of drug perturbed gene expression profiles (GEX) are used as modalities. Overall, we observe that the CS is more informative than the GEX. A convolutional neural network-based model that uses only SMILES string representation of the drugs achieves the best results and provides 13.0\% macro-AUC and 3.1% micro-AUC improvements over the state-of-the-art. We also show that the model is able to predict side effect-drug pairs that are reported in the literature but was missing in the ground truth side effect dataset. DeepSide is available at http://github.com/OnurUner/DeepSide.
1

SUMOnet: Deep Sequential Prediction of SUMOylation Sites

Berke Dilekoglu et al.Aug 25, 2023
Abstract SUMOylation is a reversible post-translational protein modification in which SUMOs (small ubiquitin-like modifiers) covalently attach to a specific lysine residue of the target protein. This process is vital for many cellular events. Aberrant SUMOylation is associated with several diseases, including Alzheimer’s, cancer, and diabetes. Therefore, accurate identification of SUMOylation sites is essential to understanding cellular processes and pathologies that arise with their disruption. We present three deep neural architectures, SUMOnets, that take the peptide sequence centered on the candidate SUMOylation site as input and predict whether the lysine could be SUMOylated. Each of these models, SUMOnet-1, -2, and -3 relies on different compositions of deep sequential learning architectural units, such as bidirectional Gated Recurrent Units(biGRUs) and convolutional layers. We evaluate these models on the benchmark dataset with three different input peptide representations of the input sequence. SUMOnet-3 achieves 75.8% AUPR and 87% AUC scores, corresponding to approximately 5% improvement over the closest state-of-the-art SUMOylation predictor and 16% improvement over GPS-SUMO, the most widely adopted tool. We also evaluate models on a challenging subset of the test data formed based on the absence and presence of known SUMOylation motifs. Even though the performances of all methods degrade in these cases, SUMOnet-3 remains the best predictor in these challenging cases. Availability and Implementation The SUMOnet-3 framework is available as an open-source project and a Python library at https://github.com/berkedilekoglu/SUMOnet .
8

Uncovering complementary sets of variants for predicting quantitative phenotypes

Serhan Yılmaz et al.Dec 12, 2020
Abstract Motivation Genome-wide association studies show that variants in individual genomic loci alone are not sufficient to explain the heritability of complex, quantitative phenotypes. Many computational methods have been developed to address this issue by considering subsets of loci that can collectively predict the phenotype. This problem can be considered a challenging instance of feature selection in which the number of dimensions (loci that are screened) is much larger than the number of samples. While currently available methods can achieve decent phenotype prediction performance, they either do not scale to large datasets or have parameters that require extensive tuning. Results We propose a fast and simple algorithm, Macarons, to select a small, complementary subset of variants by avoiding redundant pairs that are in linkage disequilibrium. Our method features two interpretable parameters that control the time/performance trade-off without requiring parameter tuning. In our computational experiments, we show that Macarons consistently achieves similar or better prediction performance than state-of-the-art selection methods while having a simpler premise and being at least 2 orders of magnitude faster. Overall, Macarons can seamlessly scale to the human genome with ~10 7 variants in a matter of minutes while taking the dependencies between the variants into account. Conclusion Macarons can offer a reasonable trade-off between phenotype predictivity, runtime and the complementarity of the selected subsets. The framework we present can be generalized to other high-dimensional feature selection problems within and beyond biomedical applications. Availability Macarons is implemented in Matlab and the source code is available at: https://github.com/serhan-yilmaz/macarons
Load More