SP
Sumeet Patiyal
Author with expertise in Prediction of Peptide-MHC Binding Affinity
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
30
(90% Open Access)
Cited by:
308
h-index:
16
/
i10-index:
24
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

AlgPred 2.0: an improved method for predicting allergenic proteins and mapping of IgE epitopes

Neelam Sharma et al.Oct 8, 2020
Abstract AlgPred 2.0 is a web server developed for predicting allergenic proteins and allergenic regions in a protein. It is an updated version of AlgPred developed in 2006. The dataset used for training, testing and validation consists of 10 075 allergens and 10 075 non-allergens. In addition, 10 451 experimentally validated immunoglobulin E (IgE) epitopes were used to identify antigenic regions in a protein. All models were trained on 80% of data called training dataset, and the performance of models was evaluated using 5-fold cross-validation technique. The performance of the final model trained on the training dataset was evaluated on 20% of data called validation dataset; no two proteins in any two sets have more than 40% similarity. First, a Basic Local Alignment Search Tool (BLAST) search has been performed against the dataset, and allergens were predicted based on the level of similarity with known allergens. Second, IgE epitopes obtained from the IEDB database were searched in the dataset to predict allergens based on their presence in a protein. Third, motif-based approaches like multiple EM for motif elicitation/motif alignment and search tool have been used to predict allergens. Fourth, allergen prediction models have been developed using a wide range of machine learning techniques. Finally, the ensemble approach has been used for predicting allergenic protein by combining prediction scores of different approaches. Our best model achieved maximum performance in terms of area under receiver operating characteristic curve 0.98 with Matthew’s correlation coefficient 0.85 on the validation dataset. A web server AlgPred 2.0 has been developed that allows the prediction of allergens, mapping of IgE epitope, motif search and BLAST search (https://webs.iiitd.edu.in/raghava/algpred2/).
0
Citation209
0
Save
0

Computing wide range of protein/peptide features from their sequence and structure

Akshara Pande et al.Apr 4, 2019
Abstract Motivation In last three decades, a wide range of protein descriptors/features have been discovered to annotate a protein with high precision. A wide range of features have been integrated in numerous software packages (e.g., PROFEAT, PyBioMed, iFeature, protr, Rcpi, propy) to predict function of a protein. These features are not suitable to predict function of a protein at residue level such as prediction of ligand binding residues, DNA interacting residues, post translational modification etc. Results In order to facilitate scientific community, we have developed a software package that computes more than 50,000 features, important for predicting function of a protein and its residues. It has five major modules for computing; composition-based features, binary profiles, evolutionary information, structure-based features and patterns. The composition-based module allows user to compute; i) simple compositions like amino acid, dipeptide, tripeptide; ii) Properties based compositions; iii) Repeats and distribution of amino acids; iv) Shannon entropy to measure the low complexity regions; iv) Miscellaneous compositions like pseudo amino acid, autocorrelation, conjoint triad, quasi-sequence order. Binary profile of amino acid sequences provides complete information including order of residues or type of residues; specifically, suitable to predict function of a protein at residue level. Pfeature allows one to compute evolutionary information-based features in form of PSSM profile generated using PSIBLAST. Structure based module allows computing structure-based features, specifically suitable to annotate chemically modified peptides/proteins. Pfeature also allows generating overlapping patterns and feature from whole protein or its parts (e.g., N-terminal, C-terminal). In summary, Pfeature comprises of almost all features used till now, for predicting function of a protein/peptide including its residues. Availability It is available in form of a web server, named as Pfeature ( https://webs.iiitd.edu.in/raghava/pfeature/ ), as well as python library and standalone package ( https://github.com/raghavagps/Pfeature ) suitable for Windows, Ubuntu, Fedora, MacOS and Centos based operating system.
0
Citation63
0
Save
0

GPSRdocker: A Docker-based Resource for Genomics, Proteomics and Systems biology

Piyush Agrawal et al.Nov 1, 2019
Abstract Background In past number of web-based resources has been developed in the field of Bioinformatics. These resources are heavily used by scientific community to provide solution for challenges faced by experimental researchers particularly in the field of biomedical sciences. There are number of challenges in utilizing full potential of these services that includes internet speed, limits on computing power, and security of data. In order to enhance utilities of these web-based assets, we developed a docker-based container that integrates large number resources available in literature. Results This paper describes GPSRdocker a docker-based container developed for providing wide-range of computational tools in the field of bioinformatics particularly in genomics, proteomics and system biology. Majority of tools integrated in GPSRdocker are based on web services developed at Raghava’s group in last two decades. Broadly, these tools can be categorized in three categories; i) general scripts, ii) supporting software and iii) major standalone software. In order to facilitate students or developers working in the field of bioinformatics, we developed general scripts in Perl and Python. These general-purpose scripts serve as building block for any bioinformatics tools like computing features/descriptors of a protein. Supporting software packages includes SCIKIT, WEKA, SVM light , and PSI-BLAST; these software packages allow one to develop/implement bioinformatics software. Major Standalone software is core of this container which allows predicting function/class of biomolecules. These tools can be classified broadly in following categories; protein annotation, epitope-based vaccines, prediction of interaction and drug discovery. Conclusion A docker-based container has been developed which can be easily run on any operating system as well as it can be directly ported on cloud. Scripts can be run to build pipelines for addressing problems at system level like prediction of vaccine candidate for a pathogen. GPSRdocker including manual is available free for academic use from https://webs.iiitd.edu.in/gpsrdocker .
0
Citation10
0
Save
11

Nfeature: A platform for computing features of nucleotide sequences

Megha Mathur et al.Dec 16, 2021
Abstract In the past few decades, public repositories on nucleotides have increased with exponential rates. This pose a major challenge to researchers to predict the structure and function of nucleotide sequences. In order to annotate function of nucleotide sequences it is important to compute features/attributes for predicting function of these sequences using machine learning techniques. In last two decades, several software/platforms have been developed to elicit a wide range of features for nucleotide sequences. In order to complement the existing methods, here we present a platform named Nfeature developed for computing wide range of features of DNA and RNA sequences. It comprises of three major modules namely Composition, Correlation, and Binary profiles. Composition module allow to compute different type of compositions that includes mono-/di-tri-nucleotide composition, reverse complement composition, pseudo composition. Correlation module allow to compute various type of correlations that includes auto-correlation, cross-correlation, pseudo-correlation. Similarly, binary profile is developed for computing binary profile based on nucleotides, mono-nucleotides, di-/tri-nucleotide properties. Nfeature also allow to compute entropy of sequences, repeats in sequences and distribution of nucleotides in sequences. In addition to compute feature in whole sequence, it also allows to compute features from part of sequence like split, start, end, and rest. In a nutshell, Nfeature amalgamates existing features as well as number of novel features like nucleotide repeat index, distance distribution, entropy, binary profile, and properties. This tool computes a total of 29217 and 14385 features for DNA and RNA sequence, respectively. In order to provide, a highly efficient and userfriendly tool, we have developed a standalone package and web-based platform ( https://webs.iiitd.edu.in/raghava/nfeature ).
11
Citation8
0
Save
18

DBpred: A deep learning method for the prediction of DNA interacting residues in protein sequences

Sumeet Patiyal et al.Aug 6, 2021
Abstract DNA-protein interaction is one of the most crucial interactions in the biological system, which decide the fate of many processes such as transcription, regulation of gene expression, splicing, and many more. Though many computational approaches exist that can predict the DNA interacting residues from the protein sequences, there is still a significant opportunity for improvement in terms of performance and accessibility. In this study, we have downloaded the benchmark dataset from method hybridNAP and recently published method ProNA2020, for training and validation purposes, that comprise 864 and 308 proteins, respectively. We have implemented CD-HIT software to handle the redundancy with 30% identity, and left with 646 proteins for training and 46 proteins for validation purposes, in which the validation dataset do not share more than 30% of sequence identity with the training dataset. We have generated amino acid binary profiles, physicochemical-properties based binary profiles, PSSM profiles, and a combination of all profiles described as hybrid feature. 1D-CNN based model performed best as compared to other models for each set of features. The model developed using amino acid binary profile achieved AUROC of 0.83 and 0.74 for training and validation dataset. Using physicochemical properties based binary profile, model attained AUROC of 0.86 and 0.73 for training and validation dataset. Model generated using PSSM profile resulted in the better performance with AUROC 0.91 and 0.74 for training and validation dataset. And, model developed using hybrid of all features performed best with AUROC of 0.91, and 0.79 for training and validation dataset, respectively. We have compared our method’s performance with the current approach and shown improvements. We have included the best-performing models in the standalone and web server accessible at https://webs.iiitd.edu.in/raghava/dbpred . DBPred is an effective approach to predict the DNA interacting residues in the protein using its primary structure.
18
Citation7
0
Save
8

In-silico method for predicting infectious strains of Influenza A virus from its genome and protein sequences

Trinita Roy et al.Mar 21, 2022
Abstract Influenza A is a contagious viral disease responsible for four pandemics in the past and a major public health concern. Being zoonotic in nature, the virus can cross the species barrier and transmit from wild aquatic bird reservoirs to humans via intermediate hosts. Virus gradually undergoes host adaptive mutations in their genome and proteins, resulting in different strain s/vari ants which might spread virus from avians/mammals to humans. In this study, we have developed an in-silico models to identify infectious strains of Influenza A virus, which has the potential of getting transmitted to humans, from its whole genome/proteins. Firstly, machine learning based models were developed for predicting infectious strains using composition of 15 proteins of virus. Random Forest based model of protein Hemagglutinin, achieved maximum AUC 0.98 on validation data using dipeptide composition. Secondly, we obtained maximum AUC of 0.99 on validation dataset using one-hot-encoding features of each protein of virus. Thirdly, models build on DNA composition of whole genome of Influenza A, achieved maximum AUC 0.98 on validation dataset. Finally, a web-based service, named “FluSPred”( https://webs.iiitd.edu.in/raghava/fluspred/ ) has been developed which incorporate best 16 models (15 proteins and one based on genome) for prediction of infectious strains of virus. In addition, we provided standalone software for the prediction and scanning of infectious strains at large-scale (e.g., metagenomics) from genomic/proteomic data. We anticipate this tool will help researchers in prioritize high-risk viral strains of novel influenza virus possesses the capability to spread human to human, thereby being useful for pandemic preparedness and disease surveillance. Key Points Influenza A is a contagious viral disease responsible for four pandemics. Virus can cross species barrier and infect human beings. In silico models developed for predicting human infectious strains of virus. Models developed were build using 15 proteins and whole genome datasets. Webserver and standalone package for predicting and scanning of high-risk viral strains.
8
Citation2
0
Save
1

An ensemble method for designing phage-based therapy against bacterial infections

Suchet Aggarwal et al.Jun 2, 2022
Abstract Phage therapy is a viable alternative to antibiotics for treating microbial infections, particularly managing drug-resistant strains of bacteria. One of the major challenges in designing phage based therapy is to identify the most appropriate phage to treat a bacterial infection. In this study, an attempt has been made to predict phage-host interaction with high accuracy to identify the best virus for treating a bacterial infection. All models have been developed on a training dataset containing 826 phage host-interactions, whereas models have been evaluated on a validation dataset comprising 1201 phage-host interactions. Firstly, alignment based models have been developed using similarity between phage-phage (BLAST Phage ), host-host (BLAST Host ) and phage-CRISPR (CRISPR Pred ) where we achieved accuracy between 42.4%-66.2% for BLAST Phage , 55%-78.4% for BLAST Host , and 43.7%-80.2% for CRISPR Pred at five taxonomic levels. Secondly, alignment free models have been developed using machine learning techniques. Thirdly, hybrid models have been developed by integrating alignment-free models and similarity-score where we achieved maximum performance of (60.6%-93.5%). Finally, an ensemble model has been developed that combines hybrid and alignment based model. Our ensemble model achieved highest accuracy of 67.9%, 80.6%, 85.5%, 90%, 93.5% at Genus, Family, Order, Class and Phylum levels, which is better than existing methods. In order to serve the scientific community we have developed a webserver named PhageTB and standalone software package ( https://webs.iiitd.edu.in/raghava/phagetb/ ). Key Points Phage therapy provides an alternative to mange drug resistant strains of bacteria Prediction bacterial strains that can be treated by a given phage Alignment-based, alignment-free and ensemble models have been developed. Prediction of appropriate phage/virus that can lyse a given strain of bacteria. Webserver and standalone package provided to predict phage-host interactions.
1
Citation2
0
Save
4

Identification of Antigenic Regions Responsible for inducing Type 1 diabetes mellitus

Nishant Kumar et al.Jul 21, 2022
Abstract There are a number of antigens that induce autoimmune response against β-cells, leading to Type 1 diabetes mellitus (T1DM). Recently several antigen-specific immunotherapies have been developed to treat T1DM. Thus identification of T1DM associated peptides with antigenic regions or epitopes is important for peptide based-therapeutics (e.g., immunotherapeutic). In this study, for the first time an attempt has been made to develop a method for predicting, designing and scanning of T1DM associated peptides with high precision. We analyzed 815 T1DM associated peptides and observed that these peptides are not associated with a specific class of HLA alleles. Thus, HLA binder prediction methods are not suitable for predicting T1DM associated peptides. Firstly, we developed a similarity/alignment based method using BLAST and achieved a high probability of correct hits with poor coverage. Secondly, we developed an alignment free method using machine learning techniques and got maximum AUROC 0.89 using dipeptide composition. Finally, we developed a hybrid method that combines the strength of both alignment free and alignment based methods and achieve maximum AUROC 0.95 with MCC 0.81 on independent dataset. We developed a webserver “DMPPred” and standalone server, for predicting, designing and scanning of T1DM associated peptides ( https://webs.iiitd.edu.in/raghava/dmppred/ ). Key Points Prediction of peptides responsible for inducing immune system against β-cells Compilation and analysis of Type 1 diabetes associated HLA binders BLAST based similarity search against Type 1diabetes associated peptides Alignment free method using machine learning techniques and composition A hybrid method using alignment free and alignment based approach Author’s Biography Nishant Kumar is currently working as Ph.D. in Computational biology from Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India Sumeet Patiyal is currently working as Ph.D. in Computational biology from Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India Shubham Choudhury is currently working as Ph.D. in Computational biology from Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India Ritu Tomer is currently working as Ph.D. in Computational biology from Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India Anjali Dhall is currently working as Ph.D. in Computational Biology from Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India. Gajendra P. S. Raghava is currently working as Professor and Head of Department of Computational Biology, Indraprastha Institute of Information Technology, New Delhi, India.
4
Citation1
0
Save
4

Prediction of antibiotic resistant strains of bacteria from their beta-lactamases protein

Lubna Maryam et al.Jun 27, 2021
Abstract Number of beta-lactamase variants have ability to deactivate ceftazidime antibiotic, which is the most commonly used antibiotic for treating infection by Gram-negative bacteria. In this study an attempt has been made to develop a method that can predict ceftazidime resistant strains of bacteria from amino acid sequence of beta-lactamases. We obtained beta-lactamases proteins from the β-lactamase database, corresponding to 87 ceftazidime-sensitive and 112 ceftazidime-resistant bacterial strains. All models developed in this study were trained, tested, and evaluated on a dataset of 199 beta-lactamases proteins. We generate 9149 features for beta-lactamases using Pfeature and select relevant features using different algorithms in scikit-learn package. A wide range of machine learning techniques (like KNN, DT, RF, GNB, LR, SVC, XGB) has been used to develop prediction models. Our random forest-based model achieved maximum performance with AUROC of 0.80 on training dataset and 0.79 on the validation dataset. The study also revealed that ceftazidime-resistant beta-lactamases have amino acids with non-polar side chains in abundance. In contrast, ceftazidime-sensitive beta-lactamases have amino acids with polar side chains and charged entities in abundance. Finally, we developed a webserver “ABCRpred”, for the scientific community working in the era of antibiotic resistance to predict the antibiotic resistance/susceptibility of beta-lactamase protein sequences. The server is freely available at ( http://webs.iiitd.edu.in/raghava/abcrpred/ ). Key Points Ceftazidime is commonly used to treat infection caused by Gram-negative bacteria. Beta-lactamase is responsible for lysing ceftazidime, make it resistant to bacteria. Comparison of resistant and sensitive variants of beta-lactamase. Classification of sensitive and resistant strain of bacteria based on beta-lactamase. Prediction models have been developed using different machine learning techniques.
4
Citation1
0
Save
6

A highly accurate model for screening prostate cancer using propensity index panel of ten genes

Shreyansh Jain et al.Mar 22, 2021
Abstract Prostate-specific antigen (PSA) is a key biomarker, which is commonly used to screen patients of prostate cancer. There is a significant number of unnecessary biopsies that are performed every year, due to poor accuracy of PSA based biomarker. In this study, we identified alternate biomarkers based on gene expression that can be used to screen prostate cancer with high accuracy. All models were trained and test on gene expression profile of 500 prostate cancer and 51 normal samples. Numerous feature selection techniques have been used to identify potential biomarkers. These biomarkers have been used to develop various models using different machine learning techniques for predicting samples of prostate cancer. Our logistic regression-based model achieved highest AUROC 0.91 with accuracy 82.42% on validation dataset. We introduced a new approach called propensity index, where expression of gene is converted into propensity. Our propensitybased approach improved the performance of classification models significantly and achieved AUROC 0.99 with accuracy 96.36% on validation dataset. We also identified and ranked selected genes which can be used to discriminate prostate cancer patients from health individuals with high accuracy. It was observed that single gene-based biomarkers can only achieve accuracy around 90%. In this study, we got best performance using a panel of 10 genes; random forest model using propensity index. Highlights Application of Machine learning techniques to identify Biomarkers for PRAD cancer. Highly accurate models developed for classifying prostate cancer vs. normal sample. Introducing Propensity index concept for enhancing model performance. Top 10 genes identified using feature selection techniques.
6
Citation1
0
Save
Load More