RK
Rajesh Kumar
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
12
(67% Open Access)
Cited by:
90
h-index:
23
/
i10-index:
42
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Computing wide range of protein/peptide features from their sequence and structure

Akshara Pande et al.Apr 4, 2019
Abstract Motivation In last three decades, a wide range of protein descriptors/features have been discovered to annotate a protein with high precision. A wide range of features have been integrated in numerous software packages (e.g., PROFEAT, PyBioMed, iFeature, protr, Rcpi, propy) to predict function of a protein. These features are not suitable to predict function of a protein at residue level such as prediction of ligand binding residues, DNA interacting residues, post translational modification etc. Results In order to facilitate scientific community, we have developed a software package that computes more than 50,000 features, important for predicting function of a protein and its residues. It has five major modules for computing; composition-based features, binary profiles, evolutionary information, structure-based features and patterns. The composition-based module allows user to compute; i) simple compositions like amino acid, dipeptide, tripeptide; ii) Properties based compositions; iii) Repeats and distribution of amino acids; iv) Shannon entropy to measure the low complexity regions; iv) Miscellaneous compositions like pseudo amino acid, autocorrelation, conjoint triad, quasi-sequence order. Binary profile of amino acid sequences provides complete information including order of residues or type of residues; specifically, suitable to predict function of a protein at residue level. Pfeature allows one to compute evolutionary information-based features in form of PSSM profile generated using PSIBLAST. Structure based module allows computing structure-based features, specifically suitable to annotate chemically modified peptides/proteins. Pfeature also allows generating overlapping patterns and feature from whole protein or its parts (e.g., N-terminal, C-terminal). In summary, Pfeature comprises of almost all features used till now, for predicting function of a protein/peptide including its residues. Availability It is available in form of a web server, named as Pfeature ( https://webs.iiitd.edu.in/raghava/pfeature/ ), as well as python library and standalone package ( https://github.com/raghavagps/Pfeature ) suitable for Windows, Ubuntu, Fedora, MacOS and Centos based operating system.
0
Citation63
0
Save
6

In silico model for predicting IL-2 inducing peptides in human

Anjali Lathwal et al.Jun 20, 2021
Abstract Interleukin-2 (IL-2) based immunotherapy has been already approved to treat certain type of cancers as it plays vital role in immune system. Thus it is important to discover new peptides or epitopes that can induce IL-2 with high efficiency. We analyzed experimentally validated IL-2 inducing and non-inducing peptides and observed differ in average amino acid composition, motifs, length, and positional preference of amino acid residues at the N- and C-terminus. In this study, 2528 IL-2 inducing and 2104 non-IL-2 inducing peptides have been used for traning, testing, traing and validation of our models. A large number of machine learning techniques and around 10,000 peptide features have been used for developing prediction models. The Random Forest-based model using hybrid features achieved a maximum accuracy of 73.25%, with AUC of 0.73 on the training set; accuracy of 72.89% with AUC of 0.72 on validation dataset. A web-server IL2pred has been developed for predicting IL-2 inducing peptides, scanning IL-inducing regions in a protein and designing IL-2 specific epitopes by ranking peptide analogs ( https://webs.iiitd.edu.in/raghava/il2pred/ ).
0

GPSRdocker: A Docker-based Resource for Genomics, Proteomics and Systems biology

Piyush Agrawal et al.Nov 1, 2019
Abstract Background In past number of web-based resources has been developed in the field of Bioinformatics. These resources are heavily used by scientific community to provide solution for challenges faced by experimental researchers particularly in the field of biomedical sciences. There are number of challenges in utilizing full potential of these services that includes internet speed, limits on computing power, and security of data. In order to enhance utilities of these web-based assets, we developed a docker-based container that integrates large number resources available in literature. Results This paper describes GPSRdocker a docker-based container developed for providing wide-range of computational tools in the field of bioinformatics particularly in genomics, proteomics and system biology. Majority of tools integrated in GPSRdocker are based on web services developed at Raghava’s group in last two decades. Broadly, these tools can be categorized in three categories; i) general scripts, ii) supporting software and iii) major standalone software. In order to facilitate students or developers working in the field of bioinformatics, we developed general scripts in Perl and Python. These general-purpose scripts serve as building block for any bioinformatics tools like computing features/descriptors of a protein. Supporting software packages includes SCIKIT, WEKA, SVM light , and PSI-BLAST; these software packages allow one to develop/implement bioinformatics software. Major Standalone software is core of this container which allows predicting function/class of biomolecules. These tools can be classified broadly in following categories; protein annotation, epitope-based vaccines, prediction of interaction and drug discovery. Conclusion A docker-based container has been developed which can be easily run on any operating system as well as it can be directly ported on cloud. Scripts can be run to build pipelines for addressing problems at system level like prediction of vaccine candidate for a pathogen. GPSRdocker including manual is available free for academic use from https://webs.iiitd.edu.in/gpsrdocker .
0
Citation10
0
Save
12

Subtyping of Small Cell Lung Cancer using plasma cell-free nucleosomes

Gavriel Fialkoff et al.Jun 27, 2022
Abstract Small cell lung cancer (SCLC) is an aggressive malignancy with exceptionally poor prognosis and limited therapeutic advances in the past few decades. Although SCLCs are treated as a single disease entity in clinic, emerging data support subtypes of SCLC driven by expression of distinct transcription regulators, which engender unique therapeutic vulnerabilities. However, the translational potential of these observations is limited by access to tumor biopsies. Here, we apply chromatin immunoprecipitation of cell-free nucleosomes carrying active chromatin modifications followed by sequencing (cfChIP-seq) to 286 plasma samples from patients with advanced SCLC, non-SCLC cancers, and healthy adults. In addition to providing reliable estimates of SCLC circulating free DNA (cfDNA) tumor fraction, cfChIP-seq recovers the unique epigenetic states of SCLC tissue and cells of origin, and importantly tumor gene expression. Comparison of cfChIP-seq signals to matched tumor transcriptomes shows genome-wide concordance presenting a direct link between gene expression in the tumor and plasma cell-free nucleosomes. We devise a classifier that discriminates between SCLC lineage-defining transcription factor subtypes based on cfChIP-seq assay. This work sets the stage to non-invasively profile SCLC transcriptomes using plasma cfDNA histone modifications.
12
Citation3
0
Save
0

A Genome-wide Association and Admixture Mapping Study of Bronchodilator Drug Response in African Americans with Asthma

Melissa Spear et al.Jun 28, 2017
Abstract Background Short-acting B 2 -adrenergic receptor agonists (SABAs) are the most commonly prescribed asthma medications worldwide. Response to SABAs is measured as bronchodilator drug response (BDR), which varies among racial/ethnic groups in the U.S 1, 2 . However, the genetic variation that contributes to BDR is largely undefined in African Americans with asthma 3 Objective To identify genetic variants that may contribute to differences in BDR in African Americans with asthma. Methods We performed a genome-wide association study of BDR in 949 African American children with asthma, genotyped with the Axiom World Array 4 (Affymetrix, Santa Clara, CA) followed by imputation using 1000 Genomes phase 3 genotypes. We used linear regression models adjusting for age, sex, body mass index and genetic ancestry to test for an association between BDR and genotype at single nucleotide polymorphisms (SNPs). To increase power and distinguish between shared vs. population-specific associations with BDR in children with asthma, we performed a meta-analysis across 949 African Americans and 1,830 Latinos (Total=2,779). Lastly, we performed genome-wide admixture mapping to identify regions whereby local African or European ancestry is associated with BDR in African Americans. Two additional populations of 416 Latinos and 1,325 African Americans were used to replicate significant associations. Results We identified a population-specific association with an intergenic SNP on chromosome 9q21 that was significantly associated with BDR (rs73650726, p=7.69 × 10 −9 ). A trans-ethnic meta-analysis across African Americans and Latinos identified three additional SNPs within the intron of PRKG1 that were significantly associated with BDR (rs7903366, rs7070958, and rs7081864, p≤5 × 10 −8 ). Conclusions Our findings indicate that both population specific and shared genetic variation contributes to differences in BDR in minority children with asthma, and that the genetic underpinnings of BDR may differ between racial/ethnic groups. Key messages A GWAS for BDR in African American children with asthma identified an intergenic population specific variant at 9q21 to be associated with increased bronchodilator drug response (BDR). A meta-analysis of GWAS across African Americans and Latinos identified shared genetic variants at 10q21 in the intron of PRKG1 to be associated with differences in BDR. Further genetic studies need to be performed in diverse populations to identify the full set of genetic variants that contribute to BDR.
0
Citation2
0
Save
4

Refinement of Draft Genome Assemblies of Pigeonpea (Cajanus cajan)

Soma Marla et al.Aug 10, 2020
Abstract Genome assembly of short reads from large plant genomes remains a challenge in computational biology despite major developments in Next Generation sequencing. Of late multiple draft assemblies of plant genomes are reported in many organisms. The draft assemblies of Cajanus cajan are with different levels of genome completeness; contain large number of repeats, gaps and segmental duplications. Draft assemblies with portions of genome missing, are shorter than the referenced original genome. These assemblies come with low map accuracy affecting further functional annotation and prediction of gene component as desired by crop researchers. Genome coverage i.e. number of sequenced raw reads mapped on to certain locations of the genome is an important quality indicator of completeness and assembly quality in draft assemblies. Present work was aimed at improvement of coverage in reported de novo sequenced draft genomes (GCA_000340665.1 and GCA_000230855.2) of Pigeonpea, a legume widely cultivated in India. The two assemblies comprised 72% and 75% of estimated coverage of genome respectively. We employed assembly reconciliation approach to compare draft assemblies and merged them to generate a high quality near complete assembly with enhanced contiguity. Finished assembly has reduced number of gaps than reported in draft assemblies and improved genome coverage of 82.4%. Quality of the finished assembly was evaluated using various quality metrics and for presence of specific trait related functional genes. Employed pair-end and mate-pair local library data sets enabled to resolve gaps, repeats and other sequence errors yielding lengthier scaffolds compared to two draft assemblies. We report prediction of putative host resistance genes from improved sequence against Fusarium wilt disease and evaluated them in both wet laboratory and field phenotypic conditions.
4
Citation1
0
Save
0

HumCFS: A database of fragile sites in human chromosomes

Rajesh Kumar et al.Dec 8, 2017
Genomic instability is the hallmark of cancer and several other pathologies, such as mental retardation; preferentially occur at specific loci in genome known as chromosomal fragile sites. HumCFS (http://webs.iiitd.edu.in/raghava/humcfs/) is a manually curated database provides comprehensive information on 118 experimentally characterized fragile sites present in human chromosomes. HumCFS comprises of 19068 entries with wide range of information such as nucleotide sequence of fragile sites, their length, coordinates on the chromosome, cytoband, their inducers and possibility of fragile site occurrence i.e. either rare or common etc. Each fragile region gene is further annotated to disease database DisGenNET, to understand its disease association. Protein coding genes are identified by annotating each fragile site to UCSC genome browser (GRCh38/hg38). To know the extent of miRNA lying in fragile site region, miRNA from miRBase has been mapped. Comprehensively, HumCFS encompasses mapping of 5010 genes with 19068 transcripts, 1104 miRNA and 3737 disease-associated genes on fragile sites. In order to facilitate users, we integrate standard web-based tools for easy data retrieval and analysis.
0

Novel genetic determinants of telomere length from a multi-ethnic analysis of 75,000 whole genome sequences in TOPMed

Margaret Taub et al.Sep 4, 2019
Telomeres shorten in replicating somatic cells and with age; in human leukocytes, telomere length (TL) is associated with a host of aging-related diseases. To date, 16 genome-wide association studies (GWAS) have identified twenty-three loci associated with leukocyte TL, but prior studies were primarily in individuals of European and Asian ancestry and relied on laboratory assays including Southern Blot and qPCR to quantify TL. Here, we estimated TL bioinformatically, leveraging whole genome sequencing (WGS) of whole blood from n=75,176 subjects in the Trans-Omics for Precision Medicine (TOPMed) Program. We performed the largest multi-ethnic and only WGS-based genome-wide association analysis of TL to date. We identified 22 associated loci (p-value <5x10-8), including 10 novel loci. Three of the novel loci map to genes involved in telomere maintenance and/or DNA damage repair: TERF2, RFWD3, and SAMHD1. Many of the 99 pathways identified in gene set enrichment analysis for the 22 loci (multiple-testing corrected false discovery rate (FDR) <0.05) pertain to telomere biology, including the top five (FDR<1x10-9). Importantly, several loci, including the recently identified TINF2 and ATM loci, showed strong ancestry-specific associations.
0

OvirusTdb: A Repository of Oncolytic Viruses used in Cancer Treatment

Anjali Lathwal et al.Jan 9, 2020
One of the emerging technologies to fight against cancer is oncolytic virus-based immunotherapy which directly lysis tumor cells. Recently, the FDA approved an oncolytic virus named T-vec for the treatment of melanoma; several hundred other viruses are in clinical trials. In order to facilitate the scientific community to fight against cancer, we build a repository of oncolytic viruses called OvirusTdb (https://webs.iiitd.edu.in/raghava/ovirustdb/). This is a manually curated repository where information is curated from research papers and patents. The current version of the repository maintains comprehensive information on therapeutically important oncolytic viruses with 5927 records where each record has 25 fields such as the virus species, cancer cell line, synergism with anti-cancer drugs, and many more. It stores information on 09 types of DNA and 15 types of RNA viruses; 300 recombinant and 09 wildtype viral strains; tested against 124 cancer types and 427 cancer cell lines. Approximately, 1047 records show improved anti-cancer response using combinatorial approach of chemotherapeutic agents with virus strains. Nearly, 3243 and 1506 records show cancer cell death via apoptosis induction and immune activation, respectively. In summary, a user-friendly web repository of oncolytic viruses for information retrieval and analysis have been developed to facilitate researchers in designing and discovering new oncolytic viruses for effective cancer treatment.
Load More