AS
Alok Sharma
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
14
(79% Open Access)
Cited by:
954
h-index:
52
/
i10-index:
136
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Efficient vector quantization of LPC parameters at 24 bits/frame

Alok Sharma et al.Jan 1, 1993
B
A
For low bit rate speech coding applications, it is important to quantize the LPC parameters accurately using as few bits as possible. Though vector quantizers are more efficient than scalar quantizers, their use for accurate quantization of linear predictive coding (LPC) information (using 24-26 bits/frame) is impeded by their prohibitively high complexity. A split vector quantization approach is used here to overcome the complexity problem. An LPC vector consisting of 10 line spectral frequencies (LSFs) is divided into two parts, and each part is quantized separately using vector quantization. Using the localized spectral sensitivity property of the LSF parameters, a weighted LSF distance measure is proposed. With this distance measure, it is shown that the split vector quantizer can quantize LPC information in 24 bits/frame with an average spectral distortion of 1 dB and less than 2% of the frames having spectral distortion greater than 2 dB. The effect of channel errors on the performance of this quantizer is also investigated and results are reported.< >
0

Improving prediction of secondary structure, local backbone angles and solvent accessible surface area of proteins by iterative deep learning

Rhys Heffernan et al.Jun 22, 2015
+6
J
K
R
Abstract Direct prediction of protein structure from sequence is a challenging problem. An effective approach is to break it up into independent sub-problems. These sub-problems such as prediction of protein secondary structure can then be solved independently. In a previous study, we found that an iterative use of predicted secondary structure and backbone torsion angles can further improve secondary structure and torsion angle prediction. In this study, we expand the iterative features to include solvent accessible surface area and backbone angles and dihedrals based on Cα atoms. By using a deep learning neural network in three iterations, we achieved 82% accuracy for secondary structure prediction, 0.76 for the correlation coefficient between predicted and actual solvent accessible surface area, 19° and 30° for mean absolute errors of backbone φ and ψ angles, respectively and 8° and 32° for mean absolute errors of Cα-based θ and τ angles, respectively, for an independent test dataset of 1199 proteins. The accuracy of the method is slightly lower for 72 CASP 11 targets but much higher than those of model structures from current state-of-the-art techniques. This suggests the potentially beneficial use of these predicted properties for model assessment and ranking.
0

FEATS: Feature selection based clustering of single-cell RNA-seq data

Edwin Vans et al.Jul 14, 2020
A
A
E
ABSTRACT Advances in next-generation sequencing (NGS) have made it possible to carry out transcriptomic studies at single-cell resolution and generate vast amounts of single-cell RNA-seq data rapidly. Thus, tools to analyze this data need to evolve as well to improve accuracy and efficiency. We present FEATS, a python software package that performs clustering on single-cell RNA-seq data. FEATS is capable of performing multiple tasks such as estimating the number of clusters, conducting outlier detection, and integrating data from various experiments. We develop a univariate feature selection based approach for clustering, which involves the selection of top informative features to improve clustering performance. This is motivated by the fact that cell types are often manually determined using the expression of only a few known marker genes. On a variety of single-cell RNA-seq datasets, FEATS gives superior performance compared to the current tools, in terms of adjusted rand index (ARI) and estimating the number of clusters. In addition to cluster estimation, FEATS also performs outlier detection and data integration while giving an excellent computational performance. Thus, FEATS is a comprehensive clustering tool capable of addressing the challenges during the clustering of single-cell RNA-seq data. The installation instructions and documentation of FEATS is available at https://edwinv87.github.io/feats/ .
7

DeepInsight-3D for precision oncology: an improved anti-cancer drug response prediction from high-dimensional multi-omics data with convolutional neural networks

Alok Sharma et al.Jul 16, 2022
T
K
A
A
Abstract Modern oncology offers a wide range of treatments and therefore choosing the best option for particular patient is very important for optimal outcomes. Multi-omics profiling in combination with AI-based predictive models have great potential for streamlining these treatment decisions. However, these encouraging developments continue to be hampered by very high dimensionality of the datasets in combination with insufficiently large numbers of annotated samples. In this study, we propose a novel deep learning-based method to predict patient-specific anticancer drug response from three types of multiomics data. The proposed DeepInsight-3D approach relies on structured data-to-image conversion that then allows use of convolutional neural networks, which are particularly robust to high dimensionality of the inputs while retaining capabilities to model highly complex relationships between variables. Of particular note, we demonstrate that in this formalism additional channels of an image can be effectively used to accommodate data from different ‘omics layers while explicitly encoding the connection between them. DeepInsight-3D was able to outperform two other state-of-the-art methods proposed for this task. These advances can facilitate the development of better personalized treatment strategies for different cancers in the future.
5

DeepInsight-FS: Selecting features for non-image data using convolutional neural network

Alok Sharma et al.Sep 19, 2020
+2
K
A
A
Abstract Identifying smaller element or gene subsets from biological or other data types is an essential step in discovering underlying mechanisms. Statistical machine learning methods have played a key role in revealing gene subsets. However, growing data complexity is pushing the limits of these techniques. A review of the recent literature shows that arranging elements by similarity in image-form for a convolutional neural network (CNN) improves classification performance over treating them individually. Expanding on this, here we show a pipeline, DeepInsight-FS, to uncover gene subsets of clinical relevance. DeepInsight-FS converts non-image samples into image-form and performs element selection via CNN. To our knowledge, this is the first approach to employ CNN for element or gene selection on non-image data. A real world application of DeepInsight-FS to publicly available cancer data identified gene sets with significant overlap to several cancer-associated pathways suggesting the potential of this method to discover biomedically meaningful connections.
7

DRPBind: prediction of DNA, RNA and protein binding residues in intrinsically disordered protein sequences

Ronesh Sharma et al.Mar 23, 2023
A
T
R
DRPbind predicts three components: deoxyribonucleic acid (DNA) binding, ribonucleic acid (RNA) binding and protein-binding residues of query protein sequences. DRPbind utilizes independent sources of information encoded for each component predictor and relies on the information-rich profiles of protein evolutionary-based features, protein physicochemical-based features, and protein structural-based features. DRPbind employs protein profile-based features extracted from the bigrams of PSSM and HMM profiles. It also extracts features from physicochemical and structural attributes. DRPbind takes primary protein sequences as input, and through the Support Vector Machine (SVM) classifier, it provides the binding prediction. DRPbind is optimized based on a specific binding type and shown superior performance in terms of simultaneously predicting the DNA-binding, RNA-binding and protein-binding residues. The source code is available at https://github.com/roneshsharma/DNA-RNA-Protein-Binding/wiki
1

Multi-representation DeepInsight: an improvement on tabular data analysis

Alok Sharma et al.Aug 5, 2023
+3
S
Y
A
Abstract Tabular data analysis is a critical task in various domains, enabling us to uncover valuable insights from structured datasets. While traditional machine learning methods have been employed for feature engineering and dimensionality reduction, they often struggle to capture the intricate relationships and dependencies within real-world datasets. In this paper, we present Multi-representation DeepInsight (abbreviated as MRep-DeepInsight), an innovative extension of the DeepInsight method, specifically designed to enhance the analysis of tabular data. By generating multiple representations of samples using diverse feature extraction techniques, our approach aims to capture a broader range of features and reveal deeper insights. We demonstrate the effectiveness of MRep-DeepInsight on single-cell datasets, Alzheimer’s data, and artificial data, showcasing an improved accuracy over the original DeepInsight approach and machine learning methods like random forest and L2-regularized logistic regression. Our results highlight the value of incorporating multiple representations for robust and accurate tabular data analysis. By embracing the power of diverse representations, MRep-DeepInsight offers a promising avenue for advancing decision-making and scientific discovery across a wide range of fields.
1
Citation1
0
Save
5

scDeepInsight: a supervised cell-type identification method for scRNA-seq data with deep learning

Shangru JIA et al.Mar 12, 2023
+2
K
A
S
Abstract Annotation of cell-types is a critical step in the analysis of single-cell RNA sequencing (scRNA-seq) data that allows the study of heterogeneity across multiple cell populations. Currently this is most commonly done using unsupervised clustering algorithms, which project single-cell expression data into a lower dimensional space and then cluster cells based on their distances from each other. However, as these methods do not use reference datasets, they can only achieve a rough classification of cell-types, and it is difficult to improve the recognition accuracy further. To effectively solve this issue we propose a novel supervised annotation method, scDeepInsight. The scDeepInsight method is capable of performing manifold assignments. It is competent in executing data integration through batch normalization, performing supervised training on the reference dataset, doing outlier detection and annotating cell-types on query datasets. Moreover, it can help identify active genes or marker genes related to cell-types. The training of the scDeepInsight model is performed in a unique way. Tabular scRNA-seq data are first converted to corresponding images through the DeepInsight methodology. DeepInsight can create a trainable image transformer to convert non-image RNA data to images by comprehensively comparing interrelationships among multiple genes. Subsequently, the converted images are fed into convolutional neural networks (CNNs) such as EfficientNet-b3. This enables automatic feature extraction to identify the cell-types of scRNA-seq samples. We benchmarked scDeepInsight with six other mainstream cell annotation methods. The average accuracy rate of scDeepInsight reached 87.5%, which is more than 7% higher compared with the state-of-the-art methods.
0

Enhanced analysis of tabular data through Multi-representation DeepInsight

Alok Sharma et al.Jun 4, 2024
+3
S
Y
A
Abstract Tabular data analysis is a critical task in various domains, enabling us to uncover valuable insights from structured datasets. While traditional machine learning methods can be used for feature engineering and dimensionality reduction, they often struggle to capture the intricate relationships and dependencies within real-world datasets. In this paper, we present Multi-representation DeepInsight (MRep-DeepInsight), a novel extension of the DeepInsight method designed to enhance the analysis of tabular data. By generating multiple representations of samples using diverse feature extraction techniques, our approach is able to capture a broader range of features and reveal deeper insights. We demonstrate the effectiveness of MRep-DeepInsight on single-cell datasets, Alzheimer's data, and artificial data, showcasing an improved accuracy over the original DeepInsight approach and machine learning methods like random forest, XGBoost, LightGBM, FT-Transformer and L2-regularized logistic regression. Our results highlight the value of incorporating multiple representations for robust and accurate tabular data analysis. By leveraging the power of diverse representations, MRep-DeepInsight offers a promising new avenue for advancing decision-making and scientific discovery across a wide range of fields.
0

Insight into Metabolomic Profiling of Tinospora cordifolia: Recent Advances and Future Perspectives of Quality Control

Atiqul Islam et al.Apr 1, 2024
+2
N
C
A
Abstract The objective of this study was to offer a review of previous works on Tinospora cordifolia (TC) metabolomics with a highlight on the use of metabolomics in comparative evaluations between varieties and selection of optimum cultivation, collection, and extraction procedures, providing insights into pharmaceutical and food product quality monitoring. Scholarly databases were searched to gather relevant information on TC’s therapeutic usefulness, phytoconstituent studies, metabolomics, and applications. PubChem was used to learn the structures of several of the metabolites. The various medicinal properties of TC were extensively researched. The most essential portions of the plant in Ayurvedic medicines are the stems. Bioactive phytochemicals such as steroidal lactones, alkaloids, diterpenoids, and phenolic compounds are present in the roots and leaves. Metabolomic analysis revealed that, in addition to the season and geographical region of the sample collected, the metabolite profiles of TC also depend on the parts of the plant taken as a sample and also the plant’s stage of growth. The amounts of secondary metabolites differed between morpho/chemotypes within the TC species. Despite the fact that research on TC began several decades ago, the diversity of phytoconstituents was not appreciated because of a lack of reliable techniques for phytochemical fingerprinting. The uncovering of several novel metabolites was aided by advances in chromatography combined with mass spectrometry. To produce a full metabolomic profile, researchers used mutually complementary techniques. Following that, data analysis and searches against spectrum databases allowed for signal annotation and interpretation of metabolites in large quantities without separating them separately. The current review includes a critical assessment of metabolomic data and an overview of the technique’s various applications. It is vital to establish the metrics of quality control of herbal medicines in order to accomplish formulation purity assessments. Such information would assist us in determining the best geolocation for the plants and the best time to harvest them. Metabolomic investigation of TC-based herbal products is recommended for quality standards and the identification of novel bioactive components.
Load More