SM
Subina Mehta
Author with expertise in Mass Spectrometry Techniques with Proteins
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(40% Open Access)
Cited by:
863
h-index:
12
/
i10-index:
14
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2022 update

Enis Afgan et al.Apr 14, 2022
+91
B
A
E
Abstract Galaxy is a mature, browser accessible workbench for scientific computing. It enables scientists to share, analyze and visualize their own data, with minimal technical impediments. A thriving global community continues to use, maintain and contribute to the project, with support from multiple national infrastructure providers that enable freely accessible analysis and training services. The Galaxy Training Network supports free, self-directed, virtual training with &gt;230 integrated tutorials. Project engagement metrics have continued to grow over the last 2 years, including source code contributions, publications, software packages wrapped as tools, registered users and their daily analysis jobs, and new independent specialized servers. Key Galaxy technical developments include an improved user interface for launching large-scale analyses with many files, interactive tools for exploratory data analysis, and a complete suite of machine learning tools. Important scientific developments enabled by Galaxy include Vertebrate Genome Project (VGP) assembly workflows and global SARS-CoV-2 collaborations.
0
Paper
Citation861
0
Save
65

Galaxy Training: A Powerful Framework for Teaching!

Saskia Hiltemann et al.Jun 3, 2022
+30
S
H
S
Abstract There is an ongoing explosion of scientific datasets being generated, brought on by recent technological advances in many areas of the natural sciences. As a result, the life sciences have become increasingly computational in nature, and bioinformatics has taken on a central role in research studies. However, basic computational skills, data analysis and stewardship are still rarely taught in life science educational programs [1], resulting in a skills gap in many of the researchers tasked with analysing these big datasets. In order to address this skills gap and empower researchers to perform their own data analyses, the Galaxy Training Network (GTN) has previously developed the Galaxy Training Platform ( https://training.galaxyproject.org ); an open access, community-driven framework for the collection of FAIR training materials for data analysis utilizing the user-friendly Galaxy framework as its primary data analysis platform [2]. Since its inception, this training platform has thrived, with the number of tutorials and contributors growing rapidly, and the range of topics extending beyond life sciences to include topics such as climatology, cheminformatics and machine learning. While initially aimed at supporting researchers directly, the GTN framework has proven to be an invaluable resource for educators as well. We have focused our efforts in recent years on adding increased support for this growing community of instructors. New features have been added to facilitate the use of the materials in a classroom setting, simplifying the contribution flow for new materials, and have added a set of train-the-trainer lessons. Here, we present the latest developments in the GTN project, aimed at facilitating the use of the Galaxy Training materials by educators, and its usage in different learning environments.
65
Paper
Citation2
0
Save
0

A novel clinical metaproteomics workflow enables bioinformatic analysis of host-microbe dynamics in disease

Katherine Do et al.Nov 22, 2023
+6
D
R
K
ABSTRACT Clinical metaproteomics has the potential to offer insights into the host-microbiome interactions underlying diseases. However, the field faces challenges in characterizing microbial proteins found in clinical samples, which are usually present at low abundance relative to the host proteins. As a solution, we have developed an integrated workflow coupling mass spectrometry-based analysis with customized bioinformatic identification, quantification and prioritization of microbial and host proteins, enabling targeted assay development to investigate host-microbe dynamics in disease. The bioinformatics tools are implemented in the Galaxy ecosystem, offering the development and dissemination of complex bioinformatic workflows. The modular workflow integrates MetaNovo (to generate a reduced protein database), SearchGUI/PeptideShaker and MaxQuant (to generate peptide-spectral matches (PSMs) and quantification), PepQuery2 (to verify the quality of PSMs), and Unipept and MSstatsTMT (for taxonomy and functional annotation). We have utilized this workflow in diverse clinical samples, from the characterization of nasopharyngeal swab samples to bronchoalveolar lavage fluid. Here, we demonstrate its effectiveness via analysis of residual fluid from cervical swabs. The complete workflow, including training data and documentation, is available via the Galaxy Training Network, empowering non-expert researchers to utilize these powerful tools in their clinical studies.
16

Metaproteomic analysis of nasopharyngeal swab samples to identify microbial peptides and potential co-infection status in COVID-19 patients

Surbhi Bihani et al.Feb 1, 2023
+6
S
A
S
Abstract Respiratory infections disrupt the microbiota in the upper respiratory tract (URT), putting patients at a risk for subsequent infections. During the pandemic, cases of COVID-19 were aggravated by secondary infections because of impaired immunity and medical interventions, which was clearly evident in the second wave of COVID-19 in India. The potential dangers and clinical difficulties of bacterial and fungal secondary infections in COVID-19 patients necessitate microbial exploration of the URT. In this regard, mass spectrometry (MS)-based proteome data of nasopharyngeal swab samples from COVID-19 patients was used to investigate the metaproteome. The MS datasets were searched against a comprehensive protein sequence database of common URT pathogens using multiple search platforms (MaxQuant, MSFragger, and Search GUI/PeptideShaker). The detected microbial peptides were verified using PepQuery, which analyses peptide-spectrum pairs to give statistical output for determining confident microbial peptides. Finally, a protein sequence database was generated using the list of verified microbial peptides for identification and quantitation of microbial peptides and proteins, respectively. The taxonomic analysis of the detected peptides revealed several opportunistic pathogens like Streptococcus pneumoniae, Rhizopus microsporus, Clavispora lusitaniae , and Syncephalastrum racemosum among others. Using parallel reaction monitoring (PRM), we validated a few identified microbial peptides in clinical samples. The analysis also revealed proteins belonging to species like Pseudomonas fluorescens, Enterobacter , and Clostridium to be up-regulated in severe COVID-19 samples. Thus, MS can serve as a powerful tool for untargeted detection of a wide range of microorganisms. Metaproteomic analysis in COVID-19 patients for early identification and characterisation of co-infecting microorganisms can significantly impact the diagnosis and treatment of patients.
0

A sectioning and database enrichment approach for improved peptide spectrum matching in large, genome-guided protein sequence databases

Praveen Kumar et al.Nov 15, 2019
+6
C
J
P
Multi-omics approaches focused on mass-spectrometry (MS)-based data, such as metaproteomics, utilize genomic and/or transcriptomic sequencing data to generate a comprehensive protein sequence database. These databases can be very large, containing millions of sequences, which reduces the sensitivity of matching tandem mass spectrometry (MS/MS) data to sequences to generate peptide spectrum matches (PSMs). Here, we describe a sectioning method for generating an enriched database for those protein sequences that are most likely present in the sample. Our evaluation demonstrates how this method helps to increase the sensitivity of PSMs while maintaining acceptable false discovery rate statistics. We demonstrate increased true positive PSM identifications using the sectioning method when compared to the traditional large database searching method, whereas it helped in reducing the false PSM identifications when compared to a previously described two-step method for reducing database size. The sectioning method for large sequence databases enables generation of an enriched protein sequence database and promotes increased sensitivity in identifying PSMs, while maintaining acceptable and manageable FDR. Furthermore, implementation in the Galaxy platform provides access to a usable and automated workflow for carrying out the method. Our results show the utility of this methodology for a wide-range of applications where genome-guided, large sequence databases are required for MS-based proteomics data analysis.
0

Precursor intensity-based label-free quantification software tools for proteomic and multi-omic analysis within the Galaxy Platform.

Subina Mehta et al.Apr 2, 2020
+12
R
C
S
For mass spectrometry-based peptide and protein quantification, label-free quantification (LFQ) based on precursor mass peak (MS1) intensities is considered reliable due to its dynamic range, reproducibility, and accuracy. In LFQ workflows, protein abundance changes are inferred from peptide-level information, including microbial peptides (for metaproteomics) and peptides carrying post-translational modifications (for proteomics) and/or variant sequences (for proteogenomics). Multi-omics studies (such as proteogenomics and metaproteomics) rely on peptide detection and quantification to identify and quantify peptides that map to unique proteoforms and metaproteins. The Galaxy for proteomics (Galaxy-P) platform has proven useful for the development of accessible workflows to identify proteins in these complex multi-omic studies. However, proteomics workflows within the Galaxy platform have lacked well-tested label-free quantification tools. In this study, our main goals were to evaluate two recently published open-source LFQ tools and to implement them within the Galaxy platform, enabling their easy integration with established workflows. These two tools, moFF and FlashLFQ, were selected based on their described peptide quantification capabilities and amenability to Galaxy implementation. Through rigorous testing and communication with the tool developers, we gained insights into the software features necessary for maximizing the performance of each tool. Software features evaluated included: a) match-between-runs (MBR); b) using both Thermo .raw and HUPO standards .mzML file formats as input for improved quantification; c) use of containers and/or conda packages; d) parameters needed for analyzing large input datasets; and e) compatibility with a variety of mass spectrometry peaklist file formats , leading to optimized and validated software performance. This work 1) establishes a process for software implementation, optimization and validation within Galaxy; and 2) makes powerful new tools for LFQ available which should prove highly useful for a variety of proteomics and multi-omics applications employing the Galaxy platform.
0

Metaproteomics for Coinfections in the Upper Respiratory Tract: The Case of COVID-19

Surbhi Bihani et al.Jan 1, 2024
+4
S
A
S
The upper respiratory tract (URT) is home to a diverse range of microbial species. Respiratory infections disturb the microbial flora in the URT, putting people at risk of secondary infections. The potential dangers and clinical effects of bacterial and fungal coinfections with SARS-CoV-2 support the need to investigate the microbiome of the URT using clinical samples. Mass spectrometry (MS)-based metaproteomics analysis of microbial proteins is a novel approach to comprehensively assess the clinical specimens with complex microbial makeup. The coronavirus that causes severe acute respiratory syndrome (SARS-CoV-2) is responsible for the COVID-19 pandemic resulting in a plethora of microbial coinfections impeding therapy, prognosis, and overall disease management. In this chapter, the corresponding workflows for MS-based shotgun proteomics and metaproteomic analysis are illustrated.
0

Challenges in Peptide-Spectrum Matching: a Robust and Reproducible Statistical Framework for Removing Low-Accuracy, High-Scoring Hits

Shane Hubler et al.Nov 12, 2019
+5
J
C
S
Workflows for large-scale (MS)-based shotgun proteomics can potentially lead to costly errors in the form of incorrect peptide spectrum matches (PSMs). To improve robustness of these workflows, we have investigated the use of the precursor mass discrepancy (PMD) to detect and filter potentially false PSMs that have, nonetheless, a high confidence score. We identified and addressed three cases of unexpected bias in PMD results: time of acquisition within a LC-MS run, decoy PSMs, and length of peptide. We created a post-analysis Bayesian confidence measure based on score and PMD, called PMD-FDR. We tested PMD-FDR on four datasets across three types of MS-based proteomics projects: standard (single organism; reference database), proteogenomics (single organism; customized genomic-based database plus reference), and metaproteomics (microorganism community; customized conglomerate database). On a ground truth dataset and other representative data, PMD-FDR was able to detect 60-80% of likely incorrect PSMs (false-hits) while losing only 5% of correct PSMs (true-hits). PMD-FDR can also be used to evaluate data quality for results generated within different experimental PSM-generating workflows, assisting in method development. Going forward, PMD-FDR should provide detection of high-scoring but likely false-hits, aiding applications which rely heavily on accurate PSMs, such as proteogenomics and metaproteomics.
0

Multi-omics Visualization Platform: An extensible Galaxy plug-in for multi-omics data visualization and exploration

Thomas McGowan et al.Nov 15, 2019
+4
P
J
T
Background Proteogenomics integrates genomics, transcriptomics and mass spectrometry (MS)-based proteomics data to identify novel protein sequences arising from gene and transcript sequence variants. Proteogenomic data analysis requires integration of disparate ‘omic software tools, as well as customized tools to view and interpret results. The flexible Galaxy platform has proven valuable for proteogenomic data analysis. Here, we describe a novel Multi-omics Visualization Platform (MVP) for organizing, visualizing and exploring proteogenomic results, adding a critically needed tool for data exploration and interpretation.Findings MVP is built as an HTML Galaxy plugin, primarily based on JavaScript. Via the Galaxy API, MVP uses SQLite databases as input -- a custom datatype (mzSQLite) containing MS-based peptide identification information, a variant annotation table, and a coding sequence table. Users can interactively filter identified peptides based on sequence and data quality metrics, view annotated peptide MS data, and visualize protein-level information, along with genomic coordinates. Peptides that pass the user-defined thresholds can be sent back to Galaxy via the API for further analysis; processed data and visualizations can also be saved and shared. MVP leverages the Integrated Genomics Viewer JavaScript (IGVjs) framework, enabling interactive visualization of peptides and corresponding transcript and genomic coding information within the MVP interface.Conclusions MVP provides a powerful, extensible platform for automated, interactive visualization of proteogenomic results within the Galaxy environment, adding a unique and critically needed tool for empowering exploration and interpretation of results. The platform is extensible, providing a basis for further development of new functionalities for proteogenomic data visualization.
0

Survey of metaproteomics software tools for functional microbiome analysis

Ray Sajulga et al.Jan 8, 2020
+14
M
C
R
To gain a thorough appreciation of microbiome dynamics, researchers characterize the functional role of expressed microbial genes/proteins. This can be accomplished through metaproteomics, which characterizes the protein complement of the microbiome. Several software tools exist for analyzing microbiomes at the functional level by measuring their combined proteome-level response to environmental perturbations. In this survey, we explore the performance of six available tools, so that researchers can make informed decisions regarding software choice based on their research goals.Tandem mass spectrometry-based proteomic data obtained from dental carie plaque samples grown with and without sucrose in paired biofilm reactors were used as representative data for this evaluation. Microbial peptides from one sample pair were identified by the X! Tandem search algorithm via SearchGUI and subjected to functional analysis using software tools including eggNOG-mapper, MEGAN6, MetaGOmics, MetaProteomeAnalyzer (MPA), ProPHAnE, and Unipept to generate functional annotation through Gene Ontology (GO) terms.Among these software tools, notable differences in functional annotation were detected after comparing differentially expressed protein functional groups. Based on the generated GO terms of these tools we performed a peptide-level comparison to evaluate the quality of their functional annotations. A BLAST analysis against the Universal Protein Knowledgebase revealed that the sensitivity and specificity of functional annotation differed between tools. For example, eggNOG-mapper mapped to the most number of GO terms, while Unipept generated the most precise GO terms. Based on our evaluation, metaproteomics researchers can choose the software according to their analytical needs and developers can use the resulting feedback to further optimize their algorithms. To make more of these tools accessible via scalable metaproteomics workflows, eggNOG-mapper and Unipept 4.0 were incorporated into the Galaxy platform.