JJ
James Johnson
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
16
(44% Open Access)
Cited by:
218
h-index:
27
/
i10-index:
54
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Systematic classification error profoundly impacts inference in high-depth Whole Genome Shotgun Sequencing datasets

James Johnson et al.Apr 5, 2022
Abstract There is little consensus in the literature as to which approach for classification of Whole Genome Shotgun (WGS) sequences is best. In this paper, we examine two of the most popular algorithms, Kraken2 and Metaphlan2 utilizing four publicly available datasets. As expected from previous literature, we found that Kraken2 reports more overall taxa while Metaphlan2 reports fewer taxa while classifying fewer overall reads. To our surprise, however, Kraken 2 reported not only more taxa but many more taxa that were significantly associated with metadata. This implies that either Kraken2 is more sensitive to taxa that are biologically relevant and are simply missed by Metaphlan2, or that Kraken2’s classification errors are generated in such a way to impact inference. To discriminate between these two possibilities, we compared Spearman correlations coefficients of each taxa against each taxa with higher abundance from the same dataset. We found that Kraken2, but not Metaphlan2, showed a consistent pattern of classifying low abundance taxa that generated high correlation coefficients with higher abundance taxa. Neither Metaphlan2, nor 16S sequences that were available for two of our four datasets, showed this pattern. Simple simulations based on a variable Poisson error rate sampled from the uniform distribution with an average error rate of 0.0005 showed strikingly strong concordance with the observed correlation patterns from Kraken2. Our results suggest that Kraken2 consistently misclassifies high abundance taxa into the same erroneous low abundance taxa creating “phantom” taxa have a similar pattern of inference as the high abundance source. Because of the large sequencing depths of modern WGS cohorts, these “phantom” taxa will appear statistically significant in statistical models even with a low overall rate of classification error from Kraken. Our simulations suggest that this can occur with average error rates as low as 1 in 2,000 reads. These data suggest a novel metric for evaluating classifier accuracy and suggest that the pattern of classification errors should be considered in addition to overall classification error rate since consistent classification errors have a more profound impact on inference compared to classification errors that do not always result in assignment to the same erroneous taxa. This work highlights fundamental questions on how classifiers function and interact with large sequencing depth and statistical models that still need to be resolved for WGS, especially if correlation coefficients between taxa are to be used to build covariance networks. Our work also suggests that despite its limitations, 16S rRNA sequencing may still be useful as neither of the two most popular 16S classifiers showed these patterns of inflated correlation coefficients between taxa.
1
Citation3
0
Save
0

Survey of metaproteomics software tools for functional microbiome analysis

Ray Sajulga et al.Jan 8, 2020
To gain a thorough appreciation of microbiome dynamics, researchers characterize the functional role of expressed microbial genes/proteins. This can be accomplished through metaproteomics, which characterizes the protein complement of the microbiome. Several software tools exist for analyzing microbiomes at the functional level by measuring their combined proteome-level response to environmental perturbations. In this survey, we explore the performance of six available tools, so that researchers can make informed decisions regarding software choice based on their research goals.Tandem mass spectrometry-based proteomic data obtained from dental carie plaque samples grown with and without sucrose in paired biofilm reactors were used as representative data for this evaluation. Microbial peptides from one sample pair were identified by the X! Tandem search algorithm via SearchGUI and subjected to functional analysis using software tools including eggNOG-mapper, MEGAN6, MetaGOmics, MetaProteomeAnalyzer (MPA), ProPHAnE, and Unipept to generate functional annotation through Gene Ontology (GO) terms.Among these software tools, notable differences in functional annotation were detected after comparing differentially expressed protein functional groups. Based on the generated GO terms of these tools we performed a peptide-level comparison to evaluate the quality of their functional annotations. A BLAST analysis against the Universal Protein Knowledgebase revealed that the sensitivity and specificity of functional annotation differed between tools. For example, eggNOG-mapper mapped to the most number of GO terms, while Unipept generated the most precise GO terms. Based on our evaluation, metaproteomics researchers can choose the software according to their analytical needs and developers can use the resulting feedback to further optimize their algorithms. To make more of these tools accessible via scalable metaproteomics workflows, eggNOG-mapper and Unipept 4.0 were incorporated into the Galaxy platform.
0

A novel clinical metaproteomics workflow enables bioinformatic analysis of host-microbe dynamics in disease

Katherine Do et al.Nov 22, 2023
ABSTRACT Clinical metaproteomics has the potential to offer insights into the host-microbiome interactions underlying diseases. However, the field faces challenges in characterizing microbial proteins found in clinical samples, which are usually present at low abundance relative to the host proteins. As a solution, we have developed an integrated workflow coupling mass spectrometry-based analysis with customized bioinformatic identification, quantification and prioritization of microbial and host proteins, enabling targeted assay development to investigate host-microbe dynamics in disease. The bioinformatics tools are implemented in the Galaxy ecosystem, offering the development and dissemination of complex bioinformatic workflows. The modular workflow integrates MetaNovo (to generate a reduced protein database), SearchGUI/PeptideShaker and MaxQuant (to generate peptide-spectral matches (PSMs) and quantification), PepQuery2 (to verify the quality of PSMs), and Unipept and MSstatsTMT (for taxonomy and functional annotation). We have utilized this workflow in diverse clinical samples, from the characterization of nasopharyngeal swab samples to bronchoalveolar lavage fluid. Here, we demonstrate its effectiveness via analysis of residual fluid from cervical swabs. The complete workflow, including training data and documentation, is available via the Galaxy Training Network, empowering non-expert researchers to utilize these powerful tools in their clinical studies.
16

Metaproteomic analysis of nasopharyngeal swab samples to identify microbial peptides and potential co-infection status in COVID-19 patients

Surbhi Bihani et al.Feb 1, 2023
Abstract Respiratory infections disrupt the microbiota in the upper respiratory tract (URT), putting patients at a risk for subsequent infections. During the pandemic, cases of COVID-19 were aggravated by secondary infections because of impaired immunity and medical interventions, which was clearly evident in the second wave of COVID-19 in India. The potential dangers and clinical difficulties of bacterial and fungal secondary infections in COVID-19 patients necessitate microbial exploration of the URT. In this regard, mass spectrometry (MS)-based proteome data of nasopharyngeal swab samples from COVID-19 patients was used to investigate the metaproteome. The MS datasets were searched against a comprehensive protein sequence database of common URT pathogens using multiple search platforms (MaxQuant, MSFragger, and Search GUI/PeptideShaker). The detected microbial peptides were verified using PepQuery, which analyses peptide-spectrum pairs to give statistical output for determining confident microbial peptides. Finally, a protein sequence database was generated using the list of verified microbial peptides for identification and quantitation of microbial peptides and proteins, respectively. The taxonomic analysis of the detected peptides revealed several opportunistic pathogens like Streptococcus pneumoniae, Rhizopus microsporus, Clavispora lusitaniae , and Syncephalastrum racemosum among others. Using parallel reaction monitoring (PRM), we validated a few identified microbial peptides in clinical samples. The analysis also revealed proteins belonging to species like Pseudomonas fluorescens, Enterobacter , and Clostridium to be up-regulated in severe COVID-19 samples. Thus, MS can serve as a powerful tool for untargeted detection of a wide range of microorganisms. Metaproteomic analysis in COVID-19 patients for early identification and characterisation of co-infecting microorganisms can significantly impact the diagnosis and treatment of patients.
0

A sectioning and database enrichment approach for improved peptide spectrum matching in large, genome-guided protein sequence databases

Praveen Kumar et al.Nov 15, 2019
Multi-omics approaches focused on mass-spectrometry (MS)-based data, such as metaproteomics, utilize genomic and/or transcriptomic sequencing data to generate a comprehensive protein sequence database. These databases can be very large, containing millions of sequences, which reduces the sensitivity of matching tandem mass spectrometry (MS/MS) data to sequences to generate peptide spectrum matches (PSMs). Here, we describe a sectioning method for generating an enriched database for those protein sequences that are most likely present in the sample. Our evaluation demonstrates how this method helps to increase the sensitivity of PSMs while maintaining acceptable false discovery rate statistics. We demonstrate increased true positive PSM identifications using the sectioning method when compared to the traditional large database searching method, whereas it helped in reducing the false PSM identifications when compared to a previously described two-step method for reducing database size. The sectioning method for large sequence databases enables generation of an enriched protein sequence database and promotes increased sensitivity in identifying PSMs, while maintaining acceptable and manageable FDR. Furthermore, implementation in the Galaxy platform provides access to a usable and automated workflow for carrying out the method. Our results show the utility of this methodology for a wide-range of applications where genome-guided, large sequence databases are required for MS-based proteomics data analysis.
0

Precursor intensity-based label-free quantification software tools for proteomic and multi-omic analysis within the Galaxy Platform.

Subina Mehta et al.Apr 2, 2020
For mass spectrometry-based peptide and protein quantification, label-free quantification (LFQ) based on precursor mass peak (MS1) intensities is considered reliable due to its dynamic range, reproducibility, and accuracy. In LFQ workflows, protein abundance changes are inferred from peptide-level information, including microbial peptides (for metaproteomics) and peptides carrying post-translational modifications (for proteomics) and/or variant sequences (for proteogenomics). Multi-omics studies (such as proteogenomics and metaproteomics) rely on peptide detection and quantification to identify and quantify peptides that map to unique proteoforms and metaproteins. The Galaxy for proteomics (Galaxy-P) platform has proven useful for the development of accessible workflows to identify proteins in these complex multi-omic studies. However, proteomics workflows within the Galaxy platform have lacked well-tested label-free quantification tools. In this study, our main goals were to evaluate two recently published open-source LFQ tools and to implement them within the Galaxy platform, enabling their easy integration with established workflows. These two tools, moFF and FlashLFQ, were selected based on their described peptide quantification capabilities and amenability to Galaxy implementation. Through rigorous testing and communication with the tool developers, we gained insights into the software features necessary for maximizing the performance of each tool. Software features evaluated included: a) match-between-runs (MBR); b) using both Thermo .raw and HUPO standards .mzML file formats as input for improved quantification; c) use of containers and/or conda packages; d) parameters needed for analyzing large input datasets; and e) compatibility with a variety of mass spectrometry peaklist file formats , leading to optimized and validated software performance. This work 1) establishes a process for software implementation, optimization and validation within Galaxy; and 2) makes powerful new tools for LFQ available which should prove highly useful for a variety of proteomics and multi-omics applications employing the Galaxy platform.
0

Modeling methyl-sensitive transcription factor motifs with an expanded epigenetic alphabet

Coby Viner et al.Mar 15, 2016
Introduction. Many transcription factors initiate transcription only in specific sequence contexts, providing the means for sequence specificity of transcriptional control. A four-letter DNA alphabet only partially describes the possible diversity of nucleobases a transcription factor might encounter. For instance, cytosine is often present in a covalently modified form: 5-methylcytosine (5mC). 5mC can be successively oxidized to 5-hydroxymethylcytosine (5hmC), 5-formylcytosine (5fC), and 5-carboxylcytosine (5caC). Just as transcription factors distinguish one unmodified nucleobase from another, some have been shown to distinguish unmodified bases from these covalently modified bases. Modification-sensitive transcription factors provide a mechanism by which widespread changes in DNA methylation and hydroxymethylation can dramatically shift active gene expression programs. Methods. To understand the effect of modified nucleobases on gene regulation, we developed methods to discover motifs and identify transcription factor binding sites in DNA with covalent modifications. Our models expand the standard A/C/G/T alphabet, adding m (5mC) h (5hmC), f (5fC), and c (5caC). We additionally add symbols to encode guanine complementary to these modified cytosine nucleobases, as well as symbols to represent states of ambiguous modification. We adapted the well-established position weight matrix model of transcription factor binding affinity to an expanded alphabet. We developed a program, Cytomod, to create a modified sequence. We also enhanced the MEME Suite to be able to handle custom alphabets. These versions permit users to specify new alphabets, anticipating future alphabet expansions. Results. We created an expanded-alphabet sequence using whole-genome maps of 5mC and 5hmC in naive ex vivo mouse T cells. Using this sequence and ChIP-seq data from Mouse ENCODE and others, we identified modification-sensitive cis-regulatory modules. We elucidated various known methylation binding preferences, including the preference of ZFP57 and C/EBPβ for methylated motifs and the preference of c-Myc for unmethylated E-box motifs. We demonstrated that our method is robust to parameter perturbations, with transcription factors' sensitivities for methylated and hydroxymethylated DNA broadly conserved across a range of modified base calling thresholds. Hypothesis testing across different threshold values was used to determine cutoffs most suitable for further analyses. Using these known binding preferences to tune model parameters enables discovery of novel modified motifs. Discussion. Hypothesis testing of motif central enrichment provides a natural means of differentially assessing modified versus unmodified binding affinity, without most of the limitations of a de novo analysis. This approach can be readily extended to other DNA modifications, provided genome-wide single-base resolution data is available. As more high-resolution epigenomic data becomes available, we expect this method to continue to yield insights into altered transcription factor binding affinities across a variety of modifications.
22

MaxQuant and MSstats in Galaxy enable reproducible cloud-based analysis of quantitative proteomics experiments for everyone

Niko Pinter et al.Jan 20, 2022
ABSTRACT Quantitative mass spectrometry-based proteomics has become a high-throughput technology for the identification and quantification of thousands of proteins in complex biological samples. Two de facto standard tools, MaxQuant and MSstats, allow for the analysis of raw data and finding proteins with differential abundance between conditions of interest. To enable accessible and reproducible quantitative proteomics analyses in a cloud environment, we have integrated MaxQuant (including TMTpro 16/18plex), Proteomics Quality Control (PTXQC), MSstats and MSstatsTMT into the open-source Galaxy framework. This enables the web-based analysis of label-free and isobaric labeling proteomics experiments via Galaxy’s graphical user interface on public clouds. MaxQuant and MSstats in Galaxy can be applied in conjunction with thousands of existing Galaxy tools and integrated into standardized, sharable workflows. Galaxy tracks all metadata and intermediate results in analysis histories, which can be shared privately for collaborations or publicly, allowing full reproducibility and transparency of published analysis. To further increase accessibility, we provide detailed hands-on training materials. The integration of MaxQuant and MSstats into the Galaxy framework enables their usage in a reproducible way on accessible large computational infrastructures, hence realizing the foundation for high throughput proteomics data science for everyone.
Load More