JV
Juan Vizcaíno
Author with expertise in Advances in Metabolomics Research
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(50% Open Access)
Cited by:
7
h-index:
14
/
i10-index:
21
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
19

Implementing the reuse of public DIA proteomics datasets: from the PRIDE database to Expression Atlas

Mathias Walzer et al.Jun 9, 2021
ABSTRACT The number of mass spectrometry (MS)-based proteomics datasets in the public domain keeps increasing, particularly those generated by Data Independent Acquisition (DIA) approaches such as SWATH-MS. Unlike Data Dependent Acquisition datasets, the re-use of DIA datasets has been rather limited to date, despite its high potential, due to the technical challenges involved. We introduce a (re-)analysis pipeline for public SWATH-MS datasets which includes a combination of metadata annotation protocols, automated workflows for MS data analysis, statistical analysis, and the integration of the results into the Expression Atlas resource. Automation is orchestrated with Nextflow, using containerised open analysis software tools, rendering the pipeline readily available and reproducible. To demonstrate its utility, we reanalysed 10 public DIA datasets from the PRIDE database, comprising 1,278 SWATH-MS runs. The robustness of the analysis was evaluated, and the results compared to those obtained in the original publications. The final expression values were integrated into Expression Atlas, making SWATH-MS experiments more widely available and combining them with expression data originating from other proteomics and transcriptomics datasets.
1

A method for independent estimation of false localisation rate for phosphoproteomics

Kerry Ramsbottom et al.Oct 19, 2021
Abstract Phosphoproteomics methods are commonly employed in labs to identify and quantify the sites of phosphorylation on proteins. In recent years, various software tools have been developed, incorporating scores or statistics related to whether a given phosphosite has been correctly identified, or to estimate the global false localisation rate (FLR) within a given data set for all sites reported. These scores have generally been calibrated using synthetic data sets, and their statistical reliability on real datasets is largely unknown. As a result, there is considerable problem in the field of reporting incorrectly localised phosphosites, due to inadequate statistical control. In this work, we develop the concept of using scoring and ranking modifications on a decoy amino acid, i.e. one that cannot be modified, to allow for independent estimation of global FLR. We test a variety of different amino acids to act as the decoy, on both synthetic and real data sets, demonstrating that the amino acid selection can make a substantial difference to the estimated global FLR. We conclude that while several different amino acids might be appropriate, the most reliable FLR results were achieved using alanine and leucine as decoys, although we have a preference for alanine due to the risk of potential confusion between leucine and isoleucine amino acids. We propose that the phosphoproteomics field should adopt the use of a decoy amino acid, so that there is better control of false reporting in the literature, and in public databases that re-distribute the data. Data are available via ProteomeXchange with identifier PXD028840.
4

WOMBAT-P: Benchmarking Label-Free Proteomics Data Analysis Workflows

David Bouyssié et al.Jan 1, 2023
Proteomics research encompasses a wide array of experimental designs, resulting in diverse datasets varying in structure and properties. This diversity has led to a considerable variety of software solutions for data analysis, each of them using multiple tools with different algorithms for operations like peptide-spectrum matching, protein inference, quantification, statistical analysis, and visualization. Computational workflows combine these algorithms to facilitate end-to-end analysis, spanning from raw data to detecting differentially regulated proteins. We introduce WOMBAT-P, a versatile platform designed for the automatic benchmarking and comparison of bottom-up label-free proteomics workflows. By standardizing software parameterization and workflow outputs, WOMBAT-P empowers an objective comparison of four commonly utilized data analysis workflows. Furthermore, WOMBAT-P streamlines the processing of public data based on the provided metadata, with an optional specification of 30 parameters. Wombat-P can use Sample and Data Relationship Format for Proteomics (SDRF-Proteomics) as the file input to simply process annotated local or ProteomeXchange deposited datasets. This feature offers a shortcut for data analysis and facilitates comparisons among diverse outputs. Through an examination of experimental ground truth data and a realistic biological dataset, we unveil significant disparities and a low overlap between identified and quantified proteins. WOMBAT-P not only enables rapid execution and seamless comparison of four workflows (on the same dataset) using a wide range of benchmarking metrics but also provides insights into the capabilities of different software solutions. These metrics support researchers in selecting the most suitable workflow for their specific dataset. The modular architecture of WOMBAT-P promotes extensibility and customization, making it an ideal platform for testing newly developed software tools within a realistic data analysis context.
0

Communicating mass spectrometry quality information in mzQC with Python, R, and Java

Chris Bielow et al.May 8, 2024
Abstract Mass spectrometry is a powerful technique for analyzing molecules in complex biological samples. However, inter- and intra-laboratory variability and bias can affect the data due to various factors, including sample handling and preparation, instrument calibration and performance, and data acquisition and processing. To address this issue, the Quality Control (QC) working group of the Human Proteome Organization’s Proteomics Standards Initiative has established the standard mzQC file format for reporting and exchanging information relating to data quality. mzQC is based on the JavaScript Object Notation (JSON) format and provides a lightweight yet versatile file format that can be easily implemented in software. Here, we present open-source software libraries to process mzQC data in three programming languages: Python, using pymzqc; R, using rmzqc; and Java, using jmzqc. The libraries follow a common data model and provide shared functionality to operate on mzQC files, including the (de)serialization and validation of mzQC files. We demonstrate use of the software libraries for extracting, analyzing, and visualizing QC metrics from different sources and show how these libraries can be integrated with each other, with existing software tools, and in automated workflows for the QC of mass spectrometry data. All software libraries are available as open source under the MS-Quality-Hub organization on GitHub ( https://github.com/MS-Quality-Hub ).
0

Phosphorylation in thePlasmodium falciparumproteome: A meta-analysis of publicly available data sets

Oscar Camacho et al.Nov 20, 2023
Abstract Malaria is a deadly disease caused by Apicomplexan parasites of the Plasmodium genus. Several species of the Plasmodium genus are known to be infectious to human, of which P. falciparum is the most virulent. Post-translational modifications (PTMs) of proteins coordinate cell signalling and hence, regulate many biological processes in P. falciparum homeostasis and host infection, of which the most highly studied is phosphorylation. Phosphosites on proteins can be identified by tandem mass spectrometry (MS) performed on enriched samples (phosphoproteomics), followed by downstream computational analyses. We have performed a large-scale meta-analysis of 11 publicly available phosphoproteomics datasets, to build a comprehensive atlas of phosphosites in the P. falciparum proteome, using robust pipelines aimed at strict control of false identifications. We identified a total of 28,495 phosphorylated sites on P. falciparum proteins at 5% false localisation rate (FLR) and, of those, 18,100 at 1% FLR. We identified significant sequence motifs, likely indicative of different groups of kinases, responsible for different groups of phosphosites. Conservation analysis identified clusters of phosphoproteins that are highly conserved, and others that are evolving faster within the Plasmodium genus, and implicated in different pathways. We were also able to identify over 180,000 phosphosites within Plasmodium species beyond falciparum , based on orthologue mapping. We also explored the structural context of phosphosites, identifying a strong enrichment for phosphosites on fast evolving (low conservation) intrinsically disordered regions (IDRs) of proteins. In other species, IDRs have been shown to have an important role in modulating protein-protein interactions, particularly in signalling, and thus warranting further study for their roles in host- pathogen interactions. All data has made available via UniProtKB, PRIDE and PeptideAtlas, with visualisation interfaces for exploring phosphosites in the context of other data on Plasmodium proteins. Author Summary Plasmodium parasites continue to pose a significant global health threat, with a high proportion of the world at risk of malaria. It is imperative to gain new insights into cell signalling and regulation of biological processes in these parasites to develop effective treatments. This study focused on post- translational modifications (PTMs) of proteins, specifically phosphorylation. We conducted a meta- analysis of 11 publicly available phosphoproteomics datasets, identifying over 28,000 phosphorylated sites on P. falciparum proteins, using very rigorous statistics to avoid reporting false positives, and mapping to over 180,000 phosphorylation sites on other species of Plasmodium . The analysis revealed distinct sequence motifs associated with different groups of phosphosites (and likely indicative of different upstream kinases), and differences in the downstream pathways regulated. Conservation analysis highlighted clusters of phosphoproteins evolving at different rates within the Plasmodium genus. Notably, phosphorylation was enriched in regions of proteins lacking distinct structural elements, known as intrinsically disordered regions (IDRs), which are poorly conserved across the genus – we speculate that they are important for modulating protein interactions. The findings provide valuable insights into the molecular mechanisms of P. falciparum , with potential implications for understanding host-pathogen interactions. The comprehensive dataset generated is now publicly accessible, serving as a valuable resource for the scientific community through UniProtKB, PRIDE, and PeptideAtlas.
0

Integrated analysis of baseline protein expression in pig tissues

Shengbo Wang et al.Jan 1, 2023
The availability of an increasingly large amount of public proteomics datasets presents an opportunity for performing combined analyses to generate comprehensive organism-wide protein expression maps across different organisms and biological conditions. Sus scrofa, the domestic pig, is a model organism relevant for food production and for human biomedical research. Here we reanalyzed 14 public proteomics datasets from the PRIDE database coming from pig tissues to assess baseline (without any biological perturbation) protein abundance in 14 organs, encompassing a total of 20 healthy tissues from 128 samples. The analysis involved the quantification of protein abundance in 599 mass spectrometry runs. We compared protein expression patterns among different pig organs and examined the distribution of proteins across these organs. The number of canonical proteins per dataset ranged from 789 (dataset PXD002918, biceps femoris) to 6,062 (dataset PXD012636, heart). Then, we studied how protein abundances compared across different datasets. Of particular interest, we conducted a comparative analysis of protein expression between pig and human tissues (from a previous study performed following the same methodology), revealing a high degree of correlation in protein expression among orthologs, particularly in brain, kidney, heart, and liver samples. Additionally, we analysed the differences in quantitative expression of proteins across organs between human and pig organs. We have integrated the protein expression results into the Expression Atlas resource for easy access and visualisation of the protein expression data individually or alongside gene expression data.
0

Omics Discovery Index - Discovering and Linking Public Omics Datasets

Yasset Pérez‐Riverol et al.Apr 18, 2016
Biomedical data, in particular omics datasets are being generated at an unprecedented rate. This is due to the falling costs of generating experimental data, improved accuracy and better accessibility to different omics platforms such as genomics, proteomics and metabolomics. As a result, the number of deposited datasets in public repositories originating from various omics approaches has increased dramatically in recent years. This increase in public data deposition of omics results is a good starting point, but opens up a series of new challenges. For example the research community must now find more efficient ways for storing, organizing and providing access to biomedical data across platforms. These challenges range from achieving a common representation framework for the datasets and the associated metadata from different omics fields, to the availability of efficient methods, protocols and file formats for data exchange between multiple repositories. Therefore, there is a great need for development of new platforms and applications to make possible to search datasets across different omics fields, making such information accessible to the end-user. In this context, we introduce the Omics Discovery Index (OmicsDI - http://www.ebi.ac.uk/Tools/omicsdi), an integrated and open source platform facilitating the access and dissemination of omics datasets. OmicsDI provides a unique infrastructure to integrate datasets coming from multiple omics studies, including at present proteomics, genomics and metabolomics, as a distributed resource.