JU
Julian Uszkoreit
Author with expertise in Mass Spectrometry Techniques with Proteins
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(50% Open Access)
Cited by:
6,857
h-index:
23
/
i10-index:
30
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The PRIDE database and related tools and resources in 2019: improving support for quantification data

Yasset Pérez‐Riverol et al.Oct 22, 2018
+20
J
A
Y
The PRoteomics IDEntifications (PRIDE) database (https://www.ebi.ac.uk/pride/) is the world’s largest data repository of mass spectrometry-based proteomics data, and is one of the founding members of the global ProteomeXchange (PX) consortium. In this manuscript, we summarize the developments in PRIDE resources and related tools since the previous update manuscript was published in Nucleic Acids Research in 2016. In the last 3 years, public data sharing through PRIDE (as part of PX) has definitely become the norm in the field. In parallel, data re-use of public proteomics data has increased enormously, with multiple applications. We first describe the new architecture of PRIDE Archive, the archival component of PRIDE. PRIDE Archive and the related data submission framework have been further developed to support the increase in submitted data volumes and additional data types. A new scalable and fault tolerant storage backend, Application Programming Interface and web interface have been implemented, as a part of an ongoing process. Additionally, we emphasize the improved support for quantitative proteomics data through the mzTab format. At last, we outline key statistics on the current data contents and volume of downloads, and how PRIDE data are starting to be disseminated to added-value resources including Ensembl, UniProt and Expression Atlas.
0

BioContainers: an open-source and community-driven framework for software standardization

Felipe Leprevost et al.Mar 29, 2017
+15
S
B
F
BioContainers (biocontainers.pro) is an open-source and community-driven framework which provides platform independent executable environments for bioinformatics software. BioContainers allows labs of all sizes to easily install bioinformatics software, maintain multiple versions of the same software and combine tools into powerful analysis pipelines. BioContainers is based on popular open-source projects Docker and rkt frameworks, that allow software to be installed and executed under an isolated and controlled environment. Also, it provides infrastructure and basic guidelines to create, manage and distribute bioinformatics containers with a special focus on omics technologies. These containers can be integrated into more comprehensive bioinformatics pipelines and different architectures (local desktop, cloud environments or HPC clusters).The software is freely available at github.com/BioContainers/.yperez@ebi.ac.uk.
9

A proteomics sample metadata representation for multiomics integration, and big data analysis

Chengxin Dai et al.May 23, 2021
+38
V
P
C
Abstract The amount of public proteomics data is increasing at an extraordinary rate. Hundreds of datasets are submitted each month to ProteomeXchange repositories, representing many types of proteomics studies, focusing on different aspects such as quantitative experiments, post-translational modifications, protein-protein interactions, or subcellular localization, among many others. For every proteomics dataset, two levels of data are captured: the dataset description, and the data files (encoded in different file formats). Whereas the dataset description and data file formats are supported by all ProteomeXchange partner repositories, there is no standardized format to properly describe the sample metadata and their relationship with the dataset files in a way that fully allows their understanding or re-analysis. It is left to the user’s choice whether to provide or not an ad hoc document containing this information. Therefore, in many cases, understanding the study design and data requires going back to the associated publication. This can be tedious and may be restricted in the case of non-open access publications. In many cases, this problem limits the generalization and reuse of public proteomics data. Here we present a standard representation for sample metadata tailored to proteomics datasets produced by the HUPO Proteomics Standards Initiative and supported by ProteomeXchange resources. We repurposed the existing data format MAGE-TAB used routinely in the transcriptomics field to represent and annotate proteomics datasets. MAGETAB-Proteomics defines a set of annotation rules that the datasets submitted to ProteomeXchange should follow, ranging from sample properties to data analysis protocols. We also introduce a crowdsourcing project that enabled the manual curation of over 200 public datasets using MAGE-TAB-Proteomics. In addition, we describe an ecosystem of tools and libraries that were developed to validate and submit sample metadata-related information to ProteomeXchange. We expect that these tools will improve the reproducibility of published results and facilitate the reanalysis and integration of public proteomics datasets.
0

Ten Simple Rules for Taking Advantage of git and GitHub

Yasset Pérez‐Riverol et al.Apr 15, 2016
+12
L
A
Y
A 'Ten Simple Rules' guide to git and GitHub. We describe and provide examples on how to use these software to track projects, as users, teams and organizations. We document collaborative development using branching and forking, interaction between collaborators using issues and continuous integration and automation using, for example, Travis CI and codecov. We also describe dissemination and social aspects of GitHub such as GitHub pages, following and watching repositories, and give advice on how to make code citable.
0

Protein inference using PIA workflows and PSI standard file formats

Julian Uszkoreit et al.Sep 23, 2018
+2
B
Y
J
Proteomics using LC-MS/MS has become one of the main methods to analyze the proteins in biological samples in high-throughput. But the existing mass spectrometry instruments are still limited with respect to resolution and measurable mass ranges, which is one of the main reasons why shotgun proteomics is the major approach. Here, proteins are digested, which leads to the identification and quantification of peptides instead. While often neglected, the important step of protein inference needs to be conducted to infer from the identified peptides to the actual proteins in the original sample. In this work, we highlight some of the previously published and newly added features of the tool PIA - Protein Inference Algorithms, which helps the user with the protein inference of measured samples. We also highlight the importance of the usage of PSI standard file formats, as PIA is the only current software supporting all available standards used for spectrum identification and protein inference. Additionally, we briefly describe the benefits of working with workflow environments for proteomics analyses and show the new features of the PIA nodes for the KNIME Analytics Platform. Finally, we benchmark PIA against a recently published dataset for isoform detection. PIA is open source and available for download on GitHub (https://github.com/mpc-bioinformatics/pia) or directly via the community extensions inside the KNIME analytics platform.
4

WOMBAT-P: Benchmarking Label-Free Proteomics Data Analysis Workflows

David Bouyssié et al.Jan 1, 2023
+16
L
S
D
Proteomics research encompasses a wide array of experimental designs, resulting in diverse datasets varying in structure and properties. This diversity has led to a considerable variety of software solutions for data analysis, each of them using multiple tools with different algorithms for operations like peptide-spectrum matching, protein inference, quantification, statistical analysis, and visualization. Computational workflows combine these algorithms to facilitate end-to-end analysis, spanning from raw data to detecting differentially regulated proteins. We introduce WOMBAT-P, a versatile platform designed for the automatic benchmarking and comparison of bottom-up label-free proteomics workflows. By standardizing software parameterization and workflow outputs, WOMBAT-P empowers an objective comparison of four commonly utilized data analysis workflows. Furthermore, WOMBAT-P streamlines the processing of public data based on the provided metadata, with an optional specification of 30 parameters. Wombat-P can use Sample and Data Relationship Format for Proteomics (SDRF-Proteomics) as the file input to simply process annotated local or ProteomeXchange deposited datasets. This feature offers a shortcut for data analysis and facilitates comparisons among diverse outputs. Through an examination of experimental ground truth data and a realistic biological dataset, we unveil significant disparities and a low overlap between identified and quantified proteins. WOMBAT-P not only enables rapid execution and seamless comparison of four workflows (on the same dataset) using a wide range of benchmarking metrics but also provides insights into the capabilities of different software solutions. These metrics support researchers in selecting the most suitable workflow for their specific dataset. The modular architecture of WOMBAT-P promotes extensibility and customization, making it an ideal platform for testing newly developed software tools within a realistic data analysis context.
5

Characterization of peptide-protein relationships in protein ambiguity groups via bipartite graphs

Karin Schork et al.Jul 29, 2021
+2
J
M
K
Abstract In bottom-up proteomics, proteins are enzymatically digested into peptides before measurement with mass spectrometry. The relationship between proteins and their corresponding peptides can be represented by bipartite graphs. We conduct a comprehensive analysis of bipartite graphs using quantified peptides from measured data sets as well as theoretical peptides from an in silico digestion of the corresponding complete taxonomic protein sequence databases. The aim of this study is to characterize and structure the different types of graphs that occur and to compare them between data sets. We observed a large influence of the accepted minimum peptide length during in silico digestion. When changing from theoretical peptides to measured ones, the graph structures are subject to two opposite effects. On the one hand, the graphs based on measured peptides are on average smaller and less complex compared to graphs using theoretical peptides. On the other hand, the proportion of protein nodes without unique peptides, which are a complicated case for protein inference and quantification, is considerably larger for measured data. Additionally, the proportion of graphs containing at least one protein node without unique peptides rises when going from database to quantitative level. The fraction of shared peptides and proteins without unique peptides as well as the complexity and size of the graphs highly depends on the data set and organism. Large differences between the structures of bipartite peptide-protein graphs have been observed between database and quantitative level as well as between analyzed species. In the analyzed measured data sets, the proportion of protein nodes without unique peptides ranged from 6.4% to 55.0%. This highlights the need for novel methods that can quantify proteins without unique peptides. The knowledge about the structure of the bipartite peptide-protein graphs gained in this study will be useful for the development of such algorithms.
0

Relocation of macrophages maintains the barrier function of the urothelium and protects against persistent infection

Jenny Bottek et al.Jun 6, 2019
+14
J
C
J
Macrophages perform essential functions during bacterial infections, such as phagocytosis of pathogens and neutrophils to reduce spreading of infection, inflammation and tissue damage. The spatial distribution of macrophages is critical to respond to tissue specific adaptations upon infections. Using a novel algorithm for correlative mass spectrometry imaging and state-of-the-art multiplex microscopy, we report here that macrophages within the urinary bladder are positioned in the connective tissue underneath the urothelium. Invading uropathogenic E.coli induced an IL-6-dependent CX3CL1 expression by urothelial cells, facilitating relocation of macrophages from the connective tissue into the urothelium. Those cells phagocytosed UPECs and neutrophils to maintain barrier function of the urothelium, preventing persistent and recurrent urinary tract infection.