ML
Marie Locard‐Paulet
Author with expertise in Mass Spectrometry Techniques with Proteins
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(100% Open Access)
Cited by:
16
h-index:
14
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
9

A proteomics sample metadata representation for multiomics integration, and big data analysis

Chengxin Dai et al.May 23, 2021
Abstract The amount of public proteomics data is increasing at an extraordinary rate. Hundreds of datasets are submitted each month to ProteomeXchange repositories, representing many types of proteomics studies, focusing on different aspects such as quantitative experiments, post-translational modifications, protein-protein interactions, or subcellular localization, among many others. For every proteomics dataset, two levels of data are captured: the dataset description, and the data files (encoded in different file formats). Whereas the dataset description and data file formats are supported by all ProteomeXchange partner repositories, there is no standardized format to properly describe the sample metadata and their relationship with the dataset files in a way that fully allows their understanding or re-analysis. It is left to the user’s choice whether to provide or not an ad hoc document containing this information. Therefore, in many cases, understanding the study design and data requires going back to the associated publication. This can be tedious and may be restricted in the case of non-open access publications. In many cases, this problem limits the generalization and reuse of public proteomics data. Here we present a standard representation for sample metadata tailored to proteomics datasets produced by the HUPO Proteomics Standards Initiative and supported by ProteomeXchange resources. We repurposed the existing data format MAGE-TAB used routinely in the transcriptomics field to represent and annotate proteomics datasets. MAGETAB-Proteomics defines a set of annotation rules that the datasets submitted to ProteomeXchange should follow, ranging from sample properties to data analysis protocols. We also introduce a crowdsourcing project that enabled the manual curation of over 200 public datasets using MAGE-TAB-Proteomics. In addition, we describe an ecosystem of tools and libraries that were developed to validate and submit sample metadata-related information to ProteomeXchange. We expect that these tools will improve the reproducibility of published results and facilitate the reanalysis and integration of public proteomics datasets.
21

Imputation of label-free quantitative mass spectrometry-based proteomics data using self-supervised deep learning

Henry Webel et al.Jan 13, 2023
Abstract Imputation techniques provide means to replace missing measurements with a value and are used in almost all downstream analysis of mass spectrometry (MS) based proteomics data using label-free quantification (LFQ). Here we demonstrate how collaborative filtering, denoising autoencoders, and variational autoencoders can impute missing values in the context of LFQ at different levels. We applied our method, proteomics imputation modeling mass spectrometry (PIMMS), to an alcohol-related liver disease (ALD) cohort with blood plasma proteomics data available for 358 individuals. Removing 20 percent of the intensities we were able to recover 15 out of 17 significant abundant protein groups using PIMMS-VAE imputations. When analyzing the full dataset we identified 30 additional proteins (+13.2%) that were significantly differentially abundant across disease stages compared to no imputation and found that some of these were predictive of ALD progression in machine learning models. We, therefore, suggest the use of deep learning approaches for imputing missing values in MS-based proteomics on larger datasets and provide workflows for these.
1

Identifying the genes impacted by cell proliferation in proteomics and transcriptomics studies

Marie Locard‐Paulet et al.Mar 16, 2022
ABSTRACT Today, hypothesis-free high-throughput profiling allows relative quantification of thousands of proteins or transcripts across samples and thereby identification of differentially expressed genes. It is used in many biological contexts to characterize differences between cell lines and tissues, identify drug mode of action or drivers of drug resistance, among others. Genes can also be differentially regulated because of confounding factors that were not accounted for in the experimental plan, such as change in cell proliferation. Here, we identified genes for which expression consistently correlates with cell proliferation rates in proteomics and transcriptomics high-throughput data sets to determine the overall impact of cell growth rate on these data. We combined the analysis of 449 cell lines and 1,040 cell lines in five proteomics and three transcriptomics data sets to generate a refined list of 223 confounding genes that correlate with cell proliferation rates. These include many actors in DNA replication and mitosis, and genes periodically expressed during the cell cycle. It constitutes a valuable resource when analyzing high-throughput datasets showing changes in proliferation across conditions. We show how to use this resource to analyze in vitro drug screens and tumor samples. By disregarding the proliferation confounders, one can instead focus on the experiment-specific regulation events otherwise buried in the statistical analysis.
1
Citation2
0
Save
0

A site-specific analysis of the ADP-Ribosylome unveils Homogeneous DNA Damage-Induced Serine ADP-Ribosylation across wild-type and BRCA-mutant Breast Cancer cell lines

Holda Anagho et al.Dec 15, 2023
Summary ADP-ribosylation (ADPr) signaling plays a crucial role in the DNA damage response. Inhibitors against the main enzyme catalyzing ADPr after DNA damage – PARP1 – are used as targeted therapies against breast cancers with BRCA1/2 mutations. However, development of resistance to PARP inhibitors (PARPi) is a major obstacle in treating patients. To better understand the role of ADPr in PARPi sensitivity, we used Liquid Chromatography-Mass Spectrometry (LC-MS) for systems level analysis of the ADP-ribosylome in six breast cancer cell lines exhibiting different PARPi sensitivities. We identified 1,632 sites on 777 proteins across all cell lines, primarily on serine residues, with site-specific overlap of targeted residues across DNA damage-related proteins across all cell lines, demonstrating high conservation of serine ADPr signaling networks upon DNA damage. We furthermore observed site-specific differences in ADPr intensities in PARPi-sensitive BRCA mutants, and unique ADPr sites in PARPi-resistant BRCA mutant cells, which we notably show to have low PARG levels and longer ADPr chains on PARP1.
0

Biased recruitment of H3.3 by HIRA is dictated by de-/acetylation and determines transcription memory and response

Sandra Satheesan et al.Aug 7, 2024
Abstract Chromatin plasticity and epigenetic memory, fundamental for eukaryotic biology, are determined by differential/regulated de novo deposition or recycling of pre-existing histones, which in turn dictate transcriptional programs. Recruitment of the histone-H3 variant, H3.3, mediated by the HIRA chaperone complex, is both causally and consequentially associated with transcription. Despite decades of work, endogenous regulatory mechanisms that differentiate between de novo deposition and recycling activities of HIRA are still unknown. Here, we have investigated the pivotal role of HIRA de-/acetylation in regulating its function. Our results unequivocally establish function separation effects of acetyl and deacetyl mimic mutations of lysine-600, vis-à-vis de novo deposition or recycling of H3.3, respectively. Importantly, we demonstrate that HIRA deacetylation-dependent biased H3.3 recycling determines transcriptional output, possibly through preferential enrichment of H3.3-K36me3. Besides unraveling tunable regulatory mechanism that governs HIRA function, we illustrate a causal link between the chaperone activity, biased recruitment of pre-existing histones, and gene expression.
0

Imputation of label-free quantitative mass spectrometry-based proteomics data using self-supervised deep learning

Henry Webel et al.Jun 26, 2024
Abstract Imputation techniques provide means to replace missing measurements with a value and are used in almost all downstream analysis of mass spectrometry (MS) based proteomics data using label-free quantification (LFQ). Here we demonstrate how collaborative filtering, denoising autoencoders, and variational autoencoders can impute missing values in the context of LFQ at different levels. We applied our method, proteomics imputation modeling mass spectrometry (PIMMS), to an alcohol-related liver disease (ALD) cohort with blood plasma proteomics data available for 358 individuals. Removing 20 percent of the intensities we were able to recover 15 out of 17 significant abundant protein groups using PIMMS-VAE imputations. When analyzing the full dataset we identified 30 additional proteins (+13.2%) that were significantly differentially abundant across disease stages compared to no imputation and found that some of these were predictive of ALD progression in machine learning models. We, therefore, suggest the use of deep learning approaches for imputing missing values in MS-based proteomics on larger datasets and provide workflows for these.