YH
Yingwei Hu
Author with expertise in Glycosylation in Health and Disease
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(40% Open Access)
Cited by:
920
h-index:
33
/
i10-index:
60
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Integrated Proteogenomic Characterization of Clear Cell Renal Cell Carcinoma

David Clark et al.Oct 1, 2019
+97
F
S
D

Summary

 To elucidate the deregulated functional modules that drive clear cell renal cell carcinoma (ccRCC), we performed comprehensive genomic, epigenomic, transcriptomic, proteomic, and phosphoproteomic characterization of treatment-naive ccRCC and paired normal adjacent tissue samples. Genomic analyses identified a distinct molecular subgroup associated with genomic instability. Integration of proteogenomic measurements uniquely identified protein dysregulation of cellular mechanisms impacted by genomic alterations, including oxidative phosphorylation-related metabolism, protein translation processes, and phospho-signaling modules. To assess the degree of immune infiltration in individual tumors, we identified microenvironment cell signatures that delineated four immune-based ccRCC subtypes characterized by distinct cellular pathways. This study reports a large-scale proteogenomic analysis of ccRCC to discern the functional impact of genomic alterations and provides evidence for rational treatment selection stemming from ccRCC pathobiology.
0
Citation516
0
Save
0

Reproducible workflow for multiplexed deep-scale proteome and phosphoproteome analysis of tumor tissues by liquid chromatography–mass spectrometry

Philipp Mertins et al.Jul 1, 2018
+26
K
L
P
Here we present an optimized workflow for global proteome and phosphoproteome analysis of tissues or cell lines that uses isobaric tags (TMT (tandem mass tags)-10) for multiplexed analysis and relative quantification, and provides 3× higher throughput than iTRAQ (isobaric tags for absolute and relative quantification)-4-based methods with high intra- and inter-laboratory reproducibility. The workflow was systematically characterized and benchmarked across three independent laboratories using two distinct breast cancer subtypes from patient-derived xenograft models to enable assessment of proteome and phosphoproteome depth and quantitative reproducibility. Each plex consisted of ten samples, each being 300 μg of peptide derived from <50 mg of wet-weight tissue. Of the 10,000 proteins quantified per sample, we could distinguish 7,700 human proteins derived from tumor cells and 3100 mouse proteins derived from the surrounding stroma and blood. The maximum deviation across replicates and laboratories was <7%, and the inter-laboratory correlation for TMT ratio–based comparison of the two breast cancer subtypes was r > 0.88. The maximum deviation for the phosphoproteome coverage was <24% across laboratories, with an average of >37,000 quantified phosphosites per sample and differential quantification correlations of r > 0.72. The full procedure, including sample processing and data generation, can be completed within 10 d for ten tissue samples, and 100 samples can be analyzed in ~4 months using a single LC-MS/MS instrument. The high quality, depth, and reproducibility of the data obtained both within and across laboratories should enable new biological insights to be obtained from mass spectrometry-based proteomics analyses of cells and tissues together with proteogenomic data integration. This protocol describes a workflow for multiplexed deep-scale, quantitative proteome and phosphoproteome analysis of tumor tissue samples. The procedure includes step-by-step instructions for all stages, from sample preparation to data analysis.
44

Community Evaluation of Glycoproteomics Informatics Solutions Reveals High-Performance Search Strategies of SerumN- andO-Glycopeptide Data

Rebeca Kawahara et al.Mar 15, 2021
+52
M
B
R
Abstract Glycoproteome profiling (glycoproteomics) is a powerful yet analytically challenging research tool. The complex tandem mass spectra generated from glycopeptide mixtures require sophisticated analysis pipelines for structural determination. Diverse software aiding the process have appeared, but their relative performance remains untested. Conducted through the HUPO Human Proteome Project – Human Glycoproteomics Initiative, this community study, comprising both developers and users of glycoproteomics software, evaluates the performance of informatics solutions for system-wide glycopeptide analysis. Mass spectrometry-based glycoproteomics datasets from human serum were shared with all teams. The relative team performance for N - and O -glycopeptide data analysis was comprehensively established and validated through orthogonal performance tests. Excitingly, several high-performance glycoproteomics informatics solutions were identified. While the study illustrated that significant informatics challenges remain, as indicated by a high discordance between annotated glycopeptides, lists of high-confidence (consensus) glycopeptides were compiled from the standardised team reports. Deep analysis of the performance data revealed key performance-associated search variables and led to recommendations for improved “high coverage” and “high accuracy” glycoproteomics search strategies. This study concludes that diverse software for comprehensive glycopeptide data analysis exist, points to several high-performance search strategies, and specifies key variables that may guide future software developments and assist informatics decision-making in glycoproteomics.
44
Citation9
0
Save
0

Comprehensive Glycoproteomic Analysis of Chinese Hamster Ovary Cells

Ganglong Yang et al.May 9, 2018
+4
W
M
G
The Chinese hamster ovary (CHO) cell line is a major expression system for the production of therapeutic proteins, the majority of which are glycoproteins, such as antibodies and erythropoietin (EPO). The characterization of the glycosylation profiles is critical to understand the important role of glycosylation on therapeutic glycoproteins from CHO cells. In this study, a large scale glycoproteomic workflow was established and applied to CHO-K1 cells expressing EPO. The workflow includes enrichment of intact glycopeptides from CHO-K1 cell lysate and medium using hydrophilic enrichment, fractionation of the obtained intact glycopeptides (IGPs) by basic reversed phase liquid chromatography (bRPLC), analyzing the glycopeptides using LC-MS/MS, and annotating the results by GPQuest 2.0. A total of 10,338 N-linked glycosite-containing IGPs were identified, representing 1,162 unique glycosites in 530 glycoproteins, including 71 unique atypical N-linked IGPs on 18 atypical N-glycosylation sequons with an overrepresentation of the N-X-C motifs. Moreover, we compared the glycoproteins from CHO cell lysate with those from medium using the in-depth N-linked glycoproteome data. The obtained large scale glycoproteomic data from intact N-linked glycopeptides in this study is complementary to the genomic, proteomic, and N-linked glycomic data previously reported for CHO cells. Our method has the potential to accelerate the production of recombinant therapeutic glycoproteins.
0

Mapping In Vivo O-Glycoproteome Using Site-specific Extraction of O-linked glycopeptides (EXoO)

Weiming Yang et al.Jul 13, 2018
+2
Y
M
W
Protein glycosylation is one of the most abundant post-translational modifications. However, detailed analysis of in vivo O-linked glycosylation, a major type of protein glycosylation, has been severely impeded by the scarcity of suitable methodologies. Here, we present a chemoenzymatic method for the site-specific extraction of O-linked glycopeptides (EXoO), which enabled the unambiguous mapping of over 3,000 O-linked glycosylation sites and definition of their glycans on over 1,000 proteins in human kidney tissues, T cells and serum. This large-scale localization of O-linked glycosylation sites nearly doubles the number of previously identified sites, demonstrating that EXoO is the most effective method to-date for defining the site-specific O-linked glycoproteome in different types of sample. Detailed structural analysis of the sites identified revealed conserved motifs and topological orientations facing extracellular space, the cell surface, the lumen of the ER and the Golgi. EXoO was also able to reveal significant differences in the in vivo O-linked glycoproteome of tumor and normal kidney tissues pointing to its broader use in clinical diagnostics and therapeutics.
0

Reanalysis of global proteomic and phosphoproteomic data identified a large number of glycopeptides

Yingwei Hu et al.Dec 13, 2017
+2
D
P
Y
Protein glycosylation plays fundamental roles in many cellular processes, and previous reports have shown dysregulation to be associated with several human diseases, including diabetes, cancer, and neurodegenerative disorders. Despite the vital role of glycosylation for proper protein function, the analysis of glycoproteins has been lagged behind to other protein modifications. In this study, we describe the re-analysis of global proteomic data from breast cancer xenograft tissues using recently developed software package GPQuest 2.0, revealing a large number of previously unidentified N-linked glycopeptides. More importantly, we found that using immobilized metal affinity chromatography (IMAC) technology for the enrichment of phosphopeptides had co-enriched a substantial number of sialoglycopeptides, allowing for a large-scale analysis of sialoglycopeptides in conjunction with the analysis of phosphopeptides. Collectively, combined MS/MS analyses of global proteomic and phosphoproteomic datasets resulted in the identification of 6,724 N-linked glycopeptides from 617 glycoproteins derived from two breast cancer xenograft tissues. Next, we utilized GPQuest for the re-analysis of global and phosphoproteomic data generated from 108 human breast cancer tissues that were previously analyzed by Clinical Proteomic Analysis Consortium (CPTAC). Reanalysis of the CPTAC dataset resulted in the identification of 2,683 glycopeptides from the global proteomic data set and 4,554 glycopeptides from phosphoproteomic data set, respectively. Together, 11,292 N-linked glycopeptides corresponding to 1,731 N-linked glycosites from 883 human glycoproteins were identified from the two data sets. This analysis revealed an extensive number of glycopeptides hidden in the global and enriched in IMAC-based phosphopeptide-enriched proteomic data, information which would have remained unknown from the original study otherwise. The reanalysis described herein can be readily applied to identify glycopeptides from already existing data sets, providing insight into many important facets of protein glycosylation in different biological, physiological, and pathological processes.
0

GPnotebook: A pan-cancer glycoproteomic database and toolkit for analysis of protein glycosylation changes associated with cancer phenotypes

Hui Zhang et al.Apr 19, 2024
Y
H
Protein glycosylation plays a pivotal role in various biological processes, and the analysis of intact glycopeptides (IGPs) has emerged as a powerful approach for characterizing alterations in protein glycosylation associated with diseases. Despite the critical insights gained from IGP analysis, there is an evident scarcity of intact glycopeptide database and specialized tools for a comprehensive glycoproteomic examination. In response to this deficiency, we have developed a Python package, "GPnotebook," which consolidates the intact glycopeptides identified from different cancer types by the Clinical Proteomic Tumor Analysis Consortium (CPTAC) and includes analytical tools for an in-depth characterization of glycopeptides. GPnotebook facilitates an array of functions including statistical profiling, differential expression analysis, glycosylation subtype categorization, investigation of glycosylation-phosphorylation interplay, survival analysis, and glycosylation enzyme assessment. We have deployed GPnotebook in a study of Pancreatic Ductal Adenocarcinoma (PDAC), thereby validating its application and demonstrating its capabilities. Our findings suggest that IGPs hold significant promise as cancer-specific changes and subtype differentiation. Consequently, GPnotebook stands out as a valuable resource for cancer researchers delving into the nuances of protein glycosylation and its correlation with cancer phenotypes.
0

MS-PyCloud: A Cloud Computing-Based Pipeline for Proteomic and Glycoproteomic Data Analyses

Yingwei Hu et al.Jun 13, 2024
+5
L
M
Y
Rapid development and wide adoption of mass spectrometry-based glycoproteomic technologies have empowered scientists to study proteins and protein glycosylation in complex samples on a large scale. This progress has also created unprecedented challenges for individual laboratories to store, manage, and analyze proteomic and glycoproteomic data, both in the cost for proprietary software and high-performance computing and in the long processing time that discourages on-the-fly changes of data processing settings required in explorative and discovery analysis. We developed an open-source, cloud computing-based pipeline, MS-PyCloud, with graphical user interface (GUI), for proteomic and glycoproteomic data analysis. The major components of this pipeline include data file integrity validation, MS/MS database search for spectral assignments to peptide sequences, false discovery rate estimation, protein inference, quantitation of global protein levels, and specific glycan-modified glycopeptides as well as other modification-specific peptides such as phosphorylation, acetylation, and ubiquitination. To ensure the transparency and reproducibility of data analysis, MS-PyCloud includes open-source software tools with comprehensive testing and versioning for spectrum assignments. Leveraging public cloud computing infrastructure via Amazon Web Services (AWS), MS-PyCloud scales seamlessly based on analysis demand to achieve fast and efficient performance. Application of the pipeline to the analysis of large-scale LC-MS/MS data sets demonstrated the effectiveness and high performance of MS-PyCloud. The software can be downloaded at https://github.com/huizhanglab-jhu/ms-pycloud.
0

OmicsOne: Associate Omics Data with Phenotypes in One-Click

Yingwei Hu et al.Sep 5, 2019
H
M
Y
The rapid advancements of high-throughput "omics" technologies have brought huge amount of data to process during and after experiments. Multi-omic analysis facilitates a deeper interrogation of a dataset, and discovery of interesting genes, proteins, lipids, glycans, or metabolites, or pathways related to the corresponding phenotypes in a study. Many individual software tools have been developed to analyze and visualize the data. However, integrating multiple omics data analysis strategies and approaches in a single data processing pipeline is still a challenging task. OmicsOne is a software developed in R, Python and Jupyter Notebook that can achieve statistical analysis, machine learning, and data visualization on multi-'omics' data by taking the advantages of integrating the useful tools from individual software packages. OmicsOne can simplify "omics" data analysis, and delineate molecules, or pathways associated with interested phenotypes.
0

Deciphering the roles of N-glycans on collagen-platelet interactions

Christian Toonstra et al.Aug 5, 2018
H
Y
C
Collagen is a potent agonist for platelet activation, presenting itself as a key contributor to coagulation via interactions with platelet glycoproteins. The fine-details dictating platelet-collagen interactions are poorly understood. In particular, glycosylation could be a key determinant in the platelet-collagen interaction. Here we report an affinity purification coupled to mass spectrometry-based approach to elucidate the function of N-glycans in dictating platelet-collagen interactions. By integrative proteomic and glycoproteomic analysis of collagen-platelet interactive proteins with N-glycan manipulation, we demonstrate that the interaction of platelet adhesive receptors with collagen are highly N-glycan regulated, with glycans on many receptors playing positive roles on collagen binding, with glycans on other platelet glycoproteins exhibiting inhibitory roles on the binding to collagen. Our results significantly enhance our understanding of the details of glycans influencing the platelet-collagen interaction.