FZ
Fangfei Zhang
Author with expertise in Mass Spectrometry Techniques with Proteins
University of Hong Kong, Westlake University, Southern Medical University
+ 7 more
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
11
(73% Open Access)
Cited by:
3
h-index:
17
/
i10-index:
23
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Dear-DIAXMBD: deep autoencoder for data-independent acquisition proteomics

Qingzu He et al.Oct 24, 2023
+11
X
C
Q
Abstract Data-independent acquisition (DIA) technology for protein identification from mass spectrometry and related algorithms is developing rapidly. The spectrum-centric analysis of DIA data without the use of spectra library from data-dependent acquisition (DDA) data represents a promising direction. In this paper, we proposed an untargeted analysis method, Dear-DIA XMBD , for direct analysis of DIA data. Dear-DIA XMBD first integrates the deep variational autoencoder and triplet loss to learn the representations of the extracted fragment ion chromatograms, then uses the k-means clustering algorithm to aggregate fragments with similar representations into the same classes, and finally establishes the inverted index tables to determine the precursors of fragment clusters between precursors and peptides, and between fragments and peptides. We show that Dear-DIA XMBD performs superiorly with the highly complicated DIA data of different species obtained by different instrument platforms. Dear-DIA XMBD is publicly available at https://github.com/jianweishuai/Dear-DIA-XMBD .
1
Citation1
0
Save
4

A comprehensive mass spectral library for human thyroid tissues

Yaoting Sun et al.Oct 24, 2023
+13
W
L
Y
Abstract Thyroid nodules occur in about 60% of the population. Current diagnostic strategies, however, often fail at distinguishing malignant nodules before surgery, thus leading to unnecessary, invasive treatments. As proteins are involved in all physio/pathological processes, a proteome investigation of biopsied nodules may help correctly classify and identify malignant nodules and discover therapeutic targets. Quantitative mass spectrometry data-independent acquisition (DIA) enables highly reproducible and rapid throughput investigation of proteomes. An exhaustive spectral library of thyroid nodules is essential for DIA yet still unavailable. This study presents a comprehensive thyroid spectral library covering five types of thyroid tissue: multinodular goiter, follicular adenoma, follicular and papillary thyroid carcinoma, and normal thyroid tissue. Our library includes 925,330 transition groups, 157,548 peptide precursors, 121,960 peptides, 9941 protein groups, and 9826 proteins from proteotypic peptides. This library resource was evaluated using three papillary thyroid carcinoma samples and their corresponding adjacent normal thyroid tissue, leading to effective quantification of up to 7863 proteins from biopsy-level thyroid tissues.
4
Paper
Citation1
0
Save
1

Alpha-Frag: a deep neural network for fragment presence prediction improves peptide identification

Jian Song et al.Oct 24, 2023
C
F
J
ABSTRACT Identification of peptides in mass spectrometry-based proteomics typically relies on spectra matches. As MS/MS spectra record presence and intensity of fragment ions, the match should take both fragment presence similarity and intensity similarity into consideration. Fragment presence similarity can be calculated with the help of fragment presence prediction such as theoretical enumeration of all possible fragment ions or selecting non-zero intensity ions from the result of fragment intensity prediction, but neither of these two methods is accurate enough. In this work, we developed a deep neural network based model, Alpha-Frag, to predict precisely the fragment ions that should be present for a given peptide. Alpha-Frag modelled fragment presence prediction as a multi-label classification task and trained with ProteomeTools dataset. In terms of intersection over union (IoU), Alpha-Frag achieved an average of >0.7 and outperformed the benchmarks across the validation datasets. Furthermore, fragment presence similarity was calculated based on presence prediction and incorporated into the peptide statistical validation tools as an additional score to improve peptide identifications. Our preliminary experiments show that this score led to a maximum increase of 26.8% (FDR 0.1%) and 21.6% (FDR 1%) for the DDA and the DIA identification, respectively. Significance Statement A better prediction of fragmentation for peptides in mass spectrometry (MS) is beneficial to the peptide identification. As the MS/MS spectra record two-dimensional information of fragment ions derived from precursors, mass-to-charge ratio (m/z) and their corresponding intensities, besides the fragment intensity prediction, it is necessary to study the presence prediction. Although the presence prediction can be realized by enumerating all the possible fragmentation patterns of a peptide with equal probability or by selecting non-zero intensity fragment ions from the result of fragment intensity prediction, neither of these two methods is accurate enough. In this study, deep learning is leveraged to precisely predict the fragment ions of a given peptide. Based on the fragment presence prediction, fragment presence similarity between experimental spectra and predicted spectra can be calculated which is proved to promote the peptide detections both for DDA and for DIA data.
0

Phenotype Prediction using a Tensor Representation and Deep Learning from Data Independent Acquisition Mass Spectrometry

Fangfei Zhang et al.May 7, 2020
+18
L
S
F
A novel approach for phenotype prediction is developed for mass spectrometric data. First, the data-independent acquisition (DIA) mass spectrometric data is converted into a novel file format called "DIA tensor" (DIAT) which contains all the peptide precursors and fragments information and can be used for convenient DIA visualization. The DIAT format is fed directly into a deep neural network to predict phenotypes without the need to identify peptides or proteins. We applied this strategy to a collection of 102 hepatocellular carcinoma samples and achieved an accuracy of 96.8% in classifying malignant from benign samples. We further applied refined model to 492 samples of thyroid nodules to predict thyroid cancer; and achieved a predictive accuracy of 91.7% in an independent cohort of 216 test samples. In conclusion, DIA tensor enables facile 2D visualization of DIA proteomics data as well as being a new approach for phenotype prediction directly from DIA-MS data.
0

Optimization of Spectral Library Size Improves DIA-MS Proteome Coverage

Weigang Ge et al.Oct 24, 2023
+23
F
X
W
Abstract Efficient peptide and protein identification from data-independent acquisition mass spectrometric (DIA-MS) data typically rely on an experiment-specific spectral library with a suitable size. Here, we report a computational strategy for optimizing the spectral library for a specific DIA dataset based on a comprehensive spectral library, which is accomplished by a priori analysis of the DIA dataset. This strategy achieved up to 44.7% increase in peptide identification and 38.1% increase in protein identification in the test dataset of six colorectal tumor samples compared with the comprehensive pan-human library strategy. We further applied this strategy to 389 carcinoma samples from 15 tumor datasets and observed up to 39.2% increase in peptide identification and 19.0% increase in protein identification. In summary, we present a computational strategy for spectral library size optimization to achieve deeper proteome coverage of DIA-MS data.
4

A common mechanism of temperature-sensing in thermoTRP channels

Lizhen Xu et al.Oct 24, 2023
+14
W
X
L
SUMMARY Detecting temperature is crucial for the survival of living organisms. Though the thermo transient receptor potential (thermoTRP) channels, such as TRPV1 or TRPM8, have been identified as prototypic heat or cold sensors, respectively, how they detect temperature remains elusive. Here we first identified groups of clustered residues in these channels that undergo burial/exposure conformational rearrangements during temperature activation by analyzing available protein structures or hydroxyl radical footprinting-mass spectroscopy (HRF-MS). By systematically perturbing water-protein interactions at these residues, we found that the temperature sensitivity in these channels were modulated in accordance with the sidechain hydrophobicity. The changes in energy associated with changes in water-protein interactions were sufficient for thermo activation. Therefore, our study has established that the water-protein interactions as a common mechanism underlying temperature sensing in TRPM8 and TRPV1.
0

BatchServer: a web server for batch effect evaluation, visualization and correction

Tiansheng Zhu et al.May 7, 2020
+5
C
G
T
Background: Batch effects are unwanted data variations that may obscure biological signals, lead-ing to bias or errors in subsequent data analyses. Effective evaluation and elimination of batch effects is thus necessary for omics data analysis, especially in the context of large cohort of thousands of samples with different experimental platforms. Existing batch effect reducing tools mainly focus on the development of algorithms, while requiring programming skills and the knowledge of data distribution limits their application for many researchers. In order to facilitate evaluation and correction of batch effects, we provided an user-friendly and easy-to-use graphical batch effects analysis web platform. Results: We developed an open-source R/Shiny based web server -- BatchServer that allows users to graphical interactively evaluate, visualize and correct of the batch effects in high-throughput data sets. BatchServer including a modified ComBat, which was a popular batch effect adjustment tool to correct batch effects, PVCA (Principal Variance Component Analysis) and UMAP (Manifold Approximation and Projection) to evaluate and visualize batch effects. BatchServer is an efficient batch effects processing platform, as its application in three publicly available data sets. Conclusion: Our user-friendly online open-source web server BatchServer supports comprehensive batch effects analysis facilitating the batch effect evaluations and corrections for biologists. Batch-Server is deployed at https://lifeinfor.shinyapps.io/batchserver/ as a web server. The source codes are freely available at https://github.com/zhutiansheng/batch_server.
34

COVIDpro: Database for mining protein dysregulation in patients with COVID-19

Fangfei Zhang et al.Oct 24, 2023
+3
T
A
F
The ongoing pandemic of the coronavirus disease 2019 (COVID-19) caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) still has limited treatment options partially due to our incomplete understanding of the molecular dysregulations of the COVID-19 patients. We aimed to generate a repository and data analysis tools to examine the modulated proteins underlying COVID-19 patients for the discovery of potential therapeutic targets and diagnostic biomarkers.We built a web server containing proteomic expression data from COVID-19 patients with a toolset for user-friendly data analysis and visualization. The web resource covers expert-curated proteomic data from COVID-19 patients published before May 2022. The data were collected from ProteomeXchange and from select publications via PubMed searches and aggregated into a comprehensive dataset. Protein expression by disease subgroups across projects was compared by examining differentially expressed proteins. We also visualize differentially expressed pathways and proteins. Moreover, circulating proteins that differentiated severe cases were nominated as predictive biomarkers.We built and maintain a web server COVIDpro ( https://www.guomics.com/covidPro/ ) containing proteomics data generated by 41 original studies from 32 hospitals worldwide, with data from 3077 patients covering 19 types of clinical specimens, the majority from plasma and sera. 53 protein expression matrices were collected, for a total of 5434 samples and 14,403 unique proteins. Our analyses showed that the lipopolysaccharide-binding protein, as identified in the majority of the studies, was highly expressed in the blood samples of patients with severe disease. A panel of significantly dysregulated proteins was identified to separate patients with severe disease from non-severe disease. Classification of severe disease based on these proteomic signatures on five test sets reached a mean AUC of 0.87 and ACC of 0.80.COVIDpro is an online database with an integrated analysis toolkit. It is a unique and valuable resource for testing hypotheses and identifying proteins or pathways that could be targeted by new treatments of COVID-19 patients.National Key R&D Program of China: Key PDPM technologies (2021YFA1301602, 2021YFA1301601, 2021YFA1301603), Zhejiang Provincial Natural Science Foundation for Distinguished Young Scholars (LR19C050001), Hangzhou Agriculture and Society Advancement Program (20190101A04), National Natural Science Foundation of China (81972492) and National Science Fund for Young Scholars (21904107), National Resource for Network Biology (NRNB) from the National Institute of General Medical Sciences (NIGMS-P41 GM103504).Evidence before this study: Although an increasing number of therapies against COVID-19 are being developed, they are still insufficient, especially with the rise of new variants of concern. This is partially due to our incomplete understanding of the disease’s mechanisms. As data have been collected worldwide, several questions are now worth addressing via meta-analyses. Most COVID-19 drugs function by targeting or affecting proteins. Effectiveness and resistance to therapeutics can be effectively assessed via protein measurements. Empowered by mass spectrometry-based proteomics, protein expression has been characterized in a variety of patient specimens, including body fluids (e.g., serum, plasma, urea) and tissue (i.e., formalin-fixed and paraffin-embedded (FFPE)). We expert-curated proteomic expression data from COVID-19 patients published before May 2022, from the largest proteomic data repository ProteomeXhange as well as from literature search engines. Using this resource, a COVID-19 proteome meta-analysis could provide useful insights into the mechanisms of the disease and identify new potential drug targets.Added value of this study: We integrated many published datasets from patients with COVID-19 from 11 nations, with over 3000 patients and more than 5434 proteome measurements. We collected these datasets in an online database, and generated a toolbox to easily explore, analyze, and visualize the data. Next, we used the database and its associated toolbox to identify new proteins of diagnostic and therapeutic value for COVID-19 treatment. In particular, we identified a set of significantly dysregulated proteins for distinguishing severe from non-severe patients using serum samples.Implications of all the available evidence: COVIDpro will support the navigation and analysis of patterns of dysregulated proteins in various COVID-19 clinical specimens for identification and verification of protein biomarkers and potential therapeutic targets.
1

DIA-based Proteomics Identifies IDH2 as a Targetable Regulator of Acquired Drug Resistance in Chronic Myeloid Leukemia

Wei Liu et al.Oct 24, 2023
+5
W
Y
W
Abstract Drug resistance is a critical obstacle to effective treatment in patients with chronic myeloid leukemia (CML). To understand the underlying resistance mechanisms in response to imatinib (IMA) and adriamycin (ADR), the parental K562 cells were treated with low doses of IMA or ADR for two months to generate derivative cells with mild, intermediate and severe resistance to the drugs as defined by their increasing resistance index (RI). PulseDIA-based quantitative proteomics was then employed to reveal the proteome changes in these resistant cells. In total, 7,082 proteotypic proteins from 98,232 peptides were identified and quantified from the dataset using four DIA software tools including OpenSWATH, Spectronaut, DIA-NN, and EncyclopeDIA. Sirtuin Signaling Pathway was found to be significantly enriched in both ADR- and IMA-resistant K562 cells. In particular, IDH2 was identified as a potential drug target correlated with the drug resistance phenotype, and its inhibition by the antagonist AGI-6780 reversed the acquired resistance in K562 cells to either ADR or IMA. Together, our study has implicated IDH2 as a potential target that can be therapeutically leveraged to alleviate the drug resistance in K562 cells when treated with IMA and ADR.
8

DPHL v2: An updated and comprehensive DIA pan-human assay library for quantifying more than 14,000 proteins

Zhangzhi Xue et al.Oct 24, 2023
+32
F
T
Z
Summary A comprehensive pan-human spectral library is critical for biomarker discovery using mass spectrometry (MS)-based proteomics. DPHL v1, a previous pan-human library built from 1096 data-dependent acquisition (DDA) MS data of 16 human tissue types, allows quantifying 10,943 proteins. However, a major limitation of DPHL v1 is the lack of semi-tryptic peptides and protein isoforms, which are abundant in clinical specimens. Here, we generated DPHL v2 from 1608 DDA-MS data acquired using Orbitrap mass spectrometers. The data included 586 DDA-MS newly acquired from 17 tissue types, while 1022 files were derived from DPHL v1. DPHL v2 thus comprises data from 24 sample types, including several cancer types (lung, breast, kidney, and prostate cancer, among others). We generated four variants of DPHL v2 to include semi-tryptic peptides and protein isoforms. DPHL v2 was then applied to a publicly available colorectal cancer dataset with 286 DIA-MS files. The numbers of identified and significantly dysregulated proteins increased by at least 21.7% and 14.2%, respectively, compared with DPHL v1. Our findings show that the increased human proteome coverage of DPHL v2 provides larger pools of potential protein biomarkers.
Load More