JA
Joshua Adkins
Author with expertise in Global Sea Level Variability and Change
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
307
(6% Open Access)
Cited by:
6,323
h-index:
59
/
i10-index:
147
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Human Plasma Proteome

N. Anderson et al.Jan 13, 2004
We have merged four different views of the human plasma proteome, based on different methodologies, into a single nonredundant list of 1175 distinct gene products. The methodologies used were 1) literature search for proteins reported to occur in plasma or serum; 2) multidimensional chromatography of proteins followed by two-dimensional electrophoresis and mass spectroscopy (MS) identification of resolved proteins; 3) tryptic digestion and multidimensional chromatography of peptides followed by MS identification; and 4) tryptic digestion and multidimensional chromatography of peptides from low-molecular-mass plasma components followed by MS identification. Of 1,175 nonredundant gene products, 195 were included in more than one of the four input datasets. Only 46 appeared in all four. Predictions of signal sequence and transmembrane domain occurrence, as well as Genome Ontology annotation assignments, allowed characterization of the nonredundant list and comparison of the data sources. The “nonproteomic” literature (468 input proteins) is strongly biased toward signal sequence-containing extracellular proteins, while the three proteomics methods showed a much higher representation of cellular proteins, including nuclear, cytoplasmic, and kinesin complex proteins. Cytokines and protein hormones were almost completely absent from the proteomics data (presumably due to low abundance), while categories like DNA-binding proteins were almost entirely absent from the literature data (perhaps unexpected and therefore not sought). Most major categories of proteins in the human proteome are represented in plasma, with the distribution at successively deeper layers shifting from mostly extracellular to a distribution more like the whole (primarily cellular) proteome. The resulting nonredundant list confirms the presence of a number of interesting candidate marker proteins in plasma and serum. We have merged four different views of the human plasma proteome, based on different methodologies, into a single nonredundant list of 1175 distinct gene products. The methodologies used were 1) literature search for proteins reported to occur in plasma or serum; 2) multidimensional chromatography of proteins followed by two-dimensional electrophoresis and mass spectroscopy (MS) identification of resolved proteins; 3) tryptic digestion and multidimensional chromatography of peptides followed by MS identification; and 4) tryptic digestion and multidimensional chromatography of peptides from low-molecular-mass plasma components followed by MS identification. Of 1,175 nonredundant gene products, 195 were included in more than one of the four input datasets. Only 46 appeared in all four. Predictions of signal sequence and transmembrane domain occurrence, as well as Genome Ontology annotation assignments, allowed characterization of the nonredundant list and comparison of the data sources. The “nonproteomic” literature (468 input proteins) is strongly biased toward signal sequence-containing extracellular proteins, while the three proteomics methods showed a much higher representation of cellular proteins, including nuclear, cytoplasmic, and kinesin complex proteins. Cytokines and protein hormones were almost completely absent from the proteomics data (presumably due to low abundance), while categories like DNA-binding proteins were almost entirely absent from the literature data (perhaps unexpected and therefore not sought). Most major categories of proteins in the human proteome are represented in plasma, with the distribution at successively deeper layers shifting from mostly extracellular to a distribution more like the whole (primarily cellular) proteome. The resulting nonredundant list confirms the presence of a number of interesting candidate marker proteins in plasma and serum. The human plasma proteome is likely to contain most, if not all, human proteins, as well as proteins derived from some viruses, bacteria, and fungi. Many of the human proteins, introduced by low-level tissue leakage, ought to be present at very low concentrations (≪pg/ml), while others, such as albumin, are present in very large amounts (≫mg/ml). Numerous post-translationally modified forms of each protein are likely to be present, along with literally millions of distinct clonal immunoglobulin (Ig) 1The abbreviations used are: Ig, immunoglobulin; MS, mass spectrometry; GO, Genome Ontology; 2DE, two-dimensional electrophoresis; NR, nonredundant; TM, transmembrane; LC, liquid chromatography; MS/MS, tandem MS; IT, ion trap.1The abbreviations used are: Ig, immunoglobulin; MS, mass spectrometry; GO, Genome Ontology; 2DE, two-dimensional electrophoresis; NR, nonredundant; TM, transmembrane; LC, liquid chromatography; MS/MS, tandem MS; IT, ion trap. sequences. This complexity and enormous dynamic range make plasma the most difficult specimen to be dealt with by proteomics (1Anderson N.L. Anderson N.G. The human plasma proteome: History, character, and diagnostic prospects..Mol. Cell. Proteomics. 2002; 1: 845-867Google Scholar). At the same time, plasma is the most generally informative proteome from a medical viewpoint. Almost all cells in the body communicate with plasma directly or through extracellular or cerebrospinal fluids, and many release at least part of their contents into plasma upon damage or death. Some medical conditions, such as myocardial infarction, are officially defined based on the increase of a specific protein in the plasma (e.g. cardiac troponin-T), and it is difficult to argue convincingly that there is any disease state that does not produce some specific pattern of protein change in the body’s working fluid. This immense diagnostic potential has spurred a rapid acceleration in the search for protein disease markers by a wide variety of proteomics strategies. Current methods of proteomics are only beginning to catalog the contents of plasma. Two-dimensional electrophoresis was able to resolve 40 distinct plasma proteins in 1976 (2Anderson L. Anderson N.G. High resolution two-dimensional electrophoresis of human plasma proteins..Proc. Natl. Acad. Sci. U. S. A. 1977; 74: 5421-5425Google Scholar), but, because of the dynamic range problem, this number had only grown to 60 in 1992 (3Hughes G.J. Frutiger S. Paquet N. Ravier F Pasquali C. Sanchez J.C. James R. Tissot J.D. Bjellqvist B. Hochstrasser D.F. Plasma protein map: An update by microsequencing..Electrophoresis. 1992; 13: 707-714Google Scholar) and is substantially unchanged today, a quarter century later. It is now clear that more than two dimensions of conventional resolution are required to progress beyond this point. Recently, several truly multidimensional survey efforts have been mounted, with the result that the number of distinct proteins detected has increased dramatically. Additional dimensions of separation can be introduced at any of three levels: a) separation of intact proteins, either by specific binding (e.g. subtraction of defined high-abundance proteins) or continuous resolution (e.g. electrophoresis or chromatography); b) separation of peptides derived from plasma proteins, either by specific binding (e.g. capture by anti-peptide antibodies) or continuous resolution (e.g. chromatography); and c) separation of peptides, and particularly their fragments, by mass spectrometry (MS). Many possible combinations of these dimensions can be implemented, the only limitations being the effort, cost, and time of analyzing many fractions or runs instead of one. In this article, we have compared and combined data from three different multi-dimensional strategies with data from a fourth, classical source (the protein biochemistry and clinical chemistry literature) to provide a meta-level overview of both the contents and the rate of discovery of new components in plasma. The three experimental datasets are derived from 1) whole protein separation by a three-dimensional process (immunosubtraction/ion exchange/size exclusion) followed by two-dimensional electrophoresis (2DE) followed by MS identification of resolved spots (4Pieper R. Su Q. Gatlin C.L. Huang S.T. Anderson N.L. Steiner S. Multi-component immunoaffinity subtraction chromatography: An innovative step towards a comprehensive survey of the human plasma proteome..Proteomics. 2003; 3: 422-432Google Scholar); 2) Ig subtraction followed by trypsin digestion followed by two-dimensional liquid chromatography (LC) (ion exchange/reversed phase) followed by tandem MS (MS/MS) (5Adkins J.N. Varnum S.M. Auberry K.J. Moore R.J. Angell N.H. Smith R.D. Springer D.L. Pounds J.G. Toward a human blood serum proteome: Analysis by multidimensional separation coupled with mass spectrometry..Mol. Cell. Proteomics. 2002; 1: 947-955Google Scholar); and 3) molecular mass fractionation, followed by trypsin digestion followed by two-dimensional LC (cation exchange/reversed phase) followed by MS/MS (6Tirumalai R.S. Chan K.C. Prieto D.A. Issaq H.J. Conrads T.P. Veenstra T.D. Characterization of the low molecular weight human serum proteome..Mol. Cell. Proteomics. 2003; 2: 1096-1103Google Scholar). These three experimental approaches have two features in common (the removal of most Igs, by specific subtraction or size, and the use of MS for molecular identification) but otherwise they span the gamut of proteomics discovery approaches: separation at the protein level, separation at the tryptic peptide level, and a hybrid. Combining experimental data with literature search results on proteins detected in plasma (representing a large body of accumulated “nonproteomics” data) should provide a broad perspective on plasma contents. Because the same proteins detected by various methods can be referred to by different names or accession numbers, we have used a sequence-based approach to eliminate redundancy and cluster all occurrences of the same protein. The resulting list makes it possible to examine the overlap between the various approaches and to see whether they are biased toward particular classes of proteins. In addition, a pooled nonredundant list should provide a relatively unbiased survey of the kinds of proteins present in plasma, which could have important diagnostic implications. Finally, a large list of proteins actually observed in plasma paves the way for top-down, targeted proteomics approaches to the discovery of disease markers: the development of accurate high-throughput specific assays for selected candidates from this list, as a supplement to the use of single methods for marker discovery in small sample sets. In the longer term, proteins with strong, mechanistic disease relationships may be viable therapeutic candidates as well. Manual Medline searches were performed searching for titles or abstracts containing human plasma or serum proteins, excluding articles on membranes, stimulation, drug, and dose. A total of 468 entries were collected, of which 458 had a human sequence accession number in one or more of the major databases. Intact proteins were fractionated by chromatography and 2DE and identified by MS, generating the dataset described by Pieper et al. (7Pieper R. Gatlin C.L. Makusky A.J. Russo P.S. Schatz C.R. Miller S.S. Su Q. McGrath A.M. Estock M.A. Parmar P.P. Zhao M. Huang S.T. Zhou J. Wang F. Esquer-Blasco R. Anderson N.L. Taylor J. Steiner S. The human serum proteome: Display of nearly 3700 chromatographically separated protein spots on two-dimensional electrophoresis gels and identification of 325 distinct proteins..Proteomics. 2003; 3: 1345-1364Google Scholar). Briefly, human blood sera were obtained in equal volumes from two healthy male donors (ages 40 and 80). Albumin, haptoglobin, transferrin, transthyretin, α-1-anti trypsin, α-1-acid glycoprotein, hemopexin, and α-2-macroglobulin were removed by immunoaffinity chromatography. The immunoaffinity-subtracted serum concentrate was fractionated further by sequential anion exchange and size exclusion chromatography. The resulting 66 samples were individually subjected to 2DE. All visible Coomassie Blue R250 spots were cut out, destained, reduced, alkylated, and digested with trypsin. All extracted peptides were analyzed by matrix-assisted laser desorption/ionization time-of-flight (MALDI-TOF) on a Bruker Biflex or Autoflex mass spectrometer (Bruker, Billerica, MA) and searched against Swiss-Prot. Those samples that did not give positive identification by MALDI-TOF where subjected to LC-MS/MS analysis by ion trap (IT) MS (Thermo Finnegan LCQ, Woburn, MA) and searched against the National Center for Biotechnology Information (NCBI) database using SEQUEST. A published dataset prepared by Adkins et al., (5Adkins J.N. Varnum S.M. Auberry K.J. Moore R.J. Angell N.H. Smith R.D. Springer D.L. Pounds J.G. Toward a human blood serum proteome: Analysis by multidimensional separation coupled with mass spectrometry..Mol. Cell. Proteomics. 2002; 1: 947-955Google Scholar) was used. Briefly, human blood serum was obtained from a healthy anonymous female donor. Igs were depleted by affinity adsorption chromatography using protein A/G. The resulting Ig-depleted plasma was digested with trypsin and separated by strong cation exchange on a polysulfoethyl A column followed by reverse-phase separation on a capillary C18 column. The capillary column was interfaced to an IT-MS (Thermo Finnigan LCQ Deca XP) using electrospray ionization. The IT-MS was configured to perform MS/MS scans on the three most intense precursor masses from a single MS scan. All samples were measured over a mass/charge (m/z) range of 400–2,000, with fractions containing high complexity being measured with segmented m/z ranges. Tandem mass spectra were analyzed by SEQUEST as described using the NCBI May 2002 database. The fourth dataset is that described by Tirumalai et al. (6Tirumalai R.S. Chan K.C. Prieto D.A. Issaq H.J. Conrads T.P. Veenstra T.D. Characterization of the low molecular weight human serum proteome..Mol. Cell. Proteomics. 2003; 2: 1096-1103Google Scholar), focused on the lower-molecular-mass plasma proteome. Briefly standard human serum was purchased from the National Institute of Standards and Technology. High-molecular-mass proteins were removed in the presence of acetonitrile using Centriplus centrifugal filters with a molecular mass cutoff of 30 kDa. The low-molecular-mass filtrate was reduced, alkylated, and digested with trypsin. The digested sample was fractionated by strong cation exchange chromatography on a polysulfoethyl A column. Reversed-phase LC was subsequently performed on 300A Jupiter C-18 column coupled on line to an IT-MS (Thermo Finnegan LCQ Deca XP). Each full MS scan was followed by three MS/MS scans where the three most abundant peptide molecular ions were selected. MS/MS spectra were searched against the a human protein database using SEQUEST. The Blastp protein comparison algorithm (8Altschul S.F. Gish W. Miller W. Myers E.W. Lipman D.J. Basic local alignment search tool..J. Mol. Biol. 1990; 215: 403-410Google Scholar, 9Altschul S.F. Madden T.L. Schaffer A.A. Zhang J. Zhang Z. Miller W. Lipman D.J. Gapped blast and psi-blast: A new generation of protein database search programs..Nucleic Acids Res. 1997; 25: 3389-3402Google Scholar) was used to query the sequence of each protein identified against a database containing the aggregate sequences of all proteins identified by any method. Sequences sharing greater than 95% identity over an aligned region were grouped into “unique sequence clusters.” Sequences were unmasked, and the minimum alignment length considered was 15 aa. This similarity-based approach was sufficient to group identical sequences, sequence fragments, and splice variants. Annotation in the nonredundant table was reported for the “best annotated” protein in the cluster set. Signal peptides were predicted using the commercially available SignalP version 2.0 neural net and hidden Markov model (HMM) algorithms (10Nielsen H. Engelbrecht J. Brunak S. von Heijne G. Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites..Protein Eng. 1997; 10: 1-6Google Scholar) and sigmask (11Swindells M. Rae M. Pearce M. Moodie S. Miller R. Leach P. Application of high-throughput computing in bioinformatics..Philos. Transact. Ser. A. Math. Phys. Eng. Sci. 2002; 360: 1179-1189Google Scholar) signal masking program developed as part of Inpharmatica’s Biopendium (12Michalovich D. Overington J. Fagan R. Protein sequence analysis in silico: Application of structure-based bioinformatics to genomic initiatives..Curr. Opin. Pharmacol. 2002; 2: 574-580Google Scholar) protein annotation database. Each sequence received a score of +1 for a statistically significant positive signal peptide prediction from any of the three algorithms. The scores 0, 1, 2, and 3 for a particular sequence were then converted to qualitative terms “no,” “possible signal,” “signal,” or “signal confident,” respectively. Transmembrane (TM) regions were predicted using the commercial version of TMHMM version 2.0 algorithm (13Krogh A. Larsson B. von Heijne G. Sonnhammer E.L. Predicting transmembrane protein topology with a hidden Markov model: Application to complete genomes..J. Mol. Biol. 2001; 305: 567-580Google Scholar). The total number of TM helices predicted per sequence was reported for each protein sequence. When a predicted TM region overlapped a predicted signal sequence (as it did in 40 cases in H_Plasma_NR_v2), this was interpreted as a signal sequence only. Sequences were scanned against a library of BioPendium and iPSI-BLAST (9Altschul S.F. Madden T.L. Schaffer A.A. Zhang J. Zhang Z. Miller W. Lipman D.J. Gapped blast and psi-blast: A new generation of protein database search programs..Nucleic Acids Res. 1997; 25: 3389-3402Google Scholar, 11Swindells M. Rae M. Pearce M. Moodie S. Miller R. Leach P. Application of high-throughput computing in bioinformatics..Philos. Transact. Ser. A. Math. Phys. Eng. Sci. 2002; 360: 1179-1189Google Scholar)-like protein profiles constructed from SCOP (14Murzin A.G. Brenner S.E. Hubbard T. Chothia C. SCOP: A structural classification of proteins database for the investigation of sequences and structures..J. Mol. Biol. 1995; 247: 536-540Google Scholar), PFAM (15Bateman A. Birney E. Cerruti L. Durbin R. Etwiller L. Eddy S.R. Griffiths-Jones S. Howe K.L. Marshall M. Sonnhammer E.L. The pfam protein families database..Nucleic Acids Res. 2002; 30: 276-280Google Scholar), PRINTS (16Attwood T.K. Bradley P. Flower D.R. Gaulton A. Maudling N. Mitchell A.L. Moulton G. Nordle A. Paine K. Taylor P. Uddin A. Zygouri C. Prints and its automatic supplement, preprints..Nucleic Acids Res. 2003; 31: 400-402Google Scholar), and PROSITE (17Sigrist C.J. Cerutti L. Hulo N. Gattiker A. Falquet L. Pagni M. Bairoch A. Bucher P. PROSITE: A documented database using patterns and profiles as motif descriptors..Brief Bioinform. 2002; 3: 265-274Google Scholar) domain families. Hits to these profiles were reported at a statistical e-value cut-off of 1e-5. This cut-off was chosen to maximize profile coverage and minimize the occurrence of false positives. Sequences were not masked for low complexity or coiled coils prior to profile scanning. NCBI GI number accessions for the sequences were matched to their SPTR (18Boeckmann B. Bairoch A. Apweiler R. Blatter M.C. Estreicher A. Gasteiger E. Martin M.J. Michoud K. O’Donovan C. Phan I. Pilbout S. Schneider M. The Swiss-Prot protein knowledgebase and its supplement TrEMBL in 2003..Nucleic Acids Res. 2003; 31: 365-370Google Scholar) equivalents based on sequences sharing >95% sequence identity over 90% of the query sequence length. GO (19Ashburner M. Ball C.A. Blake J.A. Botstein D. Butler H. Cherry J.M. Davis A.P. Dolinski K. Dwight S.S. Eppig J.T. Harris M.A. Hill D.P. Issel-Tarver L. Kasarskis A. Lewis S. Matese J.C. Richardson J.E. Ringwald M. Rubin G.M. Sherlock G. Gene Ontology: Tool for the unification of biology. The Gene Ontology Consortium..Nat. Genet. 2000; 25: 25-29Google Scholar) component, process, and function terms were then extracted from text-based annotation files available for download from the GO database ftp site: ftp.geneontology.org/pub/go/gene-associations/gene_association.goa_human. For graphical reporting, a series of GO terms in each category were extracted by text searching of relevant keywords (indicated by the category names on plots) through all the assigned GO definitions. A GO component summary for the whole human proteome was prepared by applying the same approach to the complete GO human database referred to above. The nonredundant (NR) plasma database was assembled as a series of tables in a PostgreSQL relational database and queried to derive summary statistics for tables and figures shown here. Four sets of accession numbers for proteins occurring in plasma (468 from Lit, 319 from 2DEMS, 607 [reported as 490 nonredundant accessions] from LCMS1, and 341 from LCMS2) were combined to yield 1,735 total initial accessions (Table I). A total of 55 of the input accessions referred to nonhuman sequences, and these were not considered further in the present analysis. A very conservative method of selecting distinct proteins was used in order to avoid counting sequence variants, splice variants, or cleavage products of one gene product as different: any sequences that shared a region larger than 15 aa with greater than 95% sequence identity were assigned to the same cluster and reported as a single entry in the nonredundant set. Fig. 1 shows one result of applying these criteria, in this case resulting in the assignment of 10 initial accessions to a single cluster for haptoglobin, a major plasma protein found in all four initial datasets and whose three separate subunit types are derived from a single translation product. This case also highlights the general observation that not all datasets used the same primary accession database (NCBI GI, Swiss-Prot, or RefSeq as examples). The largest cluster (109 “redundant” entries) is accounted for by Igs, where all the Ig heavy and light chains of all types were clustered together as one entry arbitrarily chosen as S40354 (an Ig κ chain sequence). Thus 6.2% of the input accessions were Igs, despite the fact that each of the experimental methods included steps to remove these molecules.Table IProtein redundancy within and between datasetsLitLCMS1LCMS22DEMSTotalBeginning accessions4686073413191735Minus nonhuman4585803303121680Minus intrasource redundancy and nonhuman accessions4334753182831509Unique to source in NR284334221141980Total combined NR list––––1175 Open table in a new tab This approach is more conservative (fewer distinct proteins reported) than the methods used in some of the input data sources, which accounts for the decrease in each set when intra-set redundancy is removed (1,509 human accessions remain). When inter-set redundancies are removed (making the full list nonredundant by the criteria described above), a total of 1,175 distinct proteins remain. The entire nonredundant set, here abbreviated H_Plasma_NR_v2 (H_Plasma_NR_v1 being Table I of Ref. 1Anderson N.L. Anderson N.G. The human plasma proteome: History, character, and diagnostic prospects..Mol. Cell. Proteomics. 2002; 1: 845-867Google Scholar), is provided as a supplemental data table. Of these, a total of 980 occur in only one source. Because so many entries occur only once, and given the non-zero frequency of false MS identifications, independent confirmation will be required to validate most of this list as true plasma components. Of the 1,175 nonredundant human proteins in H_Plasma_NR_v2, 195 entries, or 17%, were present in more than one dataset (set H_Plasma_195: Fig. 2 and Table II). Only 46 (4%) were found in all four sets of accessions (Total_sources = 4, shown in bold type in Table II). Of these only one (inter-α trypsin inhibitor heavy chain H1) is predicted to have even a single transmembrane domain, and only one (the hemoglobin β chain presumably released from red cell lysis) is predicted not to have a signal sequence. These characteristics (presence of signal sequence and absence of transmembrane domains) are those expected for major plasma proteins secreted by organs such as the liver.Table IIPlasma proteins detected in at least two datasetsAccessionLit2DEMSLCMS1LCMS2Total_accessionsTotal_sourcesSignalTMDescriptionP10809101133No060-kDa heat shock protein, mitochondrial precursor (Hsp60) (60-kDa chaperonin) (CPN60) (Heat shock protein 60) (HSP-60) (mitochondrial matrix protein P1) (P60 lymphocyte protein) (hucha60)AAB27045001122Possible signal070-kDa peroxisomal membrance protein homolog (internal fragment)P02570240283No0Actin, cytoplasmic 1 (β-actin)Q15848110022Signal confident0Adiponectin precursor (30-kDa adipocyte complement-related protein) (ACRP30) (adipose most abundant gene transcript 1) (apm-1) (gelatin-binding protein)NP_001124011022Signal confident0Afamin precursor; α-albumin (Homo sapiens)P02763111033Signal confident0α-1-acid glycoprotein 1 precursor (AGP 1) (orosomucoid 1) (OMD 1)P01011112043Signal confident0α-1-antichymotrypsin precursor (ACT)P01009111144Signal confident0α-1-antitrypsin precursor (α-1 protease inhibitor) (α-1-antiproteinase) (PRO0684/PRO2209)P04217111033No0α-1B-glycoprotein precursor (α-1-B glycoprotein)P08697111144Signal0α-2-antiplasmin precursor (α-2-plasmin inhibitor) (α-2-PI) (α-2-AP)P02765111144Signal confident0α-2-HS-glycoprotein precursor (Fetuin-A) (α-2-Z-globulin) (Ba-α-2-glycoprotein) (PRO2743)P01023112154Signal confident0α-2-macroglobulin precursor (α-2-M)P02760111033Signal confident0AMBP protein precursor [contains α-1-microglobulin (protein HC) (complex-forming glycoprotein heterogeneous in charge) (α-1 microglycoprotein); inter-α-trypsin inhibitor light chain (ITI-LC) (bikunin) (HI-30)]P01019111144Signal0Angiotensinogen precursor [contains angiotensin I (Ang I); angiotensin II (Ang II); angiotensin III (Ang III) (Des-Asp[1]-angiotensin II)]P01008111144Signal0Antithrombin-III precursor (ATIII) (PRO0309)P02647112264Signal confident0Apolipoprotein A-I precursor (Apo-AI)P02652111144Signal confident0Apolipoprotein A-II precursor (Apo-AII) (apoa-II)P06727111254Signal confident0Apolipoprotein A-IV precursor (Apo-AIV)P04114112043Signal confident0Apolipoprotein B-100 precursor (Apo B-100) [contains: apolipoprotein B-48 (Apo B-48)]P02655111144Signal confident0Apolipoprotein C-II precursor (Apo-CII)P02656111144Signal confident0Apolipoprotein C-III precursor (Apo-CIII)P05090111144Signal confident0Apolipoprotein D precursor (Apo-D) (apod)P02649132174Signal confident0Apolipoprotein E precursor (Apo-E)Q13790111144Signal confident0Apolipoprotein F precursor (Apo-F)O14791111144Signal0Apolipoprotein L1 precursor (apolipoprotein L-I) (apolipoprotein L) (apol-I) (Apo-L) (apol)P08519101022Signal0Apolipoprotein(a) precursor (EC 3.4.21.−) (Apo(a)) (Lp(a))P06576011022Possible signal0ATP synthase β chain, mitochondrial precursor (EC 3.6.3.14)P01160101022Signal confident0Atrial natriuretic factor precursor (ANF) (atrial natriuretic peptide) (ANP) (prepronatriodilatin) [contains: cardiodilatin-related peptide (CDP)]P02749111144Signal confident0β-2-glycoprotein I precursor (apolipoprotein H) (Apo-H) (B2GPI) (β(2)GPI) (activated protein C-binding protein) (APC inhibitor)P01884100122Signal confident0β-2-microglobulin precursorI39467001122No0Bullous pemphigoid antigen, human (fragment)P04003111033Signal0C4b-binding protein α chain precursor (c4bp) (proline-rich protein) (PRP)P20851110022Signal confident0C4b-binding protein β chain precursorP05109110022No0Calgranulin A (Migration inhibitory factor-related protein 8) (MRP-8) (cystic fibrosis antigen) (CFAG) (P8) (leukocyte L1 complex light chain) (S100 calcium-binding protein A8) (calprotectin L1L subunit)NP_001729011022No0Carbonic anhydrase I; carbonic dehydratase (Homo sapiens)P22792111033No0Carboxypeptidase N 83-kDa chain (carboxypeptidase N regulatory subunit) (fragment)P15169110022Signal0Carboxypeptidase N catalytic chain precursor (EC 3.4.17.3) (arginine carboxypeptidase) (kinase 1) (serum carboxypeptidase N) (SCPN) (anaphylatoxin inactivator) (plasma carboxypeptidase B)P07339110022Signal confident0Cathepsin D precursor (EC 3.4.23.5)P07711110022Signal confident0Cathepsin L precursor (EC 3.4.22.15) (major excreted protein) (MEP)P25774010122Signal confident0Cathepsin S precursor (EC 3.4.22.27)NP_005185001122No0CCAAT/enhancer binding protein β, interleukin 6-dependentO43866110022Signal confident0CD5 antigen-like precursor (SP-α) (CT-2) (igm-associated peptide)NP_005187002132No0Centromere protein F (350/400kd, mitosin); mitosin; centromereP00450111144Signal confident0Ceruloplasmin precursor (EC 1.16.3.1) (ferroxidase)NP_006421001122No0Chaperonin containing TCP1, subunit 4 (δ); chaperoninNP_004061001122No10Chloride channel Ka; chloride channel, kidney, A; hclc-Ka (Homo sapiens)P06276110022Signal confident1Cholinesterase precursor (EC 3.1.1.8) (acylcholine acylhydrolase) (choline esterase II) (butyrylcholine esterase) (pseudocholinesterase)P10909111144Signal confident0Clusterin precursor (complement-associated protein SP-40,40) (complement cytolysis inhibitor) (CLI) (NA1 and NA2) (apolipoprotein J) (Apo-J) (TRPM-2)P00740110133Signal0Coagulation factor IX precursor (EC 3.4.21.22) (Christmas factor)P12259101133Signal confident0Coagulation factor V precursor (activated protein C cofactor)P00451101022Signal0Coagulation factor VIII precursor (procoagulant component) (antihemophilic factor) (AHF)P00742110022Signal confident0Coagulation factor X precursor (EC 3.4.21.6) (Stuart factor)P00748111144Signal confident0Coagulation factor XII precursor (EC 3.4.21.38) (Hageman factor) (HAF)P00488110133No0Coagulation factor XIII A chain precursor (EC 2.3.2.13) (protein-glutamine γ-glutamyltransferase A chain) (transglutaminase A chain)P05160111033Signal confident0Coagulation facto
0

Toward a Human Blood Serum Proteome

Joshua Adkins et al.Dec 1, 2002
Blood serum is a complex body fluid that contains various proteins ranging in concentration over at least 9 orders of magnitude. Using a combination of mass spectrometry technologies with improvements in sample preparation, we have performed a proteomic analysis with submilliliter quantities of serum and increased the measurable concentration range for proteins in blood serum beyond previous reports. We have detected 490 proteins in serum by on-line reversed-phase microcapillary liquid chromatography coupled with ion trap mass spectrometry. To perform this analysis, immunoglobulins were removed from serum using protein A/G, and the remaining proteins were digested with trypsin. Resulting peptides were separated by strong cation exchange chromatography into distinct fractions prior to analysis. This separation resulted in a 3–5-fold increase in the number of proteins detected in an individual serum sample. With this increase in the number of proteins identified we have detected some lower abundance serum proteins (ng/ml range) including human growth hormone, interleukin-12, and prostate-specific antigen. We also used SEQUEST to compare different protein databases with and without filtering. This comparison is plotted to allow for a quick visual assessment of different databases as a subjective measure of analytical quality. With this study, we have performed the most extensive analysis of serum proteins to date and laid the foundation for future refinements in the identification of novel protein biomarkers of disease. Blood serum is a complex body fluid that contains various proteins ranging in concentration over at least 9 orders of magnitude. Using a combination of mass spectrometry technologies with improvements in sample preparation, we have performed a proteomic analysis with submilliliter quantities of serum and increased the measurable concentration range for proteins in blood serum beyond previous reports. We have detected 490 proteins in serum by on-line reversed-phase microcapillary liquid chromatography coupled with ion trap mass spectrometry. To perform this analysis, immunoglobulins were removed from serum using protein A/G, and the remaining proteins were digested with trypsin. Resulting peptides were separated by strong cation exchange chromatography into distinct fractions prior to analysis. This separation resulted in a 3–5-fold increase in the number of proteins detected in an individual serum sample. With this increase in the number of proteins identified we have detected some lower abundance serum proteins (ng/ml range) including human growth hormone, interleukin-12, and prostate-specific antigen. We also used SEQUEST to compare different protein databases with and without filtering. This comparison is plotted to allow for a quick visual assessment of different databases as a subjective measure of analytical quality. With this study, we have performed the most extensive analysis of serum proteins to date and laid the foundation for future refinements in the identification of novel protein biomarkers of disease. Serum, derived from plasma with clotting factors removed, contains 60–80 mg of protein/ml in addition to various small molecules including salts, lipids, amino acids, and sugars (1.Burtis C.A. Ashwood E.R. Tietz Fundamentals of Clinical Chemistry. 5th Ed. W. B. Saunders Company, Philadelphia, PA2001Google Scholar). The major protein constituents of serum include albumin, immunoglobulins, transferrin, haptoglobin, and lipoproteins (1.Burtis C.A. Ashwood E.R. Tietz Fundamentals of Clinical Chemistry. 5th Ed. W. B. Saunders Company, Philadelphia, PA2001Google Scholar, 2.Turner M.W. Hulme B. The Plasma Proteins: An Introduction. Pitman Medical & Scientific Publishing Co., Ltd., London1970Google Scholar). In addition to these major constituents, serum also contains many other proteins that are synthesized and secreted, shed, or lost from cells and tissues throughout the body (3.Schrader M. Schulz-Knappe P. Peptidomics technologies for human body fluids.Trends Biotechnol. 2001; 19: S55-S60Abstract Full Text Full Text PDF Google Scholar, 4.Kennedy S. Proteomic profiling from human samples: the body fluid alternative.Toxicol. Lett. 2001; 120: 379-384Google Scholar). It is estimated that up to 10,000 proteins may be commonly present in serum, most of which would be present at very low relative abundances (5.Wrotnowski C. The future of plasma proteins.Genet. Eng. News. 1998; 18: 14Google Scholar). Historically, two-dimensional PAGE has been the primary method of separation and comparison for complex protein mixtures. This method has been critical in developing our understanding of the complexity and variety of proteins contained in cells and bodily fluids. Two-dimensional PAGE has been used to analyze serum and plasma (the unclotted parent fluid of serum) (6.Eberini I. Agnello D. Miller I. Villa P. Fratelli M. Ghezzi P. Gemeiner M. Chan J. Aebersold R. Gianazza E. Proteins of rat serum V: adjuvant arthritis and its modulation by nonsteroidal anti-inflammatory drugs.Electrophoresis. 2000; 21: 2170-2179Google Scholar, 7.Eberini I. Miller I. Zancan V. Bolego C. Puglisi L. Gemeiner M. Gianazza E. Proteins of rat serum IV. Time-course of acute-phase protein expression and its modulation by indomethacine.Electrophoresis. 1999; 20: 846-853Google Scholar, 8.Haynes P. Miller I. Aebersold R. Gemeiner M. Eberini I. Lovati M.R. Manzoni C. Vignati M. Gianazza E. Proteins of rat serum: I. establishing a reference two-dimensional electrophoresis map by immunodetection and microbore high performance liquid chromatography-electrospray mass spectrometry.Electrophoresis. 1998; 19: 1484-1492Google Scholar, 9.Edwards J.J. Anderson N.G. Nance S.L. Anderson N.L. Red cell proteins. I. two-dimensional mapping of human erythrocyte lysate proteins.Blood. 1979; 53: 1121-1132Google Scholar, 10.Anderson L. Anderson N.G. High resolution two-dimensional electrophoresis of human plasma proteins.Proc. Natl. Acad. Sci. U. S. A. 1977; 74: 5421-5425Google Scholar, 11.Miller I. Haynes P. Gemeiner M. Aebersold R. Manzoni C. Lovati M.R. Vignati M. Eberini I. Gianazza E. Proteins of rat serum: II. influence of some biological parameters of the two-dimensional electrophoresis pattern.Electrophoresis. 1998; 19: 1493-1500Google Scholar, 12.Miller I. Haynes P. Eberini I. Gemeiner M. Aebersold R. Gianazza E. Proteins of rat serum: III. gender-related differences in protein concentration under baseline conditions and upon experimental inflammation as evaluated by two-dimensional electrophoresis.Electrophoresis. 1999; 20: 836-845Google Scholar, 13.Peters Jr., T. Intracellular precursor forms of plasma proteins: their functions and possible occurrence in plasma.Clin. Chem. 1987; 33: 1317-1325Google Scholar). Although impressive improvements in two-dimensional PAGE technologies have occurred in recent years, limitations remain. Two-dimensional PAGE is labor-intensive, requires relatively large sample quantities, is poorly reproducible, has a limited dynamic range for protein detection, and has difficulties in detecting proteins with extremes in molecular mass and isoelectric point (14.Rabilloud T. Two-dimensional gel electrophoresis in proteomics: old, old fashioned, but it still climbs up the mountains.Proteomics. 2002; 2: 3-10Google Scholar). To address these limitations several types of mass spectrometry, in conjunction with various separation and analysis methods, are increasingly being adopted for proteomic measurements (15.Conrads T.P. Alving K. Veenstra T.D. Belov M.E. Anderson G.A. Anderson D.J. Lipton M.S. Pasa-Tolic L. Udseth H.R. Chrisler W.B. Thrall B.D. Smith R.D. Quantitative analysis of bacterial and mammalian proteomes using a combination of cysteine affinity tags and 15N-metabolic labeling.Anal. Chem. 2001; 73: 2132-2139Google Scholar, 16.Link A.J. Eng J. Schieltz D.M. Carmack E. Mize G.J. Morris D.R. Garvik B.M. Yates III, J.R. Direct analysis of protein complexes using mass spectrometry.Nat. Biotechnol. 1999; 17: 676-682Google Scholar, 17.Raida M. Schulz-Knappe P. Heine G. Forssmann W.G. Liquid chromatography and electrospray mass spectrometric mapping of peptides from human plasma filtrate.J. Am. Soc. Mass Spectrom. 1999; 10: 45-54Google Scholar, 18.Liotta L.A. Kohn E.C. Petricoin E.F. Clinical proteomics: personalized molecular medicine.J. Am. Med. Assoc. 2001; 286: 2211-2214Google Scholar, 19.Smith R.D. Evolution of ESI-mass spectrometry and Fourier transform ion cyclotron resonances for proteomics and other biological applications.Int. J. Mass Spectrom. 2000; 200: 509-544Google Scholar, 20.Yates III, J.R. Mass spectrometry. From genomics to proteomics.Trends Genet. 2000; 16: 5-8Google Scholar, 21.Wu S.-L. Amato H. Biringer R. Choudhary G. Shieh P. Hancock W.S. Targeted proteomics of low-level proteins in human plasma by LC/MSn: using human growth hormone as a model system.J. Proteome Res. 2002; 1: 459-465Google Scholar, 22.Bergquist J. Palmblad M. Wetterhall M. Hakansson P. Markides K.E. Peptide mapping of proteins in human body fluids using electrospray ionization Fourier transform ion cyclotron resonance mass spectrometry.Mass Spectrom. Rev. 2002; 21: 2-15Google Scholar). One of the driving forces in proteomics is the discovery of biomarkers, proteins that change in concentration or state in associations with a specific biological process or disease. Determination of concentration changes, relative or absolute, is fundamental to the discovery of valid biomarkers. The presence of higher abundance proteins (greater than mg/ml in serum) interferes with the identification and quantification of lower abundance proteins (lower than ng/ml in serum). Other methods such as two-dimensional PAGE have been used to demonstrate that the removal or separation of high abundance proteins enables greatly improved detection of lower abundance proteins (10.Anderson L. Anderson N.G. High resolution two-dimensional electrophoresis of human plasma proteins.Proc. Natl. Acad. Sci. U. S. A. 1977; 74: 5421-5425Google Scholar, 11.Miller I. Haynes P. Gemeiner M. Aebersold R. Manzoni C. Lovati M.R. Vignati M. Eberini I. Gianazza E. Proteins of rat serum: II. influence of some biological parameters of the two-dimensional electrophoresis pattern.Electrophoresis. 1998; 19: 1493-1500Google Scholar, 17.Raida M. Schulz-Knappe P. Heine G. Forssmann W.G. Liquid chromatography and electrospray mass spectrometric mapping of peptides from human plasma filtrate.J. Am. Soc. Mass Spectrom. 1999; 10: 45-54Google Scholar, 23.Georgiou H.M. Rice G.E. Baker M.S. Proteomic analysis of human plasma: failure of centrifugal ultrafiltration to remove albumin and other high molecular weight proteins.Proteomics. 2001; 1: 1503-1506Google Scholar). The necessity of this removal or separation is also illustrated by noting that many proteins found useful as biomarkers for malignant and non-malignant disease (e.g. C-reactive protein, osteopontin, and prostate-specific antigen) are below 10 ng/ml, a value that is at least 7–8 orders of magnitude less than the most abundant serum proteins (1.Burtis C.A. Ashwood E.R. Tietz Fundamentals of Clinical Chemistry. 5th Ed. W. B. Saunders Company, Philadelphia, PA2001Google Scholar). Thus, the dynamic range typified by traditional proteomic methods are inadequate to allow for detection of these lower abundance serum proteins, or biomarkers, without effective removal or separation of the high abundance proteins. One problem associated with any protein separation technique is that low abundance proteins may be removed along with the abundant species (24.Scopes R.K. Protein Purification: Principles and Practice. 3rd Ed. Springer-Verlag, New York1994Google Scholar). Albumin is a protein of very high abundance in serum (35–50 mg/ml) that would be a prime candidate for complete selective removal prior to performing a proteomic analysis of lower abundance proteins. However, albumin is a transport protein in blood serum that binds a large variety of compounds including hormones, lipoproteins, and amino acids (1.Burtis C.A. Ashwood E.R. Tietz Fundamentals of Clinical Chemistry. 5th Ed. W. B. Saunders Company, Philadelphia, PA2001Google Scholar, 25.Ritchie R.F. Navolotskaia O. Serum Proteins in Clinical Medicine. 1st Ed. Vol. 1, Foundation for Blood Research, Scarborough, ME1996Google Scholar, 26.Beutler E. Williams W.J. Williams Hematology. 5th Ed. McGraw-Hill Inc. Health Professions Division, New York1995Google Scholar). Thus, removal of albumin from serum may also result in the specific removal of low abundance cytokines, peptide hormones, and lipoproteins of interest. Immunoglobulins, or antibodies, are also abundant proteins in serum that function by recognizing “foreign” antigens in blood and initiating their destruction. To recognize this enormous variety of antigens present in blood, immunoglobulins contain variable regions (1.Burtis C.A. Ashwood E.R. Tietz Fundamentals of Clinical Chemistry. 5th Ed. W. B. Saunders Company, Philadelphia, PA2001Google Scholar, 25.Ritchie R.F. Navolotskaia O. Serum Proteins in Clinical Medicine. 1st Ed. Vol. 1, Foundation for Blood Research, Scarborough, ME1996Google Scholar, 27.Anderson N.L. Anderson N.G. The human plasma proteome: history, character, and diagnostic prospects.Mol. Cell. Proteomics. 2002; 1: 845-867Google Scholar). These variable regions are a source of random peptide sequence in serum that can complicate protein identifications from peptide sequences. Therefore, with immunoglobulins binding foreign materials and the random nature of sequences from their variable regions, removal of immunoglobulins is important for a proteomic analysis of serum. The purpose of this investigation was to establish new preparative methods to remove or separate high abundance serum proteins and to apply new proteomic approaches that increase the dynamic range available for the identification and characterization of serum proteins. These methods include the use of protein A/G covalently bound to acrylamide beads to selectively remove immunoglobulins, described earlier as a significant source of sequence variability found in serum. Further, these methods include the separation of trypsin-digested peptides prior to mass spectrometric analysis using both strong cation exchange (SCX) 1The abbreviations used are: SCX, strong cation exchange; HUPO, Human Proteome Organization; LC, liquid chromatography; MS, mass spectrometry; MS/MS, tandem mass spectrometry; NCBI, National Center for Biotechnology Information.1The abbreviations used are: SCX, strong cation exchange; HUPO, Human Proteome Organization; LC, liquid chromatography; MS, mass spectrometry; MS/MS, tandem mass spectrometry; NCBI, National Center for Biotechnology Information. chromatography and capillary gradient reversed-phase liquid chromatography. This investigation identifies a large number of proteins (490) from a single (submilliliter) serum sample and further provides the foundation for future studies with clinically important disease states. The human blood serum was acquired from a healthy anonymous female donor (Donor No. M99869) (Golden West Biologicals, Temecula, CA). Immediately after collection, plasma was isolated from whole blood without anti-coagulants by centrifugation. The plasma supernatant was allowed to clot overnight at room temperature, and the clotted material was removed by centrifugation under sterile conditions. Upon receipt at our laboratory, the serum was aliquoted into 1-ml units and stored at −80 °C. In subsequent preparation steps, proteins were detected, and concentrations were estimated, where appropriate, using denaturing (SDS) polyacrylamide gel electrophoresis with GELCODE blue staining (Pierce catalog no. 24590), absorbance at 280 nm, and/or with a Bradford protein assay using bovine serum albumin (BSA) as a protein standard (24.Scopes R.K. Protein Purification: Principles and Practice. 3rd Ed. Springer-Verlag, New York1994Google Scholar, 28.Bradford M.M. A rapid and sensitive method for the quantitation of microgram quantities of protein utilizing the principle of protein-dye binding.Anal. Biochem. 1976; 72: 248-254Google Scholar). The immunoglobulins (Igs) were depleted by affinity adsorption chromatography using protein A/G. 500 μl of serum was diluted with an equal amount of 20 mm sodium phosphate, pH 8.0 and added to UltraLink Immobilized protein A/G beads (2:1, v/v) (Pierce) that had been equilibrated with 20 mm sodium phosphate, pH 8.0. This mixture was incubated with gentle rocking for 2 h at 25 °C. Immunoglobulin-depleted serum was separated from the protein A/G beads by centrifugation. The beads were washed three times with 5 volumes of PBS (150 mm NaCl, 10 mm sodium phosphate, pH 7.3), and the washes were pooled with the immunoglobulin-depleted serum. The diluted immunoglobulin-depleted serum sample was then dialyzed into 10 mm HCO3NH4, 5% acetonitrile, pH 7.5, digested with trypsin 1:50 (w/w) ratio (Promega, Madison, WI) for 2 h at 37 °C, and lyophilized. Lyophilized, immunoglobulin-depleted serum peptides were resuspended in 2 ml of 75% 10 mm ammonium formate, 25% acetonitrile, pH 3.0 with formic acid. The sample was centrifuged to remove insoluble debris and then separated using an LC gradient ion exchange system consisting of a quaternary gradient pump (ThermoSeparations P4000, San Jose, CA) equipped with a polysulfoethyl A column (5 μm, 300 Å, PolyLC, Columbia, MD). Mobile phase A consisted of 75% 10 mm ammonium formate, 25% acetonitrile, pH 3.0 with formic acid, and mobile phase B was 75% 200 mm ammonium formate, 25% acetonitrile, pH 8.0. The column was initially loaded (2-ml injection loop) and equilibrated for 5 min with 0% B. Peptides were eluted using a linear gradient of 0–100% B over 30 min, and the column was subsequently washed at 100% B for an additional 25 min all at a flow rate of 4 ml/min. The column effluent was monitored at 280 nm with a Linear 200 UV detector (Micro-Tech Scientific, Sunnyvale, CA), and a total of 120 fractions were collected at 30-s intervals using a FRAC-100 (Amersham Biosciences). Collected fractions were lyophilized and stored at −80 °C for reversed-phase LC/MS/MS analysis. Reversed-phase separation was performed with an Agilent 1100 capillary high pressure liquid chromatography system with a 60-cm capillary column (150-μm inner diameter × 360-μm outer diameter, Polymicro Technologies, Phoenix, AZ) packed with 5-μm Jupiter C18 particles (Phenomenex, Torrance, CA). Mobile phase A consisted of water and 0.1% formic acid, and mobile phase B consisted of acetonitrile and 0.1% formic acid. SCX fractions were dissolved in 50 μl of water, 0.1% formic acid. Peptides were injected on the column in 8 μl at a flow rate of 1.8 μl/min, and the column was re-equilibrated with 5% B for 20 min. Peptides were eluted with a linear gradient from 5 to 70% B over 80 min. The capillary column was interfaced to an LCQ Deca XP ion trap mass spectrometer (ThermoFinnigan, San Jose, CA) using electrospray ionization. The mass spectrometer was configured to optimize the duty cycle length with the quality of data acquired by alternating between a single full MS scan followed by three MS/MS scans on the three most intense precursor masses (as determined by Xcaliber mass spectrometer software in real time) from the single parent full scan. Dynamic mass exclusion windows were used and varied from 3 to 9 min. In addition, MS spectra for all samples were measured with an overall mass/charge (m/z) range of 400–2000. Fractions 21, 34, 39, 46, and 53, which contained high peptide concentrations, were re-analyzed three times using overlapping m/z ranges of 500–1050, 1000–1550, and 1500–2000, respectively. These segmented mass range analyses also utilized static mass exclusion lists that removed m/z precursors corresponding to the 20 most abundant peptides that were observed in the initial unsegmented analysis. Tandem mass spectra were analyzed by SEQUEST (Bioworks 2.0, ThermoFinnigan) (16.Link A.J. Eng J. Schieltz D.M. Carmack E. Mize G.J. Morris D.R. Garvik B.M. Yates III, J.R. Direct analysis of protein complexes using mass spectrometry.Nat. Biotechnol. 1999; 17: 676-682Google Scholar, 29.Yates III, J.R. Carmack E. Hays L. Link A.J. Eng J.K. Automated protein identification using microcolumn liquid chromatography-tandem mass spectrometry.Methods Mol. Biol. 1999; 112: 553-569Google Scholar, 30.Yates III, J.R. McCormack A.L. Eng J.K. Mining genomes with MS.Anal. Chem. 1996; 68: 534-540Google Scholar, 31.Washburn M.P. Wolters D. Yates III, J.R. Large-scale analysis of the yeast proteome by multidimensional protein identification technology.Nat. Biotechnol. 2001; 19: 242-247Google Scholar, 32.Eng J.K. Mccormack A.L. Yates J.R. An approach to correlate tandem mass-spectral data of peptides with amino-acid-sequences in a protein database.J. Am. Soc. Mass Spectrom. 1994; 5: 976-989Google Scholar), which performs its analyses by cross-correlating experimentally acquired mass spectra with theoretical idealized mass spectra generated from a database of protein sequences. These idealized spectra are weighted largely with b and y fragment ions, i.e. fragments resulting from the amide linkage bond from the N and C termini, respectively. For these analyses, no enzyme rule restrictions were applied to the possible cleavage points available for peptide generation from the initial proteins, allowing identifications resulting from non-tryptic cleavage to be observed as well. The peptide mass tolerance was 3.0, and the fragment ion tolerance was 0.0. SEQUEST analysis was performed using a modified version of the human FASTA protein database provided with SEQUEST (ThermoFinnigan). Database modifications included the removal of viral proteins and the removal of some redundant protein entries as well as minimizing the number of entries for abundant serum proteins (13.Peters Jr., T. Intracellular precursor forms of plasma proteins: their functions and possible occurrence in plasma.Clin. Chem. 1987; 33: 1317-1325Google Scholar). Additional analyses were conducted using the National Center for Biotechnology Information (NCBI) human protein database 2NCBI, Hs GenBank™ Protein Databases ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/protein/. and the Unigene human database 3NCBI, Hs Unigene Contig Databases ftp.ncbi.nlm.nih.gov/repository/UniGene/. to determine whether important abundant serum proteins were missing from our modified database. Use of the additional various human databases did not alter the vast majority of SEQUEST peptide identifications. The use of the larger databases did result in an expected decrease in magnitude of the SEQUEST DelCN score in a fraction of peptide identifications. Most peptides not found in the smaller supplied database did not pass subsequent filters including visual inspection of fragmentation spectra (data not shown), and in the case of the Unigene database analysis required up to 2 weeks to finish on a modern PC. Currently no complete human protein database has been compiled, and one is not likely to exist for a number of years (35.Harrison P.M. Kumar A. Lang N. Snyder M. Gerstein M. A question of size: the eukaryotic proteome and the problems in defining it.Nucleic Acids Res. 2002; 30: 1083-1090Google Scholar). Thus, the modified database was considered to be an adequate resource for this initial blood serum proteome analysis after comparisons to the NCBI and Unigene databases. 2NCBI, Hs GenBank™ Protein Databases ftp.ncbi.nlm.nih.gov/genomes/H_sapiens/protein/., 3NCBI, Hs Unigene Contig Databases ftp.ncbi.nlm.nih.gov/repository/UniGene/. Of concern with a shotgun proteomic approach is whether assumptions made for simple cases continue to apply with higher levels of complexity. To address the question for database choice, we sought to analyze LC/MS/MS results using a smaller database containing very few peptides with sequence identity to human proteins but still retaining the level of complexity observed in a complete genome. A locally available Deinococcus radiodurans FASTA database derived from the open reading frames of a completely sequenced genome (15.Conrads T.P. Alving K. Veenstra T.D. Belov M.E. Anderson G.A. Anderson D.J. Lipton M.S. Pasa-Tolic L. Udseth H.R. Chrisler W.B. Thrall B.D. Smith R.D. Quantitative analysis of bacterial and mammalian proteomes using a combination of cysteine affinity tags and 15N-metabolic labeling.Anal. Chem. 2001; 73: 2132-2139Google Scholar) was used to generate SEQUEST analyses to compare against the human database-derived results. Five SCX fractions (fractions 21, 34, 39, 46, and 53) that contained the greatest number of fully tryptic peptides were analyzed against the D. radiodurans database for this comparison. SEQUEST results were filtered (Table I) with criteria similar to those developed by Yates and co-workers (31.Washburn M.P. Wolters D. Yates III, J.R. Large-scale analysis of the yeast proteome by multidimensional protein identification technology.Nat. Biotechnol. 2001; 19: 242-247Google Scholar, 36.Wolters D.A. Washburn M.P. Yates III, J.R. An automated multidimensional protein identification technology for shotgun proteomics.Anal. Chem. 2001; 73: 5683-5690Google Scholar). Serum proteins in circulation are frequently found cleaved by chymotrypsin and elastase (37.Richter R. Schulz-Knappe P. Schrader M. Standker L. Jurgens M. Tammen H. Forssmann W.G. Composition of the peptide fraction in human blood plasma: database of circulating human peptides.J. Chromatogr. B Biomed. Sci. Appl. 1999; 726: 25-35Google Scholar). Thus, while trypsin was used to digest the serum proteins, the SEQUEST data filter was modified to allow for identification of peptides resulting from both chymotrypsin and elastase cleavage sites. The chymotrypsin and elastase filter levels were derived by comparing the SEQUEST-identified tryptic peptides to the identified non-tryptic albumin peptides. The high abundance and globular nature of albumin represented a useful reference for defining non-tryptic filter parameters. The resulting filters were those that resulted in four or more hits for any non-tryptic albumin peptide. These filters further resulted in 33 non-tryptic cleavage sites of the 133 total albumin cleavage sites.Table IConservative filter parameters for SEQUEST resultsChargeXcorrPeptide type+1≥1.9Fully tryptic+1≥2.1Chymotryptic and/or elastic+1≥2.2Partially tryptic, chymotryptic, and/or elastic+2≥2.2Fully tryptic+2≥2.4Partially tryptic, chymotryptic, and/or elastic+2≥3.0No protease rules+3≥3.75Tryptic, chymotryptic, and/or elastic only Open table in a new tab The final filter parameters used to determine cross-correlation (Xcorr) cut-off values took into account both the charge state of the peptide and the proteolytic cleavage rules as shown in Table I. Additionally, a minimum value of 0.1 was used for DelCN, indicating that SEQUEST was readily able to distinguish between its first and second choices for identification (32.Eng J.K. Mccormack A.L. Yates J.R. An approach to correlate tandem mass-spectral data of peptides with amino-acid-sequences in a protein database.J. Am. Soc. Mass Spectrom. 1994; 5: 976-989Google Scholar). When three or fewer peptides for an individual protein passed the criteria shown in Table I, the mass spectra for those peptides were inspected manually. Manual inspection was performed using four criteria generally accepted as means for assessment of spectral quality (16.Link A.J. Eng J. Schieltz D.M. Carmack E. Mize G.J. Morris D.R. Garvik B.M. Yates III, J.R. Direct analysis of protein complexes using mass spectrometry.Nat. Biotechnol. 1999; 17: 676-682Google Scholar, 36.Wolters D.A. Washburn M.P. Yates III, J.R. An automated multidimensional protein identification technology for shotgun proteomics.Anal. Chem. 2001; 73: 5683-5690Google Scholar). First, the spectrum quality must be acceptable with the peaks to be used in the determination clearly above the noise base line. Second, some continuity must be present among the b or y fragments, i.e. fragments for three or more adjacent amino acids. Third, if proline is predicted to be present, then the corresponding y fragment should give an intense peak. Last, unidentified intense peaks should be verified as being either doubly charged or simply the mass of the precursor with one or two of the terminal amino acids removed. We found that protein A/G affinity adsorption chromatography depleted essentially all of the immunoglobulins from serum as assessed by SDS-polyacrylamide electrophoresis (Fig. 1). Analysis of serum by MS is complicated by the fact that abundant proteins impede measurement of less abundant proteins. In addition, the abundant serum immunoglobulins have regions of high sequence variability that may complicate an MS-based sequence analysis of serum-derived peptides. Thus, to increase the dynamic concentration range and confidence of determination it is critical to remove the immunoglobulins from the serum sample. The heavy and light chain portions of the immunoglobulins were removed when visualized with GelCode Blue Stain (Fig. 1, Lane 3). Albumin is also slightly depleted by the same procedure (Fig. 1, Lane 4). This depletion is unexpected in that during the production of the chimeric protein A/G the albumin binding site from protein G was removed (38.Pierce EndogenVol. 0497 Instructions: UltraLink Immobilzed Protein A/G. Pierce Endogen, Rockford, IL1995: 1-4Google Scholar). Albumin and other abundant non-immunoglobulin proteins may also present problems for an MS analysis. Many published methods of albumin separation have resulted either in poor depletion or potential loss of specific low abundance proteins of interest in plasma (23.Georgi
0

Overview of the HUPO Plasma Proteome Project: Results from the pilot phase with 35 collaborating laboratories and multiple analytical groups, generating a core dataset of 3020 proteins and a publicly‐available database

Gilbert Omenn et al.Aug 1, 2005
Abstract HUPO initiated the Plasma Proteome Project (PPP) in 2002. Its pilot phase has (1) evaluated advantages and limitations of many depletion, fractionation, and MS technology platforms; (2) compared PPP reference specimens of human serum and EDTA, heparin, and citrate‐anti‐coagulated plasma; and (3) created a publicly‐available knowledge base (www.bioinformatics.med.umich.edu/hupo/ppp; www.ebi.ac.uk/pride). Thirty‐five participating laboratories in 13 countries submitted datasets. Working groups addressed (a) specimen stability and protein concentrations; (b) protein identifications from 18 MS/MS datasets; (c) independent analyses from raw MS‐MS spectra; (d) search engine performance, subproteome analyses, and biological insights; (e) antibody arrays; and (f) direct MS/SELDI analyses. MS‐MS datasets had 15 710 different International Protein Index (IPI) protein IDs; our integration algorithm applied to multiple matches of peptide sequences yielded 9504 IPI proteins identified with one or more peptides and 3020 proteins identified with two or more peptides (the Core Dataset). These proteins have been characterized with Gene Ontology, InterPro, Novartis Atlas, OMIM, and immunoassay‐based concentration determinations. The database permits examination of many other subsets, such as 1274 proteins identified with three or more peptides. Reverse protein to DNA matching identified proteins for 118 previously unidentified ORFs. We recommend use of plasma instead of serum, with EDTA (or citrate) for anticoagulation. To improve resolution, sensitivity and reproducibility of peptide identifications and protein matches, we recommend combinations of depletion, fractionation, and MS/MS technologies, with explicit criteria for evaluation of spectra, use of search algorithms, and integration of homologous protein matches. This Special Issue of PROTEOMICS presents papers integral to the collaborative analysis plus many reports of supplementary work on various aspects of the PPP workplan. These PPP results on complexity, dynamic range, incomplete sampling, false‐positive matches, and integration of diverse datasets for plasma and serum proteins lay a foundation for development and validation of circulating protein biomarkers in health and disease.
0

Omic data from evolved E. coli are consistent with computed optimal growth from genome‐scale models

Nathan Lewis et al.Jan 1, 2010
After hundreds of generations of adaptive evolution at exponential growth, Escherichia coli grows as predicted using flux balance analysis (FBA) on genome‐scale metabolic models (GEMs). However, it is not known whether the predicted pathway usage in FBA solutions is consistent with gene and protein expression in the wild‐type and evolved strains. Here, we report that >98% of active reactions from FBA optimal growth solutions are supported by transcriptomic and proteomic data. Moreover, when E. coli adapts to growth rate selective pressure, the evolved strains upregulate genes within the optimal growth predictions, and downregulate genes outside of the optimal growth solutions. In addition, bottlenecks from dosage limitations of computationally predicted essential genes are overcome in the evolved strains. We also identify regulatory processes that may contribute to the development of the optimal growth phenotype in the evolved strains, such as the downregulation of known regulons and stringent response suppression. Thus, differential gene and protein expression from wild‐type and adaptively evolved strains supports observed growth phenotype changes, and is consistent with GEM‐computed optimal growth states.
0
Citation684
0
Save
0

Activated ClpP kills persisters and eradicates a chronic biofilm infection

Brian Conlon et al.Nov 1, 2013
Chronic infections are difficult to treat with antibiotics but are caused primarily by drug-sensitive pathogens. Dormant persister cells that are tolerant to killing by antibiotics are responsible for this apparent paradox. Persisters are phenotypic variants of normal cells and pathways leading to dormancy are redundant, making it challenging to develop anti-persister compounds. Biofilms shield persisters from the immune system, suggesting that an antibiotic for treating a chronic infection should be able to eradicate the infection on its own. We reasoned that a compound capable of corrupting a target in dormant cells will kill persisters. The acyldepsipeptide antibiotic (ADEP4) has been shown to activate the ClpP protease, resulting in death of growing cells. Here we show that ADEP4-activated ClpP becomes a fairly nonspecific protease and kills persisters by degrading over 400 proteins, forcing cells to self-digest. Null mutants of clpP arise with high probability, but combining ADEP4 with rifampicin produced complete eradication of Staphylococcus aureus biofilms in vitro and in a mouse model of a chronic infection. Our findings indicate a general principle for killing dormant cells—activation and corruption of a target, rather than conventional inhibition. Eradication of a biofilm in an animal model by activating a protease suggests a realistic path towards developing therapies to treat chronic infections. Dormant bacterial persister cells evade antibiotic destruction and their survival gives rise to some chronic infections; this study reveals that persister cells can be eradicated with a compound activating the bacterial protease ClpP, providing an effective biofilm treatment in vitro and in mouse chronic infection models. Concerns about the ability of today's antibiotics to cope with future infections are compounded by the dual nature of the bacterial response to the drugs. Some bacteria develop genetic resistance, but others become tolerant, able to survive in the presence of antibiotics by forming dormant cells known as persisters in which the enzymatic targets of the antibiotics are inactive. Kim Lewis and colleagues sought compounds with the potential to kill persisters by corrupting targets within these energy-limited cells. They demonstrate that the acyldepsipeptide antibiotic ADEP4 activates ClpP protease and the cell's proteolytic machinery, killing persister cells by forcing them to degrade a range of cellular proteins. This is a potentially important result, suggesting that combining compounds such as ADEP4 with conventional antibiotics could provide new and robust strategies for the control of chronic infections.
0
Citation610
0
Save
0

Persister formation in Staphylococcus aureus is associated with ATP depletion

Brian Conlon et al.Apr 18, 2016
Persisters are dormant phenotypic variants of bacterial cells that are tolerant to killing by antibiotics(1). Persisters are associated with chronic infections and antibiotic treatment failure(1-3). In Escherichia coli, toxin-antitoxin modules have been linked to persister formation(4-6). The mechanism of persister formation in Gram-positive bacteria is unknown. Staphylococcus aureus is a major human pathogen, responsible for a variety of chronic and relapsing infections such as osteomyelitis, endocarditis and infections of implanted devices. Deleting toxin-antitoxin modules in S. aureus did not affect the level of persisters. Here, we show that S. aureus persisters are produced due to a stochastic entrance into the stationary phase accompanied by a drop in intracellular adenosine triphosphate. Cells expressing stationary-state markers are present throughout the growth phase, and increase in frequency with cell density. Cell sorting revealed that the expression of stationary markers is associated with a 100-1,000-fold increase in the likelihood of survival to antibiotic challenge. The adenosine triphosphate level of the cell is predictive of bactericidal antibiotic efficacy and explains bacterial tolerance to antibiotics.
0
Citation558
0
Save
0

Normalization Approaches for Removing Systematic Biases Associated with Mass Spectrometry and Label-Free Proteomics

Stephen Callister et al.Jan 17, 2006
Central tendency, linear regression, locally weighted regression, and quantile techniques were investigated for normalization of peptide abundance measurements obtained from high-throughput liquid chromatography-Fourier transform ion cyclotron resonance mass spectrometry (LC−FTICR MS). Arbitrary abundances of peptides were obtained from three sample sets, including a standard protein sample, two Deinococcus radiodurans samples taken from different growth phases, and two mouse striatum samples from control and methamphetamine-stressed mice (strain C57BL/6). The selected normalization techniques were evaluated in both the absence and presence of biological variability by estimating extraneous variability prior to and following normalization. Prior to normalization, replicate runs from each sample set were observed to be statistically different, while following normalization replicate runs were no longer statistically different. Although all techniques reduced systematic bias to some degree, assigned ranks among the techniques revealed that for most LC−FTICR−MS analyses linear regression normalization ranked either first or second. However, the lack of a definitive trend among the techniques suggested the need for additional investigation into adapting normalization approaches for label-free proteomics. Nevertheless, this study serves as an important step for evaluating approaches that address systematic biases related to relative quantification and label-free proteomics. Keywords: proteomics • normalization • relative quantification • Fourier transform ion cyclotron resonance mass spectrometry (FTICR−MS) • extraneous variability • bias
0

An evaluation, comparison, and accurate benchmarking of several publicly available MS/MS search algorithms: Sensitivity and specificity analysis

Eugene Kapp et al.Jul 27, 2005
MS/MS and associated database search algorithms are essential proteomic tools for identifying peptides. Due to their widespread use, it is now time to perform a systematic analysis of the various algorithms currently in use. Using blood specimens used in the HUPO Plasma Proteome Project, we have evaluated five search algorithms with respect to their sensitivity and specificity, and have also accurately benchmarked them based on specified false-positive (FP) rates. Spectrum Mill and SEQUEST performed well in terms of sensitivity, but were inferior to MASCOT, X!Tandem, and Sonar in terms of specificity. Overall, MASCOT, a probabilistic search algorithm, correctly identified most peptides based on a specified FP rate. The rescoring algorithm, PeptideProphet, enhanced the overall performance of the SEQUEST algorithm, as well as provided predictable FP error rates. Ideally, score thresholds should be calculated for each peptide spectrum or minimally, derived from a reversed-sequence search as demonstrated in this study based on a validated data set. The availability of open-source search algorithms, such as X!Tandem, makes it feasible to further improve the validation process (manual or automatic) on the basis of "consensus scoring", i.e., the use of multiple (at least two) search algorithms to reduce the number of FPs. complement.
0

Distance restraints from crosslinking mass spectrometry: Mining a molecular dynamics simulation database to evaluate lysine–lysine distances

Eric Merkley et al.Mar 18, 2014
Integrative structural biology attempts to model the structures of protein complexes that are challenging or intractable by classical structural methods (due to size, dynamics, or heterogeneity) by combining computational structural modeling with data from experimental methods. One such experimental method is chemical crosslinking mass spectrometry (XL-MS), in which protein complexes are crosslinked and characterized using liquid chromatography-mass spectrometry to pinpoint specific amino acid residues in close structural proximity. The commonly used lysine-reactive N-hydroxysuccinimide ester reagents disuccinimidylsuberate (DSS) and bis(sulfosuccinimidyl)suberate (BS(3) ) have a linker arm that is 11.4 Å long when fully extended, allowing Cα (alpha carbon of protein backbone) atoms of crosslinked lysine residues to be up to ∼24 Å apart. However, XL-MS studies on proteins of known structure frequently report crosslinks that exceed this distance. Typically, a tolerance of ∼3 Å is added to the theoretical maximum to account for this observation, with limited justification for the chosen value. We used the Dynameomics database, a repository of high-quality molecular dynamics simulations of 807 proteins representative of diverse protein folds, to investigate the relationship between lysine-lysine distances in experimental starting structures and in simulation ensembles. We conclude that for DSS/BS(3), a distance constraint of 26-30 Å between Cα atoms is appropriate. This analysis provides a theoretical basis for the widespread practice of adding a tolerance to the crosslinker length when comparing XL-MS results to structures or in modeling. We also discuss the comparison of XL-MS results to MD simulations and known structures as a means to test and validate experimental XL-MS methods.
Load More