SA
Stephen Anyango
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(100% Open Access)
Cited by:
6,400
h-index:
11
/
i10-index:
11
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Protein Data Bank: the single global archive for 3D macromolecular structure data

S.K. Burley et al.Oct 5, 2018
The Protein Data Bank (PDB) is the single global archive of experimentally determined three-dimensional (3D) structure data of biological macromolecules. Since 2003, the PDB has been managed by the Worldwide Protein Data Bank (wwPDB; wwpdb.org), an international consortium that collaboratively oversees deposition, validation, biocuration, and open access dissemination of 3D macromolecular structure data. The PDB Core Archive houses 3D atomic coordinates of more than 144 000 structural models of proteins, DNA/RNA, and their complexes with metals and small molecules and related experimental data and metadata. Structure and experimental data/metadata are also stored in the PDB Core Archive using the readily extensible wwPDB PDBx/mmCIF master data format, which will continue to evolve as data/metadata from new experimental techniques and structure determination methods are incorporated by the wwPDB. Impacts of the recently developed universal wwPDB OneDep deposition/validation/biocuration system and various methods-specific wwPDB Validation Task Forces on improving the quality of structures and data housed in the PDB Core Archive are described together with current challenges and future plans.
1

Automated Pipeline for Comparing Protein Conformational States in the PDB to AlphaFold2 Predictions

Joseph Ellaway et al.Jul 13, 2023
Abstract Proteins, as molecular machines, are necessarily dynamic macromolecules that carry out essential cellular functions. Recognising their stable conformations is important for understanding the molecular mechanisms of disease. While AI-based computational methods have enabled protein structure prediction, the prediction of protein dynamics remains a challenge. Here, we present a deterministic pipeline that clusters experimentally determined protein structures to comprehensively recognise conformational states across the Protein Data Bank. Our approach clusters protein chains based on a GLObal CONformation (GLOCON) difference score, which is computed from pairwise C-alpha distances. By superposing the clustered structures, differences and similarities in conformational states can be observed. Additionally, we offer users the ability to superpose predicted models from the AlphaFold Database to the clusters of PDB structures. This clustering pipeline significantly advances researchers’ ability to explore the conformational landscape within the PDB. All clustered and superposed models can be viewed in Mol* on the PDBe Knowledge Base website, or accessed in as raw annotations via our GraphAPI and FTP server. The clustering package is made available as an open-source Python3 package under the Apache-2.0 license.
1

Annotating Macromolecular Complexes in the Protein Data Bank: Improving the FAIRness of Structure Data

Sri Appasamy et al.May 15, 2023
Abstract Macromolecular complexes are essential functional units in nearly all cellular processes, and their atomic-level understanding is critical for elucidating and modulating molecular mechanisms. The Protein Data Bank (PDB) serves as the global repository for experimentally determined structures of macromolecules. Structural data in the PDB offer valuable insights into the dynamics, conformation, and functional states of biological assemblies. However, the current annotation practices lack standardised naming conventions for assemblies in the PDB, complicating the identification of instances representing the same assembly. In this study, we introduce a method leveraging resources external to PDB, such as the Complex Portal, UniProt and Gene Ontology, to describe assemblies and contextualise them within their biological settings accurately. Employing the proposed approach, we assigned standard names and provided value-added annotations to over 90% of unique assemblies in the PDB. This standardisation of assembly data enhances the PDB, facilitating a deeper understanding of these cellular components. Furthermore, the data standardisation improves the PDB’s FAIR attributes, fostering more effective basic and translational research and education across scientific disciplines.
37

Unified access to up-to-date residue-level annotations from UniProt and other biological databases for PDB data via PDBx/mmCIF files

Preeti Choudhary et al.Aug 13, 2022
Abstract More than 58,000 proteins have up-to-date correspondence between their amino acid sequence (UniProtKB) and their 3D structures (PDB), enabled by the Structure Integration with Function, Taxonomy and Sequences (SIFTS) resource. In addition to this fundamental mapping, SIFTS incorporates residue-level annotations from other biological resources such as Pfam, InterPro, SCOP, SCOP2, CATH, IntEnz, GO, PubMed, Ensembl, NCBI taxonomy database and Homologene. The SIFTS data is exported in XML format per individual PDB entry and is also accessible via the PDBe REST API. These mappings have always been maintained separately from the structure data (PDBx/mmCIF file) in the PDB archive. In this current work, taking advantage of the extensibility of the core PDBx/mmCIF framework, we extended the wwPDB PDBx/mmCIF data dictionary with additional categories to accommodate SIFTS data and added the UniProt, Pfam, SCOP2, and CATH mapping information directly into the PDBx/mmCIF files from the PDB archive. The integration of mapping data in the PDBx/mmCIF files provides consistent numbering of residues in different PDB entries allowing easy comparison of structure models. The extended PDBx/mmCIF format yields a more consistent, standardised metadata description without altering the core PDB information. This development enables up-to-date cross-reference information at residue level resulting in better data interoperability, supporting improved data analysis and visualisation. Availability and implementation We expanded the PDBe release pipeline with a process that adds SIFTS annotations to the PDBx/mmCIF files for individual structures in the PDB archive. The scientific community can download these updated PDBx/mmCIF files from the PDBe entry pages ( https://pdbe.org/7dr0 ) and through direct URLs ( https://www.ebi.ac.uk/pdbe/static/entry/7o9f_updated.cif ), using the PDBe download service ( https://www.ebi.ac.uk/pdbe/download/api ) or from the EMBL-EBI FTP area ( https://ftp.ebi.ac.uk/pub/databases/msd/updated_mmcif/ ).