GT
Gerardo Tauriello
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
11,957
h-index:
15
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Uncovering new families and folds in the natural protein universe

Janani Durairaj et al.Sep 13, 2023
Abstract We are now entering a new era in protein sequence and structure annotation, with hundreds of millions of predicted protein structures made available through the AlphaFold database 1 . These models cover nearly all proteins that are known, including those challenging to annotate for function or putative biological role using standard homology-based approaches. In this study, we examine the extent to which the AlphaFold database has structurally illuminated this ‘dark matter’ of the natural protein universe at high predicted accuracy. We further describe the protein diversity that these models cover as an annotated interactive sequence similarity network, accessible at https://uniprot3d.org/atlas/AFDB90v4 . By searching for novelties from sequence, structure and semantic perspectives, we uncovered the β-flower fold, added several protein families to Pfam database 2 and experimentally demonstrated that one of these belongs to a new superfamily of translation-targeting toxin–antitoxin systems, TumE–TumA. This work underscores the value of large-scale efforts in identifying, annotating and prioritizing new protein families. By leveraging the recent deep learning revolution in protein bioinformatics, we can now shed light into uncharted areas of the protein universe at an unprecedented scale, paving the way to innovations in life sciences and biotechnology.
1
Citation30
0
Save
5

ModelCIF: An extension of PDBx/mmCIF data representation for computed structure models

Brinda Vallat et al.Dec 9, 2022
ABSTRACT ModelCIF ( github.com/ihmwg/ModelCIF ) is a data information framework developed for and by computational structural biologists to enable delivery of Findable, Accessible, Interoperable , and Reusable ( FAIR ) data to users worldwide. It is an extension of the Protein Data Bank Exchange / macromolecular Crystallographic Information Framework (PDBx/mmCIF), which is the global data standard for representing experimentally-determined, three-dimensional (3D) structures of macromolecules and associated metadata. ModelCIF provides an extensible data representation for deposition, archiving, and public dissemination of predicted 3D models of proteins. The PDBx/mmCIF framework and its extensions ( e.g ., ModelCIF) are managed by the Worldwide Protein Data Bank partnership (wwPDB, wwpdb.org ) in collaboration with relevant community stakeholders such as the wwPDB ModelCIF Working Group ( wwpdb.org/task/modelcif ). This semantically rich and extensible data framework for representing computed structure models (CSMs) accelerates the pace of scientific discovery. Herein, we describe the architecture, contents, and governance of ModelCIF, and tools and processes for maintaining and extending the data standard. Community tools and software libraries that support ModelCIF are also described.