AF
Antonio Fernàndez-Guerra
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
17
(94% Open Access)
Cited by:
2,420
h-index:
28
/
i10-index:
43
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Genome of the Sea Urchin Strongylocentrotus purpuratus

Erica Sodergren et al.Nov 9, 2006
+97
E
G
E
We report the sequence and analysis of the 814-megabase genome of the sea urchin Strongylocentrotus purpuratus , a model for developmental and systems biology. The sequencing strategy combined whole-genome shotgun and bacterial artificial chromosome (BAC) sequences. This use of BAC clones, aided by a pooling strategy, overcame difficulties associated with high heterozygosity of the genome. The genome encodes about 23,300 genes, including many previously thought to be vertebrate innovations or known only outside the deuterostomes. This echinoderm genome provides an evolutionary outgroup for the chordates and yields insights into the evolution of deuterostomes.
0
Citation1,082
0
Save
0

A computational framework to explore large-scale biosynthetic diversity

Jorge Navarro-Muñoz et al.Nov 25, 2019
+17
P
M
J
Genome mining has become a key technology to exploit natural product diversity. Although initially performed on a single-genome basis, the process is now being scaled up to mine entire genera, strain collections and microbiomes. However, no bioinformatic framework is currently available for effectively analyzing datasets of this size and complexity. In the present study, a streamlined computational workflow is provided, consisting of two new software tools: the ‘biosynthetic gene similarity clustering and prospecting engine’ (BiG-SCAPE), which facilitates fast and interactive sequence similarity network analysis of biosynthetic gene clusters and gene cluster families; and the ‘core analysis of syntenic orthologues to prioritize natural product gene clusters’ (CORASON), which elucidates phylogenetic relationships within and across these families. BiG-SCAPE is validated by correlating its output to metabolomic data across 363 actinobacterial strains and the discovery potential of CORASON is demonstrated by comprehensively mapping biosynthetic diversity across a range of detoxin/rimosamide-related gene cluster families, culminating in the characterization of seven detoxin analogues. Two bioinformatic tools, BiG-SCAPE and CORASON, enable sequence similarity network and phylogenetic analysis of gene clusters and their families across hundreds of strains and in large datasets, leading to the discovery of new natural products.
0
Citation638
0
Save
0

Community-led, integrated, reproducible multi-omics with anvi’o

A. Eren et al.Dec 21, 2020
+31
A
E
A
Big data abound in microbiology, but the workflows designed to enable researchers to interpret data can constrain the biological questions that can be asked. Five years after anvi’o was first published, this community-led multi-omics platform is maturing into an open software ecosystem that reduces constraints in ‘omics data analyses.
0
Paper
Citation488
0
Save
0

A computational framework for systematic exploration of biosynthetic diversity from large-scale genomic data

Jorge Navarro-Muñoz et al.Oct 17, 2018
+16
M
N
J
Abstract Genome mining has become a key technology to explore and exploit natural product diversity through the identification and analysis of biosynthetic gene clusters (BGCs). Initially, this was performed on a single-genome basis; currently, the process is being scaled up to large-scale mining of pan-genomes of entire genera, complete strain collections and metagenomic datasets from which thousands of bacterial genomes can be extracted at once. However, no bioinformatic framework is currently available for the effective analysis of datasets of this size and complexity. Here, we provide a streamlined computational workflow, tightly integrated with antiSMASH and MIBiG, that consists of two new software tools, BiG-SCAPE and CORASON. BiG-SCAPE facilitates rapid calculation and interactive visual exploration of BGC sequence similarity networks, grouping gene clusters at multiple hierarchical levels, and includes a ‘glocal’ alignment mode that accurately groups both complete and fragmented BGCs. CORASON employs a phylogenomic approach to elucidate the detailed evolutionary relationships between gene clusters by computing high-resolution multi-locus phylogenies of all BGCs within and across gene cluster families (GCFs), and allows researchers to comprehensively identify all genomic contexts in which particular biosynthetic gene cassettes are found. We validate BiG-SCAPE by correlating its GCF output to metabolomic data across 403 actinobacterial strains. Furthermore, we demonstrate the discovery potential of the platform by using CORASON to comprehensively map the phylogenetic diversity of the large detoxin/rimosamide gene cluster clan, prioritizing three new detoxin families for subsequent characterization of six new analogs using isotopic labeling and analysis of tandem mass spectrometric data.
0
Citation51
0
Save
151

Unifying the known and unknown microbial coding sequence space

Chiara Vanni et al.Jul 1, 2020
+15
S
M
C
Abstract Genes of unknown function are among the biggest challenges in molecular biology, especially in microbial systems, where 40%-60% of the predicted genes are unknown. Despite previous attempts, systematic approaches to include the unknown fraction into analytical workflows are still lacking. Here, we propose a conceptual framework and a computational workflow that bridge the known-unknown gap in genomes and metagenomes. We showcase our approach by exploring 415,971,742 genes predicted from 1,749 metagenomes and 28,941 bacterial and archaeal genomes. We quantify the extent of the unknown fraction, its diversity, and its relevance across multiple biomes. Furthermore, we provide a collection of 283,874 lineage-specific genes of unknown function for Cand . Patescibacteria, being a significant resource to expand our understanding of their unusual biology. Finally, by identifying a target gene of unknown function for antibiotic resistance, we demonstrate how we can enable the generation of hypotheses that can be used to augment experimental data.
151
Citation14
0
Save
10

metaDMG – A Fast and Accurate Ancient DNA Damage Toolkit for Metagenomic Data

Christian Michelsen et al.Dec 9, 2022
+4
A
M
C
Abstract Motivation Under favourable conditions DNA molecules can persist for hundreds of thousands of years. Such genetic remains make up invaluable resources to study past assemblages, populations, and even the evolution of species. However, DNA is subject to degradation, and hence over time decrease to ultra low concentrations which makes it highly prone to contamination by modern sources. Strict precautions are therefore necessary to ensure that DNA from modern sources does not appear in the final data is authenticated as ancient. The most generally accepted and widely applied authenticity for ancient DNA studies is to test for elevated deaminated cytosine residues towards the termini of the molecules: DNA damage. To date, this has primarily been used for single organisms and recently for read assemblies, however, these methods are not applicable for estimating DNA damage for ancient metagenomes with tens and even hundreds of thousands of species. Methods We present metaDMG , a novel framework and toolkit that allows for the estimation, quantification and visualization of postmortem damage for single reads, single genomes and even metagenomic environmental DNA by utilizing the taxonomic branching structure. It bypasses any need for initial classification, splitting reads by individual organisms, and realignment. We have implemented a Bayesian approach that combines a modified geometric damage profile with a beta-binomial model to fit the entire model to the individual misincorporations at all taxonomic levels. Results We evaluated the performance using both simulated and published environmental DNA datasets and compared to existing methods when relevant. We find metaDMG to be an order of magnitude faster than previous methods and more accurate – even for complex metagenomes. Our simulations show that metaDMG can estimate DNA damage at taxonomic levels down to 100 reads, that the estimated uncertainties decrease with increased number of reads and that the estimates are more significant with increased number of C to T misincorporations. Conclusion metaDMG is a state-of-the-art program for aDNA damage estimation and allows for the computation of nucleotide misincorporation, GC-content, and DNA fragmentation for both simple and complex ancient genomic datasets, making it a complete package for ancient DNA damage authentication.
10
Citation10
0
Save
15

AGNOSTOS-DB: a resource to unlock the uncharted regions of the coding sequence space

Chiara Vanni et al.Jun 7, 2021
+4
T
M
C
Abstract Genomes and metagenomes contain a considerable percentage of genes of unknown function, which are often excluded from downstream analyses limiting our understanding of the studied biological systems. To address this challenge, we developed AGNOSTOS, a combined database-computational workflow resource that unifies the known and unknown coding sequence space of genomes and metagenomes. Here, we present AGNOSTOS-DB, an extensive database of high-quality gene clusters enriched with functional, ecological and phylogenetic information. Moreover, AGNOSTOS allows integrating new data into existing AGNOSTOS-DBs, maximizing the information retrievable for the genes of unknown function. As a proof of concept, we provide a seed database that integrates the predicted genes from marine and human metagenomes, as well as from Bacteria, Archaea, Eukarya and giant viruses environmental and cultivar genomes. The seed database comprises 6,572,081 gene clusters connecting 342 million genes and represents a comprehensive and scalable resource for the inclusion and exploration of the unknown fraction of genomes and metagenomes.
15
Citation9
0
Save
1

An ecological perspective on microbial genes of unknown function in soil

Hannah Holland‐Moritz et al.Dec 2, 2021
+2
A
C
H
Abstract Genes that remain hypothetical, uncharacterized, and unannotated comprise a substantial portion of metagenomic datasets and are likely to be particularly prevalent in soils where poorly characterized taxa predominate. Documenting the prevalence, distribution, and potential roles of these genes of unknown function is an important first step to understanding their functional contributions in soil communities. We identified genes of unknown function from 50 soil metagenomes and analyzed their environmental distributions and ecological associations. We found that genes of unknown function are prevalent in soils, particularly fine-textured, higher pH soils that harbor greater abundances of Crenarchaeota, Gemmatimonadota, Nitrospirota , and Methylomirabilota . We identified 43 dominant (abundant and ubiquitous) gene clusters of unknown function and determined their associations with soil microbial phyla and other “known” genes. We found that these dominant unknown genes were commonly associated with microbial phyla that are relatively uncharacterized, with the majority of these dominant unknown genes associated with mobile genetic elements. This work demonstrates a strategy for investigating genes of unknown function in soils, emphasizes the biological insights that can be learned by adopting this strategy, and highlights specific hypotheses that warrant further investigation regarding the functional roles of abundant and ubiquitous genes of unknown function in soil metagenomes.
1
Citation8
0
Save
179

Plankton-infecting relatives of herpesviruses clarify the evolutionary trajectory of giant viruses

Morgan Gaïa et al.Dec 27, 2021
+8
É
L
M
Abstract DNA viruses have a major influence on the ecology and evolution of cellular organisms, but their overall diversity and evolutionary trajectories remain elusive. Here, we performed a phylogeny-guided genome-resolved metagenomic survey of the sunlit oceans and discovered plankton-infecting relatives of herpesviruses that form a putative new phylum dubbed ‘ Mirusviricota ’. The virion morphogenesis module of this large monophyletic clade is typical of viruses from the realm Duplodnaviria , with the major capsid protein fold being a likely structural intermediate between the capsid proteins of Caudoviricetes (tailed phages) and Herpesvirales (animal-infecting viruses). Yet, a substantial fraction of ‘ Mirusviricota’ genes, including hallmark transcription machinery genes missing in herpesviruses, are closely related homologs of large and giant eukaryotic DNA viruses from another viral realm. The remarkable chimeric attributes of ‘ Mirusviricota ’ provide missing links in the evolution of both herpesviruses and giant viruses. Furthermore, mirusviruses are widespread and transcriptionally active from pole to pole, encoding complex functional traits used during the infection of microbial eukaryotes. The ‘ Mirusviricota ’ prevalence, functional activity, diversification, and atypical evolutionary traits point to a lasting role of mirusviruses in the ecology of marine ecosystems that might have not only predated but also contributed to the emergence of herpesviruses and giant viruses.
179
Citation6
0
Save
66

Mining metagenomes for natural product biosynthetic gene clusters: unlocking new potential with ultrafast techniques

Emiliano Pereira-Flores et al.Jan 20, 2021
+3
P
M
E
Microorganisms produce an immense variety of natural products through the expression of Biosynthetic Gene Clusters (BGCs): physically clustered genes that encode the enzymes of a specialized metabolic pathway. These natural products cover a wide range of chemical classes (e.g., aminoglycosides, lantibiotics, nonribosomal peptides, oligosaccharides, polyketides, terpenes) that are highly valuable for industrial and medical applications 1 . Metagenomics, as a culture-independent approach, has greatly enhanced our ability to survey the functional potential of microorganisms and is growing in popularity for the mining of BGCs. However, to effectively exploit metagenomic data to this end, it will be crucial to more efficiently identify these genomic elements in highly complex and ever-increasing volumes of data 2 . Here, we address this challenge by developing the ultrafast Biosynthetic Gene cluster MEtagenomic eXploration toolbox (BiG-MEx). BiG-MEx rapidly identifies a broad range of BGC protein domains, assess their diversity and novelty, and predicts the abundance profile of natural product BGC classes in metagenomic data. We show the advantages of BiG-MEx compared to standard BGC-mining approaches, and use it to explore the BGC domain and class composition of samples in the TARA Oceans 3 and Human Microbiome Project datasets 4 . In these analyses, we demonstrate BiG-MEx’s applicability to study the distribution, diversity, and ecological roles of BGCs in metagenomic data, and guide the exploration of natural products with clinical applications.
66
Citation6
0
Save
Load More