NS
Nelly Sélem-Mójica
Author with expertise in Natural Products as Sources of New Drugs
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(80% Open Access)
Cited by:
1,391
h-index:
15
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A computational framework to explore large-scale biosynthetic diversity

Jorge Navarro-Muñoz et al.Nov 25, 2019
+17
P
M
J
Genome mining has become a key technology to exploit natural product diversity. Although initially performed on a single-genome basis, the process is now being scaled up to mine entire genera, strain collections and microbiomes. However, no bioinformatic framework is currently available for effectively analyzing datasets of this size and complexity. In the present study, a streamlined computational workflow is provided, consisting of two new software tools: the ‘biosynthetic gene similarity clustering and prospecting engine’ (BiG-SCAPE), which facilitates fast and interactive sequence similarity network analysis of biosynthetic gene clusters and gene cluster families; and the ‘core analysis of syntenic orthologues to prioritize natural product gene clusters’ (CORASON), which elucidates phylogenetic relationships within and across these families. BiG-SCAPE is validated by correlating its output to metabolomic data across 363 actinobacterial strains and the discovery potential of CORASON is demonstrated by comprehensively mapping biosynthetic diversity across a range of detoxin/rimosamide-related gene cluster families, culminating in the characterization of seven detoxin analogues. Two bioinformatic tools, BiG-SCAPE and CORASON, enable sequence similarity network and phylogenetic analysis of gene clusters and their families across hundreds of strains and in large datasets, leading to the discovery of new natural products.
0
Citation638
0
Save
0

MIBiG 2.0: a repository for biosynthetic gene clusters of known function

Satria Kautsar et al.Oct 1, 2019
+18
S
K
S
Abstract Fueled by the explosion of (meta)genomic data, genome mining of specialized metabolites has become a major technology for drug discovery and studying microbiome ecology. In these efforts, computational tools like antiSMASH have played a central role through the analysis of Biosynthetic Gene Clusters (BGCs). Thousands of candidate BGCs from microbial genomes have been identified and stored in public databases. Interpreting the function and novelty of these predicted BGCs requires comparison with a well-documented set of BGCs of known function. The MIBiG (Minimum Information about a Biosynthetic Gene Cluster) Data Standard and Repository was established in 2015 to enable curation and storage of known BGCs. Here, we present MIBiG 2.0, which encompasses major updates to the schema, the data, and the online repository itself. Over the past five years, 851 new BGCs have been added. Additionally, we performed extensive manual data curation of all entries to improve the annotation quality of our repository. We also redesigned the data schema to ensure the compliance of future annotations. Finally, we improved the user experience by adding new features such as query searches and a statistics page, and enabled direct link-outs to chemical structure databases. The repository is accessible online at https://mibig.secondarymetabolites.org/.
0
Citation495
0
Save
0

MIBiG 3.0: a community-driven effort to annotate experimentally validated biosynthetic gene clusters

Barbara Terlouw et al.Nov 18, 2022
+79
J
K
B
Abstract With an ever-increasing amount of (meta)genomic data being deposited in sequence databases, (meta)genome mining for natural product biosynthetic pathways occupies a critical role in the discovery of novel pharmaceutical drugs, crop protection agents and biomaterials. The genes that encode these pathways are often organised into biosynthetic gene clusters (BGCs). In 2015, we defined the Minimum Information about a Biosynthetic Gene cluster (MIBiG): a standardised data format that describes the minimally required information to uniquely characterise a BGC. We simultaneously constructed an accompanying online database of BGCs, which has since been widely used by the community as a reference dataset for BGCs and was expanded to 2021 entries in 2019 (MIBiG 2.0). Here, we describe MIBiG 3.0, a database update comprising large-scale validation and re-annotation of existing entries and 661 new entries. Particular attention was paid to the annotation of compound structures and biological activities, as well as protein domain selectivities. Together, these new features keep the database up-to-date, and will provide new opportunities for the scientific community to use its freely available data, e.g. for the training of new machine learning models to predict sequence-structure-function relationships for diverse natural products. MIBiG 3.0 is accessible online at https://mibig.secondarymetabolites.org/.
0
Citation205
0
Save
0

A computational framework for systematic exploration of biosynthetic diversity from large-scale genomic data

Jorge Navarro-Muñoz et al.Oct 17, 2018
+16
M
N
J
Abstract Genome mining has become a key technology to explore and exploit natural product diversity through the identification and analysis of biosynthetic gene clusters (BGCs). Initially, this was performed on a single-genome basis; currently, the process is being scaled up to large-scale mining of pan-genomes of entire genera, complete strain collections and metagenomic datasets from which thousands of bacterial genomes can be extracted at once. However, no bioinformatic framework is currently available for the effective analysis of datasets of this size and complexity. Here, we provide a streamlined computational workflow, tightly integrated with antiSMASH and MIBiG, that consists of two new software tools, BiG-SCAPE and CORASON. BiG-SCAPE facilitates rapid calculation and interactive visual exploration of BGC sequence similarity networks, grouping gene clusters at multiple hierarchical levels, and includes a ‘glocal’ alignment mode that accurately groups both complete and fragmented BGCs. CORASON employs a phylogenomic approach to elucidate the detailed evolutionary relationships between gene clusters by computing high-resolution multi-locus phylogenies of all BGCs within and across gene cluster families (GCFs), and allows researchers to comprehensively identify all genomic contexts in which particular biosynthetic gene cassettes are found. We validate BiG-SCAPE by correlating its GCF output to metabolomic data across 403 actinobacterial strains. Furthermore, we demonstrate the discovery potential of the platform by using CORASON to comprehensively map the phylogenetic diversity of the large detoxin/rimosamide gene cluster clan, prioritizing three new detoxin families for subsequent characterization of six new analogs using isotopic labeling and analysis of tandem mass spectrometric data.
0
Citation51
0
Save
0

ActDES – a Curated Actinobacterial Database for Evolutionary Studies

Jana Schniete et al.May 20, 2020
+4
A
N
J
Abstract Actinobacteria are a large and diverse phylum of bacteria that contains medically and ecologically relevant organisms. Many members are valuable sources of bioactive natural products and chemical precursors that are exploited in the clinic. These are made using the enzyme pathways encoded in their complex genomes. Whilst the number of sequenced genomes has increased rapidly in the last twenty years, the large size and complexity of many Actinobacterial genomes means that the sequences remain incomplete and consist of large numbers of contigs with poor annotation, which hinders large scale comparative genomics and evolutionary studies. To enable greater understanding and exploitation of Actinobacterial genomes, specialist genomic databases must be linked to high-quality genome sequences. Here we provide a curated database of 612 high-quality actinobacterial genomes from 80 genera, chosen to represent a broad phylogenetic group with equivalent genome reannotation. Utilising this database will provide researchers with a framework for evolutionary and metabolic studies, to enable a foundation for genome and metabolic engineering, to facilitate discovery of novel bioactive therapeutics and studies on gene family evolution. Significance as a bioresource to the community The Actinobacteria are a large diverse phylum of bacteria, often with large, complex genomes with a high G+C content. Sequence databases have great variation in the quality of sequences, equivalence of annotation and phylogenetic representation, which makes it challenging to undertake evolutionary and phylogenetic studies. To address this, we have assembled a curated, taxa-specific, non-redundant database to aid detailed comparative analysis of Actinobacteria. ActDES constitutes a novel resource for the community of Actinobacterial researchers that will be useful primarily for two types of analyses: (i) comparative genomic studies – facilitated by reliable identification of orthologs across a set of defined, phylogenetically-representative genomes, and (ii) phylogenomic studies which will be improved by identification of gene subsets at specified taxonomic level. These analyses can then act as a springboard for the studies of the evolution of virulence genes, the evolution of metabolism and identification of targets for metabolic engineering. Data summary All genome sequences used in this study can be found in the NCBI taxonomy browser https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/www.tax.cgi and are summarised along with Accession numbers in Table S1 All other data are available on Figshare https://doi.org/10.6084/m9.figshare.12167529 and https://doi.org/10.5281/zenodo.3830391 Perl script files available on GitHub https://github.com/nselem/ActDES including details of how to batch annotate genomes in RAST from the terminal https://github.com/nselem/myrast Supp. Table S1 List of genomes from NCBI (Actinobacteria database.xlsx) https://doi.org/10.6084/m9.figshare.12167529 CVS genome annotation files including the FASTA files of nucleotide and amino acids sequences (individual .cvs files) https://doi.org/10.6084/m9.figshare.12167880 BLAST nucleotide database (.fasta file) https://doi.org/10.6084/m9.figshare.12167724 BLAST protein database (.fasta file) https://doi.org/10.6084/m9.figshare.12167724 Supp. Table S2 Expansion table genus level (Expansion table.xlsx Tab Genus level) https://doi.org/10.6084/m9.figshare.12167529 Supp. Table S2 Expansion table species level (Expansion table.xlsx Tab species level) https://doi.org/10.6084/m9.figshare.12167529 All GlcP and Glk data – blast hits from ActDES database, MUSCLE Alignment files and .nwk tree files can be found at https://doi.org/10.6084/m9.figshare.12167529 Interactive trees in Microreact for Glk tree https://microreact.org/project/w_KDfn1xA/90e6759e and associated files can be found at https://doi.org/10.6084/m9.figshare.12326441.v1 Interactive trees in Microreact for GlcP tree https://microreact.org/project/VBUdiQ5_k/0fc4622b and associated files can be found at https://doi.org/10.6084/m9.figshare.12326441.v1
0
Citation2
0
Save
6

Regional epidemic dynamics and Delta variant diversity resulted in varying rates of spread of Omicron-BA.1 in Mexico

Selene Zárate et al.Oct 19, 2022
+19
M
B
S
Abstract The Omicron subvariant BA.1 of SARS-CoV-2 was first detected in November 2021 and quickly spread worldwide, displacing the Delta variant. In Mexico, this subvariant began spreading during the first week of December 2021 and became dominant in the next three weeks, causing the fourth COVID-19 epidemiological surge in the country. Unlike previous SARS-CoV-2 variants, BA.1 did not acquire local substitutions nor exhibited a geographically distinct circulation pattern in Mexico. However, a regional difference in the speed of the replacement of the Delta variant was observed, as some northern states showed persistence of Delta lineages well into February 2022. Mexican states were divided into four regions (North, Central North, Central South, and Southeast) based on the lineage circulation before the dominance of BA.1 to study possible causes for this difference. For each region, the time to fixation of BA.1, the diversity of Delta sublineages in the weeks preceding BA.1 entry, the population density, and the level of virus circulation during the inter-wave interval were determined. An association between a faster Omicron spread and lower Delta diversity, as well as fewer COVID-19 cases during the Delta-BA.1.x inter-wave period, was observed. For example, the North region exhibited the slowest spread but had the highest diversity of Delta sublineages and the greatest number of inter-wave cases relative to the maximum amount of the virus circulating in the region, whereas the Southeast region showed the opposite. Viral diversity and the relative abundance of the virus in a particular area around the time of the introduction of a new lineage seem to have influenced the spread dynamics. Nonetheless, if there is a significant difference in the fitness of the variants or the time allowed for the competition is sufficient, it seems the fitter virus will eventually become dominant, as observed in the eventual dominance of the BA.1.x variant in Mexico. Impact statement The surveillance of lineage circulation of SARS-CoV-2 has helped identify variants that have a transmission advantage and are of concern to public health and to track the virus dispersion accurately. However, many factors contributing to differences in lineage spread dynamics beyond the acquisition of specific mutations remain poorly understood. In this work, a description of BA.1 entry and dispersion within Mexico is presented, and which factors potentially affected the spread rates of the Omicron variant BA.1 among geographical regions in the country are analyzed, underlining the importance of population density, the proportion of active cases, and viral lineage diversity and identity before the entry of BA.1. Data summary This work was carried out using data shared through the GISAID initiative. All sequences and metadate are available through GISAID with the accession EPI_SET_220927gw, accession numbers and metadata are also reported in the supplemental material of this article. Epidemiological data was obtained though the Secretaría de Salud website ( https://www.gob.mx/salud/documentos/datos-abiertos-152127 ),
0

Cycad coralloid roots contain bacterial communities including cyanobacteria and Caulobacter spp that encode niche-specific biosynthetic gene clusters

Karina Gutiérrez-García et al.Mar 27, 2017
+5
J
E
K
Cycads are the only early seed plants that have evolved a specialized root to host endophytic bacteria that fix nitrogen. To provide evolutionary and functional insights into this million-year old symbiosis, we investigate endophytic bacterial sub-communities isolated from coralloid roots of species from Dioon (Zamiaceae) sampled from their natural habitats. We employed a sub-community co-culture experimental strategy to reveal both predominant and rare bacteria, which were characterized using phylogenomics and detailed metabolic annotation. Diazotrophic plant endophytes, including Bradyrhizobium, Burkholderia, Mesorhizobium, Nostoc, and Rhizobium species, dominated the epiphyte-free sub-communities. Draft genomes of six cyanobacteria species were obtained after shotgun metagenomics of selected sub-communities and used for whole-genome inferences that suggest two Dioon-specific monophyletic groups and a level of specialization characteristic of co-evolved symbiotic relationships. In agreement with this, the genomes of these cyanobacteria were found to encode unique biosynthetic gene clusters, predicted to direct the synthesis of specialized metabolites, mainly involving peptides. After combining genome mining with metabolite profiling using multiphoton excitation fluorescence microscopy, we also show that Caulobacter species co-exist with cyanobacteria, and may interact with them by means of a novel indigoidine-like specialized metabolite. We provide an unprecedented view of the composition of the cycad coralloid root, including phylogenetic and functional patterns mediated by specialized metabolites that may be important for the evolution of ancient symbiotic adaptations.
0

EvoMining reveals the origin and fate of natural products biosynthetic enzymes

Nelly Sélem-Mójica et al.Nov 29, 2018
+2
K
C
N
Natural products, or specialized metabolites, are important for medicine and agriculture alike, as well as for the fitness of the organisms that produce them. Microbial genome mining aims at extracting metabolic information from genomes of microbes presumed to produce these compounds. Typically, canonical enzyme sequences from known biosynthetic systems are identified after sequence similarity searches. Despite this being an efficient process the likelihood of identifying truly novel biosynthetic systems is low. To overcome this limitation we previously introduced EvoMining, a genome mining approach that incorporates evolutionary principles. Here, we release and use our latest version of EvoMining, which includes novel visualization features and customizable databases, to analyze 42 central metabolic enzyme families conserved throughout Actinobacteria, Cyanobacteria, Pseudomonas and Archaea. We found that expansion-and-recruitment profiles of these enzyme families are lineage specific, opening a new metabolic space related to shell enzymes, which have been overlooked to date. As a case study of canonical shell enzymes, we characterized the expansion and recruitment of glutamate dehydrogenase and acetolactate synthase into scytonemin biosynthesis, and into other central metabolic pathways driving microbial adaptive evolution. By defining the origins and fates of metabolic enzymes, EvoMining not only complements traditional genome mining approaches as an unbiased and rule-independent strategy, but it opens the door to gain insights into the evolution of natural products biosynthesis. We anticipate that EvoMining will be broadly used for metabolic evolutionary studies, and to generate genome-mining predictions leading to unprecedented chemical scaffolds and new antibiotics.
0

RNA‐Seq Data Analysis: A Practical Guide for Model and Non‐Model Organisms

Enrique Pola‐Sánchez et al.May 1, 2024
+5
R
K
E
Abstract RNA sequencing (RNA‐seq) has emerged as a powerful tool for assessing genome‐wide gene expression, revolutionizing various fields of biology. However, analyzing large RNA‐seq datasets can be challenging, especially for students or researchers lacking bioinformatics experience. To address these challenges, we present a comprehensive guide to provide step‐by‐step workflows for analyzing RNA‐seq data, from raw reads to functional enrichment analysis, starting with considerations for experimental design. This is designed to aid students and researchers working with any organism, irrespective of whether an assembled genome is available. Within this guide, we employ various recognized bioinformatics tools to navigate the landscape of RNA‐seq analysis and discuss the advantages and disadvantages of different tools for the same task. Our protocol focuses on clarity, reproducibility, and practicality to enable users to navigate the complexities of RNA‐seq data analysis easily and gain valuable biological insights from the datasets. Additionally, all scripts and a sample dataset are available in a GitHub repository to facilitate the implementation of the analysis pipeline. © 2024 The Authors. Current Protocols published by Wiley Periodicals LLC. Basic Protocol 1 : Analysis of data from a model plant with an available reference genome Basic Protocol 2 : Gene ontology enrichment analysis Basic Protocol 3 : De novo assembly of data from non‐model plants
1

A host shift as the origin of tomato bacterial canker caused byClavibacter michiganensis

Alan Yañez-Olvera et al.Jul 24, 2023
+7
N
Á
A
Abstract Clavibacter , a plant endophytic actinobacterial genus, includes phytopathogens with devasting effects on several crops. C. michiganensis , the seed-borne and causal agent of bacterial canker in tomato, is arguably the most notorious species of the genus. Yet, its origin and natural reservoirs remain elusive. Moreover, C. michiganensis populations show different genetic pathogenicity profiles with equally unpredictable plant disease outcomes. To tackle these uncertainties, here we analyze genomic data generated during a decade-long survey of Clavibacter in wild and commercial tomato cultivars, providing evolutionary insights that informed on the pathogenicity of this phytopathogen. Unexpectedly, our phylogeny situate the last common ancestor of C. michiganensis next to Clavibacter isolates from grasses rather than to the sole strain we could isolate from wild tomato, which is closer to C. capsici associated with pepper. Pathogenicity profiling of selected C. michiganensis isolates, together with C. phaseoli and C. californiensis as sister taxa of the grass clade, and the newly isolated C. capsici from wild tomato, was found to be congruent with the proposed phylogenetic relationships. Furthermore, we identified gene enrichment after an evolutionary bottleneck leading to the appearance of C. michiganesis , including known pathogenicity factors but also hitherto unnoticed genes with such potential, i.e., nutrient acquisition and specialized metabolite metabolic gene clusters. The holistic perspective provided by our long-term and in-depth analyses hints towards a host shift event as the origin of the causative agent of bacterial canker in tomato, leading to a complex of C. michiganensis with pathogenicity factors that remain to be characterized.