EH
Elizabeth Hénaff
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(56% Open Access)
Cited by:
1,256
h-index:
16
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Comprehensive benchmarking and ensemble approaches for metagenomic classifiers

Alexa McIntyre et al.Sep 21, 2017
One of the main challenges in metagenomics is the identification of microorganisms in clinical and environmental samples. While an extensive and heterogeneous set of computational tools is available to classify microorganisms using whole-genome shotgun sequencing data, comprehensive comparisons of these methods are limited. In this study, we use the largest-to-date set of laboratory-generated and simulated controls across 846 species to evaluate the performance of 11 metagenomic classifiers. Tools were characterized on the basis of their ability to identify taxa at the genus, species, and strain levels, quantify relative abundances of taxa, and classify individual reads to the species level. Strikingly, the number of species identified by the 11 tools can differ by over three orders of magnitude on the same datasets. Various strategies can ameliorate taxonomic misclassification, including abundance filtering, ensemble approaches, and tool intersection. Nevertheless, these strategies were often insufficient to completely eliminate false positives from environmental samples, which are especially important where they concern medically relevant species. Overall, pairing tools with different classification strategies (k-mer, alignment, marker) can combine their respective advantages. This study provides positive and negative controls, titrated standards, and a guide for selecting tools for metagenomic analyses by comparing ranges of precision, accuracy, and recall. We show that proper experimental design and analysis parameters can reduce false positives, provide greater resolution of species in complex metagenomic samples, and improve the interpretation of results.
1
Citation294
0
Save
0

Retrotransposons are specified as DNA replication origins in the gene-poor regions of Arabidopsis heterochromatin

Zaida Vergara et al.Nov 28, 2016
Genomic stability depends on faithful genome replication. This is achieved by the concerted activity of thousands of DNA replication origins (ORIs) scattered throughout the genome. In spite of multiple efforts, the DNA and chromatin features that determine ORI specification are not presently known. We have generated a high-resolution genome-wide map of ORIs in cultured Arabidopsis thaliana cells that rendered a collection of 3230 ORIs. In this study we focused on defining the features associated with ORIs in heterochromatin. We found that while ORIs tend to colocalize with genes in euchromatic gene-rich regions, they frequently colocalize with transposable elements (TEs) in pericentromeric gene-poor domains. Interestingly, ORIs in TEs associate almost exclusively with retrotransposons, in particular, of the Gypsy family. ORI activity in retrotransposons occurs independently of TE expression and while maintaining high levels of H3K9me2 and H3K27me1, typical marks of repressed heterochromatin. ORI-TEs largely colocalize with chromatin signatures defining GC-rich heterochromatin. Importantly, TEs with active ORIs contain a local GC content higher than the TEs lacking them. Our results lead us to conclude that ORI colocalization with TEs is largely limited to retrotransposons, which are defined by their transposition mechanisms based on transcription, and they occur in a specific chromatin landscape. Our detailed analysis of ORIs responsible for heterochromatin replication has also implications on the mechanisms of ORI specification in other multicellular organisms in which retrotransposons are major components of heterochromatin as well as of the entire genome.
1

Supervised Machine Learning Enables Geospatial Microbial Provenance

Chandrima Bhattacharya et al.Sep 17, 2022
Abstract The recent increase in publicly available metagenomic datasets with geospatial metadata has made it possible to determine location-specific, microbial fingerprints from around the world. Such fingerprints can be useful for comparing microbial niches for environmental research, as well as for applications within forensic science and public health. To determine the regional specificity for environmental metagenomes, we examined 4305 shotgun-sequenced samples from the MetaSUB Consortium dataset – the most extensive public collection of urban microbiomes, spanning 60 different cities, 30 countries, and 6 continents. We were able to identify city-specific microbial fingerprints using supervised machine learning (SML) on the taxonomic classifications, and we also compared the performance of ten SML classifiers. We then further evaluated the five algorithms with the highest accuracy, with the city and continental accuracy ranging from 85-89% to 90-94%, respectively. We then used these results to develop Cassandra, a random-forest-based classifier that identifies indicator species to aid in fingerprinting and can infer higher-order microbial interactions at each site. We further tested the Cassandra algorithm on the Tara Oceans dataset, the largest collection of marine-based microbial genomes, where it classified the oceanic sample locations with 83% accuracy. These results and code show the utility of SML methods and Cassandra to identify bioindicator species across both oceanic and urban environments, which can help guide ongoing efforts in biotracing, environmental monitoring, and microbial forensics (MF).
0

Holobiont Urbanism: sampling urban beehives reveals cities’ metagenomes

Elizabeth Hénaff et al.May 7, 2020
ABSTRACT Over half of the world’s population lives in urban areas with, according to the United Nations (UN), nearly 70% expected to live in cities by 2050 (United Nations, 2019). Our cities are built by and for humans, but are also complex, adaptive biological systems involving a diversity of other living species. The majority of these species are invisible and constitute the city’s microbiome. Our design decisions for the built environment shape these invisible populations, and we interact with them on a constant basis. A growing body of evidence shows us that our health and well-being are dependent on these interactions. Indeed, multicellular organisms owe meaningful aspects of their development and phenotype to interactions with the microorganisms—bacteria or fungi—with which they live in continual exchange and symbiosis. While the processing and sequencing of samples can be high-throughput, gathering samples is still very expensive, labor intensive, and can require mobilizing large numbers of volunteers to get a snapshot of the microbial landscape of a city, such as City Sampling Day ( metasub.org ). Here we postulate that honeybees may be effective collaborators in the sampling process, as they daily forage within a 2-mile radius of their hive. We describe the results of a pilot study conducted with 3 rooftop beehives in Brooklyn, NY, where we evaluated the potential of various hive materials (beeswax, honey, debris, pollen, propolis) to reveal information as to the surrounding metagenomic landscape, and where we conclude that the bee debris are the richest substrate. Based on these results, we profiled 4 additional cities in this manner: Sydney, Melbourne, Venice and Tokyo. While the molecular and computational methods used here were based on DNA analysis, it is possible they could be used to monitor RNA-based viruses such as Sars-Cov-2. Here we present the results of this study, and discuss them in terms of architectural implications, as well as the potential of this method for epidemic surveillance.
0

Comprehensive Benchmarking and Ensemble Approaches for Metagenomic Classifiers

Alexa McIntyre et al.Jun 28, 2017
One of the main challenges in metagenomics is the identification of microorganisms in clinical and environmental samples. While an extensive and heterogeneous set of computational tools is available to classify microorganisms using whole genome shotgun sequencing data, comprehensive comparisons of these methods are limited. In this study, we use the largest (n=35) to date set of laboratory-generated and simulated controls across 846 species to evaluate the performance of eleven metagenomics classifiers. We also assess the effects of filtering and combining tools to reduce the number of false positives. Tools were characterized on the basis of their ability to (1) identify taxa at the genus, species, and strain levels, (2) quantify relative abundance measures of taxa, and (3) classify individual reads to the species level. Strikingly, the number of species identified by the eleven tools can differ by over three orders of magnitude on the same datasets. However, various strategies can ameliorate taxonomic misclassification, including abundance filtering, ensemble approaches, and tool intersection. Indeed, leveraging tools with different heuristics is beneficial for improved precision. Nevertheless, these strategies were often insufficient to completely eliminate false positives from environmental samples, which are especially important where they concern medically relevant species and where customized tools may be required. The results of this study provide positive controls, titrated standards, and a guide for selecting tools for metagenomic analyses by comparing ranges of precision and recall. We show that proper experimental design and analysis parameters, including depth of sequencing, choice of classifier or classifiers, database size, and filtering, can reduce false positives, provide greater resolution of species in complex metagenomic samples, and improve the interpretation of results.