JW
Jacob West-Roberts
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
19
(79% Open Access)
Cited by:
83
h-index:
10
/
i10-index:
10
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
36

The Chloroflexi supergroup is metabolically diverse and representatives have novel genes for non-photosynthesis based CO2 fixation

Jacob West-Roberts et al.Aug 24, 2021
+9
M
P
J
Abstract The Chloroflexi superphylum have been investigated primarily from the perspective of reductive dehalogenation of toxic compounds, anaerobic photosynthesis and wastewater treatment, but remain relatively little studied compared to their close relatives within the larger Terrabacteria group, including Cyanobacteria, Actinobacteria, and Firmicutes. Here, we conducted a detailed phylogenetic analysis of the phylum Chloroflexota, the phylogenetically proximal candidate phylum Dormibacteraeota , and a newly defined sibling phylum proposed in the current study, Eulabeiota . These groups routinely root together in phylogenomic analyses, and constitute the Chloroflexi supergroup. Chemoautotrophy is widespread in Chloroflexi. Two Form I Rubisco ancestral subtypes that both lack the small subunit are prevalent in ca. Eulabeiota and Chloroflexota , suggesting that the predominant modern pathway for CO 2 fixation evolved in these groups. The single subunit Form I Rubiscos are inferred to have evolved prior to oxygenation of the Earth’s atmosphere and now predominantly occur in anaerobes. Prevalent in both Chloroflexota and ca. Eulabeiota are capacities related to aerobic oxidation of gases, especially CO and H 2 . In fact, aerobic and anaerobic CO dehydrogenases are widespread throughout every class-level lineage, whereas traits such as denitrification and reductive dehalogenation are heterogeneously distributed across the supergroup. Interestingly, some Chloroflexota have a novel clade of group 3 NiFe hydrogenases that is phylogenetically distinct from previously reported groups. Overall, the analyses underline the very high level of metabolic diversity in the Chloroflexi supergroup, suggesting the ancestral metabolic platform for this group enabled highly varied adaptation to ecosystems that appeared in the aerobic world.
36
Citation15
0
Save
595

Borgs are giant extrachromosomal elements with the potential to augment methane oxidation

Basem Al-Shayeb et al.Jul 10, 2021
+8
J
M
B
Summary Anaerobic methane oxidation exerts a key control on greenhouse gas emissions 1 , yet factors that modulate the activity of microorganisms performing this function remain little explored. In studying groundwater, sediments, and wetland soil where methane production and oxidation occur, we discovered extraordinarily large, diverse DNA sequences that primarily encode hypothetical proteins. Four curated, complete genomes are linear, up to ~1 Mbp in length and share genome organization, including replicore structure, long inverted terminal repeats, and genome-wide unique perfect tandem direct repeats that are intergenic or generate amino acid repeats. We infer that these are a new type of archaeal extrachromosomal element with a distinct evolutionary origin. Gene sequence similarity, phylogeny, and local divergence of sequence composition indicate that many of their genes were assimilated from methane-oxidizing Methanoperedens archaea. We refer to these elements as “Borgs”. We identified at least 19 different Borg types coexisting with Methanoperedens in four distinct ecosystems. Borg genes expand redox and respiratory capacity (e.g., clusters of multiheme cytochromes), ability to respond to changing environmental conditions, and likely augment Methanoperedens capacity for methane oxidation (e.g., methyl coenzyme M reductase). By this process, Borgs could play a previously unrecognized role in controlling greenhouse gas emissions.
595
Citation12
0
Save
9

Do lanthanide-dependent microbial metabolisms drive the release of REEs from weathered granites?

Marcos Voutsinos et al.Mar 9, 2022
+2
R
J
M
Abstract Prior to soil formation, phosphate liberated by rock weathering is often sequestered into highly insoluble lanthanide phosphate minerals. Dissolution of these minerals is critical for the release of phosphate to the biosphere, yet the microorganisms involved, and the genes required for lanthanide metabolism, are poorly understood. Here, we sampled weathered granite and associated soil to identify the zones of lanthanide phosphate mineral solubilization and genomically define the organisms implicated in lanthanide utilisation. We reconstructed 136 genomes from 11 bacterial phyla and found gene clusters implicated in lanthanide-based metabolism of methanol (primarily XoxF3 and XoxF5) are surprisingly common in microbial communities in moderately weathered granite where lanthanide phosphate minerals are dissolving. Notably, XoxF3 systems were found in Verrucomicrobia for the first time, and in Acidobacteria, Gemmatimonadetes, and Alphaproteobacteria. The XoxF-containing gene clusters are shared by diverse Acidobacteria and Gemmatimonadetes, and include conserved hypothetical proteins and transporters not associated with the few well studied XoxF systems. Given that siderophore-like molecules that strongly bind lanthanides may be required to solubilize lanthanide phosphates, it is notable that candidate siderophore biosynthesis systems were most prevalent in bacteria in moderately weathered rock, especially in Acidobacteria with lanthanide-based systems. We conclude that the confluence in the zone of moderate weathering of phosphate mineral dissolution, lanthanide utilisation, and methanol oxidation (thus carbonic acid production) may be important during the conversion of granitic rock to soil.
9
Citation7
0
Save
32

Autotrophic biofilms sustained by deeply-sourced groundwater host diverse CPR bacteria implicated in sulfur and hydrogen metabolism

Luis Valentin-Alvarado et al.Nov 17, 2022
+10
A
S
L
Abstract Background Candidate Phyla Radiation (CPR) bacteria are commonly detected yet enigmatic members of diverse microbial communities. Their host associations, metabolic capabilities, and potential roles in biogeochemical cycles remain under-explored. We studied chemoautotrophically-based biofilms that host diverse CPR bacteria and grow in sulfide-rich springs using bulk geochemical analysis, genome-resolved metagenomics and scanning transmission x-ray microscopy (STXM) at room temperature and 87° K. Results CPR-affiliated Gracilibacteria, Absconditabacteria, Saccharibacteria, Peregrinibacteria, Berkelbacteria, Microgenomates, and Parcubacteria are members of two biofilm communities dominated by chemolithotrophic sulfur-oxidizing bacteria including Thiothrix or Beggiatoa . STXM imaging revealed ultra-small cells along the surfaces of filamentous bacteria that we interpret are CPR bacterial episymbionts. STXM and NEXAFS spectroscopy at carbon K and sulfur L 2,3 edges show protein-encapsulated elemental sulfur spherical granules associated with filamentous bacteria, indicating that they are sulfur-oxidizers, likely Thiothrix . Berkelbacteria and Moranbacteria in the same biofilm sample are predicted to have a novel electron bifurcating group 3b [NiFe]-hydrogenase, putatively a sulfhydrogenase, potentially linked to sulfur metabolism via redox cofactors. This complex could potentially underpin a symbiosis involving Berkelbacteria and/or Moranbacteria and filamentous sulfur-oxidizing bacteria such as Thiothrix that is based on cryptic sulfur cycling. One Doudnabacteria genome encodes adjacent sulfur dioxygenase and rhodanese genes that may convert thiosulfate to sulfite. We find similar conserved genomic architecture associated with CPR bacteria from other sulfur-rich subsurface ecosystems. Conclusions Our combined metagenomic, geochemical, spectromicroscopic and structural bioinformatics analyses link some CPR bacteria to sulfur-oxidizing Proteobacteria, likely Thiothrix , and indicate roles for CPR bacteria in sulfur and hydrogen cycling.
32
Citation6
0
Save
37

A widespread group of large plasmids in methanotrophic Methanoperedens archaea

Marie Schoelmerich et al.Feb 1, 2022
+5
R
H
M
Abstract Anaerobic methanotrophic (ANME) archaea conserve energy from the breakdown of methane, an important driver of global warming, yet the extrachromosomal genetic elements that impact the activities of ANME archaea are little understood. Here we describe large plasmids associated with ANME archaea of the Methanoperedens genus. These have been maintained in two bioreactors that contain enrichment cultures dominated by different Methanoperedens species and co-occur with Methanoperedens species in other anoxic environments. By manual curation we show that two of the plasmids are large (155,607 bp and 191,912 bp), circular, and replicate bidirectionally. The group of Methanoperedens species that carry these plasmids is related to “ Ca . Methanoperedens nitroreducens”, “ Ca . Methanoperedens ferrireducens”, “ Ca . Methanoperedens manganicus" and the plasmids occur in the same copy number as the main chromosome. The larger plasmid encodes transporters that potentially enhance access to Ni, which is required for the methyl-CoM reductase (Mcr), Co required for the cobalamin cofactor needed for methyltransferases, and amino acid uptake. We show that many plasmid genes are actively transcribed, including genes involved in plasmid chromosome maintenance and segregation, a Co 2+ /Ni 2+ transporter and cell protective proteins. Notably, one plasmid carries three tRNAs and two colocalized genes encoding ribosomal protein uL16 and elongation factor eEF2. These are not encoded in the host Methanoperedens genome and uL16 and eEF2 were highly expressed, indicating an obligate interdependence between this plasmid and its host. The finding of plasmids of Methanoperedens opens the way for the development of genetic vectors that could be used to probe little understood aspects of Methanoperedens physiology. Ultimately, this may provide a route to introduce or alter genes that may enhance growth and overall metabolism to accelerate methane oxidation rates.
37
Citation4
0
Save
0

Minimal and hybrid hydrogenases are active from archaea

Chris Greening et al.Jun 1, 2024
+18
L
P
C
Microbial hydrogen (H2) cycling underpins the diversity and functionality of diverse anoxic ecosystems. Among the three evolutionarily distinct hydrogenase superfamilies responsible, [FeFe] hydrogenases were thought to be restricted to bacteria and eukaryotes. Here, we show that anaerobic archaea encode diverse, active, and ancient lineages of [FeFe] hydrogenases through combining analysis of existing and new genomes with extensive biochemical experiments. [FeFe] hydrogenases are encoded by genomes of nine archaeal phyla and expressed by H2-producing Asgard archaeon cultures. We report an ultraminimal hydrogenase in DPANN archaea that binds the catalytic H-cluster and produces H2. Moreover, we identify and characterize remarkable hybrid complexes formed through the fusion of [FeFe] and [NiFe] hydrogenases in ten other archaeal orders. Phylogenetic analysis and structural modeling suggest a deep evolutionary history of hybrid hydrogenases. These findings reveal new metabolic adaptations of archaea, streamlined H2 catalysts for biotechnological development, and a surprisingly intertwined evolutionary history between the two major H2-metabolizing enzymes.
0
Citation3
0
Save
0

Giant genes are rare but implicated in cell wall degradation by predatory bacteria

Jacob West-Roberts et al.Nov 22, 2023
+11
S
L
J
Abstract Across the tree of life, gene lengths vary, but most are no more than a few thousand base pairs in length. The largest protein often reported is the ∼40,000 aa eukaryotic Titin. Even larger proteins may occur in the rapidly expanding set of metagenome-derived sequences, but their existence may be obscured by assembly fragmentation. Here, we leverage genome curation to complete metagenome-derived sequences that encode predicted proteins of up to 85,804 aa. Overall, the findings illuminate a huge knowledge gap related to giant proteins. Although predicted proteins of >30,000 aa occur in bacterial phyla such as Firmicutes and Actinobacteria , they are most common in ca. Omnitrophota, ultra small bacteria that adopt predatory lifestyles. All full length giant genes encode numerous transmembrane regions and most encode divergent secA DEAD helicase domains. In silico structural prediction of protein subregions was required to identify domains in unannotated protein segments, and revealed putative domains implicated in attachment and carbohydrate degradation. Many giant genes in new complete and near-complete Omnitrophota genomes occur in close proximity to genes homologous to type II secretion systems as well as carbohydrate import systems. This, in combination with the domain content, suggests that many bacterial giant proteins enable prey adhesion and cell wall digestion during bacterial predation.
0
Citation3
0
Save
0

The OMG dataset: An Open MetaGenomic corpus for mixed-modality genomic language modeling

Andre Cornman et al.Aug 17, 2024
+5
A
J
A
Biological language model performance depends heavily on pretraining data quality, diversity, and size. While metagenomic datasets feature enormous biological diversity, their utilization as pretraining data has been limited due to challenges in data accessibility, quality filtering and deduplication. Here, we present the Open MetaGenomic (OMG) corpus, a genomic pretraining dataset totalling 3.1T base pairs and 3.3B protein coding sequences, obtained by combining two large metagenomic dataset repositories (JGI's IMG and EMBL's MGnify). We first document the composition of the dataset and describe the quality filtering steps taken to remove poor quality data. We make the OMG corpus available as a mixed-modality genomic sequence dataset that represents multi-gene encoding genomic sequences with translated amino acids for protein coding sequences, and nucleic acids for intergenic sequences. We train the first mixed-modality genomic language model (gLM2) that leverages genomic context information to learn robust functional representations and coevolutionary signals in protein-protein interfaces. Furthermore, we show that deduplication in embedding space can be used to balance the corpus, demonstrating improved performance on downstream tasks. The OMG dataset is publicly hosted on the Hugging Face Hub at https://huggingface.co/datasets/tattabio/OMG and gLM2 is available at https://huggingface.co/tattabio/gLM2_650M.
53

Borg tandem repeats undergo rapid evolution and are under strong selection to create new intrinsically disordered regions in proteins

Marie Schoelmerich et al.May 19, 2022
+2
L
R
M
Abstract Borgs are huge, linear extrachromosomal elements associated with anaerobic methane-oxidizing archaea. Striking features of Borg genomes are pervasive tandem direct repeat (TR) regions. Here, we present six new Borg genomes and investigate the characteristics of tandem repeats in all ten complete Borg genomes. We find that TR regions are rapidly evolving, recently formed, arise independently and are virtually absent in host Methanoperedens genomes. Flanking partial repeats and A-enriched character constrain the TR formation mechanism. TRs can be in intergenic regions, where they might serve as regulatory RNAs, or in open reading frames (ORFs). TRs in ORFs are under very strong selective pressure, leading to perfect amino acid TRs (aaTRs) that are commonly intrinsically disordered regions. Proteins with aaTRs are often extracellular or membrane proteins, and functionally similar or homologous proteins often have aaTRs composed of the same amino acids. We propose that Borg aaTR-proteins functionally diversify Methanoperedens and all TRs are crucial for specific Borg-host associations and possibly co-speciation.
53
0
Save
1

Using strain-resolved analysis to identify contamination in metagenomics data

Yue Lou et al.Jan 17, 2022
+5
M
J
Y
Abstract Metagenomics analyses can be negatively impacted by DNA contamination. While external sources of contamination such as DNA extraction kits have been widely reported and investigated, contamination originating within the study itself remains underreported. Here we applied high-resolution strain-resolved analyses to identify contamination in two large-scale clinical metagenomics datasets. By mapping strain sharing to DNA extraction plates, we identified well-to-well contamination in both negative controls and biological samples in one dataset. Such contamination is more likely to occur among samples that are on the same or adjacent columns or rows of the extraction plate than samples that are far apart. Our strain-resolved workflow also reveals the presence of externally derived contamination, primarily in the other dataset. Overall in both datasets, contamination is more significant in samples with lower biomass. Our work demonstrates that genome-resolved strain tracking, with its essentially genome-wide nucleotide-level resolution, can be used to detect contamination in sequencing-based microbiome studies. Our results underscore the value of strain-specific methods to detect contamination and the critical importance of looking for contamination beyond negative and positive controls.
Load More