SH
Shengwei Hou
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(71% Open Access)
Cited by:
35
h-index:
21
/
i10-index:
44
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
158

Ribosome-linked mRNA-rRNA chimeras reveal active novel virus host associations

J. Ignacio‐Espinoza et al.Oct 30, 2020
Abstract Viruses of prokaryotes greatly outnumber their hosts 1 and impact microbial processes across scales, including community assembly, evolution, and metabolism 1 . Metagenomic discovery of novel viruses has greatly expanded viral sequence databases, but only rarely can viral sequences be linked to specific hosts. Here, we adapt proximity ligation methods to ligate ribosomal RNA to transcripts, including viral ones, during translation. We sequenced the resulting chimeras, directly linking marine viral gene expression to specific hosts by transcript association with rRNA sequences. With a sample from the San Pedro Ocean Time-series (SPOT), we found viral-host links to Cyanobacteria, SAR11, SAR116, SAR86, OM75, and Rhodobacteracae hosts, some being the first viruses reported for these groups. We used the SPOT viral and cellular DNA database to track abundances of multiple virus-host pairs monthly over 5 years, e.g. with Roseovarius phages tracking the host. Because the vast majority of proximity ligations should occur between an organism’s ribosomes and its own transcripts, we validated our method by looking for self- vs non-self mRNA-rRNA chimeras, by read recruitment to marine single amplified genomes; verifiable non-self chimeras, suggesting off-target linkages, were very rare, indicating host-virus hits were very unlikely to occur by mistake. This approach in practice could link any transcript and its associated processes to specific microorganisms.
158
Citation16
0
Save
0

DeepMicroClass sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications

Shengwei Hou et al.Oct 27, 2021
Abstract Sequence classification reduces the complexity of metagenomes and facilitates a fundamental understanding of the structure and function of microbial communities. Binary metagenomic classifiers offer an insufficient solution because environmental metagenomes are typically derived from multiple sequence sources, including prokaryotes, eukaryotes and the viruses of both. Here we introduce a deep-learning based (as opposed to alignment-based) sequence classifier, DeepMicroClass, that classifies metagenomic contigs into five sequence classes, i.e., viruses infecting prokaryotic or eukaryotic hosts, eukaryotic or prokaryotic chromosomes, and prokaryotic plasmids. At different sequence lengths, DeepMicroClass achieved area under the receiver operating characteristic curve (AUC) scores >0.98 for most sequence classes, with the exception of distinguishing plasmids from prokaryotic chromosomes (AUC scores ≈ 0.97). By benchmarking on 20 designed datasets with variable sequence class composition, we showed that DeepMicroClass obtained average accuracy scores of ∼0.99, ∼0.97, and ∼0.99 for eukaryotic, plasmid and viral contig classification, respectively, which were significantly higher than the other state-of-the-art individual predictors. Using a 1-300 µm daily time-series metagenomic dataset sampled from coastal Southern California as a case study, we showed that metagenomic read proportions recruited by eukaryotic contigs could be doubled with DeepMicroClass’s classification compared to the counterparts of other alignment-based classifiers. With its inclusive modeling and unprecedented performance, we expect DeepMicroClass will be a useful addition to the toolbox of microbial ecologists, and will promote metagenomic studies of under-appreciated sequence types.
0
Citation8
0
Save
57

Estimating maximal microbial growth rates from cultures, metagenomes, and single cells via codon usage patterns

Jake Weissman et al.Jul 25, 2020
Abstract Maximal growth rate is a basic parameter of microbial lifestyle that varies over several orders of magnitude, with doubling times ranging from a matter of minutes to multiple days. Growth rates are typically measured using laboratory culture experiments. Yet, we lack sufficient understanding of the physiology of most microbes to design appropriate culture conditions for them, severely limiting our ability to assess the global diversity of microbial growth rates. Genomic estimators of maximal growth rate provide a practical solution to survey the distribution of microbial growth potential, regardless of cultivation status. We developed an improved maximal growth rate estimator, and implement this estimator in an easy-to-use R package (gRodon), which outperforms the state-of-the-art growth estimator in multiple settings, including in a community context where we implement a novel species abundance correction for metagenomes. Additionally, we estimate maximal growth rates from over 200,000 genomes, metagenome-assembled genomes, and single-cell amplified genomes to survey growth potential across the range of prokaryotic diversity. We provide these compiled maximal growth rates in a publicly-available database (EGGO), which we use to illustrate how culture collections show a strong bias towards organisms capable of rapid growth. We demonstrate how this database can be used to propagate maximal growth rate predictions to organisms for which we lack genomic information, on the basis of 16S rRNA sequence alone. Finally, we observe a bias in growth predictions for extremely slow-growing organisms, ultimately leading us to suggest a novel evolutionary definition of oligotrophy based on the selective regime an organism occupies. Significance Despite the wide perception that microbes have rapid growth rates, many environments like seawater and soil are often dominated by microorganisms that can only grow very slowly. Our knowledge about growth is necessarily biased towards easily culturable organisms, which turn out to be those that tend to grow fast, because microbial growth rates have traditionally been measured using lab growth experiments. But how are potential growth rates distributed in nature? We developed a tool to predict maximum growth rate from an organism’s genome sequence (gRodon). We predicted the growth rates of over 200,000 organisms and compiled these predictions in a publicly-available database (EGGO), which illustrates how current collections of cultured microbes are strongly biased towards fast-growing organisms.
57
Citation6
0
Save
0

Benchmarking metagenomic marine microbial growth prediction from codon usage bias and peak-to-trough ratios

Andrew Long et al.Sep 30, 2019
Growth rates are fundamental to all organisms and essential for characterizing microbial ecologies. Despite this, we do not know the instantaneous nor maximum growth rates of most naturally-occurring microorganisms. Recent reports indicate DNA replication rates can be estimated from metagenomic coverage, and maximum growth rates can be estimated from genomic characteristics. We tested these approaches with native marine bacteria (<0.6 um size fraction) as 10% inoculum grown in unamended virus-free seawater from the San Pedro Channel, California. This allowed microbial growth without grazing and with greatly reduced viral infection. At multiple time points up to 48 h, we sampled for cell abundances and metagenomic analyses. We generated 101 unique Metagenome-assembled genomes (MAGs) including Proteobacteria, Flavobacteria, Actinobacteria, Verrucomicrobia, Marine Group A/SAR406, MGII archaea, and others. We tracked the growth of each as the fraction of total metagenomic reads mapped to each MAG normalized with length, completeness, and total cell counts. Some MAGs did not grow appreciably, but those we could estimate had growth rates ranging from 0.08 to 5.99 d-1; these are the first reported growth rates for several of the groups. These metagenome-determined growth rates, which often changed within experiments, were compared to (a) DNA replication estimates from the peak-to-trough ratio (PTR) as determined by three different approaches, and (b) maximum growth rates predicted from codon usage bias (CUB). For the large majority of taxa, observed growth rates were not correlated to PTR indices (r ~ -0.26 - 0.08), with exceptions being rapidly growing Oceanospirillales and Saccharospirillaceae (r ~ 0.63 - 0.92). However, CUB was moderately well correlated to observed maximum growth rates (r = 0.57). This suggests that maximum growth rates can be reasonably well-estimated from genomic information alone, but current PTR approaches poorly predict actual growth of most marine planktonic bacteria in unamended seawater.
0

Single‐Molecule Cross‐Plane Conductance of Polycyclic Aromatic Hydrocarbon Derivatives

Zixian Yang et al.Jun 29, 2024
In the cross-plane single-molecule junctions, the correlation between molecular aromaticity and conductance remained puzzling. Cross-plane break junction (XPBJ) provides new insight into understanding the role of aromaticity and conjugation to molecules on charge transport through the planar molecules. In this work, we investigated the modulation of cross-plane charge transport in pyrene derivatives by hydrogenation and substituents based on the XPBJ method that differs from those used in-plane transport. We measured the electrical conductance of the hydrogenated derivatives of the pyrenes and found that hydrogenation reduces conductance, and the fully hydrogenated molecule has the lowest conductance. Conductance of pyrene derivatives increased after substitution by both electron-donating and electron-withdrawing groups. By calculating, the trend in decreased conductance of hydrogenated pyrene was found to be consistent with the change in aromaticity. Electron-withdrawing substituents reduce the aromaticity of the molecule and narrow the HOMO-LUMO gap, while electron-donating groups increase the aromaticity but also narrow the gap. Our work reveals the potential of fine-tuning the structure of the pyrene molecule to control the cross-plane charge transport through the single-molecule junctions.
0

Phylogenetic proximity drives temporal succession of marine giant viruses in a five-year metagenomic time-series

Sarah Laperriere et al.Aug 15, 2024
Abstract Nucleocytoplasmic Large DNA Viruses (NCLDVs, also called giant viruses) are widespread in marine systems and infect a broad range of microbial eukaryotes (protists). Recent biogeographic work has provided global snapshots of NCLDV diversity and community composition across the world’s oceans, yet little information exists about the guiding ‘rules’ underpinning their community dynamics over time. We leveraged a five-year monthly metagenomic time-series to quantify the community composition of NCLDVs off the coast of Southern California and characterize these populations’ temporal dynamics. NCLDVs were dominated by Algavirales (Phycodnaviruses, 59%) and Imitervirales (Mimiviruses, 36%). We identified clusters of NCLDVs with distinct classes of seasonal and non-seasonal temporal dynamics. Overall, NCLDV population abundances were often highly dynamic with a strong seasonal signal. The Imitervirales group had highest relative abundance in the more oligotrophic late summer and fall, while Algavirales did so in winter. Generally, closely related strains had similar temporal dynamics, suggesting that evolutionary history is a key driver of the temporal niche of marine NCLDVs. However, a few closely-related strains had drastically different seasonal dynamics, suggesting that while phylogenetic proximity often indicates ecological similarity, occasionally phenology can shift rapidly, possibly due to host-switching. Finally, we identified distinct functional content and possible host interactions of two major NCLDV orders-including connections of Imitervirales with primary producers like the diatom Chaetoceros and widespread marine grazers like Paraphysomonas and Spirotrichea ciliates. Together, our results reveal key insights on season-specific effect of phylogenetically distinct giant virus communities on marine protist metabolism, biogeochemical fluxes and carbon cycling.