FS
Fengzhu Sun
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
23
(70% Open Access)
Cited by:
2,599
h-index:
55
/
i10-index:
139
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Correlation detection strategies in microbial data sets vary widely in sensitivity and precision

Sophie Weiss et al.Feb 23, 2016
+14
J
A
S
Abstract Disruption of healthy microbial communities has been linked to numerous diseases, yet microbial interactions are little understood. This is due in part to the large number of bacteria, and the much larger number of interactions (easily in the millions), making experimental investigation very difficult at best and necessitating the nascent field of computational exploration through microbial correlation networks. We benchmark the performance of eight correlation techniques on simulated and real data in response to challenges specific to microbiome studies: fractional sampling of ribosomal RNA sequences, uneven sampling depths, rare microbes and a high proportion of zero counts. Also tested is the ability to distinguish signals from noise, and detect a range of ecological and time-series relationships. Finally, we provide specific recommendations for correlation technique usage. Although some methods perform better than others, there is still considerable need for improvement in current techniques.
0
Citation632
0
Save
0

Marine bacterial, archaeal and protistan association networks reveal ecological linkages

Joshua Steele et al.Mar 24, 2011
+13
P
X
J
Microbes have central roles in ocean food webs and global biogeochemical processes, yet specific ecological relationships among these taxa are largely unknown. This is in part due to the dilute, microscopic nature of the planktonic microbial community, which prevents direct observation of their interactions. Here, we use a holistic (that is, microbial system-wide) approach to investigate time-dependent variations among taxa from all three domains of life in a marine microbial community. We investigated the community composition of bacteria, archaea and protists through cultivation-independent methods, along with total bacterial and viral abundance, and physico-chemical observations. Samples and observations were collected monthly over 3 years at a well-described ocean time-series site of southern California. To find associations among these organisms, we calculated time-dependent rank correlations (that is, local similarity correlations) among relative abundances of bacteria, archaea, protists, total abundance of bacteria and viruses and physico-chemical parameters. We used a network generated from these statistical correlations to visualize and identify time-dependent associations among ecologically important taxa, for example, the SAR11 cluster, stramenopiles, alveolates, cyanobacteria and ammonia-oxidizing archaea. Negative correlations, perhaps suggesting competition or predation, were also common. The analysis revealed a progression of microbial communities through time, and also a group of unknown eukaryotes that were highly correlated with dinoflagellates, indicating possible symbioses or parasitism. Possible 'keystone' species were evident. The network has statistical features similar to previously described ecological networks, and in network parlance has non-random, small world properties (that is, highly interconnected nodes). This approach provides new insights into the natural history of microbes.
0
Citation571
0
Save
0

VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data

Jie Ren et al.Jul 6, 2017
+2
Y
N
J
Identifying viral sequences in mixed metagenomes containing both viral and host contigs is a critical first step in analyzing the viral component of samples. Current tools for distinguishing prokaryotic virus and host contigs primarily use gene-based similarity approaches. Such approaches can significantly limit results especially for short contigs that have few predicted proteins or lack proteins with similarity to previously known viruses. We have developed VirFinder, the first k-mer frequency based, machine learning method for virus contig identification that entirely avoids gene-based similarity searches. VirFinder instead identifies viral sequences based on our empirical observation that viruses and hosts have discernibly different k-mer signatures. VirFinder’s performance in correctly identifying viral sequences was tested by training its machine learning model on sequences from host and viral genomes sequenced before 1 January 2014 and evaluating on sequences obtained after 1 January 2014. VirFinder had significantly better rates of identifying true viral contigs (true positive rates (TPRs)) than VirSorter, the current state-of-the-art gene-based virus classification tool, when evaluated with either contigs subsampled from complete genomes or assembled from a simulated human gut metagenome. For example, for contigs subsampled from complete genomes, VirFinder had 78-, 2.4-, and 1.8-fold higher TPRs than VirSorter for 1, 3, and 5 kb contigs, respectively, at the same false positive rates as VirSorter (0, 0.003, and 0.006, respectively), thus VirFinder works considerably better for small contigs than VirSorter. VirFinder furthermore identified several recently sequenced virus genomes (after 1 January 2014) that VirSorter did not and that have no nucleotide similarity to previously sequenced viruses, demonstrating VirFinder’s potential advantage in identifying novel viral sequences. Application of VirFinder to a set of human gut metagenomes from healthy and liver cirrhosis patients reveals higher viral diversity in healthy individuals than cirrhosis patients. We also identified contig bins containing crAssphage-like contigs with higher abundance in healthy patients and a putative Veillonella genus prophage associated with cirrhosis patients. This innovative k-mer based tool complements gene-based approaches and will significantly improve prokaryotic viral sequence identification, especially for metagenomic-based studies of viral ecology.
0
Citation500
0
Save
0

Inferring Domain–Domain Interactions From Protein–Protein Interactions

Minghua Deng et al.Oct 1, 2002
T
F
S
M
The interaction between proteins is one of the most important features of protein functions. Behind protein-protein interactions there are protein domains interacting physically with one another to perform the necessary functions. Therefore, understanding protein interactions at the domain level gives a global view of the protein interaction network, and possibly of protein functions. Two research groups used yeast two-hybrid assays to generate 5719 interactions between proteins of the yeast Saccharomyces cerevisiae. This allows us to study the large-scale conserved patterns of interactions between protein domains. Using evolutionarily conserved domains defined in a protein-domain database called PFAM (http://PFAM.wustl.edu), we apply a Maximum Likelihood Estimation method to infer interacting domains that are consistent with the observed protein-protein interactions. We estimate the probabilities of interactions between every pair of domains and measure the accuracies of our predictions at the protein level. Using the inferred domain-domain interactions, we predict interactions between proteins. Our predicted protein-protein interactions have a significant overlap with the protein-protein interactions (MIPS: http://mips.gfs.de) obtained by methods other than the two-hybrid assays. The mean correlation coefficient of the gene expression profiles for our predicted interaction pairs is significantly higher than that for random pairs. Our method has shown robustness in analyzing incomplete data sets and dealing with various experimental errors. We found several novel protein-protein interactions such as RPS0A interacting with APG17 and TAF40 interacting with SPT3, which are consistent with the functions of the proteins.
0
Citation454
0
Save
0

Identifying viruses from metagenomic data using deep learning

Jie Ren et al.Jan 23, 2020
+6
C
K
J
Background The recent development of metagenomic sequencing makes it possible to massively sequence microbial genomes including viral genomes without the need for laboratory culture. Existing reference‐based and gene homology‐based methods are not efficient in identifying unknown viruses or short viral sequences from metagenomic data. Methods Here we developed a reference‐free and alignment‐free machine learning method, DeepVirFinder, for identifying viral sequences in metagenomic data using deep learning. Results Trained based on sequences from viral RefSeq discovered before May 2015, and evaluated on those discovered after that date, DeepVirFinder outperformed the state‐of‐the‐art method VirFinder at all contig lengths, achieving AUROC 0.93, 0.95, 0.97, and 0.98 for 300, 500, 1000, and 3000 bp sequences respectively. Enlarging the training data with additional millions of purified viral sequences from metavirome samples further improved the accuracy for identifying virus groups that are under‐represented. Applying DeepVirFinder to real human gut metagenomic samples, we identified 51,138 viral sequences belonging to 175 bins in patients with colorectal carcinoma (CRC). Ten bins were found associated with the cancer status, suggesting viruses may play important roles in CRC. Conclusions Powered by deep learning and high throughput sequencing metagenomic data, DeepVirFinder significantly improved the accuracy of viral identification and will assist the study of viruses in the era of metagenomics.
0
Citation400
0
Save
82

Critical Assessment of Metagenome Interpretation - the second round of challenges

Fernando Meyer et al.Jul 12, 2021
+106
A
P
F
Abstract Evaluating metagenomic software is key for optimizing metagenome interpretation and focus of the community-driven initiative for the Critical Assessment of Metagenome Interpretation (CAMI). In its second challenge, CAMI engaged the community to assess their methods on realistic and complex metagenomic datasets with long and short reads, created from ∼1,700 novel and known microbial genomes, as well as ∼600 novel plasmids and viruses. Altogether 5,002 results by 76 program versions were analyzed, representing a 22x increase in results. Substantial improvements were seen in metagenome assembly, some due to using long-read data. The presence of related strains still was challenging for assembly and genome binning, as was assembly quality for the latter. Taxon profilers demonstrated a marked maturation, with taxon profilers and binners excelling at higher bacterial taxonomic ranks, but underperforming for viruses and archaea. Assessment of clinical pathogen detection techniques revealed a need to improve reproducibility. Analysis of program runtimes and memory usage identified highly efficient programs, including some top performers with other metrics. The CAMI II results identify current challenges, but also guide researchers in selecting methods for specific analyses.
82
Citation17
0
Save
0

DeepMicroClass sorts metagenomes into prokaryotes, eukaryotes and viruses, with marine applications

Shengwei Hou et al.Oct 27, 2021
+3
S
T
S
Abstract Sequence classification reduces the complexity of metagenomes and facilitates a fundamental understanding of the structure and function of microbial communities. Binary metagenomic classifiers offer an insufficient solution because environmental metagenomes are typically derived from multiple sequence sources, including prokaryotes, eukaryotes and the viruses of both. Here we introduce a deep-learning based (as opposed to alignment-based) sequence classifier, DeepMicroClass, that classifies metagenomic contigs into five sequence classes, i.e., viruses infecting prokaryotic or eukaryotic hosts, eukaryotic or prokaryotic chromosomes, and prokaryotic plasmids. At different sequence lengths, DeepMicroClass achieved area under the receiver operating characteristic curve (AUC) scores >0.98 for most sequence classes, with the exception of distinguishing plasmids from prokaryotic chromosomes (AUC scores ≈ 0.97). By benchmarking on 20 designed datasets with variable sequence class composition, we showed that DeepMicroClass obtained average accuracy scores of ∼0.99, ∼0.97, and ∼0.99 for eukaryotic, plasmid and viral contig classification, respectively, which were significantly higher than the other state-of-the-art individual predictors. Using a 1-300 µm daily time-series metagenomic dataset sampled from coastal Southern California as a case study, we showed that metagenomic read proportions recruited by eukaryotic contigs could be doubled with DeepMicroClass’s classification compared to the counterparts of other alignment-based classifiers. With its inclusive modeling and unprecedented performance, we expect DeepMicroClass will be a useful addition to the toolbox of microbial ecologists, and will promote metagenomic studies of under-appreciated sequence types.
0
Citation8
0
Save
9

HiCBin: Binning metagenomic contigs and recovering metagenome-assembled genomes using Hi-C contact maps

Yuxuan Du et al.Mar 23, 2021
F
Y
Abstract Recovering high-quality metagenome-assembled genomes (MAGs) from complex microbial ecosystems remains challenging. Conventional shotgun-based binning approaches may encounter barriers when multiple samples are scarce. Recently, high-throughput chromosome conformation capture (Hi-C) has been applied to simultaneously study multiple genomes in natural microbial communities. Several Hi-C-based binning pipelines have been put forward and yielded state-of-the-art results using a single sample. We conclude that normalization and clustering are two vital steps in the Hi-C-based binning analyses, and develop HiCBin, a novel open-source pipeline, to resolve high-quality MAGs utilizing Hi-C contact maps. HiCBin employs the HiCzin normalization method and the Leiden community detection algorithm based on the Potts spin-glass model and includes the spurious contact detection into binning pipelines for the first time. Using the metagenomic yeast sample with a perfect ground truth of contigs’ species identity, we comprehensively evaluate the impacts on the binning performance of different normalization methods and clustering algorithms from the HiCBin and other available metagenomic Hi-C analysis pipelines, demonstrate that the HiCzin and the Leiden algorithm achieve the best binning accuracy, and show that the spurious contact detection can improve the retrieval performance. We also validate our method and compare the capability to recover high-quality MAGs of HiCBin against other state-of-the-art Hi-C-based binning tools including ProxiMeta, bin3C, and MetaTOR, and one popular shotgun-based binning software MetaBAT2 on a human gut sample and a wastewater sample. HiCBin provides the best performance and applicability in resolving MAGs and is available at https://github.com/dyxstat/HiCBin .
9
Paper
Citation6
0
Save
16

MetaBinner: a high-performance and stand-alone ensemble binning method to recover individual genomes from complex microbial communities

Ziye Wang et al.Jul 26, 2021
+3
F
R
Z
Abstract Binning is an essential procedure during metagenomic data analysis. However, the available individual binning methods usually do not simultaneously fully use different features or biological information. Furthermore, it is challenging to integrate multiple binning results efficiently and effectively. Therefore, we developed an ensemble binner, MetaBinner, which generates component results with multiple types of features and utilizes single-copy gene (SCG) information for k-means initialization. It then utilizes a two-step ensemble strategy based on SCGs to integrate the component results. Extensive experimental results over three large-scale simulated datasets and one real-world dataset demonstrate that MetaBinner outperforms other state-of-the-art individual binners and ensemble binners. MetaBinner is freely available at https://github.com/ziyewang/MetaBinner .
0

Metagenomic unmapped reads provide important insights into human microbiota and disease associations

Zifan Zhu et al.Dec 21, 2018
F
S
J
Z
We developed a computational pipeline, MicroPro, for metagenomic data analyses that take into account all the reads from known and unknown microbial organisms and for associating viruses with complex diseases. We utilized MicroPro to analyze metagenomics data related to three diseases: colorectal cancer, type-2 diabetes and liver cirrhosis, and showed that including reads from unknown organisms will markedly increase the prediction accuracy of the disease status based on metagenomics data. We identified new microbial organisms associated with these diseases. Viruses were shown to play important roles in colorectal cancer and liver cirrhosis, but not in type-2 diabetes. MicroPro is available at https://github.com/zifanzhu/MicroPro.
0
Citation3
0
Save
Load More