YY
Yanbin Yin
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(100% Open Access)
Cited by:
10
h-index:
22
/
i10-index:
31
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Disease-related gene module detection based on a multi-label propagation clustering algorithm

Xue Jiang et al.May 19, 2017
Detecting disease-related gene modules by analyzing gene expression data is of great significance. It is helpful for exploratory analysis of the interaction mechanisms of genes under complex disease phenotypes. The multi-label propagation algorithm (MLPA) has been widely used in module detection for its fast and easy implementation. The accuracy of MLPA greatly depends on the connections between nodes, and most existing research focuses on measuring the similarity between nodes. However, MLPA does not perform well with loose connections between disease-related genes. Moreover, the biological significance of modules obtained by MLPA has not been demonstrated. To solve these problems, we designed a double label propagation clustering algorithm (DLPCA) based on MLPA to study Huntington's disease. In DLPCA, in addition to category labels, we introduced pathogenic labels to supervise the process of multi-label propagation clustering. The pathogenic labels contain pathogenic information about disease genes and the hierarchical structure of gene expression data. Experimental results demonstrated the superior performance of DLPCA compared with other conventional gene-clustering algorithms.
1
Citation8
0
Save
76

Critical assessment of pan-genomics of metagenome-assembled genomes

Li Tang et al.Jan 15, 2022
Abstract Background Large scale metagenome assembly and binning to generate metagenome-assembled genomes (MAGs) has become possible in the past five years. As a result, millions of MAGs have been produced and increasingly included in pan-genomics workflow. However, pan-genome analyses of MAGs may suffer from the known issues with MAGs: fragmentation, incompleteness, and contamination, due to mis-assembly and mis-binning. Here, we conducted a critical assessment of including MAGs in pan-genome analysis, by comparing pan-genome analysis results of complete bacterial genomes and simulated MAGs. Results We found that incompleteness led to more significant core gene loss than fragmentation. Contamination had little effect on core genome size but had major influence on accessory genomes. The core gene loss remained when using different pan-genome analysis tools and when using a mixture of MAGs and complete genomes. Importantly, the core gene loss was partially alleviated by lowering the core gene threshold and using gene prediction algorithms that consider fragmented genes, but to a less degree when incompleteness was higher than 5%. The core gene loss also led to incorrect pan-genome functional predictions and inaccurate phylogenetic trees. Conclusions We conclude that lowering core gene threshold and predicting genes in metagenome mode (as Anvi’o does with Prodigal) are necessary in pan-genome analysis of MAGs to alleviate the accuracy loss. Better quality control of MAGs and development of new pan-genome analysis tools specifically designed for MAGs are needed in future studies.
76
Citation1
0
Save
5

AcaFinder: genome mining for anti-CRISPR associated genes

Bowen Yang et al.Aug 30, 2022
Abstract Anti-CRISPR (Acr) proteins are encoded by (pro)viruses to inhibit their host’s CRISPR-Cas systems. Genes encoding Acr and Aca (Acr associated) proteins often co-localize to form acr-aca operons. Here, we present AcaFinder as the first Aca genome mining tool. AcaFinder can: (i) predict Acas and their associated acr-aca operons using guilt-by-association (GBA); (ii) identify homologs of known Acas using an HMM (Hidden Markov model) database; (iii) take input genomes for potential prophages, CRISPR-Cas systems, and self-targeting spacers (STSs); and (iv) provide a standalone program ( https://github.com/boweny920/AcaFinder ) and a web server ( http://aca.unl.edu/Aca ). AcaFinder was applied to mining over 16,000 prokaryotic and 142,000 gut phage genomes. After a multi-step filtering, 36 high-confident new Aca families were identified, which is three times of the 12 known Aca families. Seven new Aca families were from major human gut bacteria (Bacteroidota, Actinobacteria, Fusobacteria) and their phages, while most known Aca families were from Proteobacteria and Firmicutes. A complex association network between Acrs and Acas was revealed by analyzing their operonic co-localizations. It appears very common in evolution that the same aca genes can recombine with different acr genes and vice versa to form diverse acr-aca operon combinations. Importance At least four bioinformatics programs have been published for genome mining of Acrs since 2020. In contrast, no bioinformatics tools are available for automated Aca discovery. As the self-transcriptional repressor of acr-aca operons, Aca can be viewed as anti-anti-CRISPRs, with a great potential in the improvement of CRISPR-Cas technology. Although all the 12 known Aca proteins contain a conserved Helix-Turn-Helix (HTH) domain, not all HTH-containing proteins are Acas. However, HTH-containing proteins with an adjacent Acr homologs encoded in the same genetic operon are likely Aca proteins. AcaFinder implements this guilt-by-association (GBA) idea and the idea of using HMMs of known Acas for homologs into one software package. Applying AcaFinder in screening prokaryotic and gut phage genomes reveals a complex acr-aca operonic co-localization network between different families of Acrs and Acas.
5
Citation1
0
Save
109

Chromosome-level genomes of multicellular algal sisters to land plants illuminate signaling network evolution

Xuehuan Feng et al.Feb 1, 2023
The filamentous and unicellular algae of the class Zygnematophyceae are the closest algal relatives of land plants. Inferring the properties of the last common ancestor shared by these algae and land plants allows us to identify decisive traits that enabled the conquest of land by plants. We sequenced four genomes of filamentous Zygnematophyceae (three strains of Zygnema circumcarinatum and one strain of Z. cylindricum) and generated chromosome-scale assemblies for all strains of the emerging model system Z. circumcarinatum. Comparative genomic analyses reveal expanded genes for signaling cascades, environmental response, and intracellular trafficking that we associate with multicellularity. Gene family analyses suggest that Zygnematophyceae share all the major enzymes with land plants for cell wall polysaccharide synthesis, degradation, and modifications; most of the enzymes for cell wall innovations, especially for polysaccharide backbone synthesis, were gained more than 700 million years ago. In Zygnematophyceae, these enzyme families expanded, forming co-expressed modules. Transcriptomic profiling of over 19 growth conditions combined with co-expression network analyses uncover cohorts of genes that unite environmental signaling with multicellular developmental programs. Our data shed light on a molecular chassis that balances environmental response and growth modulation across more than 600 million years of streptophyte evolution.
109
0
Save
0

Carbohydrate-active enzyme annotation in microbiomes using dbCAN

Jinfang Zheng et al.Jan 11, 2024
CAZymes or carbohydrate-active enzymes are critically important for human gut health, lignocellulose degradation, global carbon recycling, soil health, and plant disease. We developed dbCAN as a web server in 2012 and actively maintain it for automated CAZyme annotation. Considering data privacy and scalability, we provide run_dbcan as a standalone software package since 2018 to allow users perform more secure and scalable CAZyme annotation on their local servers. Here, we offer a comprehensive computational protocol on automated CAZyme annotation of microbiome sequencing data, covering everything from short read pre-processing to data visualization of CAZyme and glycan substrate occurrence and abundance in multiple samples. Using a real-world metagenomic sequencing dataset, this protocol describes commands for dataset and software preparation, metagenome assembly, gene prediction, CAZyme prediction, CAZyme gene cluster (CGC) prediction, glycan substrate prediction, and data visualization. The expected results include publication-quality plots for the abundance of CAZymes, CGCs, and substrates from multiple CAZyme annotation routes (individual sample assembly, co-assembly, and assembly-free). For the individual sample assembly route, this protocol takes ~33h on a Linux computer with 40 CPUs, while other routes will be faster. This protocol does not require programming experience from users, but it does assume a familiarity with the Linux command-line interface and the ability to run Python scripts in the terminal. The target audience includes the tens of thousands of microbiome researchers who routinely use our web server. This protocol will encourage them to perform more secure, rapid, and scalable CAZyme annotation on their local computer servers.
1

Homeobox Transcription Factor HbxA Influences Expression of over One Thousand Genes in the Model Fungus Aspergillus nidulans

Sandesh Pandit et al.Apr 2, 2023
ABSTRACT In fungi, conserved homeobox-domain (HD) proteins are transcriptional regulators governing development. In Aspergillus species, several HD transcription factor genes have been identified, among them, hbxA / hbx1 . For instance, in the opportunistic human pathogen Aspergillus fumigatus , hbxA is involved in conidial production and germination, as well as virulence and secondary metabolism (SM), including production of fumigaclavines, fumiquinazolines, and chaetominine. In the agriculturally important fungus Aspergillus flavus, disruption of hbx1 results in fluffy aconidial colonies unable to produce sclerotia. hbx1 also regulates production of aflatoxins, cyclopiazonic acid and aflatrem. Furthermore, transcriptome studies revealed that hbx1 has a broad effect on the A. flavus genome, including numerous genes involved in SM. These studies underline the importance of the HbxA/Hbx1 regulator, not only in developmental processes but also in the biosynthesis of a broad number of fungal natural products, including potential medical drugs and mycotoxins. To gain further insight into the regulatory scope of HbxA in Aspergilli , we studied its role in the model fungus Aspergillus nidulans . Our present study of the A. nidulans hbxA -dependent transcriptome revealed that more than one thousand genes are differentially expressed when this regulator was not transcribed at wild-type levels, among them numerous transcription factors, including those involved in development as well as in SM regulation. Furthermore, our metabolomics analyses revealed that production of several secondary metabolites, some of them associated with A. nidulans hbxA -dependent gene clusters, was also altered in deletion and overexpression hbxA strains compared to the wild type, including synthesis of nidulanins A, B and D, versicolorin A, sterigmatocystin, austinol, dehydroaustinol, and three unknown novel compounds.