HC
Haoyu Chao
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
1
h-index:
6
/
i10-index:
6
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

T4SEpp: a pipeline integrated with protein language models effectively predicting bacterial type IV secreted effectors

Yueming Hu et al.Jul 3, 2023
Abstract Many pathogenic bacteria use type IV secretion systems(T4SSs) to deliver effectors (T4SEs) into the cytoplasm of eukaryotic cells, causeing diseases. The identification of effectors is a crucial step in understanding the mechanisms of bacterial pathogenicity, but this remains a major challenge. In this study, we used the full-length embedding features generated by six pre-trained protein language models to train classifiers predicting T4SEs, and compared their performance. An integrated model T4SEpp was assembled by a module searching full-length, signal sequence and effector domain homologs of known T4SEs, a machine learning module based on the hand-crafted features extracted from the signal sequences, and the third module containing three best-performing protein language pre-trained models. T4SEpp outperformed the other state-of-the-art (SOTA) software tools, achieving ∼0.95 sensitivity at a high specificity of ∼0.99, based on the assessment of an independent testing dataset. Additionally, we performed a comprehensive search among 8,761 bacterial species, leading to the discovery of 227 species belonging to 3 phyla and 117 genera that possess T4SSs. Furthermore, leveraging the power of T4SEpp, we successfully identified a grand total of 12,622 plausible T4SEs. Overall, T4SEpp provides a better solution to assist in the identification of bacterial T4SEs, and facilitates studies of bacterial pathogenicity. T4SEpp is freely accessible at https://bis.zju.edu.cn/T4SEpp .
1
Citation1
0
Save
1

Systematic single-cell analysis reveals dynamic control of transposable element activity orchestrating the endothelial-to-hematopoietic transition

Cong Feng et al.Jun 21, 2023
Abstract Background The endothelial-to-hematopoietic transition (EHT) process during definitive hematopoiesis in vertebrate is highly conserved. Stage-specific expression of transposable elements (TEs) has been detected during zebrafish EHT and may promote hematopoietic stem cell formation by activating inflammatory signaling. However, little is known about how TEs contribute to the EHT process in human and mouse. Results We reconstructed the single-cell EHT trajectories of human and mouse, and resolved the dynamic expression patterns of TEs during EHT. Most TEs presented a transient co-upregulation pattern along the conserved EHT trajectories. Enhanced TE activation was tightly associated with the temporal relaxation of epigenetic silencing systems. TE products can be sensed by multiple pattern recognition receptors, triggering inflammatory signaling to facilitate the emergence of hematopoietic stem cells. Furthermore, we observed that hypoxia-related signals were enriched in cells with higher TE expression. Additionally, we constructed the hematopoietic cis-regulatory network of accessible TEs and identified potential enhancers derived by TEs, which may boost the expression of specific EHT marker genes. Conclusions Our study provides a systematic vision on how TEs are dynamically controlled to promote the hematopoietic fate decision through transcriptional and cis-regulatory networks, and pre-train the immunity of nascent hematopoietic stem cells.
0

iSeq: An integrated tool to fetch public sequencing data

Haoyu Chao et al.May 20, 2024
Abstract High-throughput sequencing technologies (Next Generation Sequencing; NGS) are increasingly utilized by researchers to tackle a diverse array of biological inquiries. Leveraging the remarkable scale and efficiency of modern sequencing, significant advancements are made across various fields, spanning from genome analysis to the intricate dynamics of protein-nucleic acid interactions. Recognizing that NGS data harbors rich biological information, the International Nucleotide Sequence Database Collaboration (INSDC) was established nearly 40 years ago to collect and disseminate public nucleotide sequence data and associated metadata. The National Genomics Data Center (NGDC) has also provided open access to vast amounts of raw sequence data. These databases have greatly enhanced the capacity for reanalyzing NGS data. In recent years, amid the rise of large language models, biological sequences and data have emerged as inputs for training models to address biological challenges. However, methods for programmatically accessing this public sequencing data remain limited. To address this gap, we have developed iSeq, an integrated tool that allows for quick and straightforward retrieval of metadata and NGS data via the command-line interface. iSeq is currently the only tool that supports simultaneous retrieval from multiple databases (GSA, SRA, ENA, DDBJ, and GEO). Additionally, iSeq supports a wide range of accession formats as input and features parallel downloads, multi-threaded processes, and FASTQ file merging. It is freely available on Bioconda ( https://anaconda.org/bioconda/iseq ) and GitHub ( https://github.com/BioOmics/iSeq ). Highlights iSeq supports multiple databases for accessing a wide range of raw sequencing data and metadata. iSeq supports at least 25 different accession formats as input. iSeq supports parallel downloads, multi-threaded processes, FASTQ file merging, and integrity verification.
0
0
Save
0

SoyOD: An Integrated Soybean Multi-omics Database for Mining Genes and Biological Research

Jie Li et al.Nov 13, 2024
Abstract Soybean is a globally important crop for food, feed, oil, and nitrogen fixation. A variety of multi-omics studies has been carried out, generating datasets ranging from genotype to phenotype. In order to efficiently utilize these data for basic and applied research, a soybean multi-omics database with extensive data coverage and comprehensive data analysis tools was established. The Soybean Omics Database (SoyOD) integrates important new datasets with existing public datasets to form the most comprehensive collection of soybean multi-omics information. Compared to existing soybean databases, SoyOD incorporates an extensive collection of novel data derived from the deep-sequencing of 984 germplasms, 162 novel transcriptome datasets from seeds at different developmental stages, 53 phenotypic datasets, and more than 2500 phenotypic images. In addition, SoyOD integrates existing data resources, including 59 assembled genomes, genetic variation data from 3904 soybean accessions, 225 sets of phenotypic data, and 1097 transcriptomic sequences covering 507 different tissues and treatment conditions. Moreover, SoyOD can be used to mine candidate genes for important agronomic traits, as shown in a case study on plant height. Additionally, powerful analytical and easy-to-use toolkits enable users to easily access the available multi-omics datasets, and to rapidly search genotypic and phenotypic data in a particular germplasm. The novelty, comprehensiveness, and user-friendly features of SoyOD make it a valuable resource for soybean molecular breeding and biological research. SoyOD is publicly accessible at https://bis.zju.edu.cn/soyod.