YW
Yadong Wang
Author with expertise in RNA Sequencing Data Analysis
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
17
(35% Open Access)
Cited by:
3
h-index:
79
/
i10-index:
562
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Genome sequence assembly evaluation using long-range sequencing data

Dengfeng Guan et al.May 10, 2022
Abstract Genome sequences are computationally assembled from millions of much shorter sequencing reads. Although this process can be impressively accurate with long reads, it is still subject to a variety of types of errors, including large structural misassembly errors in addition to localised base pair substitutions. Recent advances in long single molecule sequencing in combination with other long-range technologies such as synthetic long read clouds and Hi-C have dramatically increased the contiguity of assembly. This makes it all the more important to be able to validate the structural integrity of the chromosomal scale assemblies now being generated. Here we describe a novel assembly evaluation tool, Asset, which evaluates the consistency of a proposed genome assembly with multiple primary long-range data sets, identifying both supported regions and putative structural misassemblies. We present tests on three de novo assemblies from a human, a goat and a fish species, demonstrating that Asset can identify structural misassemblies accurately by combining regionally supported evidence from long read and other raw sequencing data. Not only can Asset be used to assess overall assembly confidence, and discover specific problematic regions for downstream genome curation, a process that leads to improvement in genome quality, but it can also provide feedback to automated assembly pipelines.
1
Citation2
0
Save
7

MEAHNE: MiRNA-disease association prediction based on semantic information in heterogeneous networks

Chen Huang et al.May 11, 2022
Abstract Prior studies have suggested close associations between miRNAs and diseases. Correct prediction of potential miRNA-disease pairs by computational methods is able to greatly accelerate the experimental process in biomedical research. However, many methods cannot effectively learn the complex information in the multi-source data, and limits the performance of the prediction model. A heterogeneous network prediction model MEAHNE is proposed to make full use of the complex information in multi-source data. We first constructed a heterogeneous network using miRNA-disease associations, miRNA-gene associations, disease-gene associations, and gene-gene associations. Because the rich semantic information in the heterogeneous network contains a lot of relational information of the network. To mine the relational information in heterogeneous network, we use neural networks to extract semantic information in metapath instances. We encode the obtained semantic information into weights using the attention mechanism, and use the weights to aggregate nodes in the network. At the same time, we also aggregate the semantic information in the metapath instances into the nodes associated with the instances, which can make the node embedding have excellent ability to represent the network. MEAHNE optimizes parameters through end-to-end training. MEAHNE is compared with other state-of-the-art heterogeneous graph neural network methods. The values of area under precision-recall curve and receiver operating characteristic curve show the superiority of MEAHNE. Additionally, MEAHNE predicted 50 miRNAs for lung cancer and esophageal cancer each and verified 49 miRNAs associated with lung cancer and 44 miRNAs associated with esophageal cancer by consulting relevant databases. MEAHNE has good performance and interpretability by experimental verification.
7
Citation1
0
Save
0

Identifying and removing haplotypic duplication in primary genome assemblies

Dengfeng Guan et al.Aug 14, 2019
Motivation: Rapid development in long read sequencing and scaffolding technologies is enabling increased efficiency in the production of reference-quality assemblies for large eukaryotic genomes. However, haplotype divergence in regions of high heterozygosity often results in assemblers creating two copies rather than one copy of a region, leading to breaks in contiguity and compromising downstream steps such as gene annotation. Several tools have been developed to resolve this problem. However, they either only focus on removing contained duplicate regions, also known as haplotigs, or fail to use all the relevant information and hence make errors. Results: Here we present a novel tool "purge\_dups" that automatically identifies haplotigs and also heterozygous overlaps between primary contigs, using both sequence similarity and read depth, and removes the duplicated regions. Through comparison with the current standard, purge\_haplotigs, on three de novo assemblies, we demonstrate that purge\_dups can reduce heterozygous duplication in assemblies effectively while maintaining completeness of the primary assembly. It can also benefit the scaffolding process by increasing continuity of the scaffolds. Moreover, purge\_dups is fully automatic and can be easy integrated into assembly pipelines.
0

deGSM: memory scalable construction of large scale de Bruijn Graph

Hongzhe Guo et al.Aug 9, 2018
Motivation: De Bruijn graph, a fundamental data structure to represent and organize genome sequence, plays important roles in various kinds of sequence analysis tasks such as de novo assembly, high-throughput sequencing (HTS) read alignment, pan-genome analysis, metagenomics analysis, HTS read correction, etc. With the rapid development of HTS data and ever-increasing number of assembled genomes, there is a high demand to construct de Bruijn graph for sequences up to Tera-base-pair level. It is non-trivial since the size of the graph to be constructed could be very large and each graph consists of hundreds of billions of vertices and edges. Current existing approaches may have unaffordable memory footprints to handle such a large de Bruijn graph. Moreover, it also requires the construction approach to handle very large dataset efficiently, even if in a relatively small RAM space. Results: We propose a lightweight parallel de Bruijn graph construction approach, de Bruijn Graph Constructor in Scalable Memory (deGSM). The main idea of deGSM is to efficiently construct the Burrows-Wheeler Transformation (BWT) of the unipaths of de Bruijn graph in constant RAM space and transform the BWT into the original unitigs. It is mainly implemented by a fast parallel external sorting of k-mers, which allows only a part of k-mers kept in RAM by a novel organization of the k-mers. The experimental results demonstrate that, just with a commonly used machine, deGSM is able to handle very large genome sequence(s), e.g., the contigs (305 Gbp) and scaffolds (1.1 Tbp) recorded in GenBank database and Picea abies HTS dataset (9.7 Tbp). Moreover, deGSM also has faster or comparable construction speed compared with state-of-the-art approaches. With its high scalability and efficiency, deGSM has enormous potentials in many large scale genomics studies.
1

xRead: a coverage-guided approach for scalable construction of read overlapping graph

T. Kong et al.May 24, 2023
Abstract The development of long-read sequencing is promising to high-quality and comprehensive de novo assembly for various species around the world. However, it is still challenging for genome assemblers to well-handle thousands of genomes, tens of gigabase level genome sizes and terabase level datasets simultaneously and efficiently, which is a bottleneck to large de novo sequencing studies. A major cause is the read overlapping graph construction that state-of-the-art tools usually have to cost terabyte-level RAM space and tens of days for that of large genomes. Such lower performance and scalability are not suited to handle the numerous samples to be sequenced. Herein, we propose xRead, an iterative overlapping graph approach that achieves high performance, scalability and yield simultaneously. Under the guidance of its novel read coverage-based model, xRead uses heuristic alignment skeleton approach to implement incremental graph construction with highly controllable RAM space and faster speed. For example, it enables to process the 1.28 Tb A. mexicanum dataset with less than 64GB RAM and obviously lower time-cost. Moreover, the benchmarks on the datasets from various-sized genomes suggest that it achieves higher accuracy in overlap detection without loss of sensitivity which also guarantees the quality of the produced graphs. Overall, xRead is suited to handle numbers of datasets from large genomes, especially with limited computational resources, which may play important roles in many de novo sequencing studies.
0

A Strategy Study on Risk Communication of Pandemic Influenza ——A Mental Model Study of College Students in Beijing

Honglin Yang et al.Dec 7, 2018
Understanding the risk perception of pandemic influenza can improve the risk communication efficiency of the government and ultimately reduce losses caused by the disaster. A mental model interview of 28 individuals who discussed pandemic influenza was analyzed in this paper. The interviewees were college students in Beijing, China who were evaluated to understand their views on the risk perception of pandemic influenza. Referring to the mental model theory, the researchers using Delphi method to identify the key risk factors and concepts to examine the public understanding of these contents; then, the researchers identify the deviations in their understanding so that suggestions and countermeasures have been put forward to enhance the effectiveness of risk communication. Most of the conceptual content was mentioned by most interviewees. However, some interviewees showed misunderstanding including excessive optimism about the consequences of pandemic influenza, a lack of detailed mitigation measures, and negative attitudes toward health education and vaccination. Once faced with threats, this may lead to the failure of risk communication. In Beijing City, the center of domestic and international education, the historical SARS epidemic and this year's seasonal flu peak are all hints of the potential risk of a pandemic outbreak. Beijing’s college students' one-sided understanding and misunderstanding of the relevant risk information may increase the risk during an influenza pandemic. The results highlight the necessity for the government to clearly focus on the communication content of the student group, provide an official reference plan for the public and update health education on this topic.
0
0
Save
Load More