LD
Li Deng
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(67% Open Access)
Cited by:
6,922
h-index:
15
/
i10-index:
21
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

TGS-GapCloser: A fast and accurate gap closer for large genomes with low coverage of error-prone long reads

Mengyang Xu et al.Sep 1, 2020
Abstract Background Analyses that use genome assemblies are critically affected by the contiguity, completeness, and accuracy of those assemblies. In recent years single-molecule sequencing techniques generating long-read information have become available and enabled substantial improvement in contig length and genome completeness, especially for large genomes (&gt;100 Mb), although bioinformatic tools for these applications are still limited. Findings We developed a software tool to close sequence gaps in genome assemblies, TGS-GapCloser, that uses low-depth (~10×) long single-molecule reads. The algorithm extracts reads that bridge gap regions between 2 contigs within a scaffold, error corrects only the candidate reads, and assigns the best sequence data to each gap. As a demonstration, we used TGS-GapCloser to improve the scaftig NG50 value of 3 human genome assemblies by 24-fold on average with only ~10× coverage of Oxford Nanopore or Pacific Biosciences reads, covering with sequence data up to 94.8% gaps with 97.7% positive predictive value. These improved assemblies achieve 99.998% (Q46) single-base accuracy with final inserted sequences having 99.97% (Q35) accuracy, despite the high raw error rate of single-molecule reads, enabling high-quality downstream analyses, including up to a 31-fold increase in the scaftig NGA50 and up to 13.1% more complete BUSCO genes. Additionally, we show that even in ultra-large genome assemblies, such as the ginkgo (~12 Gb), TGS-GapCloser can cover 71.6% of gaps with sequence data. Conclusions TGS-GapCloser can close gaps in large genome assemblies using raw long reads quickly and cost-effectively. The final assemblies generated by TGS-GapCloser have improved contiguity and completeness while maintaining high accuracy. The software is available at https://github.com/BGI-Qingdao/TGS-GapCloser.
0
Citation247
0
Save
0

TGS-GapCloser: fast and accurately passing through the Bermuda in large genome using error-prone third-generation long reads

Mengyang Xu et al.Nov 5, 2019
Abstract The completeness and accuracy of genome assemblies determine the quality of subsequent bioinformatics analysis. Despite benefiting from the medium/long-range information of third-generation sequencing techniques, current gap-closing tools to enhance assemblies suffer multi-alignments and high error rates, resulting in huge time and money costs. We developed a software tool, TGS-GapCloser that uses the low depth (>=10X) single molecule sequencing long reads without any error correction to close gaps. The algorithm distinguishes gap regions from the alignments of long reads against original scaffolds, corrects only the candidate regions, and assigns the best sequences to each gap. We demonstrate that TGS-GapCloser improves the contig N50 value of draft assembly by 25-fold on average, updating above 90% gaps with 93.96% positive predictive value. Despite of high error rate of raw long reads, improved assemblies archive Q50 (99.999%) single-base accuracy with only 11.8% decrement to inputs. Besides it could complete more gaps, and is also ∼29-fold faster than mainstream gap-closing tools. BUSCO analysis revealed that 3.4%-13.1% more expected genes were complete. TGS-GapCloser also shows its power to fill gaps for ultra large genome assembly of ginkgo (∼12Gb) with 71.6% of gaps closed. The validation of inserted or merged gap sequences was conducted with NGS reads and reference genomes, respectively. The updated genome assemblies may promote the gene annotation, structure variant calling and thus improving the downstream analysis of ontogeny, phylogeny, and evolution.
0
Citation20
0
Save
1

An enormous Paris polyphylla genome sheds light on genome size evolution and polyphyllin biogenesis

Jing Li et al.Jun 1, 2020
Abstract The monocot family Melanthiaceae with varying genome sizes in a range of 230-fold is an ideal model to study the genome size fluctuation in plants. Its family member Paris genus demonstrates an evolutionary trend of bearing huge genomes characterized by an average c-value of 49.22 pg. Here, we report a 70.18 Gb genome assembly out of the 82.55 Gb genome of Paris polyphylla var. yunnanensis (PPY), which represents the biggest sequenced genome to date. We annotate 69.53% repetitive sequences in this genome and 62.50% of which are long-terminal repeat (LTR) transposable elements. Further evolution analysis indicates that the giant genome likely results from the joint effect of common and species-specific expansion of different LTR superfamilies, which might contribute to the environment adaptation after speciation. Moreover, we identify the candidate pathway genes for the biogenesis of polyphyllins, the PPY-specific medicinal saponins, by complementary approaches including genome mining, comprehensive analysis of 31 next-generation RNA-seq data and 55.23 Gb single-molecule circular consensus sequencing (CCS) RNA-seq reads, and correlation of the transcriptome and phytochemical data of five different tissues at four growth stages. This study not only provides significant insights into plant genome size evolution, but also paves the way for the following polyphyllin synthetic biology.
1
Citation6
0
Save
0

Haplotype-Resolved Assembly for Synthetic Long Reads Using a Trio-Binning Strategy

Mengyang Xu et al.Jun 2, 2020
ABSTRACT The accuracy and completeness of genome haplotyping are crucial for characterizing the relationship between human disease susceptibility and genetic variations, especially for the heterozygous variations. However, most of current variations are unphased genotypes, and the construction of long-range haplotypes remains challenging. We introduced a de novo haplotype-resolved assembly tool, HAST that exports two haplotypes of a diploid species for synthetic long reads with trio binning. It generates parental distinguishing k -mer libraries, partitions reads from the offspring according to the unique markers, and individually assembles them to resolve the haplotyping problem. Based on the stLFR co-barcoding data of an Asian as well as his parental massive parallel sequencing data, we utilized HAST to recover both haplotypes with a scaffold N50 of >11 Mb and an assembly accuracy of 99.99995% (Q63). The complete and accurate employment of long-range haplotyping information provided sub-chromosome level phase blocks (N50 ∼13 Mb) with 99.6% precision and 94.1% recall on average. We suggest that the accurate and efficient approach accomplishes the regeneration of the haplotype chromosomes with trio binning, thus promoting the determination of haplotype phase, the heterosis of crossbreeding, and the formation of autopolyploid and allopolyploid.
0
Citation2
0
Save
Load More