CY
Chentao Yang
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
11
(82% Open Access)
Cited by:
806
h-index:
17
/
i10-index:
21
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
107

Automated assembly of high-quality diploid human reference genomes

Erich Jarvis et al.Mar 6, 2022
Abstract The current human reference genome, GRCh38, represents over 20 years of effort to generate a high-quality assembly, which has greatly benefited society 1, 2 . However, it still has many gaps and errors, and does not represent a biological human genome since it is a blend of multiple individuals 3, 4 . Recently, a high-quality telomere-to-telomere reference genome, CHM13, was generated with the latest long-read technologies, but it was derived from a hydatidiform mole cell line with a duplicate genome, and is thus nearly homozygous 5 . To address these limitations, the Human Pangenome Reference Consortium (HPRC) recently formed with the goal of creating a collection of high-quality, cost-effective, diploid genome assemblies for a pangenome reference that represents human genetic diversity 6 . Here, in our first scientific report, we determined which combination of current genome sequencing and automated assembly approaches yields the most complete, accurate, and cost-effective diploid genome assemblies with minimal manual curation. Approaches that used highly accurate long reads and parent-child data to sort haplotypes during assembly outperformed those that did not. Developing a combination of all the top performing methods, we generated our first high- quality diploid reference assembly, containing only ∼4 gaps (range 0-12) per chromosome, most within + 1% of CHM13’s length. Nearly 1/4th of protein coding genes have synonymous amino acid changes between haplotypes, and centromeric regions showed the highest density of variation. Our findings serve as a foundation for assembling near-complete diploid human genomes at the scale required for constructing a human pangenome reference that captures all genetic variation from single nucleotides to large structural rearrangements.
107
Citation18
0
Save
0

Comparative genomics of macaques and integrated insights into genetic variation and population history

S Zhang et al.Apr 8, 2024
ABSTRACT The crab-eating macaques ( Macaca fascicularis ) and rhesus macaques ( M. mulatta ) are widely studied nonhuman primates in biomedical and evolutionary research. Despite their significance, the current understanding of the complex genomic structure in macaques and the differences between species requires substantial improvement. Here, we present a complete genome assembly of a crab-eating macaque and 20 haplotype-resolved macaque assemblies to investigate the complex regions and major genomic differences between species. Segmental duplication in macaques is ∼42% lower, while centromeres are ∼3.7 times longer than those in humans. The characterization of ∼2 Mbp fixed genetic variants and ∼240 Mbp complex loci highlights potential associations with metabolic differences between the two macaque species (e.g., CYP2C76 and EHBP1L1 ). Additionally, hundreds of alternative splicing differences show post-transcriptional regulation divergence between these two species (e.g., PNPO ). We also characterize 91 large-scale genomic differences between macaques and humans at a single-base-pair resolution and highlight their impact on gene regulation in primate evolution (e.g., FOLH1 and PIEZO2 ). Finally, population genetics recapitulates macaque speciation and selective sweeps, highlighting potential genetic basis of reproduction and tail phenotype differences (e.g., STAB1 , SEMA3F , and HOXD13 ). In summary, the integrated analysis of genetic variation and population genetics in macaques greatly enhances our comprehension of lineage-specific phenotypes, adaptation, and primate evolution, thereby improving their biomedical applications in human diseases.
0
Citation1
0
Save
0

GCI: a continuity inspector for complete genome assembly

Qianhui Chen et al.Apr 9, 2024
Abstract Motivation Recent advances in long-read sequencing technologies have significantly facilitated the production of high-quality genome assembly. The telomere-to-telomere (T2T) gapless assembly has become the new golden standard of genome assembly efforts. Several recent efforts have claimed to produce T2T level reference genomes. However, a universal standard is still missing to qualify a genome assembly to be at T2T standard. Traditional genome assembly assessment metrics (N50 and its derivatives) have no capacity in differentiate between nearly T2T assembly and the truly T2T assembly in continuity either globally and locally. Also these metrics are independent of raw reads, which make them inflated easily by artificial operations. Therefore a gaplessness evaluation tool at single nucleotide resolution to reflect true completeness is urgently needed in the era of complete genomes. Results Here, we present a tool called Genome Continuity Inspector (GCI) to assess genome assembly continuity at the single base resolution, that can evaluate how close a genome assembly is close to T2T level. GCI utilized multiple aligners to map long reads from multiple platforms back to the assembly. By incorporating curated mapping coverage of high-confidence read alignments, GCI identifies potential assembly issues. Meanwhile, it also reports GCI scores to quantify the assembly overall continuity in the whole genome or chromosome scale. Availability and implementation The open-source GCI code is freely available on Github ( https://github.com/yeeus/GCI ) under the MIT license.
0
Citation1
0
Save
9

Sequencing of clinical samples reveals that adaptation keeps establishing during H7N9 virus infection in humans

Liqiang Li et al.Dec 31, 2020
The H7 subtype avian influenza viruses (AIV) have a much longer history and their adaptation through evolution pose continuous threat to humans 1 . Since 2013 March, the novel reasserted H7N9 subtype have transmitted to humans through their repeated assertion in the poultry market. Through repeated transmission, H7N9 gradually became the second AIV subtype posing greater public health risk after H5N1 2,3 . After infection, how the virus tunes its genome to adapt and evolve in humans remains unknown. Through direct amplification of H7N9 and high throughput (HT) sequencing of full genomes from the swabs and lower respiratory tract samples collected from infected patients in Shenzhen, China, we have analyzed the in vivo H7N9 mutations at the level of whole genomes and have compared with the genomes derived by in vitro cultures. These comparisons and frequency analysis against the H7N9 genomes in the public database, 40 amino acids were identified that play potential roles in virus adaptation during H7N9 infection in humans. Various synonymous mutations were also identified that might be crucial to H7N9 adaptation in humans. The mechanism of these mutations occurred in a single infection are discussed in this study.
0

Genetic diversity and evolution of rice centromeres

Lihong Xie et al.Jul 29, 2024
Abstract Understanding the mechanisms driving centromere evolution is crucial for deciphering eukaryotic evolution and speciation processes. Despite their widely recognized characteristics of conserved function in cell division, the centromeres have showed high diversity in composition and structure between species. The mechanism underlying this paradox remain poorly understood. Here, we assembled 67 high-quality rice genomes from Oryza AA group, encompassing both Asian and African rice species, and conducted an extensive analysis of over 800 nearly complete centromeres. Through de novo annotation of satellite sequences and employing a progressive compression strategy, we quantified the local homogenization and multi-layer nested structures of rice centromeres and found that genetic innovations in rice centromeres primarily arise from internal structural variations and retrotransposon insertions, along with a certain number of non-canonical satellite repeats ( sati ). Despite these rapid structural alterations, the single-base substitution rate in rice centromeres appears relatively lower compared to the chromosome arms. Contrary to the KARMA model for Arabidopsis centromere evolution, our model (RICE) suggests that centrophilic LTRs contribute to the decline of progenitor centromeres composed of satellite repeats, and facilitate the formation of evolutionary neo-centromeres, which are enriched with extended CENH3 binding regions beyond the native satellite arrays in plant genomes. In summary, this study provides novel insights into genomic divergence and reproductive barriers among rice species and subspecies, and advances our understanding of plant centromere evolution.
0

A single-molecule nanopore sequencing platform

Jiayuan Zhang et al.Aug 20, 2024
ABSTRACT Nanopore sequencing, a third-generation sequencing technology, has revolutionized the gene sequencing industry with its advantages of long reads, fast speed, real-time sequencing and analysis, and potential in detecting base modifications. This technology allows researchers to sequence longer DNA fragments in a single read, providing more comprehensive genomic information compared to previous methods. Nanopore sequencing operates on electrical signals generated by a nanopore embedded in a membrane separating two electrolyte-filled chambers. When single-stranded DNA (ssDNA) passes through the nanopore, it creates variations in the current that correspond to different DNA bases. By analyzing these current fluctuations with machine learning algorithms, the DNA sequence can be determined. In this study, we introduced several improvements to nanopore sequencing, including nanopore local chemistry sequencing, novel motor and pore proteins, chip design, and basecalling algorithms. Our new nanopore sequencing platform, CycloneSEQ, demonstrated long-duration sequencing (107 hours) on a single chip with high yield (>50 Gb). In human genomic DNA sequencing, CycloneSEQ was able to produce long reads with N50 33.6 kb and modal identity 97.0%. Preliminary findings on human whole-genome de novo assembly, variant calling, metagenomics sequencing, and single-cell RNA sequencing have further highlighted CycloneSEQ’s potential across different areas of genomics.
0

A near-complete genome assembly of the bearded dragon Pogona vitticeps provides insights into the origin of Pogona sex chromosomes

Qunfei Guo et al.Sep 10, 2024
Background: The agamid dragon lizard Pogona vitticeps is one of the most popular domesticated reptiles to be kept as pets worldwide. The capacity of breeding in captivity also makes it emerging as a model species for a range of scientific research, especially for the studies of sex chromosome origin and sex determination mechanisms. Results: By leveraging the CycloneSEQ and DNBSEQ sequencing technologies, we conducted whole genome and long-range sequencing for a captive-bred ZZ male to construct a chromosome-scale reference genome for P. vitticeps. The new reference genome is ~1.8 Gb in length, with a contig N50 of 202.5 Mb and all contigs anchored onto 16 chromosomes. Genome annotation assisted by long-read RNA sequencing greatly expanded the P. vitticeps lncRNA catalog. With the chromosome-scale genome, we were able to characterize the whole Z sex chromosome for the first time. We found that over 80% of the Z chromosome remains as pseudo-autosomal region (PAR) where recombination is not suppressed. The sexually differentiated region (SDR) is small and occupied mostly by transposons, yet it aggregates genes involved in male development, such as AMH, AMHR2 and BMPR1A. Finally, by tracking the evolutionary origin and developmental expression of the SDR genes, we proposed a model for the origin of P. vitticeps sex chromosomes which considered the Z-linked AMH as the master sex-determining gene. Conclusions: Our study provides novel insights into the sex chromosome origin and sex determination of this model lizard. The near-complete P. vitticeps reference genome will also benefit future study of amniote evolution and may facilitate genome-assisted breeding.
0

Access COI barcode efficiently using high throughput Single End 400 bp sequencing

Chentao Yang et al.Dec 17, 2018
Over the last decade, the rapid development of high-throughput sequencing platforms has accelerated species description and assisted morphological classification through DNA barcoding. However, constraints in barcoding costs led to unbalanced efforts which prevented accurate taxonomic identification for biodiversity studies. We present a high throughput sequencing approach based on the HIFI-SE pipeline which takes advantage of Single-End 400 bp (SE400) sequencing data generated by BGISEQ-500 to produce full-length Cytochrome c oxidase subunit I (COI) barcodes from pooled polymerase chain reaction amplicons. HIFI-SE was written in Python and included four function modules of filter, assign, assembly and taxonomy. We applied the HIFI-SE to a test plate which contained 96 samples (30 coral, 64 insects and 2 blank controls) and delivered a total of 86 fully assembled HIFI COI barcodes. By comparing to their corresponding Sanger sequences (72 sequences available), it showed that most of the samples (98.61%, 71/72) were correctly and accurately assembled, including 46 samples that had a similarity of 100% and 25 of ca. 99%. Our approach can produce standard full-length barcodes cost efficiently, allowing DNA barcoding for global biomes which will advance DNA-based species identification for various ecosystems and improved quarantine biosecurity efforts.