YJ
Yanyan Jia
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(100% Open Access)
Cited by:
7
h-index:
10
/
i10-index:
11
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

High-quality Arabidopsis thaliana Genome Assembly with Nanopore and HiFi Long Reads

Bo Wang et al.Jun 9, 2021
+10
Y
Y
B
Abstract Arabidopsis thaliana is an important and long-established model species for plant molecular biology, genetics, epigenetics, and genomics. However, the latest version of reference genome still contains significant number of missing segments. Here, we report a high-quality and almost complete Col-0 genome assembly with two gaps (Col-XJTU) using combination of Oxford Nanopore Technology ultra-long reads, PacBio high-fidelity long reads, and Hi-C data. The total genome assembly size is 133,725,193 bp, introducing 14.6 Mb of novel sequences compared to the TAIR10.1 reference genome. All five chromosomes of Col-XJTU assembly are highly accurate with consensus quality (QV) scores > 60 (ranging from 62 to 68), which are higher than those of TAIR10.1 reference (QV scores ranging from 45 to 52). We have completely resolved chromosome (Chr) 3 and Chr5 in a telomere-to-telomere manner. Chr4 has been completely resolved except the nucleolar organizing regions, which comprise long repetitive DNA fragments. The Chr1 centromere (CEN1), reportedly around 9 Mb in length, is particularly challenging to assemble due to the presence of tens of thousands of CEN180 satellite repeats. Using the cutting-edge sequencing data and novel computational approaches, we assembled about 4 Mb of sequence for CEN1 and a 3.5-Mb-long CEN2. We investigated the structure and epigenetics of centromeres. We detected four clusters of CEN180 monomers, and found that the centromere-specific histone H3-like protein (CENH3) exhibits a strong preference for CEN180 cluster 3. Moreover, we observed hypomethylation patterns in CENH3-enriched regions. We believe that this high-quality genome assembly, Col-XJTU, would serve as a valuable reference to better understand the global pattern of centromeric polymorphisms, as well as genetic and epigenetic features in plants.
1
Citation4
0
Save
1

Chromosome-scale genome assembly of Fusarium oxysporum strain Fo47, a fungal endophyte and biocontrol agent

Bo Wang et al.May 23, 2020
+8
Y
H
B
Abstract Here, we report a chromosome-level genome assembly of Fusarium oxysporum strain Fo47 (12 pseudomolecules; contig N50: 4.52Mb), generated using a combination of PacBio long-read, Illumina pair-ended and Hi-C sequencing data. Although F. oxysporum causes vascular wilt to over 100 plant species, the strain Fo47 is classified as an endophyte and widely used as a biocontrol agent for plant disease control. The Fo47 genome carries a single accessory chromosome of 4.23 Mb, compared to the reference genome of F. oxysporum f.sp. lycopersici strain Fol4287. The high-quality assembly and annotation of the Fo47 genome will be a valuable resource for studying the mechanisms underlying the endophytic interactions between F. oxysporum and plants, as well as deciphering the genome evolution of the F. oxysporum species complex.
1
Citation2
0
Save
1

Mako: a graph-based pattern growth approach to detect complex structural variants

Jiadong Lin et al.Mar 2, 2021
+11
W
X
J
Abstract Complex structural variants (CSVs) are genomic alterations that have more than two breakpoints and are considered as simultaneous occurrence of simple structural variants. However, detecting the compounded mutational signals of CSVs is challenging through a commonly used model-match strategy. As a result, there has been limited progress for CSV discovery compared with simple structural variants. We systematically analyzed the multi-breakpoint connection feature of CSVs, and proposed Mako, utilizing a bottom-up guided model-free strategy, to detect CSVs from paired-end short-read sequencing. Specifically, we implemented a graph-based pattern growth approach, where the graph depicts potential breakpoint connections and pattern growth enables CSV detection without predefined models. Comprehensive evaluations on both simulated and real datasets revealed that Mako outperformed other algorithms. Notably, validation rates of CSV on real data based on experimental and computational validations as well as manual inspections are around 70%, where the medians of experimental and computational breakpoint shift are 13bp and 26bp, respectively. Moreover, Mako CSV subgraph effectively characterized the breakpoint connections of a CSV event and uncovered a total of 15 CSV types, including two novel types of adjacent segments swap and tandem dispersed duplication. Further analysis of these CSVs also revealed impact of sequence homology in the formation of CSVs. Mako is publicly available at https://github.com/jiadong324/Mako .
1
Citation1
0
Save
0

Near telomere-to-telomere genome assemblies of two Chlorella species unveil the composition and evolution of centromeres in green algae

Bo Wang et al.Feb 29, 2024
+11
S
J
B
Background: Centromeres play a crucial and conserved role in cell division, although their composition and evolutionary history in green algae, the evolutionary ancestors of land plants, remains largely unknown. Results: We constructed near telomere-to-telomere (T2T) assemblies for two Trebouxiophyceae species, Chlorella sorokiniana NS4-2 and Chlorella pyrenoidosa DBH, with chromosome numbers of 12 and 13, and genome sizes of 58.11 Mb and 53.41 Mb, respectively. We identified and validated their centromere sequences using CENH3 ChIP-seq and found that, similar to humans and higher plants, the centromeric CENH3 signals of green algae display a pattern of hypomethylation. Interestingly, the centromeres of both species largely comprised transposable elements, although they differed significantly in their composition. Species within the Chlorella genus display a more diverse centromere composition, with major constituents including members of the LTR/Copia, LINE/L1, and LINE/RTEX families. This is in contrast to green algae including Chlamydomonas reinhardtii, Coccomyxa subellipsoidea, and Chromochloris zofingiensis, in which centromere composition instead has a pronounced single-element composition. Moreover, we observed significant differences in the composition and structure of centromeres among chromosomes with strong collinearity within the Chlorella genus, suggesting that centromeric sequence evolves more rapidly than sequence in non-centromeric regions. Conclusions: This study not only provides high-quality genome data for comparative genomics of green algae but gives insight into the composition and evolutionary history of centromeres in early plants, laying an important foundation for further research on their evolution.
1

The tissue-specific chromatin accessibility landscape of Papaver somniferum

Yini Xu et al.Apr 14, 2022
+5
B
Y
Y
Abstract Accessible chromatin regions (ACRs) at promoters, enhancers, and other gene regulatory regions allow transcription factors (TFs) to bind, which regulate gene transcription involved in plant development and metabolism. Papaver somniferum has been widely applied in clinical medicine as one of the most important and oldest medicinal plants due to its unique and effective active ingredients. However, the transcriptional regulatory mechanism of tissue-specific distribution of active ingredients remains unknown. In this study, transcriptome and chromatin accessibility analysis by RNA sequencing (RNA-seq) and assay for transposase-accessible chromatin sequencing (ATAC-seq) was performed to investigate these underlying molecular mechanisms. We identified tissue-specific chromatin Tn5 hypersensitive site (THS) and gene expression by examining the variation of THS and transcripts across six tissues (capsule, stem, fine root, tap root, leaf, and petal). Our results provide insight into the epigenetic mechanism of transcriptional plasticity for P. somniferum organ development. Sequence motif analysis within accessible chromatin regions for co-expressed gene modules revealed enriched binding sites of hub transcription factors that regulate tissue-specific functions. Furthermore, we identified regulatory elements for tissue-specific accumulation of morphine and noscapine in P. somniferum . This is the first tissue-specific chromatin accessibility landscape of P. somniferum providing an important resource for functional epigenetic analysis and future molecular breeding in P. somniferum for variety improvement.