BS
Baoxing Song
Author with expertise in Genome Evolution and Polyploidy in Plants
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
14
(79% Open Access)
Cited by:
33
h-index:
17
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
24

Constrained non-coding sequence provides insights into regulatory elements and loss of gene expression in maize

Baoxing Song et al.Jul 12, 2020
Abstract DNA sequencing technology has advanced so quickly, identifying key functional regions using evolutionary approaches is required to understand how those genomes work. This research develops a sensitive sequence alignment approach to identify functional constrained non-coding sequences in the Andropogoneae tribe. The grass tribe Andropogoneae contains several crop species descended from a common ancestor ~18 million years ago. Despite broadly similar phenotypes, they have tremendous genomic diversity with a broad range of ploidy levels and transposons. These features make Andropogoneae a powerful system for studying conserved non-coding sequence (CNS), here we used it to understand the function of CNS in maize. We find that 86% of CNS comprise known genomic elements e.g., cis -regulatory elements, chromosome interactions, introns, several transposable element superfamilies, and are linked to genomic regions related to DNA replication initiation, DNA methylation and histone modification. In maize, we show that CNSs regulate gene expression and variants in CNS are associated with phenotypic variance, and rare CNS absence contributes to loss of gene expression. Furthermore, we find the evolution of CNS is associated with the functional diversification of duplicated genes in the context of the maize subgenomes. Our results provide a quantitative understanding of constrained non-coding elements and identify functional non-coding variation in maize.
24
Citation10
0
Save
0

Harnessing landrace diversity empowers wheat breeding

Shifeng Cheng et al.Jun 17, 2024
Abstract Harnessing genetic diversity in major staple crops through the development of new breeding capabilities is essential to ensure food security 1 . Here we examined the genetic and phenotypic diversity of the A. E. Watkins landrace collection 2 of bread wheat ( Triticum aestivum ), a major global cereal, by whole-genome re-sequencing of 827 Watkins landraces and 208 modern cultivars and in-depth field evaluation spanning a decade. We found that modern cultivars are derived from two of the seven ancestral groups of wheat and maintain very long-range haplotype integrity. The remaining five groups represent untapped genetic sources, providing access to landrace-specific alleles and haplotypes for breeding. Linkage disequilibrium-based haplotypes and association genetics analyses link Watkins genomes to the thousands of identified high-resolution quantitative trait loci and significant marker–trait associations. Using these structured germplasm, genotyping and informatics resources, we revealed many Watkins-unique beneficial haplotypes that can confer superior traits in modern wheat. Furthermore, we assessed the phenotypic effects of 44,338 Watkins-unique haplotypes, introgressed from 143 prioritized quantitative trait loci in the context of modern cultivars, bridging the gap between landrace diversity and current breeding. This study establishes a framework for systematically utilizing genetic diversity in crop improvement to achieve sustainable food security.
0
Citation5
0
Save
13

A role for heritable transcriptomic variation in maize adaptation to temperate environments

Guangchao Sun et al.Jan 28, 2022
ABSTRACT Transcription bridges genetic information and phenotypes. Here, we evaluated how changes in transcriptional regulation enable maize ( Zea mays ), a crop originally domesticated in the tropics, to adapt to temperate environments. We generated 572 unique RNA-seq datasets from the roots of 340 maize genotypes. Genes involved in core processes such as cell division, chromosome organization and cytoskeleton organization showed lower heritability of gene expression. While genes involved in anti-oxidation activity exhibited higher expression heritability. An expression genome-wide association study (eGWAS) identified 19,602 expression quantitative trait loci (eQTLs) associated with the expression of 11,444 genes. A GWAS for alternative splicing identified 49,897 splicing QTLs (sQTLs) for 7,614 genes. Rare allele burden within genomic intervals with trans -eQTLs correlated with extremes of expression in target genes as previously reported for cis -eQTLs. Genes harboring both cis -eQTLs and cis -sQTLs in linkage disequilibrium were disproportionately likely to encode transcription factors or were annotated as responding to one or more stresses. Independent component analysis of gene expression data identified loci regulating co-expression modules involved in phytohormone pathways, cell wall biosynthesis, lipid metabolism and stress response. Several genes involved in cell proliferation, flower development, DNA replication and gene silencing showed lower gene expression variation explained by genetic factors between temperate and tropical maize lines. A GWAS of 27 previously published phenotypes identified several candidate genes overlapping with genomic intervals showing signatures of selection during adaptation to temperate environments. Our results illustrate how maize transcriptional regulatory networks enable changes in transcriptional regulation to adapt to temperate regions.
13
Citation4
0
Save
1

The Practical Haplotype Graph, a platform for storing and using pangenomes for imputation

Peter Bradbury et al.Aug 28, 2021
Abstract Motivation Pangenomes provide novel insights for population and quantitative genetics, genomics, and breeding not available from studying a single reference genome. Instead, a species is better represented by a pangenome or collection of genomes. Unfortunately, managing and using pangenomes for genomically diverse species is computationally and practically challenging. We developed a trellis graph representation anchored to the reference genome that represents most pangenomes well and can be used to impute complete genomes from low density sequence or variant data. Results The Practical Haplotype Graph (PHG) is a pangenome pipeline, database (PostGRES & SQLite), data model (Java, Kotlin, or R), and Breeding API (BrAPI) web service. The PHG has already been able to accurately represent diversity in four major crops including maize, one of the most genomically diverse species, with up to 1000-fold data compression. Using simulated data, we show that, at even 0.1X coverage, with appropriate reads and sequence alignment, imputation results in extremely accurate haplotype reconstruction. The PHG is a platform and environment for the understanding and application of genomic diversity. Availability All resources listed here are freely available. The PHG Docker used to generate the simulation results is https://hub.docker.com/ as maizegenetics/phg:0.0.27. PHG source code is at https://bitbucket.org/bucklerlab/practicalhaplotypegraph/src/master/ . The code used for the analysis of simulated data is at https://bitbucket.org/bucklerlab/phg-manuscript/src/master/ . The PHG database of NAM parent haplotypes is in the CyVerse data store ( https://de.cyverse.org/de/ ) and named /iplant/home/shared/panzea/panGenome/PHG_db_maize/phg_v5Assemblies_20200608.db. Contact pjb39@cornell.edu
1
Citation4
0
Save
30

Gene expression evolution in pattern-triggered immunity within Arabidopsis thaliana and across Brassicaceae species

Thomas Winkelmüller et al.Jul 31, 2020
Abstract Plants recognize surrounding microbes by sensing microbe-associated molecular patterns (MAMPs) to activate pattern-triggered immunity (PTI). Despite their significance for microbial control, the evolution of PTI responses remains largely uncharacterized. Employing comparative transcriptomics of six Arabidopsis thaliana accessions and three additional Brassicaceae species for PTI responses to the MAMP flg22, we identified a set of genes with expression changes under purifying selection in the Brassicaceae species and genes exhibiting species-specific expression signatures. Variation in flg22-triggered transcriptome and metabolome responses across Brassicaceae species was incongruent with their phylogeny while expression changes were strongly conserved within A. thaliana , suggesting directional selection for some species-specific gene expression. We found the enrichment of WRKY transcription factor binding sites in 5’-regulatory regions in conserved and species-specific responsive genes, linking the emergence of WRKY-binding sites with the evolution of gene responses in PTI. Our findings advance our understanding of transcriptome evolution during biotic stress.
30
Citation3
0
Save
158

AnchorWave: sensitive alignment of genomes with high diversity, structural polymorphism and whole-genome duplication variation

Baoxing Song et al.Jul 30, 2021
Abstract Millions of species are currently being sequenced and their genomes are being compared. Many of them have more complex genomes than model systems and raised novel challenges for genome alignment. Widely used local alignment strategies often produce limited or incongruous results when applied to genomes with dispersed repeats, long indels, and highly diverse sequences. Moreover, alignment using many-to-many or reciprocal best hit approaches conflicts with well-studied patterns between species with different rounds of whole-genome duplication or polyploidy levels. Here we introduce AnchorWave, which performs whole-genome duplication informed collinear anchor identification between genomes and performs base-pair resolution global alignments for collinear blocks using the wavefront algorithm and a 2-piece affine gap cost strategy. This strategy enables AnchorWave to precisely identify multi-kilobase indels generated by transposable element (TE) presence/absence variants (PAVs). When aligning two maize genomes, AnchorWave successfully recalled 87% of previously reported TE PAVs between two maize lines. By contrast, other genome alignment tools showed almost zero power for TE PAV recall. AnchorWave precisely aligns up to three times more of the genome than the closest competitive approach, when comparing diverse genomes. Moreover, AnchorWave recalls transcription factor binding sites (TFBSs) at a rate of 1.05-74.85 fold higher than other tools, while with significantly lower false positive alignments. AnchorWave shows obvious improvement when applied to genomes with dispersed repeats, active transposable elements, high sequence diversity and whole-genome duplication variation. Significance statement One fundamental analysis needed to interpret genome assemblies is genome alignment. Yet, accurately aligning regulatory and transposon regions outside of genes remains challenging. We introduce AnchorWave, which implements a genome duplication informed longest path algorithm to identify collinear regions and performs base-pair resolved, end-to-end alignment for collinear blocks using an efficient 2-piece affine gap cost strategy. AnchorWave improves alignment of partially synthetic and real genomes under a number of scenarios: genomes with high similarity, large genomes with high TE activity, genomes with many inversions, and alignments between species with deeper evolutionary divergence and different whole-genome duplication histories. Potential use cases for the method include genome comparison for evolutionary analysis of non-genic sequences and population genetics of taxa with complex genomes.
158
Citation3
0
Save
36

Combined analysis of transposable elements and structural variation in maize genomes reveals genome contraction outpaces expansion

Manisha Munasinghe et al.Mar 3, 2023
Abstract Background Structural differences between genomes are a major source of genetic variation that contributes to phenotypic differences. Transposable elements, mobile genetic sequences capable of increasing their copy number and propagating themselves within genomes, can generate structural variation. However, their repetitive nature makes it difficult to characterize fine-scale differences in their presence at specific positions, limiting our understanding of their impact on genome variation. Domesticated maize is a particularly good system for exploring the impact of transposable element proliferation as over 70% of the genome is annotated as transposable elements. High-quality transposable element annotations were recently generated for de-novo genome assemblies of 26 diverse inbred maize lines. Results We generated base-pair resolved pairwise alignments between the B73 maize reference genome and the remaining 25 inbred maize line assemblies. From this data, we classified transposable elements as either shared or polymorphic in a given pairwise comparison. Our analysis uncovered substantial structural variation between lines, representing both putative insertion and deletion events. Putative insertions in SNP depleted regions, which represent recently diverged identity by state blocks, suggest some TE families may still be active. However, our analysis reveals that, genome-wide, deletions of transposable elements account for more structural variation than insertions. These deletions are often large structural variants containing multiple transposable elements. Conclusions Combined, our results highlight how transposable elements contribute to structural variation and demonstrate that deletion events are a major contributor to genomic differences.
36
Citation2
0
Save
29

A multiple genome alignment workflow shows the impact of repeat masking and parameter tuning on alignment of functional regions in plants

Yaoyao Wu et al.Jun 2, 2021
Abstract Alignments of multiple genomes are a cornerstone of comparative genomics, but generating these alignments remains technically challenging and often impractical. We developed the msa_pipeline workflow ( https://bitbucket.org/bucklerlab/msa_pipeline ) based on the LAST aligner to allow practical and sensitive multiple alignment of diverged plant genomes with minimal user inputs. Our workflow only requires a set of genomes in FASTA format as input. The workflow outputs multiple alignments in MAF format, and includes utilities to help calculate genome-wide conservation scores. As high repeat content and genomic divergence are substantial challenges in plant genome alignment, we also explored the impact of different masking approaches and alignment parameters using genome assemblies of 33 grass species. Compared to conventional masking with RepeatMasker, a k -mer masking approach increased the alignment rate of CDS and non-coding functional regions by 25% and 14% respectively. We further found that default alignment parameters generally perform well, but parameter tuning can increase the alignment rate for non-coding functional regions by over 52% compared to default LAST settings. Finally, by increasing alignment sensitivity from the default baseline, parameter tuning can increase the number of non-coding sites that can be scored for conservation by over 76%.
29
Citation1
0
Save
3

A toxic ankyrin cysteine protease effector RipBH of brown rot triggered autophagy-associated cell death

Xueao Zheng et al.Mar 9, 2023
ABSTRACT Potato brown rot, caused by Ralstonia solanacearum , is one of the most destructive diseases of potatoes. The pathogen could hide in the tuber, leading to the rotting tubers. However, few mechanisms of pathogenesis in tubers caused by brown rot were reported. Here, we identified a highly virulent type III effector RipBH, which is not only required for the pathogenesis of potato brown rot but also displays strong cell toxicity in yeast and tobacco. We found RipBH is a novel structural cysteine protease with a large ankyrin repeat domain that contains 10 ankyrin repeats, we named it as an ankyrin cysteine protease. Biochemical analysis showed that all the ankyrin repeats are required for virulence, and the first five ankyrin repeats are indispensable for auto-cleavage site recognition. Further analysis showed that RipBH triggered autophagy-associated cell death. The ankyrin cysteine protease effector existed extensively in plant and animal pathogens suggesting the ankyrin cysteine protease effectors are functionally essential for pathogen pathogenesis. Our study enhances our understanding of this type of cysteine protease and illustrates the pathogenesis of cysteine protease in potato brown rot.
3
Citation1
0
Save
Load More