JF
Joffrey Fitz
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(100% Open Access)
Cited by:
1,836
h-index:
13
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Whole-genome sequencing of multiple Arabidopsis thaliana populations

Jun Cao et al.Aug 28, 2011
Detlef Weigel and colleagues report results from the first phase of the Arabidopsis 1001 Genomes Project, based on short-read sequencing of 80 geographically diverse strains. This collection of strains has been made available to the scientific community, and the authors show that the identified polymorphisms in these strains can be useful for imputation and genome-wide association studies. The plant Arabidopsis thaliana occurs naturally in many different habitats throughout Eurasia. As a foundation for identifying genetic variation contributing to adaptation to diverse environments, a 1001 Genomes Project to sequence geographically diverse A. thaliana strains has been initiated. Here we present the first phase of this project, based on population-scale sequencing of 80 strains drawn from eight regions throughout the species' native range. We describe the majority of common small-scale polymorphisms as well as many larger insertions and deletions in the A. thaliana pan-genome, their effects on gene function, and the patterns of local and global linkage among these variants. The action of processes other than spontaneous mutation is identified by comparing the spectrum of mutations that have accumulated since A. thaliana diverged from its closest relative 10 million years ago with the spectrum observed in the laboratory. Recent species-wide selective sweeps are rare, and potentially deleterious mutations are more common in marginal populations.
0
Citation947
0
Save
0

Reference-guided assembly of four diverse Arabidopsis thaliana genomes

Korbinian Schneeberger et al.Jun 6, 2011
We present whole-genome assemblies of four divergent Arabidopsis thaliana strains that complement the 125-Mb reference genome sequence released a decade ago. Using a newly developed reference-guided approach, we assembled large contigs from 9 to 42 Gb of Illumina short-read data from the Landsberg erecta (L er -1), C24, Bur-0, and Kro-0 strains, which have been sequenced as part of the 1,001 Genomes Project for this species. Using alignments against the reference sequence, we first reduced the complexity of the de novo assembly and later integrated reads without similarity to the reference sequence. As an example, half of the noncentromeric C24 genome was covered by scaffolds that are longer than 260 kb, with a maximum of 2.2 Mb. Moreover, over 96% of the reference genome was covered by the reference-guided assembly, compared with only 87% with a complete de novo assembly. Comparisons with 2 Mb of dideoxy sequence reveal that the per-base error rate of the reference-guided assemblies was below 1 in 10,000. Our assemblies provide a detailed, genomewide picture of large-scale differences between A. thaliana individuals, most of which are difficult to access with alignment-consensus methods only. We demonstrate their practical relevance in studying the expression differences of polymorphic genes and show how the analysis of sRNA sequencing data can lead to erroneous conclusions if aligned against the reference genome alone. Genome assemblies, raw reads, and further information are accessible through http://1001genomes.org/projects/assemblies.html .
0
Citation245
0
Save
0

Towards an unbiased characterization of genetic polymorphism

Anna Igolkina et al.May 30, 2024
Our view of genetic polymorphism is shaped by methods that provide a limited and reference-biased picture. Long-read sequencing technologies, which are starting to provide nearly complete genome sequences for population samples, should solve the problem—except that characterizing and making sense of non-SNP variation is difficult even with perfect sequence data. Here, we analyze 27 genomes of Arabidopsis thaliana in an attempt to address these issues, and illustrate what can be learned by analyzing whole-genome polymorphism data in an unbiased manner. Estimated genome sizes range from 135 to 155 Mb, with differences almost entirely due to centromeric and rDNA repeats. The completely assembled chromosome arms comprise roughly 120 Mb in all accessions, but are full of structural variants, many of which are caused by insertions of transposable elements (TEs) and subsequent partial deletions of such insertions. Even with only 27 accessions, a pan-genome coordinate system that includes the resulting variation ends up being 40% larger than the size of any one genome. Our analysis reveals an incompletely annotated mobile-ome: our ability to predict what is actually moving is poor, and we detect several novel TE families. In contrast to this, the genic portion, or “gene-ome”, is highly conserved. By annotating each genome using accession-specific transcriptome data, we find that 13% of all genes are segregating in our 27 accessions, but that most of these are transcriptionally silenced. Finally, we show that with short-read data we previously massively underestimated genetic variation of all kinds, including SNPs—mostly in regions where short reads could not be mapped reliably, but also where reads were mapped incorrectly. We demonstrate that SNP-calling errors can be biased by the choice of reference genome, and that RNA-seq and BS-seq results can be strongly affected by mapping reads to a reference genome rather than to the genome of the assayed individual. In conclusion, while whole-genome polymorphism data pose tremendous analytical challenges, they will ultimately revolutionize our understanding of genome evolution.
0
Citation1
0
Save
0

Pangenomic context reveals the extent of intraspecific plant NLR evolution

Luisa Teasdale et al.Sep 2, 2024
Nucleotide-binding leucine-rich repeat (NLR) proteins are a major component of the plant immune system, which directly or indirectly detect molecular signals of pathogen invasion. Despite their critical role, the processes by which NLR genes diversify remain poorly characterised due to the extraordinary sequence, structural, and regulatory variability of NLRs, even among closely related individuals. To understand the evolution of NLR diversity in Arabidopsis thaliana, we leverage graph-based methods to define pangenomic NLR neighbourhoods in 17 genetically diverse genomes. We integrate full-length transcript and transposable element information to exhaustively annotate all intact and degraded NLRs, enabling exploration of the processes that underpin the birth, death and maintenance of NLR diversity within a species. Our main finding is that many uncorrelated mutational processes create NLR diversity, and that there is no single metric that captures on its own the true extent of NLR structural and sequence variation. This immense diversity in plant immune system diversification allows populations to survive the constant onslaught of pathogens, not unlike vertebrate adaptive immunity, where variation is also generated by a variety of complementary mechanisms, albeit at the level of individuals.