VM
Valentine Murigneux
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(67% Open Access)
Cited by:
10
h-index:
14
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Improvements in the Sequencing and Assembly of Plant Genomes

Priyanka Sharma et al.Jan 22, 2021
Abstract Background Advances in DNA sequencing have reduced the difficulty of sequencing and assembling plant genomes. A range of methods for long read sequencing and assembly have been recently compared and we now extend the earlier study and report a comparison with more recent methods. Results Updated Oxford Nanopore Technology software supported improved assemblies. The use of more accurate sequences produced by repeated sequencing of the same molecule (PacBio HiFi) resulted in much less fragmented assembly of sequencing reads. The use of more data to give increased genome coverage resulted in longer contigs (higher N50) but reduced the total length of the assemblies and improved genome completeness (BUSCO). The original model species, Macadamia jansenii , a basal eudicot, was also compared with the 3 other Macadamia species and with avocado ( Persea americana ), a magnoliid, and jojoba ( Simmondsia chinensis ) a core eudicot. In these phylogenetically diverse angiosperms, increasing sequence data volumes also caused a highly linear increase in contig size, decreased assembly length and further improved already high completeness. Differences in genome size and sequence complexity apparently influenced the success of assembly from these different species. Conclusions Advances in long read sequencing technology have continued to significantly improve the results of sequencing and assembly of plant genomes. However, results were consistently improved by greater genome coverage (using an increased number of reads) with the amount needed to achieve a particular level of assembly being species dependant.
1
Citation8
0
Save
1

The genome of the endangeredMacadamia janseniidisplays little diversity but represents an important genetic resource for plant breeding

Priyanka Sharma et al.Sep 9, 2021
Summary Macadamia, a recently domesticated expanding nut crop in the tropical and subtropical regions of the world, is one of the most economically important genera in the diverse and widely adapted Proteaceae family. All four species of Macadamia are rare in the wild with the most recently discovered, M. jansenii , being endangered. The M. jansenii genome has been used as a model for testing sequencing methods using a wide range of long read sequencing techniques. Here we report a chromosome level genome assembly, generated using a combination of Pacific Biosciences sequencing and Hi-C, comprising 14 pseudo-molecules, with a N50 of 58 Mb and a total 758 Mb genome assembly size of which 56% is repetitive. Completeness assessment revealed that the assembly covered 96.9% of the conserved single copy genes. Annotation predicted 31,591 protein coding genes and allowed the characterization of genes encoding biosynthesis of cyanogenic glycosides, fatty acid metabolism and anti-microbial proteins. Re-sequencing of seven other genotypes confirmed low diversity and low heterozygosity within this endangered species. Important morphological characteristics of this species such as small tree size and high kernel recovery suggest that M. jansenii is an important source of these commercial traits for breeding. As a member of a small group of families that are sister to the core eudicots, this high-quality genome also provides a key resource for evolutionary and comparative genomics studies.
1
Citation1
0
Save
36

Massive genome reduction occurred prior to the origin of coral algal symbionts

Surya Shah et al.Mar 25, 2023
Abstract Dinoflagellates in the Family Symbiodiniaceae (Order Suessiales) are diverse, predominantly symbiotic lineages that associate with taxa such as corals and jellyfish. Their ancestor is believed to have been free-living, and the establishment of symbiosis (i.e., symbiogenesis) is hypothesised to have occurred multiple times during Symbiodiniaceae evolution. Among Symbiodiniaceae taxa, the genus Effrenium is an early diverging, free-living lineage that is phylogenetically positioned between two robustly supported groups of genera within which symbiotic taxa have emerged. The lack of symbiogenesis in Effrenium suggests that the ancestral features of Symbiodiniaceae may have been retained in this lineage. Here we present de novo assembled genomes and associated transcriptome data from three isolates of Effrenium voratum . We compared the Effrenium genomes (1.2-1.9 Gbp in size) and gene features with those of 16 Symbiodiniaceae taxa and other outgroup dinoflagellates. Surprisingly, we find that genome reduction, which is often associated with a symbiotic lifestyle, predates the origin of Symbiodiniaceae. We postulate that adaptation to an extreme habitat (e.g., as in Polarella glacialis ) or life in oligotrophic conditions resulted in the Suessiales ancestor having a haploid genome size < 2Gbp, which was retained (or reduced) among all extant algae in this lineage. Nonetheless, our data reveal that the free-living lifestyle distinguishes Effrenium from symbiotic Symbiodiniaceae vis-à-vis their longer introns, more-extensive mRNA editing, fewer (∼30%) lineage-specific gene families, and lower (∼10%) level of pseudogenisation. These results demonstrate how genome reduction and the adaptation to symbiotic versus free-living lifestyles intersect, and have driven the diversification and genome evolution of Symbiodiniaceae.
36
0
Save
0

Comparison of long read methods for sequencing and assembly of a plant genome

Valentine Murigneux et al.Mar 18, 2020
Sequencing technologies have advanced to the point where it is possible to generate high accuracy, haplotype resolved, chromosome scale assemblies. Several long read sequencing technologies are available on the market and a growing number of algorithms have been developed over the last years to assemble the reads generated by those technologies. When starting a new genome project, it is therefore challenging to select the most cost-effective sequencing technology as well as the most appropriate software for assembly and polishing. For this reason, it is important to benchmark different approaches applied to the same sample. Here, we report a comparison of three long read sequencing technologies applied to the de novo assembly of a plant genome, Macadamia jansenii . We have generated sequencing data using Pacific Biosciences (Sequel I), Oxford Nanopore Technologies (PromethION) and BGI (single-tube Long Fragment Read) technologies for the same sample. Several assemblers were benchmarked in the assembly of PacBio and Nanopore reads. Results obtained from combining long read technologies or short read and long read technologies are also presented. The assemblies were compared for contiguity, accuracy and completeness as well as sequencing costs and DNA material requirements. Overall, the three long read technologies produced highly contiguous and complete genome assemblies of Macadamia jansenii . At the time of sequencing, the cost associated with each method was significantly different but continuous improvements in technologies have resulted in greater accuracy, increased throughput and reduced costs. We propose updating this comparison regularly with reports on significant iterations of the sequencing technologies.
0

High-throughput multiplexed tandem repeat genotyping using targeted long-read sequencing

Devika Ganesamoorthy et al.Jun 17, 2019
Tandem repeats (TRs) are highly prone to variation in copy numbers due to their repetitive and unstable nature, which makes them a major source of genomic variation between individuals. However, population variation of TRs have not been widely explored due to the limitations of existing tools, which are either low-throughput or restricted to a small subset of TRs. Here, we used SureSelect targeted sequencing approach combined with Nanopore sequencing to overcome these limitations. We achieved an average of 3062-fold target enrichment on a panel of 142 TR loci, generating an average of 97X sequence coverage on 7 samples utilizing 2 MinION flow-cells with 200ng of input DNA per sample. We identified a subset of 110 TR loci with length less than 2kb, and GC content greater than 25% for which we achieved an average genotyping rate of 75% and increasing to 91% for the highest-coverage sample. Alleles estimated from targeted long-read sequencing were concordant with gold standard PCR sizing analysis and moreover highly correlated with alleles estimated from whole genome long-read sequencing. We demonstrate a targeted long-read sequencing approach that enables simultaneous analysis of hundreds of TRs and accuracy is comparable to PCR sizing analysis. Our approach is feasible to scale for more targets and more samples facilitating large-scale analysis of TRs.