WC
Wouter Coster
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(80% Open Access)
Cited by:
49
h-index:
15
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Structural variants identified by Oxford Nanopore PromethION sequencing of the human genome

Wouter Coster et al.Oct 3, 2018
+7
P
D
W
Abstract We sequenced the Yoruban NA19240 genome on the long read sequencing platform Oxford Nanopore PromethION for benchmarking and evaluation of recently published aligners and structural variant calling tools. In this work, we determined the precision and recall, present high confidence and high sensitivity call sets of variants and discuss optimal parameters. The aligner Minimap2 and structural variant caller Sniffles are both the most accurate and the most computationally efficient tools in our study. We describe our scalable workflow for identification, annotation, and characterization of tens of thousands of structural variants from long read genome sequencing of an individual or population. By discussing the results of this genome we provide an approximation of what can be expected in future long read sequencing studies aiming for structural variant identification.
0
Citation20
0
Save
0

Accurate characterization of expanded tandem repeat length and sequence through whole genome long-read sequencing on PromethION

Arne Roeck et al.Oct 9, 2018
+8
L
W
A
Abstract Tandem repeats (TRs) can cause disease through their length, sequence motif interruptions, and nucleotide modifications. For many TRs, however, these features are very difficult - if not impossible - to assess, requiring low-throughput and labor-intensive assays. One example is a VNTR in ABCA7 for which we recently discovered that expanded alleles strongly increase risk of Alzheimer’s disease. Here, we investigated the potential of long-read whole genome sequencing to surmount these challenges, using the high-throughput PromethION platform from Oxford Nanopore Technologies. To overcome the limitations of conventional base calling and alignment, we developed an algorithm to study the TR size and sequence directly on raw PromethION current data. We report the long-read sequencing of multiple human genomes (n = 11) using only a single sequencing run and flow cell per individual. With the use of fresh DNA extractions, DNA shearing to approximately 20kb and size selection, we obtained an average output of 70 gigabases (Gb) per flow cell, corresponding to a 21x genome coverage, and a maximum yield of 98 Gb (30x genome coverage). All ABCA7 VNTR alleles, including expansions up to 10,000 bases, were spanned by long sequencing reads, validated by Southern blotting. Classical approaches of TR length estimation suffered from low accuracy, low precision, DNA strand effects and/or inability to call pathogenic repeat expansions. In contrast, our novel NanoSatellite algorithm, which circumvents base calling by using dynamic time warping on raw PromethION current data, achieved more than 90% accuracy and high precision (5.6% relative standard deviation) of TR length estimation, and detected all clinically relevant repeat expansions. In addition, we identified alternative TR sequence motifs with high consistency, allowing determination of TR sequence and distinction of VNTR alleles with homozygous length. In conclusion, we validated the robustness of single-experiment whole genome long-read sequencing on PromethION, a prerequisite for application of long-read sequencing in the clinic. In addition, we outperformed Southern blotting, enabling improved characterization of the role of expanded ABCA7 VNTR alleles in Alzheimer’s disease, and opening new opportunities for TR research.
0
Citation9
0
Save
0

Benchmarking of small and large variants across tandem repeats

Adam English et al.Nov 1, 2023
+12
H
E
A
Abstract Tandem repeats (TRs) are highly polymorphic in the human genome, have thousands of associated molecular traits, and are linked to over 60 disease phenotypes. However, their complexity often excludes them from at-scale studies due to challenges with variant calling, representation, and lack of a genome-wide standard. To promote TR methods development, we create a comprehensive catalog of TR regions and explore its properties across 86 samples. We then curate variants from the GIAB HG002 individual to create a tandem repeat benchmark. We also present a variant comparison method that handles small and large alleles and varying allelic representation. The 8.1% of the genome covered by the TR catalog holds ∼24.9% of variants per individual, including 124,728 small and 17,988 large variants for the GIAB HG002 TR benchmark. We work with the GIAB community to demonstrate the utility of this benchmark across short and long read technologies.
0
Citation8
0
Save
0

NanoPack: visualizing and processing long read sequencing data

Wouter Coster et al.Dec 21, 2017
+2
D
S
W
Abstract Summary: Here we describe NanoPack, a set of tools developed for visualization and processing of long read sequencing data from Oxford Nanopore Technologies and Pacific Biosciences. Availability and Implementation: The NanoPack tools are written in Python3 and released under the GNU GPL3.0 Licence. The source code can be found at https://github.com/wdecoster/nanopack , together with links to separate scripts and their documentation. The scripts are compatible with Linux, Mac OS and the MS Windows 10 subsystem for linux and are available as a graphical user interface, a web service at http://nanoplot.bioinf.be and command line tools. Contact: wouter.decoster@molgen.vib-ua.be Supplementary information: Supplementary tables and figures are available at Bioinformatics online.
0
Paper
Citation6
0
Save
14

What are the reference strains of Acinetobacter baumannii referring to?

Chantal Philippe et al.Feb 27, 2022
+9
C
A
C
Abstract We assembled the whole genome sequence (WGS) of a collection of 43 non-redundant modern clinical isolates and four broadly used reference strains of Acinetobacter baumannii . Comparison of these isolates and their WGS confirmed the high heterogeneity in capsule loci, sequence types, the presence of virulence and antibiotic resistance genes. However, a significant portion of clinical isolates strongly differ when compared to several reference strains in the light of colony morphology, cellular density, capsule production, natural transformability and in vivo virulence. These genetic and phenotypic differences between current circulating strains of A. baumannii and established reference strains could hamper the study of A. baumannii as an entity. The broadly used reference strains led to the current state of the art of the A. baumannii field, however, we propose that established reference strains in the A. baumannii field should be carefully used, because of the high genetic and phenotypic heterogeneities. In this study, we generated a collection of high-quality nucleotide sequences of 43 modern clinical isolates with the corresponding multi-level phenotypic characterizations. Beside the contribution of novel fundamental observations generated in this study, the phenotypic and genetic data, along with the bacterial strains themselves, will be further accessible using the first open access online platform called “Acinetobase”. Therefore, a rational choice of modern strains will be possible to select the ones that suit the needs of specific biological questions.
14
Citation3
0
Save
1

NanoPack2: Population scale evaluation of long-read sequencing data

Wouter Coster et al.Nov 29, 2022
R
W
Abstract Summary Increases in the cohort size in long-read sequencing projects necessitate more efficient software for quality assessment and processing of sequencing data from Oxford Nanopore Technologies and Pacific Biosciences. Here we describe novel tools for summarizing experiments, filtering datasets and visualizing phased alignments results, as well as updates to the NanoPack software suite. Availability and implementation Cramino, chopper, and phasius are written in Rust and available as executable binaries without requiring installation or managing dependencies. NanoPlot and NanoComp are written in Python3. Links to the separate tools and their documentation can be found at https://github.com/wdecoster/nanopack . All tools are compatible with Linux, Mac OS, and the MS Windows 10 Subsystem for Linux and are released under the MIT license. The repositories include test data, and the tools are continuously tested using GitHub Actions. Contact wouter.decoster@uantwerpen.vib.be
1
Paper
Citation2
0
Save
0

Scywalker: scalable end-to-end data analysis workflow for nanopore single-cell transcriptome sequencing

Peter Rijk et al.Feb 24, 2024
+17
J
F
P
Abstract We introduce scywalker , an innovative and scalable package developed to comprehensively analyze long-read nanopore sequencing data of full-length single-cell or single-nuclei cDNA. Existing nanopore single-cell data analysis tools showed severe limitations in handling current data sizes. We developed novel scalable methods for cell barcode demultiplexing and single-cell isoform calling and quantification and incorporated these in an easily deployable package. Scywalker streamlines the entire analysis process, from sequenced fragments in FASTQ format to demultiplexed pseudobulk isoform counts, into a single command suitable for execution on either server or cluster. Scywalker includes data quality control, cell type identification, and an interactive report. Assessment of datasets from the human brain, Arabidopsis leaves, and previously benchmarked data from mixed cell lines, demonstrate excellent correlation with short-read analyses at both the cell-barcoding and gene quantification levels. At the isoform level, we show that scywalker facilitates the direct identification of cell-type-specific expression of novel isoforms.
0
Citation1
0
Save
0

Critical length in long read resequencing

De Wouter et al.Apr 29, 2019
P
M
W
D
Long read sequencing has a substantial advantage for structural variant discovery and phasing of variants compared to short-read technologies, but the required and optimal read length has not been assessed. In this work, we used simulated long reads and evaluated structural variant discovery and variant phasing using current best practice bioinformatics methods. We determined that optimal discovery of structural variants from human genomes can be obtained with reads of minimally 15 kbp. Haplotyping genes entirely only reaches its optimum from reads of 100 kbp. These findings are important for the design of future long read sequencing projects.
0

Methplotlib: analysis of modified nucleotides from nanopore sequencing

Wouter Coster et al.Nov 7, 2019
M
W
Summary: Modified nucleotides play a crucial role in gene expression regulation. Here we describe methplotlib, a tool developed for the visualization of modified nucleotides detected from Oxford Nanopore Technologies sequencing platforms, together with additional scripts for statistical analysis of allele specific modification within subjects and differential modification frequency across subjects. Availability and implementation: The methplotlib command-line tool is written in Python3, is compatible with Linux, Mac OS and the MS Windows 10 Subsystem for Linux and released under the MIT license. The source code can be found at https://github.com/wdecoster/methplotlib and can be installed from PyPI and bioconda. Our repository includes test data and the tool is continuously tested at travis-ci.com.
6

Methylmap: visualization of modified nucleotides for large cohort sizes

Elise Coopman et al.Nov 30, 2022
+5
T
M
E
Summary Methylmap is a tool developed for visualization of modified nucleotide frequencies per position, especially for large numbers of samples. Various input possibilities are supported, including the standardized BAM/CRAM files containing MM and ML tags. Availability and implementation Methylmap is written in Python3 and available through PyPI and bioconda. The source code is released under MIT license and can be found at https://github.com/EliseCoopman/methylmap .