SK
Sebastian Krautwurst
Author with expertise in RNA Sequencing Data Analysis
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
7
(43% Open Access)
Cited by:
5
h-index:
7
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
31

poreCov - an easy to use, fast, and robust workflow for SARS-CoV-2 genome reconstruction via nanopore sequencing

Christian Brandt et al.May 7, 2021
+4
R
S
C
Abstract In response to the SARS-CoV-2 pandemic, a highly increased sequencing effort has been established worldwide to track and trace ongoing viral evolution. Technologies such as nanopore sequencing via the ARTIC protocol are used to reliably generate genomes from raw sequencing data as a crucial base for molecular surveillance. However, for many labs that perform SARS-CoV-2 sequencing, bioinformatics is still a major bottleneck, especially if hundreds of samples need to be processed in a recurring fashion. Pipelines developed for short-read data cannot be applied to nanopore data. Therefore, specific long-read tools and parameter settings need to be orchestrated to enable accurate genotyping and robust reference-based genome reconstruction of SARS-CoV-2 genomes from nanopore data. Here we present poreCov, a highly parallel workflow written in Nextflow, using containers to wrap all the tools necessary for a routine SARS-CoV-2 sequencing lab into one program. The ease of installation, combined with concise summary reports that clearly highlight all relevant information, enables rapid and reliable analysis of hundreds of SARS-CoV-2 raw sequence data sets or genomes. poreCov is freely available on GitHub under the GNUv3 license: github.com/replikation/poreCov.
31
Citation3
0
Save
0

Targeted decontamination of sequencing data with CLEAN

Marie Lataretu et al.Aug 6, 2023
+2
A
S
M
Abstract Background Many biological and medical questions are answered based on the analysis of sequence data. However, we can find contaminations, artificial spike-ins, and overrepresented rRNA sequences in various read collections and assemblies; complicating data analysis and making interpretation difficult. In particular, spike-ins used as controls, such as those known from Illumina (PhiX phage) or Nanopore data (DNA CS lambda phage, yeast enolase ENO2), are often not considered as contaminants and also not appropriately removed during bioinformatics analyses. Findings To address this, we developed CLEAN, a pipeline to remove unwanted sequence data from both long and short read sequencing techniques from a wide range of use cases. While focusing on Illumina and Nanopore data and removing of their technology-specific control sequences, the pipeline can also be used for everyday tasks, such as host decontamination of metagenomic reads and assemblies, or the removal of rRNA from RNA-Seq data. The results are the purified sequences and the sequences identified as contaminated with statistics summarized in an HTML report. Conclusions The decontaminated output files can be used directly in subsequent analyses, resulting in faster computations and improved results. Although decontamination is a task that seems mundane, many contaminants are routinely overlooked, cleaned by steps that are not fully reproducible or difficult to trace by the user. CLEAN will facilitate reproducible, platform-independent data analysis in genomics and transcriptomics and is freely available at https://github.com/hoelzer/clean under a BSD3 license.
0
Citation2
0
Save
0

A comprehensive annotation and differential expression analysis of short and long non-coding RNAs in 16 bat genomes

Nelly Berrospi et al.Aug 19, 2019
+8
S
M
N
Although bats are increasingly becoming the focus of scientific studies due to their unique properties, these exceptional animals are still among the least studied mammals. Assembly quality and completeness of bat genomes vary a lot and especially non-coding RNA (ncRNA) annotations are incomplete or simply missing. Accordingly, standard bioinformatics pipelines for gene expression analysis often ignore ncRNAs such as microRNAs or long antisense RNAs. The main cause of this problem is the use of incomplete genome annotations. We present a complete screening for ncRNAs within 16 bat genomes. NcRNAs affect a remarkable variety of vital biological functions, including gene expression regulation, RNA processing, RNA interference and, as recently described, regulatory processes in viral infections. Within all investigated bat assemblies we annotated 667 ncRNA families including 162 snoRNAs and 193 miRNAs as well as rRNAs, tRNAs, several snRNAs and IncRNAs, and other structural ncRNA elements. We validated our ncRNA candidates by six RNA-Seq data sets and show significant expression patterns that have never been described before in a bat species on such a large scale. Our annotations will be usable as a resource (Electronic Supplement) for deeper studying of bat evolution, ncRNAs repertoire, gene expression and regulation, ecology, and important host-virus interactions.Supplementary information is available at [rna.uni-jena.de/supplements/bats][1], the Open Science Framework ([doi.org/10.17605/OSF.IO/4CMDN][2]), and GitHub ([github.com/rnajena/bats_ncrna][3]). [1]: http://rna.uni-jena.de/supplements/bats [2]: http://doi.org/10.17605/OSF.IO/4CMDN [3]: http://github.com/rnajena/bats_ncrna
0

Direct RNA nanopore sequencing of full-length coronavirus genomes provides novel insights into structural variants and enables modification analysis

Adrian Viehweger et al.Nov 30, 2018
+4
K
S
A
Sequence analyses of RNA virus genomes remain challenging due to the exceptional genetic plasticity of these viruses. Because of high mutation and recombination rates, genome replication by viral RNA-dependent RNA polymerases leads to populations of closely related viruses, so-called ‘quasispecies’. Standard (short-read) sequencing technologies are ill-suited to reconstruct large numbers of full-length haplotypes of (i) RNA virus genomes and (ii) subgenome-length (sg) RNAs comprised of noncontiguous genome regions. Here, we used a full-length, direct RNA sequencing (DRS) approach based on nanopores to characterize viral RNAs produced in cells infected with a human coronavirus.Using DRS, we were able to map the longest (∼26 kb) contiguous read to the viral reference genome. By combining Illumina and nanopore sequencing, we reconstructed a highly accurate consensus sequence of the human coronavirus (HCoV) 229E genome (27.3 kb). Furthermore, using long reads that did not require an assembly step, we were able to identify, in infected cells, diverse and novel HCoV-229E sg RNAs that remain to be characterized. Also, the DRS approach, which circumvents reverse transcription and amplification of RNA, allowed us to detect methylation sites in viral RNAs. Our work paves the way for haplotype-based analyses of viral quasispecies by demonstrating the feasibility of intra-sample haplotype separation.Even though several technical challenges remain to be addressed to exploit the potential of the nanopore technology fully, our work illustrates that direct RNA sequencing may significantly advance genomic studies of complex virus populations, including predictions on long-range interactions in individual full-length viral RNA haplotypes.
15

Assembling highly repetitive Xanthomonas TALomes using Oxford Nanopore sequencing

Annett Erkes et al.Aug 18, 2022
+8
M
R
A
Abstract Most plant-pathogenic Xanthomonas bacteria harbor transcription activator-like effector (TALE) genes, which function as transcriptional activators of host plant genes and support infection. The entire repertoire of up to 29 TALE genes of a Xanthomonas strain is also referred to as TALome. The DNA-binding domain of TALEs is comprised of highly conserved repeats and TALE genes often occur in gene clusters, which precludes the assembly of TALE-carrying Xanthomonas genomes based on standard sequencing approaches. Here, we report the successful assembly of the 5 Mbp genomes of five Xanthomonas strains from Oxford Nanopore Technologies (ONT) sequencing data. For one of these strains, Xanthomonas oryzae pv. oryzae ( Xoo ) PXO35, we illustrate why Illumina short reads and longer PacBio reads are insufficient to fully resolve the genome. While ONT reads are perfectly suited to yield highly contiguous genomes, they suffer from a specific error profile within homopolymers. To still yield complete and correct TALomes from ONT assemblies, we present a computational correction pipeline specifically tailored to TALE genes, which yields at least comparable accuracy as Illumina-based polishing. We further systematically assess the ONT-based pipeline for its multiplexing capacity and find that, combined with computational correction, the complete TALome of Xoo PXO35 could have been reconstructed from less than 20,000 ONT reads. Our results indicate that multiplexed ONT sequencing combined with a computational correction of TALE genes constitutes a highly capable tool for characterizing the TALomes of huge collections of Xanthomonas strains in the future.
0

Analysis of Non-Coding RNAs in Placental Tissue and Extracellular Vesicles: Implications for Trophoblast Function

Julián Henao‐Restrepo et al.Aug 31, 2024
+6
S
A
J
0

Maximizing the potential of genomic and transcriptomic studies by nanopore sequencing

Daria Meyer et al.Jan 1, 2023
+8
J
W
D
Nucleic acid sequencing is the process of identifying the sequence of DNA or RNA, with DNA used for genomes and RNA for transcriptomes. Deciphering this information has the potential to greatly advance our understanding of genomic features and cellular functions. In comparison to other available sequencing methods, nanopore sequencing stands out due to its unique advantages of processing long nucleic acid strands in real time, within a small portable device, enabling the rapid analysis of samples in diverse settings. Evolving over the past decade, nanopore sequencing remains in a state of ongoing development and refinement, resulting in persistent challenges in protocols and technology. This article employs an interdisciplinary approach, evaluating experimental and computational methods to address critical gaps in our understanding in order to maximise the information gain from this advancing technology. We present a robust analysis of all aspects of nanopore sequencing by providing statistically supported insights, thus aiming to provide comprehensive guidelines for the diverse challenges that frequently impede optimal experimental outcomes. Here we present a robust analysis, bridging the gap by providing statistically supported insights into genomic and transcriptomic studies, providing fresh perspectives on sequencing.