JK
Johannes Köster
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(46% Open Access)
Cited by:
2,859
h-index:
24
/
i10-index:
33
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Snakemake—a scalable bioinformatics workflow engine

Johannes Köster et al.Aug 20, 2012
S
J
Abstract Summary: Snakemake is a workflow engine that provides a readable Python-based workflow definition language and a powerful execution environment that scales from single-core workstations to compute clusters without modifying the workflow. It is the first system to support the use of automatically inferred multiple named wildcards (or variables) in input and output filenames. Availability: http://snakemake.googlecode.com. Contact: johannes.koester@uni-due.de
0

Quality control, modeling, and visualization of CRISPR screens with MAGeCK-VISPR

Wei Li et al.Dec 1, 2015
+5
H
J
W
High-throughput CRISPR screens have shown great promise in functional genomics. We present MAGeCK-VISPR, a comprehensive quality control (QC), analysis, and visualization workflow for CRISPR screens. MAGeCK-VISPR defines a set of QC measures to assess the quality of an experiment, and includes a maximum-likelihood algorithm to call essential genes simultaneously under multiple conditions. The algorithm uses a generalized linear model to deconvolute different effects, and employs expectation-maximization to iteratively estimate sgRNA knockout efficiency and gene essentiality. MAGeCK-VISPR also includes VISPR, a framework for the interactive visualization and exploration of QC and analysis results. MAGeCK-VISPR is freely available at http://bitbucket.org/liulab/mageck-vispr .
0
Citation392
0
Save
0

ProSolo: Accurate Variant Calling from Single Cell DNA Sequencing Data

David Lähnemann et al.Apr 28, 2020
+3
U
J
D
ABSTRACT Obtaining accurate mutational profiles from single cell DNA is essential for the analysis of genomic cell-to-cell heterogeneity at the finest level of resolution. However, sequencing libraries suitable for genotyping require whole genome amplification, which introduces allelic bias and copy errors. As a result, single cell DNA sequencing data violates the assumptions of variant callers developed for bulk sequencing, which when applied to single cells generate significant numbers of false positives and false negatives. Only dedicated models accounting for amplification bias and errors will be able to provide more accurate calls. We present ProSolo, a probabilistic model for calling single nucleotide variants from multiple displacement amplified single cell DNA sequencing data. It introduces a mechanistically motivated empirical model of amplification bias that improves the quantification of genotyping uncertainty. To account for amplification errors, it jointly models the single cell sample with a bulk sequencing sample from the same cell population—also enabling a biologically relevant imputation of missing genotypes for the single cell. Through these innovations, ProSolo achieves substantially higher performance in calling and genotyping single nucleotide variants in single cells in comparison to all state-of-the-art tools. Moreover, ProSolo implements the first approach to control the false discovery rate reliably and flexibly; not only for single nucleotide variant calls, but also for artefacts of single cell methodology that one may wish to identify, such as allele dropout. ProSolo’s model is implemented into a flexible framework, encouraging extensions. The source code and usage instructions are available at: https://github.com/prosolo/prosolo
0
Citation5
0
Save
0

Go Get Data (GGD): simple, reproducible access to scientific data

Michael Cormier et al.Sep 11, 2020
+3
J
J
M
Abstract Genomics research is complicated by the inherent difficulty of collecting, transforming, and integrating the numerous datasets and annotations germane to one’s research. Furthermore, these data exist in disparate sources, and are stored in numerous, often abused formats from multiple genome builds. Since these complexities waste time, inhibit reproducibility, and curtail research creativity, we developed Go Get Data (GGD; https://gogetdata.github.io/ ) as a fast, reproducible approach to installing standardized data recipes.
0
Citation2
0
Save
2

Epigenetic plasticity via adaptive DNA hypermethylation and clonal expansion underlie resistance to oncogenic pathway inhibition in pancreatic cancer

Laura Godfrey et al.May 20, 2022
+15
A
L
L
Abstract Pancreatic ductal adenocarcinoma (PDAC) is an aggressive cancer with poor prognosis. Drug resistance is the major cause for therapeutic failure in PDAC patients with progressive disease. The mechanisms underlying resistance formation are complex and remain poorly understood. To gain insights into molecular changes during the formation of resistance to oncogenic MAPK pathway inhibition we utilized short-term passaged primary tumor cells from ten PDACs of genetically engineered mice. We followed gain and loss of resistance upon MEK i exposure and withdrawal by longitudinal integrative analysis of whole genome sequencing, whole genome bisulfite sequencing, RNA-sequencing and mass spectrometry data. We found that resistant cell populations under increasing MEK i treatment evolved by the expansion of a single clone but were not a direct consequence of known resistance-conferring mutations. Rather, resistant cells showed adaptive DNA hypermethylation of 209 and hypomethylation of 8 genomic sites, most of which overlap with regulatory elements known to be active in murine PDAC cells. Both DNA methylation changes and MEK i resistance were transient and reversible upon drug withdrawal. The effector caspase CASP3 is one of the 114 genes for which transcriptional downregulation inversely correlated with the methylation status of the associated DNA region. CASP3 inactivation in resistant cells led to attenuation of drug-induced apoptosis which could be reversed by DNA methyltransferase inhibition with remarkable sensitivity exclusively in the resistant cells. Overall, our data provide a context for characterization and targeting of epigenetically mediated resistance mechanisms in PDAC.
2
Citation1
0
Save
0

Bioconda: A sustainable and comprehensive software distribution for the life sciences

Björn Grüning et al.Oct 21, 2017
+157
M
A
B
We present Bioconda (https://bioconda.github.io), a distribution of bioinformatics software for the lightweight, multi-platform and language-agnostic package manager Conda. Currently, Bioconda offers a collection of over 3000 software packages, which is continuously maintained, updated, and extended by a growing global community of more than 200 contributors. Bioconda improves analysis reproducibility by allowing users to define isolated environments with defined software versions, all of which are easily installed and managed without administrative privileges.
0

Full-length de novo viral quasispecies assembly through variation graph construction

Jasmijn Baaijens et al.Mar 23, 2018
+4
B
J
J
Viruses populate their hosts as a viral quasispecies: a collection of genetically related mutant strains. Viral quasispecies assembly is the reconstruction of strain-specific haplotypes from read data, and predicting their relative abundances within the mix of strains is an important step for various treatment-related reasons. Reference-genome-independent (“de novo”) approaches have yielded benefits over reference-guided approaches, because reference-induced biases can become overwhelming when dealing with divergent strains. While being very accurate, extant de novo methods only yield rather short contigs. The remaining challenge is to reconstruct full-length haplotypes together with their abundances from such contigs. We present Virus-VG as a de novo approach to viral haplotype reconstruction from pre-assembled contigs. Our method constructs a variation graph from the short input contigs without making use of a reference genome. Then, to obtain paths through the variation graph that reflect the original haplotypes, we solve a minimization problem that yields a selection of maximal-length paths that is optimal in terms of being compatible with the read coverages computed for the nodes of the variation graph. We output the resulting selection of maximal length paths as the haplotypes, together with their abundances. Benchmarking experiments on challenging simulated and real data sets show significant improvements in assembly contiguity compared to the input contigs, while preserving low error rates compared to the state-of-the-art viral quasispecies assemblers. Virus-VG is freely available at .
1

Microphaser - a small-scale phasing approach for improved personalized neopeptidome creation

Jan Förster et al.Aug 11, 2021
+3
A
D
J
Abstract Motivation Haplotype phasing approaches have been shown to improve accuracy of the search space of neoantigen prediction by determining if adjacent variants are located on the same chromosomal copy. However, the aneuploid nature of cancer cells as well as the admixture of different clones in tumor bulk sequencing data are challenging the current diploid based phasing algorithms. We present microphaser, a small-scale phasing approach to improve haplotyping variants in cancer samples. Microphaser aims to create a more accurate neopeptidome for downstream neoantigen prediction. Results Microphaser achieves large concordance with state-of-the-art phasing-aware neoantigen prediction pipeline neoepiscope, with differences in edge cases and an improved filtering step. Availability Microphaser is written in the Rust programming language. It is made available via Github ( https://github.com/koesterlab/microphaser )and Bioconda. The corresponding prediction pipeline ( https://github.com/snakemake-workflows/dna-seq-neoantigen-prediction ) has been written within the Snakemake workflow management system and can be deployed as part of the snakemake-workflows project.
5

Insane in the vembrane: filtering and transforming VCF/BCF files

Till Hartmann et al.Aug 18, 2022
+2
E
C
T
Summary Data from sequencing of DNA or RNA samples is routinely scanned for variation. Such variation data is stored in the standardized VCF/BCF format with additional annotations. Analyses of variants usually involve steps where filters are applied to narrow down the list of candidates for further analysis. A number of tools for this task exist, differing in functionality, speed, syntax and supported annotations. Thus, users have to switch between tools depending on the filtering task, and have to adapt to the respective filtering syntax. We present vembrane as a command line VCF/BCF filtering tool that consolidates and extends the filtering functionality of previous software to meet any imaginable filtering use case. To this end, vembrane exposes the VCF/BCF file type specification and its inofficial extensions by the annotation tools VEP and SnpEff as Python data structures. vembrane filter enables filtration by arbitrary Python expressions over (combinations of) annotations, requiring only basic knowledge of the Python programming language. vembrane table allows users to generate tables from subsets of annotations or functions thereof. Finally, it is fast, thanks to pysam, a Python wrapper around htslib, and by relying on Python’s lazy evaluation. Availability and Implementation Source code and installation instructions are available at github.com/vembrane/vembrane , DOI: 10.5281/zen-odo.7003981.
0

Practical computational reproducibility in the life sciences

Björn Grüning et al.Oct 10, 2017
+5
J
J
B
Many areas of research suffer from poor reproducibility. This problem is particularly acute in computationally intensive domains where results rely on a series of complex methodological decisions that are not well captured by traditional publication approaches. Various guidelines have emerged for achieving reproducibility, but practical implementation of these practices remains difficult. This is because reproducing published computational analyses requires installing many software tools plus associated libraries, connecting tools together into the complete pipeline, and specifying parameters. Here we present a suite of recently emerged technologies which make computational reproducibility not just possible, but, finally, practical in both time and effort. By combining a system for building highly portable packages of bioinformatics software, containerization and virtualization technologies for isolating reusable execution environments for these packages, and an integrated workflow system that automatically orchestrates the composition of these packages for entire pipelines, an unprecedented level of computational reproducibility can be achieved.
Load More