KS
Konstantin Strauch
Author with expertise in Genomic Studies and Association Analyses
University Medical Center of the Johannes Gutenberg University Mainz, Johannes Gutenberg University Mainz, Helmholtz Zentrum München
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
28
(21% Open Access)
Cited by:
29
h-index:
73
/
i10-index:
231
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
48

Genome-wide association studies identify 137 loci for DNA methylation biomarkers of ageing

Daniel McCartney et al.Oct 24, 2023
+106
R
J
D
Abstract Biological ageing estimators derived from DNA methylation (DNAm) data are heritable and correlate with morbidity and mortality. Leveraging DNAm and SNP data from >41,000 individuals, we identify 137 genome-wide significant loci (113 novel) from meta-analyses of four epigenetic clocks and epigenetic surrogate markers for granulocyte proportions and plasminogen activator inhibitor 1 levels, respectively. We report strong genetic correlations with longevity and lifestyle factors such as smoking, education, and obesity. Significant associations are observed in polygenic risk score analysis and to a lesser extent in Mendelian randomization analyses. This study illuminates the genetic architecture underlying epigenetic ageing and its shared genetic contributions with lifestyle factors and longevity.
48
Citation13
0
Save
106

Systematic multi-omics cell line profiling uncovers principles of Ewing sarcoma fusion oncogene-mediated gene regulation

Martin Orth et al.Oct 24, 2023
+17
A
D
M
ABSTRACT Cell lines have been essential for major discoveries in cancer including Ewing sarcoma (EwS). EwS is a highly aggressive pediatric bone or soft-tissue cancer characterized by oncogenic EWSR1-ETS fusion transcription factors converting polymorphic GGAA-microsatellites (mSats) into neo-enhancers. However, further detailed mechanistic evaluation of gene regulation in EwS have been hindered by the limited number of well-characterized cell line models. Here, we present the Ewing Sarcoma Cell Line Atlas (ESCLA) comprising 18 EwS cell lines with inducible EWSR1-ETS knockdown that were profiled by whole-genome-sequencing, DNA methylation arrays, gene expression and splicing arrays, mass spectrometry-based proteomics, and ChIP-seq for EWSR1-ETS and histone marks. Systematic analysis of these multi-dimensional data illuminated hundreds of new potential EWSR1-ETS target genes, the nature of EWSR1-ETS-preferred GGAA-mSats, and potential indirect modes of EWSR1-ETS-mediated gene regulation. Moreover, we identified putative co-regulatory transcription factors and heterogeneously regulated EWSR1-ETS target genes that may have implications for the clinical heterogeneity of EwS. Collectively, our freely available ESCLA constitutes an extremely rich resource for EwS research and highlights the power of leveraging multidimensional and comprehensive datasets to unravel principles of heterogeneous gene regulation by dominant fusion oncogenes.
106
Paper
Citation6
0
Save
77

GeneTonic: an R/Bioconductor package for streamlining the interpretation of RNA-seq data

Fédérico Marini et al.Oct 24, 2023
K
J
A
F
Abstract Background The interpretation of results from transcriptome profiling experiments via RNA sequencing (RNA-seq) can be a complex task, where the essential information is distributed among different tabular and list formats - normalized expression values, results from differential expression analysis, and results from functional enrichment analyses. A number of tools and databases are widely used for the purpose of identification of relevant functional patterns, yet often their contextualization within the data and results at hand is not straightforward, especially if these analytic components are not combined together efficiently. Results We developed the GeneTonic software package, which serves as a comprehensive toolkit for streamlining the interpretation of functional enrichment analyses, by fully leveraging the information of expression values in a differential expression context. GeneTonic is implemented in R and Shiny, leveraging packages that enable HTML-based interactive visualizations for executing drilldown tasks seamlessly, viewing the data at a level of increased detail. GeneTonic is integrated with the core classes of existing Bioconductor workflows, and can accept the output of many widely used tools for pathway analysis, making this approach applicable to a wide range of use cases. Users can effectively navigate interlinked components (otherwise available as flat text or spreadsheet tables), bookmark features of interest during the exploration sessions, and obtain at the end a tailored HTML report, thus combining the benefits of both interactivity and reproducibility. Conclusion GeneTonic is distributed as an R package in the Bioconductor project ( https://bioconductor.org/packages/GeneTonic/ ) under the MIT license. Offering both bird’s-eye views of the components of transcriptome data analysis and the detailed inspection of single genes, individual signatures, and their relationships, GeneTonic aims at simplifying the process of interpretation of complex and compelling RNA-seq datasets for many researchers with different expertise profiles.
77
Citation5
0
Save
40

Network reconstruction for trans acting genetic loci using multi-omics data and prior information

Johann Hawe et al.Oct 24, 2023
+13
M
A
J
Abstract Background Molecular multi-omics data provide an in-depth view on biological systems, and their integration is crucial to gain insights in complex regulatory processes. These data can be used to explain disease related genetic variants by linking them to intermediate molecular traits (quantitative trait loci, QTL). Molecular networks regulating cellular processes leave footprints in QTL results as so-called trans -QTL hotspots. Reconstructing these networks is a complex endeavor and use of biological prior information has been proposed to alleviate network inference. However, previous efforts were limited in the types of priors used or have only been applied to model systems. In this study, we reconstruct the regulatory networks underlying trans -QTL hotspots using human cohort data and data-driven prior information. Results We devised a strategy to integrate QTL with human population scale multi-omics data and comprehensively curated prior information from large-scale biological databases. State-of-the art network inference methods applied to these data and priors were used to recover the regulatory networks underlying trans -QTL hotspots. We benchmarked inference methods and showed, that Bayesian strategies using biologically-informed priors outperform methods without prior data in simulated data and show better replication across datasets. Application of our approach to human cohort data highlighted two novel regulatory networks related to schizophrenia and lean body mass for which we generated novel functional hypotheses. Conclusion We demonstrate, that existing biological knowledge can be leveraged for the integrative analysis of networks underlying trans associations to deduce novel hypotheses on cell regulatory mechanisms.
40
Citation5
0
Save
0

Discovering patterns of pleiotropy in genome-wide association studies

Jianan Zhana et al.May 7, 2020
+118
J
J
J
Genome-wide association studies have had great success in identifying human genetic variants associated with disease, disease risk factors, and other biomedical phenotypes. Many variants are associated with multiple traits, even after correction for trait-trait correlation. Discovering subsets of variants associated with a shared subset of phenotypes could help reveal disease mechanisms, suggest new therapeutic options, and increase the power to detect additional variants with similar pattern of associations. Here we introduce two methods based on a Bayesian framework, SNP And Pleiotropic PHenotype Organization (SAPPHO), one modeling independent phenotypes (SAPPHO-I) and the other incorporating a full phenotype covariance structure (SAPPHO-C). These two methods learn patterns of pleiotropy from genotype and phenotype data, using identified associations to discover additional associations with shared patterns. The SAPPHO methods, along with other recent approaches for pleiotropic association tests, were assessed using data from the Atherosclerotic Risk in Communities (ARIC) study of 8,000 individuals, whose gold-standard associations were provided by meta-analysis of 40,000 to 100,000 individuals from the CHARGE consortium. Using power to detect gold-standard associations at genome-wide significance (0.05 family-wise error rate) as a metric, SAPPHO performed best. The SAPPHO methods were also uniquely able to select the most significant variants in a parsimonious model, excluding other less likely variants within a linkage disequilibrium block. For meta-analysis, the SAPPHO methods implement summary modes that use sufficient statistics rather than full phenotype and genotype data. Meta-analysis applied to CHARGE detected 16 additional associations to the gold-standard loci, as well as 124 novel loci, at 0.05 false discovery rate. Reasons for the superior performance were explored by performing simulations over a range of scenarios describing different genetic architectures. With SAPPHO we were able to learn genetic structures that were hidden using the traditional univariate tests.
0

Characterization of missing values in untargeted MS-based metabolomics data and evaluation of missing data handling strategies

Kieu Trinh et al.May 7, 2020
+13
J
S
K
BACKGROUND: Untargeted mass spectrometry (MS)-based metabolomics data often contain missing values that reduce statistical power and can introduce bias in epidemiological studies. However, a systematic assessment of the various sources of missing values and strategies to handle these data has received little attention. Missing data can occur systematically, e.g. from run day-dependent effects due to limits of detection (LOD); or it can be random as, for instance, a consequence of sample preparation. METHODS: We investigated patterns of missing data in an MS-based metabolomics experiment of serum samples from the German KORA F4 cohort (n = 1750). We then evaluated 31 imputation methods in a simulation framework and biologically validated the results by applying all imputation approaches to real metabolomics data. We examined the ability of each method to reconstruct biochemical pathways from data-driven correlation networks, and the ability of the method to increase statistical power while preserving the strength of established genetically metabolic quantitative trait loci. RESULTS: Run day-dependent LOD-based missing data accounts for most missing values in the metabolomics dataset. Although multiple imputation by chained equations (MICE) performed well in many scenarios, it is computationally and statistically challenging. K-nearest neighbors (KNN) imputation on observations with variable pre-selection showed robust performance across all evaluation schemes and is computationally more tractable. CONCLUSION: Missing data in untargeted MS-based metabolomics data occur for various reasons. Based on our results, we recommend that KNN-based imputation is performed on observations with variable pre-selection since it showed robust results in all evaluation schemes. NOTE: Kieu Trinh Do and Simone Wahl are co-first authors, and Gabi Kastenmueller and Jan Krumsiek are co-last authors.
0

Genetic discovery and translational decision support from exome sequencing of 20,791 type 2 diabetes cases and 24,440 controls from five ancestries

Jason Flannick et al.May 6, 2020
+158
C
J
J
Protein-coding genetic variants that strongly affect disease risk can provide important clues into disease pathogenesis. Here we report an exome sequence analysis of 20,791 type 2 diabetes (T2D) cases and 24,440 controls from five ancestries. We identify rare (minor allele frequency<0.5%) variant gene-level associations in (a) three genes at exome-wide significance, including a T2D protective series of >30 SLC30A8 alleles, and (b) within 12 gene sets, including those corresponding to T2D drug targets (p=6.1×10-3) and candidate genes from knockout mice (p=5.2×10-3). Within our study, the strongest T2D rare variant gene-level signals explain at most 25% of the heritability of the strongest common single variant signals, and the rare variant gene-level effect sizes we observe in established T2D drug targets will require 110K-180K sequenced cases to exceed exome-wide significance. To help prioritize genes using associations from current smaller sample sizes, we present a Bayesian framework to recalibrate association p-values as posterior probabilities of association, estimating that reaching p<0.05 (p<0.005) in our study increases the odds of causal T2D association for a nonsynonymous variant by a factor of 1.8 (5.3). To help guide target or gene prioritization efforts, our data are freely available for analysis at www.type2diabetesgenetics.org.
0

Genomic analyses for age at menarche identify 389 independent signals and indicate BMI-independent effects of puberty timing on cancer susceptibility

Felix Day et al.May 7, 2020
+211
H
D
F
The timing of puberty is a highly polygenic childhood trait that is epidemiologically associated with various adult diseases. Here, we analyse 1000-Genome reference panel imputed genotype data on up to ~370,000 women and identify 389 independent signals (all P<5x10-8) for age at menarche, a notable milestone in female pubertal development. In Icelandic data from deCODE, these signals explain ~7.4% of the population variance in age at menarche, corresponding to one quarter of the estimated heritability. We implicate over 250 genes via coding variation or associated gene expression, and demonstrate enrichment across genes active in neural tissues. We identify multiple rare variants near the imprinted genes MKRN3 and DLK1 that exhibit large effects on menarche only when paternally inherited. Disproportionate effects of variants on early or late puberty timing are observed: single variant and heritability estimates are larger for early than late puberty timing in females. The opposite pattern is seen in males, with larger estimates for late than early puberty timing. Mendelian randomization analyses indicate causal inverse associations, independent of BMI, between puberty timing and risks for breast and endometrial cancers in women, and prostate cancer in men. In aggregate, our findings reveal new complexity in the genetic regulation of puberty timing and support new causal links with adult cancer risks.
0

Network based conditional genome wide association analysis of human metabolomics

Yakov Tsepilov et al.May 7, 2020
+8
O
S
Y
Background: Genome-wide association studies (GWAS) have identified hundreds of loci influencing complex human traits, however, their biological mechanism of action remains mostly unknown. Recent accumulation of functional genomics (‘omics’) including metabolomics data opens up opportunities to provide a new insight into the functional role of specific changes in the genome. Functional genomic data are characterized by high dimensionality, presence of (strong) statistical dependencies between traits, and, potentially, complex genetic control. Therefore, analysis of such data asks for development of specific statistical genetic methods. Results: We propose a network-based, conditional approach to evaluate the impact of genetic variants on omics phenotypes (conditional GWAS, cGWAS). For each trait of interest, based on biological network, we select a set of other traits to be used as covariates in GWAS. The network could be reconstructed either from biological pathway databases or directly from the data. We evaluated our approach using data from a population-based KORA study (n=1,784, 1.7 M SNPs) with measured metabolomics data (151 metabolites) and demonstrated that our approach allows for identification of up to five additional loci not detected by conventional GWAS. We show that this gain in power is achieved through increased precision of genetic effect estimates, and in presence of specific ‘contra-intuitive’ pleiotropic scenarios (when genetic and environmental sources of covariance are acting in opposite manner). We justify existence of such scenarios, and discuss possible applications of our method beyond metabolomics. Conclusions: We demonstrate that in context of metabolomics network-based, conditional genome-wide association analysis is able to dramatically increase power of identification of loci with specific ‘contra-intuitive’ pleiotropic architecture. Our method has modest computational costs, can utilize summary level GWAS data, and is applicable to other omics data types. We anticipate that application of our method to new and existing data sets will facilitate progress in understanding genetic bases of control of molecular and complex phenotypes.
0

DeepWAS: Multivariate genotype-phenotype associations by directly integrating regulatory information using deep learning

Janine Arloth et al.May 6, 2020
+25
T
G
J
Genome-wide association studies (GWAS) identify genetic variants associated with quantitative traits or disease. Thus, GWAS never directly link variants to regulatory mechanisms, which, in turn, are typically inferred during post-hoc analyses. In parallel, a recent deep learning-based method allows for prediction of regulatory effects per variant on currently up to 1,000 cell type-specific chromatin features. We here describe "DeepWAS", a new approach that directly integrates predictions of these regulatory effects of single variants into a multivariate GWAS setting. As a result, single variants associated with a trait or disease are, by design, coupled to their impact on a chromatin feature in a cell type. Up to 40,000 regulatory single-nucleotide polymorphisms (SNPs) were associated with multiple sclerosis (MS, 4,888 cases and 10,395 controls), major depressive disorder (MDD, 1,475 cases and 2,144 controls), and height (5,974 individuals) to each identify 43-61 regulatory SNPs, called deepSNPs, which are shown to reach at least nominal significance in large GWAS. MS- and height-specific deepSNPs resided in active chromatin and introns, whereas MDD-specific deepSNPs located mostly to intragenic regions and repressive chromatin states. We found deepSNPs to be enriched in public or cohort-matched expression and methylation quantitative trait loci and demonstrate the potential of the DeepWAS method to directly generate testable functional hypotheses based on genotype data alone. DeepWAS is an innovative GWAS approach with the power to identify individual SNPs in non-coding regions with gene regulatory capacity with a joint contribution to disease risk. DeepWAS is available at https://github.com/cellmapslab/DeepWAS.
Load More