JR
Jeroen Ridder
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Delft University of Technology, University Medical Center Utrecht, Utrecht University
+ 7 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
21
(52% Open Access)
Cited by:
37
h-index:
30
/
i10-index:
59
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Ultra-fast deep-learned CNS tumour classification during surgery

Carlo Vermeulen et al.Mar 9, 2024
+11
L
M
C
Abstract Central nervous system tumours represent one of the most lethal cancer types, particularly among children 1 . Primary treatment includes neurosurgical resection of the tumour, in which a delicate balance must be struck between maximizing the extent of resection and minimizing risk of neurological damage and comorbidity 2,3 . However, surgeons have limited knowledge of the precise tumour type prior to surgery. Current standard practice relies on preoperative imaging and intraoperative histological analysis, but these are not always conclusive and occasionally wrong. Using rapid nanopore sequencing, a sparse methylation profile can be obtained during surgery 4 . Here we developed Sturgeon, a patient-agnostic transfer-learned neural network, to enable molecular subclassification of central nervous system tumours based on such sparse profiles. Sturgeon delivered an accurate diagnosis within 40 minutes after starting sequencing in 45 out of 50 retrospectively sequenced samples (abstaining from diagnosis of the other 5 samples). Furthermore, we demonstrated its applicability in real time during 25 surgeries, achieving a diagnostic turnaround time of less than 90 min. Of these, 18 (72%) diagnoses were correct and 7 did not reach the required confidence threshold. We conclude that machine-learned diagnosis based on low-cost intraoperative sequencing can assist neurosurgical decision-making, potentially preventing neurological comorbidity and avoiding additional surgeries.
0
Citation35
0
Save
1

PolarMorphism enables discovery of shared genetic variants across multiple traits from GWAS summary statistics

von Berg et al.Oct 24, 2023
J
S
M
v
Abstract Pleiotropic SNPs are associated with multiple traits. Such SNPs can help pinpoint biological processes with an effect on multiple traits or point to a shared etiology between traits. We present PolarMorphism, a new method for the identification of pleiotropic SNPs from GWAS summary statistics. PolarMorphism can be readily applied to more than two traits or whole trait domains. PolarMorphism makes use of the fact that trait-specific SNP effect sizes can be seen as Cartesian coordinates and can thus be converted to polar coordinates r (distance from the origin) and theta (angle with the Cartesian x-axis). r describes the overall effect of a SNP, while theta describes the extent to which a SNP is shared. r and theta are used to determine the significance of SNP sharedness, resulting in a p-value per SNP that can be used for further analysis. We apply PolarMorphism to a large collection of publicly available GWAS summary statistics enabling the construction of a pleiotropy network that shows the extent to which traits share SNPs. This network shows how PolarMorphism can be used to gain insight into relationships between traits and trait domains. Furthermore, pathway analysis of the newly discovered pleiotropic SNPs demonstrates that analysis of more than two traits simultaneously yields more biologically relevant results than the combined results of pairwise analysis of the same traits. Finally, we show that PolarMorphism is more efficient and more powerful than previously published methods.
4

Cancer type classification in liquid biopsies based on sparse mutational profiles enabled through data augmentation and integration

Alexandra Danyi et al.Oct 24, 2023
J
M
A
Abstract Identifying the cell of origin of cancer is important to guide treatment decisions. However, in patients with ‘cancer of unknown primary’ (CUP), standard diagnostic tools often fail to identify the primary tumor. As an alternative, machine learning approaches have been proposed to classify the cell of origin based on somatic mutation profiles in the genome of solid tissue biopsies. However, solid biopsies can cause complications and certain tumors are not accessible. A promising alternative would be liquid biopsies, which contain ctDNA originating from the tumor. Problematically, somatic mutation profiles of tumors obtained from liquid biopsies are inherently extremely sparse and current machine learning models fail to perform in this setting. Here we propose an improved machine learning method to deal with the sparse nature of liquid biopsy data. Firstly, we downsample the SNVs in the samples in order to mimic sparse data conditions. Then extensive data augmentation is performed to artificially increase the number of training samples in order to enhance model robustness under sparse data conditions. Finally, we employ data integration to merge information from i) somatic single nucleotide variant (SNV) density across the genome, ii) somatic SNVs in driver genes and iii) trinucleotide motifs. Our adapted method achieves an average accuracy of 0.88 on the data where only 70% of SNVs are retained, which is comparable to an average accuracy of 0.87 with the original model on the full SNV data. Even when only 2% of the data is retained, the average accuracy is 0.65 compared to 0.41 with the original model. The method and results presented here open the way for application of machine learning in the detection of the cell of origin of cancer from sparse liquid biopsy data. Author Summary The identification of the ‘cell of origin’ of cancer is an important step towards more personalized cancer care, but this remains a challenge for patients with ‘cancer of unknown primary’ (CUP) where the source of the malignancy cannot be identified even after extensive clinical assessment with standard diagnostic methods. Somatic mutation profile-based ‘cell of origin’ classification has emerged in recent years as a promising alternative diagnostic tool that could circumvent the issues of standard CUP diagnostic. In this approach the somatic mutations are obtained from whole genome sequencing (WGS) of solid tissue biopsies from the tumor. However, needle biopsies from tumor tissue can be challenging, as accessibility to the tumor can be limited and taking a biopsy can cause further complications. For these reasons, liquid biopsies have been proposed as a safer alternative to solid tissue biopsies. Problematically, the circulating tumor DNA fragments available in e.g. blood typically represent a much scarcer tumor source than conventional solid tissue biopsies and therefore liquid biopsies give rise to sparse somatic mutation profiles. Therefore it is crucial to investigate the applicability of sparse somatic mutation profiles in the identification of ‘cell of origin’ and explore potential improvements of the data analysis and prediction models to overcome sparsity.
0

Direct detection of 8-oxo-dG using nanopore sequencing

Marc Pagès-Gallego et al.May 28, 2024
+9
N
D
M
Genomic DNA is constantly subjected to oxidative damage, which is thought to be one of the major drivers of cancer and age-dependent decline. The most prominent consequence is the modification of guanine into 8-hydroxyguanine (8-oxo-dG), which has important mutagenic potential and plays a role in methylation-mediated gene regulation. Methods to simultaneously detect and quantify 8-oxo-dG within its genomic context have been lacking; mainly because these methods rely on indirect detection or are based on hydrolysis of the DNA. Nanopore sequencing has been deployed for the direct detection of base-modifications like cytosine methylation during sequencing. However, currently there is no model to detect 8-oxo-dG by nanopore sequencing due to the lack of training data. Here, we developed a strategy based on synthetic oligos to create long DNA molecules with context variability for effective deep learning and nanopore sequencing. Moreover, we showcase a training approach suitable to deal with the extreme scarceness of 8-oxo-dG compared to canonical G to enable specific 8-oxo-dG detection. Applied to an inducible tissue culture system for oxidative DNA damage, our approach reveals variable 8-oxo-dG distribution across the genome, a dissimilar context pattern to C>A mutations, and concurrent 5-mC depletion within a 2-kilobase window surrounding 8-oxo-dG sites. These findings not only underscore the potential of nanopore sequencing in epigenetic research, but also shed light on 8-oxo-dG's role in genomic regulation. By simultaneously measuring 5-mC and 8-oxo-dG at single molecule resolution, our study provides insights into the functional interplay between these DNA modifications. Moreover, our approach using synthetic oligos to generate a ground truth from machine learning modification calling could be applied to any other DNA modification. Overall, our work contributes to advancing the field of epigenetics and highlights nanopore sequencing as a powerful tool for studying DNA modifications.
0

Mapping And Phasing Of Structural Variation In Patient Genomes Using Nanopore Sequencing

Mircea Stancu et al.May 6, 2020
+14
I
M
M
Structural genomic variants form a common type of genetic alteration underlying human genetic disease and phenotypic variation. Despite major improvements in genome sequencing technology and data analysis, the detection of structural variants still poses challenges, particularly when variants are of high complexity. Emerging long-read single-molecule sequencing technologies provide new opportunities for detection of structural variants. Here, we demonstrate sequencing of the genomes of two patients with congenital abnormalities using the ONT MinION at 11x and 16x mean coverage, respectively. We developed a bioinformatic pipeline - NanoSV - to efficiently map genomic structural variants (SVs) from the long-read data. We demonstrate that the nanopore data are superior to corresponding short-read data with regard to detection of de novo rearrangements originating from complex chromothripsis events in the patients. Additionally, genome-wide surveillance of SVs, revealed 3,253 (33%) novel variants that were missed in short-read data of the same sample, the majority of which are duplications < 200bp in size. Long sequencing reads enabled efficient phasing of genetic variations, allowing the construction of genome-wide maps of phased SVs and SNVs. We employed read-based phasing to show that all de novo chromothripsis breakpoints occurred on paternal chromosomes and we resolved the long-range structure of the chromothripsis. This work demonstrates the value of long-read sequencing for screening whole genomes of patients for complex structural variants.
0

Mining the forest: uncovering biological mechanisms by interpreting Random Forests

Julian Ruiter et al.May 7, 2020
J
T
J
Biological datasets are large and complex. Machine learning models are therefore essential to capture relationships in the data. Unfortunately, the inferred complex models are often difficult to understand and interpretation is limited to a list of features ranked on their importance in the model. We propose a computational approach, called Foresight, which enables interpretation of the patterns uncovered by Random Forest models trained on biological datasets. Foresight exploits the correlation structure in the data to uncover relevant groups of features and the interactions between them. This facilitates interpretation of the computational model and can provide more detailed insight in the underlying biological relationships than simply ranking features. We demonstrate Foresight on both an artificial dataset and a large gene expression dataset of breast cancer patients. Using the latter dataset we show that our approach retrieves biologically relevant features and provides a rich description of the interactions and correlation structure between these features.
0

Molecular Heterogeneity and Early Metastatic Clone Selection in Testicular Germ Cell Cancer Development

Lambert Dorssers et al.May 7, 2020
+7
H
A
L
Testicular germ cell cancer (TGCC) is initiated during early life from a totipotent embryonic germ cell, and the most frequent malignant cancer in young Caucasian males. The goal of this study is to determine the intratumor heterogeneity, and to unravel tumor progression from initiation till therapy-resistant metastasis. In this study, we have investigated 42 purified samples of four cases of nonseminoma with intrinsic resistance to chemotherapy including different histological elements, metastatic specimens and the precursor cancer stem cells (germ cell neoplasia in situ, GCNIS) using whole genome-, and targeted sequencing. Sequence data were used to reconstruct the evolution of these cancers. Intratumor molecular heterogeneity was observed and did not correspond to the supposed histological evolution of the primary tumor. Metastases after systemic treatment were derived from cancer stem cells frequently not identified in the primary cancer. The GCNIS mostly lacked the molecular marks of the primary TGCC and comprised dominant clones that had failed to progress into a manifest malignancy. A BRCA-like mutational signature was found without evidence for direct involvement of BRCA1 and BRCA2 genes. Our data strongly support the hypothesis that TGCC is initiated by whole genome duplication, followed by chromosome copy number alterations in the cancer stem cell population, and dynamic acquisition of chromosome arm 12p gain and accumulation of low numbers of somatic mutations resembling a BRCA-like mutational signature. These observations of heterogeneity at all stages of tumorigenesis should be considered when treating patients with GCNIS-only disease, or with clinically overt TGCC.
0

MetaboShiny - interactive processing, analysis and identification of untargeted metabolomics data

Joanna Wolthuis et al.May 7, 2020
+5
M
S
J
Untargeted metabolomics by mass spectrometry in the form of mass over charge and intensity of ions, provides insight into the metabolic activity in a sample and is therefore essential to understand regulation and expression at the protein and transcription level. Problematically, it is often challenging to analyze untargeted metabolomics data as many m/z values are detected per sample and it is difficult to identify what compound they represent. We aimed to facilitate the process of finding m/z biomarkers through statistical analysis, machine learning and searching for their putative identities. To address this challenge, we developed MetaboShiny, a novel R and RShiny based metabolomics data analysis package. MetaboShiny features bi/multivariate and temporal statistics, an extensive machine learning module, interactive plotting and result exploration, and compound identification through a variety of chemical databases. As a result, MetaboShiny enables rapid and rigorous analysis of untargeted metabolomics data as well as target identification at unprecedented scale. To demonstrate its efficacy and ease-of-use, we apply MetaboShiny to a publicly accessible metabolomics dataset generated from the urine of smokers and non-smokers. Replication of the main results of the original publication, which includes importing, normalization and several statistical analyses, is achieved within minutes. Moreover, MetaboShiny enables deeper exploration of the data thereby revealing novel putative biomarkers and hypotheses. For instance, by using MetaboShiny's subsetting feature, iodine is found to be significantly increased in non-smoking lung cancer patients. Furthermore, by allowing for custom adducts, MetaboShiny reveals a putative identification for an m/z value which could not be identified by the original authors. This validates MetaboShiny as a flexible and customizable data analysis package that greatly enhances metabolomics biomarker discovery.
1

Intestinal LKB1 loss drives a pre-malignant program along the serrated cancer pathway

Susanna Plugge et al.Oct 24, 2023
+14
J
H
S
Abstract Peutz-Jeghers syndrome (PJS) is a familial disorder caused by heterozygous inactivating Liver Kinase B1 ( LKB1/STK11) mutations that induce hamartomatous polyp formation in the gastrointestinal tract. Additionally, PJS patients carry an elevated risk of developing malignancies in multiple tissues, including the intestine. How LKB1 deficiency alters the hierarchical organization and phenotypical landscape of epithelial tissues to mediate an increased cancer risk remains poorly understood. Here, we investigate these issues using small intestinal organoids that carry heterozygous or homozygous Lkb1 mutations. We show that Lkb1 loss causes allele dosage-dependent activation of transcriptional programs for tissue repair, particularly within stem and transit amplifying cell lineages. Furthermore, enhanced EGFR ligand expression promotes niche-independent growth of Lkb1 -deficient organoids. Strikingly, we uncover that mono-allelic loss of Lkb1 is sufficient to shift the epithelium into the serrated premalignant program for colorectal carcinogenesis, which is strongly amplified upon loss-of-heterozygosity (LOH) or activating Kras mutations. We conclude that heterozygous mutations in LKB1 predispose the intestinal epithelium to uncontrolled growth along the serrated pathway, providing an explanation for the increased cancer risk in PJS patients.
0

Computational Pan-Genomics: Status, Promises and Challenges

Tobias Marschall et al.May 6, 2020
+56
T
M
T
Many disciplines, from human genetics and oncology to plant breeding, microbiology and virology, commonly face the challenge of analyzing rapidly increasing numbers of genomes. In case of Homo sapiens, the number of sequenced genomes will approach hundreds of thousands in the next few years. Simply scaling up established bioinformatics pipelines will not be sufficient for leveraging the full potential of such rich genomic datasets. Instead, novel, qualitatively different computational methods and paradigms are needed. We will witness the rapid extension of computational pan-genomics, a new sub-area of research in computational biology. In this paper, we generalize existing definitions and understand a pan-genome as any collection of genomic sequences to be analyzed jointly or to be used as a reference. We examine already available approaches to construct and use pan-genomes, discuss the potential benefits of future technologies and methodologies, and review open challenges from the vantage point of the above-mentioned biological disciplines. As a prominent example for a computational paradigm shift, we particularly highlight the transition from the representation of reference genomes as strings to representations as graphs. We outline how this and other challenges from different application domains translate into common computational problems, point out relevant bioinformatics techniques and identify open problems in computer science. With this review, we aim to increase awareness that a joint approach to computational pan-genomics can help address many of the problems currently faced in various domains.
Load More