PH
Peter Hoen
Author with expertise in Analysis of Gene Interaction Networks
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(53% Open Access)
Cited by:
3
h-index:
44
/
i10-index:
88
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
12

Imbalanced expression for predicted high-impact, autosomal-dominant variants in a cohort of 3,818 healthy samples

Niek Klein et al.Sep 20, 2020
Abstract Background One of the growing problems in genome diagnostics is the increasing number of variants that get identified through genetic testing but for which it is unknown what the significance for the disease is (Variants of Unknown Significance - VUS) 1,2 . When these variants are observed in patients, clinicians need to be able to determine their relevance for causing the patient’s disease. Here we investigated whether allele-specific expression (ASE) can be used to prioritize disease-relevant VUS and therefore assist diagnostics. In order to do so, we conducted ASE analysis in RNA-seq data from 3,818 blood samples (part of the the Dutch BIOS biobank consortium), to ascertain how VUS affect gene expression. We compared the effect of VUS variants to variants that are predicted to have a high impact, and variants that are predicted to be pathogenic but are either recessive or autosomal-dominant with low penetrance. Results For immune and haematological disorders, we observed that 24.7% of known pathogenic variants from ClinVar show allelic imbalance in blood, as compared to 6.6% of known benign variants with matching allele frequencies. However, for other types of disorders, ASE information from blood did not distinguish (likely) pathogenic variants from benign variants. Unexpectedly, we identified 5 genes ( ALOX5, COMT, PRPF8, PSTPIP1 and SH3BP2 ) in which seven population-based samples had a predicted high impact, autosomal-dominant variant. For these genes the imbalanced expression of the major allele compensates for the lower expression of the minor allele. Conclusions Our analysis in a large population-based gene expression cohort reveals examples of high impact, autosomal-dominant variants that are compensated for by imbalanced expression. Additionally, we observed that ASE analyses in blood are informative for predicting pathogenic variants that are associated with immune and haematological conditions. We have made all our ASE results, including many ASE calls for rare variants (MAF < 1%), available at https://molgenis15.gcc.rug.nl/ .
12
Citation3
0
Save
0

A proteogenomic atlas of the human neural retina

Tabea Riepe et al.May 24, 2024
The human neural retina is a complex tissue with abundant alternative splicing and more than 10% of genetic variants linked to inherited retinal diseases (IRDs) alter splicing. Traditional short-read RNA-sequencing methods have been used for understanding retina-specific splicing but have limitations in detailing transcript isoforms. To address this, we generated a proteogenomic atlas that combines PacBio long-read RNA-sequencing data with mass spectrometry and whole genome sequencing data of three healthy human neural retina samples. We identified nearly 60,000 transcript isoforms, of which approximately one-third are novel. Additionally, ten novel peptides confirmed novel transcript isoforms. For instance, we identified a novel IMPDH1 isoform with a novel combination of known exons that is supported by peptide evidence. Our research underscores the potential of in-depth tissue-specific transcriptomic analysis to enhance our grasp of tissue-specific alternative splicing. The data underlying the proteogenomic atlas are available via EGA with identifier EGAD50000000101, via ProteomeXchange with identifier PXD045187, and accessible through the UCSC genome browser.
0

Hypothesis-free identification of modulators of genetic risk factors

Daria Zhernakova et al.Nov 30, 2015
Genetic risk factors often localize in non-coding regions of the genome with unknown effects on disease etiology. Expression quantitative trait loci (eQTLs) help to explain the regulatory mechanisms underlying the association of genetic risk factors with disease. More mechanistic insights can be derived from knowledge of the context, such as cell type or the activity of signaling pathways, influencing the nature and strength of eQTLs. Here, we generated peripheral blood RNA-seq data from 2,116 unrelated Dutch individuals and systematically identified these context-dependent eQTLs using a hypothesis-free strategy that does not require prior knowledge on the identity of the modifiers. Out of the 23,060 significant cis-regulated genes (false discovery rate ≤ 0.05), 2,743 genes (12%) show context-dependent eQTL effects. The majority of those were influenced by cell type composition, revealing eQTLs that are particularly strong in cell types such as CD4+ T-cells, erythrocytes, and even lowly abundant eosinophils. A set of 145 cis-eQTLs were influenced by the activity of the type I interferon signaling pathway and we identified several cis-eQTLs that are modulated by specific transcription factors that bind to the eQTL SNPs. This demonstrates that large-scale eQTL studies in unchallenged individuals can complement perturbation experiments to gain better insight in regulatory networks and their stimuli.
0

Disease variants alter transcription factor levels and methylation of their binding sites

Marc Bonder et al.Nov 30, 2015
Most disease associated genetic risk factors are non-coding, making it challenging to design experiments to understand their functional consequences. Identification of expression quantitative trait loci (eQTLs) has been a powerful approach to infer downstream effects of disease variants but the large majority remains unexplained.. The analysis of DNA methylation, a key component of the epigenome, offers highly complementary data on the regulatory potential of genomic regions. However, a large-scale, combined analysis of methylome and transcriptome data to infer downstream effects of disease variants is lacking. Here, we show that disease variants have wide-spread effects on DNA methylation in trans that likely reflect the downstream effects on binding sites of cis-regulated transcription factors. Using data on 3,841 Dutch samples, we detected 272,037 independent cis-meQTLs (FDR < 0.05) and identified 1,907 trait-associated SNPs that affect methylation levels of 10,141 different CpG sites in trans (FDR < 0.05), an eight-fold increase in the number of downstream effects that was known from trans-eQTL studies. Trans-meQTL CpG sites are enriched for active regulatory regions, being correlated with gene expression and overlap with Hi-C determined interchromosomal contacts. We detected many trans-meQTL SNPs that affect expression levels of nearby transcription factors (including NFKB1, CTCF and NKX2-3), while the corresponding trans-meQTL CpG sites frequently coincide with its respective binding site. Trans-meQTL mapping therefore provides a strategy for identifying and better understanding downstream functional effects of many disease-associated variants.
0

RNA-Seq in 296 phased trios provides a high resolution map of genomic imprinting

Bharati Jadhav et al.Feb 21, 2018
Combining allelic analysis of RNA-Seq data with phased genotypes in family trios provides a powerful method to detect parent-of-origin biases in gene expression. We report findings in 296 family trios from two large studies: 165 lymphoblastoid cell lines from the 1000 Genomes Project, and 131 blood samples from the Genome of the Netherlands participants (GoNL). Based on parental haplotypes we identified >2.8 million transcribed heterozygous SNVs phased for parental origin, and developed a robust statistical framework for measuring allelic expression. We identified a total of 45 imprinted genes and one imprinted unannotated transcript, 16 of which have not previously been reported as showing parental expression bias. Multiple novel imprinted transcripts showing incomplete parental expression bias were located adjacent to known strongly imprinted genes. For example, PXDC1, a gene which lies adjacent to the paternally-expressed gene FAM50B, shows a 2:1 paternal expression bias. Other novel imprinted genes had promoter regions that coincide with sites of parentally-biased DNA methylation identified in uniparental disomy samples, thus providing independent validation of our results. Using the stranded nature of the RNA-Seq data in LCLs we identified multiple loci with overlapping sense/antisense transcripts, of which one is expressed paternally and the other maternally. Using a sliding window approach, we searched for imprinted expression across the entire genome, identifying a novel imprinted putative lncRNA in 13q21.2. Our methods and data provide a robust and high resolution map of imprinted gene expression in the human genome.
20

Rare disease research workflow using multilayer networks elucidates the molecular determinants of severity in Congenital Myasthenic Syndromes

Iker Núñez-Carpintero et al.Jan 20, 2023
Abstract Exploring the molecular basis of disease severity in rare disease scenarios is a challenging task provided the limitations on data availability. Causative genes have been described for Congenital Myasthenic Syndromes (CMS), a group of diverse minority neuromuscular junction (NMJ) disorders; yet a molecular explanation for the phenotypic severity differences remains unclear. Here, we present a workflow to explore the functional relationships between CMS causal genes and altered genes from each patient, based on multilayer network analysis of protein-protein interactions, pathways and metabolomics. Our results show that CMS severity can be ascribed to the personalized impairment of extracellular matrix components and postsynaptic modulators of acetylcholine receptor (AChR) clustering. We explore this in more detail for one of the proteins not previously associated with the NMJ, USH2A. Loss of the zebrafish USH2A ortholog revealed some effects on early movement and gross NMJ morphology. This work showcases how coupling multilayer network analysis with personalized -omics information provides molecular explanations to the varying severity of rare diseases; paving the way for sorting out similar cases in other rare diseases.
1

A Multi-omics Data Analysis Workflow Packaged as a FAIR Digital Object

Anna Niehues et al.Jun 9, 2023
Background. Applying good data management and FAIR data principles (Findable, Accessible, Interoperable, and Reusable) in research projects can help disentangle knowledge discovery, study result reproducibility, and data reuse in future studies. Based on the concepts of the original FAIR principles for research data, FAIR principles for research software were recently proposed. FAIR Digital Objects enable discovery and reuse of Research Objects, including computational workflows for both humans and machines. Practical examples can help promote the adoption of FAIR practices for computational workflows in the research community. We developed a multi-omics data analysis workflow implementing FAIR practices to share it as a FAIR Digital Object. Findings. We conducted a case study investigating shared patterns between multi-omics data and childhood externalizing behavior. The analysis workflow was implemented as a modular pipeline in the workflow manager Nextflow, including containers with software dependencies. We adhered to software development practices like version control, documentation, and licensing. Finally, the workflow was described with rich semantic metadata, packaged as a Research Object Crate, and shared via WorkflowHub. Conclusions. Along with the packaged multi-omics data analysis workflow, we share our experiences adopting various FAIR practices and creating a FAIR Digital Object. We hope our experiences can help other researchers who develop omics data analysis workflows to turn FAIR principles into practice.
1

Integrative analysis of CAKUT multi-omics data

Jumamurat Bayjanov et al.Jul 1, 2023
Abstract Congenital Anomalies of the Kidney and Urinary Tract (CAKUT) is the leading cause of childhood end-stage renal disease and a significant cause of chronic kidney disease in adults. Genetic and environmental factors are known to influence CAKUT development, but the currently known disease mechanism remains incomplete. Our goal is to identify affected pathways and networks in CAKUT, and thereby aid in getting a better understanding of its pathophysiology. Multi-omics experiments, including amniotic fluid miRNome, peptidome, and proteome analyses, can shed light on foetal kidney development in non-severe CAKUT patients compared to severe CAKUT cases. We performed FAIRification of these omics data sets to facilitate their integration with external data resources. Furthermore, we analysed and integrated the omics data sets using three different bioinformatics strategies. The three bioinformatics analyses provided complementary features, but all pointed towards an important role for collagen in CAKUT development. We published the three analysis strategies as containerized workflows. These workflows can be applied to other FAIR data sets and help gaining knowledge on other rare diseases.
1

PANDORA v2.0: Benchmarking peptide-MHC II models and software improvements

Farzaneh Parizi et al.Jul 22, 2023
Abstract T-cell specificity to differentiate between self and non-self relies on T-cell receptor (TCR) recognition of peptides presented by the Major Histocompatibility Complex (MHC). Investigations into the three-dimensional (3D) structures of peptide:MHC (pMHC) complexes have provided valuable insights of MHC functions. Given the limited availability of experimental pMHC structures and considerable diversity of peptides and MHC alleles, it calls for the development of efficient and reliable computational approaches for modeling pMHC structures. Here we present an update of PANDORA and the systematic evaluation of its performance in modelling 3D structures of pMHC class II complexes (pMHC-II), which play a key role in the cancer immune response. PANDORA is a modelling software that can build low-energy models in a few minutes by restraining peptide residues inside the MHC-II binding groove. We benchmarked PANDORA on 136 experimentally determined pMHC-II structures covering 44 unique αβ chain pairs. Our pipeline achieves a median backbone Ligand-Root Mean Squared Deviation (L-RMSD) of 0.42 Å on the binding core and 0.88 Å on the whole peptide for the benchmark dataset. We incorporated software improvements to make PANDORA a pan-allele framework and improved the user interface and software quality. Its computational efficiency allows enriching the wealth of pMHC binding affinity and mass spectrometry data with 3D models. These models can be used as a starting point for molecular dynamics simulations or structure-boosted deep learning algorithms to identify MHC-binding peptides. PANDORA is available as a Python package through Conda or as a source installation at https://github.com/X-lab-3D/PANDORA .
Load More