KK
Keegan Korthauer
Author with expertise in Epigenetic Modifications and Their Functional Implications
University of British Columbia, British Columbia Children's Hospital, Dana-Farber Cancer Institute
+ 3 more
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
9
(33% Open Access)
Cited by:
2
h-index:
16
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
17

Reprogramming of the FOXA1 cistrome in treatment-emergent neuroendocrine prostate cancer

Sylvan Baca et al.Oct 24, 2023
+38
J
D
S
Abstract Lineage plasticity, the ability of a cell to alter its identity, is an increasingly common mechanism of adaptive resistance to targeted therapy in cancer 1,2 . An archetypal example is the development of neuroendocrine prostate cancer (NEPC) after treatment of prostate adenocarcinoma (PRAD) with inhibitors of androgen signaling. NEPC is an aggressive variant of prostate cancer that aberrantly expresses genes characteristic of neuroendocrine (NE) tissues and no longer depends on androgens. To investigate the epigenomic basis of this resistance mechanism, we profiled histone modifications in NEPC and PRAD patient-derived xenografts (PDXs) using chromatin immunoprecipitation and sequencing (ChIP-seq). We identified a vast network of cis -regulatory elements (N~15,000) that are recurrently activated in NEPC. The FOXA1 transcription factor (TF), which pioneers androgen receptor (AR) chromatin binding in the prostate epithelium 3,4 , is reprogrammed to NE-specific regulatory elements in NEPC. Despite loss of dependence upon AR, NEPC maintains FOXA1 expression and requires FOXA1 for proliferation and expression of NE lineage-defining genes. Ectopic expression of the NE lineage TFs ASCL1 and NKX2-1 in PRAD cells reprograms FOXA1 to bind to NE regulatory elements and induces enhancer activity as evidenced by histone modifications at these sites. Our data establish the importance of FOXA1 in NEPC and provide a principled approach to identifying novel cancer dependencies through epigenomic profiling.
17
Paper
Citation2
0
Save
0

Detection and accurate False Discovery Rate control of differentially methylated regions from Whole Genome Bisulfite Sequencing

Keegan Korthauer et al.May 6, 2020
R
Y
S
K
With recent advances in sequencing technology, it is now feasible to measure DNA methylation at tens of millions of sites across the entire genome. In most applications, biologists are interested in detecting differentially methylated regions, composed of multiple sites with differing methylation levels among populations. However, current computational approaches for detecting such regions do not provide accurate statistical inference. A major challenge in reporting uncertainty is that a genome-wide scan is involved in detecting these regions, which needs to be accounted for. A further challenge is that sample sizes are limited due to the costs associated with the technology. We have developed a new approach that overcomes these challenges and assesses uncertainty for differentially methylated regions in a rigorous manner. Region-level statistics are obtained by fitting a generalized least squares (GLS) regression model with a nested autoregressive correlated error structure for the effect of interest on transformed methylation proportions. We develop an inferential approach, based on a pooled null distribution, that can be implemented even when as few as two samples per population are available. Here we demonstrate the advantages of our method using both experimental data and Monte Carlo simulation. We find that the new method improves the specificity and sensitivity of list of regions and accurately controls the False Discovery Rate (FDR).
0

A practical guide to methods controlling false discoveries in computational biology

Keegan Korthauer et al.May 6, 2020
+6
C
P
K
In high-throughput studies, hundreds to millions of hypotheses are typically tested. Statistical methods that control the false discovery rate (FDR) have emerged as popular and powerful tools for error rate control. While classic FDR methods use only p-values as input, more modern FDR methods have been shown to increase power by incorporating complementary information as "informative covariates" to prioritize, weight, and group hypotheses. However, there is currently no consensus on how the modern methods compare to one another. We investigated the accuracy, applicability, and ease of use of two classic and six modern FDR-controlling methods by performing a systematic benchmark comparison using simulation studies as well as six case studies in computational biology. Methods that incorporate informative covariates were modestly more powerful than classic approaches, and did not underperform classic approaches, even when the covariate was completely uninformative. The majority of methods were successful at controlling the FDR, with the exception of two modern methods under certain settings. Furthermore, we found the improvement of the modern FDR methods over the classic methods increased with the informativeness of the covariate, total number of hypothesis tests, and proportion of truly non-null hypotheses. Modern FDR methods that use an informative covariate provide advantages over classic FDR-controlling procedures, with the relative gain dependent on the application and informativeness of available covariates. We present our findings as a practical guide and provide recommendations to aid researchers in their choice of methods to correct for false discoveries.
0

scDD: A statistical approach for identifying differential distributions in single-cell RNA-seq experiments

Keegan Korthauer et al.May 6, 2020
+4
M
L
K
The ability to quantify cellular heterogeneity is a major advantage of single-cell technologies. Although understanding such heterogeneity is of primary interest in a number of studies, for convenience, statistical methods often treat cellular heterogeneity as a nuisance factor. We present a novel method to characterize differences in expression in the presence of distinct expression states within and among biological conditions. Using simulated and case study data, we demonstrate that the modeling framework is able to detect differential expression patterns of interest under a wide range of settings. Compared to existing approaches, scDD has higher power to detect subtle differences in gene expression distributions that are more complex than a mean shift, and is able to characterize those differences. The freely available R package scDD implements the approach.
0

A Compositional Model To Assess Expression Changes From Single-Cell RNA-Seq Data

By Xiuyu et al.May 7, 2020
M
C
K
B
On the problem of scoring genes for evidence of changes in the distribution of single-cell expression, we introduce an empirical Bayesian mixture approach and evaluate its operating characteristics in a range of numerical experiments. The proposed approach leverages cell-subtype structure revealed in cluster analysis in order to boost gene-level in- formation on expression changes. Cell clustering informs gene-level analysis through a specially-constructed prior distribution over pairs of multinomial probability vectors; this prior meshes with available model-based tools that score patterns of differential expression over multiple subtypes. We derive an explicit formula for the posterior probability that a gene has the same distribution in two cellular conditions, allowing for a gene-specific mixture over subtypes in each condition. Advantage is gained by the compositional structure of the model, in which a host of gene-specific mixture components are allowed, but also in which the mixing proportions are constrained at the whole cell level. This structure leads to a novel form of information sharing through which the cell-clustering results support gene- level scoring of differential distribution. The result, according to our numerical experiments, is improved sensitivity compared to several standard approaches for detecting distributional expression changes.
0

High-throughput identification of RNA nuclear enrichment sequences

Chinmay Shukla et al.May 7, 2020
+6
C
A
C
One of the biggest surprises since the sequencing of the human genome has been the discovery of thousands of long noncoding RNAs (lncRNAs)1-6. Although lncRNAs and mRNAs are similar in many ways, they differ with lncRNAs being more nuclear-enriched and in several cases exclusively nuclear7,8. Yet, the RNA-based sequences that determine nuclear localization remain poorly understood9-11. Towards the goal of systematically dissecting the lncRNA sequences that impart nuclear localization, we developed a massively parallel reporter assay (MPRA). Unlike previous MPRAs12-15 that determine motifs important for transcriptional regulation, we have modified this approach to identify sequences sufficient for RNA nuclear enrichment for 38 human lncRNAs. Using this approach, we identified 109 unique, conserved nuclear enrichment regions, originating from 29 distinct lncRNAs. We also discovered two shorter motifs within our nuclear enrichment regions. We further validated the sufficiency of several regions to impart nuclear localization by single molecule RNA fluorescence in situ hybridization (smRNA-FISH). Taken together, these results provide a first systematic insight into the sequence elements responsible for the nuclear enrichment of lncRNA molecules.
0

vmrseq: Probabilistic Modeling of Single-cell Methylation Heterogeneity

Ningning Shen et al.Jun 3, 2024
K
N
Abstract Single-cell DNA methylation measurements reveal genome-scale inter-cellular epigenetic heterogeneity, but extreme sparsity and noise challenges rigorous analysis. Previous methods to detect variably methylated regions (VMRs) have relied on predefined regions or sliding windows, and report regions insensitive to heterogeneity level present in input. We present vmrseq, a statistical method that overcomes these challenges to detect VMRs with increased accuracy in synthetic benchmarks and improved feature selection in case studies. vmrseq also highlights context-dependent correlations between methylation and gene expression, supporting previous findings and facilitating novel hypotheses on epigenetic regulation. vmrseq is available at https://github.com/nshen7/vmrseq .
0

Genome-wide repressive capacity of promoter DNA methylation is revealed through epigenomic manipulation

Keegan Korthauer et al.May 6, 2020
R
K
The scientific community is increasingly embracing open science. This growing commitment to open science should be applauded and encouraged, especially when it occurs voluntarily and prior to peer review. Thanks to other researchers' dedication to open science, we have had the privilege of conducting a reanalysis of a landmark experiment published as a preprint with data made available in a public repository. The study in question found that promoter DNA methylation is frequently insufficient to induce transcriptional repression, which appears to contradict a large body of observational studies showing a strong association between DNA methylation and gene expression. This study was the first to evaluate whether forcibly methylating thousands of DNA promoter regions is sufficient to suppress gene expression. The authors' data analysis did not find a strong relationship between promoter methylation and transcriptional repression. However, their analyses did not make full use of statistical inference and applied a normalization technique that removes global differences that are representative of the actual biological system. Here we reanalyze the data with an approach that includes statistical inference of differentially methylated regions, as well as a normalization technique that accounts for global expression differences. We find that forced DNA methylation of thousands of promoters overwhelmingly represses gene expression. In addition, we show that complementary epigenetic marks of active transcription are reduced as a result of DNA methylation. Finally, by studying whether these associations are sensitive to the CG density of promoters, we find no substantial differences in the association between promoters with and without a CG island. The code needed to reproduce are analysis is included in the public GitHub repository github.com/kdkorthauer/repressivecapacity.
43

Conservation and divergence of canonical and non-canonical imprinting in murids

Julien Albert et al.Oct 24, 2023
+13
A
T
J
ABSTRACT Background Genomic imprinting affects gene expression in a parent-of-origin manner and has a profound impact on complex traits including growth and behaviour. While the rat is widely used to model human pathophysiology, few imprinted genes have been identified in this murid. To systematically identify imprinted genes and genomic imprints in the rat, we used low input methods for genome-wide analyses of gene expression and DNA methylation to profile embryonic and extra-embryonic tissues at allele-specific resolution. Results We identify 14 and 26 imprinted genes in these tissues, respectively, with 10 of these genes imprinted in both tissues. Comparative analyses with mouse revealed that orthologous imprinted gene expression and associated canonical DNA methylation imprints are conserved in the embryo proper of the Muridae family. However, only 3 paternally expressed imprinted genes are conserved in the extra-embryonic tissue of murids, all of which are associated with non-canonical H3K27me3 imprints. The discovery of 8 novel non-canonical imprinted genes unique to the rat is consistent with more rapid evolution of extra-embryonic imprinting. Meta-analysis of novel imprinted genes revealed multiple mechanisms by which species-specific imprinted expression may be established, including H3K27me3 deposition in the oocyte, the birth of ZFP57 binding motifs and the insertion of endogenous retroviral promoters. Conclusions In summary, we provide a comprehensive list of imprinted loci in the rat, reveal the extent of conservation of imprinted gene expression, and identify potential mechanisms responsible for the evolution of species-specific imprinting.