AK
Anshul Kundaje
Author with expertise in Regulation of Chromatin Structure and Function
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
28
(68% Open Access)
Cited by:
90
h-index:
18
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
35

A single cell spatial temporal atlas of skeletal muscle reveals cellular neighborhoods that orchestrate regeneration and become disrupted in aging

Yu Wang et al.Jun 10, 2022
Abstract Our mobility requires muscle regeneration throughout life. Yet our knowledge of the interplay of cell types required to rebuild injured muscle is lacking, because most single cell assays require tissue dissociation. Here we use multiplexed spatial proteomics and neural network analyses to resolve a single cell spatiotemporal atlas of 34 cell types during muscle regeneration and aging. This atlas maps interactions of immune, fibrogenic, vascular, nerve, and myogenic cells at sites of injury in relation to tissue architecture and extracellular matrix. Spatial pseudotime mapping reveals sequential cellular neighborhoods that mediate repair and a nodal role for immune cells. We confirm this role by macrophage depletion, which triggers formation of aberrant neighborhoods that obstruct repair. In aging, immune dysregulation is chronic, cellular neighborhoods are disrupted, and an autoimmune response is evident at sites of denervation. Our findings highlight the spatial cellular ecosystem that orchestrates muscle regeneration, and is altered in aging. Highlights Single cell resolution spatial atlas resolves a cellular ecosystem of 34 cell types in multicellular neighborhoods that mediate efficient skeletal muscle repair Highly multiplexed spatial proteomics, neural network and machine learning uncovers temporal dynamics in the spatial crosstalk between immune, fibrogenic, vascular, nerve, and muscle stem cells and myofibers during regeneration Spatial pseudotime mapping reveals coherent formation of multicellular neighborhoods during efficacious repair and the nodal role of immune cells in coordinating muscle repair In aged muscle, cellular neighborhoods are disrupted by a chronically inflamed state and autoimmunity
35
Citation14
0
Save
0

Separable Fully Connected Layers Improve Deep Learning Models For Genomics

Amr Alexandari et al.Jun 5, 2017
ABSTRACT Convolutional neural networks are rapidly gaining popularity in regulatory genomics. Typically, these networks have a stack of convolutional and pooling layers, followed by one or more fully connected layers. In genomics, the same positional patterns are often present across multiple convolutional channels. Therefore, in current state-of-the-art networks, there exists significant redundancy in the representations learned by standard fully connected layers. We present a new separable fully connected layer that learns a weights tensor that is the outer product of positional weights and cross-channel weights, thereby allowing the same positional patterns to be applied across multiple convolutional channels. Decomposing positional and cross-channel weights further enables us to readily impose biologically-inspired constraints on positional weights, such as symmetry. We also propose a novel regularizer and constraint that act on curvature in the positional weights. Using experiments on simulated and in vivo datasets, we show that networks that incorporate our separable fully connected layer outperform conventional models with analogous architectures and the same number of parameters. Additionally, our networks are more robust to hyperparameter tuning, have more informative gradients, and produce importance scores that are more consistent with known biology than conventional deep neural networks. Availability Implementation: https://github.com/kundajelab/keras/tree/keras_1 A gist illustrating model setup is at: goo.gl/gYooaa
1

Genome-wide maps of enhancer regulation connect risk variants to disease genes

Joseph Nasser et al.Sep 3, 2020
Abstract Genome-wide association studies have now identified tens of thousands of noncoding loci associated with human diseases and complex traits, each of which could reveal insights into biological mechanisms of disease. Many of the underlying causal variants are thought to affect enhancers, but we have lacked genome-wide maps of enhancer-gene regulation to interpret such variants. We previously developed the Activity-by-Contact (ABC) Model to predict enhancer-gene connections and demonstrated that it can accurately predict the results of CRISPR perturbations across several cell types. Here, we apply this ABC Model to create enhancer-gene maps in 131 cell types and tissues, and use these maps to interpret the functions of fine-mapped GWAS variants. For inflammatory bowel disease (IBD), causal variants are >20-fold enriched in enhancers in particular cell types, and ABC outperforms other regulatory methods at connecting noncoding variants to target genes. Across 72 diseases and complex traits, ABC links 5,036 GWAS signals to 2,249 unique genes, including a class of 577 genes that appear to influence multiple phenotypes via variants in enhancers that act in different cell types. Guided by these variant-to-function maps, we show that an enhancer containing an IBD risk variant regulates the expression of PPIF to tune mitochondrial membrane potential. Together, our study reveals insights into principles of genome regulation, illuminates mechanisms that influence IBD, and demonstrates a generalizable strategy to connect common disease risk variants to their molecular and cellular functions.
1
Citation10
0
Save
1

The dynamic, combinatorial cis-regulatory lexicon of epidermal differentiation

Daniel Kim et al.Oct 17, 2020
Transcription factors (TFs) bind DNA sequence motif vocabularies in cis-regulatory elements (CREs) to modulate chromatin state and gene expression during cell state transitions. A quantitative understanding of how motif lexicons influence dynamic regulatory activity has been elusive due to the combinatorial nature of the cis-regulatory code. To address this, we undertook multi-omic data profiling of chromatin and expression dynamics across epidermal differentiation to identify 40,103 dynamic CREs associated with 3,609 dynamically expressed genes, then applied an interpretable deep learning framework to model the cis-regulatory logic of chromatin accessibility. This identified cooperative DNA sequence rules in dynamic CREs regulating synchronous gene modules with diverse roles in skin differentiation. Massively parallel reporter analysis validated temporal dynamics and cooperative cis-regulatory logic. Variants linked to human polygenic skin disease were enriched in these time-dependent combinatorial motif rules. This integrative approach reveals the combinatorial cis-regulatory lexicon of epidermal differentiation and represents a general framework for deciphering the organizational principles of the cis-regulatory code in dynamic gene regulation. HIGHLIGHTS An integrative multi-omic resource profiling chromatin and expression dynamics across keratinocyte differentiation Predictive deep learning models of chromatin dynamics reveal a high-resolution cis-regulatory DNA motif lexicon of epidermal differentiation Model interpretation enables discovery of combinatorial cis-regulatory logic of homotypic and heterotypic motif combinations Massively parallel reporter experiments validate temporal dynamics and cis-regulatory logic of the combinatorial motif lexicon
1
Citation7
0
Save
4

Towards More Realistic Simulated Datasets for Benchmarking Deep Learning Models in Regulatory Genomics

Eva Prakash et al.Dec 27, 2021
Abstract Deep neural networks and support vector machines have been shown to accurately predict genome-wide signals of regulatory activity from raw DNA sequences. These models are appealing in part because they can learn predictive DNA sequence features without prior assumptions. Several methods such as in-silico mutagenesis, GradCAM, DeepLIFT, Integrated Gradients and Gkm-Explain have been developed to reveal these learned features. However, the behavior of these methods on regulatory genomic data remains an area of active research. Although prior work has benchmarked these methods on simulated datasets with known ground-truth motifs, these simulations employed highly simplified regulatory logic that is not representative of the genome. In this work, we propose a novel pipeline for designing simulated data that comes closer to modeling the complexity of regulatory genomic DNA. We apply the pipeline to build simulated datasets based on publicly-available chromatin accessibility experiments and use these datasets to bench-mark different interpretation methods based on their ability to identify ground-truth motifs. We find that a GradCAM-based method, which was reported to perform well on a more simplified dataset, does not do well on this dataset (particularly when using an architecture with shorter convolutional kernels in the first layer), and we theoretically show that this is expected based on the nature of regulatory genomic data. We also show that Integrated Gradients sometimes performs worse than gradient-times-input, likely owing to its linear interpolation path. We additionally explore the impact of user-defined settings on the interpretation methods, such as the choice of “reference”/”baseline”, and identify recommended settings for genomics. Our analysis suggests several promising directions for future research on these model interpretation methods. Code and links to data are available at https://github.com/kundajelab/interpret-benchmark .
1

Chromatin accessibility is a two-tier process regulated by transcription factor pioneering and enhancer activation

Kaelan Brennan et al.Dec 20, 2022
Summary Chromatin accessibility is integral to the process by which transcription factors (TFs) read out cis-regulatory DNA sequences, but it is difficult to differentiate between TFs that drive accessibility and those that do not. Deep learning models that learn complex sequence rules provide an unprecedented opportunity to dissect this problem. Using zygotic genome activation in the Drosophila embryo as a model, we generated high-resolution TF binding and chromatin accessibility data, analyzed the data with interpretable deep learning, and performed genetic experiments for validation. We uncover a clear hierarchical relationship between the pioneer TF Zelda and the TFs involved in axis patterning. Zelda consistently pioneers chromatin accessibility proportional to motif affinity, while patterning TFs augment chromatin accessibility in sequence contexts in which they mediate enhancer activation. We conclude that chromatin accessibility occurs in two phases: one through pioneering, which makes enhancers accessible but not necessarily active, and a second when the correct combination of transcription factors leads to enhancer activation.
1
Citation6
0
Save
85

Domain adaptive neural networks improve cross-species prediction of transcription factor binding

Kelly Cochran et al.Feb 14, 2021
The intrinsic DNA sequence preferences and cell-type specific cooperative partners of transcription factors (TFs) are typically highly conserved. Hence, despite the rapid evolutionary turnover of individual TF binding sites, predictive sequence models of cell-type specific genomic occupancy of a TF in one species should generalize to closely matched cell types in a related species. To assess the viability of cross-species TF binding prediction, we train neural networks to discriminate ChIP-seq peak locations from genomic background and evaluate their performance within and across species. Cross-species predictive performance is consistently worse than within-species performance, which we show is caused in part by species-specific repeats. To account for this domain shift, we use an augmented network architecture to automatically discourage learning of training species-specific sequence features. This domain adaptation approach corrects for prediction errors on species-specific repeats and improves overall cross-species model performance. Our results demonstrate that cross-species TF binding prediction is feasible when models account for domain shifts driven by species-specific repeats.
85
Citation5
0
Save
0

Long-range single-molecule mapping of chromatin accessibility in eukaryotes

Zohar Shipony et al.Dec 22, 2018
Abstract Active regulatory elements in eukaryotes are typically characterized by an open, nucleosome-depleted chromatin structure; mapping areas of open chromatin has accordingly emerged as a widely used tool in the arsenal of modern functional genomics. However, existing approaches for profiling chromatin accessibility are limited by their reliance on DNA fragmentation and short read sequencing, which leaves them unable to provide information about the state of chromatin on larger scales or reveal coordination between the chromatin state of individual distal regulatory elements. To address these limitations, we have developed a method for profiling accessibility of individual chromatin fibers at multi-kilobase length scale (SMAC-seq, or S ingle- M olecule long-read A ccessible C hromatin mapping seq uencing assay), enabling the simultaneous, high-resolution, single-molecule assessment of the chromatin state of distal genomic elements. Our strategy is based on combining the preferential methylation of open chromatin regions by DNA methyltransferases (CpG and GpC 5-methylcytosine (5mC) and N 6 -methyladenosine (m 6 A) enzymes) and the ability of long-read single-molecule nanopore sequencing to directly read out the methylation state of individual DNA bases. Applying SMAC-seq to the budding yeast Saccharomyces cerevisiae , we demonstrate that aggregate SMAC-seq signals match bulk-level accessibility measurements, observe single-molecule protection footprints of nucleosomes and transcription factors, and quantify the correlation between the chromatin states of distal genomic elements.
0
Citation5
0
Save
Load More