SN
Surag Nair
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
11
(73% Open Access)
Cited by:
321
h-index:
11
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

GENCODE: reference annotation for the human and mouse genomes in 2023

Adam Frankish et al.Nov 24, 2022
GENCODE produces high quality gene and transcript annotation for the human and mouse genomes. All GENCODE annotation is supported by experimental data and serves as a reference for genome biology and clinical genomics. The GENCODE consortium generates targeted experimental data, develops bioinformatic tools and carries out analyses that, along with externally produced data and methods, support the identification and annotation of transcript structures and the determination of their function. Here, we present an update on the annotation of human and mouse genes, including developments in the tools, data, analyses and major collaborations which underpin this progress. For example, we report the creation of a set of non-canonical ORFs identified in GENCODE transcripts, the LRGASP collaboration to assess the use of long transcriptomic data to build transcript models, the progress in collaborations with RefSeq and UniProt to increase convergence in the annotation of human and mouse protein-coding genes, the propagation of GENCODE across the human pan-genome and the development of new tools to support annotation of regulatory features by GENCODE. Our annotation is accessible via Ensembl, the UCSC Genome Browser and https://www.gencodegenes.org.
0
Citation306
0
Save
49

fastISM: Performant in-silico saturation mutagenesis for convolutional neural networks

Surag Nair et al.Oct 13, 2020
Abstract Deep learning models such as convolutional neural networks are able to accurately map biological sequences to associated functional readouts and properties by learning predictive de novo representations. In-silico saturation mutagenesis (ISM) is a popular feature attribution technique for inferring contributions of all characters in an input sequence to the model’s predicted output. The main drawback of ISM is its runtime, as it involves multiple forward propagations of all possible mutations of each character in the input sequence through the trained model to predict the effects on the output. We present fastISM, an algorithm that speeds up ISM by a factor of over 10x for commonly used convolutional neural network architectures. fastISM is based on the observations that the majority of computation in ISM is spent in convolutional layers, and a single mutation only disrupts a limited region of intermediate layers, rendering most computation redundant. fastISM reduces the gap between backpropagation-based feature attribution methods and ISM. It far surpasses the runtime of backpropagation-based methods on multi-output architectures, making it feasible to run ISM on a large number of sequences. An easy-to-use Keras/TensorFlow 2 implementation of fastISM is available at https://github.com/kundajelab/fastISM , and a hands-on tutorial at https://colab.research.google.com/github/kundajelab/fastISM/blob/master/notebooks/colab/DeepSEA.ipynb .
49
Citation5
0
Save
7

Integrative single-cell analysis of cardiogenesis identifies developmental trajectories and non-coding mutations in congenital heart disease

Mohamed Ameen et al.Jun 29, 2022
Summary Congenital heart defects, the most common birth disorders, are the clinical manifestation of anomalies in fetal heart development - a complex process involving dynamic spatiotemporal coordination among various precursor cell lineages. This complexity underlies the incomplete understanding of the genetic architecture of congenital heart diseases (CHDs). To define the multi-cellular epigenomic and transcriptional landscape of cardiac cellular development, we generated single-cell chromatin accessibility maps of human fetal heart tissues. We identified eight major differentiation trajectories involving primary cardiac cell types, each associated with dynamic transcription factor (TF) activity signatures. We identified similarities and differences of regulatory landscapes of iPSC-derived cardiac cell types and their in vivo counterparts. We interpreted deep learning models that predict cell-type resolved, base-resolution chromatin accessibility profiles from DNA sequence to decipher underlying TF motif lexicons and infer the regulatory impact of non-coding variants. De novo mutations predicted to affect chromatin accessibility in arterial endothelium were enriched in CHD cases versus controls. We used CRISPR-based perturbations to validate an enhancer harboring a nominated regulatory CHD mutation, linking it to effects on the expression of a known CHD gene JARID2 . Together, this work defines the cell-type resolved cis-regulatory sequence determinants of heart development and identifies disruption of cell type-specific regulatory elements as a component of the genetic etiology of CHD.
7
Citation2
0
Save
37

Accelerating in-silico saturation mutagenesis using compressed sensing

Jacob Schreiber et al.Nov 8, 2021
Abstract In-silico saturation mutagenesis (ISM) is a popular approach in computational genomics for calculating feature attributions on biological sequences that proceeds by systematically perturbing each position in a sequence and recording the difference in model output. However, this method can be slow because systematically perturbing each position requires performing a number of forward passes proportional to the length of the sequence being examined. In this work, we propose a modification of ISM that leverages the principles of compressed sensing to require only a constant number of forward passes, regardless of sequence length, when applied to models that contain operations with a limited receptive field, such as convolutions. Our method, named Yuzu, can reduce the time that ISM spends in convolution operations by several orders of magnitude and, consequently, Yuzu can speed up ISM on several commonly used architectures in genomics by over an order of magnitude. Notably, we found that Yuzu provides speedups that increase with the complexity of the convolution operation and the length of the sequence being analyzed, suggesting that Yuzu provides large benefits in realistic settings. We have made this tool available at https://github.com/kundajelab/yuzu .
37
Citation1
0
Save
5

Transcription factor stoichiometry, motif affinity and syntax regulate single-cell chromatin dynamics during fibroblast reprogramming to pluripotency

Surag Nair et al.Jan 1, 2023
Ectopic expression of OCT4, SOX2, KLF4 and MYC (OSKM) transforms differentiated cells into induced pluripotent stem cells. To refine our mechanistic understanding of reprogramming, especially during the early stages, we profiled chromatin accessibility and gene expression at single-cell resolution across a finely sampled time course of human fibroblast reprogramming. Using neural networks that map DNA sequence to ATAC-seq profiles at base-resolution, we annotated cell-state-specific predictive transcription factor (TF) motif syntax in regulatory elements, inferred affinity- and concentration-dependent dynamics of Tn5-bias corrected TF footprints, linked peaks to putative target genes, and elucidated rewiring of TF-to-gene cis-regulatory networks. Our models reveal that early in reprogramming, OSK, at supraphysiological concentrations, rapidly open transient regulatory elements by occupying non-canonical low-affinity binding sites. As OSK concentration falls, the accessibility of these transient elements decays as a function of motif affinity. We find that these OSK-dependent transient elements sequester the somatic TF AP-1. This redistribution is strongly associated with the silencing of fibroblast-specific genes within individual nuclei. Together, our integrated single-cell resource and models reveal insights into the cis-regulatory code of reprogramming at unprecedented resolution, connect TF stoichiometry and motif syntax to diversification of cell fate trajectories, and provide new perspectives on the dynamics and role of transient regulatory elements in somatic silencing.
4

Analysis of Inbred Mouse strains’ High-Impact Genotype-phenotype Hypotheses (AIMHIGH) reveals novel disease-causing candidate genes

Boyoung Yoo et al.Aug 7, 2022
Abstract Inbred mouse strains reveal the molecular basis of mammalian traits and diseases, particularly recessive ones. We utilized mouse community curated resources to set up an automated screen to discover novel testable gene function hypotheses. Using 11,832 community contributed strain-differentiating experiments and trait presence/absence scoring, we searched for all experiments where strains can be split by their phenotypic values (e.g., high vs. low responders). Then, using 48 sequenced strains, we found one or more candidate gene for each experiment where homozygous high-impact variants (such as stopgain, frameshifts) segregate strains into these same binary grouping. Our approach rediscovered 212 known gene-phenotype relationships, almost always highlighting potentially novel causal variants, as well as thousands of gene function hypotheses. To help find the most exciting hypotheses, we improved the state of the art in machine learning driven literature-based discovery (LBD). Reading on our top 3 ranked candidate genes per experiment reveals 80% of rediscovered relationships, compared to 5% reading at random. We proposed 1,842 novel gene-phenotype testable hypotheses using our approach. We built a web portal at aimhigh.stanford.edu to allow researchers to view all our testable hypotheses in detail. Our open-source code can be rerun as more sequenced strains and phenotyping experiments become available.
0

Integrating regulatory DNA sequence and gene expression to predict genome-wide chromatin accessibility across cellular contexts

Surag Nair et al.Apr 11, 2019
Motivation Genome-wide profiles of chromatin accessibility and gene expression in diverse cellular contexts are critical to decipher the dynamics of transcriptional regulation. Recently, convolutional neural networks (CNNs) have been used to learn predictive cis-regulatory DNA sequence models of context-specific chromatin accessibility landscapes. However, these context-specific regulatory sequence models cannot generalize predictions across cell types.Results We introduce multi-modal, residual neural network architectures that integrate cis-regulatory sequence and context-specific expression of trans-regulators to predict genome-wide chromatin accessibility profiles across cellular contexts. We show that the average accessibility of a genomic region across training contexts can be a surprisingly powerful predictor. We leverage this feature and employ novel strategies for training models to enhance genome-wide prediction of shared and context-specific chromatin accessible sites across cell types. We interpret the models to reveal insights into cis and trans regulation of chromatin dynamics across 123 diverse cellular contexts.Availability The code is available at Contact akundaje{at}stanford.edu
83

Chromatin accessibility dynamics of neurogenic niche cells reveal defects in neural stem cell adhesion and migration during aging

Robin Yeo et al.Mar 29, 2021
Abstract Aging is accompanied by a deterioration in the regenerative and repair potential of stem cell niches in the brain 1–5 . However, the mechanisms underlying this decline are largely unknown. Here we characterize genome-wide chromatin accessibility in young and old neurogenic niche cells in vivo , revealing defects in neural stem cell (NSC) adhesion and migration during aging. Interestingly, chromatin accessibility at cell adhesion and migration genes decreases with age in quiescent NSCs but increases with age in activated (proliferative) NSCs, and this is accompanied by corresponding expression changes in these genes. We experimentally validate that quiescent and activated NSCs exhibit opposing adhesion and migration behaviors with age: quiescent NSCs become less adhesive (and more migratory) whereas activated NSCs and progeny become more adhesive (and less migratory) during aging. We also show that the ability of activated NSCs and progeny to mobilize out of the niche during in vivo neurogenesis diminishes during aging. Using tension sensors with single molecule resolution, we find that one of the cellular mechanisms by which aging impairs the migration of old activated NSCs and progeny involves increased force-producing adhesions. We identify inhibition of the cytoskeletal-regulating kinase ROCK 6, 7 as a way to reduce force-producing adhesions and restore migration in old activated NSCs in vitro . Interestingly, inhibition of ROCK in the neurogenic niche of old mice boosts neurogenesis to the olfactory bulb in vivo . These results have important implications for restoring the migratory potential of NSCs and progeny and for improving neurogenesis in the aged brain.
Load More