SB
Sanjit Batra
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
14
(64% Open Access)
Cited by:
2,466
h-index:
11
/
i10-index:
14
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Improved reference genome of Aedes aegypti informs arbovirus vector control

Benjamin Matthews et al.Nov 1, 2018
Female Aedes aegypti mosquitoes infect more than 400 million people each year with dangerous viral pathogens including dengue, yellow fever, Zika and chikungunya. Progress in understanding the biology of mosquitoes and developing the tools to fight them has been slowed by the lack of a high-quality genome assembly. Here we combine diverse technologies to produce the markedly improved, fully re-annotated AaegL5 genome assembly, and demonstrate how it accelerates mosquito science. We anchored physical and cytogenetic maps, doubled the number of known chemosensory ionotropic receptors that guide mosquitoes to human hosts and egg-laying sites, provided further insight into the size and composition of the sex-determining M locus, and revealed copy-number variation among glutathione S-transferase genes that are important for insecticide resistance. Using high-resolution quantitative trait locus and population genomic analyses, we mapped new candidates for dengue vector competence and insecticide resistance. AaegL5 will catalyse new biological insights and intervention strategies to fight this deadly disease vector. An improved, fully re-annotated Aedes aegypti genome assembly (AaegL5) provides insights into the sex-determining M locus, chemosensory systems that help mosquitoes to hunt humans and loci involved in insecticide resistance and will help to generate intervention strategies to fight this deadly disease vector.
0
Citation493
0
Save
1

DNA language models are powerful predictors of genome-wide variant effects

Gonzalo Benegas et al.Aug 23, 2022
Abstract The expanding catalog of genome-wide association studies (GWAS) provides biological insights across a variety of species, but identifying the causal variants behind these associations remains a significant challenge. Experimental validation is both labor-intensive and costly, highlighting the need for accurate, scalable computational methods to predict the effects of genetic variants across the entire genome. Inspired by recent progress in natural language processing, unsupervised pre-training on large protein sequence databases has proven successful in extracting complex information related to proteins. These models showcase their ability to learn variant effects in coding regions using an unsupervised approach. Expanding on this idea, we here introduce the G enomic P re-trained N etwork ( GPN ), a model designed to learn genome-wide variant effects through unsupervised pre-training on genomic DNA sequences. Our model also successfully learns gene structure and DNA motifs without any supervision. To demonstrate its utility, we train GPN on unaligned reference genomes of Arabidopsis thaliana and seven related species within the Brassicales order, and evaluate its ability to predict the functional impact of genetic variants in Arabidopsis thaliana by utilizing allele frequencies from the 1001 Genomes Project and a comprehensive database of GWAS. Notably, GPN outperforms predictors based on popular conservation scores such as phyloP and phastCons. Our predictions for Arabidopsis thaliana can be visualized as sequence logos in the UCSC Genome Browser ( https://genome.ucsc.edu/s/gbenegas/gpn-arabidopsis ). We provide code ( https://github.com/songlab-cal/gpn ) to train GPN for any given species using its DNA sequence alone, enabling unsupervised prediction of variant effects across the entire genome.
1
Citation16
0
Save
18

Conserved chromatin and repetitive patterns reveal slow genome evolution in frogs

Jessen Bredeson et al.Oct 18, 2021
Abstract Frogs are an ecologically diverse and phylogenetically ancient group of living amphibians that include important vertebrate cell and developmental model systems, notably the genus Xenopus . Here we report a high-quality reference genome sequence for the western clawed frog, Xenopus tropicalis , along with draft chromosome-scale sequences of three distantly related emerging model frog species, Eleutherodactylus coqui , Engystomops pustulosus and Hymenochirus boettgeri . Frog chromosomes have remained remarkably stable since the Mesozoic Era, with limited Robertsonian (i.e., centric) translocations and end-to-end fusions found among the smaller chromosomes. Conservation of synteny includes conservation of centromere locations, marked by centromeric tandem repeats associated with Cenp-a binding, surrounded by pericentromeric LINE/L1 elements. We explored chromosome structure across frogs, using a dense meiotic linkage map for X. tropicalis and chromatin conformation capture (HiC) data for all species. Abundant satellite repeats occupy the unusually long (∼20 megabase) terminal regions of each chromosome that coincide with high rates of recombination. Both embryonic and differentiated cells show reproducible association of centromeric chromatin, and of telomeres, reflecting a Rabl configuration similar to the “bouquet” structure of meiotic cells. Our comparative analyses reveal 13 conserved ancestral anuran chromosomes from which contemporary frog genomes were constructed.
18
Citation10
0
Save
26

The ENCODE Imputation Challenge: A critical assessment of methods for cross-cell type imputation of epigenomic profiles

Jacob Schreiber et al.Aug 2, 2022
Abstract Functional genomics experiments are invaluable for understanding mechanisms of gene regulation. However, comprehensively performing all such experiments, even across a fixed set of sample and assay types, is often infeasible in practice. A promising alternative to performing experiments exhaustively is to, instead, perform a core set of experiments and subsequently use machine learning methods to impute the remaining experiments. However, questions remain as to the quality of the imputations, the best approaches for performing imputations, and even what performance measures meaningfully evaluate performance of such models. In this work, we address these questions by comprehensively analyzing imputations from 23 imputation models submitted to the ENCODE Imputation Challenge. We find that measuring the quality of imputations is significantly more challenging than reported in the literature, and is confounded by three factors: major distributional shifts that arise because of differences in data collection and processing over time, the amount of available data per cell type, and redundancy among performance measures. Our systematic analyses suggest several steps that are necessary, but also simple, for fairly evaluating the performance of such models, as well as promising directions for more robust research in this area.
0

The Juicebox Assembly Tools module facilitates de novo assembly of mammalian genomes with chromosome-length scaffolds for under $1000

Olga Dudchenko et al.Jan 28, 2018
Hi-C contact maps are valuable for genome assembly (Lieberman-Aiden, van Berkum et al. 2009; Burton et al. 2013; Dudchenko et al. 2017). Recently, we developed Juicebox, a system for the visual exploration of Hi-C data (Durand, Robinson et al. 2016), and 3D-DNA, an automated pipeline for using Hi-C data to assemble genomes (Dudchenko et al. 2017). Here, we introduce "Assembly Tools," a new module for Juicebox, which provides a point-and-click interface for using Hi-C heatmaps to identify and correct errors in a genome assembly. Together, 3D-DNA and the Juicebox Assembly Tools greatly reduce the cost of accurately assembling complex eukaryotic genomes. To illustrate, we generated de novo assemblies with chromosome-length scaffolds for three mammals: the wombat, Vombatus ursinus (3.3Gb), the Virginia opossum, Didelphis virginiana (3.3Gb), and the raccoon, Procyon lotor (2.5Gb). The only inputs for each assembly were Illumina reads from a short insert DNA-Seq library (300 million Illumina reads, maximum length 2x150 bases) and an in situ Hi-C library (100 million Illumina reads, maximum read length 2x150 bases), which cost <$1000.
Load More