NT
Nitya Thakkar
Author with expertise in Protein Structure Prediction and Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
2
(50% Open Access)
Cited by:
8
h-index:
2
/
i10-index:
1
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
4

Predicting A/B compartments from histone modifications using deep learning

Suchen Zheng et al.Apr 19, 2022
ABSTRACT Genomes fold into organizational units in the 3D space that can influence critical biological functions. In particular, the organization of chromatin into A and B compartments segregates its active regions from inactive regions. Compartments, evident in Hi-C contact matrices, have been used to describe cell-type specific changes in the A/B organization. However, obtaining Hi-C data for all cell and tissue types of interest is prohibitively expensive, which has limited the widespread consideration of compartment status. We present a prediction tool called Co mpartment prediction using R ecurrent N eural N etwork (CoRNN) that models the relationship between the compartmental organization of the genome and histone modification enrichment. Our model predicts A/B compartments, in a cross-cell type setting, with an average area under the ROC curve of 90.9%. Our cell type-specific compartment predictions show high overlap with known functional elements. We investigate our predictions by systematically removing combinations of histone marks and find that H3K27ac and H3K36me3 are the most predictive marks. We then perform a detailed analysis of loci where compartment status cannot be accurately predicted from these marks. These regions represent chromatin with ambiguous compartmental status, likely due to variations in status within the population of cells. These ambiguous loci also show highly variable compartmental status between biological replicates in the same GM12878 cell type. Finally, we demonstrate the generalizability of our model by predicting compartments in independent tissue samples. Our software and trained model are publicly available at https://github.com/rsinghlab/CoRNN .
4
Citation8
0
Save
0

Protein generation with evolutionary diffusion: sequence is all you need

Sarah Alamdari et al.Jan 1, 2023
Deep generative models are increasingly powerful tools for the in silico design of novel proteins. Recently, a family of generative models called diffusion models has demonstrated the ability to generate biologically plausible proteins that are dissimilar to any actual proteins seen in nature, enabling unprecedented capability and control in de novo protein design. However, current state-of-the-art models generate protein structures, which severely limits the scope of their training data and restricts generations to a small and biased subset of protein design space. Here, we introduce a general-purpose diffusion framework, EvoDiff, that combines evolutionary-scale data with the distinct conditioning capabilities of diffusion models for controllable protein generation in sequence space. EvoDiff generates high-fidelity, diverse, and structurally-plausible proteins that cover natural sequence and functional space. Critically, EvoDiff can generate proteins inaccessible to structure-based models, such as those with disordered regions, while maintaining the ability to design scaffolds for functional structural motifs, demonstrating the universality of our sequence-based formulation. We envision that EvoDiff will expand capabilities in protein engineering beyond the structure-function paradigm toward programmable, sequence-first design.