JX
Jinrui Xu
Author with expertise in Regulation of Chromatin Structure and Function
Howard University, Yale University, Ningxia University
+ 7 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(50% Open Access)
Cited by:
10
h-index:
16
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
19

The EN-TEx resource of multi-tissue personal epigenomes & variant-impact models

Joel Rozowsky et al.Oct 24, 2023
+96
Y
J
J
ABSTRACT Understanding how genetic variants impact molecular phenotypes is a key goal of functional genomics, currently hindered by reliance on a single haploid reference genome. Here, we present the EN-TEx resource of personal epigenomes, for ∼25 tissues and >10 assays in four donors (>1500 open-access functional genomic and proteomic datasets, in total). Each dataset is mapped to a matched, diploid personal genome, which has long-read phasing and structural variants. The mappings enable us to identify >1 million loci with allele-specific behavior. These loci exhibit coordinated epigenetic activity along haplotypes and less conservation than matched, non-allele-specific loci, in a fashion broadly paralleling tissue-specificity. Surprisingly, they can be accurately modelled just based on local nucleotide-sequence context. Combining EN-TEx with existing genome annotations reveals strong associations between allele-specific and GWAS loci and enables models for transferring known eQTLs to difficult-to-profile tissues. Overall, EN-TEx provides rich data and generalizable models for more accurate personal functional genomics.
19
Citation9
0
Save
0

Discovering a less-is-more effect to select transcription factor binding sites informative for motif inference

Jinrui Xu et al.Jun 6, 2024
M
J
J
ABSTRACT Many statistical methods have been developed to infer the binding motifs of a transcription factor (TF) from a subset of its numerous binding regions in the genome. We refer to such regions, e.g. detected by ChIP-seq, as binding sites. The sites with strong binding signals are selected for motif inference. However, binding signals do not necessarily indicate the existence of target motifs. Moreover, even strong binding signals can be spurious due to experimental artifacts. Here, we observe that such uninformative sites without target motifs tend to be “crowded” -- i.e. have many other TF binding sites present nearby. In addition, we find that even if a crowded site contains recognizable target motifs, it can still be uninformative for motif inference due to the presence of interfering motifs from other TFs. We propose using less crowded and shorter binding sites in motif interference and develop specific recommendations for carrying this out. We find our recommendations substantially improve the resulting motifs in various contexts by 30%-70%, implying a “less-is-more” effect.
0
Citation1
0
Save
0

Binding profiles for 954 Drosophila and C. elegans transcription factors reveal tissue specific regulatory relationships

Michelle Kudron et al.Jan 20, 2024
+22
A
L
M
A catalog of transcription factor (TF) binding sites in the genome is critical for deciphering regulatory relationships. Here we present the culmination of the modERN (model organism Encyclopedia of Regulatory Networks) consortium that systematically assayed TF binding events in vivo in two major model organisms, Drosophila melanogaster (fly) and Caenorhabditis elegans (worm). We describe key features of these datasets, comprising 604 TFs identifying 3.6M sites in the fly and 350 TFs identifying 0.9 M sites in the worm. Applying a machine learning model to these data identifies sets of TFs with a prominent role in promoting target gene expression in specific cell types. TF binding data are available through the ENCODE Data Coordinating Center and at https://epic.gs.washington.edu/modERNresource, which provides access to processed and summary data, as well as widgets to probe cell type-specific TF-target relationships. These data are a rich resource that should fuel investigations into TF function during development.
0

An integrative ENCODE resource for cancer genomics

Jing Zhang et al.May 7, 2020
+55
V
D
J
ENCODE comprises thousands of functional genomics datasets, and the encyclopedia covers hundreds of cell types, providing a universal annotation for genome interpretation. However, for particular applications, it may be advantageous to use a customized annotation. Here, we develop such a custom annotation by leveraging advanced assays, such as eCLIP, Hi-C, and whole-genome STARR-seq on a number of data-rich ENCODE cell types. A key aspect of this annotation is comprehensive and experimentally derived networks of both transcription factors and RNA-binding proteins (TFs and RBPs). Cancer, a disease of system-wide dysregulation, is an ideal application for such a network-based annotation. Specifically, for cancer-associated cell types, we put regulators into hierarchies and measure their network change (rewiring) during oncogenesis. We also extensively survey TF-RBP crosstalk, highlighting how SUB1, a previously uncharacterized RBP, drives aberrant tumor expression and amplifies the effect of MYC, a well-known oncogenic TF. Furthermore, we show how our annotation allows us to place oncogenic transformations in the context of a broad cell space; here, many normal-to-tumor transitions move towards a stem-like state, while oncogene knockdowns show an opposing trend. Finally, we organize the resource into a coherent workflow to prioritize key elements and variants, in addition to regulators. We showcase the application of this prioritization to somatic burdening, cancer differential expression and GWAS. Targeted validations of the prioritized regulators, elements and variants using siRNA knockdowns, CRISPR-based editing, and luciferase assays demonstrate the value of the ENCODE resource.
0

GRAM: A generalized model to predict the molecular effect of a non-coding variant in a cell-type specific manner

Shaoke Lou et al.May 7, 2020
+9
T
K
S
There has been much effort to prioritize genomic variants with respect to their impact on "function". However, function is often not precisely defined: Sometimes, it is the disease association of a variant; other times, it reflects a molecular effect on transcription or epigenetics. Here we coupled multiple genomic predictors to build GRAM, a generalized model, to predict a well-defined experimental target: the expression-modulating effect of a non-coding variant in a cell-specific manner. As a first step, we performed feature engineering: using a LASSO regularized linear model, we found transcription factor (TF) binding most predictive, especially for TFs that are hubs in the regulatory network; in contrast, evolutionary conservation, a popular feature in many other functional-impact predictors, has almost no contribution. Moreover, TF binding inferred from in vitro SELEX is as effective as that from in vivo ChIP-Seq. Second, we implemented GRAM integrating SELEX features and expression profiles. The program combines a universal regulatory score for a variant in a non-coding element with a modifier score reflecting the particular cell type. We benchmarked GRAM on a large-scale MPRA dataset in the GM12878 cell line, achieving a ROC score of ~0.73; performance on the K562 cell line was similar. Finally, we evaluated the performance of GRAM on targeted regions using luciferase assays in MCF7 and K562 cell lines. We noted that changing the insertion position of the construct relative to the reporter gene gives very different results, highlighting the importance of carefully defining the functional target the model is predicting.
0

To mock or not: a comprehensive comparison of mock IP and DNA input for ChIP-seq

Jinrui Xu et al.May 7, 2020
+8
A
M
J
Chromatin immunoprecipitation (IP) followed by sequencing (ChIP-seq) is the gold standard to detect genome-wide DNA-protein binding. The binding sites of transcription factors facilitate many biological studies. Of emerging concern is the abundance of spurious sites in ChIP-seq, which are mainly caused by uneven genomic sonication and nonspecific interactions between chromatin and antibody. A "mock" IP is designed to correct for both factors, whereas a DNA input control corrects only for uneven sonication. However, a mock IP is more susceptible to technical noise than a DNA input, and empirically, these two controls perform similarly for ChIP-seq. Therefore, DNA input is currently being used almost exclusively. With a large dataset, we demonstrate that using a DNA input control results in a definable set of spurious sites, and their abundance is tightly associated with the intrinsic properties of the ChIP-seq sample. For example, compared to human cell lines, samples such as human tissues and whole worm and fly have more accessible genomes, and thus have more spurious sites. The large and varying abundance of spurious sites may impede comparative studies across multiple samples. In contrast, using a mock IP as control substantially removes these spurious sites, resulting in high-quality binding sites and facilitating their comparability across samples. Although outperformed by mock IP, DNA input is still informative and has unique advantages. Therefore, we have developed a method to use both controls in combination to further improve binding site detection.