JM
Jill Moore
Author with expertise in Regulation of Chromatin Structure and Function
University of Massachusetts Chan Medical School, Durham VA Health Care System, Duke Medical Center
+ 7 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
12
(75% Open Access)
Cited by:
12
h-index:
23
/
i10-index:
32
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
19

The EN-TEx resource of multi-tissue personal epigenomes & variant-impact models

Joel Rozowsky et al.Oct 24, 2023
+96
Y
J
J
ABSTRACT Understanding how genetic variants impact molecular phenotypes is a key goal of functional genomics, currently hindered by reliance on a single haploid reference genome. Here, we present the EN-TEx resource of personal epigenomes, for ∼25 tissues and >10 assays in four donors (>1500 open-access functional genomic and proteomic datasets, in total). Each dataset is mapped to a matched, diploid personal genome, which has long-read phasing and structural variants. The mappings enable us to identify >1 million loci with allele-specific behavior. These loci exhibit coordinated epigenetic activity along haplotypes and less conservation than matched, non-allele-specific loci, in a fashion broadly paralleling tissue-specificity. Surprisingly, they can be accurately modelled just based on local nucleotide-sequence context. Combining EN-TEx with existing genome annotations reveals strong associations between allele-specific and GWAS loci and enables models for transferring known eQTLs to difficult-to-profile tissues. Overall, EN-TEx provides rich data and generalizable models for more accurate personal functional genomics.
19
Citation9
0
Save
6

FAVOR: Functional Annotation of Variants Online Resource and Annotator for Variation across the Human Genome

Hufeng Zhou et al.Oct 24, 2023
+21
X
T
H
ABSTRACT Large-scale whole genome sequencing (WGS) studies and biobanks are rapidly generating a multitude of coding and non-coding variants. They provide an unprecedented resource for illuminating the genetic basis of human diseases. Variant functional annotations play a critical role in WGS analysis, result interpretation, and prioritization of disease- or trait-associated causal variants. Existing functional annotation databases have limited scope to perform online queries or are unable to functionally annotate the genotype data of large WGS studies and biobanks for downstream analysis. We develop the Functional Annotation of Variants Online Resources (FAVOR) to meet these pressing needs. FAVOR provides a comprehensive online multi-faceted portal with summarization and visualization of all possible 9 billion single nucleotide variants (SNVs) across the genome, and allows for rapid variant-, gene-, and region-level online queries. It integrates variant functional information from multiple sources to describe the functional characteristics of variants and facilitates prioritizing plausible causal variants influencing human phenotypes. Furthermore, a scalable annotation tool, FAVORannotator, is provided for functionally annotating and efficiently storing the genotype and variant functional annotation data of a large-scale sequencing study in an annotated GDS file format to facilitate downstream analysis. FAVOR and FAVORannotator are available at https://favor.genohub.org .
6
Citation2
0
Save
53

A catalog of transcription start sites across 115 human tissue and cell types

Jill Moore et al.Oct 24, 2023
+4
S
X
J
Abstract Accurate transcription start site (TSS) annotations are essential for understanding transcriptional regulation and its role in human disease. Gene collections such as GENCODE contain annotations for tens of thousands of TSSs, but not all of these annotations are experimentally validated nor do they contain information on cell type-specific usage. Therefore, we sought to generate a collection of experimentally validated TSSs by integrating RNA Annotation and Mapping of Promoters for the Analysis of Gene Expression (RAMPAGE) data from 115 cell and tissue types, which resulted in a collection of approximately 50 thousand representative RAMPAGE peaks. These peaks were primarily proximal to GENCODE-annotated TSSs and were concordant with other transcription assays. Because RAMPAGE uses paired-end reads, we were then able to connect peaks to transcripts by analyzing the genomic positions of the 3’ ends of read mates. Using this paired-end information, we classified the vast majority (37 thousand) of our RAMPAGE peaks as verified TSSs, updating TSS annotations for 20% of GENCODE genes. We also found that these updated TSS annotations were supported by epigenomic and other transcriptomic datasets. To demonstrate the utility of this RAMPAGE rPeak collection, we intersected it with the NHGRI/EBI GWAS catalog and identified new candidate GWAS genes. Overall, our work demonstrates the importance of integrating experimental data to further refine TSS annotations and provides a valuable resource for the biological community.
123

Multi-center integrated analysis of non-coding CRISPR screens

David Yao et al.Oct 24, 2023
+24
M
J
D
Abstract The ENCODE Consortium’s efforts to annotate non-coding, cis -regulatory elements (CREs) have advanced our understanding of gene regulatory landscapes which play a major role in health and disease. Pooled, non-coding CRISPR screens are a promising approach for systematically investigating gene regulatory mechanisms. Here, the ENCODE Functional Characterization Centers report 109 screens comprising 346,970 individual perturbations across 13.3Mb of the genome, using a variety of methods, readouts, and statistical analyses. Across 332 functionally confirmed CRE-gene links, we identify principles for screening endogenous, non-coding elements for causal regulatory mechanisms. Nearly all CREs show strong evidence of open chromatin, and targeting accessibility peak summits is a critical component of our proposed sgRNA design rules. We provide experimental guidelines to accurately detect CREs with variable, often low, transcriptional effects. We discover a previously undescribed DNA strand-bias for CRISPRi in transcribed regions with implications for screen design and analysis. Benchmarking five screen analysis tools, we find CASA produces the most conservative CRE calls and is robust to artifacts of low-specificity sgRNAs. Together, we provide an accessible data resource, predesigned sgRNAs targeting 3,275,697 ENCODE SCREEN candidate CREs, and screening guidelines to accelerate functional characterization of the non-coding genome.
0

A curated benchmark of enhancer-gene interactions for evaluating enhancer-target gene prediction methods

Jill Moore et al.May 7, 2020
Z
M
H
J
Many genome-wide collections of candidate cis-regulatory elements (cCREs) have been defined using genomic and epigenomic data, but it remains a major challenge to connect these elements to their target genes. To facilitate the development of computational methods for predicting target genes, we developed a Benchmark of candidate Enhancer-Gene Interactions (BENGI) by integrating the Registry of cCREs we developed recently with experimentally-derived genomic interactions. We used BENGI to test several published computational methods for linking enhancers with genes, including signal correlation and the supervised learning methods TargetFinder and PEP. We found that while TargetFinder was the best performing method, it was modestly better than a baseline distance method for most benchmark datasets while trained and tested within the same cell type and that TargetFinder often did not outperform the distance method when applied across cell types. Our results suggest that current computational methods need to be improved and that BENGI presents a useful framework for method development and testing.
0

Transcriptome-wide interrogation of the functional intronome by spliceosome profiling

Weijun Chen et al.May 7, 2020
+4
H
J
W
Full understanding of eukaryotic transcriptomes and how they respond to different conditions requires deep knowledge of all sites of intron excision. Although RNA-Seq provides much of this information, the low abundance of many spliced transcripts (often due to their rapid cytoplasmic decay) limits the ability of RNA-Seq alone to reveal the full repertoire of spliced species. Here we present "spliceosome profiling", a strategy based on deep sequencing of RNAs co-purifying with late stage spliceosomes. Spliceosome profiling allows for unambiguous mapping of intron ends to single nucleotide resolution and branchpoint identification at unprecedented depths. Our data reveal hundreds of new introns in S. pombe and numerous others that were previously misannotated. By providing a means to directly interrogate sites of spliceosome assembly and catalysis genome-wide, spliceosome profiling promises to transform our understanding of RNA processing in the nucleus much like ribosome profiling has transformed our understanding mRNA translation in the cytoplasm.
6

Annotation of Chromatin States in 66 Complete Mouse Epigenomes During Development

Arjan Velde et al.Oct 24, 2023
+4
J
K
A
ABSTRACT The morphologically and functionally distinct cell types of a multicellular organism are maintained by epigenomes and gene expression programs. Phase III of the ENCODE Project profiled 66 mouse epigenomes across twelve tissues at daily intervals from embryonic day 10.5 to birth. Applying the ChromHMM algorithm to these epigenomes, we annotated eighteen chromatin states with characteristics of promoters, enhancers, transcribed regions, repressed regions, and quiescent regions throughout the developmental time course. Our integrative analyses delineate the tissue specificity and developmental trajectory of the loci in these chromatin states. Approximately 0.3% of each epigenome is assigned to a bivalent chromatin state, which harbors both active marks and the repressive mark H3K27me3. Highly evolutionarily conserved, these loci are enriched in silencers bound by Polycomb Repressive Complex proteins and the transcription start sites of their silenced target genes. This collection of chromatin state assignments provides a useful resource for studying mammalian development.
11

Genetic and Epigenetic Features of Promoters with Ubiquitous Chromatin Accessibility Support Ubiquitous Transcription of Cell-essential Genes

Kaili Fan et al.Oct 24, 2023
Z
X
J
K
Abstract Gene expression is controlled by regulatory elements with accessible chromatin. Although the majority of regulatory elements are cell type-specific, being in the open chromatin state in only one or a few cell types, approximately 16,000 regions in the human genome and 13,000 regions in the mouse genome are in the open chromatin state in nearly all of the 517 human and 94 mouse cell and tissue types assayed by the ENCODE consortium, respectively. We performed a systematic analysis on the subset of 9,000 human and 8,000 mouse ubiquitously (ubi) open chromatin regions that were also classified as candidate cis-regulatory elements (cCREs) with promoter-like signatures (PLSs) by the ENCODE consortium, which we refer to as ubi-PLSs. We found that these ubi-PLSs had higher levels of CG dinucleotides and corresponded to the genes with ubiquitously high levels of transcriptional activities. Furthermore, the transcription start sites of a vast majority of cell-essential genes are located in ubi-PLSs. ubi-PLSs are enriched in the motifs of ubiquitously expressed transcription factors and preferentially bound by transcriptional cofactors that regulate ubiquitously expressed genes. Finally, ubi-PLSs are highly conserved between human and mouse at the synteny level, but not as conserved at the sequence level, with a high turnover of transcription factor motif sites. Thus, there is a distinct set of roughly 9,000 promoters in the mammalian genome that are actively maintained in the open chromatin state in nearly all cell types to ensure the transcriptional program of cell-essential genes.
132

The ENCODE4 long-read RNA-seq collection reveals distinct classes of transcript structure diversity

Fairlie Reese et al.Oct 24, 2023
+42
G
B
F
The majority of mammalian genes encode multiple transcript isoforms that result from differential promoter use, changes in exonic splicing, and alternative 3' end choice. Detecting and quantifying transcript isoforms across tissues, cell types, and species has been extremely challenging because transcripts are much longer than the short reads normally used for RNA-seq. By contrast, long-read RNA-seq (LR-RNA-seq) gives the complete structure of most transcripts. We sequenced 264 LR-RNA-seq PacBio libraries totaling over 1 billion circular consensus reads (CCS) for 81 unique human and mouse samples. We detect at least one full-length transcript from 87.7% of annotated human protein coding genes and a total of 200,000 full-length transcripts, 40% of which have novel exon junction chains. To capture and compute on the three sources of transcript structure diversity, we introduce a gene and transcript annotation framework that uses triplets representing the transcript start site, exon junction chain, and transcript end site of each transcript. Using triplets in a simplex representation demonstrates how promoter selection, splice pattern, and 3' processing are deployed across human tissues, with nearly half of multi-transcript protein coding genes showing a clear bias toward one of the three diversity mechanisms. Evaluated across samples, the predominantly expressed transcript changes for 74% of protein coding genes. In evolution, the human and mouse transcriptomes are globally similar in types of transcript structure diversity, yet among individual orthologous gene pairs, more than half (57.8%) show substantial differences in mechanism of diversification in matching tissues. This initial large-scale survey of human and mouse long-read transcriptomes provides a foundation for further analyses of alternative transcript usage, and is complemented by short-read and microRNA data on the same samples and by epigenome data elsewhere in the ENCODE4 collection.
132
0
Save
1

Factorbook: an Updated Catalog of Transcription Factor Motifs and Candidate Regulatory Motif Sites

Henry Pratt et al.Oct 24, 2023
+4
N
G
H
ABSTRACT The human genome contains roughly 1,600 transcription factors (TFs) (1), DNA-binding proteins recognizing characteristic sequence motifs to exert regulatory effects on gene expression. The binding specificities of these factors have been profiled both in vitro , using techniques such as HT-SELEX (2), and in vivo , using techniques including ChIP-seq (3, 4). We previously developed Factorbook, a TF-centric database of annotations, motifs, and integrative analyses based on ChIP-seq data from Phase II of the ENCODE Project. Here we present an update to Factorbook which significantly expands the breadth of cell type and TF coverage. The update includes an expanded motif catalog derived from thousands of ENCODE Phase II and III ChIP-seq experiments and HT-SELEX experiments; this motif catalog is integrated with the ENCODE registry of candidate cis-regulatory elements to annotate a comprehensive collection of genome-wide candidate TF binding sites. The database also offers novel tools for applying the motif models within machine learning frameworks and using these models for integrative analysis, including annotation of variants and disease and trait heritability. We will continue to expand the resource as ENCODE Phase IV data are released.
Load More