MF
Marjan Farahbod
Author with expertise in Regulation of Chromatin Structure and Function
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
2
h-index:
3
/
i10-index:
2
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
5

Robust chromatin state annotation

Mehdi Shahraki et al.Jul 17, 2023
Abstract Background Segmentation and genome annotations (SAGA) methods such as ChromHMM and Segway are widely to annotate chromatin states in the genome. These algorithms take as input a collection of genomics datasets, partition the genome, and assign a label to each segment such that positions with the same label have similar patterns in the input data. SAGA methods output an human-interpretable summary of the genome by labeling every genomic position with its annotated activity such as Enhancer, Transcribed, etc. Chromatin state annotations are essential for many genomic tasks, including identifying active regulatory elements and interpreting disease-associated genetic variation. However, despite the widespread applications of SAGA methods, no principled approach exists to evaluate the statistical significance of SAGA state assignments. Results Towards the goal of producing robust chromatin state annotations, we performed a comprehensive evaluation of the reproducibility of SAGA methods. We show that SAGA annotations exhibit a large degree of disagreement, even when run with the same method on replicated data sets. This finding suggests that there is significant risk to using SAGA chromatin state annotations. To remedy this problem, we introduce SAGAconf, a method for assigning a measure of confidence (r-value) to SAGA annotations. This r-value is assigned to each genomic bin of a SAGA annotation and represents the probability that the label of this bin will be reproduced in a replicated experiment. This process is analogous to irreproducible discovery rate (IDR) analysis that is commonly used for ChIP-seq peak calling and related tasks. Thus SAGAconf allows a researcher to select only the reliable parts of a SAGA annotation for use in downstream analyses. SAGAconf r-values provide accurate confidence estimates of SAGA annotations, allowing researchers to filter out unreliable elements and remove doubt in those that stand up to this scrutiny.
5
Citation1
0
Save
0

Integrative chromatin state annotation of 234 human ENCODE4 cell types using Segway reveals disease drivers

Marjan Farahbod et al.Oct 31, 2023
Abstract Towards the goal of identifying functional elements in the human genome, the fourth and final phase of the ENCODE consortium has newly profiled hundreds of human tissues using sequencing-based measurements of genomic activity such as ChIP-seq measures of transcription factor binding and histone modification. Chromatin state annotations created by segmentation and genome annotation (SAGA) methods such as Segway have emerged as the predominant integrative summary of such epigenomic data sets. Here, we present the ENCODE4 catalog of Segway annotations, a set of sample-specific genome-wide Segway chromatin state annotations for 234 ENCODE human biosamples inferred from 1,794 functional genomics experiments. We define an updated vocabulary of chromatin state terms that includes patterns of activity present only in a subset of samples or identified only with rarely-performed assays. We show that these ENCODE4 Segway annotations accurately capture both general and cell-type-specific regulatory patterns, and do so with substantially improved sensitivity relative to prior large-scale chromatin annotation sets. This catalog facilitates the downstream discovery of regulatory mechanisms which underlie diseases and traits identified by genome-wide association studies.
0
Citation1
0
Save
0

Untangling the effects of cellular composition on coexpression analysis

Marjan Farahbod et al.Aug 15, 2019
Background: Coexpression analysis is one of the most widely used methods in genomics, with applications to inferring regulatory networks, predicting gene function, and interpretation of transcriptome profiling studies. Most studies use data collected from bulk tissue, where the effects of cellular composition present a potential confound. However, the impact of composition on coexpression analysis have not been studied in detail. Here we examine this issue for the case of human brain RNA analysis. Results: We found that for most genes, differences in expression levels across cell types account for a large fraction of the variance of their measured RNA levels in brain (median R2 = 0.64). We then show that genes that have similar expression patterns across cell types will have correlated RNA levels in bulk tissue, due to the effect of variation in cellular composition. We demonstrate that much of the coexpression in the bulk tissue can be attributed to this effect. We further show how this composition-induced coexpression masks underlying intra-cell-type coexpression observed in single-cell data. Attempt to correct for composition yielded mixed results. Conclusions: The dominant coexpression signal in brain can be attributed to cellular compositional effects, rather than intra-cell-type regulatory relationships, and this is likely to be true for other tissues. These results have important implications for the relevance and interpretation of coexpression in many applications.