FS
Fan Song
Author with expertise in Regulation of Chromatin Structure and Function
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(33% Open Access)
Cited by:
13
h-index:
12
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

HiCRep: assessing the reproducibility of Hi-C data using a stratum-adjusted correlation coefficient

Tao Yang et al.Jan 18, 2017
+6
G
F
T
Abstract Hi-C is a powerful technology for studying genome-wide chromatin interactions. However, current methods for assessing Hi-C data reproducibility can produce misleading results because they ignore spatial features in Hi-C data, such as domain structure and distance dependence. We present HiCRep, a framework for assessing the reproducibility of Hi-C data that systematically accounts for these features. In particular, we introduce a novel similarity measure, the stratum adjusted correlation coefficient (SCC), for quantifying the similarity between Hi-C interaction matrices. Not only does it provide a statistically sound and reliable evaluation of reproducibility, SCC can also be used to quantify differences between Hi-C contact matrices and to determine the optimal sequencing depth for a desired resolution. The measure consistently shows higher accuracy than existing approaches in distinguishing subtle differences in reproducibility and depicting interrelationships of cell lineages. The proposed measure is straightforward to interpret and easy to compute, making it well-suited for providing standardized, interpretable, automatable, and scalable quality control. The freely available R package HiCRep implements our approach.
0
Citation10
0
Save
2

Natural selection and genetic diversity maintenance in a parasitic wasp during continuous biological control application

Bingyan Li et al.Feb 14, 2024
+9
Z
Y
B
Aphidius gifuensis is a parasitoid wasp and primary endoparasitoid enemy of the peach potato aphid, Myzus persicae. Artificially reared, captive wasps of this species have been extensively and effectively used to control populations of aphids and limit crop loss. However, the consequences of large-scale releasing of captive A. gifuensis, such as genetic erosion and reduced fitness in wild populations of this species, remains unclear. Here, we sequence the genomes of 542 A. gifuensis individuals collected across China, including 265 wild and 277 human-intervened samples. Population genetic analyses on wild individuals recovered Yunnan populations as the ancestral group with the most complex genetic structure. We also find genetic signature of environmental adaptation during the dispersal of wild populations from Yunnan to other regions. While comparative genomic analyses of captive wasps revealed a decrease in genetic diversity during long-term rearing, population genomic analyses revealed signatures of natural selection by several biotic (host plants) or abiotic (climate) factors, which support maintenance of the gene pool of wild populations in spite of the introduction of captive wasps. Therefore, the impact of large-scale release is reduced. Our study suggests that A. gifuensis is a good system for exploring the genetic and evolutionary effects of mass rearing and release on species commonly used as biocontrol agents.
2
Paper
Citation3
0
Save
0

An Integrated Framework for Genome Analysis Reveals Numerous Previously Unrecognizable Structural Variants in Leukemia Patients' Samples

Jie Xu et al.Feb 28, 2019
+17
A
K
J
While genomic analysis of tumors has stimulated major advances in cancer diagnosis, prognosis and treatment, current methods fail to identify a large fraction of somatic structural variants in tumors. We have applied a combination of whole genome sequencing and optical genome mapping to a number of adult and pediatric leukemia samples, which revealed in each of these samples a large number of structural variants not recognizable by current tools of genomic analyses. We developed computational methods to determine which of those variants likely arose as somatic mutations. The method identified 97% of the structural variants previously reported by karyotype analysis of these samples and revealed an additional fivefold more such somatic rearrangements. The method identified on average tens of previously unrecognizable inversions and duplications and hundreds of previously unrecognizable insertions and deletions. These structural variants recurrently affected a number of leukemia associated genes as well as cancer driver genes not previously associated with leukemia and genes not previously associated with cancer. A number of variants only affected intergenic regions but caused cis-acting alterations in expression of neighboring genes. Analysis of TCGA data indicates that the status of several of the recurrently mutated genes identified in this study significantly affect survival of AML patients. Our results suggest that current genomic analysis methods fail to identify a majority of structural variants in leukemia samples and this lacunae may hamper diagnostic and prognostic efforts.
0

A supervised learning framework for chromatin loop detection in genome-wide contact maps

T. Salameh et al.Aug 20, 2019
+4
B
F
T
Accurately predicting chromatin loops from genome-wide interaction matrices such as Hi-C data is critical to deepen our understanding of proper gene regulation events. Current approaches are mainly focused on searching for statistically enriched dots on a genome-wide map. However, given the availability of a wide variety of orthogonal data types such as ChIA-PET, GAM, SPRITE, and high-throughput imaging, a supervised learning approach could facilitate the discovery of a comprehensive set of chromatin interactions. Here we present Peakachu, a Random Forest classification framework that predicts chromatin loops from genome-wide contact maps. Compared with current enrichment-based approaches, Peakachu identified more meaningful short-range interactions. We show that our models perform well in different platforms such as Hi-C, Micro-C, and DNA SPRITE, across different sequencing depths, and across different species. We applied this framework to systematically predict chromatin loops in 56 Hi-C datasets, and the results are available at the 3D Genome Browser (www.3dgenome.org).
0

Subtype-specific epigenomic landscape and 3D genome structure in bladder cancer

Tejaswi Iyyanki et al.Feb 29, 2020
+14
X
T
T
Muscle-invasive bladder cancers have recently been characterized by their distinct expression of luminal and basal genes, which could be used to predict key clinical features such as disease progression and overall survival. For example, FOXA1, GATA3, and PPARG have been shown to be essential for luminal subtype-specific regulation and subtype switching, while TP63 and STAT3 are critical for basal subtype bladder cancer. Despite these advances, the underlying epigenetic mechanism and 3D chromatin architecture for subtype-specific regulation in bladder cancers remains largely unknown. Here, we determined the genome-wide transcriptome, enhancer landscape, TF binding profiles (FOXA1 and GATA3) in luminal and basal subtypes of bladder cancers. Furthermore, we mapped genome-wide chromatin interactions by Hi-C in both bladder cancer cell lines and primary patient tumors, for the first time in bladder cancer. We showed that subtype-specific transcription is accompanied by specific open chromatin and epigenomic marks, at least partially driven by distinct TF binding at distal-enhancers of luminal and basal bladder cancers. Finally, we identified a novel clinically relevant transcriptional factor, Neuronal PAS Domain Protein 2 (NPAS2), in luminal bladder cancers that regulates other luminal-specific genes (such as FOXA1, GATA3, and PPARG) and affects cancer cell proliferation and migration. In summary, our work shows a subtype-specific epigenomic and 3D genome structure in urinary bladder cancers and suggested a novel link between the circadian TF NPAS2 and a clinical bladder cancer subtype.
0

PST-Diff: Achieving High-consistency Stain Transfer by Diffusion Models with Pathological and Structural Constraints

Yufang He et al.Jan 1, 2024
+10
T
H
Y
Histopathological examinations heavily rely on hematoxylin and eosin (HE) and immunohistochemistry (IHC) staining. IHC staining can offer more accurate diagnostic details but it brings significant financial and time costs. Furthermore, either re-staining HE-stained slides or using adjacent slides for IHC may compromise the accuracy of pathological diagnosis due to information loss. To address these challenges, we develop PST-Diff, a method for generating virtual IHC images from HE images based on diffusion models, which allows pathologists to simultaneously view multiple staining results from the same tissue slide. To maintain the pathological consistency of the stain transfer, we propose the asymmetric attention mechanism (AAM) and latent transfer (LT) module in PST-Diff. Specifically, the AAM can retain more local pathological information of the source domain images through the design of asymmetric attention mechanisms, while ensuring the model's flexibility in generating virtual stained images that highly confirm to the target domain. Subsequently, the LT module transfers the implicit representations across different domains, effectively alleviating the bias introduced by direct connection and further enhancing the pathological consistency of PST-Diff. Furthermore, to maintain the structural consistency of the stain transfer, the conditional frequency guidance (CFG) module is proposed to precisely control image generation and preserve structural details according to the frequency recovery process. To conclude, the pathological and structural consistency constraints provide PST-Diff with effectiveness and superior generalization in generating stable and functionally pathological IHC images with the best evaluation score. In general, PST-Diff offers prospective application in clinical virtual staining and pathological image analysis.
0

An Integrative Framework For Detecting Structural Variations In Cancer Genomes

Jesse Dixon et al.Mar 28, 2017
+36
V
J
J
Structural variants can contribute to oncogenesis through a variety of mechanisms, yet, despite their importance, the identification of structural variants in cancer genomes remains challenging. Here, we present an integrative framework for comprehensively identifying structural variation in cancer genomes. For the first time, we apply next-generation optical mapping, high-throughput chromosome conformation capture (Hi-C) techniques, and whole genome sequencing to systematically detect SVs in a variety of cancer cells. Using this approach, we identify and characterize structural variants in up to 29 commonly used normal and cancer cell lines. We find that each method has unique strengths in identifying different classes of structural variants and at different scales, suggesting that integrative approaches are likely the only way to comprehensively identify structural variants in the genome. Studying the impact of the structural variants in cancer cell lines, we identify widespread structural variation events affecting replication timing and the functions of non-coding sequences in the genome, including the deletion of distal regulatory sequences, alteration of DNA replication timing, and the creation of novel 3D chromatin structural domains. These results underscore the importance of comprehensive structural variant identification and indicate that non-coding structural variation may be an underappreciated mutational process in cancer genomes.
0

Full-Length Transcriptome Profiling of the Complete Mitochondrial Genome of Sericothrips houjii (Thysanoptera: Thripidae: Sericothripinae) Featuring Extensive Gene Rearrangement and Duplicated Control Regions

Qiaoqiao Liu et al.Sep 14, 2024
+3
J
S
Q
The mitochondrial genome (mitogenome) of Thysanoptera has extensive gene rearrangement, and some species have repeatable control regions. To investigate the characteristics of the gene expression, transcription and post-transcriptional processes in such extensively gene-rearranged mitogenomes, we sequenced the mitogenome and mitochondrial transcriptome of Sericothrips houjii to analyze. The mitogenome was 14,965 bp in length and included two CRs contains 140 bp repeats between COIII-trnN (CR1) and trnT-trnP (CR2). Unlike the putative ancestral arrangement of insects, S. houjii exhibited only six conserved gene blocks encompassing 14 genes (trnL2-COII, trnD-trnK, ND2-trnW, ATP8-ATP6, ND5-trnH-ND4-ND4L and trnV-lrRNA). A quantitative transcription map showed the gene with the highest relative expression in the mitogenome was ND4-ND4L. Based on analyses of polycistronic transcripts, non-coding RNAs (ncRNAs) and antisense transcripts, we proposed a transcriptional model of this mitogenome. Both CRs contained the transcription initiation sites (TISs) and transcription termination sites (TTSs) of both strands, and an additional TIS for the majority strand (J-strand) was found within antisense lrRNA. The post-transcriptional cleavage processes followed the “tRNA punctuation” model. After the cleavage of transfer RNAs (tRNAs), COI and ND3 matured as bicistronic mRNA COI/ND3 due to the translocation of intervening tRNAs, and the 3′ untranslated region (UTR) remained in the mRNAs for COII, COIII, CYTB and ND5. Additionally, isoform RNAs of ND2, srRNA and lrRNA were identified. In summary, the relative mitochondrial gene expression levels, transcriptional model and post-transcriptional cleavage process of S. houjii are notably different from those insects with typical mitochondrial gene arrangements. In addition, the phylogenetic tree of Thripidae including S. houjii was reconstructed. Our study provides insights into the phylogenetic status of Sericothripinae and the transcriptional and post-transcriptional regulation processes of extensively gene-rearranged insect mitogenomes.
0

Measuring the reproducibility and quality of Hi-C data

Galip Yardımcı et al.Sep 14, 2017
+17
M
H
G
Hi-C is currently the most widely used assay to investigate the 3D organization of the genome and to study its role in gene regulation, DNA replication, and disease. However, Hi-C experiments are costly to perform and involve multiple complex experimental steps; thus, accurate methods for measuring the quality and reproducibility of Hi-C data are essential to determine whether the output should be used further in a study. Using real and simulated data, we profile the performance of several recently proposed methods for assessing reproducibility of population Hi-C data, including HiCRep, GenomeDISCO, HiC-Spector and QuASAR-Rep. By explicitly controlling noise and sparsity through simulations, we demonstrate the deficiencies of performing simple correlation analysis on pairs of matrices, and we show that methods developed specifically for Hi-C data produce better measures of reproducibility. We also show how to use established (e.g., ratio of intra to interchromosomal interactions) and novel (e.g., QuASAR-QC) measures to identify low quality experiments. In this work, we assess reproducibility and quality measures by varying sequencing depth, resolution and noise levels in Hi-C data from 13 cell lines, with two biological replicates each, as well as 176 simulated matrices. Through this extensive validation and benchmarking of Hi-C data, we describe best practices for reproducibility and quality assessment of Hi-C experiments. We make all software publicly available at http://github.com/kundaje/3DChromatin_ReplicateQC to facilitate adoption in the community.