YY
Yuchen Yang
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Zhejiang University, University of North Carolina at Chapel Hill, Sun Yat-sen University
+ 10 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
17
(71% Open Access)
Cited by:
213
h-index:
36
/
i10-index:
91
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
2

Direct cell reprogramming: approaches, mechanisms and progress

Haofei Wang et al.Oct 30, 2022
Q
J
Y
H
The reprogramming of somatic cells with defined factors, which converts cells from one lineage into cells of another, has greatly reshaped our traditional views on cell identity and cell fate determination. Direct reprogramming (also known as transdifferentiation) refers to cell fate conversion without transitioning through an intermediary pluripotent state. Given that the number of cell types that can be generated by direct reprogramming is rapidly increasing, it has become a promising strategy to produce functional cells for therapeutic purposes. This Review discusses the evolution of direct reprogramming from a transcription factor-based method to a small-molecule-driven approach, the recent progress in enhancing reprogrammed cell maturation, and the challenges associated with in vivo direct reprogramming for translational applications. It also describes our current understanding of the molecular mechanisms underlying direct reprogramming, including the role of transcription factors, epigenetic modifications, non-coding RNAs, and the function of metabolic reprogramming, and highlights novel insights gained from single-cell omics studies.
13

Common variants contribute to intrinsic human brain functional networks

Bingxin Zhao et al.Oct 24, 2023
+17
S
T
B
Abstract The human brain remains active in the absence of explicit tasks and forms networks of correlated activity. Resting-state functional magnetic resonance imaging (rsfMRI) measures brain activity at rest, which has been linked with both cognitive and clinical outcomes. The genetic variants influencing human brain function are largely unknown. Here we utilized rsfMRI from 44,190 individuals of multiple ancestries (37,339 in the UK Biobank) to discover and validate the common genetic variants influencing intrinsic brain activity. We identified hundreds of novel genetic loci associated with intrinsic functional signatures ( P < 2.8 × 10 −11 ), including associations to the central executive, default mode, and salience networks involved in the triple network model of psychopathology. A number of intrinsic brain activity associated loci colocalized with brain disorder GWAS (e.g., Alzheimer’s disease, Parkinson’s disease, schizophrenia) and cognition, such as 19q13.32, 17q21.31, and 2p16.1. Particularly, we detected a colocalization between one (rs429358) of the two variants in the APOE ε4 locus and function of the default mode, central executive, attention, and visual networks. Genetic correlation analysis demonstrated shared genetic influences between brain function and brain structure in the same regions. We also detected significant genetic correlations with 26 other complex traits, such as ADHD, major depressive disorder, schizophrenia, intelligence, education, sleep, subjective well-being, and neuroticism. Common variants associated with intrinsic brain activity were enriched within regulatory element in brain tissues.
5

Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data

Yang� Yang et al.Oct 24, 2023
+8
Y
H
Y
Abstract Transcriptome profiling and differential gene expression constitute a ubiquitous tool in biomedical research and clinical application. Linear dimensionality reduction methods especially principal component analysis (PCA) are widely used in detecting sample-to-sample heterogeneity in bulk transcriptomic datasets so that appropriate analytic methods can be used to correct batch effects, remove outliers and distinguish subgroups. In response to the challenge in analysing transcriptomic datasets with large sample size such as single-cell RNA-sequencing (scRNA-seq), non-linear dimensionality reduction methods were developed. t-distributed stochastic neighbour embedding (t-SNE) and uniform manifold approximation and projection (UMAP) show the advantage of preserving local information among samples and enable effective identification of heterogeneity and efficient organisation of clusters in scRNA-seq analysis. However, the utility of t-SNE and UMAP in bulk transcriptomic analysis has not been carefully examined. Therefore, we compared major dimensionality reduction methods (linear: PCA; nonlinear: multidimensional scaling (MDS), t-SNE, and UMAP) in analysing 71 bulk transcriptomic datasets with large sample sizes. UMAP was found superior in preserving sample level neighbourhood information and maintaining clustering accuracy, thus conspicuously differentiating batch effects, identifying pre-defined biological groups and revealing in-depth clustering structures. We further verified that new clustering structures visualised by UMAP were associated with biological features and clinical meaning. Therefore, we recommend the adoption of UMAP in visualising and analysing of sizable bulk transcriptomic datasets.
2

A comprehensive comparison on cell type composition inference for spatial transcriptomics data

Jiawen Chen et al.Oct 24, 2023
+8
T
W
J
Abstract Spatial transcriptomic (ST) technologies allow researchers to examine high-quality RNA-sequencing data along with maintained two-dimensional positional information as well as a co-registered histology image. A popular use of ST omics data is to provide insights about tissue structure and spatially unique features. However, due to the technical nature unique to most ST data, the resolution varies from a diameter of 2-10 μm to 50-100 μm instead of single-cell resolution, which brings uncertainty into cell number and cell mixture within each ST spot. Motivated by the important role for spatial arrangement of cell types within a tissue in physiology and disease pathogenesis, several ST deconvolution methods have been developed and are being used to explore gene expression variation and identification of spatial domains. The aim of this work is to review state-of-the-art methods for ST deconvolution, while comparing their strengths and weaknesses. Specifically, we use four real datasets to examine the performance of eight methods across different tissues and technological platforms. Key Points Cell mixture inference is a critical step in the analysis of spatial transcriptomics (ST) data to prevent downstream analysis suffering from confounding factors at the spot level. Existing ST deconvolution methods can be classified into three groups: probabilistic-based, non-negative matrix factorization and non-negative least squares based, and other deep learning framework-based methods. We compared eight ST deconvolution methods by using two single cell level resolution datasets and two spot level resolution ST datasets. We provided practical guidelines for the choice of method under different scenarios as well as the optimal subsets of genes to use for each method.
2
Citation4
0
Save
0

Nucleotide excision repair hotspots and coldspots of UV-induced DNA damage in the human genome

Y. Jiang et al.May 7, 2020
+3
L
W
Y
ABSTRACT We recently developed high-throughput sequencing approaches, eXcision Repair sequencing (XR-seq) and Damage-seq, to generate genome-wide mapping of DNA excision repair and damage formation, respectively, with single-nucleotide resolution. Here, we used time-course XR-seq data to profile UV-induced excision repair dynamics, paired with Damage-seq data to quantify the overall induced DNA damage. We identified genome-wide repair hotspots exhibiting high-level nucleotide excision repair immediately after UV irradiation. We show that such repair hotspots do not result from hypersensitivity to DNA damage, and are thus not damage hotspots. We find that the earliest repair occurs preferentially in promoters and enhancers from open-chromatin regions. The repair hotspots are also significantly enriched for frequently interacting regions and super-enhancers, both of which are themselves hotspots for local chromatin interactions. Further interrogation of chromatin organization to include DNA replication timing allows us to conclude that early-repair hotspots are enriched for early-replication domains. Collectively, we report genome-wide early-repair hotspots of UV-induced damage, in association with chromatin states and epigenetic compartmentalization of the human genome.
0
Citation3
0
Save
8

Super interactive promoters provide insight into cell type-specific regulatory networks in blood lineage cell types

Taylor Lagler et al.Oct 24, 2023
+6
Y
Y
T
Abstract Existing studies of chromatin conformation have primarily focused on potential enhancers interacting with gene promoters. By contrast, the interactivity of promoters per se , while equally critical to understanding transcriptional control, has been largely unexplored, particularly in a cell type-specific manner for blood lineage cell types. In this study, we leverage promoter capture Hi-C data across a compendium of blood lineage cell types to identify and characterize cell type-specific super-interactive promoters (SIPs). Notably, promoter-interacting regions (PIRs) of SIPs are more likely to overlap with cell type-specific ATAC-seq peaks and GWAS variants for relevant blood cell traits than PIRs of non-SIPs. Further, SIP genes tend to express at a higher level in the corresponding cell type, and show enriched heritability of relevant blood cell trait(s). Importantly, this analysis shows the potential of using promoter-centric analyses of chromatin spatial organization data to identify biologically important genes and their regulatory regions.
8
Citation2
0
Save
1

eSCAN: Scan Regulatory Regions for Aggregate Association Testing using Whole Genome Sequencing Data

Yingxi Yang et al.Dec 31, 2020
+5
L
Y
Y
Abstract Multiple statistical methods for aggregate association testing have been developed for whole genome sequencing (WGS) data. Many aggregate variants in a given genomic window and ignore existing knowledge to define test regions, resulting in many identified regions not clearly linked to genes and thus limiting biological understanding. Functional information from new technologies (such as Hi-C and its derivatives), which can help link enhancers to their effector genes, can be leveraged to predefine variant sets for aggregate testing in WGS data. Here we propose the eSCAN (Scan the Enhancers) method for genome-wide assessment of enhancer regions in sequencing studies, combining the advantages of dynamic window selection in SCANG, a previously developed method, with the advantages of incorporating putative regulatory regions from annotation. eSCAN, by searching in putative enhancer, increases statistical power and aids mechanistic interpretation, as demonstrated by extensive simulation studies. We also apply eSCAN for blood cell traits using TOPMed WGS data. Results from real data analysis show that eSCAN is able to capture more significant signals, and these signals are of shorter length (indicating higher resolution fine-mapping capability) and drive association of larger regions detected by other methods.
1
Citation1
0
Save
4

HiC-ACT: Improved Detection of Chromatin Interactions from Hi-C Data via Aggregated Cauchy Test

Taylor Lagler et al.Oct 24, 2023
+2
A
Y
T
Abstract Genome-wide chromatin conformation capture technologies such as Hi-C are commonly employed to study chromatin spatial organization. In particular, to identify statistically significant long-range chromatin interactions from Hi-C data, most existing methods such as Fit-Hi-C/FitHiC2 and HiCCUPS assume that all chromatin interactions are statistically independent. Such an independence assumption is reasonable at low resolution (e.g., 40Kb bin), but is invalid at high resolution (e.g., 5 or 10Kb bins) since spatial dependency of neighboring chromatin interactions is non-negligible at high resolution. Our previous hidden Markov random field based methods accommodate spatial dependency but are computationally intensive. It is urgent to develop approaches that can model spatial dependence, in a computationally efficient and scalable manner. Here, we develop HiC-ACT, an aggregated Cauchy test (ACT) based approach, to improve the detection of chromatin interactions by post-processing results from methods assuming independence. To benchmark the performance of HiC-ACT, we re-analyzed deeply sequenced Hi-C data from a human lymphoblastoid cell line GM12878 and mouse embryonic stem cell line (mESC). Our results demonstrate advantages of HiC-ACT in improving sensitivity with controlled type-I error. By leveraging information from neighboring chromatin interactions, HiC-ACT enhances the power to detect interactions with lower signal to noise ratio and similar (if not stronger) epigenetic signatures that suggest regulatory roles. We further demonstrate that HiC-ACT peaks show higher overlap with known enhancers than Fit-Hi-C/FitHiC2 peaks, in both GM12878 and mESC. HiC-ACT, effectively a summary statistic based approach, is computationally efficient (~6 minutes and ~2GB memory to process 25,000 pairwise interactions).
11

MUNIn (Multiple sample UNifying long-range chromatin Interaction detector): a statistical framework for identifying long-range chromatin interactions from multiple samples

Weifang Liu et al.Oct 24, 2023
+5
Q
A
W
Abstract Chromatin spatial organization (interactome) plays a critical role in genome function. Deep understanding of chromatin interactome can shed insights into transcriptional regulation mechanisms and human disease pathology. One essential task in the analysis of chromatin interactomic data is to identify long-range chromatin interactions. Existing approaches, such as HiCCUPS, FitHiC/FitHiC2 and FastHiC, are all designed for analyzing individual cell types or samples. None of them accounts for unbalanced sequencing depths and heterogeneity among multiple cell types or samples in a unified statistical framework. To fill in the gap, we have developed a novel statistical framework MUNIn ( M ultiple sample UN ifying long-range chromatin In teraction detector) for identifying long-range chromatin interactions from multiple samples. MUNIn adopts a hierarchical hidden Markov random field (H-HMRF) model, in which the status (peak or background) of each interacting chromatin loci pair depends not only on the status of loci pairs in its neighborhood region, but also on the status of the same loci pair in other samples. To benchmark the performance of MUNIn, we performed comprehensive simulation studies and real data analysis, and showed that MUNIn can achieve much lower false positive rates for detecting sample-specific interactions (33.1 - 36.2%), and much enhanced statistical power for detecting shared peaks (up to 74.3%), compared to uni-sample analysis. Our data demonstrated that MUNIn is a useful tool for the integrative analysis of interactomic data from multiple samples.
6

HPRep: Quantifying reproducibility in HiChIP and PLAC-seq datasets

Jonathan Rosen et al.Oct 24, 2023
+6
A
Y
J
Abstract HiChIP and PLAC-seq are emerging technologies for studying genome-wide long-range chromatin interactions mediated by protein of interest, enabling more sensitive and cost-efficient interrogation of protein-centric chromatin conformation. However, due to the unbalanced read distribution introduced by protein immunoprecipitation, existing reproducibility measures developed for Hi-C data are not appropriate for the analysis of HiChIP and PLAC-seq data. Here, we present HPRep, a stratified and weighted correlation metric derived from normalized contact counts, to quantify reproducibility in HiChIP and PLAC-seq data. We applied HPRep to multiple real datasets and demonstrate that HPRep outperforms existing reproducibility measures developed for Hi-C data. Specifically, we applied HPRep to H3K4me3 PLAC-seq data from mouse embryonic stem cells and mouse brain tissues, as well as H3K27ac HiChIP data from human lymphoblastoid cell line GM12878 and leukemia cell line K562, showing that HPRep can more clearly separate among pseudo-replicates, real replicates, and non-replicates. Furthermore, in an H3K4me3 PLAC-seq dataset consisting of 11 samples from four human brain cell types, HPRep demonstrates expected clustering of data which could not be achieved by existing methods developed for Hi-C data, highlighting the need of a reproducibility metric tailored to HiChIP and PLAC-seq data.
Load More