RD
Rujia Dai
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
SUNY Upstate Medical University, Southwest Jiaotong University, Central South University
+ 4 more
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(67% Open Access)
Cited by:
5
h-index:
12
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

Cell group analysis reveals changes in upper-layer neurons associated with schizophrenia

Rujia Dai et al.Oct 24, 2023
+10
S
L
R
Abstract Genome-wide association studies (GWAS) of schizophrenia (SCZ) have revealed over 100 risk loci. We investigated whether these SCZ-associated variants regulate gene expression by cell type. Using a fully unsupervised deconvolution method, we calculated gene expression by clusters of estimated cell types (cell-groups, CGs). Five CGs emerged in the dorsolateral prefrontal cortices (DLPFC) of 341 donors with and without SCZ. By mapping expression quantitative trait loci (eQTL) per CG, we partitioned the heritability of SCZ risk in GWAS by CGs. CG-specific expressions and eQTLs were replicated in both a deconvoluted bulk tissue data set with a different method and also in sorted-cell expression data. Further, we characterized CG-specific gene differential expression and cell proportion changes in SCZ brains. We found upper-layer neurons in the DLPFC to be associated with SCZ based on enrichment of SCZ heritability in eQTLs, disease-related transcriptional signatures, and decreased cell proportion. Our study suggests that neurons and related anomalous circuits in the upper layers of the DLPFC may have a major contribution to SCZ risk.
3

Spatiotemporal specificity of correlated DNA methylation and gene expression pairs across different human tissues and stages of brain development

Kangli Wang et al.Oct 24, 2023
+6
Y
R
K
Abstract DNA methylation (DNAm) that occurs on promoter regions is primarily considered to repress gene expression. Previous studies indicated that DNAm could also show positive correlations with gene expression. Both DNAm and gene expression profiles are known to be tissue- and development-specific. This study aims to investigate how DNAm and gene expression are coordinated across different human tissues and developmental stages, as well as the biological significance of such correlations. By analyzing 2,239 samples with both DNAm and gene expression data in the same human subjects obtained from six published datasets, we evaluated the correlations between gene and CpG pairs (GCPs) at cis-regions and compared significantly correlated GCPs (cGCPs) across different tissues and brains at different age groups. A total of 37,363 cGCPs were identified in the six datasets; approximately 38% of the cGCPs were positively correlated. The majority (>90%) of cGCPs were tissue- or development-specific. We also observed that the correlation direction can be opposite in different tissues and ages. Further analysis highlighted the importance of cGCPs for their cellular functions and potential roles in complex traits and human diseases. For instance, early developmental brain possessed a highly unique set of cGCPs that were associated with neurogenesis and psychiatric disorders. By assessing the epigenetic factors involved in cGCPs, we discovered novel regulatory mechanisms of positive cGCPs distinct from negative cGCPs, which were related to multiple factors, such as H3K27me3, CTCF, and JARD2. The catalog of cGCPs compiled can be used to guide functional interpretation of genetic and epigenetic studies.
3
Paper
Citation1
0
Save
6

swCAM: estimation of subtype-specific expressions in individual samples with unsupervised sample-wise deconvolution

Lulu Chen et al.Oct 24, 2023
+7
C
W
L
Abstract Motivation Complex biological tissues are often a heterogeneous mixture of several molecularly distinct cell or tissue subtypes. Both subtype compositions and expressions in individual samples can vary across different biological states or conditions. Computational deconvolution aims to dissect patterns of bulk gene expression data into subtype compositions and subtype-specific expressions. Typically, existing deconvolution methods can only estimate averaged subtype-specific expressions in a population, while detecting differential expressions or co-expression networks in particular subtypes requires unique subtype expression estimates in individual samples. Different from population-level deconvolution, however, individual-level deconvolution is mathematically an underdetermined problem because there are more variables than observations. Results We report a sample-wise Convex Analysis of Mixtures (swCAM) method that can estimate subtype proportions and subtype-specific expressions in individual samples from bulk tissue transcriptomes. We extend our previous CAM framework to include a new term accounting for between-sample variations and formulate swCAM as a nuclear-norm and ℓ 2,1 -norm regularized matrix factorization problem. We determine hyperparameter values using a cross-validation scheme with random entry exclusion and obtain a swCAM solution using an efficient alternating direction method of multipliers. The swCAM is implemented in open-source R scripts. Experimental results on realistic simulation data show that swCAM can accurately estimate subtype-specific expressions in individual samples and successfully extract co-expression networks in particular subtypes that are otherwise unobtainable using bulk expression data. Application of swCAM to bulk-tissue data of 320 samples from bipolar disorder patients and controls identified changes in cell proportions, expression and coexpression modules in patient neurons. Mitochondria related genes showed significant changes suggesting an important role of energy dysregulation in bipolar disorder. Availability and implementation The R Scripts of swCAM is freely available at https://github.com/Lululuella/swCAM . A user’s guide and a vignette are provided. Contact yuewang@vt.edu Supplementary information Supplementary data are available at Bioinformatics online.
6
Citation1
0
Save
20

Analyses of the Autism-associated Neuroligin-3 R451C Mutation in Human Neurons Reveals a Gain-of-Function Synaptic Mechanism

Le Wang et al.Oct 24, 2023
+16
R
V
L
Abstract Mutations in many synaptic genes are associated with autism spectrum disorders (ASDs), suggesting that synaptic dysfunction is a key driver of ASD pathogenesis. Among these mutations, the R451C-substitution in the NLGN3 gene that encodes the postsynaptic adhesion molecule Neuroligin-3 is noteworthy because it was the first specific mutation linked to ASDs. In mice, the corresponding Nlgn3 R451C-knockin mutation recapitulates social interaction deficits of ASD patients and produces synaptic abnormalities, but the impact of the NLGN3 R451C-mutation on human neurons has not been investigated. Here, we generated human knock-in neurons with the NLGN3 R451C-mutation. Strikingly, analyses of NLGN3 R451C-mutant neurons revealed that the R451C-mutation decreased NLGN3 protein levels but enhanced the strength of excitatory synapses without affecting inhibitory synapses. No significant cell death and endoplasmic reticulum stress were detected. Importantly, the augmentation of excitatory transmission was confirmed in vivo with human neurons transplanted into mouse forebrain. Using single-cell RNA-seq experiments with co-cultured excitatory and inhibitory NLGN3 R451C-mutant neurons, we identified differentially expressed genes in relatively mature human neurons that corresponded to synaptic gene expression networks. Moreover, gene ontology and enrichment analyses revealed convergent gene networks associated with ASDs and other mental disorders. Our findings suggest that the NLGN3 R451C-mutation induces a gain-of-function enhancement in excitatory synaptic transmission that may contribute to the pathophysiology of ASDs.
20
Citation1
0
Save
10

Evaluating performance and applications of sample-wise cell deconvolution methods on human brain transcriptomic data

Rujia Dai et al.Oct 24, 2023
+16
M
T
R
Abstract Sample-wise deconvolution methods have been developed to estimate cell-type proportions and gene expressions in bulk-tissue samples. However, the performance of these methods and their biological applications has not been evaluated, particularly on human brain transcriptomic data. Here, nine deconvolution methods were evaluated with sample-matched data from bulk-tissue RNAseq, single-cell/nuclei (sc/sn) RNAseq, and immunohistochemistry. A total of 1,130,767 nuclei/cells from 149 adult postmortem brains and 72 organoid samples were used. The results showed the best performance of dtangle for estimating cell proportions and bMIND for estimating sample-wise cell-type gene expression. For eight brain cell types, 25,273 cell-type eQTLs were identified with deconvoluted expressions (decon-eQTLs). The results showed that decon-eQTLs explained more schizophrenia GWAS heritability than bulk-tissue or single-cell eQTLs alone. Differential gene expression associated with multiple phenotypes were also examined using the deconvoluted data. Our findings, which were replicated in bulk-tissue RNAseq and sc/snRNAseq data, provided new insights into the biological applications of deconvoluted data.
0

Positional effects revealed in Illumina Methylation Array and the impact on analysis

Chuan Jiao et al.May 7, 2020
+5
R
C
C
With the evolution of rapid epigenetic research, Illumina Infinium HumanMethylation BeadChips have been widely used to study DNA methylation. However, in evaluating the accuracy of this method, we found that the commonly used Illumina HumanMethylation BeadChips are substantially affected by positional effects; the DNA sample's location in a chip affects the measured methylation levels. We analyzed three HumanMethylation450 and three HumanMethylation27 datasets by using four methods to prove the existence of positional effects. Three datasets were analyzed further for technical replicate analysis or differential methylation CpG sites analysis. The pre- and post- correction comparisons indicate that the positional effects could alter the measured methylation values and downstream analysis results. Nevertheless, ComBat, linear regression and functional normalization could all be used to minimize such artifact. We recommend performing ComBat to correct positional effects followed by the correction of batch effects in data preprocessing as this procedure slightly outperforms the others. In addition, randomizing the sample placement should be a critical laboratory practice for using such experimental platforms. Code for our method is freely available at: https://github.com/ChuanJ/posibatch.
0

Precision and Accuracy of Single-Cell/Nuclei RNA Sequencing Data

Rujia Dai et al.May 28, 2024
+7
T
M
R
Abstract Single-cell/nuclei RNA sequencing (sc/snRNA-Seq) is widely used for profiling cell-type gene expressions in biomedical research. An important but underappreciated issue is the quality of sc/snRNA-Seq data that would impact the reliability of downstream analyses. Here we evaluated the precision and accuracy in 18 sc/snRNA-Seq datasets. The precision was assessed on data from human brain studies with a total of 3,483,905 cells from 297 individuals, by utilizing technical replicates. The accuracy was evaluated with sample-matched scRNA-Seq and pooled-cell RNA-Seq data of cultured mononuclear phagocytes from four species. The results revealed low precision and accuracy at the single-cell level across all evaluated data. Cell number and RNA quality were highlighted as two key factors determining the expression precision, accuracy, and reproducibility of differential expression analysis in sc/snRNA-Seq. This study underscores the necessity of sequencing enough high-quality cells per cell type per individual, preferably in the hundreds, to mitigate noise in expression quantification.
0

csuWGCNA: a combination of signed and unsigned WGCNA to capture negative correlations

Rujia Dai et al.May 6, 2020
C
C
Y
R
Network analysis helps us to understand how genes jointly affect biological functions. Weighted Gene Co-expression Network Analysis (WGCNA) is a frequently used method to build gene co-expression networks. WGCNA may be calculated with signed or unsigned correlations, with both methods having strengths and weaknesses, but both methods fail to capture weak and moderate negative correlations, which may be important in gene regulation. Combining the advantages and removing the disadvantages of both methods in one analysis would be desirable. In this study, we present a combination of signed and unsigned WGCNA (csuWGCNA), which combines the signed and unsigned methods and improves the detection of negative correlations. We applied csuWGCNA in 14 simulated datasets, six ground truth datasets and two large human brain datasets. Multiple metrics were used to evaluate csuWGCNA at gene pair and gene module levels. We found that csuWGCNA provides robust module detection and captures more negative correlations than the other methods, and is especially useful for non-coding RNA such as microRNA (miRNA) and long non-coding RNA (lncRNA). csuWGCNA enables detection of more informative modules with biological functions than signed or unsigned WGCNA, which enables discovery of novel gene regulation and helps interpretations in systems biology.
0

Evaluating brain cell marker genes based on differential gene expression and co-expression

Rujia Dai et al.May 7, 2020
+3
C
Y
R
Reliable identification of brain cell types is necessary for studying brain cell biology. Many brain cell marker genes have been proposed, but their reliability has not been fully validated. We evaluated 540 commonly-used marker genes of astrocyte, microglia, neuron, and oligodendrocyte with six transcriptome and proteome datasets from purified human and mouse brain cells (n=125). By setting new criteria of cell-specific fold change, we identified 22 gold standard marker genes (GSM) with stable cell-specific expression. Our results call into question the specificity of many proposed marker genes. We used two single-cell transcriptome datasets from human and mouse brains to explore the co-expression of marker genes (n=3337). The mouse co-expression modules were perfectly preserved in human transcriptome, but the reverse was not. Also, we proposed new criteria for identifying marker genes based on both differential expression and co-expression data. We identified 16 novel candidate marker genes (NCM) for mouse and 18 for human independently, which have the potential for use in cell sorting or other tagging techniques. We validated the specificity of GSM and NCM by in-silico deconvolution analysis. Our systematic evaluation provides a list of credible marker genes to facilitate correct cell identification, cell labeling, and cell function studies.