YW
Yue Wang
Author with expertise in Analysis of Gene Interaction Networks
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(67% Open Access)
Cited by:
561
h-index:
28
/
i10-index:
48
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Nuclear envelope dystrophies show a transcriptional fingerprint suggesting disruption of Rb–MyoD pathways in muscle regeneration

Marina Bakay et al.Feb 14, 2006
Mutations of lamin A/C (LMNA) cause a wide range of human disorders, including progeria, lipodystrophy, neuropathies and autosomal dominant Emery–Dreifuss muscular dystrophy (EDMD). EDMD is also caused by X-linked recessive loss-of-function mutations of emerin, another component of the inner nuclear lamina that directly interacts with LMNA. One model for disease pathogenesis of LMNA and emerin mutations is cell-specific perturbations of the mRNA transcriptome in terminally differentiated cells. To test this model, we studied 125 human muscle biopsies from 13 diagnostic groups (125 U133A, 125 U133B microarrays), including EDMD patients with LMNA and emerin mutations. A Visual and Statistical Data Analyzer (VISDA) algorithm was used to statistically model cluster hierarchy, resulting in a tree of phenotypic classifications. Validations of the diagnostic tree included permutations of U133A and U133B arrays, and use of two probe set algorithms (MAS5.0 and MBEI). This showed that the two nuclear envelope defects (EDMD LMNA, EDMD emerin) were highly related disorders and were also related to fascioscapulohumeral muscular dystrophy (FSHD). FSHD has recently been hypothesized to involve abnormal interactions of chromatin with the nuclear envelope. To identify disease-specific transcripts for EDMD, we applied a leave-one-out (LOO) cross-validation approach using LMNA patient muscle as a test data set, with reverse transcription–polymerase chain reaction (RT–PCR) validations in both LMNA and emerin patient muscle. A high proportion of top-ranked and validated transcripts were components of the same transcriptional regulatory pathway involving Rb1 and MyoD during muscle regeneration (CRI-1, CREBBP, Nap1L1, ECREBBP/p300), where each was specifically upregulated in EDMD. Using a muscle regeneration time series (27 time points) we develop a transcriptional model for downstream consequences of LMNA and emerin mutations. We propose that key interactions between the nuclear envelope and Rb and MyoD fail in EDMD at the point of myoblast exit from the cell cycle, leading to poorly coordinated phosphorylation and acetylation steps. Our data is consistent with mutations of nuclear lamina components leading to destabilization of the transcriptome in differentiated cells.
0
Citation317
0
Save
6

swCAM: estimation of subtype-specific expressions in individual samples with unsupervised sample-wise deconvolution

Lulu Chen et al.Jan 5, 2021
Abstract Motivation Complex biological tissues are often a heterogeneous mixture of several molecularly distinct cell or tissue subtypes. Both subtype compositions and expressions in individual samples can vary across different biological states or conditions. Computational deconvolution aims to dissect patterns of bulk gene expression data into subtype compositions and subtype-specific expressions. Typically, existing deconvolution methods can only estimate averaged subtype-specific expressions in a population, while detecting differential expressions or co-expression networks in particular subtypes requires unique subtype expression estimates in individual samples. Different from population-level deconvolution, however, individual-level deconvolution is mathematically an underdetermined problem because there are more variables than observations. Results We report a sample-wise Convex Analysis of Mixtures (swCAM) method that can estimate subtype proportions and subtype-specific expressions in individual samples from bulk tissue transcriptomes. We extend our previous CAM framework to include a new term accounting for between-sample variations and formulate swCAM as a nuclear-norm and ℓ 2,1 -norm regularized matrix factorization problem. We determine hyperparameter values using a cross-validation scheme with random entry exclusion and obtain a swCAM solution using an efficient alternating direction method of multipliers. The swCAM is implemented in open-source R scripts. Experimental results on realistic simulation data show that swCAM can accurately estimate subtype-specific expressions in individual samples and successfully extract co-expression networks in particular subtypes that are otherwise unobtainable using bulk expression data. Application of swCAM to bulk-tissue data of 320 samples from bipolar disorder patients and controls identified changes in cell proportions, expression and coexpression modules in patient neurons. Mitochondria related genes showed significant changes suggesting an important role of energy dysregulation in bipolar disorder. Availability and implementation The R Scripts of swCAM is freely available at https://github.com/Lululuella/swCAM . A user’s guide and a vignette are provided. Contact yuewang@vt.edu Supplementary information Supplementary data are available at Bioinformatics online.
0

Expression and Clinical Significance of Non B Cell-Derived Immunoglobulins in the Urinary System and Male Reproductive System

Zhenling Deng et al.Jan 1, 2024
The urinary system comprises kidneys, ureters, bladder, and urethra with its primary function being excretion, referring to the physiological process of transporting substances that are harmful or surplus out of the body. The male reproductive system consists of gonads (testis), vas deferens, and accessory glands such as the prostate. According to classical immunology theory, the tissues and organs mentioned above are not thought to produce immunoglobulins (Igs), and any Ig present in the relevant tissues under physiological and pathological conditions is believed to be derived from B cells. For instance, most renal diseases are associated with uncontrolled inflammation caused by pathogenic Ig deposited in the kidney. Generally, these pathological Igs are presumed to be produced by B cells. Recent studies have demonstrated that renal parenchymal cells can produce and secrete Igs, including IgA and IgG. Glomerular mesangial cells can express and secrete IgA, which is associated with cell survival and adhesion. Likewise, human podocytes demonstrate the ability to produce and secrete IgG, which is related to cell survival and adhesion. Furthermore, renal tubular epithelial cells also express IgG, potentially involved in the epithelial-mesenchymal transition (EMT). More significantly, renal cell carcinoma, bladder cancer, and prostate cancer have been revealed to express high levels of IgG, which promotes tumour progression. Given the widespread Ig expression in the urinary and male reproductive systems, continued efforts to elucidate the roles of Igs in renal physiological and pathological processes are necessary.
6

The impact of common variants on gene expression in the human brain: from RNA to protein to schizophrenia risk

Qiuman Liang et al.Jun 5, 2023
The impact of genetic variants on gene expression has been intensely studied at the transcription level, yielding in valuable insights into the association between genes and the risk of complex disorders, such as schizophrenia (SCZ). However, the downstream impact of these variants and the molecular mechanisms connecting transcription variation to disease risk are not well understood.We quantitated ribosome occupancy in prefrontal cortex samples of the BrainGVEX cohort. Together with transcriptomics and proteomics data from the same cohort, we performed cis-Quantitative Trait Locus (QTL) mapping and identified 3,253 expression QTLs (eQTLs), 1,344 ribosome occupancy QTLs (rQTLs), and 657 protein QTLs (pQTLs) out of 7,458 genes quantitated in all three omics types from 185 samples. Of the eQTLs identified, only 34% have their effects propagated to the protein level. Further analysis on the effect size of prefrontal cortex eQTLs identified from an independent dataset showed clear post-transcriptional attenuation of eQTL effects. To investigate the biological relevance of the attenuated eQTLs, we identified 70 expression-specific QTLs (esQTLs), 51 ribosome-occupancy-specific QTLs (rsQTLs), and 107 protein-specific QTLs (psQTLs). Five of these omics-specific QTLs showed strong colocalization with SCZ GWAS signals, three of them are esQTLs. The limited number of GWAS colocalization discoveries from omics-specific QTLs and the apparent prevalence of eQTL attenuation prompted us to take a complementary approach to investigate the functional relevance of attenuated eQTLs. Using S-PrediXcan we identified 74 SCZ risk genes, 34% of which were novel, and 67% of these risk genes were replicated in a MR-Egger test. Notably, 52 out of 74 risk genes were identified using eQTL data and 70% of these SCZ-risk-gene-driving eQTLs show little to no evidence of driving corresponding variations at the protein level.The effect of eQTLs on gene expression in the prefrontal cortex is commonly attenuated post-transcriptionally. Many of the attenuated eQTLs still correlate with SCZ GWAS signal. Further investigation is needed to elucidate a mechanistic link between attenuated eQTLs and SCZ disease risk.
1

AIscEA: Unsupervised Integration of Single-cell Gene Expression and Chromatin Accessibility via Their Biological Consistency

Elham Jafari et al.Feb 19, 2022
Abstract Since the integrative analysis of single-cell gene expression and chromatin accessibility measurements is essential for revealing gene regulation at the single-cell resolution, integrating these two measurements becomes one of the key challenges in computational biology. Because gene expression and chromatin accessibility are measurements from different modalities, no common features can be directly used to guide their integration. Current state-of-the-art methods assume that the number of cell types across the measurements is the same. However, when cell-type heterogeneity exists, they might not generate reliable results. Furthermore, current methods do not have an effective way to select the hyper-parameter under the unsupervised setting. Therefore, applying computational methods to integrate single-cell gene expression and chromatin accessibility measurements remains difficult. We introduce AIscEA – A lignment-based I ntegration of single-cell gene E xpression and chromatin A ccessibility – a computational method that integrates single-cell gene expression and chromatin accessibility measurements using their biological consistency. AIscEA first defines a ranked similarity score to quantify the biological consistency between cell types across measurements. AIscEA then uses the ranked similarity score and a novel permutation test to identify the cell-type alignment across measurements. For the aligned cell types, AIscEA further utilizes graph alignment to align the cells across measurements. We compared AIscEA with the competing methods on several benchmark datasets and demonstrated that AIscEA is more robust to hyper-parameters and can better handle the cell-type heterogeneity problem. Furthermore, we demonstrate that AIscEA significantly outperforms the state-of-the-art methods when integrating real-world SNARE-seq and scMultiome-seq datasets in terms of integration accuracy.
31

IndepthPathway: an integrated tool for in-depth pathway enrichment analysis based on bulk and single cell sequencing data

Sanghoon Lee et al.Aug 29, 2022
ABSTRACT Single-cell sequencing (SCS) enables exploring the pathways and processes of cells, and cell populations. However, there is a paucity of pathway enrichment methods designed to tolerate the high noise and low gene coverage of this technology. When gene expression data are noisy and signals are sparse, testing pathway enrichment based on the genes expression may not yield statistically significant results which is particularly problematic when detecting the pathways enriched in less abundant cells that are vulnerable to disturbances. In this project, we developed a Weighted Concept Signature Enrichment Analysis (WCSEA) algorithm specialized for pathway enrichment analysis from single cell transcriptomics (scRNA-seq). WCSEA took a broader approach for assessing the functional relations of pathway gene sets to differentially expressed genes, and leverage the cumulative signature of molecular concepts characteristic of the highly differentially expressed genes, which we termed as the universal concept signature, to tolerate the high noise and low coverage of this technology. We then incorporated WCSEA into a R package called “IndepthPathway” for biologists to broadly leverage this method for pathway analysis based on bulk and single cell sequencing data. Through simulating technical variability and dropouts in gene expression characteristic of scRNA-seq as well as benchmarking on a real dataset of matched single cell and bulk RNAseq data, we demonstrate that IndepthPathway presents outstanding stability and depth in pathway enrichment results under stochasticity of the data, thus will substantially improve the scientific rigor of the pathway analysis for single cell sequencing data. The IndepthPathway package is available through: https://github.com/wangxlab/IndepthPathway .
5

WEVar: a novel statistical learning framework for predicting noncoding regulatory variants

Ye Wang et al.Nov 18, 2020
Abstract Understanding the functional consequence of noncoding variants is of great interest. Though genome-wide association studies (GWAS) or quantitative trait locus (QTL) analyses have identified variants associated with traits or molecular phenotypes, most of them are located in the noncoding regions, making the identification of causal variants a particular challenge. Existing computational approaches developed for for prioritizing non-coding variants produce inconsistent and even conflicting results. To address these challenges, we propose a novel statistical learning framework, which directly integrates the precomputed functional scores from representative scoring methods. It will maximize the usage of integrated methods by automatically learning the relative contribution of each method and produce an ensemble score as the final prediction. The framework consists of two modes. The first “context-free” mode is trained using curated causal regulatory variants from a wide range of context and is applicable to predict noncoding variants of unknown and diverse context. The second “context-dependent” mode further improves the prediction when the training and testing variants are from the same context. By evaluating the framework via both simulation and empirical studies, we demonstrate that it outperforms integrated scoring methods and the ensemble score successfully prioritizes experimentally validated regulatory variants in multiple risk loci.
Load More