JS
Jianxin Shi
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
23
(26% Open Access)
Cited by:
23
h-index:
89
/
i10-index:
322
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Trans-Ancestral Genomic Architecture of Glycaemic Traits

Ji Chen et al.Jul 25, 2020
+411
J
T
J
Abstract Glycaemic traits are used to diagnose and monitor type 2 diabetes, and cardiometabolic health. To date, most genetic studies of glycaemic traits have focused on individuals of European ancestry. Here, we aggregated genome-wide association studies in up to 281,416 individuals without diabetes (30% non-European ancestry) with fasting glucose, 2h-glucose post-challenge, glycated haemoglobin, and fasting insulin data. Trans-ancestry and single-ancestry meta-analyses identified 242 loci (99 novel; P <5×10 -8 ), 80% with no significant evidence of between-ancestry heterogeneity. Analyses restricted to European ancestry individuals with equivalent sample size would have led to 24 fewer new loci. Compared to single-ancestry, equivalent sized trans-ancestry fine-mapping reduced the number of estimated variants in 99% credible sets by a median of 37.5%. Genomic feature, gene-expression and gene-set analyses revealed distinct biological signatures for each trait, highlighting different underlying biological pathways. Our results increase understanding of diabetes pathophysiology by use of trans-ancestry studies for improved power and resolution.
0
Citation10
0
Save
13

Cell-type-specific meQTL extends melanoma GWAS annotation beyond eQTL and informs melanocyte gene regulatory mechanisms

Tongwu Zhang et al.Mar 24, 2021
+15
M
M
T
Abstract While expression quantitative trait loci (eQTL) have been powerful in identifying susceptibility genes from genome-wide association studies (GWAS) findings, most trait-associated loci are not explained by eQTL alone. Alternative QTLs including DNA methylation QTL (meQTL) are emerging, but cell-type-specific meQTL using cells of disease origin has been lacking. Here we established an meQTL dataset using primary melanocytes from 106 individuals and identified 1,497,502 significant cis -meQTLs. Multi-QTL colocalization using meQTL, eQTL, and mRNA splice-junction QTL from the same individuals together with imputed methylome-wide and transcriptome-wide association studies identified susceptibility genes at 63% of melanoma GWAS loci. Among three molecular QTLs, meQTLs were the single largest contributor. To compare melanocyte meQTLs with those from malignant melanomas, we performed meQTL analysis on skin cutaneous melanomas from The Cancer Genome Atlas (n = 444). A substantial proportion of meQTL probes (45.9%) in primary melanocytes are preserved in melanomas, while a smaller fraction of eQTL genes is preserved (12.7%). Integration of melanocyte multi-QTL and melanoma meQTL identified candidate susceptibility genes at 72% of melanoma GWAS loci. Beyond GWAS annotation, meQTL-eQTL colocalization in melanocytes suggested that 841 unique genes potentially share a causal variant with a nearby methylation probe in melanocytes. Finally, melanocyte trans -meQTL identified a hotspot for rs12203592, a cis -eQTL of a transcription factor, IRF4, with 131 candidate target CpGs. Motif enrichment and IRF4 ChIPseq analysis demonstrated that these target CpGs are enriched in IRF4 binding sites, suggesting an IRF4-mediated regulatory network. Our study highlights the utility of cell-type-specific meQTL.
13
Citation1
0
Save
0

MEGSA: A powerful and flexible framework for analyzing mutual exclusivity of tumor mutations

Xing Hua et al.Apr 9, 2015
+5
J
P
X
The central challenge in tumor sequencing studies is to identify driver genes and pathways, investigate their functional relationships and nominate drug targets. The efficiency of these analyses, particularly for infrequently mutated genes, is compromised when patients carry different combinations of driver mutations. Mutual exclusivity analysis helps address these challenges. To identify mutually exclusive gene sets (MEGS), we developed a powerful and flexible analytic framework based on a likelihood ratio test and a model selection procedure. Extensive simulations demonstrated that our method outperformed existing methods for both statistical power and the capability of identifying the exact MEGS, particularly for highly imbalanced MEGS. Our method can be used for de novo discovery, pathway-guided searches or for expanding established small MEGS. We applied our method to the whole exome sequencing data for fourteen cancer types from The Cancer Genome Atlas (TCGA). We identified multiple previously unreported non-pairwise MEGS in multiple cancer types. For acute myeloid leukemia, we identified a novel MEGS with five genes (FLT3, IDH2, NRAS, KIT and TP53) and a MEGS (NPM1, TP53 and RUX1) whose mutation status was strongly associated with survival (P=6.7×10-4). For breast cancer, we identified a significant MEGS consisting of TP53 and four infrequently mutated genes (ARID1A, AKT1, MED23 and TBL1XR1), providing support for their role as cancer drivers. Keywords: Mutual exclusivity, oncogenic pathways, driver genes, tumor sequencing
0
Citation1
0
Save
0

APOBEC shapes tumor evolution and age at onset of lung cancer in smokers

Tongwu Zhang et al.Apr 3, 2024
+31
K
J
T
APOBEC enzymes are part of the innate immunity and are responsible for restricting viruses and retroelements by deaminating cytosine residues
0
Citation1
0
Save
9

SUITOR: selecting the number of mutational signatures through cross-validation

Donghyuk Lee et al.Jul 29, 2021
+3
X
D
D
Abstract For de novo mutational signature analysis, the critical first step is to decide how many signatures should be expected in a cancer genomics study. An incorrect number could mislead downstream analyses. Here we present SUITOR (Selecting the nUmber of mutatIonal signaTures thrOugh cRoss-validation), an unsupervised cross-validation method that requires little assumptions and no numerical approximations to select the optimal number of signatures without overfitting the data. In vitro studies and in silico simulations demonstrated that SUITOR can correctly identify signatures, some of which were missed by other widely used methods. Applied to 2,540 whole-genome sequenced tumors across 22 cancer types, SUITOR selected signatures with the smallest prediction errors and almost all signatures of breast cancer selected by SUITOR were validated in an independent breast cancer study. SUITOR is a powerful tool to select the optimal number of mutational signatures, facilitating downstream analyses with etiological or therapeutic importance.
9
Citation1
0
Save
0

Winners curse correction and variable thresholding improve performance of polygenic risk modeling based on summary-level data from genome-wide association studies

Jianxin Shi et al.Jan 10, 2016
+44
K
W
J
Heritability analysis suggests that genome-wide association studies (GWAS) have the potential to improve genetic risk prediction for complex diseases. Polygenic risk-score (PRS) is a widely used modelling technique that requires only availability of summary-level data from the discovery samples. We propose two modifications to improve the performance of PRS. First, we propose threshold dependent winners curse adjustments for marginal association coefficients that are used to weight the SNPs in PRS. Second, to exploit various external functional/annotation knowledge that might identify subset of SNPs highly enriched for association signals, we consider using variable thresholds for SNPs selection. We applied our methods to the GWAS summary-level data of fourteen complex diseases. Our analysis shows that while a simple winners curse correction uniformly leads to enhancement of performance of the models across traits, incorporation of functional SNPs was beneficial for only selected traits. Compared to standard PRS algorithm, the proposed methods in combination leads to substantial efficiency gain (25-50% increase in the prediction R2) for five out of fifteen diseases. As an example, for GWAS of type 2 diabetes, the lasso-based winners curse correction improves prediction R2 from 2.29% based on standard PRS to 3.1% (P=0.0017) and incorporating functional annotation data further improved R2 to 3.53% (P=2.0E-5). Our simulation studies provided further clarification why differential treatment of certain category of functional SNPs, even when shown to be highly enriched for GWAS-heritability, does not lead to proportionate improvement in genetic risk-prediction due to non-uniform linkage disequilibrium structure.
0

Impact of the X chromosome and sex on regulatory variation

Kimberly Kukurba et al.Aug 7, 2015
+14
K
P
K
The X chromosome, with its unique mode of inheritance, contributes to differences between the sexes at a molecular level, including sex-specific gene expression and sex-specific impact of genetic variation. We have conducted an analysis of the impact of both sex and the X chromosome on patterns of gene expression identified through transcriptome sequencing of whole blood from 922 individuals. We identified that genes on the X chromosome are more likely to have sex-specific expression compared to the autosomal genes. Furthermore, we identified a depletion of regulatory variants on the X chromosome, especially among genes under high selective constraint. In contrast, we discovered an enrichment of sex-specific regulatory variants on the X chromosome. To resolve the molecular mechanisms underlying such effects, we generated and connected sex-specific chromatin accessibility to sex-specific expression and regulatory variation. As sex-specific regulatory variants can inform sex differences in genetic disease prevalence, we have integrated our data with genome-wide association study data for multiple immune traits and to identify traits with significant sex biases. Together, our study provides genome-wide insight into how the X chromosome and sex shape human gene regulation and disease.
0

MicrobiomeGWAS: a tool for identifying host genetic variants associated with microbiome composition

Xing Hua et al.Nov 10, 2015
+4
G
L
X
The microbiome is the collection of all microbial genes and can be investigated by sequencing highly variable regions of 16S ribosomal RNA (rRNA) genes. Evidence suggests that environmental factors and host genetics may interact to impact human microbiome composition. Identifying host genetic variants associated with human microbiome composition not only provides clues for characterizing microbiome variation but also helps to elucidate biological mechanisms of genetic associations, prioritize genetic variants, and improve genetic risk prediction. Since a microbiota functions as a community, it is best characterized by beta diversity, that is, a pairwise distance matrix. We develop a statistical framework and a computationally efficient software package, microbiomeGWAS, for identifying host genetic variants associated with microbiome beta diversity with or without interacting with an environmental factor. We show that score statistics have positive skewness and kurtosis due to the dependent nature of the pairwise data, which makes P-value approximations based on asymptotic distributions unacceptably liberal. By correcting for skewness and kurtosis, we develop accurate P-value approximations, whose accuracy was verified by extensive simulations. We exemplify our methods by analyzing a set of 147 genotyped subjects with 16S rRNA microbiome profiles from non-malignant lung tissues. Correcting for skewness and kurtosis eliminated the dramatic deviation in the quantile-quantile plots. We provided preliminary evidence that six established lung cancer risk SNPs were collectively associated with microbiome composition for both unweighted (P=0.0032) and weighted (P=0.011) UniFrac distance matrices. In summary, our methods will facilitate analyzing large-scale genome-wide association studies of the human microbiome.
0

SummaryAUC: a tool for evaluating the performance of polygenic risk prediction models in validation datasets with only summary level statistics

Lei Song et al.Jun 29, 2018
J
A
L
Motivation: Polygenic risk score (PRS) methods based on genome-wide association studies (GWAS) have a potential for predicting the risk of developing complex diseases and are expected to become more accurate with larger training data sets and innovative statistical methods. The area under the ROC curve (AUC) is often used to evaluate the performance of PRSs, which requires individual genotypic and phenotypic data in an independent GWAS validation dataset. We are motivated to develop methods for approximating AUC of PRSs based on the summary level data of the validation dataset, which will greatly facilitate the development of PRS models for complex diseases. Results: We develop statistical methods and an R package SummaryAUC for approximating the AUC and its variance of a PRS when only the summary level data of the validation dataset are available. SummaryAUC can be applied to PRSs with SNPs either genotyped or imputed in the validation dataset. We examined the performance of SummaryAUC using a large-scale GWAS of schizophrenia. SummaryAUC provides accurate approximations to AUCs and their variances. The bias of AUC is typically less than 0.5% in most analyses. SummaryAUC cannot be applied to PRSs that use all SNPs in the genome because it is computationally prohibitive. Availability: https://github.com/lsncibb/SummaryAUC
0

Cell-type specific eQTL of primary melanocytes facilitates identification of melanoma susceptibility genes

Tongwu Zhang et al.Dec 8, 2017
+14
D
A
T
Most expression quantitative trait loci (eQTL) studies to date have been performed in heterogeneous tissues as opposed to specific cell types. To better understand the cell-type specific regulatory landscape of human melanocytes, which give rise to melanoma but account for <5% of typical human skin biopsies, we performed an eQTL analysis in primary melanocyte cultures from 106 newborn males. We identified 597,335 cis-eQTL SNPs prior to LD-pruning and 4,997 eGenes (FDR<0.05), which are higher numbers than in any GTEx tissue type with a similar sample size. Melanocyte eQTLs differed considerably from those identified in the 44 GTEx tissues, including skin. Over a third of melanocyte eGenes, including key genes in melanin synthesis pathways, were not observed to be eGenes in two types of GTEx skin tissues or TCGA melanoma samples. The melanocyte dataset also identified cell-type specific trans-eQTLs with a pigmentation-associated SNP for four genes, likely through its cis-regulation of IRF4, encoding a transcription factor implicated in human pigmentation phenotypes. Melanocyte eQTLs are enriched in cis-regulatory signatures found in melanocytes as well as melanoma-associated variants identified through genome-wide association studies (GWAS). Co-localization of melanoma GWAS variants and eQTLs from melanocyte and skin eQTL datasets identified candidate melanoma susceptibility genes for six known GWAS loci including unique genes identified by the melanocyte dataset. Further, a transcriptome-wide association study using published melanoma GWAS data uncovered four new loci, where imputed expression levels of five genes (ZFP90, HEBP1, MSC, CBWD1, and RP11-383H13.1) were associated with melanoma at genome-wide significant P-values. Our data highlight the utility of lineage-specific eQTL resources for annotating GWAS findings and present a robust database for genomic research of melanoma risk and melanocyte biology.
Load More