ZZ
Zhili Zheng
Author with expertise in Genomic Studies and Association Analyses
University of Queensland, Broad Institute, Massachusetts General Hospital
+ 4 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
17
(29% Open Access)
Cited by:
19
h-index:
23
/
i10-index:
34
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
41

Leveraging functional genomic annotations and genome coverage to improve polygenic prediction of complex traits within and between ancestries

Zhili Zheng et al.Oct 24, 2023
+11
J
S
Z
Abstract We develop a new method, SBayesRC, that integrates GWAS summary statistics with functional genomic annotations to improve polygenic prediction of complex traits. Our method is scalable to whole-genome variant analysis and refines signals from functional annotations by allowing them to affect both causal variant probability and causal effect distribution. We analyse 28 traits in the UK Biobank using ∼7 million common SNPs and 96 annotations. SBayesRC improves prediction accuracy by 14% in European ancestry and by up to 33% in trans-ancestry prediction, compared to the baseline method SBayesR which does not use annotations, and outperforms state-of-the-art methods LDpred-funct, PolyPred-S and PRS-CSx by 12-15%. Investigation of factors affecting prediction accuracy identified a significant interaction between SNP density and annotation information, encouraging future use of whole-genome sequence variants for prediction. Functional partitioning analysis highlights a major contribution of evolutionary constrained regions to prediction accuracy and the largest per-SNP contribution from non-synonymous SNPs.
28

mBAT-combo: a more powerful test to detect gene-trait associations from GWAS data

Ang Li et al.Oct 24, 2023
+8
A
S
A
Abstract Gene-based association tests aggregate multiple SNP-trait associations into sets defined by gene boundaries. Since genes have a direct biological link to downstream function, gene-based test results are widely used in post-GWAS analysis. A common approach for gene-based tests is to combine SNPs associations by computing the sum of χ 2 statistics. However, this strategy ignores the directions of SNP effects, which could result in a loss of power for SNPs with masking effects (e.g., when the product of the effects of two SNPs and their linkage disequilibrium (LD) correlation is negative). Here, we introduce “mBAT-combo”, a new set-based test that is better powered than other methods to detect multi-SNP associations in the context of masking effects. We validate the method through simulations and applications to real data. We find that of 35 blood and urine biomarker traits in the UK Biobank, 34 traits show evidence for masking effects in a total of 4,175 gene-trait pairs, indicating that masking effects in complex traits is common. We further validate the improved power of our method in height, body mass index and schizophrenia with different GWAS sample sizes and show that on average 95.7% of the genes detected only by mBAT-combo with smaller sample sizes can be identified by the single-SNP approach with larger sample sizes (average sample size increased by 1.7-fold). For instance, LRRC4B is significant only in our method for schizophrenia, which has been shown to play a role in presynaptic pathology using genetic fine-mapping and evidence-based synaptic annotations. As a more powerful gene-based method, mBAT-combo is expected to improve the downstream pathway analysis or tissue and cell-type enrichment analysis that takes genes identified from GWAS data as input to understand the biological mechanisms of the trait or disease. Despite our focus on genes in this study, the framework of mBAT-combo is general and can be applied to any set of SNPs to refine trait-association signals hidden in genomic regions with complex LD structures.
76

Improved analyses of GWAS summary statistics by reducing data heterogeneity and errors

Wenhan Chen et al.Oct 24, 2023
+4
Z
Y
W
Abstract Summary statistics from genome-wide association studies (GWAS) have facilitated the development of various summary data-based methods, which typically require a reference sample for linkage disequilibrium (LD) estimation. Analyses using these methods may be biased by errors in GWAS summary data and heterogeneity between GWAS and LD reference. Here we propose a quality control method, DENTIST, that leverages LD among genetic variants to detect and eliminate errors in GWAS or LD reference and heterogeneity between the two. Through simulations, we demonstrate that DENTIST substantially reduces false-positive rate (FPR) in detecting secondary signals in the summary-data-based conditional and joint (COJO) association analysis, especially for imputed rare variants (FPR reduced from >28% to <2% in the presence of heterogeneity between GWAS and LD reference). We further show that DENTIST can improve other summary-data-based analyses such as fine-mapping analysis, and integrative analysis of GWAS and expression quantitative trait locus data.
0

A resource-efficient tool for mixed model association analysis of large-scale data

Longda Jiang et al.May 6, 2020
+4
T
Z
L
The genome-wide association study (GWAS) has been widely used as an experimental design to detect associations between genetic variants and a phenotype. Two major confounding factors, population stratification and relatedness, could potentially lead to inflated GWAS test-statistics and thereby spurious associations. Mixed linear model (MLM)-based approaches can be used to account for sample structure. However, genome-wide association (GWA) analyses in biobank samples such as the UK Biobank (UKB) often exceed the capability of most existing MLM-based tools especially if the number of traits is large. Here, we developed an MLM-based tool (called fastGWA) that controls for population stratification by principal components and relatedness by a sparse genetic relationship matrix for GWA analyses of biobank-scale data. We demonstrated by extensive simulations that fastGWA is reliable, robust and highly resource-efficient. We then applied fastGWA to 2,173 traits on 456,422 array-genotyped and imputed individuals and 2,048 traits on 46,191 whole-exome-sequenced individuals in the UKB.
0

Improved polygenic prediction by Bayesian multiple regression on summary statistics

Luke Lloyd‐Jones et al.May 6, 2020
+12
J
J
L
The capacity to accurately predict an individual's phenotype from their DNA sequence is one of the great promises of genomics and precision medicine. Recently, Bayesian methods for generating polygenic predictors have been successfully applied in human genomics but require the individual level data, which are often limited in their access due to privacy or logistical concerns, and are computationally very intensive. This has motivated methodological frameworks that utilise publicly available genome-wide association studies (GWAS) summary data, which now for some traits include results from greater than a million individuals. In this study, we extend the established summary statistics methodological framework to include a class of point-normal mixture prior Bayesian regression models, which have been shown to generate optimal genetic predictions and can perform heritability estimation, variant mapping and estimate the distribution of the genetic effects. In a wide range of simulations and cross-validation using 10 real quantitative traits and 1.1 million variants on 350,000 individuals from the UK Biobank (UKB), we establish that our summary based method, SBayesR, performs similarly to methods that use the individual level data and outperforms other state-of-the-art summary statistics methods in terms of prediction accuracy and heritability estimation at a fraction of the computational resources. We generate polygenic predictors for body mass index and height in two independent data sets and show that by exploiting summary statistics on 1.1 million variants from the largest GWAS meta-analysis (n ≈ 700, 000) that the SBayesR prediction R2 improved on average across traits by 6.8% relative to that estimated from an individual-level data BayesR analysis of data from the UKB (n ≈ 450, 000). Compared with commonly used state-of-the-art summary- based methods, SBayesR improved the prediction R2 by 4.1% relative to LDpred and by 28.7% relative to clumping and p-value thresholding. SBayesR gave comparable prediction accuracy to the recent RSS method, which has a similar model, but at a computational time that is two orders of magnitude smaller. The methodology is implemented in a very efficient and user-friendly software tool titled GCTB.
0

Bayesian analysis of GWAS summary data reveals differential signatures of natural selection across human complex traits and functional genomic categories

Jian Zeng et al.May 7, 2020
+10
L
A
J
Understanding how natural selection has shaped the genetic architecture of complex traits and diseases is of importance in medical and evolutionary genetics. Bayesian methods have been developed using individual-level data to estimate multiple features of genetic architecture, including signatures of natural selection. Here, we present an enhanced method (SBayesS) that only requires GWAS summary statistics and incorporates functional genomic annotations. We analysed GWAS data with large sample sizes for 155 complex traits and detected pervasive signatures of negative selection with diverse estimates of SNP-based heritability and polygenicity. Projecting these estimates onto a map of genetic architecture obtained from evolutionary simulations revealed relatively strong natural selection on genetic variants associated with cardiorespiratory and cognitive traits and relatively small number of mutational targets for diseases. Averaging across traits, the joint distribution of SNP effect size and MAF varied across functional genomic regions (likely to be a consequence of natural selection), with enrichment in both the number of associated variants and the magnitude of effect sizes in regions such as transcriptional start sites, coding regions and 5'- and 3'-UTRs.
0

Causal associations between risk factors and common diseases inferred from GWAS summary data

Zhihong Zhu et al.May 6, 2020
+8
F
Z
Z
Health risk factors such as body mass index (BMI), serum cholesterol and blood pressure are associated with many common diseases. It often remains unclear whether the risk factors are cause or consequence of disease, or whether the associations are the result of confounding. Genetic methods are useful to infer causality because genetic variants are present from birth and therefore unlikely to be confounded with environmental factors. We develop and apply a method (GSMR) that performs a multi-SNP Mendelian Randomization analysis using summary-level data from large genome-wide association studies (sample sizes of up to 405,072) to test the causal associations of BMI, waist-to-hip ratio, serum cholesterols, blood pressures, height and years of schooling (EduYears) with a range of common diseases. We identify a number of causal associations including a protective effect of LDL-cholesterol against type-2 diabetes (T2D) that might explain the side effects of statins on T2D, a protective effect of EduYears against Alzheimer's disease, and bidirectional associations with opposite effects (e.g. higher BMI increases the risk of T2D but the effect T2D of BMI is negative). HDL-cholesterol has a significant risk effect on age-related macular degeneration, and the effect size remains significant accounting for the other risk factors. Our study develops powerful tools to integrate summary data from large studies to infer causality, and provides important candidates to be prioritized for further studies in medical research and for drug discovery.
0

Identifying gene targets for brain-related traits using transcriptomic and methylomic data from blood

Tingxiang Qi et al.May 7, 2020
+14
J
Y
T
Understanding the difference in genetic regulation of gene expression between brain and blood is important for discovering genes associated with brain-related traits and disorders. Here, we estimate the correlation of genetic effects at the top associated cis-expression (cis-eQTLs or cis-mQTLs) between brain and blood for genes expressed (or CpG sites methylated) in both tissues, while accounting for errors in their estimated effects (r_b). Using publicly available data (n = 72 to 1,366), we find that the genetic effects of cis-eQTLs (P_eQTL < 5e-8) or mQTLs (P_mQTL < 1e-10) are highly correlated between independent brain and blood samples (r_b = 0.70 with SE = 0.015 for cis-eQTL and r_b = 0.78 with SE = 0.006 for cis-mQTLs). Using meta-analyzed brain eQTL/mQTL data (n = 526 to 1,194), we identify 61 genes and 167 DNA methylation (DNAm) sites associated with 4 brain-related traits and disorders. Most of these associations are a subset of the discoveries (97 genes and 295 DNAm sites) using data from blood with larger sample sizes (n = 1,980 to 14,115). We further find that cis-eQTLs with tissue-specific effects are approximately uniformly distributed across all the functional annotation categories, and that mean difference in gene expression level between brain and blood is almost independent of the difference in the corresponding cis-eQTL effect. Our results demonstrate the gain of power in gene discovery for brain-related phenotypes using blood cis-eQTL or cis-mQTL data with large sample sizes.
0

Widespread associations between grey matter structure and the human phenome

Baptiste Couvy‐Duchesne et al.May 7, 2020
+9
F
L
B
The recent availability of large-scale neuroimaging cohorts (here the UK Biobank [UKB] and the Human Connectome Project [HCP]) facilitates deeper characterisation of the relationship between phenotypic and brain architecture variation in humans. We tested the association between 654,386 vertex-wise measures of cortical and subcortical morphology (from T1w and T2w MRI images) and behavioural, cognitive, psychiatric and lifestyle data. We found a significant association of grey-matter structure with 58 out of 167 UKB phenotypes spanning substance use, blood assay results, education or income level, diet, depression, being a twin as well as cognition domains (UKB discovery sample: N=9,888). Twenty-three of the 58 associations replicated (UKB replication sample: N=4,561; HCP, N=1,110). In addition, differences in body size (height, weight, BMI, waist and hip circumference, body fat percentage) could account for a substantial proportion of the association, providing possible insight into previous MRI case-control studies for psychiatric disorders where case status is associated with body mass index. Using the same linear mixed model, we showed that most of the associated characteristics (e.g. age, sex, body size, diabetes, being a twin, maternal smoking, body size) could be significantly predicted using all the brain measurements in out-of-sample prediction. Finally, we demonstrated other applications of our approach including a Region Of Interest (ROI) analysis that retain the vertex-wise complexity and ranking of the information contained across MRI processing options.
4

Learning functional conservation between pig and human to decipher evolutionary mechanisms underlying gene expression and complex trait

Jinghui Li et al.Oct 24, 2023
+9
D
T
J
Abstract The assessment of genomic conservation between human and pig at the functional level can help understand and improve the potential of pig as a human biomedical model. To address this, we developed a Deep learning-based approach to learn the G enomic C onservation at the F unctional level (DeepGCF) between species by integrating 386 and 374 epigenome and transcriptome profiles from human and pig, respectively. DeepGCF demonstrated a better prediction performance compared to the previous functional conservation prediction method. In addition, we showed that the resulting DeepGCF score captures the functional conservation by examining DeepGCF on chromatin states, sequence ontologies, and regulatory variants. Regions with higher DeepGCF score play a more important role in regulatory activities and show heritability enrichment in human complex traits and diseases. Our DeepGCF approach shows a promising application on the comparison of cross-species functional conservation, and the model framework can be easily adapted to other species. By expanding the model to integrate the functional profiles of multiple species, including human, mouse, pig, cattle, and other livestock animals in the future, the functional conservation information will provide additional insight into the genetic and evolutionary mechanisms behind complex traits and diseases.
Load More