YL
Yanyu Liang
Author with expertise in Genomic Studies and Association Analyses
University of Chicago, Carnegie Mellon University
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
11
(36% Open Access)
Cited by:
8
h-index:
11
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
43

Polygenic transcriptome risk scores improve portability of polygenic risk scores across ancestries

Yanyu Liang et al.Oct 24, 2023
+4
A
M
Y
Abstract Polygenic risk scores (PRS) are on course to translate the results of genome-wide association studies (GWAS) into clinical practice. To date, most GWAS have been based on individuals of European-ancestry, meaning that the utility of PRS for non-European populations is limited because SNP effects and LD patterns may not be conserved across populations. We hypothesized that cross population prediction at the level of genes rather than SNPs would be more effective, since the effect of genes on traits is likely to be more highly conserved. Therefore, we developed a framework to convert effect sizes at SNPs into effect sizes for genetically predicted transcript abundance, which we used for prediction in non-European populations. We compared this approach, which we call polygenic transcriptome risk scores (PTRS), to PRS, using data from 17 quantitative traits that were measured in multiple ancestries (European, African, East Asian, and South Asian) by UK Biobank. On average, PTRS using whole blood predicted transcriptome had lower absolute prediction accuracy than PRS, as we expected since not all regulatory processes were captured by a single tissue. However, as hypothesized, we found that in the African target set, the portability (prediction accuracy relative to the European reference set) was significantly higher for PTRS than PRS (p=0.03) with additional gain when transcriptomic prediction models ancestry matched the target population (p=0.021). Taken together, our results suggest that using PTRS can improve prediction in underrepresented populations and that increasing the diversity of transcriptomic data may be an effective way to improve portability of GWAS results between populations and help reduce health disparities.
6

RatXcan: Framework for translating genetic results between species via transcriptome-wide association analyses

Natasha Santhanam et al.Oct 24, 2023
+28
Y
S
N
Abstract We developed a framework for identifying trait-associated genes in rats and facilitating the transfer of polygenic evidence across species by expanding the transcriptome-wide association (TWAS) approach to rats. Our analysis successfully trained transcript predictors for over 8000 genes in each of the five brain regions of rats, revealing several shared properties of gene regulation with humans. Moreover, mirroring trends observed in humans, our findings showed that sparse predictors using variants in cis are more effective than polygenic predictors and that gene expression prediction in rats is highly correlated across brain regions. Importantly, our analysis also identified a significant overlap between genes associated with rat and human body length and BMI, indicating rat models may be useful for studying the genetic basis of complex traits in humans. RatXcan represents a valuable tool for uncovering shared biological mechanisms of complex traits across species, with potential applications in a wide range of research fields.
6
Citation2
0
Save
0

PhenomeXcan: Mapping the genome to the phenome through the transcriptome

Milton Pividori et al.May 6, 2020
+6
A
P
M
Large-scale genomic and transcriptomic initiatives offer unprecedented ability to study the biology of complex traits and identify target genes for precision prevention or therapy. Translation to clinical contexts, however, has been slow and challenging due to lack of biological context for identified variant-level associations. Moreover, many translational researchers lack the computational or analytic infrastructures required to fully use these resources. We integrate genome-wide association study (GWAS) summary statistics from multiple publicly available sources and data from Genotype-Tissue Expression (GTEx) v8 using PrediXcan and provide a user-friendly platform for translational researchers based on state-of-the-art algorithms. We develop a novel Bayesian colocalization method, fastENLOC, to prioritize the most likely causal gene-trait associations. Our resource, PhenomeXcan, synthesizes 8.87 million variants from GWAS on 4,091 traits with transcriptome regulation data from 49 tissues in GTEx v8 into an innovative, gene-based resource including 22,255 genes. Across the entire genome/phenome space, we find 65,603 significant associations (Bonferroni-corrected p-value of 5.5 × 10−10), where 19,579 (29.8 percent) were colocalized (locus regional colocalization probability > 0.1). We successfully replicate associations from PheWAS Catalog (AUC=0.61) and OMIM (AUC=0.64). We provide examples of (a) finding novel and underreported genome-to-phenome associations, (b) exploring complex gene-trait clusters within PhenomeXcan, (c) studying phenome-to-phenome relationships between common and rare diseases via further integration of PhenomeXcan with ClinVar, and (d) evaluating potential therapeutic targets. PhenomeXcan ([phenomexcan.org][1]) broadens access to complex genomic and transcriptomic data and empowers translational researchers.One-Sentence Summary PhenomeXcan is a gene-based resource of gene-trait associations with biological context that supports translational research. [1]: http://phenomexcan.org
11

On the problem of inflation in transcriptome-wide association studies

Yanyu Liang et al.Oct 21, 2023
H
F
Y
Hundreds of thousands of loci have been associated with complex traits via genome-wide association studies (GWAS), but an understanding of the mechanistic connection between GWAS loci and disease remains elusive. Genetic predictors of molecular traits are useful for identifying the mediating roles of molecular traits and prioritizing actionable targets for intervention, as demonstrated in transcriptome-wide association studies (TWAS) and related studies. Given the widespread polygenicity of complex traits, it is imperative to understand the effect of polygenicity on the validity of these mediator-trait association tests. We found that for highly polygenic target traits, the standard test based on linear regression is inflated (E χ^2_twas > 1). This inflation has implications for all TWAS and related methods where the complex trait can be highly polygenic---even if the mediating trait is sparse. We derive an asymptotic expression of the inflation, estimate the inflation for gene expression, metabolites, and brain image derived features, and propose a solution to correct the inflation.
0

Fine-mapping and QTL tissue-sharing information improve causal gene identification and transcriptome prediction performance

Alvaro Barbeira et al.May 7, 2020
+7
R
Y
A
The integration of transcriptomic studies and GWAS (genome-wide association studies) via imputed expression has seen extensive application in recent years, enabling the functional characterization and causal gene prioritization of GWAS loci. However, the techniques for imputing transcriptomic traits from DNA variation remain underdeveloped. Furthermore, associations found when linking eQTL studies to complex traits through methods like PrediXcan can lead to false positives due to linkage disequilibrium between distinct causal variants. Therefore, the best prediction performance models may not necessarily lead to more reliable causal gene discovery. With the goal of improving discoveries without increasing false positives, we develop and compare multiple transcriptomic imputation approaches using the most recent GTEx release of expression and splicing data on 17,382 RNA-sequencing samples from 948 post-mortem donors in 54 tissues. We find that informing prediction models with posterior causal probability from fine-mapping (dap-g) and borrowing information across tissues (mashr) lead to better performance in terms of number and proportion of significant associations that are colocalized and the proportion of silver standard genes as indicated by precision-recall and ROC (Receiver Operating Characteristic) curves. All prediction models are made publicly available at predictdb.org.
0

A statistical framework for mapping risk genes from de novo mutations in whole-genome sequencing studies

Yuwen Liu et al.May 6, 2020
+17
A
Y
Y
Analysis of de novo mutations (DNMs) from sequencing data of nuclear families has identified risk genes for many complex diseases, including multiple neurodevelopmental and psychiatric disorders. Most of these efforts have focused on mutations in protein-coding sequences. Evidence from genome-wide association studies (GWAS) strongly suggests that variants important to human diseases often lie in non-coding regions. Extending DNM-based approaches to non-coding sequences is, however, challenging because the functional significance of non-coding mutations is difficult to predict. We propose a new statistical framework for analyzing DNMs from whole-genome sequencing (WGS) data. This method, TADA-Annotations (TADA-A), is a major advance of the TADA method we developed earlier for DNM analysis in coding regions. TADA-A is able to incorporate many functional annotations such as conservation and enhancer marks, learn from data which annotations are informative of pathogenic mutations and combine both coding and non-coding mutations at the gene level to detect risk genes. It also supports meta-analysis of multiple DNM studies, while adjusting for study-specific technical effects. We applied TADA-A to WGS data of ~300 autism family trios across five studies, and discovered several new autism risk genes. The software is freely available for all research uses.
0
0
Save
2

Obtaining polygenic transcriptome risk scores (PTRS) directly from GWAS summary statistics

Yanyu LiangOct 24, 2023
Y
Abstract Polygenic Transcriptome Risk Scores (PTRS) are variations of Polygenic Risk Scores (PRS) that use genetically predicted transcriptome as features for prediction instead of directly using genetic variants. We have shown that when PTRS is combined with PRS, they can yield improved prediction performance and portability across populations (Liang et al., 2022). Given the difficulty of training PTRS using large scale individual-level data (due to both computational burden and the lack of data access), we developed a user friendly software that infers PTRS using GWAS summary results and reference LD. We tested three summary statistics-based PTRS approaches: i) Clumping and thresholding (clump-PTRS), keeping trait associated genes while removing highly correlated ones; ii) Summary statistics-based elastic net PTRS (S-EN-PTRS), an extension of lassosum (Mak et al., 2017) to predicted transcriptome; iii) Naive-PTRS, the sum of predicted expressions of significantly associated genes weighted by PrediXcan-estimated effect sizes (Gamazon et al., 2015). Despite reports that individual-level trained elastic net PTRS outperformed clump-PTRS in (Liang et al., 2022), for most of the 11 traits used in the comparison, clump-PTRS outperformed S-EN-PTRS, which outperformed naive-PTRS.
8

Imputing the parental origin of the sibling’s haplotype from parental phenotypes

Yanyu LiangOct 24, 2023
Y
Abstract To recruit cases for late-onset disease study is challenging since these diseases occur in elder people. Moreover, typically we have a very limited number of late-onset disease cases in Biobank data. But, on the other hand, the parental disease status may be available by questionnaire. Because of this, methods have been developed to utilize parental disease status instead Liu et al. (2017); Hujoel et al. (2020). In these approaches, the late-onset phenotype of the participant is imputed from parental statuses. And, downstream, a genome-wide association study (GWAS) is performed using the participant’s genotype and imputed phenotype. In this paper, we take another view on utilizing parental phenotypes. We treat this problem as missing parental genotype rather than missing participant’s phenotype. First, we propose an imputation scheme to infer the parental origin of the participant’s genotype from a collection of extra parental phenotypes (non-focal phenotypes) and the participant’s genotype. Second, we propose a computationally efficient approach to incorporate the imputed parental origin information into the downstream GWAS. We explore the feasibility of the proposed two-step approach on simulated and real data. And we derive the power increase of GWAS as a function of imputation quality. These results indicate that the imputation scheme needs about 100 non-focal phenotypes to achieve enough accuracy to facilitate the GWAS downstream.
0

The GTEx Consortium atlas of genetic regulatory effects across human tissues

François Aguet et al.May 6, 2020
+49
R
A
F
The Genotype-Tissue Expression (GTEx) project was established to characterize genetic effects on the transcriptome across human tissues, and to link these regulatory mechanisms to trait and disease associations. Here, we present analyses of the v8 data, based on 17,382 RNA-sequencing samples from 54 tissues of 948 post-mortem donors. We comprehensively characterize genetic associations for gene expression and splicing in cis and trans, showing that regulatory associations are found for almost all genes, and describe the underlying molecular mechanisms and their contribution to allelic heterogeneity and pleiotropy of complex traits. Leveraging the large diversity of tissues, we provide insights into the tissue-specificity of genetic effects, and show that cell type composition is a key factor in understanding gene regulatory mechanisms in human tissues.
0

Scalable unified framework of total and allele-specific counts for cis-QTL, fine-mapping, and prediction

Yanyu Liang et al.Jun 10, 2024
+2
A
F
Y
Abstract Genome-wide association studies (GWAS) have been highly successful in identifying genomic loci associated with complex traits. However, identification of the causal genes that mediate these associations remains challenging, and many approaches integrating transcriptomic data with GWAS have been proposed. However, there currently exist no computationally scalable methods that integrate total and allele-specific gene expression to maximize power to detect genetic effects on gene expression. Here, we describe a unified framework that is scalable to studies with thousands of samples. Using simulations and data from GTEx, we demonstrate an average power gain equivalent to a 29% increase in sample size for genes with sufficient allele-specific read coverage. We provide a suite of freely available tools, mixQTL, mixFine, and mixPred, that apply this framework for mapping of quantitative trait loci, fine-mapping, and prediction.
Load More