AD
Andy Dahl
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
23
(57% Open Access)
Cited by:
305
h-index:
18
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
136

Cross-trait assortative mating is widespread and inflates genetic correlation estimates

Richard Border et al.Mar 23, 2022
The observation of genetic correlations between disparate traits has been interpreted as evidence of widespread pleiotropy, altered theories of human genetic architecture, and spurred considerable research activity across the natural and social sciences. Here, we introduce cross-trait assortative mating (xAM) as an alternative explanation for observed genetic correlations. We observe that xAM is common across a broad array of phenotypes and that phenotypic cross-mate correlation estimates are strongly associated with genetic correlation estimates ( R 2 = 76%). Then, we present theoretical and simulation-based results demonstrating that, under xAM, genetic correlation estimators yield significant estimates even for traits with entirely distinct genetic bases. We demonstrate that existing xAM plausibly accounts for substantial fractions of genetic correlation estimates in two large samples ( N = 827,960). For example, previously reported genetic correlation estimates between many pairs of psychiatric disorders are fully consistent with xAM alone. Finally, we provide evidence for a history of xAM at the genetic level using a novel approach based on cross-trait even/odd chromosome polygenic score correlations. Together, our results demonstrate that previous reports have likely overestimated the true genetic similarity between many phenotypes.
136
Citation13
0
Save
32

Fast and powerful statistical method for context-specific QTL mapping in multi-context genomic studies

Andrew Lu et al.Jun 18, 2021
Abstract Recent studies suggest that context-specific eQTLs underlie genetic risk factors for complex diseases. However, methods for identifying them are still nascent, limiting their comprehensive characterization and downstream interpretation of disease-associated variants. Here, we introduce FastGxC, a method to efficiently and powerfully map context-specific eQTLs by leveraging the correlation structure of multi-context studies. We first show via simulations that FastGxC is orders of magnitude more powerful and computationally efficient than previous approaches, making previously year-long computations possible in minutes. We next apply FastGxC to bulk multi-tissue and single-cell RNA-seq data sets to produce the most comprehensive tissue- and cell-type-specific eQTL maps to date. We then validate these maps by establishing that context-specific eQTLs are enriched in corresponding functional genomic annotations. Finally, we examine the relationship between context-specific eQTLs and human disease and show that FastGxC context-specific eQTLs provide a three-fold increase in precision to identify relevant tissues and cell types for GWAS variants than standard eQTLs. In summary, FastGxC enables the construction of context-specific eQTL maps that can be used to understand the context-specific gene regulatory mechanisms underlying complex human diseases.
32
Citation9
0
Save
0

On the cross-population generalizability of gene expression prediction models

Kevin Keys et al.Mar 5, 2019
Abstract The genetic control of gene expression is a core component of human physiology. For the past several years, transcriptome-wide association studies have leveraged large datasets of linked genotype and RNA sequencing information to create a powerful gene-based test of association that has been used in dozens of studies. While numerous discoveries have been made, the populations in the training data are overwhelmingly of European descent, and little is known about the generalizability of these models to other populations. Here, we test for cross-population generalizability of gene expression prediction models using a dataset of African American individuals with RNA-Seq data in whole blood. We find that the default models trained in large datasets such as GTEx and DGN fare poorly in African Americans, with a notable reduction in prediction accuracy when compared to European Americans. We replicate these limitations in cross-population generalizability using the five populations in the GEUVADIS dataset. Via realistic simulations of both populations and gene expression, we show that accurate cross-population generalizability of transcriptome prediction only arises when eQTL architecture is substantially shared across populations. In contrast, models with non-identical eQTLs showed patterns similar to real-world data. Therefore, generating RNA-Seq data in diverse populations is a critical step towards multi-ethnic utility of gene expression prediction. Author summary Advances in RNA sequencing technology have reduced the cost of measuring gene expression at a genome-wide level. However, sequencing enough human RNA samples for adequately-powered disease association studies remains prohibitively costly. To this end, modern transcriptome-wide association analysis tools leverage existing paired genotype-expression datasets by creating models to predict gene expression using genotypes. These predictive models enable researchers to perform cost-effective association tests with gene expression in independently genotyped samples. However, most of these models use European reference data, and the extent to which gene expression prediction models work across populations is not fully resolved. We observe that these models predict gene expression worse than expected in a dataset of African-Americans when derived from European-descent individuals. Using simulations, we show that gene expression predictive model performance depends on both the amount of shared genotype predictors as well as the genetic relatedness between populations. Our findings suggest a need to carefully select reference populations for prediction and point to a pressing need for more genetically diverse genotype-expression datasets.
0
Citation8
0
Save
0

Adjusting for principal components of molecular phenotypes induces replicating false positives

Andy Dahl et al.Mar 26, 2017
Abstract High-throughput measurements of molecular phenotypes provide an unprecedented opportunity to model cellular processes and their impact on disease. Such highly-structured data is strongly confounded, and principal components and their variants reliably estimate latent confounders. Conditioning on PCs in downstream analyses is known to improve power and reduce multiple-testing miscalibration and is an indispensable element of thousands of published functional genomic analyses. Further clarifying this approach is of fundamental interest to the genomics and statistics communities. We uncover a novel bias induced by PC conditioning and provide an analytic, deterministic and intuitive approximation. The bias exists because PCs are, roughly, unshielded colliders on a causal path: because PCs partially incorporate a causal genotype effect on one phenotype, the genotype becomes correlated with every phenotype conditional on PCs. We empirically quantify this bias in realistic simulations. For small genetic effects, a nearly negligible bias is observed for all tested PC variants. For large genetic effects, or other differential covariates, dramatic false positives can arise. Though one PC variant (supervised SVA) largely avoids this bias, it is computationally prohibitive genome-wide; further, its immunity to this bias is novel. Our analysis informs best practices for confounder correction in genomic studies.
0
Citation5
0
Save
78

Phenotype integration improves power and preserves specificity in biobank-based genetic studies of MDD

Andy Dahl et al.Aug 15, 2022
Abstract Biobanks often contain several phenotypes relevant to a given disorder, and researchers face complex tradeoffs between shallow phenotypes (high sample size, low specificity and sensitivity) and deep phenotypes (low sample size, high specificity and sensitivity). Here, we study an extreme case: Major Depressive Disorder (MDD) in UK Biobank. Previous studies found that shallow and deep MDD phenotypes have qualitatively distinct genetic architectures, but it remains unclear which are optimal for scientific study or clinical prediction. We propose a new framework to get the best of both worlds by integrating together information across hundreds of MDD-relevant phenotypes. First, we use phenotype imputation to increase sample size for the deepest available MDD phenotype, which dramatically improves GWAS power (increases #loci ~10 fold) and PRS accuracy (increases R2 ~2 fold). Further, we show the genetic architecture of the imputed phenotype remains specific to MDD using genetic correlation, PRS prediction in external clinical cohorts, and a novel PRS-based pleiotropy metric. We also develop a complementary approach to improve specificity of GWAS on shallow MDD phenotypes by adjusting for phenome-wide PCs. Finally, we study phenotype integration at the level of GWAS summary statistics, which can increase GWAS and PRS power but introduces non-MDD-specific signals. Our work provides a simple and scalable recipe to improve genetic studies in large biobanks by combining the sample size of shallow phenotypes with the sensitivity and specificity of deep phenotypes.
78
Citation5
0
Save
0

Universal latent axes capturing Parkinson’s patient deep phenotypic variation reveals patients with a high genetic risk for Alzheimer’s disease are more likely to develop a more aggressive form of Parkinson’s

Cynthia Sandor et al.May 31, 2019
Abstract The generation of deeply phenotyped patient cohorts offers an enormous potential to identify disease subtypes but are currently limited by the cohort size and the heterogeneity of the clinical assessments collected across different cohorts. Identifying the universal axes of clinal severity and progression is key to accelerating our understanding of how disease manifests and progresses. These universal axes would accelerate our understanding of how Parkinson’s disease (PD) manifests and progresses through which patients may be appropriately compared appropriately stratified, and personalised therapeutic strategies and treatments can be developed and targeted. We developed a Bayesian multiple phenotype mixed model incorporating the genetic relationships between individuals which is able to reduce a wide-array of different clinical measurements into a smaller number of continuous underlying factors named phenotypic axis. We identify three principal axes of PD patient phenotypic variation which are reproducibly found across three independent, deeply and diversely phenotyped cohorts. Together they explain over 75% of the observed clinical variation and remain robustly captured with a fraction of the clinically-recorded features. The most influential axis was associated with the genetic risk of Alzheimer’s disease (AD) and involves genetic pathways associated with neuroinflammation. Our results suggest PD patients with a high genetic risk for AD are more likely to develop a more aggressive form of PD including, but not limited to, dementia.
0
Citation2
0
Save
21

A robust model for cell type-specific interindividual variation in single-cell RNA sequencing data

Minhui Chen et al.Feb 27, 2023
Abstract The development of single-cell RNA sequencing (scRNA-seq) offers opportunities to characterize cellular heterogeneity at unprecedented resolution. Although scRNA-seq has been widely used to identify and characterize gene expression variation across cell types and cell states based on their average gene expression profiles, most studies ignore variation across individual donors. Modelling this inter-individual variation could improve statistical power to detect cell type-specific biology and inform the genes and cell types that underlying complex traits. We therefore develop a new model to detect and quantify cell type-specific variation across individuals called CTMM (Cell Type-specific linear Mixed Model). CTMM operates on cell type-specific pseudobulk expression and is fit with efficient methods that scale to hundreds of samples. We use extensive simulations to show that CTMM is powerful and unbiased in realistic settings. We also derive calibrated tests for cell type-specific interindividual variation, which is challenging given the modest sample sizes in scRNA-seq data. We apply CTMM to scRNA-seq data from human induced pluripotent stem cells to characterize the transcriptomic variation across donors as cells differentiate into endoderm. We find that almost 100% of transcriptome-wide variability between donors is differentiation stage-specific. CTMM also identifies individual genes with statistically significant stage-specific variability across samples, including 61 genes that do not have significant stage-specific mean expression. Finally, we extend CTMM to partition interindividual covariance between stages, which recapitulates the overall differentiation trajectory. Overall, CTMM is a powerful tool to characterize a novel dimension of cell type-specific biology in scRNA-seq.
21
Citation1
0
Save
66

Factorizing polygenic epistasis improves prediction and uncovers biological pathways in complex traits

David Tang et al.Nov 30, 2022
Abstract Epistasis is central in many domains of biology, but it has not yet proven useful for complex traits. This is partly because complex trait epistasis involves polygenic interactions that are poorly captured in current models. To address this gap, we develop a new model called Epistasis Factor Analysis (EFA). EFA assumes that polygenic epistasis can be factorized into interactions between a few Epistasis Factors (EFs), which represent latent polygenic components of the observed complex trait. The statistical goals of EFA are to improve polygenic prediction and to increase power to detect epistasis, while the biological goal is to unravel genetic effects into more-homogeneous units. We mathematically characterize EFA and use simulations to show that EFA outperforms current epistasis models when its assumptions approximately hold. Applied to predicting yeast growth rates, EFA outperforms the additive model for several traits with large epistasis heritability and uniformly outperforms the standard epistasis model. We replicate these prediction improvements in a second dataset. We then apply EFA to four previously-characterized traits in the UK Biobank and find statistically significant epistasis in all four, including two that are robust to scale transformation. Moreover, we find that the inferred EFs partly recover pre-defined biological pathways for two of the traits. Our results demonstrate that more realistic models can identify biologically and statistically meaningful epistasis in complex traits, indicating that epistasis has potential for precision medicine and characterizing the biology underlying GWAS results.
66
Citation1
0
Save
Load More