PV
Peter VandeHaar
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(44% Open Access)
Cited by:
1,044
h-index:
24
/
i10-index:
32
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies

Wei Zhou et al.Aug 8, 2018
+16
L
J
W
In genome-wide association studies (GWAS) for thousands of phenotypes in large biobanks, most binary traits have substantially fewer cases than controls. Both of the widely used approaches, the linear mixed model and the recently proposed logistic mixed model, perform poorly; they produce large type I error rates when used to analyze unbalanced case-control phenotypes. Here we propose a scalable and accurate generalized mixed model association test that uses the saddlepoint approximation to calibrate the distribution of score test statistics. This method, SAIGE (Scalable and Accurate Implementation of GEneralized mixed model), provides accurate P values even when case-control ratios are extremely unbalanced. SAIGE uses state-of-art optimization strategies to reduce computational costs; hence, it is applicable to GWAS for thousands of phenotypes by large biobanks. Through the analysis of UK Biobank data of 408,961 samples from white British participants with European ancestry for > 1,400 binary phenotypes, we show that SAIGE can efficiently analyze large sample data, controlling for unbalanced case-control ratios and sample relatedness. SAIGE (Scalable and Accurate Implementation of GEneralized mixed model) is a generalized mixed model association test that can efficiently analyze large data sets while controlling for unbalanced case-control ratios and sample relatedness, as shown by applying SAIGE to the UK Biobank data for > 1,400 binary phenotypes.
1
Citation1,026
0
Save
28

LocusZoom.js: Interactive and embeddable visualization of genetic association study results

Andrew Boughton et al.Jan 4, 2021
+4
M
R
A
Abstract LocusZoom.js is a JavaScript library for creating interactive web-based visualizations of genetic association study results. It can display one or more traits in the context of relevant biological data (such as gene models and other genomic annotation), and allows interactive refinement of analysis models (by selecting linkage disequilibrium reference panels, identifying sets of likely causal variants, or comparisons to the GWAS catalog). It can be embedded in web pages to enable data sharing and exploration. Views can be customized and extended to display other data types such as phenome-wide association study (PheWAS) results, chromatin co-accessibility, or eQTL measurements. A new web upload service harmonizes datasets, adds annotations, and makes it easy to explore user-provided result sets. Availability LocusZoom.js is open-source software under a permissive MIT license. Code and documentation are available at: https://github.com/statgen/locuszoom/ . Installable packages are also distributed via NPM. Additional features are provided as standalone libraries to promote reuse. Use with your own GWAS results at https://my.locuszoom.org/ . Contact locuszoom@googlegroups.com
28
Citation15
0
Save
0

Rare and Common Genetic Variation Underlying Atrial Fibrillation Risk

Oliver Vad et al.Jun 26, 2024
+196
C
L
O
Importance Atrial fibrillation (AF) has a substantial genetic component. The importance of polygenic risk is well established, while the contribution of rare variants to disease risk warrants characterization in large cohorts. Objective To identify rare predicted loss-of-function (pLOF) variants associated with AF and elucidate their role in risk of AF, cardiomyopathy (CM), and heart failure (HF) in combination with a polygenic risk score (PRS). Design, Setting, and Participants This was a genetic association and nested case-control study. The impact of rare pLOF variants was evaluated on the risk of incident AF. HF and CM were assessed in cause-specific Cox regressions. End of follow-up was July 1, 2022. Data were analyzed from January to October 2023. The UK Biobank enrolled 502 480 individuals aged 40 to 69 years at inclusion in the United Kingdom between March 13, 2006, and October 1, 2010. UK residents of European ancestry were included. Individuals with prior diagnosis of AF were excluded from analyses of incident AF. Exposures Rare pLOF variants and an AF PRS. Main Outcomes and Measures Risk of AF and incident HF or CM prior to and subsequent to AF diagnosis. Results A total of 403 990 individuals (218 489 [54.1%] female) with a median (IQR) age of 58 (51-63) years were included; 24 447 were diagnosed with incident AF over a median (IQR) follow-up period of 13.3 (12.4-14.0) years. Rare pLOF variants in 6 genes ( TTN , RPL3L , PKP2 , CTNNA3 , KDM5B , and C10orf71 ) were associated with AF. Of these, TTN , RPL3L , PKP2 , CTNNA3 , and KDM5B replicated in an external cohort. Combined with high PRS, rare pLOF variants conferred an odds ratio of 7.08 (95% CI, 6.03-8.28) for AF. Carriers with high PRS also had a substantial 10-year risk of AF (16% in female individuals and 24% in male individuals older than 60 years). Rare pLOF variants were associated with increased risk of CM both prior to AF (hazard ratio [HR], 3.13; 95% CI, 2.24-4.36) and subsequent to AF (HR, 2.98; 95% CI, 1.89-4.69). Conclusions and Relevance Rare and common genetic variation were associated with an increased risk of AF. The findings provide insights into the genetic underpinnings of AF and may aid in future genetic risk stratification.
0

Exploring Various Polygenic Risk Scores for Skin Cancer in the Phenomes of the Michigan Genomics Initiative and the UK Biobank with a Visual Catalog:PRSWeb

Lars Fritsche et al.Aug 4, 2018
+17
P
L
L
Abstract Polygenic risk scores (PRS) are designed to serve as a single summary measure, condensing information from a large number of genetic variants associated with a disease. They have been used for stratification and prediction of disease risk. The construction of a PRS often depends on the purpose of the study, the available data/summary estimates, and the underlying genetic architecture of a disease. In this paper, we consider several choices for constructing a PRS using summary data obtained from various publicly-available sources including the UK Biobank and evaluate their abilities to predict outcomes derived from electronic health records (EHR). Weexamine the three most common skin cancer subtypes in the USA: basal cellcarcinoma, cutaneous squamous cell carcinoma, and melanoma. The genetic risk profiles of subtypes may consist of both shared and unique elements and we construct PRS to understand the common versus distinct etiology. This study is conducted using data from 30,702 unrelated, genotyped patients of recent European descent from the Michigan Genomics Initiative (MGI), a longitudinal biorepository effort within Michigan Medicine. Using these PRS for various skin cancer subtypes, we conduct a phenome-wide association study (PheWAS) within the MGI data to evaluate their association with secondary traits. PheWAS results are then replicated using population-based UK Biobank data. We develop an accompanying visual catalog called PRSweb that provides detailed PheWAS results and allows users to directly compare different PRS construction methods. The results of this study can provide guidance regarding PRS construction in future PRS-PheWAS studies using EHR data involving disease subtypes. Author summary In the study of genetically complex diseases, polygenic risk scores synthesize information from multiple genetic risk factors to provide insight into a patient’s risk of developing a disease based on his/her genetic profile. These risk scores can be explored in conjunction with health and disease information available in the electronic medical records. They may be associated with diseases that may be related to or precursors of the underlying disease of interest. Limited work is available guiding risk score construction when the goal is to identify associations across the medical phenome. In this paper, we compare different polygenic risk score construction methods in terms of their relationships with the medical phenome. We further propose methods for using these risk scores to decouple the shared and unique genetic profiles of related diseases and to explore related diseases’ shared and unique secondary associations. Leveraging and harnessing the rich data resources of the Michigan Genomics Initiative, a biorepository effort at Michigan Medicine, and the larger population-based UK Biobank study, we investigated the performance of genetic risk profiling methods for the three most common types of skin cancer: melanoma, basal cell carcinoma and squamous cell carcinoma.
0
Citation1
0
Save
0

A powerful subset-based gene-set analysis method identifies novel associations and improves interpretation in UK Biobank

Diptavo Dutta et al.Oct 10, 2019
+4
L
P
D
A test of association between the phenotype and a set of genes within a biological pathway can be complementary to single variant or single gene association analysis and provide further insights into the genetic architecture of complex phenotypes. Although multiple methods exist to perform such a gene-set analysis, most have low statistical power when only a small fraction of the genes are associated with the phenotype. Further, since existing methods cannot identify possible genes driving association signals, interpreting results of such association in terms of the underlying genetic mechanism is challenging. Here, we introduce Gene-set analysis Association Using Sparse Signals (GAUSS), a method for gene-set association analysis with GWAS summary statistics. In addition to providing a p-value for association, GAUSS identifies the subset of genes that have the maximal evidence of association and appears to drive the association. Using pre-computed correlation structure among test statistics from a reference panel, the p-value calculation is substantially faster compared to other permutation or simulation-based approaches. Our numerical experiments show that GAUSS can increase power over several existing methods while controlling type-I error under a variety of association models. Through the analysis of summary statistics from the UK Biobank data for 1,403 phenotypes, we show that GAUSS is scalable and can identify associations across many phenotypes and gene-sets.
0

UK-Biobank Whole Exome Sequence Binary Phenome Analysis with Robust Region-based Rare Variant Test

Zhangchen Zhao et al.Jul 11, 2019
+3
W
L
Z
In biobank data analysis, most binary phenotypes have unbalanced case-control ratios, which can cause inflation of type I error rates. Recently, a saddlepoint approximation (SPA) based single variant test has been developed to provide an accurate and scalable method to test for associations of such phenotypes. For gene- or region-based multiple variant tests, a few methods exist which adjust for unbalanced case-control ratios; however, these methods are either less accurate when case-control ratios are extremely unbalanced or not scalable for large data analyses. To address these problems, we propose SKAT/SKAT-O type region-based tests, where the single-variant score statistic is calibrated based on SPA and Efficient Resampling (ER). Through simulation studies, we show that the proposed method provides well-calibrated p-values. In contrast, the unadjusted approach has greatly inflated type I error rates (90 times of exome-wide α =2.5×10-6) when the case-control ratio is 1:99. Additionally, the proposed method has similar computation time as the unadjusted approaches and is scalable for large sample data. Our UK Biobank whole exome sequence data analysis of 45,596 unrelated European samples and 791 PheCode phenotypes identified 10 rare variant associations with p-value < 10-7, including the associations between JAK2 and myeloproliferative disease, TNC and large cell lymphoma and F11 and congenital coagulation defects. All analysis summary results are publicly available through a web-based visual server.
0

Cancer PRSweb – an Online Repository with Polygenic Risk Scores (PRS) for Major Cancer Traits and Their Phenome-wide Exploration in Two Independent Biobanks

Lars Fritsche et al.Jan 23, 2020
+6
L
S
L
To facilitate scientific collaboration on polygenic risk scores (PRS) research, we created an extensive PRS online repository for 49 common cancer traits integrating freely available genome-wide association studies (GWAS) summary statistics from three sources: published GWAS, the NHGRI-EBI GWAS Catalog, and UK Biobank-based GWAS. Our framework condenses these summary statistics into PRS using various approaches such as linkage disequilibrium pruning / p-value thresholding (fixed or data-adaptively optimized thresholds) and penalized, genome-wide effect size weighting. We evaluated the PRS in two biobanks: the Michigan Genomics Initiative (MGI), a longitudinal biorepository effort at Michigan Medicine, and the population-based UK Biobank (UKB). For each PRS construct, we provide measures on predictive performance, calibration, and discrimination. Besides PRS evaluation, the Cancer-PRSweb platform features construct downloads and phenome-wide PRS association study results (PRS-PheWAS) for predictive PRS. We expect this integrated platform to accelerate PRS-related cancer research.
0

Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies

Wei Zhou et al.Nov 1, 2017
+18
M
L
W
In genome-wide association studies (GWAS) for thousands of phenotypes in large biobanks, most binary traits have substantially fewer cases than controls. Both of the widely used approaches, linear mixed model and the recently proposed logistic mixed model, perform poorly -- producing large type I error rates -- in the analysis of phenotypes with unbalanced case-control ratios. Here we propose a scalable and accurate generalized mixed model association test that uses the saddlepoint approximation (SPA) to calibrate the distribution of score test statistics. This method, SAIGE, provides accurate p-values even when case-control ratios are extremely unbalanced. It utilizes state-of-art optimization strategies to reduce computational time and memory cost of generalized mixed model. The computation cost linearly depends on sample size, and hence can be applicable to GWAS for thousands of phenotypes by large biobanks. Through the analysis of UK-Biobank data of 408,961 white British European-ancestry samples, we show that SAIGE can efficiently analyze large sample data, controlling for unbalanced case-control ratios and sample relatedness.
2

FIVEx: an interactive multi-tissue eQTL browser"

Alan Kwong et al.Jan 24, 2021
+4
M
A
A
Expression quantitative trait loci (eQTLs) characterize the associations between genetic variation and gene expression to provide insights into tissue-specific gene regulation.Interactive visualization of tissue-specific eQTLs can facilitateourunderstanding of functional variants relevant to disease-related traits. However, combiningthe multi-dimensional nature of eQTLs into a concise and informative visualization ischallenging. Existing eQTL visualization tools provide useful ways to summarize the unprecedented scale of transcriptomic data but are not necessarily tailored to answer questions aboutthefunctional interpretations of trait-associated variants or other variants of interest. We developed FIVEx, an interactive eQTL browser with an intuitive interface tailored to the functional interpretation of associated variants. It features the ability to navigate seamlessly between different data views while providing relevant tissue-and locus-specific information to offer users a better understanding of population-scale multi-tissue transcriptomic profiles. Our implementation of the FIVEx browser on the Gene-Tissue Expression (GTEx) dataset providesimportant insights for understandingpotential tissue-specific regulatory mechanisms underlying trait-associated signals.