AV
Anurag Verma
Author with expertise in Genomic Studies and Association Analyses
University of Pennsylvania, Teerthanker Mahaveer University, Translational Therapeutics (United States)
+ 13 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
12
(67% Open Access)
Cited by:
32
h-index:
34
/
i10-index:
74
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

A Saturated Map of Common Genetic Variants Associated with Human Height from 5.4 Million Individuals of Diverse Ancestries

Loïc Yengo et al.Jan 12, 2022
+554
E
S
L
ABSTRACT Common SNPs are predicted to collectively explain 40-50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes. Here we show, using GWAS data from 5.4 million individuals of diverse ancestries, that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a median size of ~90 kb, covering ~21% of the genome. The density of independent associations varies across the genome and the regions of elevated density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs account for 40% of phenotypic variance in European ancestry populations but only ~10%-20% in other ancestries. Effect sizes, associated regions, and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely explained by linkage disequilibrium and allele frequency differences within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than needed to implicate causal genes and variants. Overall, this study, the largest GWAS to date, provides an unprecedented saturated map of specific genomic regions containing the vast majority of common height-associated variants.
0

Diversity and scale: Genetic architecture of 2068 traits in the VA Million Veteran Program

Anurag Verma et al.Aug 23, 2024
+68
A
J
A
One of the justifiable criticisms of human genetic studies is the underrepresentation of participants from diverse populations. Lack of inclusion must be addressed at-scale to identify causal disease factors and understand the genetic causes of health disparities. We present genome-wide associations for 2068 traits from 635,969 participants in the Department of Veterans Affairs Million Veteran Program, a longitudinal study of diverse United States Veterans. Systematic analysis revealed 13,672 genomic risk loci; 1608 were only significant after including non-European populations. Fine-mapping identified causal variants at 6318 signals across 613 traits. One-third ( n = 2069) were identified in participants from non-European populations. This reveals a broadly similar genetic architecture across populations, highlights genetic insights gained from underrepresented groups, and presents an extensive atlas of genetic associations.
16

hudson: A User-Friendly R Package to Extend Manhattan Plots

Anastasia Lucas et al.Oct 24, 2023
M
A
A
Abstract The Manhattan plot is one of the most widely used visualization techniques when plotting summary statistics from genome-wide or phenome-wide association studies. While there are a number of existing tools to create these plots, there is room for extending their utility to satisfy increasingly complex and comprehensive analyses as well as the need for comparisons between different sets of results or between discovery and replication datasets. The R package presented here, hudson , provides user-friendly plotting functions intended for use with genome, phenome, and exposome-wide association studies, but its flexible framework can be utilized for a wide variety genome-wide analyses. Further, we have extended these figures to allow for interactive elements to facilitate results exploration for the ever-increasing large-scale dimensionality of these data. hudson can be obtained from https://github.com/RitchieLab/hudson .
16
Paper
Citation4
0
Save
4

netCRS: Network-based comorbidity risk score for prediction of myocardial infarction using biobank-scaled PheWAS data

Yonghyun Nam et al.Oct 24, 2023
+4
A
S
Y
The polygenic risk score (PRS) can help to identify individuals’ genetic susceptibility for various diseases by combining patient genetic profiles and identified single-nucleotide polymorphisms (SNPs) from genome-wide association studies. Although multiple diseases will usually afflict patients at once or in succession, conventional PRSs fail to consider genetic relationships across multiple diseases. Even multi-trait PRSs, which take into account genetic effects for more than one disease at a time, fail to consider a sufficient number of phenotypes to accurately reflect the state of disease comorbidity in a patient, or are biased in terms of the traits that are selected. Thus, we developed novel network-based comorbidity risk scores to quantify associations among multiple phenotypes from phenome-wide association studies (PheWAS). We first constructed a disease-SNP heterogeneous multi-layered network (DS-Net), which consists of a disease network (disease-layer) and SNP network (SNP-layer). The disease-layer describes the population-level interactome from PheWAS data. The SNP-layer was constructed according to linkage disequilibrium. Both layers were attached to transform the information from a population-level interactome to individual-level inferences. Then, graph-based semi-supervised learning was applied to predict possible comorbidity scores on disease-layer for each subject. The SNP-layer serves as receiving individual genotyping data in the scoring process, and the disease-layer serves as the propagated output for an individual’s multiple disease comorbidity scores. The possible comorbidity scores were combined by logistic regression, and it is denoted as netCRS. The DS-Net was constructed from UK Biobank PheWAS data, and the individual genetic profiles were collected from the Penn Medicine Biobank. As a proof-of-concept study, myocardial infarction (MI) was selected to compare netCRS with the PRS with pruning and thresholding (PRS-PT). The combined model (netCRS + PRS-PT + covariates) achieved an AUC improvement of 6.26% compared to the (PRS-PT + covariates) model. In terms of risk stratification, the combined model was able to capture the risk of MI up to approximately eight-fold higher than that of the low-risk group. The netCRS and PRS-PT complement each other in predicting high-risk groups of patients with MI. We expect that using these risk prediction models will allow for the development of prevention strategies and reduction of MI morbidity and mortality.
4
Paper
Citation3
0
Save
57

A multi-layer functional genomic analysis to understand noncoding genetic variation in lipids

Shweta Ramdas et al.Oct 24, 2023
+532
S
J
S
Abstract A major challenge of genome-wide association studies (GWAS) is to translate phenotypic associations into biological insights. Here, we integrate a large GWAS on blood lipids involving 1.6 million individuals from five ancestries with a wide array of functional genomic datasets to discover regulatory mechanisms underlying lipid associations. We first prioritize lipid-associated genes with expression quantitative trait locus (eQTL) colocalizations, and then add chromatin interaction data to narrow the search for functional genes. Polygenic enrichment analysis across 697 annotations from a host of tissues and cell types confirms the central role of the liver in lipid levels, and highlights the selective enrichment of adipose-specific chromatin marks in high-density lipoprotein cholesterol and triglycerides. Overlapping transcription factor (TF) binding sites with lipid-associated loci identifies TFs relevant in lipid biology. In addition, we present an integrative framework to prioritize causal variants at GWAS loci, producing a comprehensive list of candidate causal genes and variants with multiple layers of functional evidence. Two prioritized genes, CREBRF and RRBP1 , show convergent evidence across functional datasets supporting their roles in lipid biology.
0

A simulation study investigating power estimates in Phenome-Wide Association Studies

Anurag Verma et al.May 7, 2020
+4
S
Y
A
Background: Phenome-wide association studies (PheWAS) are a high-throughput approach to evaluate comprehensive associations between genetic variants and a wide range of phenotypic measures. PheWAS has varying sample sizes for quantitative traits, and variable numbers of cases and controls for binary traits across the many phenotypes of interest, which can affect the statistical power to detect associations. The motivation of this study is to investigate the various parameters which affect the estimation of statistical power in PheWAS, including sample size, case-control ratio, minor allele frequency, and disease penetrance. Results: We performed a PheWAS simulation study, where we investigated variations in statistical power based on different parameters, such as overall sample size, number of cases, case-control ratio, minor allele frequency, and disease penetrance. The simulation was performed on both binary and quantitative phenotypic measures. Our simulation on binary traits suggests that the number of cases has more impact than the case to control ratio; also, we found that a sample size of 200 cases or more maintains the statistical power to identify associations for common variants. For quantitative traits, a sample size of 1000 or more individuals performed best in the power calculations. We focused on common genetic variants (MAF>0.01) in this study; however, in future studies, we will be extending this effort to perform similar simulations on rare variants. Conclusions: This study provides a series of PheWAS simulation analyses that can be used to estimate statistical power for some potential scenarios. These results can be used to provide guidelines for appropriate study design for future PheWAS analyses.
0

Exome-by-phenome-wide rare variant gene burden association with electronic health record phenotypes

Joseph Park et al.May 7, 2020
+8
M
N
J
Background: By coupling large-scale DNA sequencing with electronic health records (EHR), "genome-first" approaches can enhance our understanding of the contribution of rare genetic variants to disease. Aggregating rare, loss-of-function variants in a candidate gene into a "gene burden" to test for association with EHR phenotypes can identify both known and novel clinical implications for the gene in human disease. However, this methodology has not yet been applied on both an exome-wide and phenome-wide scale, and the clinical ontologies of rare loss-of-function variants in many genes have yet to be described. Methods: We leveraged whole exome sequencing (WES) data in participants (N=11,451) in the Penn Medicine Biobank (PMBB) to address on an exome-wide scale the association of a burden of rare loss-of-function variants in each gene with diverse EHR phenotypes using a phenome-wide association study (PheWAS) approach. For discovery, we collapsed rare (minor allele frequency (MAF) ≤ 0.1%) predicted loss-of-function (pLOF) variants ( i.e. frameshift insertions/deletions, gain/loss of stop codon, or splice site disruption) per gene to perform a gene burden PheWAS. Subsequent evaluation of the significant gene burden associations was done by collapsing rare (MAF ≤ 0.1%) missense variants with Rare Exonic Variant Ensemble Learner (REVEL) scores ≥ 0.5 into corresponding yet distinct gene burdens, as well as interrogation of individual low-frequency to common (MAF > 0.1%) pLOF variants and missense variants with REVEL ≥ 0.5. We replicated our findings using the UK Biobank's (UKBB) whole exome sequence dataset (N=49,960). Results: From the pLOF-based discovery phase, we identified 106 gene burdens with phenotype associations at p<10-6 from our exome-by-phenome-wide association studies. Positive-control associations included TTN (cardiomyopathy, p=7.83E-13), MYBPC3 (hypertrophic cardiomyopathy, p=3.48E-15), CFTR (cystic fibrosis, p=1.05E-15), CYP2D6 (adverse effects due to opiates/narcotics, p=1.50E-09), and BRCA2 (breast cancer, p=1.36E-07). Of the 106 genes, 12 gene-phenotype relationships were also detected by REVEL-informed missense-based gene burdens and 19 by single-variant analyses, demonstrating the robustness of these gene-phenotype relationships. Three genes showed evidence of association using both additional methods ( BRCA1, CFTR, TGM6 ), leading to a total of 28 robust gene-phenotype associations within PMBB. Furthermore, replication studies in UKBB validated 30 of 106 gene burden associations, of which 12 demonstrated robustness in PMBB. Conclusion: Our study presents 12 exome-by-phenome-wide robust gene-phenotype associations, which include three proof-of-concept associations and nine novel findings. We show the value of aggregating rare pLOF variants into gene burdens on an exome-wide scale for unbiased association with EHR phenotypes to identify novel clinical ontologies of human genes. Furthermore, we show the significance of evaluating gene burden associations through complementary, yet non-overlapping genetic association studies from the same dataset. Our results suggest that this approach applied to even larger cohorts of individuals with WES or whole-genome sequencing data linked to EHR phenotype data will yield many new insights into the relationship of genetic variation and disease phenotypes.
0

Polygenic Risk Scores for Cardio-renal-metabolic Diseases in the Penn Medicine Biobank

Rachel Kember et al.May 7, 2020
+6
S
A
R
Cardio-renal-metabolic (CaReMe) conditions are common and the leading cause of mortality around the world. Genome-wide association studies have shown that these diseases are polygenic and share many genetic risk factors. Identifying individuals at high genetic risk will allow us to target prevention and treatment strategies. Polygenic risk scores (PRS) are aggregate weighted counts that can demonstrate an individual’s genetic liability for disease. However, current PRS are often based on European ancestry individuals, limiting the implementation of precision medicine efforts in diverse populations. In this study, we develop PRS for six diseases and traits related to cardio-renal-metabolic disease in the Penn Medicine Biobank. We investigate their performance in both European and African ancestry individuals, and identify genetic and phenotypic overlap within these conditions. We find that genetic risk is associated with the primary phenotype in both ancestries, but this does not translate into a model of predictive value in African ancestry individuals. We conclude that future research should prioritize genetic studies in diverse ancestries in order to address this disparity.
0

Polygenic risk of psychiatric disorders exhibits cross-trait associations in electronic health record data

Rachel Kember et al.May 7, 2020
+6
S
A
R
Objective: Prediction of disease risk is a key component of precision medicine. Common, complex traits such as psychiatric disorders have a complex polygenic architecture making the identification of a single risk predictor difficult. Polygenic risk scores (PRS) denoting the sum of an individual's genetic liability for a disorder are a promising biomarker for psychiatric disorders, but require evaluation in a clinical setting. Methods: We develop PRS for six psychiatric disorders (schizophrenia, bipolar disorder, major depressive disorder, cross disorder, attention-deficit/hyperactivity disorder, anorexia nervosa) and 17 non-psychiatric traits in over 10,000 individuals from the Penn Medicine Biobank with accompanying electronic health records. We perform phenome-wide association analyses to test their association across disease categories. Results: Four of the six psychiatric PRS were associated with their primary phenotypes (odds ratios between 1.2-1.6). Individuals in the highest quintile of risk had between 1.4-2.9 times higher odds of the disorder than the remaining 80% of individuals. Cross-trait associations were identified both within the psychiatric domain and across trait domains. PRS for coronary artery disease and years of education were significantly associated with psychiatric disorders, largely driven by an association with tobacco use disorder. Conclusions: We demonstrate that the genetic architecture of common psychiatric disorders identified in a clinical setting confirms that which has been derived from large consortia. Even though the risk associated is low in this context, these results suggest that as identification of genetic markers proceeds, PRS is a promising approach for prediction of psychiatric disorders and associated conditions in clinical registries.
0

Phenome-wide association study of a comprehensive health check-up database in a Korea population: Clinical application & trans-ethnic comparison

Eun Choe et al.Jun 11, 2024
+4
A
M
E
Abstracts Background The expanding use of the phenome-wide association study (PheWAS) faces challenges in the context of using International Classification of Diseases billing codes for phenotype definition, imbalanced study population ethnicity, and constrained application of the results to clinical practice or research. Methods We performed a PheWAS utilizing deep phenotypes corroborated by comprehensive health check-ups in a Korean population, along with trans-ethnic comparisons through the UK Biobank and Biobank Japan Project. Network analysis, visualization of cross-phenotype mapping, and causal inference mapping with Mendelian randomization were conducted in order to make robust, clinically applicable interpretations. Results Of the 136 phenotypes extracted from the health check-up database, the PheWAS associated 65 phenotypes with 14,101 significant variants ( P < 4.92×10 −10 ). In the association study for body mass index, our population showed 583 exclusive loci relative to the Japanese population and 669 exclusive loci relative to the European population. In the meta-analysis with Korean and Japanese populations, 72.5% of phenotypes had uniquely significant variants. Tumor markers and hematologic phenotypes had a high degree of phenotype-phenotype pairs. By Mendelian randomization, one skeletal muscle mass phenotype was causal and two were outcomes. Among phenotype pairs from the genotype-driven cross-phenotype associations, 71.65% also demonstrated penetrance in correlation analysis using a clinical database. Conclusions This comprehensive analysis of PheWAS results based on a health check-up database will provide researchers and clinicians with a panoramic overview of the networks among multiple phenotypes and genetic variants, laying groundwork for the practical application of precision medicine.
0
0
Save
Load More