NC
Nilanjan Chatterjee
Author with expertise in Genomic Studies and Association Analyses
Johns Hopkins Medicine, Johns Hopkins University, University of Baltimore
+ 13 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
31
(35% Open Access)
Cited by:
58
h-index:
101
/
i10-index:
333
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
99

A new method for multi-ancestry polygenic prediction improves performance across diverse populations

Haoyu Zhang et al.Oct 24, 2023
+13
J
J
H
Polygenic risk scores (PRS) increasingly predict complex traits, however, suboptimal performance in non-European populations raise concerns about clinical applications and health inequities. We developed CT-SLEB, a powerful and scalable method to calculate PRS using ancestry-specific GWAS summary statistics from multi-ancestry training samples, integrating clumping and thresholding, empirical Bayes and super learning. We evaluate CT-SLEB and nine-alternatives methods with large-scale simulated GWAS (∼19 million common variants) and datasets from 23andMe Inc., the Global Lipids Genetics Consortium, All of Us and UK Biobank involving 5.1 million individuals of diverse ancestry, with 1.18 million individuals from four non-European populations across thirteen complex traits. Results demonstrate that CT-SLEB significantly improves PRS performance in non-European populations compared to simple alternatives, with comparable or superior performance to a recent, computationally intensive method. Moreover, our simulation studies offer insights into sample size requirements and SNP density effects on multi-ancestry risk prediction.
99
Paper
Citation19
0
Save
35

Plasma proteome analyses in individuals of European and African ancestry identify cis-pQTLs and models for proteome-wide association studies

Jingning Zhang et al.Oct 24, 2023
+8
A
D
J
Abstract Improved understanding of genetic regulation of proteome can facilitate the identification of causal mechanisms for complex traits. We analyzed data on 4,657 plasma proteins from 7,213 European American (EA) and 1,871 African American (AA) individuals from the ARIC study, and further replicated findings on 467 AA individuals from the AASK study. Here we identified 2,004 proteins in EA and 1,618 in AA, with majority overlapping, which showed associations with common variants in cis -regions. Availability of AA samples led to smaller credible sets and significant number of population-specific cis -pQTLs. Elastic-net produced powerful models for protein prediction in both populations. An application of proteome-wide association studies (PWAS) to serum urate and gout, implicated several proteins, including IL1RN, revealing the promise of the drug anakinra to treat acute gout flares. Our study demonstrates the value of large and diverse ancestry study for genetic mechanisms of molecular phenotypes and their relationship with complex traits.
35
Citation17
0
Save
0

A Comprehensive Evaluation of Methods for Mendelian Randomization Using Realistic Simulations and an Analysis of 38 Biomarkers for Risk of Type-2 Diabetes

Guanghao Qi et al.May 7, 2020
N
G
Abstract Background Mendelian randomization (MR) has provided major opportunities for understanding the causal relationship among complex traits. Previous studies have often evaluated MR methods based on simulations that do not adequately reflect the data-generating mechanism in GWAS and there are often discrepancies in performance of MR methods in simulations and real datasets. Methods We use a simulation framework that generates data on full GWAS for two traits under realistic model for effect-size distribution coherent with heritability, co-heritability and polygenicity typically observed for complex traits. We further use recent data generated from GWAS of 38 biomarkers in the UK Biobank to investigate their causal effects on risk of type-2 diabetes using externally available GWAS summary-statistics. Results Simulation studies show that weighted mode and MRMix are the only two methods which maintain correct type-I error rate in a diverse set of scenarios. Between the two methods, MRMix tends to be more powerful for larger GWAS while the opposite being true for smaller sample sizes. Among the other methods, random-effect IVW, MR-Robust and MR-RAPS tend to perform best in maintaining low mean squared error when the InSIDE assumption is satisfied, but can produce large bias when InSIDE is violated. In real data analysis, some biomarkers showed major heterogeneity in estimates of their causal effects on risk of type-2 diabetes across the different methods, with patterns similar to those observed in simulation studies. Conclusions Relative performance of different MR methods depends heavily on sample sizes of underlying GWAS, proportion of valid instruments and validity of the InSIDE assumption. Key Messages Many previous simulations studies to evaluate Mendelian randomization methods do not adequately reflect the data-generating mechanism of genome-wide association studies (GWAS). We use a simulation framework that generates data on full GWASs under realistic model informed by recent studies on effect-size distribution. We also used very recent GWAS data available on a large number of biomarkers to evaluate their causal effect on type-2 diabetes using alternative methods. Among the 10 methods that were compared, relative performance of different methods depends heavily on sample sizes of underlying GWAS, proportion of valid instruments and validity of the InSIDE assumption. Weighted mode and MRMix are the only two methods that maintain correct type I error rate in a diverse set of scenarios.
0

An Ensemble Penalized Regression Method for Multi-ancestry Polygenic Risk Prediction

Jingning Zhang et al.Sep 17, 2023
+7
J
J
J
Great efforts are being made to develop advanced polygenic risk scores (PRS) to improve the prediction of complex traits and diseases. However, most existing PRS are primarily trained on European ancestry populations, limiting their transferability to non-European populations. In this article, we propose a novel method for generating multi-ancestry Polygenic Risk scOres based on enSemble of PEnalized Regression models (PROSPER). PROSPER integrates genome-wide association studies (GWAS) summary statistics from diverse populations to develop ancestry-specific PRS with improved predictive power for minority populations. The method uses a combination of L 1 (lasso) and L 2 (ridge) penalty functions, a parsimonious specification of the penalty parameters across populations, and an ensemble step to combine PRS generated across different penalty parameters. We evaluate the performance of PROSPER and other existing methods on large-scale simulated and real datasets, including those from 23andMe Inc., the Global Lipids Genetics Consortium, and All of Us. Results show that PROSPER can substantially improve multi-ancestry polygenic prediction compared to alternative methods across a wide variety of genetic architectures. In real data analyses, for example, PROSPER increased out-of-sample prediction R 2 for continuous traits by an average of 70% compared to a state-of-the-art Bayesian method (PRS-CSx) in the African ancestry population. Further, PROSPER is computationally highly scalable for the analysis of large SNP contents and many diverse populations.
0

Common variants in breast cancer risk loci predispose to distinct tumor subtypes

Thomas Ahearn et al.May 7, 2020
+155
K
H
T
Abstract Background Genome-wide association studies (GWAS) have identified multiple common breast cancer susceptibility variants. Many of these variants have differential associations by estrogen receptor (ER), but how these variants relate with other tumor features and intrinsic molecular subtypes is unclear. Methods Among 106,571 invasive breast cancer cases and 95,762 controls of European ancestry with data on 173 breast cancer variants identified in previous GWAS, we used novel two-stage polytomous logistic regression models to evaluate variants in relation to multiple tumor features (ER, progesterone receptor (PR), human epidermal growth factor receptor 2 (HER2) and grade) adjusting for each other, and to intrinsic-like subtypes. Results Eighty-five of 173 variants were associated with at least one tumor feature (false discovery rate <5%), most commonly ER and grade, followed by PR and HER2. Models for intrinsic-like subtypes found nearly all of these variants (83 of 85) associated at P<0.05 with risk for at least one luminal-like subtype, and approximately half (41 of 85) of the variants were associated with risk of at least one non-luminal subtype, including 32 variants associated with triple-negative (TN) disease. Ten variants were associated with risk of all subtypes in different magnitude. Five variants were associated with risk of luminal A-like and TN subtypes in opposite directions. Conclusion This report demonstrates a high level of complexity in the etiology heterogeneity of breast cancer susceptibility variants and can inform investigations of subtype-specific risk prediction.
0
Citation3
0
Save
1

Genome-Wide Large-Scale Multi-Trait Analysis Characterizes Global Patterns of Pleiotropy and Unique Trait-Specific Variants

Guanghao Qi et al.Oct 24, 2023
+4
D
S
G
Abstract Genome-wide association studies (GWAS) have found widespread evidence of pleiotropy, but characterization of global patterns of pleiotropy remain highly incomplete due to insufficient power of current approaches. We develop fastASSET, an extension of the method ASSET, to allow computationally efficient detection of variant-level pleiotropic association across a large number of traits. We analyze GWAS summary statistics of 116 complex traits of diverse types collected from the NIH GRASP repository and a number of other large GWAS consortia. We identify a total of 2,293 independent loci at the genome-wide significance level and found that the lead variants in nearly all of these loci (∼99%) to be associated with to two or more (median = 6) traits. Further, the estimated degree of pleiotropy for the detected variants strongly predicted their degree of pleiotropy across a much larger number of traits (K=4,114) in the UK Biobank Study. Follow-up analyses of 21 unique trait-specific variants suggest that they are often linked to the expression in trait-related tissues for a small number of genes, some of which are well known to be involved in relevant biological processes. Our findings provide deeper insight into the nature of complex trait pleiotropy and leads to, for the first time, identification of highly unique trait-specific susceptibility variants.
1
Citation2
0
Save
20

Polygenic Risk Scores for Kidney Function to the Circulating Proteome, and Incident Kidney Diseases: the Atherosclerosis Risk in Communities Study

Zhi Yu et al.Oct 24, 2023
+11
A
J
Z
ABSTRACT Genome-wide association studies (GWAS) have revealed numerous loci for kidney function (estimated glomerular filtration rate, eGFR). The relationship of polygenic predictors of eGFR, risk of incident adverse kidney outcomes, and the plasma proteome is not known. We developed a genome-wide polygenic risk score (PRS) using a weighted average of 1.2 million SNPs for eGFR using the LDpred algorithm, summary statistics generated by a European-ancestry (EA) meta-analysis of the CKDGen Consortium (N=558,423) and UK Biobank GWAS for eGFR (90% of the cohort; N=289,432), followed by best parameter selection using data from the remaining 10% of the UK Biobank (N=32,159). We then tested the association of the PRS among 8,886 EA participants in the Atherosclerosis Risk in Communities (ARIC) study (mean age: 54±6 years, 53% female) with incident chronic kidney disease (CKD), end stage kidney disease (ESKD), kidney failure (KF), and acute kidney injury (AKI). We also examined 4,877 plasma proteins measured at two time points (visit 3 (1993-95) and visit 5 (2011-13)) in relation to the PRS and compared associations between the proteome and eGFR itself. All models were adjusted for age, sex, center, and the first 10 principal components of ancestry. The developed PRS had an R 2 for eGFR of 0.07 in ARIC. Over 30 years of follow up, the number of incident CKD, ESKD, KF, and AKI were 2,959, 137, 470, and 1,723, respectively. The PRS showed significant associations with all outcomes: hazard ratios (95% CI) per 1 SD lower PRS were 1.33 (1.28, 1.39), 1.20 (1.00, 1.42), 1.17 (1.06, 1.28), and 1.07 (1.02, 1.12) for incident CKD, ESKD, KF, and AKI respectively. The PRS was significantly associated (Bonferroni threshold P<1.02 × 10 −5 ) with 108 proteins at both time points. The strongest associations were with cystatin-C (a marker of kidney function used in clinical practice), collagen alpha-1 (XV) chain, and desmocollin-2. All significant correlations with the PRS were negative, except those of testican-2 and angiostatin. Correlations of proteins with eGFR were much stronger than those with the PRS. Overall, we demonstrated that the PRS for eGFR is now sufficiently strong to capture risk for a spectrum of incident kidney diseases as well as broadly influence the plasma proteome.
20
Citation2
0
Save
0

Genome-wide large-scale multi-trait analysis characterizes global patterns of pleiotropy and unique trait-specific variants

Guanghao Qi et al.Sep 12, 2024
+4
D
S
G
Genome-wide association studies (GWAS) have found widespread evidence of pleiotropy, but characterization of global patterns of pleiotropy remain highly incomplete due to insufficient power of current approaches. We develop fastASSET, a method that allows efficient detection of variant-level pleiotropic association across many traits. We analyze GWAS summary statistics of 116 complex traits of diverse types collected from the GRASP repository and large GWAS Consortia. We identify 2293 independent loci and find that the lead variants in nearly all these loci (~99%) to be associated with $$\ge 2$$ traits (median = 6). We observe that degree of pleiotropy estimated from our study predicts that observed in the UK Biobank for a much larger number of traits (K = 4114) (correlation = 0.43, p-value $$ < 2.2\times {10}^{-16}$$ ). Follow-up analyzes of 21 trait-specific variants indicate their link to the expression in trait-related tissues for a small number of genes involved in relevant biological processes. Our findings provide deeper insight into the nature of pleiotropy and leads to identification of highly trait-specific susceptibility variants. Here, the authors develop fastASSET, a method for efficient detection of variant-level pleiotropic association across many traits. Using this method, they characterize genome-wide pleiotropy and links to genomic features, identifying 21 trait-specific SNPs.
0
Citation1
0
Save
33

Joint Modeling of Gene-Environment Correlations and Interactions using Polygenic Risk Scores in Case-Control Studies

Ziqiao Wang et al.Oct 24, 2023
N
R
S
Z
Polygenic risk scores (PRS) are rapidly emerging as aggregated measures of disease-risk associated with many genetic variants. Understanding the interplay of PRS with environmental factors is critical for interpreting and applying PRS in a wide variety of settings. We develop an efficient method for simultaneously modeling gene-environment correlations and interactions using PRS in case-control studies. We use a logistic-normal regression modeling framework to specify the disease risk and PRS distribution in the underlying population and propose joint inference across the two models using the retrospective likelihood of the case-control data. Extensive simulation studies demonstrate the flexibility of the method in trading-off bias and efficiency for the estimation of various model parameters compared to the standard logistic regression or a case-only analysis for gene-environment interactions, or a control-only analysis for gene-environment correlations. Finally, using simulated case-control datasets within the UK Biobank study, we demonstrate the power of the proposed method for its ability to recover results from the full prospective cohort for the detection of an interaction between long-term oral contraceptive use and PRS on the risk of breast cancer. This method is computationally efficient and implemented in a user-friendly R package.
33
Paper
Citation1
0
Save
0

Oncologic Therapy Shapes the Fitness Landscape of Clonal Hematopoiesis

Kelly Bolton et al.May 6, 2020
+61
T
R
K
Clonal hematopoiesis (CH) is frequent in cancer patients and associated with increased risk of therapy related myeloid neoplasms (tMN). To define the relationship between CH, oncologic therapy, and tMN progression, we studied 24,439 cancer patients. We show that previously treated patients have increased rates of CH, with enrichment of mutations in DNA Damage Response (DDR) genes (TP53, PPM1D, CHEK2). Exposure to radiation, platinum and topoisomerase II inhibitors have the strongest association with CH with evidence of dose dependence and gene treatment interactions. We validate these associations in serial sampling from 525 patients and show that exposure to cytotoxic and radiation therapy imparts a selective advantage specifically in hematopoietic cells with DDR mutations. In patients who progressed to tMN, the clone at CH demarcated the dominant clone at tMN diagnosis. CH mutational features predict risk of therapy related myeloid neoplasm in solid tumor patients with clinical implications for early detection and treatment decisions.
Load More