HA
Hugues Aschard
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
42
(57% Open Access)
Cited by:
2,359
h-index:
40
/
i10-index:
80
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Fungal microbiota dysbiosis in IBD

Harry Sokol et al.Feb 3, 2016
The bacterial intestinal microbiota plays major roles in human physiology and IBDs. Although some data suggest a role of the fungal microbiota in IBD pathogenesis, the available data are scarce. The aim of our study was to characterise the faecal fungal microbiota in patients with IBD.Bacterial and fungal composition of the faecal microbiota of 235 patients with IBD and 38 healthy subjects (HS) was determined using 16S and ITS2 sequencing, respectively. The obtained sequences were analysed using the Qiime pipeline to assess composition and diversity. Bacterial and fungal taxa associated with clinical parameters were identified using multivariate association with linear models. Correlation between bacterial and fungal microbiota was investigated using Spearman's test and distance correlation.We observed that fungal microbiota is skewed in IBD, with an increased Basidiomycota/Ascomycota ratio, a decreased proportion of Saccharomyces cerevisiae and an increased proportion of Candida albicans compared with HS. We also identified disease-specific alterations in diversity, indicating that a Crohn's disease-specific gut environment may favour fungi at the expense of bacteria. The concomitant analysis of bacterial and fungal microbiota showed a dense and homogenous correlation network in HS but a dramatically unbalanced network in IBD, suggesting the existence of disease-specific inter-kingdom alterations.Besides bacterial dysbiosis, our study identifies a distinct fungal microbiota dysbiosis in IBD characterised by alterations in biodiversity and composition. Moreover, we unravel here disease-specific inter-kingdom network alterations in IBD, suggesting that, beyond bacteria, fungi might also play a role in IBD pathogenesis.
0
Citation1,006
0
Save
0

Effect of 17q21 Variants and Smoking Exposure in Early-Onset Asthma

Emmanuelle Bouzigon et al.Oct 16, 2008
A genomewide association study has shown an association between variants at chromosome 17q21 and an increased risk of asthma. To elucidate the relationship between this locus and disease, we examined a large, family-based data set that included extensive phenotypic and environmental data from the Epidemiological Study on the Genetics and Environment of Asthma.We tested 36 single-nucleotide polymorphisms (SNPs) in the 17q21 region in 1511 subjects from 372 families for an association with asthma. We also tested for genetic heterogeneity according to the age at the onset of asthma and exposure to environmental tobacco smoke in early life.Eleven SNPs were significantly associated with asthma (P<0.01), of which three (rs8069176, rs2305480, and rs4795400) were strongly associated (P<0.001). Ordered-subset regression analysis led us to select an onset at 4 years of age or younger to classify patients as having early-onset asthma. Association with early-onset asthma was highly significant (P<10(-5) for four SNPs), whereas no association was found with late-onset asthma. With respect to exposure to environmental tobacco smoke in early life, we observed a significant association with early-onset asthma only in exposed subjects (P<5x10(-5) for six SNPs). Under the best-fitting recessive model, homozygous status (GG) at the most strongly associated SNP (rs8069176) conferred an increase in risk by a factor of 2.9, as compared with other genotypes (AG and AA) in the group exposed to environmental tobacco smoke (P=2.8x10(-6); P=0.006 for the test for heterogeneity of the SNP effect on early-onset asthma between groups with tobacco exposure and those without such exposure).This study shows that the increased risk of asthma conferred by 17q21 genetic variants is restricted to early-onset asthma and that the risk is further increased by early-life exposure to environmental tobacco smoke. These findings provide a greater understanding of the functional role of the 17q21 variants in the pathophysiology of asthma.
0
Citation385
0
Save
0

Genome-wide association study in 79,366 European-ancestry individuals informs the genetic architecture of 25-hydroxyvitamin D levels

Xia Jiang et al.Jan 11, 2018
Abstract Vitamin D is a steroid hormone precursor that is associated with a range of human traits and diseases. Previous GWAS of serum 25-hydroxyvitamin D concentrations have identified four genome-wide significant loci ( GC, NADSYN1/DHCR7, CYP2R1, CYP24A1 ). In this study, we expand the previous SUNLIGHT Consortium GWAS discovery sample size from 16,125 to 79,366 (all European descent). This larger GWAS yields two additional loci harboring genome-wide significant variants ( P = 4.7×10 −9 at rs8018720 in SEC23A , and P = 1.9×10 −14 at rs10745742 in AMDHD1 ). The overall estimate of heritability of 25-hydroxyvitamin D serum concentrations attributable to GWAS common SNPs is 7.5%, with statistically significant loci explaining 38% of this total. Further investigation identifies signal enrichment in immune and hematopoietic tissues, and clustering with autoimmune diseases in cell-type-specific analysis. Larger studies are required to identify additional common SNPs, and to explore the role of rare or structural variants and gene–gene interactions in the heritability of circulating 25-hydroxyvitamin D levels.
0
Citation335
0
Save
0

Efficient analysis of large-scale genome-wide data with two R packages: bigstatsr and bigsnpr

Florian Privé et al.Mar 29, 2018
Abstract Motivation Genome-wide datasets produced for association studies have dramatically increased in size over the past few years, with modern datasets commonly including millions of variants measured in dozens of thousands of individuals. This increase in data size is a major challenge severely slowing down genomic analyses, leading to some software becoming obsolete and researchers having limited access to diverse analysis tools. Results Here we present two R packages, bigstatsr and bigsnpr, allowing for the analysis of large scale genomic data to be performed within R. To address large data size, the packages use memory-mapping for accessing data matrices stored on disk instead of in RAM. To perform data pre-processing and data analysis, the packages integrate most of the tools that are commonly used, either through transparent system calls to existing software, or through updated or improved implementation of existing methods. In particular, the packages implement fast and accurate computations of principal component analysis and association studies, functions to remove single nucleotide polymorphisms in linkage disequilibrium and algorithms to learn polygenic risk scores on millions of single nucleotide polymorphisms. We illustrate applications of the two R packages by analyzing a case–control genomic dataset for celiac disease, performing an association study and computing polygenic risk scores. Finally, we demonstrate the scalability of the R packages by analyzing a simulated genome-wide dataset including 500 000 individuals and 1 million markers on a single desktop computer. Availability and implementation https://privefl.github.io/bigstatsr/ and https://privefl.github.io/bigsnpr/. Supplementary information Supplementary data are available at Bioinformatics online.
0
Citation291
0
Save
0

Adjusting for Heritable Covariates Can Bias Effect Estimates in Genome-Wide Association Studies

Hugues Aschard et al.Jan 29, 2015
In recent years, a number of large-scale genome-wide association studies have been published for human traits adjusted for other correlated traits with a genetic basis. In most studies, the motivation for such an adjustment is to discover genetic variants associated with the primary outcome independently of the correlated trait. In this report, we contend that this objective is fulfilled when the tested variants have no effect on the covariate or when the correlation between the covariate and the outcome is fully explained by a direct effect of the covariate on the outcome. For all other scenarios, an unintended bias is introduced with respect to the primary outcome as a result of the adjustment, and this bias might lead to false positives. Here, we illustrate this point by providing examples from published genome-wide association studies, including large meta-analysis of waist-to-hip ratio and waist circumference adjusted for body mass index (BMI), where genetic effects might be biased as a result of adjustment for body mass index. Using both theory and simulations, we explore this phenomenon in detail and discuss the ramifications for future genome-wide association studies of correlated traits and diseases. In recent years, a number of large-scale genome-wide association studies have been published for human traits adjusted for other correlated traits with a genetic basis. In most studies, the motivation for such an adjustment is to discover genetic variants associated with the primary outcome independently of the correlated trait. In this report, we contend that this objective is fulfilled when the tested variants have no effect on the covariate or when the correlation between the covariate and the outcome is fully explained by a direct effect of the covariate on the outcome. For all other scenarios, an unintended bias is introduced with respect to the primary outcome as a result of the adjustment, and this bias might lead to false positives. Here, we illustrate this point by providing examples from published genome-wide association studies, including large meta-analysis of waist-to-hip ratio and waist circumference adjusted for body mass index (BMI), where genetic effects might be biased as a result of adjustment for body mass index. Using both theory and simulations, we explore this phenomenon in detail and discuss the ramifications for future genome-wide association studies of correlated traits and diseases. Adjustment for covariates or correlated secondary traits in genome-wide association studies (GWASs) can have two purposes: first, to account for potential confounding factors that can bias SNP effect estimates, and second, to improve statistical power by reducing residual variance. For example, researchers routinely adjust for principal components of individual genotypes to account for population structure,1Price A.L. Patterson N.J. Plenge R.M. Weinblatt M.E. Shadick N.A. Reich D. Principal components analysis corrects for stratification in genome-wide association studies.Nat. Genet. 2006; 38: 904-909Crossref PubMed Scopus (6867) Google Scholar or principal components of gene expression to capture batch effects in gene-expression analysis.2Pickrell J.K. Marioni J.C. Pai A.A. Degner J.F. Engelhardt B.E. Nkadori E. Veyrieras J.B. Stephens M. Gilad Y. Pritchard J.K. Understanding mechanisms underlying human gene expression variation with RNA sequencing.Nature. 2010; 464: 768-772Crossref PubMed Scopus (942) Google Scholar Besides confounding factors, human traits can also be adjusted for correlated environmental or demographic factors such as gender and age to increase statistical power.3Mefford J. Witte J.S. The Covariate’s Dilemma.PLoS Genet. 2012; 8: e1003096Crossref PubMed Scopus (38) Google Scholar, 4Pirinen M. Donnelly P. Spencer C. Efficient computation with a linear mixed model on large-scale data sets with applications to genetic studies.Ann. Appl. Stat. 2013; 7: 369-390Crossref Scopus (69) Google Scholar The intuition here is that accounting for a true risk factor decreases the residual variance of the outcome and therefore increases the ratio of the true effect size of a predictor of interest over the total phenotypic variance, which leads to increased statistical power. Recently, researchers have conducted GWAS of human traits and diseases while adjusting for other heritable covariates with the motivation of identifying genetic variants associated only with the primary outcome.5Kaplan R.C. Petersen A.K. Chen M.H. Teumer A. Glazer N.L. Döring A. Lam C.S. Friedrich N. Newman A. Müller M. et al.A genome-wide association study identifies novel loci associated with circulating IGF-I and IGFBP-3.Hum. Mol. Genet. 2011; 20: 1241-1251Crossref PubMed Scopus (58) Google Scholar, 6Heid I.M. Jackson A.U. Randall J.C. Winkler T.W. Qi L. Steinthorsdottir V. Thorleifsson G. Zillikens M.C. Speliotes E.K. Mägi R. et al.MAGICMeta-analysis identifies 13 new loci associated with waist-hip ratio and reveals sexual dimorphism in the genetic basis of fat distribution.Nat. Genet. 2010; 42: 949-960Crossref PubMed Scopus (722) Google Scholar, 7Manning A.K. Hivert M.F. Scott R.A. Grimsby J.L. Bouatia-Naji N. Chen H. Rybin D. Liu C.T. Bielak L.F. Prokopenko I. et al.DIAbetes Genetics Replication And Meta-analysis (DIAGRAM) ConsortiumMultiple Tissue Human Expression Resource (MUTHER) ConsortiumA genome-wide approach accounting for body mass index identifies genetic variants influencing fasting glycemic traits and insulin resistance.Nat. Genet. 2012; 44: 659-669Crossref PubMed Scopus (566) Google Scholar, 8Randall J.C. Winkler T.W. Kutalik Z. Berndt S.I. Jackson A.U. Monda K.L. Kilpeläinen T.O. Esko T. Mägi R. Li S. et al.DIAGRAM ConsortiumMAGIC InvestigatorsSex-stratified genome-wide association studies including 270,000 individuals show sexual dimorphism in genetic loci for anthropometric traits.PLoS Genet. 2013; 9: e1003500Crossref PubMed Scopus (273) Google Scholar, 9Scott R.A. Lagou V. Welch R.P. Wheeler E. Montasser M.E. Luan J. Mägi R. Strawbridge R.J. Rehnberg E. Gustafsson S. et al.DIAbetes Genetics Replication and Meta-analysis (DIAGRAM) ConsortiumLarge-scale association analyses identify new loci influencing glycemic traits and provide insight into the underlying biological pathways.Nat. Genet. 2012; 44: 991-1005Crossref PubMed Scopus (613) Google Scholar An important difference between environmental/demographic factors and heritable human traits is that the latter have genetic associations. Therefore, a genetic variant can in theory be associated with both the primary outcome and the covariate used for adjustment. When that happens, the adjusted and unadjusted estimated effects of the genetic variant on the outcome will differ. If the correlation between the covariate and the outcome results from a direct effect of the covariate on the outcome (Figure 1A), the adjusted and unadjusted estimates correspond to the direct (i.e., not mediated through the covariate) and total (i.e., direct + indirect) genetic effect of the variant on the outcome, respectively. In all other situations where the observed correlation is due to shared genetic and/or environmental risk factors, the adjusted estimate can be biased relative to the true direct effect. To understand when a bias is introduced, consider the causal diagrams for a single genetic variant g, an outcome of interest Y, and a covariate C (Figures 1B–1D). Besides the genetic variant in question, the two variables, Y and C, are influenced by either other genetic loci, which we denote by G-g, or other environment factors and noise, denoted by E. For simplicity, assume that the genetic variant g and other causal factors, G-g and E, are uncorrelated. Furthermore, assume that the covariate C and the outcome of interest, Y are correlated through (G-g,E). If we are interested in estimating the direct effect of g on Y (the black arrow in Figure 1), then in scenario from Figure 1B adjusting for the covariate C does not bias the effect estimate and increases the power as we implicitly adjust for some environmental and other (uncorrelated) shared genetic effects. However, in scenario from Figure 1C where g only influences the covariate and not the outcome, adjusting for the covariate induces an association between the genetic variant and Y. The strength of this association depends on ρCY, the correlation between the covariate and the outcome due to shared risk factors, and the strength of βC, the effect of the genetic variant on the covariate. For normalized g, C, and Y with mean 0 and variance 1, the bias of the genetic effect estimate, βˆY, on the covariate adjusted trait is approximately equal to −βCρCY when βC is small and sample size is sufficiently large (see Appendix A). Finally, consider scenario from Figure 1D, where both the covariate and the outcome are influenced by the genetic variant. Here, the association between the genetic variant and the covariate will bias the estimated genetic effect on the outcome by the same amount as before, i.e., −βCρCY. This bias observed is illustrated in Figure 2A, and as expected, it is well approximated by the product between the direct genetic effect estimate on the covariate and the correlation between the outcome and the covariate. As shown in Figure 2B, this bias leads to increased false discovery rates under the null (no direct effect of the genetic variant on the outcome). This phenomenon also implies that when there truly is a direct genetic effect on the outcome, the adjusted statistical test can have increased power to detect the genetic variant, as compared to the unadjusted test, if the genetic effect and the phenotypic correlation are in opposite directions (Figure S2, left panel). Conversely, if the genetic effect and the correlation are in the same direction, the adjusted statistical test has, in many cases, a decreased power to detect the genetic variant (Figure S2, right panel). The difficulty of estimating direct effects of genetic variants on a covariate-adjusted outcome is well appreciated in causal inference literature10Pearl J. Causal inference from indirect experiments.Artif. Intell. Med. 1995; 7: 561-582Abstract Full Text PDF PubMed Scopus (46) Google Scholar and by many epidemiologists,11Greenland S. Pearl J. Robins J.M. Causal diagrams for epidemiologic research.Epidemiology. 1999; 10: 37-48Crossref PubMed Scopus (2503) Google Scholar, 12Schisterman E.F. Cole S.R. Platt R.W. Overadjustment bias and unnecessary adjustment in epidemiologic studies.Epidemiology. 2009; 20: 488-495Crossref PubMed Scopus (1208) Google Scholar, 13Hernán M.A. Hernández-Díaz S. Werler M.M. Mitchell A.A. Causal knowledge as a prerequisite for confounding evaluation: an application to birth defects epidemiology.Am. J. Epidemiol. 2002; 155: 176-184Crossref PubMed Scopus (979) Google Scholar but has received little attention in the context of GWASs.14Vansteelandt S. Goetgeluk S. Lutz S. Waldman I. Lyon H. Schadt E.E. Weiss S.T. Lange C. On the adjustment for covariates in genetic association analysis: a novel, simple principle to infer direct causal effects.Genet. Epidemiol. 2009; 33: 394-405Crossref PubMed Scopus (39) Google Scholar In Appendix B, we review 15 scenarios depicted as direct acyclic graphs in Figure S1 where adjusting for a covariate is either recommended or not and validated the interpretation of each case through simulation (see Table S3). In the absence of a clear underlying causal model or diagram, one cannot guarantee that effect estimates for covariate adjusted outcomes correspond to the desired estimates (e.g., direct versus total genetic effect). In GWASs, the potential presence of bias due to adjustment is proportional to the product of βC and ρCY. Hence, adjusting for a covariate that does not have a genetic component, such as an environmental exposure, will not bias the estimate for the genotype effect on the outcome of interest as βC = 0. On the other hand, when adjusting for a covariate that has a genetic component (potentially βC ≠ 0), then the adjusted association signals can be difficult to interpret, because it does not necessarily imply an association with the outcome of interest only but can correspond also to a bivariate signal on Y and C, or in some extreme case to an association with the covariate only. Therefore, unless we can unequivocally determine which model in Figure 1 is the right one or rule out an effect from the genetic variant on the covariate, the reported adjusted associations should be considered with caution. For illustrative purpose, we considered the SNPs reported to be associated at genome-wide significance levels with waist hip ratio (WHR) or waist circumference (WC), after adjustment on BMI.6Heid I.M. Jackson A.U. Randall J.C. Winkler T.W. Qi L. Steinthorsdottir V. Thorleifsson G. Zillikens M.C. Speliotes E.K. Mägi R. et al.MAGICMeta-analysis identifies 13 new loci associated with waist-hip ratio and reveals sexual dimorphism in the genetic basis of fat distribution.Nat. Genet. 2010; 42: 949-960Crossref PubMed Scopus (722) Google Scholar, 8Randall J.C. Winkler T.W. Kutalik Z. Berndt S.I. Jackson A.U. Monda K.L. Kilpeläinen T.O. Esko T. Mägi R. Li S. et al.DIAGRAM ConsortiumMAGIC InvestigatorsSex-stratified genome-wide association studies including 270,000 individuals show sexual dimorphism in genetic loci for anthropometric traits.PLoS Genet. 2013; 9: e1003500Crossref PubMed Scopus (273) Google Scholar The observed correlations between BMI and WHR and between BMI and WC in the GIANT data are 0.49 and 0.85, respectively (see Appendix C). Table 1 displays the gender-specific significant SNPs from these studies and the summary statistics that we extracted from the GIANT consortium website. It shows that SNPs harboring opposite marginal effects on the two traits are significantly enriched (p = 0.005). This agrees well with theory and our simulations showing increased power when the SNP has effect in opposite directions on the outcome and the covariate (Figure S2A). In the absence of a genetic effect on BMI, we expect the number of SNPs with opposite directions of effect estimates to follow a binomial distribution with probability of 0.5 (see Appendix C and Figure S3). The observed enrichment of SNPs with opposite directions indicates that a substantial fraction of those SNPs are associated with BMI in the opposite direction. Indeed, when removing the SNPs with the most significant marginal associations with BMI, the fraction of variants displaying an opposite effect becomes non-significant (Figure S4). None of the SNPs with opposite effects on BMI and either WHR or WC show significant marginal association with BMI after correction for multiple testing (although 5 out of 23 are nominally significant). However, as shown in Figure S2B, even non-significant genetic effects on the covariate can influence power when correlation between the outcome and the covariate is large (e.g., ≥ 0.5). To assess whether the p values from the adjusted analysis reflect direct genetic effects on the outcome or a mixture of effects on the outcome and the covariate, we derived a statistical test of whether the BMI-adjusted effect of a SNP, βˆYadj, was equal to its expectation when βC = 0, which is βˆY. This test only uses GWAS summary information and the correlation between the covariate and the phenotype (see Appendix A). It is approximately equivalent to testing for the marginal effect of the SNP on the covariate in the exact same set of subjects used in the adjusted analysis. To verify this, we conducted a GWAS of WHR, BMI, and WHR adjusted for BMI for 15,949 individuals on more than 6 million SNPs and found the correlation between the two test statistics, the direct marginal and the proposed one based on GWAS summary level information, to be 0.98 (see Appendix A). We then applied our test to the WHR and WC GWAS summary statistics to test for a direct genetic effect on BMI among the reported SNP associations from the GIANT study (see Table 1) as we did not have access to the marginal associations for BMI in the same samples. We observed that half of the reported associations with WHR adjusted for BMI are likely influenced by a (direct) genetic association with BMI. This does not mean that those SNPs have no effect on WHR; in fact, their marginal (unadjusted) associations with WHR and BMI suggest that most of these loci are truly associated with WHR. Instead, this means that the reported effect estimates and the p values in the covariate adjusted analysis should be interpreted with caution, because they are not necessarily representative of the direct genetic effect on WHR and WC.Table 1Estimates and p Values of Genetic Effects from the GIANT Study for Genetic Variants Found Associated with Waist to Hip Ratio and Waist Circumference after Adjusting for Body Mass IndexMarkerNameA1A2FrequencyEstimated EffectsOpposite EffectReferencePβ.deviationap value from the test of βˆYadj = βˆY.WHR adjusted for BMI in womenBMI (pval)WHR (pval)WHRadjBMI (pval)rs9491696cg0.4800−0.0068(2.7E-01)−0.0479(1.0E-11)−0.0472(1.6E-12)Heid et al.0.81rs6905288ag0.5620−0.0083(2.4E-01)0.0484(4.7E-10)0.0523(7.7E-13)XHeid et al.0.22rs984222cg0.63500.0108(8.5E-02)-0.0284(9.0E-05)-0.0359(1.2E-07)XHeid et al.0.012rs1055144tc0.2100-0.0126(1.1E-01)0.0314(4.2E-04)0.0398(2.3E-06)XHeid et al.0.021rs10195252tc0.5990-0.0184(3.3E-03)0.0447(7.0E-10)0.0529(6.3E-15)XHeid et al.0.0061rs4846567tg0.71700.0098(1.4E-01)-0.0543(5.3E-12)-0.0641(4.7E-18)XHeid et al.0.0025rs1011731ag0.4280−0.0058(3.5E-01)−0.0280(7.0E-05)−0.0284(2.1E-05)Heid et al.0.89rs718314ag0.25900.0077(2.7E-01)−0.0444(3.9E-08)−0.0467(8.3E-10)XHeid et al.0.49rs1294421tg0.6130−0.0007(9.1E-01)−0.0357(1.2E-06)−0.0380(3.4E-08)Heid et al.0.45rs1443512ac0.2390−0.0014(8.5E-01)0.0415(7.6E-07)0.0479(1.4E-09)XHeid et al.0.063rs6795735tc0.59400.0114(6.4E-02)-0.0264(2.2E-04)-0.0330(7.9E-07)XHeid et al.0.023rs4823006ag0.56900.0046(4.6E-01)0.0337(3.4E-06)0.0366(6.9E-08)Heid et al.0.33rs6717858tc0.5417-0.0185(3.1E-03)0.0439(8.1E-10)0.0536(2.8E-15)XRandall et al.0.00072rs2820443tc.-0.0099(1.4E-01)0.0544(4.8E-12)0.0643(3.7E-18)XRandall et al.0.0025rs1358980tc0.4500-0.0148(3.8E-02)0.0498(7.1E-10)0.0565(1.1E-13)XRandall et al.0.041rs2371767cg0.20830.0199(4.1E-03)-0.0302(1.2E-04)-0.0418(1.6E-08)XRandall et al.0.00040rs10478424at0.7833−0.0052(5.1E-01)0.0320(3.3E-04)0.0372(1.0E-05)XRandall et al.0.16rs4684854cg0.43330.0025(7.0E-01)0.0401(7.6E-08)0.0396(2.4E-08)Randall et al.0.88WC adjusted for BMI in womenBMI (pval)WC (pval)WCadjBMI (pval)rs11743303ag0.80.0078(3.2E-01)−0.0186(3.7E-02)−0.0276(2.3E-06)XRandall et al.0.12WHR adjusted for BMI in menBMI (pval)WHR (pval)WHRadjBMI (pval)rs9491696cg0.48000.0004(9.5E-01)−0.0295(1.1E-04)−0.0255(1.7E-04)XRandall et al.0.26rs984222cg0.63500.0146(2.4E-02)-0.0299(1.3E-04)-0.0407(3.3E-09)XRandall et al.0.0030rs1055144tc0.2100−0.0007(9.3E-01)0.0273(4.3E-03)0.0289(6.0E-04)XRandall et al.0.72rs1011731ag0.42800.0082(2.0E-01)−0.0307(5.4E-05)−0.0341(4.9E-07)XRandall et al.0.34SNPs nominally significant for the test of bias (Pβ.deviation < 0.05) are indicated in bold.a p value from the test of βˆYadj = βˆY. Open table in a new tab SNPs nominally significant for the test of bias (Pβ.deviation < 0.05) are indicated in bold. We extended our analysis to other GWAS of covariate adjusted outcomes and found evidence that reported genetic associations with the primary outcome were in part explained by the effect of the SNP on the covariate. For example, the SNP rs11977526 has been reported to be associated with insulin-like growth factor-binding protein-3 (IGFBP3 [MIM 146732]) at very high significance level 3.3 × 10−101 while no association was observed for Insulin-like growth factor-I (IGF1 [MIM 147440]) before any adjustment.5Kaplan R.C. Petersen A.K. Chen M.H. Teumer A. Glazer N.L. Döring A. Lam C.S. Friedrich N. Newman A. Müller M. et al.A genome-wide association study identifies novel loci associated with circulating IGF-I and IGFBP-3.Hum. Mol. Genet. 2011; 20: 1241-1251Crossref PubMed Scopus (58) Google Scholar The IGF1 analysis adjusted for IGFBP3 displays a genetic association with rs11977526 (p = 1.9 × 10−26) with estimate going in the opposite direction of the rs11977526/IGFBP3 association while IGFBP3 and IGF1 are positively correlated (>0.7).15Juul A. Dalgaard P. Blum W.F. Bang P. Hall K. Michaelsen K.F. Müller J. Skakkebaek N.E. Serum levels of insulin-like growth factor (IGF)-binding protein-3 (IGFBP-3) in healthy infants, children, and adolescents: the relation to IGF-I, IGF-II, IGFBP-1, IGFBP-2, age, sex, body mass index, and pubertal maturation.J. Clin. Endocrinol. Metab. 1995; 80: 2534-2542Crossref PubMed Google Scholar, 16Chan J.M. Stampfer M.J. Ma J. Gann P. Gaziano J.M. Pollak M. Giovannucci E. Insulin-like growth factor-I (IGF-I) and IGF binding protein-3 as predictors of advanced-stage prostate cancer.J. Natl. Cancer Inst. 2002; 94: 1099-1106Crossref PubMed Scopus (396) Google Scholar This indicates that the observed rs11977526/IGF1adj.IGFBP-3 association is likely driven by the rs11977526/IGFBP3 association. In a secondary analysis, Thorleifsson et al.17Thorleifsson G. Walters G.B. Gudbjartsson D.F. Steinthorsdottir V. Sulem P. Helgadottir A. Styrkarsdottir U. Gretarsdottir S. Thorlacius S. Jonsdottir I. et al.Genome-wide association yields new sequence variants at seven loci that associate with measures of obesity.Nat. Genet. 2009; 41: 18-24Crossref PubMed Scopus (1066) Google Scholar tested whether SNPs found to be associated with BMI or weight were also associated with type 2 diabetes (T2D) with or without adjustment for BMI. Most p values for association between those SNPs and T2D were less significant after adjustment for BMI, consistent with a direct effect of BMI on T2D; i.e., BMI is a mediator of the genetic effect (Figure 1A). However, a handful of them had opposite effects, which increased signal in the adjusted analysis (see Table S1). Those signals might be partly explained by the genetic association with BMI, indicating that Figures 1C and 1D might fit the data as well. However, this analysis was conducted on case-control data, ascertained to oversample T2D cases, raising additional complexities in the interpretation of these results.4Pirinen M. Donnelly P. Spencer C. Efficient computation with a linear mixed model on large-scale data sets with applications to genetic studies.Ann. Appl. Stat. 2013; 7: 369-390Crossref Scopus (69) Google Scholar, 18Zaitlen N. Lindström S. Pasaniuc B. Cornelis M. Genovese G. Pollack S. Barton A. Bickeböller H. Bowden D.W. Eyre S. et al.Informed conditioning on clinical covariates increases power in case-control association studies.PLoS Genet. 2012; 8: e1003032Crossref PubMed Scopus (54) Google Scholar Several other large-scale heritable-trait-adjusted GWAS have been conducted.9Scott R.A. Lagou V. Welch R.P. Wheeler E. Montasser M.E. Luan J. Mägi R. Strawbridge R.J. Rehnberg E. Gustafsson S. et al.DIAbetes Genetics Replication and Meta-analysis (DIAGRAM) ConsortiumLarge-scale association analyses identify new loci influencing glycemic traits and provide insight into the underlying biological pathways.Nat. Genet. 2012; 44: 991-1005Crossref PubMed Scopus (613) Google Scholar, 19Stergiakouli E. Gaillard R. Tavare J.M. Balthasar N. Loos R.J. Taal H.R. Evans D.M. Rivadeneira F. St Pourcain B. Uitterlinden A.G. et al.Genome-wide association study of height-adjusted BMI in childhood identifies functional variant in ADCY3.Obesity. 2014; 22: 2252-2259Crossref PubMed Scopus (54) Google Scholar, 20Loth D.W. Artigas M.S. Gharib S.A. Wain L.V. Franceschini N. Koch B. Pottinger T.D. Smith A.V. Duan Q. Oldmeadow C. et al.Genome-wide association analysis identifies six new loci associated with forced vital capacity.Nat. Genet. 2014; 46: 669-677Crossref PubMed Scopus (105) Google Scholar, 21Hancock D.B. Eijgelsheim M. Wilk J.B. Gharib S.A. Loehr L.R. Marciante K.D. Franceschini N. van Durme Y.M. Chen T.H. Barr R.G. et al.Meta-analyses of genome-wide association studies identify multiple loci associated with pulmonary function.Nat. Genet. 2010; 42: 45-52Crossref PubMed Scopus (477) Google Scholar Among those we explored, all displayed enrichment for genetic variants showing nominal significance association with the covariate considered, genetic variants with opposite effect on the outcome and the covariate, or both (see Table S2). Finally, this concept of biased associations in covariate adjusted analysis can be extended to other effect measures. In particular, the heritability of a phenotype adjusted for a covariate, commonly reported,22Mills G.W. Avery P.J. McCarthy M.I. Hattersley A.T. Levy J.C. Hitman G.A. Sampson M. Walker M. Heritability estimates for beta cell function and features of the insulin resistance syndrome in UK families with an increased susceptibility to type 2 diabetes.Diabetologia. 2004; 47: 732-738Crossref PubMed Scopus (105) Google Scholar, 23Stein C.M. Guwatudde D. Nakakeeto M. Peters P. Elston R.C. Tiwari H.K. Mugerwa R. Whalen C.C. Heritability analysis of cytokines as intermediate phenotypes of tuberculosis.J. Infect. Dis. 2003; 187: 1679-1685Crossref PubMed Scopus (50) Google Scholar, 24Post W.S. Larson M.G. Myers R.H. Galderisi M. Levy D. Heritability of left ventricular mass: the Framingham Heart Study.Hypertension. 1997; 30: 1025-1028Crossref PubMed Scopus (182) Google Scholar, 25Murabito J.M. Guo C.Y. Fox C.S. D’Agostino R.B. Heritability of the ankle-brachial index: the Framingham Offspring study.Am. J. Epidemiol. 2006; 164: 963-968Crossref PubMed Scopus (58) Google Scholar, 26Shah S.H. Hauser E.R. Bain J.R. Muehlbauer M.J. Haynes C. Stevens R.D. Wenner B.R. Dowdy Z.E. Granger C.B. Ginsburg G.S. et al.High heritability of metabolomic profiles in families burdened with premature cardiovascular disease.Mol. Syst. Biol. 2009; 5: 258Crossref PubMed Scopus (128) Google Scholar can also be biased by the genetic component of the covariate and therefore might not necessarily represent the genetic component of the primary outcome. Similarly cross-trait heritability or genetic correlations between covariate adjusted phenotypes, as measured by Lee et al.,27Lee S.H. Ripke S. Neale B.M. Faraone S.V. Purcell S.M. Perlis R.H. Mowry B.J. Thapar A. Goddard M.E. Witte J.S. et al.Cross-Disorder Group of the Psychiatric Genomics ConsortiumInternational Inflammatory Bowel Disease Genetics Consortium (IIBDGC)Genetic relationship between five psychiatric disorders estimated from genome-wide SNPs.Nat. Genet. 2013; 45: 984-994Crossref PubMed Scopus (1592) Google Scholar might also be biased. Assuming an extended model from Figure 1D, the genetic component of the adjusted trait would correspond to a heterogeneous mixture of trait-specific genetic loci and shared loci with either effect in the same direction or effect in opposite direction (Figure 3). In theory, one can expect the heritability of an adjusted trait to be larger than the heritability of the unadjusted trait (Figure 3C). Cross-trait heritability estimates would provide a more comprehensive answer to the genetic variance overlap between correlated traits, although it is unclear how genetic effects in opposite direction for positively correlated traits (or conversely) are handled by these methods. Overall, when the goal is to identify genetic variants that are directly associated with a primary outcome, we were unable to identify an alternative approach that adjusts for a covariate and leads to unbiased effect estimates for a heritable covariate that is associated with the tested variant (see Appendix D). Therefore, unless we know with certainty that the tested variant does not influence the covariate, we recommend that the inclusion of such heritable covariates in the model should be avoided. Given evidence for a large number of pleiotropic genes across complex traits,28Cotsapas C. Voight B.F. Rossin E. Lage K. Neale B.M. Wallace C. Abecasis G.R. Barrett J.C. Behrens T. Cho J. et al.FOCiS Network of ConsortiaPervasive sharing of genetic effects in autoimmune disease.PLoS Genet. 2011; 7: e1002254Crossref PubMed Scopus (401) Google Scholar, 29Sivakumaran S. Agakov F. Theodoratou E. Prendergast J.G. Zgaga L. Manolio T. Rudan I. McKeigue P. Wilson J.F. Campbell H. Abundant pleiotropy in human complex diseases and traits.Am. J. Hum. Genet. 2011; 89: 607-618Abstract Full Text Full Text PDF PubMed Scopus (344) Google Scholar, 30Andreassen O.A. Djurovic S. Thompson W.K. Schork A.J. Kendler K.S. O’Donovan M.C. Rujescu D. Werge T. van de Bunt M. Morris A.P. et al.International Consortium for Blood Pressure GWASDiabetes Genetics Replication and Meta-analysis ConsortiumPsychiatric Genomics Consortium Schizophrenia Working GroupImproved detection of common variants associated with schizophrenia by leveraging pleiotropy with cardiovascular-disease risk factors.Am. J. Hum. Genet. 2013; 92: 197-209Abstract Full Text Full Text PDF PubMed Scopus (307) Google Scholar it seems unlikely that any heritable covariates with a complex genetic architecture, e.g., BMI or WHR, will fulfill that condition. Including such covariates in the absence of a strong prior knowledge on the pathophysiology is therefore likely to lead to biased effect estimates. In some instances, the aim of an adjusted analysis is to increase statistical power rather than detect unbiased direct effects. In these instances, we suggest using multivariate approaches31Aschard H. Vilhjálmsson B.J. Greliche N. Morange P.E. Trégouët D.A. Kraft P. Maximizing the power of principal-component analysis of correlated phenotypes in genome-wide association studies.Am. J. Hum. Genet. 2014; 94: 662-676Abstract Full Text Full Text PDF PubMed Scopus (107) Google Scholar, 32Zhou X. Stephens M. Efficient multivariate linear mixed model algorithms for genome-wide association studies.Nat
0
Citation266
0
Save
0

Smoking changes adaptive immunity with persistent effects

Violaine Saint-André et al.Feb 14, 2024
Individuals differ widely in their immune responses, with age, sex and genetic factors having major roles in this inherent variability1-6. However, the variables that drive such differences in cytokine secretion-a crucial component of the host response to immune challenges-remain poorly defined. Here we investigated 136 variables and identified smoking, cytomegalovirus latent infection and body mass index as major contributors to variability in cytokine response, with effects of comparable magnitudes with age, sex and genetics. We find that smoking influences both innate and adaptive immune responses. Notably, its effect on innate responses is quickly lost after smoking cessation and is specifically associated with plasma levels of CEACAM6, whereas its effect on adaptive responses persists long after individuals quit smoking and is associated with epigenetic memory. This is supported by the association of the past smoking effect on cytokine responses with DNA methylation at specific signal trans-activators and regulators of metabolism. Our findings identify three novel variables associated with cytokine secretion variability and reveal roles for smoking in the short- and long-term regulation of immune responses. These results have potential clinical implications for the risk of developing infections, cancers or autoimmune diseases.
0
Citation17
-1
Save
0

Efficient implementation of penalized regression for genetic risk prediction

Florian Privé et al.Aug 29, 2018
Abstract Polygenic Risk Scores (PRS) consist in combining the information across many single-nucleotide polymorphisms (SNPs) in a score reflecting the genetic risk of developing a disease. PRS might have a major impact on public health, possibly allowing for screening campaigns to identify high-genetic risk individuals for a given disease. The “Clumping+Thresholding” (C+T) approach is the most common method to derive PRS. C+T uses only univariate genome-wide association studies (GWAS) summary statistics, which makes it fast and easy to use. However, previous work showed that jointly estimating SNP effects for computing PRS has the potential to significantly improve the predictive performance of PRS as compared to C+T. In this paper, we present an efficient method to jointly estimate SNP effects, allowing for practical application of penalized logistic regression (PLR) on modern datasets including hundreds of thousands of individuals. Moreover, our implementation of PLR directly includes automatic choices for hyper-parameters. The choice of hyper-parameters for a predictive model is very important since it can dramatically impact its predictive performance. As an example, AUC values range from less than 60% to 90% in a model with 30 causal SNPs, depending on the p-value threshold in C+T. We compare the performance of PLR, C+T and a derivation of random forests using both real and simulated data. PLR consistently achieves higher predictive performance than the two other methods while being as fast as C+T. We find that improvement in predictive performance is more pronounced when there are few effects located in nearby genomic regions with correlated SNPs; for instance, AUC values increase from 83% with the best prediction of C+T to 92.5% with PLR. We confirm these results in a data analysis of a case-control study for celiac disease where PLR and the standard C+T method achieve AUC of 89% and of 82.5%. In conclusion, our study demonstrates that penalized logistic regression can achieve more discriminative polygenic risk scores, while being applicable to large-scale individual-level data thanks to the implementation we provide in the R package bigstatsr.
0
Citation6
0
Save
37

Multitrait genetic-phenotype associations to connect disease variants and biological mechanisms

Hanna Julienne et al.Jun 28, 2020
Abstract Background Genome-wide association studies (GWAS) uncovered a wealth of associations between common variants and human phenotypes. These results, widely shared across the scientific community as summary statistics, fostered a flurry of secondary analysis: heritability and genetic correlation assessment, pleiotropy characterization and multitrait association test. Amongst these secondary analyses, a rising new field is the decomposition of multitrait genetic effects into distinct profiles of pleiotropy. Results We conducted an integrative analysis of GWAS summary statistics from 36 phenotypes to decipher multitrait genetic architecture and its link to biological mechanisms. We started by benchmarking multitrait association tests on a large panel of phenotype sets and established the Omnibus test as the most powerful in practice. We detected 322 new associations that were not previously reported by univariate screening. Using independent significant associations, we investigated the breakdown of genetic association into clusters of variants harboring similar multitrait association profile. Focusing on two subsets of immunity and metabolism phenotypes, we then demonstrate how SNPs within clusters can be mapped to biological pathways and disease mechanisms, providing a putative insight for numerous SNPs with unknown biological function. Finally, for the metabolism set, we investigate the link between gene cluster assignment and success of drug targets in random control trials. We report additional uninvestigated drug targets classified by clusters. Conclusions Multitrait genetic signals can be decomposed into distinct pleiotropy profiles that reveal consistent with pathways databases and random control trials. We propose this method for the mapping of unannotated SNPs to putative pathways.
37
Citation6
0
Save
0

Making the most of Clumping and Thresholding for polygenic scores

Florian Privé et al.May 30, 2019
Abstract Polygenic prediction has the potential to contribute to precision medicine. Clumping and Thresh-olding (C+T) is a widely used method to derive polygenic scores. When using C+T, it is common to test several p-value thresholds to maximize predictive ability of the derived polygenic scores. Along with this p-value threshold, we propose to tune three other hyper-parameters for C+T. We implement an efficient way to derive thousands of different C+T polygenic scores corresponding to a grid over four hyper-parameters. For example, it takes a few hours to derive 123,200 different C+T scores for 300K individuals and 1M variants on a single node with 16 cores. We find that optimizing over these four hyper-parameters improves the predictive performance of C+T in both simulations and real data applications as compared to tuning only the p-value threshold. A particularly large increase can be noted when predicting depression status, from an AUC of 0.557 (95% CI: [0.544-0.569]) when tuning only the p-value threshold in C+T to an AUC of 0.592 (95% CI: [0.580-0.604]) when tuning all four hyper-parameters we propose for C+T. We further propose Stacked Clumping and Thresholding (SCT), a polygenic score that results from stacking all derived C+T scores. Instead of choosing one set of hyper-parameters that maximizes prediction in some training set, SCT learns an optimal linear combination of all C+T scores by using an efficient penalized regression. We apply SCT to 8 different case-control diseases in the UK biobank data and find that SCT substantially improves prediction accuracy with an average AUC increase of 0.035 over standard C+T.
0
Citation5
0
Save
Load More