SC
Shing Choi
Author with expertise in Genomic Studies and Association Analyses
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
11
(18% Open Access)
Cited by:
5
h-index:
12
/
i10-index:
14
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
40

EraSOR: Erase Sample Overlap in polygenic score analyses

Shing Choi et al.Dec 13, 2021
Abstract Background Polygenic risk score (PRS) analyses are now routinely applied in biomedical research, with great hope that they will aid in our understanding of disease aetiology and contribute to personalized medicine. The continued growth of multi-cohort genome-wide association studies (GWASs) and large-scale biobank projects has provided researchers with a wealth of GWAS summary statistics and individual-level data suitable for performing PRS analyses. However, as the size of these studies increase, the risk of inter-cohort sample overlap and close relatedness increases. Ideally sample overlap would be identified and removed directly, but this is typically not possible due to privacy laws or consent agreements. This sample overlap, whether known or not, is a major problem in PRS analyses because it can lead to inflation of type 1 error and, thus, erroneous conclusions in published work. Results Here, for the first time, we report the scale of the sample overlap problem for PRS analyses by generating known sample overlap across sub-samples of the UK Biobank data, which we then use to produce GWAS and target data to mimic the effects of inter-cohort sample overlap. We demonstrate that inter-cohort overlap results in a significant and often substantial inflation in the observed PRS-trait association, coefficient of determination (R 2 ) and false-positive rate. This inflation can be high even when the absolute number of overlapping individuals is small if this makes up a notable fraction of the target sample. We develop and introduce EraSOR ( Era se S ample O verlap and R elatedness), a software for adjusting inflation in PRS prediction and association statistics in the presence of sample overlap or close relatedness between the GWAS and target samples. A key component of the EraSOR approach is inference of the degree of sample overlap from the intercept of a bivariate LD score regression applied to the GWAS and target data, making it powered in settings where both have sample sizes over 1,000 individuals. Through extensive benchmarking using UK Biobank and HapGen2 simulated genotype-phenotype data, we demonstrate that PRSs calculated using EraSOR-adjusted GWAS summary statistics are robust to inter-cohort overlap in a wide range of realistic scenarios and are even robust to high levels of residual genetic and environmental stratification. Conclusion The results of all PRS analyses for which sample overlap cannot be definitively ruled out should be considered with caution given high type 1 error observed in the presence of even low overlap between base and target cohorts. Given the strong performance of EraSOR in eliminating inflation caused by sample overlap in PRS studies with large (>5k) target samples, we recommend that EraSOR be used in all future such PRS studies to mitigate the potential effects of inter-cohort overlap and close relatedness.
40
Citation5
0
Save
20

BridgePRS: A powerful trans-ancestry Polygenic Risk Score method

Clive Hoggart et al.Feb 21, 2023
Abstract Polygenic Risk Scores (PRS) have huge potential to contribute to biomedical research and to a future of precision medicine, but to date their calculation relies largely on Europeanancestry GWAS data. This global bias makes most PRS substantially less accurate in individuals of non-European ancestry. Here we present BridgePRS , a novel Bayesian PRS method that leverages shared genetic effects across ancestries to increase the accuracy of PRS in non-European populations. The performance of BridgePRS is evaluated in simulated data and real UK Biobank (UKB) data across 19 traits in African, South Asian and East Asian ancestry individuals, using both UKB and Biobank Japan GWAS summary statistics. BridgePRS is compared to the leading alternative, PRS-CSx , and two single-ancestry PRS methods adapted for trans-ancestry prediction. PRS trained in the UK Biobank are then validated out-of-cohort in the independent Mount Sinai (New York) Bio Me Biobank. Simulations reveal that BridgePRS performance, relative to PRS-CSx , increases as uncertainty increases: with lower heritability, higher polygenicity, greater between-population genetic diversity, and when causal variants are not present in the data. Our simulation results are consistent with real data analyses in which BridgePRS has better predictive accuracy in African ancestry samples, especially in out-of-cohort prediction (into Bio Me ), which shows a 60% boost in mean R 2 compared to PRS-CSx ( P = 2 × 10 −6 ). BridgePRS performs the full PRS analysis pipeline, is computationally efficient, and is a powerful method for deriving PRS in diverse and under-represented ancestry populations.
0

Genome-wide gene-environment analyses of major depressive disorder and reported lifetime traumatic experiences in UK Biobank

Jonathan Coleman et al.Jan 12, 2018
Depression is more frequent among individuals exposed to traumatic events. Both trauma exposure and depression are heritable. However, the relationship between these traits, including the role of genetic risk factors, is complex and poorly understood. When modelling trauma exposure as an environmental influence on depression, both gene-environment correlations and gene-environment interactions have been observed. The UK Biobank concurrently assessed Major Depressive Disorder (MDD) and self-reported lifetime exposure to traumatic events in 126,522 genotyped individuals of European ancestry. We contrasted genetic influences on MDD between individuals reporting and not reporting trauma exposure (final sample size range: 24,094-92,957). The SNP-based heritability of MDD was greater in participants reporting trauma exposure (24%) than in individuals not reporting trauma exposure (12%), taking into account the strong, positive genetic correlation observed between MDD and reported trauma exposure. The genetic correlation between MDD and waist circumference was only significant in individuals reporting trauma exposure (rg = 0.24, p = 1.8×10-7 versus rg = −0.05, p = 0.39 in individuals not reporting trauma exposure, difference p = 2.3×10-4). Our results suggest that the genetic contribution to MDD is greater when additional risk factors are present, and that a complex relationship exists between reported trauma exposure, body composition, and MDD.
0

Polygenic scores for UK Biobank scale data

Timothy Mak et al.Jan 23, 2018
Polygenic scores (PGS) are estimated scores representing the genetic tendency of an individual for a disease or trait and have become an indispensible tool in a variety of analyses. Typically they are linear combination of the genotypes of a large number of SNPs, with the weights calculated from an external source, such as summary statistics from large meta-analyses. Recently cohorts with genetic data have become very large, such that it would be a waste if the raw data were not made use of constructing PGS. Making use of raw data in calculating PGS, however, presents us with problems of overfitting. Here we discuss the essence of overfitting as applied to PGS calculations and highlight the difference between overfitting due to the overlap between the target and the discovery data (OTD), and overfitting due to the overlap between the target the the validation data (OTV). We propose two methods -- cross prediction and split validation -- to overcome OTD and OTV respectively. Using these two methods, PGS can be calculated using raw data without overfitting. We show that PGSs thus calculated have better predictive power than those using summary statistics alone for six phenotypes in the UK Biobank data.
0

Estimating the sensitivity of associations between risk factors and outcomes to shared genetic effects

Jean‐Baptiste Pingault et al.Mar 30, 2019
Objective: Countless associations between risk factors and outcomes are reported in epidemiological research, but often without estimating the contribution from genetics. However most outcomes and risk factors are substantially heritable, and genetic influences can confound these associations. Here we propose a two-stage approach for evaluating the role of shared genetic effects in explaining these observed associations. Method: Genotyped unrelated participants from the Twins Early Development Study are included (N from 3,663 to 4,693 depending on the outcome) in our analyses. As an example for our proposed approach, we focus on maternal educational attainment, a risk factor known to associate with a variety of offspring social and health outcomes, including child educational achievement, Body Mass Index, and Attention Deficit Hyperactivity Disorders (ADHD). In the first stage of our approach we estimate how much of the phenotypic associations between maternal education and child outcomes can be attributed to shared genetic effects via regressions controlling for increasingly powerful polygenic scores. In the second stage, we estimate shared genetic effects using heritability estimates and genetic correlations equal to those derived in both SNP-based and twin-based studies. Finally, evidence from the two stages are evaluated in conjunction to provide an overall assessment of the likelihood that the association is explained by genetics. Results: Associations between maternal education and the three developmental outcomes are highly significant. The magnitude of these associations decrease when using polygenic scores to account for shared genetic effects, explaining between 14.3% and 24.3% of the original associations. For the three outcomes, the magnitude of these associations further decrease under a SNP-based heritability scenario and are almost entirely or entirely explained by genetics under a twin-based heritability scenario. Conclusions: Observed association between maternal education and child educational attainment, BMI and ADHD symptoms may be largely explained by genetics. To the extent that available estimates of SNP-based and twin-based heritabilities are accurate, the present findings represent a call for caution when interpreting non-genetically informed epidemiology studies of the role of maternal education or other 'environmental' risk factors. The two-stage approach that we propose adds a new tool to probe the robustness of findings regarding the role of a range of risk factors. Our approach, akin to a genetically informed sensitivity analysis, only requires a genotyped cohort with adequate phenotypic measurements, and has the potential to be widely applied across the life and social sciences.
0

Cannabis use, depression and self-harm: phenotypic and genetic relationships

Karen Hodgson et al.Feb 14, 2019
Background and Aims: The use of cannabis has previously been linked to both depression and self-harm, however the role of genetics in this relationship are unclear. We aimed to examine the phenotypic and genetic relationships between these traits. Design: Genetic and cross-sectional phenotypic data collected through UK Biobank, together with consortia genome-wide association study summary statistics. These data were used to assess the phenotypic and genetic relationship between cannabis use, depression and self harm. Setting: UK, with additional international consortia data Participants N=126,291 British adults aged between 40 and 70 years, recruited into UK Biobank. Measurements: Genome-wide genetic data, phenotypic data on lifetime history of cannabis use, depression and self-harm. Findings: In UK Biobank, cannabis use is associated with increased likelihood of depression (OR=1.64, 95% CI=1.59-1.70, p=1.19x10-213) and self-harm (OR=2.85, 95% CI=2.69-3.01, p=3.46x10-304). The strength of this phenotypic association is stronger when more severe trait definitions of cannabis use and depression are considered. Additionally, significant genetic correlations are seen between cannabis use and depression using consortia summary statistics (rg=0.289, SE=0.036, p=1.45x10-15). Polygenic risk scores for cannabis use and depression both explain a small but significant proportion of variance in cannabis use, depression and self harm within a UK Biobank target sample. However, two-sample Mendelian randomisation analyses were not significant. Conclusions: Cannabis use is both phenotypically and genetically associated with depression and self harm. Future work dissecting the causal mechanism linking these traits may have implications for cannabis users.
0

Polygenic scores via penalized regression on summary statistics

Timothy Mak et al.Jun 10, 2016
Polygenic scores (PGS) summarize the genetic contribution of a person's genotype to a disease or phenotype. They can be used to group participants into different risk categories for diseases, and are also used as covariates in epidemiological analyses. A number of possible ways of calculating polygenic scores have been proposed, and recently there is much interest in methods that incorporate information available in published summary statistics. As there is no inherent information on linkage disequilibrium (LD) in summary statistics, a pertinent question is how we can make use of LD information available elsewhere to supplement such analyses. To answer this question we propose a method for constructing PGS using summary statistics and a reference panel in a penalized regression framework, which we call lassosum. We also propose a general method for choosing the value of the tuning parameter in the absence of validation data. In our simulations, we showed that pseudovalidation often resulted in prediction accuracy that is comparable to using a dataset with validation phenotype and was clearly superior to the conservative option of setting the tuning parameter of lassosum to its lowest value. We also showed that lassosum achieved better prediction accuracy than simple clumping and p-value thresholding in almost all scenarios. It was also substantially faster and more accurate than the recently proposed LDpred.
0

Genetic variation in the Major Histocompatibility Complex and association with depression

Kylie Glanville et al.Nov 19, 2018
Background: The prevalence of depression is higher in individuals suffering from autoimmune diseases, but the mechanisms underlying the observed comorbidities are unknown. Epidemiological findings point to a bi-directional relationship - that depression increases the risk of developing an autoimmune disease, and vice-versa. Shared genetic etiology is a plausible explanation for the overlap between depression and autoimmune diseases. In this study we tested whether genetic variation in the Major Histocompatibility Complex (MHC), which is associated with risk for autoimmune diseases, is also associated with risk for depression. Method: We fine-mapped the classical MHC (chr6: 29.6-33.1 Mb), imputing 216 Human Leukocyte Antigen (HLA) alleles and four Complement Component 4 (C4) haplotypes in studies from the Psychiatric Genomics Consortium (PGC) Major Depressive Disorder (MDD) working group and the UK Biobank (UKB). In the 26 PGC-MDD studies, cases met a lifetime diagnosis of MDD, determined by a structured diagnostic interview. In the UKB, cases and controls were identified from an online mental health questionnaire. The total sample size was 45,149 depression cases and 86,698 controls. We tested for association between depression status and imputed MHC variants in each study and performed an inverse-variance weighted meta-analysis across the PGC-MDD and UKB samples, applying both a conservative region-wide significance threshold (3.9-e6) and a candidate threshold (1.6e-4). Results: No HLA alleles or C4 haplotypes were associated with depression at the conservative threshold in the PGC, UKB or meta-analysis. HLA-B*08:01 was associated with modest protection for depression at the candidate threshold in the meta-analysis. Under the conservative threshold, 70 SNPs were detected in the UKB and 143 SNPs were detected in the meta-analysis, mirroring previous findings from highly powered GWAS of depression. Discussion: We found no evidence that HLA alleles, which play a major role in the genetic susceptibility to autoimmune diseases, or C4 haplotypes, which are strongly associated with schizophrenia, confer risk for depression. These results indicate that autoimmune diseases and depression do not share common risk loci of moderate or large effect in the MHC.
1

Identifying Potential Causal Risk Factors for Self-Harm: A Polygenic Risk Scoring and Mendelian Randomisation Approach

Kai Lim et al.Jun 21, 2019
Background: Multiple individual vulnerabilities and traits are phenotypically associated with suicidal and non-suicidal self-harm. However, associations between these risk factors and self-harm are subject to confounding. We implemented genetically informed methods to better identify individual risk factors for self-harm. Methods: Using genotype data and online Mental Health Questionnaire responses in the UK Biobank sample (N = 125,925), polygenic risk scores (PRS) were generated to index 24 plausible individual risk factors for self-harm in the following domains: mental health vulnerabilities, substance use phenotypes, cognitive traits, personality traits and physical traits. PRS were entered as predictors in binomial regression models to predict self-harm. Multinomial regressions were used to model suicidal and non-suicidal self-harm. To further probe the causal nature of these relationships, two-sample Mendelian Randomisation (MR) analyses were conducted for significant risk factors identified in PRS analyses. Outcomes: Self-harm was predicted by PRS indexing six individual risk factors, which are major depressive disorder (MDD), attention deficit/hyperactivity disorder (ADHD), bipolar disorder, schizophrenia, alcohol dependence disorder (ALC) and lifetime cannabis use. Effect sizes ranged from β = 0.044 (95% CI: 0.016 to 0.152) for PRS for lifetime cannabis use, to β = 0.179 (95% CI: 0.152 to 0.207) for PRS for MDD. No systematic distinctions emerged between suicidal and non-suicidal self-harm. In follow-up MR analyses, MDD, ADHD and schizophrenia emerged as plausible causal risk factors for self-harm. Interpretation: Among a range of potential risk factors leading to self-harm, core predictors were found among psychiatric disorders. In addition to MDD, liabilities for schizophrenia and ADHD increased the risk for self-harm. Detection and treatment of core symptoms of these conditions, such as psychotic or impulsivity symptoms, may benefit self-harming patients.
Load More