SC
Shing Choi
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
16
(31% Open Access)
Cited by:
1,550
h-index:
20
/
i10-index:
26
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

PRSice-2: Polygenic Risk Score software for biobank-scale data

Shing Choi et al.Jul 1, 2019
Polygenic risk score (PRS) analyses have become an integral part of biomedical research, exploited to gain insights into shared aetiology among traits, to control for genomic profile in experimental studies, and to strengthen causal inference, among a range of applications. Substantial efforts are now devoted to biobank projects to collect large genetic and phenotypic data, providing unprecedented opportunity for genetic discovery and applications. To process the large-scale data provided by such biobank resources, highly efficient and scalable methods and software are required.Here we introduce PRSice-2, an efficient and scalable software program for automating and simplifying PRS analyses on large-scale data. PRSice-2 handles both genotyped and imputed data, provides empirical association P-values free from inflation due to overfitting, supports different inheritance models, and can evaluate multiple continuous and binary target traits simultaneously. We demonstrate that PRSice-2 is dramatically faster and more memory-efficient than PRSice-1 and alternative PRS software, LDpred and lassosum, while having comparable predictive power.PRSice-2's combination of efficiency and power will be increasingly important as data sizes grow and as the applications of PRS become more sophisticated, e.g., when incorporated into high-dimensional or gene set-based analyses. PRSice-2 is written in C++, with an R script for plotting, and is freely available for download from http://PRSice.info.
0

Polygenic scores via penalized regression on summary statistics

Timothy Mak et al.May 8, 2017
ABSTRACT Polygenic scores (PGS) summarize the genetic contribution of a person's genotype to a disease or phenotype. They can be used to group participants into different risk categories for diseases, and are also used as covariates in epidemiological analyses. A number of possible ways of calculating PGS have been proposed, and recently there is much interest in methods that incorporate information available in published summary statistics. As there is no inherent information on linkage disequilibrium (LD) in summary statistics, a pertinent question is how we can use LD information available elsewhere to supplement such analyses. To answer this question, we propose a method for constructing PGS using summary statistics and a reference panel in a penalized regression framework, which we call lassosum . We also propose a general method for choosing the value of the tuning parameter in the absence of validation data. In our simulations, we showed that pseudovalidation often resulted in prediction accuracy that is comparable to using a dataset with validation phenotype and was clearly superior to the conservative option of setting the tuning parameter of lassosum to its lowest value. We also showed that lassosum achieved better prediction accuracy than simple clumping and P ‐value thresholding in almost all scenarios. It was also substantially faster and more accurate than the recently proposed LDpred.
0
Citation365
0
Save
40

EraSOR: Erase Sample Overlap in polygenic score analyses

Shing Choi et al.Dec 13, 2021
Abstract Background Polygenic risk score (PRS) analyses are now routinely applied in biomedical research, with great hope that they will aid in our understanding of disease aetiology and contribute to personalized medicine. The continued growth of multi-cohort genome-wide association studies (GWASs) and large-scale biobank projects has provided researchers with a wealth of GWAS summary statistics and individual-level data suitable for performing PRS analyses. However, as the size of these studies increase, the risk of inter-cohort sample overlap and close relatedness increases. Ideally sample overlap would be identified and removed directly, but this is typically not possible due to privacy laws or consent agreements. This sample overlap, whether known or not, is a major problem in PRS analyses because it can lead to inflation of type 1 error and, thus, erroneous conclusions in published work. Results Here, for the first time, we report the scale of the sample overlap problem for PRS analyses by generating known sample overlap across sub-samples of the UK Biobank data, which we then use to produce GWAS and target data to mimic the effects of inter-cohort sample overlap. We demonstrate that inter-cohort overlap results in a significant and often substantial inflation in the observed PRS-trait association, coefficient of determination (R 2 ) and false-positive rate. This inflation can be high even when the absolute number of overlapping individuals is small if this makes up a notable fraction of the target sample. We develop and introduce EraSOR ( Era se S ample O verlap and R elatedness), a software for adjusting inflation in PRS prediction and association statistics in the presence of sample overlap or close relatedness between the GWAS and target samples. A key component of the EraSOR approach is inference of the degree of sample overlap from the intercept of a bivariate LD score regression applied to the GWAS and target data, making it powered in settings where both have sample sizes over 1,000 individuals. Through extensive benchmarking using UK Biobank and HapGen2 simulated genotype-phenotype data, we demonstrate that PRSs calculated using EraSOR-adjusted GWAS summary statistics are robust to inter-cohort overlap in a wide range of realistic scenarios and are even robust to high levels of residual genetic and environmental stratification. Conclusion The results of all PRS analyses for which sample overlap cannot be definitively ruled out should be considered with caution given high type 1 error observed in the presence of even low overlap between base and target cohorts. Given the strong performance of EraSOR in eliminating inflation caused by sample overlap in PRS studies with large (>5k) target samples, we recommend that EraSOR be used in all future such PRS studies to mitigate the potential effects of inter-cohort overlap and close relatedness.
40
Citation5
0
Save
0

Genetic variation in the Major Histocompatibility Complex and association with depression

Kylie Glanville et al.Nov 19, 2018
Background: The prevalence of depression is higher in individuals suffering from autoimmune diseases, but the mechanisms underlying the observed comorbidities are unknown. Epidemiological findings point to a bi-directional relationship - that depression increases the risk of developing an autoimmune disease, and vice-versa. Shared genetic etiology is a plausible explanation for the overlap between depression and autoimmune diseases. In this study we tested whether genetic variation in the Major Histocompatibility Complex (MHC), which is associated with risk for autoimmune diseases, is also associated with risk for depression. Method: We fine-mapped the classical MHC (chr6: 29.6-33.1 Mb), imputing 216 Human Leukocyte Antigen (HLA) alleles and four Complement Component 4 (C4) haplotypes in studies from the Psychiatric Genomics Consortium (PGC) Major Depressive Disorder (MDD) working group and the UK Biobank (UKB). In the 26 PGC-MDD studies, cases met a lifetime diagnosis of MDD, determined by a structured diagnostic interview. In the UKB, cases and controls were identified from an online mental health questionnaire. The total sample size was 45,149 depression cases and 86,698 controls. We tested for association between depression status and imputed MHC variants in each study and performed an inverse-variance weighted meta-analysis across the PGC-MDD and UKB samples, applying both a conservative region-wide significance threshold (3.9-e6) and a candidate threshold (1.6e-4). Results: No HLA alleles or C4 haplotypes were associated with depression at the conservative threshold in the PGC, UKB or meta-analysis. HLA-B*08:01 was associated with modest protection for depression at the candidate threshold in the meta-analysis. Under the conservative threshold, 70 SNPs were detected in the UKB and 143 SNPs were detected in the meta-analysis, mirroring previous findings from highly powered GWAS of depression. Discussion: We found no evidence that HLA alleles, which play a major role in the genetic susceptibility to autoimmune diseases, or C4 haplotypes, which are strongly associated with schizophrenia, confer risk for depression. These results indicate that autoimmune diseases and depression do not share common risk loci of moderate or large effect in the MHC.
0

Familial influences on Neuroticism and Education in the UK Biobank

Rosa Cheesman et al.Mar 20, 2019
Genome-wide studies often exclude family members, even though they are a valuable source of information. We identified parent-offspring pairs, siblings and couples in the UK Biobank and implemented a family-based DNA-derived heritability method to capture additional genetic effects and multiple sources of environmental influence on neuroticism and years of education. Compared to estimates from unrelated individuals, heritability increased from 10% to 27% and from 19% to 57% for neuroticism and education respectively by including family-based genetic effects. We detected no family environmental influences on neuroticism, but years of education was substantially influenced by couple similarity (38%). Overall, our genetic and environmental estimates closely replicate previous findings from an independent sample, but more research is required to dissect contributions to the additional heritability, particularly rare and structural genetic effects and residual environmental confounding. The latter is especially relevant for years of education, a highly socially-contingent variable, for which our heritability estimate is at the upper end of twin estimates in the literature. Family-based genetic effects narrow the gap between twin and DNA-based heritability methods, and could be harnessed to improve polygenic prediction.
0

Estimating the sensitivity of associations between risk factors and outcomes to shared genetic effects

Jean‐Baptiste Pingault et al.Mar 30, 2019
Objective: Countless associations between risk factors and outcomes are reported in epidemiological research, but often without estimating the contribution from genetics. However most outcomes and risk factors are substantially heritable, and genetic influences can confound these associations. Here we propose a two-stage approach for evaluating the role of shared genetic effects in explaining these observed associations. Method: Genotyped unrelated participants from the Twins Early Development Study are included (N from 3,663 to 4,693 depending on the outcome) in our analyses. As an example for our proposed approach, we focus on maternal educational attainment, a risk factor known to associate with a variety of offspring social and health outcomes, including child educational achievement, Body Mass Index, and Attention Deficit Hyperactivity Disorders (ADHD). In the first stage of our approach we estimate how much of the phenotypic associations between maternal education and child outcomes can be attributed to shared genetic effects via regressions controlling for increasingly powerful polygenic scores. In the second stage, we estimate shared genetic effects using heritability estimates and genetic correlations equal to those derived in both SNP-based and twin-based studies. Finally, evidence from the two stages are evaluated in conjunction to provide an overall assessment of the likelihood that the association is explained by genetics. Results: Associations between maternal education and the three developmental outcomes are highly significant. The magnitude of these associations decrease when using polygenic scores to account for shared genetic effects, explaining between 14.3% and 24.3% of the original associations. For the three outcomes, the magnitude of these associations further decrease under a SNP-based heritability scenario and are almost entirely or entirely explained by genetics under a twin-based heritability scenario. Conclusions: Observed association between maternal education and child educational attainment, BMI and ADHD symptoms may be largely explained by genetics. To the extent that available estimates of SNP-based and twin-based heritabilities are accurate, the present findings represent a call for caution when interpreting non-genetically informed epidemiology studies of the role of maternal education or other 'environmental' risk factors. The two-stage approach that we propose adds a new tool to probe the robustness of findings regarding the role of a range of risk factors. Our approach, akin to a genetically informed sensitivity analysis, only requires a genotyped cohort with adequate phenotypic measurements, and has the potential to be widely applied across the life and social sciences.
0

Polygenic scores for UK Biobank scale data

Timothy Mak et al.Jan 23, 2018
Polygenic scores (PGS) are estimated scores representing the genetic tendency of an individual for a disease or trait and have become an indispensible tool in a variety of analyses. Typically they are linear combination of the genotypes of a large number of SNPs, with the weights calculated from an external source, such as summary statistics from large meta-analyses. Recently cohorts with genetic data have become very large, such that it would be a waste if the raw data were not made use of constructing PGS. Making use of raw data in calculating PGS, however, presents us with problems of overfitting. Here we discuss the essence of overfitting as applied to PGS calculations and highlight the difference between overfitting due to the overlap between the target and the discovery data (OTD), and overfitting due to the overlap between the target the the validation data (OTV). We propose two methods -- cross prediction and split validation -- to overcome OTD and OTV respectively. Using these two methods, PGS can be calculated using raw data without overfitting. We show that PGSs thus calculated have better predictive power than those using summary statistics alone for six phenotypes in the UK Biobank data.
Load More