SL
Sang Lee
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
32
(38% Open Access)
Cited by:
61
h-index:
60
/
i10-index:
205
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Subtle stratification confounds estimates of heritability from rare variants

Gaurav Bhatia et al.Apr 13, 2016
Abstract Genome-wide significant associations generally explain only a small proportion of the narrow-sense heritability of complex disease ( h 2 ). While considerably more heritability is explained by all genotyped SNPs ( h g 2 ), for most traits, much heritability remains missing ( h g 2 < h 2 ). Rare variants, poorly tagged by genotyped SNPs, are a major potential source of the gap between h g 2 and h 2 . Recent efforts to assess the contribution of both sequenced and imputed rare variants to phenotypes suggest that substantial heritability may lie in these variants. Here we analyze sequenced SNPs, imputed SNPs and haploSNPs— haplotype variants constructed from within a sample, without using a reference panel— and show that studies of heritability from these variants may be strongly confounded by subtle population stratification. For example, when meta-analyzing heritability estimates from 22 randomly ascertained case-control traits from the GERA cohort, we observe a statistically significant increase in heritability explained by imputed SNPs even after correcting for principal components (PCs) from genotyped (or imputed) SNPs. However, this increase is eliminated when correcting for stratification using PCs from a larger number of haploSNPs. We note that subtle stratification may also impact estimates of heritability from array SNPs, although we find that this is generally a less severe problem. Overall, our results suggest that estimating the heritability explained by rare variants for case-control traits requires exquisite control for population stratification, but current methods may not provide this level of control.
0
Citation23
0
Save
0

Estimation of genetic correlation using linkage disequilibrium score regression and genomic restricted maximum likelihood

Guiyan Ni et al.Sep 27, 2017
ABSTRACT Genetic correlation is a key population parameter that describes the shared genetic architecture of complex traits and diseases. It can be estimated by current state-of-art methods, i.e. linkage disequilibrium score regression (LDSC) and genomic restricted maximum likelihood (GREML). The massively reduced computing burden of LDSC compared to GREML makes it an attractive tool, although the accuracy (i.e., magnitude of standard errors) of LDSC estimates has not been thoroughly studied. In simulation, we show that the accuracy of GREML is generally higher than that of LDSC. When there is genetic heterogeneity between the actual sample and reference data from which LD scores are estimated, the accuracy of LDSC decreases further. In real data analyses estimating the genetic correlation between schizophrenia (SCZ) and body mass index, we show that GREML estimates based on ~150,000 individuals give a higher accuracy than LDSC estimates based on ~400,000 individuals (from combined meta-data). A GREML genomic partitioning analysis reveals that the genetic correlation between SCZ and height is significantly negative for regulatory regions, which whole genome or LDSC approach has less power to detect. We conclude that LDSC estimates should be carefully interpreted as there can be uncertainty about homogeneity among combined meta-data sets. We suggest that any interesting findings from massive LDSC analysis for a large number of complex traits should be followed up, where possible, with more detailed analyses with GREML methods, even if sample sizes are lesser.
0
Citation12
0
Save
0

Mega-analysis of 31,396 individuals from 6 countries uncovers strong gene-environment interaction for human fertility

Felix Tropf et al.Apr 18, 2016
Abstract Family and twin studies suggest that up to 50% of individual differences in human fertility within a population might be heritable. However, it remains unclear whether the genes associated with fertility outcomes such as number of children ever born (NEB) or age at first birth (AFB) are the same across geographical and historical environments. By not taking this into account, previous genetic studies implicitly assumed that the genetic effects are constant across time and space. We conduct a mega-analysis applying whole genome methods on 31,396 unrelated men and women from six Western countries. Across all individuals and environments, common single-nucleotide polymorphisms (SNPs) explained only ~4% of the variance in NEB and AFB. We then extend these models to test whether genetic effects are shared across different environments or unique to them. For individuals belonging to the same population and demographic cohort (born before or after the 20 th century fertility decline), SNP-based heritability was almost five times higher at 22% for NEB and 19% for AFB. We also found no evidence suggesting that genetic effects on fertility are shared across time and space. Our findings imply that the environment strongly modifies genetic effects on the tempo and quantum of fertility, that currently ongoing natural selection is heterogeneous across environments, and that gene-environment interactions may partly account for missing heritability in fertility. Future research needs to combine efforts from genetic research and from the social sciences to better understand human fertility. Authors Summary Fertility behavior – such as age at first birth and number of children – varies strongly across historical time and geographical space. Yet, family and twin studies, which suggest that up to 50% of individual differences in fertility are heritable, implicitly assume that the genes important for fertility are the same across both time and space. Using molecular genetic data (SNPs) from over 30,000 unrelated individuals from six different countries, we show that different genes influence fertility in different time periods and different countries, and that the genetic effects consistently related to fertility are presumably small. The fact that genetic effects on fertility appear not to be universal could have tremendous implications for research in the area of reproductive medicine, social science and evolutionary biology alike.
0
Citation11
0
Save
1

An integrative analysis of genomic and exposomic data for complex traits and phenotypic prediction

Xuan Zhou et al.Nov 10, 2020
Abstract Complementary to the genome, the concept of exposome has been proposed to capture the totality of human environmental exposures. While there has been some recent progress on the construction of the exposome, few tools exist that can integrate the genome and exposome for complex trait analyses. Here we propose a linear mixed model approach to bridge this gap, which jointly models the random effects of the two omics layers on phenotypes of complex traits. We illustrate our approach using traits from the UK Biobank (e.g., BMI & height for N ∼ 35,000) with a small fraction of the exposome that comprises 28 lifestyle factors. The joint model of the genome and exposome explains substantially more phenotypic variance and significantly improves phenotypic prediction accuracy, compared to the model based on the genome alone. The additional phenotypic variance captured by the exposome includes its additive effects as well as non-additive effects such as genome-exposome (gxe) and exposome-exposome (exe) interactions. For example, 19% of variation in BMI is explained by additive effects of the genome, while additional 7.2% by additive effects of the exposome, 1.9% by exe interactions and 4.5% by gxe interactions. Correspondingly, the prediction accuracy for BMI, computed using Pearson’s correlation between the observed and predicted phenotypes, improves from 0.15 (based on the genome alone) to 0.35 (based on the genome & exposome). We also show, using established theories, integrating genomic and exposomic data is essential to attaining a clinically meaningful level of prediction accuracy for disease traits. In conclusion, the genomic and exposomic effects can contribute to phenotypic variation via their latent relationships, i.e. genome-exposome correlation, and gxe and exe interactions, and modelling these effects has a great potential to improve phenotypic prediction accuracy and thus holds a great promise for future clinical practice.
1
Citation3
0
Save
1

Significance tests for R2 of out-of-sample prediction using polygenic scores

Md. Momin et al.Jun 10, 2022
Abstract The coefficient of determination ( R 2 ) is a well-established measure to indicate the predictive ability of polygenic scores (PGS). However, the sampling variance of R 2 is rarely considered so that 95% confidence intervals (CI) are not usually reported. Moreover, when comparisons are made between PGS based on different discovery samples, the sampling covariance of R 2 is necessary to test the difference between them. Here, we show how to estimate the variance and covariance of R 2 values to assess the 95% CI and p-value of the R 2 difference. We apply this approach to real data to predict into 28,880 European participants using UK Biobank (UKBB) and Biobank Japan (BBJ) GWAS summary statistics for cholesterol and BMI. We quantify the significantly higher predictive ability of UKBB PGS compared to BBJ PGS (p-value 7.6e-31 for cholesterol and 1.4e-50 for BMI). A joint model of UKBB and BBJ PGS significantly improves the predictive ability, compared to a model of UKBB PGS only (p-value 3.5e-05 for cholesterol and 1.3e-28 for BMI). The proposed approach can also be applied to testing a significant difference between R 2 values across different p-value thresholds. We also show that the predictive ability of regulatory SNPs is significantly enriched than non-regulatory SNPs for cholesterol (p-value 2.6e-19 for UKBB and 8.7e-08 for BBJ). We suggest that the proposed approach (available in R package ‘r2redux’) should be used to test the statistical significance of difference between pairs of PGS, which may help to draw a correct conclusion about the predictive ability of PGS.
1
Citation1
0
Save
1

GxE PRS: Genotype-environment interaction in polygenic risk score models for quantitative and binary traits

Dovini Jayasinghe et al.Jul 21, 2023
Abstract The use of polygenic risk score (PRS) models has transformed the field of genetics by enabling the prediction of complex traits and diseases based on an individual’s genetic profile. However, the impact of genotype-environment interaction (GxE) on the performance and applicability of PRS models remains a crucial aspect to be explored. Currently, existing GxE PRS models are often inappropriately used, which can result in inflated type 1 error rates and compromised results. In this study, we propose a novel GxE PRS model that correctly incorporates the GxE component to analyze complex traits and diseases. Through extensive simulations, we demonstrate that our proposed model outperforms existing models in terms of controlling type 1 error rates and enhancing statistical power. Furthermore, we apply the proposed model to real data, and report significant GxE effects. Specifically, we highlight the impact of our model on both quantitative and binary traits. For quantitative traits, we uncover the GxE modulation of genetic effects on body mass index (BMI) by alcohol intake frequency (ALC). In the case of binary traits, we identify the GxE modulation of genetic effects on hypertension (HYP) by waist-to-hip ratio (WHR). These findings underscore the importance of employing a robust model that effectively controls type 1 error rates, thus preventing the occurrence of spurious GxE signals. To facilitate the implementation of our approach, we have developed an innovative R software package called GxE PRS, specifically designed to detect and estimate GxE effects. Overall, our study highlights the importance of accurate GxE modeling and its implications for genetic risk prediction, while providing a practical tool to support further research in this area.
0

A contribution of novel CNVs to schizophrenia from a genome-wide study of 41,321 subjects

Christian Marshall et al.Feb 23, 2016
Genomic copy number variants (CNVs) have been strongly implicated in the etiology of schizophrenia (SCZ). However, apart from a small number of risk variants, elucidation of the CNV contribution to risk has been difficult due to the rarity of risk alleles, all occurring in less than 1% of cases. We sought to address this obstacle through a collaborative effort in which we applied a centralized analysis pipeline to a SCZ cohort of 21,094 cases and 20,227 controls. We observed a global enrichment of CNV burden in cases (OR=1.11, P=5.7e-15), which persisted after excluding loci implicated in previous studies (OR=1.07, P=1.7e-6). CNV burden is also enriched for genes associated with synaptic function (OR = 1.68, P = 2.8e-11) and neurobehavioral phenotypes in mouse (OR = 1.18, P= 7.3e-5). We identified genome-wide significant support for eight loci, including 1q21.1, 2p16.3 (NRXN1), 3q29, 7q11.2, 15q13.3, distal 16p11.2, proximal 16p11.2 and 22q11.2. We find support at a suggestive level for nine additional candidate susceptibility and protective loci, which consist predominantly of CNVs mediated by non-allelic homologous recombination (NAHR).
0

Cross-disorder GWAS meta-analysis for Attention Deficit/Hyperactivity Disorder, Autism Spectrum Disorder, Obsessive Compulsive Disorder, and Tourette Syndrome

Zhiyu Yang et al.Sep 16, 2019
Attention Deficit/Hyperactivity Disorder (ADHD), Autism Spectrum Disorder (ASD), Obsessive-Compulsive Disorder (OCD), and Tourette Syndrome (TS) are among the most prevalent neurodevelopmental psychiatric disorders of childhood and adolescence. High comorbidity rates across these four disorders point toward a common etiological thread that could be connecting them across the repetitive behaviors-impulsivity-compulsivity continuum. Aiming to uncover the shared genetic basis across ADHD, ASD, OCD, and TS, we undertake a systematic cross-disorder meta-analysis, integrating summary statistics from all currently available genome-wide association studies (GWAS) for these disorders, as made available by the Psychiatric Genomics Consortium (PGC) and the Lundbeck Foundation Initiative for Integrative Psychiatric Research (iPSYCH). We present analysis of a combined dataset of 93,294 individuals, across 6,788,510 markers and investigate associations on the single-nucleotide polymorphism (SNP), gene and pathway levels across all four disorders but also pairwise. In the ADHD-ASD-OCD-TS cross disorder GWAS meta-analysis, we uncover in total 297 genomewide significant variants from six LD (linkage disequilibrium) -independent genomic risk regions. Out of these genomewide significant association results, 199 SNPs, that map onto four genomic regions, show high posterior probability for association with at least three of the studied disorders (m-value>0.9). Gene-based GWAS meta-analysis across ADHD, ASD, OCD, and TS identified 21 genes significantly associated under Bonferroni correction. Out of those, 15 could not be identified as significantly associated based on the individual disorder GWAS dataset, indicating increased power in the cross-disorder comparisons. Cross-disorder tissue-specificity analysis implicates the Hypothalamus-Pituitary-Adrenal axis (stress response) as possibly underlying shared pathophysiology across ADHD, ASD, OCD, and TS. Our work highlights genetic variants and genes that may contribute to overlapping neurobiology across the four studied disorders and highlights the value of re-defining the framework for the study across this spectrum of highly comorbid disorders, by using transdiagnostic approaches.
Load More