SC
Seung Choi
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
22
(50% Open Access)
Cited by:
5,505
h-index:
45
/
i10-index:
81
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genome-wide polygenic scores for common diseases identify individuals with risk equivalent to monogenic mutations

Amit Khera et al.Aug 8, 2018
A key public health need is to identify individuals at high risk for a given disease to enable enhanced screening or preventive therapies. Because most common diseases have a genetic component, one important approach is to stratify individuals based on inherited DNA variation1. Proposed clinical applications have largely focused on finding carriers of rare monogenic mutations at several-fold increased risk. Although most disease risk is polygenic in nature2–5, it has not yet been possible to use polygenic predictors to identify individuals at risk comparable to monogenic mutations. Here, we develop and validate genome-wide polygenic scores for five common diseases. The approach identifies 8.0, 6.1, 3.5, 3.2, and 1.5% of the population at greater than threefold increased risk for coronary artery disease, atrial fibrillation, type 2 diabetes, inflammatory bowel disease, and breast cancer, respectively. For coronary artery disease, this prevalence is 20-fold higher than the carrier frequency of rare monogenic mutations conferring comparable risk6. We propose that it is time to contemplate the inclusion of polygenic risk prediction in clinical care, and discuss relevant issues. Genome-wide polygenic risk scores derived from GWAS data for five common diseases can identify subgroups of the population with risk approaching or exceeding that of a monogenic mutation.
0
Citation2,343
0
Save
1

Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program

Daniel Taliun et al.Feb 10, 2021
Abstract The Trans-Omics for Precision Medicine (TOPMed) programme seeks to elucidate the genetic architecture and biology of heart, lung, blood and sleep disorders, with the ultimate goal of improving diagnosis, treatment and prevention of these diseases. The initial phases of the programme focused on whole-genome sequencing of individuals with rich phenotypic data and diverse backgrounds. Here we describe the TOPMed goals and design as well as the available resources and early insights obtained from the sequence data. The resources include a variant browser, a genotype imputation server, and genomic and phenotypic data that are available through dbGaP (Database of Genotypes and Phenotypes) 1 . In the first 53,831 TOPMed samples, we detected more than 400 million single-nucleotide and insertion or deletion variants after alignment with the reference genome. Additional previously undescribed variants were detected through assembly of unmapped reads and customized analysis in highly variable loci. Among the more than 400 million detected variants, 97% have frequencies of less than 1% and 46% are singletons that are present in only one individual (53% among unrelated individuals). These rare variants provide insights into mutational processes and recent human evolutionary history. The extensive catalogue of genetic variation in TOPMed studies provides unique opportunities for exploring the contributions of rare and noncoding sequence variants to phenotypic variation. Furthermore, combining TOPMed haplotypes with modern imputation methods improves the power and reach of genome-wide association studies to include variants down to a frequency of approximately 0.01%.
1
Citation1,370
0
Save
0

Genomic and drug target evaluation of 90 cardiovascular proteins in 30,931 individuals

Lasse Folkersen et al.Oct 16, 2020
Circulating proteins are vital in human health and disease and are frequently used as biomarkers for clinical decision-making or as targets for pharmacological intervention. Here, we map and replicate protein quantitative trait loci (pQTL) for 90 cardiovascular proteins in over 30,000 individuals, resulting in 451 pQTLs for 85 proteins. For each protein, we further perform pathway mapping to obtain trans-pQTL gene and regulatory designations. We substantiate these regulatory findings with orthogonal evidence for trans-pQTLs using mouse knockdown experiments (ABCA1 and TRIB1) and clinical trial results (chemokine receptors CCR2 and CCR5), with consistent regulation. Finally, we evaluate known drug targets, and suggest new target candidates or repositioning opportunities using Mendelian randomization. This identifies 11 proteins with causal evidence of involvement in human disease that have not previously been targeted, including EGF, IL-16, PAPPA, SPON1, F3, ADM, CASP-8, CHI3L1, CXCL16, GDF15 and MMP-12. Taken together, these findings demonstrate the utility of large-scale mapping of the genetics of the proteome and provide a resource for future precision studies of circulating proteins in human health. Folkersen et al. report the first results from the SCALLOP consortium, a collaborative framework for pQTL mapping and biomarker analysis of proteins on the Olink platform. A total of 315 primary and 136 secondary pQTLs for 85 circulating cardiovascular proteins from over 30,000 individuals were identified and replicated to yield new insights for translational studies and drug development.
0
Citation455
0
Save
1

Transcriptional and Cellular Diversity of the Human Heart

Nathan Tucker et al.May 14, 2020
The human heart requires a complex ensemble of specialized cell types to perform its essential function. A greater knowledge of the intricate cellular milieu of the heart is critical to increase our understanding of cardiac homeostasis and pathology. As recent advances in low-input RNA sequencing have allowed definitions of cellular transcriptomes at single-cell resolution at scale, we have applied these approaches to assess the cellular and transcriptional diversity of the nonfailing human heart.Microfluidic encapsulation and barcoding was used to perform single nuclear RNA sequencing with samples from 7 human donors, selected for their absence of overt cardiac disease. Individual nuclear transcriptomes were then clustered based on transcriptional profiles of highly variable genes. These clusters were used as the basis for between-chamber and between-sex differential gene expression analyses and intersection with genetic and pharmacologic data.We sequenced the transcriptomes of 287 269 single cardiac nuclei, revealing 9 major cell types and 20 subclusters of cell types within the human heart. Cellular subclasses include 2 distinct groups of resident macrophages, 4 endothelial subtypes, and 2 fibroblast subsets. Comparisons of cellular transcriptomes by cardiac chamber or sex reveal diversity not only in cardiomyocyte transcriptional programs but also in subtypes involved in extracellular matrix remodeling and vascularization. Using genetic association data, we identified strong enrichment for the role of cell subtypes in cardiac traits and diseases. Intersection of our data set with genes on cardiac clinical testing panels and the druggable genome reveals striking patterns of cellular specificity.Using large-scale single nuclei RNA sequencing, we defined the transcriptional and cellular diversity in the normal human heart. Our identification of discrete cell subtypes and differentially expressed genes within the heart will ultimately facilitate the development of new therapeutics for cardiovascular diseases.
1
Citation408
0
Save
0

A saturated map of common genetic variants associated with human height

Loïc Yengo et al.Oct 12, 2022
Abstract Common single-nucleotide polymorphisms (SNPs) are predicted to collectively explain 40–50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes 1 . Here, using data from a genome-wide association study of 5.4 million individuals of diverse ancestries, we show that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a mean size of around 90 kb, covering about 21% of the genome. The density of independent associations varies across the genome and the regions of increased density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs (or all SNPs in the HapMap 3 panel 2 ) account for 40% (45%) of phenotypic variance in populations of European ancestry but only around 10–20% (14–24%) in populations of other ancestries. Effect sizes, associated regions and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely to be explained by linkage disequilibrium and differences in allele frequency within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than are needed to implicate causal genes and variants. Overall, this study provides a comprehensive map of specific genomic regions that contain the vast majority of common height-associated variants. Although this map is saturated for populations of European ancestry, further research is needed to achieve equivalent saturation in other ancestries.
0
Citation370
0
Save
0

Serum Brain-Derived Neurotrophic Factor and the Risk for Dementia

Galit Weinstein et al.Nov 26, 2013

Importance

 In animal studies, brain-derived neurotrophic factor (BDNF) has been shown to impact neuronal survival and function and improve synaptic plasticity and long-term memory. Circulating BDNF levels increase with physical activity and caloric restriction, thus BDNF may mediate some of the observed associations between lifestyle and the risk for dementia. Some prior studies showed lower circulating BDNF in persons with Alzheimer disease (AD) compared with control participants; however, it remains uncertain whether reduced levels precede dementia onset. 

Objective

 To examine whether higher serum BDNF levels in cognitively healthy adults protect against the future risk for dementia and AD and to identify potential modifiers of this association. 

Design, Setting, and Participants

 Framingham Study original and offspring participants were followed up from 1992 and 1998, respectively, for up to 10 years. We used Cox models to relate BDNF levels to the risk for dementia and AD and adjusted for potential confounders. We also ran sensitivity analyses stratified by sex, age, and education, as well as related BDNF genetic variants to AD risk. This community-based, prospective cohort study involved 2131 dementia-free participants aged 60 years and older (mean [SD] age, 72 [7] years; 56% women). 

Main Outcomes and Measures

 Ten-year incidence of dementia and AD. 

Results

 During follow-up, 140 participants developed dementia, 117 of whom had AD. Controlling for age and sex, each standard-deviation increment in BDNF was associated with a 33% lower risk for dementia and AD (P = .006 andP = .01, respectively) and these associations persisted after additional adjustments. Compared with the bottom quintile, BDNF levels in the top quintile were associated with less than half the risk for dementia and AD (hazard ratio, 0.49; 95% CI, 0.28-0.85;P = .01; and hazard ratio, 0.46; 95% CI, 0.24-0.86;P = .02, respectively). These associations were apparent only among women, persons aged 80 years and older, and those with college degrees (hazard ratios for AD: 0.65, [95% CI, 0.50-0.85],P = .001; 0.63 [95% CI, 0.47-0.85],P = .002; and 0.27 [95% CI, 0.11-0.65],P = .003, respectively). Brain-derived neurotrophic factor genetic variants were not associated with AD risk. 

Conclusions and Relevance

 Higher serum BDNF levels may protect against future occurrence of dementia and AD. Our findings suggest a role for BDNF in the biology and possibly in the prevention of dementia and AD, especially in select subgroups of women and older and more highly educated persons.
0
Citation241
0
Save
0

Use of >100,000 NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium whole genome sequences improves imputation quality and detection of rare variant associations in admixed African and Hispanic/Latino populations

Madeline Kowalski et al.Dec 23, 2019
Most genome-wide association and fine-mapping studies to date have been conducted in individuals of European descent, and genetic studies of populations of Hispanic/Latino and African ancestry are limited. In addition, these populations have more complex linkage disequilibrium structure. In order to better define the genetic architecture of these understudied populations, we leveraged >100,000 phased sequences available from deep-coverage whole genome sequencing through the multi-ethnic NHLBI Trans-Omics for Precision Medicine (TOPMed) program to impute genotypes into admixed African and Hispanic/Latino samples with genome-wide genotyping array data. We demonstrated that using TOPMed sequencing data as the imputation reference panel improves genotype imputation quality in these populations, which subsequently enhanced gene-mapping power for complex traits. For rare variants with minor allele frequency (MAF) < 0.5%, we observed a 2.3- to 6.1-fold increase in the number of well-imputed variants, with 11–34% improvement in average imputation quality, compared to the state-of-the-art 1000 Genomes Project Phase 3 and Haplotype Reference Consortium reference panels. Impressively, even for extremely rare variants with minor allele count <10 (including singletons) in the imputation target samples, average information content rescued was >86%. Subsequent association analyses of TOPMed reference panel-imputed genotype data with hematological traits (hemoglobin (HGB), hematocrit (HCT), and white blood cell count (WBC)) in ~21,600 African-ancestry and ~21,700 Hispanic/Latino individuals identified associations with two rare variants in the HBB gene (rs33930165 with higher WBC [p = 8.8x10-15] in African populations, rs11549407 with lower HGB [p = 1.5x10-12] and HCT [p = 8.8x10-10] in Hispanics/Latinos). By comparison, neither variant would have been genome-wide significant if either 1000 Genomes Project Phase 3 or Haplotype Reference Consortium reference panels had been used for imputation. Our findings highlight the utility of the TOPMed imputation reference panel for identification of novel rare variant associations not previously detected in similarly sized genome-wide studies of under-represented African and Hispanic/Latino populations.
0
Citation228
0
Save
0

Genomic data in the All of Us Research Program

Alexander Bick et al.Feb 19, 2024
Comprehensively mapping the genetic basis of human disease across diverse individuals is a long-standing goal for the field of human genetics1-4. The All of Us Research Program is a longitudinal cohort study aiming to enrol a diverse group of at least one million individuals across the USA to accelerate biomedical research and improve human health5,6. Here we describe the programme's genomics data release of 245,388 clinical-grade genome sequences. This resource is unique in its diversity as 77% of participants are from communities that are historically under-represented in biomedical research and 46% are individuals from under-represented racial and ethnic minorities. All of Us identified more than 1 billion genetic variants, including more than 275 million previously unreported genetic variants, more than 3.9 million of which had coding consequences. Leveraging linkage between genomic data and the longitudinal electronic health record, we evaluated 3,724 genetic variants associated with 117 diseases and found high replication rates across both participants of European ancestry and participants of African ancestry. Summary-level data are publicly available, and individual-level data can be accessed by researchers through the All of Us Researcher Workbench using a unique data passport model with a median time from initial researcher registration to data access of 29 hours. We anticipate that this diverse dataset will advance the promise of genomic medicine for all.
0
Citation34
2
Save
70

Deep learning enables genetic analysis of the human thoracic aorta

James Pirruccello et al.May 14, 2020
The aorta is the largest blood vessel in the body, and enlargement or aneurysm of the aorta can predispose to dissection, an important cause of sudden death. While rare syndromes have been identified that predispose to aortic aneurysm, the common genetic basis for the size of the aorta remains largely unknown. By leveraging a deep learning architecture that was originally developed to recognize natural images, we trained a model to evaluate the dimensions of the ascending and descending thoracic aorta in cardiac magnetic resonance imaging. After manual annotation of just 116 samples, we applied this model to 3,840,140 images from the UK Biobank. We then conducted a genome-wide association study in 33,420 individuals, revealing 68 loci associated with ascending and 35 with descending thoracic aortic diameter, of which 10 loci overlapped. Integration of common variation with transcriptome-wide analyses, rare-variant burden tests, and single nucleus RNA sequencing prioritized SVIL , a gene highly expressed in vascular smooth muscle, that was significantly associated with the diameter of the ascending and descending aorta. A polygenic score for ascending aortic diameter was associated with a diagnosis of thoracic aortic aneurysm in the remaining 391,251 UK Biobank participants who did not undergo imaging (HR = 1.44 per standard deviation; P = 3.7·10 −12 ). Defining the genetic basis of the diameter of the aorta may enable the identification of asymptomatic individuals at risk for aneurysm or dissection and facilitate the prioritization of potential therapeutic targets for the prevention or treatment of aortic aneurysm. Finally, our results illustrate the potential for rapidly defining novel quantitative traits derived from a deep learning model, an approach that can be more broadly applied to biomedical imaging data.
70
Citation24
0
Save
3

A Saturated Map of Common Genetic Variants Associated with Human Height from 5.4 Million Individuals of Diverse Ancestries

Loïc Yengo et al.Jan 10, 2022
ABSTRACT Common SNPs are predicted to collectively explain 40-50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes. Here we show, using GWAS data from 5.4 million individuals of diverse ancestries, that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a median size of ~90 kb, covering ~21% of the genome. The density of independent associations varies across the genome and the regions of elevated density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs account for 40% of phenotypic variance in European ancestry populations but only ~10%-20% in other ancestries. Effect sizes, associated regions, and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely explained by linkage disequilibrium and allele frequency differences within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than needed to implicate causal genes and variants. Overall, this study, the largest GWAS to date, provides an unprecedented saturated map of specific genomic regions containing the vast majority of common height-associated variants.
3
Citation16
0
Save
Load More