AS
Andrew Schork
Author with expertise in Genomic Studies and Association Analyses
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
50
h-index:
9
/
i10-index:
10
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
370

Population Genomics of Postglacial Western Eurasia

Morten Allentoft et al.May 5, 2022
+167
A
A
M
Summary Western Eurasia witnessed several large-scale human migrations during the Holocene 1–5 . To investigate the cross-continental impacts we shotgun-sequenced 317 primarily Mesolithic and Neolithic genomes from across Northern and Western Eurasia. These were imputed alongside published data to obtain diploid genotypes from >1,600 ancient humans. Our analyses revealed a ‘Great Divide’ genomic boundary extending from the Black Sea to the Baltic. Mesolithic hunter-gatherers (HGs) were highly genetically differentiated east and west of this zone, and the impact of the neolithisation was equally disparate. Large-scale ancestry shifts occurred in the west as farming was introduced, including near-total replacements of HGs in many areas, whereas no substantial ancestry shifts happened east of the zone during the same period. Similarly, relatedness decreased in the west from the Neolithic transition onwards, while east of the Urals relatedness remained high until ∼4,000 BP, consistent with persistence of localised HG groups. The boundary dissolved when Yamnaya-related ancestry spread across western Eurasia around 5,000 BP resulting in a second major turnover that reached most parts of Europe within a 1,000-year span. The genetic origin and fate of the Yamnaya have remained elusive but we demonstrate that HGs from the Middle Don region contributed ancestry to them. Yamnaya-groups later admixed with individuals associated with the Globular Amphora Culture before expanding into Europe. Similar turnovers occurred in western Siberia, where we report new genomic data from a ‘Neolithic steppe’ cline spanning the Siberian forest steppe to Lake Baikal. These prehistoric migrations had profound and lasting effects on the genetic diversity of Eurasian populations.
370
Citation28
0
Save
136

Cross-trait assortative mating is widespread and inflates genetic correlation estimates

Richard Border et al.Mar 23, 2022
+9
A
G
R
The observation of genetic correlations between disparate traits has been interpreted as evidence of widespread pleiotropy, altered theories of human genetic architecture, and spurred considerable research activity across the natural and social sciences. Here, we introduce cross-trait assortative mating (xAM) as an alternative explanation for observed genetic correlations. We observe that xAM is common across a broad array of phenotypes and that phenotypic cross-mate correlation estimates are strongly associated with genetic correlation estimates ( R 2 = 76%). Then, we present theoretical and simulation-based results demonstrating that, under xAM, genetic correlation estimators yield significant estimates even for traits with entirely distinct genetic bases. We demonstrate that existing xAM plausibly accounts for substantial fractions of genetic correlation estimates in two large samples ( N = 827,960). For example, previously reported genetic correlation estimates between many pairs of psychiatric disorders are fully consistent with xAM alone. Finally, we provide evidence for a history of xAM at the genetic level using a novel approach based on cross-trait even/odd chromosome polygenic score correlations. Together, our results demonstrate that previous reports have likely overestimated the true genetic similarity between many phenotypes.
136
Citation13
0
Save
78

Phenotype integration improves power and preserves specificity in biobank-based genetic studies of MDD

Andy Dahl et al.Aug 15, 2022
+10
U
M
A
Abstract Biobanks often contain several phenotypes relevant to a given disorder, and researchers face complex tradeoffs between shallow phenotypes (high sample size, low specificity and sensitivity) and deep phenotypes (low sample size, high specificity and sensitivity). Here, we study an extreme case: Major Depressive Disorder (MDD) in UK Biobank. Previous studies found that shallow and deep MDD phenotypes have qualitatively distinct genetic architectures, but it remains unclear which are optimal for scientific study or clinical prediction. We propose a new framework to get the best of both worlds by integrating together information across hundreds of MDD-relevant phenotypes. First, we use phenotype imputation to increase sample size for the deepest available MDD phenotype, which dramatically improves GWAS power (increases #loci ~10 fold) and PRS accuracy (increases R2 ~2 fold). Further, we show the genetic architecture of the imputed phenotype remains specific to MDD using genetic correlation, PRS prediction in external clinical cohorts, and a novel PRS-based pleiotropy metric. We also develop a complementary approach to improve specificity of GWAS on shallow MDD phenotypes by adjusting for phenome-wide PCs. Finally, we study phenotype integration at the level of GWAS summary statistics, which can increase GWAS and PRS power but introduces non-MDD-specific signals. Our work provides a simple and scalable recipe to improve genetic studies in large biobanks by combining the sample size of shallow phenotypes with the sensitivity and specificity of deep phenotypes.
78
Citation5
0
Save
17

Accuracy of haplotype estimation and whole genome imputation affects complex trait analyses in complex biobanks

Vivek Appadurai et al.Jun 29, 2022
+12
M
J
V
Abstract Sample recruitment for research consortia, hospitals, biobanks, and personal genomics companies span years, necessitating genotyping in batches, using different technologies. As marker content on genotyping arrays varies systematically, integrating such datasets is non-trivial and its impact on haplotype estimation (phasing) and whole genome imputation, necessary steps for complex trait analysis, remains under-evaluated. Using the iPSYCH consortium dataset, comprising 130,438 individuals, genotyped in two stages, on different arrays, we evaluated phasing and imputation performance across multiple phasing methods and data integration protocols. While phasing accuracy varied both by choice of method and data integration protocol, imputation accuracy varied mostly between data integration protocols. We demonstrate an attenuation in imputation accuracy within samples of non-European origin, highlighting challenges to studying complex traits in diverse populations. Finally, imputation errors can modestly bias association tests and reduce predictive utility of polygenic scores. This is the largest, most comprehensive comparison of data integration approaches in the context of a large psychiatric biobank.
17
Citation3
0
Save
0

Personalized genetic assessment of age associated Alzheimer’s disease risk

Rahul Desikan et al.Sep 13, 2016
+34
H
A
R
ABSTRACT Importance Identifying individuals at risk for developing Alzheimer’s disease (AD) is of utmost importance. Although genetic studies have identified APOE and other AD associated single nucleotide polymorphisms (SNPs), genetic information has not been integrated into an epidemiological framework for personalized risk prediction. Objective To develop, replicate and validate a novel polygenic hazard score for predicting age-specific risk for AD. Setting Multi-center, multi-cohort genetic and clinical data. Participants We assessed genetic data from 17,008 AD patients and 37,154 controls from the International Genetics of Alzheimer’s Project (IGAP), and 6,409 AD patients and 9,386 older controls from Phase 1 Alzheimer’s Disease Genetics Consortium (ADGC). As independent replication and validation cohorts, we also evaluated genetic, neuroimaging, neuropathologic, CSF and clinical data from ADGC Phase 2, National Institute of Aging Alzheimer’s Disease Center (NIA ADC) and Alzheimer’s Disease Neuroimaging Initiative (ADNI) (total n = 20,680) Main Outcome(s) and Measure(s) Use the IGAP cohort to first identify AD associated SNPs (at p < 10 -5 ). Next, integrate these AD associated SNPs into a Cox proportional hazards model using ADGC phase 1 genetic data, providing a polygenic hazard score (PHS) for each participant. Combine population based incidence rates, and genotype-derived PHS for each individual to derive estimates of instantaneous risk for developing AD, based on genotype and age. Finally, assess replication and validation of PHS in independent cohorts. Results Individuals in the highest PHS quantiles developed AD at a considerably lower age and had the highest yearly AD incidence rate. Among APOE ε3/3 individuals, PHS modified expected age of AD onset by more than 10 years between the lowest and highest deciles. In independent cohorts, PHS strongly predicted empirical age of AD onset (p = 1.1 x 10 -26 ), longitudinal progression from normal aging to AD (p = 1.54 x 10 -10 ) and associated with markers of AD neurodegeneration. Conclusions We developed, replicated and validated a clinically usable PHS for quantifying individual differences in age-specific risk of AD. Beyond APOE , polygenic architecture plays an important role in modifying AD risk. Precise quantification of AD genetic risk will be useful for early diagnosis and therapeutic strategies.
0
Citation1
0
Save
0

Exploring contributors to variability in estimates of SNP-heritability and genetic correlations from the iPSYCH case-cohort and published meta-studies of major psychiatric disorders.

Andrew Schork et al.Dec 4, 2018
T
A
As more and more large psychiatric genetic cohorts are becoming available, more and more independent investigations into the underlying genetic architecture are performed, and an expanding set of replicates for estimates of key genetic parameters, namely, liability scale SNP heritability and genetic correlations, is amassing in the literature. In recent work, we published a set of SNP-heritability and genetic correlation estimates for major psychiatric disorders using data from the iPSYCH case-cohort study, and presented them alongside estimates gleaned from large, independently collected, analyzed and published meta-studies of the same disorders. Although in the broadest sense the estimates from iPSYCH and external meta-studies were concordant, and requiring strict statistical significance could reject the null hypothesis for few pairs, there were enough subtle trends in the differences to warrant further investigation. In this work, we consider a set of factors related to sample ascertainment, including the lifetime risks for disorders for the sampled populations, the use of age censored or partially screened controls, the sampling of extreme cases and controls, and diagnostic error rates, and attempt to assess their potential contributions to estimates of genetic parameters in the context of the difference trends observed in our previous work.
7

Deep Learning-based Phenotype Imputation on Population-scale Biobank Data Increases Genetic Discoveries

Ulzee An et al.Aug 15, 2022
+10
M
A
U
Abstract Biobanks that collect deep phenotypic and genomic data across large numbers of individuals have emerged as a key resource for human genetic research. However, phenotypes acquired as part of Biobanks are often missing across many individuals, limiting the utility of these datasets. The ability to accurately impute or “fill-in” missing phenotypes is critical to harness the power of population-scale Biobank datasets. We propose AutoComplete, a deep learning-based imputation method which can accurately impute missing phenotypes in population-scale Biobank datasets. When applied to collections of phenotypes measured across ≈ 300K individuals from the UK Biobank, AutoComplete improved imputation accuracy over existing 2 methods (average improvement in r 2 of 18% for all phenotypes and 42% for binary phenotypes). We explored the utility of phenotype imputation for improving the power of genome-wide association studies (GWAS) by applying our method to a group of five clinically relevant traits with an average missigness rate of 83% (67% to 94%) leading to an an increase in effective sample size of ≈2-fold on average (0.5 to 3.3-fold across the phenotypes). GWAS on the resulting imputed phenotypes led to an increase in the total number of loci significantly associated to the traits from four to 129. Our results demonstrate the utility of deep-learning based imputation to increase power for genetic discoveries in existing biobank data sets.