CH
Clive Hoggart
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(57% Open Access)
Cited by:
754
h-index:
18
/
i10-index:
21
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genome-wide association analysis of metabolic traits in a birth cohort from a founder population

Chiara Sabatti et al.Dec 7, 2008
+22
A
S
C
Nelson Freimer and colleagues report the first genome-wide association study of a longitudinal birth cohort (the Northern Finland Birth Cohort 1966). The results include new associations for nine quantitative metabolic traits. Genome-wide association studies (GWAS) of longitudinal birth cohorts enable joint investigation of environmental and genetic influences on complex traits. We report GWAS results for nine quantitative metabolic traits (triglycerides, high-density lipoprotein, low-density lipoprotein, glucose, insulin, C-reactive protein, body mass index, and systolic and diastolic blood pressure) in the Northern Finland Birth Cohort 1966 (NFBC1966), drawn from the most genetically isolated Finnish regions. We replicate most previously reported associations for these traits and identify nine new associations, several of which highlight genes with metabolic functions: high-density lipoprotein with NR1H3 (LXRA), low-density lipoprotein with AR and FADS1-FADS2, glucose with MTNR1B, and insulin with PANK1. Two of these new associations emerged after adjustment of results for body mass index. Gene–environment interaction analyses suggested additional associations, which will require validation in larger samples. The currently identified loci, together with quantified environmental exposures, explain little of the trait variation in NFBC1966. The association observed between low-density lipoprotein and an infrequent variant in AR suggests the potential of such a cohort for identifying associations with both common, low-impact and rarer, high-impact quantitative trait loci.
0
Citation749
0
Save
40

EraSOR: Erase Sample Overlap in polygenic score analyses

Shing Choi et al.Dec 13, 2021
P
C
T
S
Abstract Background Polygenic risk score (PRS) analyses are now routinely applied in biomedical research, with great hope that they will aid in our understanding of disease aetiology and contribute to personalized medicine. The continued growth of multi-cohort genome-wide association studies (GWASs) and large-scale biobank projects has provided researchers with a wealth of GWAS summary statistics and individual-level data suitable for performing PRS analyses. However, as the size of these studies increase, the risk of inter-cohort sample overlap and close relatedness increases. Ideally sample overlap would be identified and removed directly, but this is typically not possible due to privacy laws or consent agreements. This sample overlap, whether known or not, is a major problem in PRS analyses because it can lead to inflation of type 1 error and, thus, erroneous conclusions in published work. Results Here, for the first time, we report the scale of the sample overlap problem for PRS analyses by generating known sample overlap across sub-samples of the UK Biobank data, which we then use to produce GWAS and target data to mimic the effects of inter-cohort sample overlap. We demonstrate that inter-cohort overlap results in a significant and often substantial inflation in the observed PRS-trait association, coefficient of determination (R 2 ) and false-positive rate. This inflation can be high even when the absolute number of overlapping individuals is small if this makes up a notable fraction of the target sample. We develop and introduce EraSOR ( Era se S ample O verlap and R elatedness), a software for adjusting inflation in PRS prediction and association statistics in the presence of sample overlap or close relatedness between the GWAS and target samples. A key component of the EraSOR approach is inference of the degree of sample overlap from the intercept of a bivariate LD score regression applied to the GWAS and target data, making it powered in settings where both have sample sizes over 1,000 individuals. Through extensive benchmarking using UK Biobank and HapGen2 simulated genotype-phenotype data, we demonstrate that PRSs calculated using EraSOR-adjusted GWAS summary statistics are robust to inter-cohort overlap in a wide range of realistic scenarios and are even robust to high levels of residual genetic and environmental stratification. Conclusion The results of all PRS analyses for which sample overlap cannot be definitively ruled out should be considered with caution given high type 1 error observed in the presence of even low overlap between base and target cohorts. Given the strong performance of EraSOR in eliminating inflation caused by sample overlap in PRS studies with large (>5k) target samples, we recommend that EraSOR be used in all future such PRS studies to mitigate the potential effects of inter-cohort overlap and close relatedness.
40
Citation5
0
Save
20

BridgePRS: A powerful trans-ancestry Polygenic Risk Score method

Clive Hoggart et al.Feb 21, 2023
+3
J
S
C
Abstract Polygenic Risk Scores (PRS) have huge potential to contribute to biomedical research and to a future of precision medicine, but to date their calculation relies largely on Europeanancestry GWAS data. This global bias makes most PRS substantially less accurate in individuals of non-European ancestry. Here we present BridgePRS , a novel Bayesian PRS method that leverages shared genetic effects across ancestries to increase the accuracy of PRS in non-European populations. The performance of BridgePRS is evaluated in simulated data and real UK Biobank (UKB) data across 19 traits in African, South Asian and East Asian ancestry individuals, using both UKB and Biobank Japan GWAS summary statistics. BridgePRS is compared to the leading alternative, PRS-CSx , and two single-ancestry PRS methods adapted for trans-ancestry prediction. PRS trained in the UK Biobank are then validated out-of-cohort in the independent Mount Sinai (New York) Bio Me Biobank. Simulations reveal that BridgePRS performance, relative to PRS-CSx , increases as uncertainty increases: with lower heritability, higher polygenicity, greater between-population genetic diversity, and when causal variants are not present in the data. Our simulation results are consistent with real data analyses in which BridgePRS has better predictive accuracy in African ancestry samples, especially in out-of-cohort prediction (into Bio Me ), which shows a 60% boost in mean R 2 compared to PRS-CSx ( P = 2 × 10 −6 ). BridgePRS performs the full PRS analysis pipeline, is computationally efficient, and is a powerful method for deriving PRS in diverse and under-represented ancestry populations.
0

npInv: accurate detection and genotyping of inversions mediated by non-allelic homologous recombination using long read sub-alignment

Haojing Shao et al.Aug 18, 2017
+3
C
D
H
Detection of genomic inversions remains challenging. Many existing methods primarily target inversions with a non repetitive breakpoint, leaving inverted repeat (IR) mediated non-allelic homologous recombination (NAHR) inversions largely unexplored. We present npInv, a novel tool specifically for detecting and genotyping NAHR inversion using long read sub-alignment of long read sequencing data. We use npInv to generate a whole-genome inversion map for NA12878 consisting of 30 NAHR inversions (of which 15 are novel), including all previously known NAHR mediated inversions in NA12878 with flanking IR less than 7kb. Our genotyping accuracy on this dataset was 94%. We used PCR to confirm presence of two of these novel NAHR inversions. We show that there is a near linear relationship between the length of flanking IR and the size of the NAHR inversion.
0

Sibling Similarity Can Reveal Key Insights Into Genetic Architecture

Tade Souaiaia et al.Feb 21, 2023
P
C
H
T
Abstract The use of siblings to infer the factors influencing complex traits has been a cornerstone of quantitative genetics. Here we utilise siblings for a novel application: the identification of genetic architecture, specifically that in individuals with extreme trait values (e.g. in the top 1%). Establishing genetic architecture in these individuals is important because they are at greatest risk of disease and are most likely to harbour rare variants of large effect due to natural selection. We develop a theoretical framework that derives expected trait distributions of siblings based on an index sibling’s trait value and trait heritability. This framework is used to develop statistical tests that can infer complex genetic architecture in trait tails, distinguishing between polygenic, de novo and Mendelian tail architecture. We apply our tests to UK Biobank data here, while they can be used to infer genetic architecture in any cohort or health registry that includes siblings, without requiring genetic data. We describe how our approach has the potential to help disentangle the genetic and environmental causes of extreme trait values, to identify individuals likely to carry pathogenic variants for follow-up clinical genetic testing, and to improve the design and power of future sequencing studies to detect rare variants.
0

Massively parallel reporter assays combined with cell-type specific eQTL informed multiple melanoma loci and identified a pleiotropic function of HIV-1 restriction gene, MX2, in melanoma promotion

Jiyeon Choi et al.May 2, 2019
+22
J
F
J
Genome-wide association studies (GWAS) have identified ~20 melanoma susceptibility loci. To identify susceptibility genes and variants simultaneously from multiple GWAS loci, we integrated massively-parallel reporter assays (MPRA) with cell type-specific epigenomic data as well as melanocyte-specific expression quantitative trait loci (eQTL) profiling. Starting from 16 melanoma loci, we selected 832 variants overlapping active regions of chromatin in cells of melanocytic lineage and identified 39 candidate functional variants displaying allelic transcriptional activity by MPRA. For four of these loci, we further identified four colocalizing melanocyte cis -eQTL genes ( CTSS , CASP8 , MX2 , and MAFF ) matching the allelic activity of MPRA functional variants. Among these, we further characterized the locus encompassing the HIV-1 restriction gene, MX2 , on chromosome band Chr21q22.3 and validated a functional variant, rs398206, among multiple high LD variants. rs398206 mediates allelic transcriptional activity via binding of the transcription factor, YY1. This allelic transcriptional regulation is consistent with a significant cis -eQTL of MX2 in primary human melanocytes, where the melanoma risk-associated A allele of rs398206 is correlated with higher MX2 levels. Melanocyte-specific transgenic expression of human MX2 in a zebrafish model demonstrated accelerated melanoma formation in a BRAF V600E background. Thus, using an efficient scalable approach to streamline GWAS follow-up functional studies, we identified multiple candidate melanoma susceptibility genes and variants, and uncovered a pleiotropic function of MX2 in melanoma susceptibility.
0

PReMS: Parallel Regularised Regression Model Search for sparse bio-signature discovery

Clive HoggartJun 25, 2018
C
There is increasing interest in developing point of care tests to diagnose disease and predict prognosis based upon biomarker signatures of RNA or protein expression levels. Technology to measure the required biomarkers accurately and in a time-frame useful to health care professionals will be easier to develop by minimising the number of biomarkers measured. In this paper we describe the Parallel Regularised Regression Model Search (PReMS) method which is designed to estimate parsimonious prediction models. Given a set of potential biomarkers PReMS searches over many logistic regression models constructed from optimal subsets of the biomarkers, iteratively increasing the model size. Zero centred Gaussian prior distributions are assigned to all regression coefficients to induce shrinkage. The method estimates the optimal shrinkage parameter, optimal model for each model size and the optimal model size. We apply PReMS to six freely available data sets and compare its performance with the LASSO and SCAD algorithms in terms of the number of covariates in the model, model accuracy, as measured by the area under the receiver operator curve (AUC) and root predicted mean square error, and model calibration. We show that PReMS typically selects models with fewer biomarkers than both the LASSO and SCAD algorithms but has comparable predictive accuracy.