CB
Christian Benner
Author with expertise in Genomic Studies and Association Analyses
Institute for Molecular Medicine Finland, University of Helsinki, Finland University
+ 5 more
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
11
(36% Open Access)
Cited by:
9
h-index:
23
/
i10-index:
28
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

An Effector Index to Predict Causal Genes at GWAS Loci

Vincenzo Forgetta et al.Jan 16, 2021
+14
N
L
V
Abstract Drug development and biological discovery require effective strategies to map existing genetic associations to causal genes. To approach this problem, we began by identifying a set of positive control genes for 12 common diseases and traits that cause a Mendelian form of the disease or are the target of a medicine used for disease treatment. We then identified a widely-available set of genomic features enriching GWAS-associated single nucleotide variants (SNVs) for these positive control genes. Using these features, we trained and validated the Effector Index ( Ei ), a causal gene mapping algorithm using the 12 common diseases and traits. The area under Ei’s receiver operator curve to identify positive control genes was 80% and area under the precision recall curve was 29%. Using an enlarged set of independently curated positive control genes for type 2 diabetes which included genes identified by large-scale exome sequencing, these areas increased to 85% and 61%, respectively. The best predictors were coding or transcript altering SNVs, distance to gene and open chromatin-based metrics. We provide the Ei algorithm for its widespread use and have created a web-portal to facilitate understanding of results. This work outlines a simple, understandable approach to prioritize genes at GWAS loci for functional follow-up and drug development. Author summary In order to derive biological insight, or develop drugs based on genome-wide association studies (GWAS) data, causal genes at associated loci need to be identified. GWAS usually identify large genome regions containing many genes, but seldomly identifies specific causal genes. We have developed an algorithm to predict which genes in a region of disease association are likely causal and have named this algorithm the Effector Index. The Effector Index was optimized on diseases that have known causal or drug target genes, and further validated to predict these types of genes in independent datasets. The Effector Index formalizes these predictive features into a tool that can be used by researchers, and results from the traits and diseases studied here are available via the Accelerating Medicine Partnership web-portal at http://hugeamp.org/effectorgenes.html .
129

Computationally efficient whole genome regression for quantitative and binary traits

Joelle Mbatchou et al.Oct 11, 2023
+14
J
L
J
Abstract Genome-wide association analysis of cohorts with thousands of phenotypes is computationally expensive, particularly when accounting for sample relatedness or population structure. Here we present a novel machine learning method called REGENIE for fitting a whole genome regression model that is orders of magnitude faster than alternatives, while maintaining statistical efficiency. The method naturally accommodates parallel analysis of multiple phenotypes, and only requires local segments of the genotype matrix to be loaded in memory, in contrast to existing alternatives which must load genomewide matrices into memory. This results in substantial savings in compute time and memory usage. The method is applicable to both quantitative and binary phenotypes, including rare variant analysis of binary traits with unbalanced case-control ratios where we introduce a fast, approximate Firth logistic regression test. The method is ideally suited to take advantage of distributed computing frameworks. We demonstrate the accuracy and computational benefits of this approach compared to several existing methods using quantitative and binary traits from the UK Biobank dataset with up to 407,746 individuals.
0

Refining fine-mapping: effect sizes and regional heritability

Christian Benner et al.May 6, 2020
+2
V
A
C
Recent statistical approaches have shown that the set of all available genetic variants explains considerably more phenotypic variance of complex traits and diseases than the individual variants that are robustly associated with these phenotypes. However, rapidly increasing sample sizes constantly improve detection and prioritization of individual variants driving the associations between genomic regions and phenotypes. Therefore, it is useful to routinely estimate how much phenotypic variance the detected variants explain for each region by taking into account the correlation structure of variants and the uncertainty in their causal status. Here we extend the FINEMAP software to estimate the effect sizes and regional heritability under the probabilistic model that assumes a handful of causal variants per each region. Using the UK Biobank data to simulate GWAS regions with only a few causal variants, we demonstrate that FINEMAP provides higher precision and enables more detailed decomposition of regional heritability into individual variants than the variance component model implemented in BOLT or the fixed-effect model implemented in HESS. Using data from 51 serum biomarkers and four lipid traits from the FINRISK study, we estimate that FINEMAP captures on average 24% more regional heritability than the variant with the lowest P-value alone and 20% less than BOLT. Our simulations suggest how an upward bias of BOLT and a downward bias of FINEMAP could together explain the observed difference between the methods. We conclude that FINEMAP enables computationally efficient estimation of effect sizes and regional heritability in the era of biobank scale data.
0

Functionally-informed fine-mapping and polygenic localization of complex trait heritability

Omer Weissbrod et al.May 6, 2020
+11
C
F
O
Fine-mapping aims to identify causal variants impacting complex traits. Several recent methods improve fine-mapping accuracy by prioritizing variants in enriched functional annotations. However, these methods can only use information at genome-wide significant loci (or a small number of functional annotations), severely limiting the benefit of functional data. We propose PolyFun, a computationally scalable framework to improve fine-mapping accuracy using genome-wide functional data for a broad set of coding, conserved, regulatory and LD-related annotations. PolyFun prioritizes variants in enriched functional annotations by specifying prior causal probabilities for fine-mapping methods such as SuSiE or FINEMAP, employing special procedures to ensure robustness to model misspecification and winner’s curse. In simulations with in-sample LD, PolyFun + SuSiE and PolyFun + FINEMAP were well-calibrated and identified >20% more variants with posterior causal probability >0.95 than their non-functionally informed counterparts (and >33% more fine-mapped variants than previous functionally-informed fine-mapping methods). In simulations with mismatched reference LD, PolyFun + SuSiE remained well-calibrated when reducing the maximum number of assumed causal SNPs per locus, which reduces absolute power but still produces large relative improvements. In analyses of 49 UK Biobank traits (average N =318K) with in-sample LD, PolyFun + SuSiE identified 3,025 fine-mapped variant-trait pairs with posterior causal probability >0.95, a >32% improvement vs. SuSiE; 223 variants were fine-mapped for multiple genetically uncorrelated traits, indicating pervasive pleiotropy. We used posterior mean per-SNP heritabilities from PolyFun + SuSiE to perform polygenic localization, constructing minimal sets of common SNPs causally explaining 50% of common SNP heritability; these sets ranged in size from 28 (hair color) to 3,400 (height) to 2 million (number of children). In conclusion, PolyFun prioritizes variants for functional follow-up and provides insights into complex trait architectures.
0

Interrogation of human hematopoiesis at single-cell and single-variant resolution

Caleb Lareau et al.May 6, 2020
+10
E
J
C
Incomplete annotation of cell-to-cell state variance and widespread linkage disequilibrium in the human genome represent significant challenges to elucidating mechanisms of trait-associated genetic variation. Here, using data from the UK Biobank, we perform genetic fine-mapping for 16 blood cell traits to quantify posterior probabilities of association while allowing for multiple independent signals per region. We observe an enrichment of fine-mapped variants in accessible chromatin of lineage-committed hematopoietic progenitor cells. Further, we develop a novel analytic framework that identifies "core gene" cell type enrichments and show that this approach uniquely resolves relevant cell types within closely related populations. Applying our approach to single cell chromatin accessibility data, we discover significant heterogeneity within classically defined multipotential progenitor populations. Finally, using several lines of empirical evidence, we identify relevant cell types, predict target genes, and propose putative causal mechanisms for fine-mapped variants. In total, our study provides an analytic framework for single-variant and single-cell analyses to elucidate putative causal variants and cell types from GWAS and high-resolution epigenomic assays.
0

FINEMAP: Efficient variable selection using summary data from genome-wide association studies

Christian Benner et al.May 6, 2020
M
S
C
C
Motivation: The goal of fine-mapping in genomic regions associated with complex diseases and traits is to identify causal variants that point to molecular mechanisms behind the associations. Recent fine-mapping methods using summary data from genome-wide association studies rely on exhaustive search through all possible causal configurations, which is computationally expensive. Results: We introduce FINEMAP, a software package to efficiently explore a set of the most important causal configurations of the region via a shotgun stochastic search algorithm. We show that FINEMAP produces accurate results in a fraction of processing time of existing approaches and is therefore a promising tool for analyzing growing amounts of data produced in genome-wide association studies. Availability: FINEMAP v1.0 is freely available for Mac OS X and Linux at http://www.christianbenner.com.
0

Polygenic Hyperlipidemias and Coronary Artery Disease Risk

Pietari Ripatti et al.May 7, 2020
+12
N
J
P
Background: Hyperlipidemia is a highly heritable risk factor for coronary artery disease (CAD). Monogenic familial hypercholesterolemia associates with higher increase in CAD risk than expected from a single LDL-C measurement, likely due to lifelong cumulative exposure to high LDL-C. It remains unclear to what extent a high polygenic load of LDL-C or TG-increasing variants associates with increased CAD risk. Methods and Results: We derived polygenic risk scores (PRS) with ~6M variants for LDL-C and TG with weights from a UK biobank-based genome-wide association study with ~500K samples. We evaluated the impact of polygenic hypercholesterolemia and hypertriglyceridemia to lipid levels in 27 039 individuals from the FINRISK cohort, and to CAD risk in 135 300 individuals (13 695 CAD cases) from the FinnGen project. In FINRISK, LDL-C ranged from 2.83 (95% CI 2.79-2.89) to 3.80 (3.72-3.88) and TG from 0.99 (0.95-1.01) to 1.52 (1.48-1.58) mmol/l between the lowest and highest 5% of the respective PRS distributions. The corresponding CAD prevalences ranged from 8.2% to 12.7% for the LDL-C PRS and from 8.2% to 12.1% for the TG PRS in FinnGen. Furthermore, CAD risk was 1.36-fold higher (OR, 95% CI 1.24-1.49) for the LDL-C PRS and 1.31-fold higher (1.20-1.44) for the TG PRS for those with the PRS >95th percentile vs those without. These estimates were only slightly attenuated when adjusting for a CAD PRS (OR 1.26 [95% CI 1.15-1.39] for LDL-C and 1.21 [1.10-1.32] for TG PRS). Conclusions: The CAD risk associated with a high polygenic load for lipid-increasing variants was proportional to their impact on lipid levels and mostly independent of a CAD PRS. In contrast with a PRS for CAD, the lipid PRSs point to known and directly modifiable risk factors providing more direct guidance for clinical translation.
0

biMM: Efficient estimation of genetic variances and covariances for cohorts with high-dimensional phenotype measurements

Matti Pirinen et al.May 7, 2020
+3
P
C
M
Genetic research utilizes a decomposition of trait variances and covariances into genetic and environmental parts. Our software package biMM is a computationally efficient implementation of a bivariate linear mixed model for settings where hundreds of traits have been measured on partially overlapping sets of individuals. Implementation in R freely available at www.iki.fi/mpirinen.
0

An expanded analysis framework for multivariate GWAS connects inflammatory biomarkers to functional variants and disease

Sanni Ruotsalainen et al.May 7, 2020
+15
A
J
S
Multivariate methods are known to increase the statistical power of association detection, but they have lacked essential follow-up analysis tools necessary for understanding the biology underlying these associations. We developed a novel computational workflow for multivariate GWAS follow-up analyses, including fine-mapping and identification of the subset of traits driving associations (driver traits). Many follow-up tools require univariate regression coefficients which are lacking from multivariate results. Our method overcomes this problem by using Canonical Correlation Analysis to turn each multivariate association into its optimal univariate Linear Combination Phenotype (LCP). This enables an LCP-GWAS, which in turn generates the statistics required for follow-up analyses. We implemented our method on 12 highly correlated inflammatory biomarkers in a Finnish population-based study. Altogether, we identified 11 associations, four of which (F5, ABO, C1orf140 and PDGFRB) were not detected by biomarker-specific analyses. Fine-mapping identified 19 signals within the 11 loci and driver trait analysis determined the traits contributing to the associations. A phenome-wide association study on the 19 putative causal variants from the signals in 176,899 individuals from the FinnGen study revealed 53 disease associations (p < 1x10-4). Several reported pQTLs in the 11 loci provided orthogonal evidence for the biologically relevant functions of the putative causal variants. Our novel multivariate analysis workflow provides a powerful addition to standard univariate GWAS analyses by enabling multivariate GWAS follow-up and thus promoting the advancement of powerful multivariate methods in genomics.
215

Genetic regulation of the human plasma proteome in 54,306 UK Biobank participants

Benjamin Sun et al.Oct 11, 2023
+45
M
J
B
Abstract The UK Biobank Pharma Proteomics Project (UKB-PPP) is a collaboration between the UK Biobank (UKB) and thirteen biopharmaceutical companies characterising the plasma proteomic profiles of 54,306 UKB participants. Here, we describe results from the first phase of UKB-PPP, including protein quantitative trait loci (pQTL) mapping of 1,463 proteins that identifies 10,248 primary genetic associations, of which 85% are newly discovered. We also identify independent secondary associations in 92% of cis and 29% of trans loci, expanding the catalogue of genetic instruments for downstream analyses. The study provides an updated characterisation of the genetic architecture of the plasma proteome, leveraging population-scale proteomics to provide novel, extensive insights into trans pQTLs across multiple biological domains. We highlight genetic influences on ligand-receptor interactions and pathway perturbations across a diverse collection of cytokines and complement proteins, and illustrate long-range epistatic effects of ABO blood group and FUT2 secretor status on proteins with gastrointestinal tissue-enriched expression. We demonstrate the utility of these data for drug target discovery by extending the genetic proxied effect of PCSK9 levels on lipid concentrations, cardio- and cerebro-vascular diseases, and additionally disentangle specific genes and proteins perturbed at COVID-19 susceptibility loci. This public-private partnership provides the scientific community with an open-access proteomics resource of unprecedented breadth and depth to help elucidate biological mechanisms underlying genetic discoveries and accelerate the development of novel biomarkers and therapeutics.
215
0
Save
Load More