MN
Matthew Nelson
Author with expertise in Genomic Studies and Association Analyses
Deerfield (United States), GlaxoSmithKline (United States), GlaxoSmithKline (India)
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(20% Open Access)
Cited by:
10
h-index:
44
/
i10-index:
81
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Identification of putative effector genes across the GWAS Catalog using molecular quantitative trait loci from 68 tissues and cell types

Cong Guo et al.May 7, 2020
+6
J
K
C
Abstract Identifying the effector genes from genome-wide association studies (GWAS) is a crucial step towards understanding the biological mechanisms underlying complex traits and diseases. Colocalization of expression and protein quantitative trait loci (eQTL and pQTL, hereafter collectively called “xQTL”) can be effective for mapping associations to genes in many loci. However, existing colocalization methods require full single-variant summary statistics which are often not readily available for many published GWAS or xQTL studies. Here, we present PICCOLO, a method that uses minimum SNP p-values within a locus to determine if pairs of genetic associations are colocalized. This method greatly expands the number of GWAS and xQTL datasets that can be tested for colocalization. We applied PICCOLO to 10,759 genome-wide significant associations across the NHGRI-EBI GWAS Catalog with xQTLs from 28 studies. We identified at least one colocalized gene-xQTL in at least one tissue for 30% of associations, and we pursued multiple lines of evidence to demonstrate that these mappings are biologically meaningful. PICCOLO genes are significantly enriched for biologically relevant tissues, and 4.3-fold enriched for targets of approved drugs.
0

Whole exome sequencing and characterization of coding variation in 49,960 individuals in the UK Biobank

Cristopher Hout et al.May 6, 2020
+46
J
I
C
The UK Biobank is a prospective study of 502,543 individuals, combining extensive phenotypic and genotypic data with streamlined access for researchers around the world. Here we describe the first tranche of large-scale exome sequence data for 49,960 study participants, revealing approximately 4 million coding variants (of which ~98.4% have frequency < 1%). The data includes 231,631 predicted loss of function variants, a >10-fold increase compared to imputed sequence for the same participants. Nearly all genes (>97%) had ≥1 predicted loss of function carrier, and most genes (>69%) had ≥10 loss of function carriers. We illustrate the power of characterizing loss of function variation in this large population through association analyses across 1,741 phenotypes. In addition to replicating a range of established associations, we discover novel loss of function variants with large effects on disease traits, including PIEZO1 on varicose veins, COL6A1 on corneal resistance, MEPE on bone density, and IQGAP2 and GMPR on blood cell traits. We further demonstrate the value of exome sequencing by surveying the prevalence of pathogenic variants of clinical significance in this population, finding that 2% of the population has a medically actionable variant. Additionally, we leverage the phenotypic data to characterize the relationship between rare BRCA1 and BRCA2 pathogenic variants and cancer risk. Exomes from the first 49,960 participants are now made accessible to the scientific community and highlight the promise offered by genomic sequencing in large-scale population-based studies.
0

Phenome-wide Mendelian randomization mapping the influence of the plasma proteome on complex diseases

Jie Zheng et al.May 6, 2020
+31
D
V
J
The human proteome is a major source of therapeutic targets. Recent genetic association analyses of the plasma proteome enable systematic evaluation of the causal consequences of variation in plasma protein levels. Here, we estimated the effects of 1002 proteins on 225 phenotypes using two-sample Mendelian randomization (MR) and colocalization. Of 413 associations supported by evidence from MR, 130 (31.5%) were not supported by results of colocalization analyses, suggesting that genetic confounding due to linkage disequilibrium (LD) is widespread in naive phenome-wide association studies of proteins. Combining MR and colocalization evidence in cis-only analyses, we identified 111 putatively causal effects between 65 proteins and 52 disease-related phenotypes ([www.epigraphdb.org/pqtl/][1]). Evaluation of data from historic drug development programmes showed that target-indication pairs with MR and colocalization support were more likely to be approved, evidencing the value of our approach in identifying and prioritising potential therapeutic targets. [1]: http://www.epigraphdb.org/pqtl/
0

Improved genome inference in the MHC using a population reference graph

Alexander Dilthey et al.May 6, 2020
+2
Z
C
A
In humans and many other species, while much is known about the extent and structure of genetic variation, such information is typically not used in assembling novel genomes. Rather, a single reference is used against which to map reads, which can lead to poor characterisation of regions of high sequence or structural diversity. Here, we introduce a population reference graph, which combines multiple reference sequences as well as catalogues of SNPs and short indels. The genomes of novel samples are reconstructed as paths through the graph using an efficient hidden Markov Model, allowing for recombination between different haplotypes and variants. By applying the method to the 4.5Mb extended MHC region on chromosome 6, combining eight assembled haplotypes, sequences of known classical HLA alleles and 87,640 SNP variants from the 1000 Genomes Project, we demonstrate, using simulations, SNP genotyping, short-read and long-read data, how the method improves the accuracy of genome inference. Moreover, the analysis reveals regions where the current set of reference sequences is substantially incomplete, particularly within the Class II region, indicating the need for continued development of reference-quality genome sequences.
0

Predicting clinically promising therapeutic hypotheses using tensor factorization

Jin Yao et al.May 7, 2020
P
M
M
J
Determining which target to pursue is a challenging and error-prone first step in developing a therapeutic treatment for a disease, where missteps are potentially very costly given the long-time frames and high expenses of drug development. We identified examples of successes and failures of target-indication pairs in clinical trials across 875 targets and 574 disease indications to build a gold-standard data set of 6,140 known clinical outcomes. We used information from Open Targets and others databases that covered 17 different sources of evidence for target-indication association and represented the data as a matrix of 21,437×2,211×17 with over two million non-null values. We designed and executed three benchmarking strategies to examine the performance of multiple machine learning models: Logistic Regression, Elasticnet, Random Forest, Tensor Factorization and Gradient Boosting Machine. With ten-fold cross validation, tensor factorization achieved AUROC=0.82±0.02 and AUPRC=0.71±0.03. Across multiple validation schemes, this was comparable or better than other methods. Tensor factorization is a general form of matrix factorization that has been successfully exploited in recommendation systems that suggest items to users based on their existing preference on a small number of items. Our application, using Bayesian probabilistic modelling, extends the capacity of matrix factorization to model multiple relationships between and among targets and indications. We use the model to show that our predicted probabilities of success correlate with clinical phases, and within clinical phase we can predict which trials are most likely to succeed.