BE
Benjamin Elsworth
Author with expertise in Genomic Studies and Association Analyses
Future Science Group (United Kingdom), University of Bristol, Medical Research Council
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
14
(29% Open Access)
Cited by:
17
h-index:
25
/
i10-index:
31
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
43

The variant call format provides efficient and robust storage of GWAS summary statistics

Matthew Lyon et al.Oct 24, 2023
+3
B
S
M
Genome-wide association study (GWAS) summary statistics are a fundamental resource for a variety of research applications 1–6 . Yet despite their widespread utility, no common storage format has been widely adopted, hindering tool development and data sharing, analysis and integration. Existing tabular formats 7,8 often ambiguously or incompletely store information about genetic variants and their associations, and also lack essential metadata increasing the possibility of errors in data interpretation and post-GWAS analyses. Additionally, data in these formats are typically not indexed, requiring the whole file to be read which is computationally inefficient. To address these issues, we propose an adaptation of the variant call format 9 (GWAS-VCF) and have produced a suite of open-source tools for using this format in downstream analyses. Simulation studies determine GWAS-VCF is 9-46x faster than tabular alternatives when extracting variant(s) by genomic position. Our results demonstrate the GWAS-VCF provides a robust and performant solution for sharing, analysis and integration of GWAS data. We provide open access to over 10,000 complete GWAS summary datasets converted to this format (available from: https://gwas.mrcieu.ac.uk ).
28

EpiGraphDB: A database and data mining platform for health data science

Yi Liu et al.Oct 24, 2023
+5
P
B
Y
Abstract Motivation The wealth of data resources on human phenotypes, risk factors, molecular traits and therapeutic interventions presents new opportunities for population health sciences. These opportunities are paralleled by a growing need for data integration, curation and mining to increase research efficiency, reduce mis-inference and ensure reproducible research. Results We developed EpiGraphDB ( https://epigraphdb.org/ ), a graph database containing an array of different biomedical and epidemiological relationships and an analytical platform to support their use in human population health data science. In addition, we present three case studies that illustrate the value of this platform. The first uses EpiGraphDB to evaluate potential pleiotropic relationships, addressing mis-inference in systematic causal analysis. In the second case study we illustrate how protein-protein interaction data offer opportunities to identify new drug targets. The final case study integrates causal inference using Mendelian randomization with relationships mined from the biomedical literature to “triangulate” evidence from different sources. Availability The EpiGraphDB platform is openly available at https://epigraphdb.org . Code for replicating case study results is available at https://github.com/MRCIEU/epigraphdb as Jupyter notebooks using the API, and https://mrcieu.github.io/epigraphdb-r using the R package. Contact yi6240.liu@bristol.ac.uk , ben.elsworth@bristol.ac.uk , Tom.Gaunt@bristol.ac.uk
6

Using language models and ontology topology to perform semantic mapping of traits between biomedical datasets

Yi Liu et al.Oct 24, 2023
T
B
Y
Abstract Motivation Human traits are typically represented in both the biomedical literature and large population studies as descriptive text strings. Whilst a number of ontologies exist, none of these perfectly represent the entire human phenome and exposome. Mapping trait names across large datasets is therefore time-consuming and challenging. Recent developments in language modelling have created new methods for semantic representation of words and phrases, and these methods offer new opportunities to map human trait names in the form of words and short phrases, both to ontologies and to each other. Here we present a comparison between a range of established and more recent language modelling approaches for the task of mapping trait names from UK Biobank to the Experimental Factor Ontology (EFO), and also explore how they compare to each other in direct trait-to-trait mapping. Results In our analyses of 1191 traits from UK Biobank with manual EFO mappings, the BioSentVec model performed best at predicting these, matching 40.3% of the manual mappings correctly. The BlueBERT-EFO model (finetuned on EFO) performed nearly as well (38.8% of traits matching the manual mapping). In contrast, Levenshtein edit distance only mapped 22% of traits correctly. Pairwise mapping of traits to each other demonstrated that many of the models can accurately group similar traits based on their semantic similarity. Availability and Implementation Our code is available at https://github.com/MRCIEU/vectology .
0

LD Hub: a centralized database and web interface to perform LD score regression that maximizes the potential of summary level GWAS data for SNP heritability and genetic correlation analysis

Jie Zheng et al.May 6, 2020
+15
B
A
J
Motivation: LD score regression is a reliable and efficient method of using genome-wide association study (GWAS) summary-level results data to estimate the SNP heritability of complex traits and diseases, partition this heritability into functional categories, and estimate the genetic correlation between different phenotypes. Because the method relies on summary level results data, LD score regression is computationally tractable even for very large sample sizes. However, publicly available GWAS summary-level data are typically stored in different databases and have different formats, making it difficult to apply LD score regression to estimate genetic correlations across many different traits simultaneously. Results: In this manuscript, we describe LD Hub - a centralized database of summary-level GWAS results for 177 diseases/traits from different publicly available resources/consortia and a web interface that automates the LD score regression analysis pipeline. To demonstrate functionality and validate our software, we replicated previously reported LD score regression analyses of 49 traits/diseases using LD Hub; and estimated SNP heritability and the genetic correlation across the different phenotypes. We also present new results obtained by uploading a recent atopic dermatitis GWAS meta-analysis to examine the genetic correlation between the condition and other potentially related traits. In response to the growing availability of publicly accessible GWAS summary-level results data, our database and the accompanying web interface will ensure maximal uptake of the LD score regression methodology, provide a useful database for the public dissemination of GWAS results, and provide a method for easily screening hundreds of traits for overlapping genetic aetiologies. Availability and implementation: The web interface and instructions for using LD Hub are available at http://ldsc.broadinstitute.org/
0

Single cell transcriptomics reveals molecular subtype and functional heterogeneity in models of breast cancer

Daniel Roden et al.May 6, 2020
+7
B
L
D
Breast cancer has long been classified into a number of molecular subtypes that predict prognosis and therefore influence clinical treatment decisions. Cellular heterogeneity is also evident in breast cancers and plays a key role in the development, evolution and metastatic progression of many cancers. How clinical heterogeneity relates to cellular heterogeneity is poorly understood, so we approached this question using single cell gene expression analysis of well established in vitro and in vivo models of disease. To explore the cellular heterogeneity in breast cancer we first examined a panel of genes that define the PAM50 classifier of molecular subtype. Five breast cancer cell line models (MCF7, BT474, SKBR3, MDA-MB-231, and MDA-MB-468) were selected as representatives of the intrinsic molecular subtypes (luminal A and B, basal-like, and Her2-enriched). Single cell multiplex RT-PCR was used to isolate and quantify the gene expression of single cells from each of these models, and the PAM50 classifier applied. Using this approach, we identified heterogeneity of intrinsic subtypes at single-cell level, indicating that cells with different subtypes exist within a cell line. Using the Chromium 10X system, this study was extended into thousands of cells from the MCF7 cell-line and an ER+ patient derived xenograft (PDX) model and again identified significant intra-tumour heterogeneity of molecular subtype. Estrogen Receptor (ER) is an important driver and therapeutic target in many breast cancers. It is heterogeneously expressed in a proportion of clinical cases but the significance of this to ER activity is unknown. Significant heterogeneity in the transcriptional activation of ER regulated genes was observed within tumours. This differential activation of the ER cistrome aligned with expression of two known transcriptional co-regulatory factors of ER (FOXA1 and PGR). To examine the degree of heterogeneity for other important phenotypic traits, we used an unsupervised clustering approach to identify cellular sub-populations with diverse cancer associated transcriptional properties, such as: proliferation; hypoxia; and treatment resistance. In particular, we show that we can identify two distinct sub-populations of cells that may have de-novo resistance to endocrine therapies in a treatment naive PDX model of ER+ breast cancer. One of these consists of cells with a non-proliferative transcriptional phenotype that is enriched for transcriptional properties of ERBB2 tumours. The other is heavily enriched for components of the primary cilia. Gene regulatory networks were used to identify transcription factor regulons that are active in each cell, leading us to identify potential transcriptional drivers (such as E2F7, MYB and RFX3) of the cilia associated endocrine resistant cells. This rare subpopulation of cells also has a highly heterogenous mix of intrinsic subtypes highlighting a potential role of intra-tumour subtype heterogeneity in endocrine resistance and metastatic potential. Overall, These results suggest a high degree of cellular heterogeneity within breast cancer models, even cell lines, that can be functionally dissected into sub-populations of cells with transcriptional phenotypes of potential clinical relevance.
0

MELODI - Mining Enriched Literature Objects to Derive Intermediates

Benjamin Elsworth et al.May 7, 2020
+6
E
K
B
Motivation: The scientific literature contains a wealth of information from different fields on potential disease mechanisms. However, prioritising mechanisms for further analytical evaluation presents enormous challenges in terms of the quantity and diversity of published research. The application of data mining approaches to the literature offers the potential to identify and prioritise mechanisms for more focused and detailed analysis. Results: Here we present MELODI, a literature mining platform that can identify mechanistic pathways between any two biomedical concepts. Two case studies demonstrate the potential uses of MELODI and how it can generate hypotheses for further investigation. Firstly, an analysis of ERG and prostate cancer derives the intermediate transcription factor SP1, recently confirmed to be physically interacting with ERG. Secondly, examining the relationship between a new potential risk factor for pancreatic cancer identifies possible mechanistic insights which can be studied in vitro. Availability: MELODI has been implemented as a Python/Django web application, and is freely available to use at www.melodi.biocompute.org.uk
0

Targeting stromal remodeling and cancer stem cell plasticity to overcome chemoresistance in triple negative breast cancer

Aurélie Cazet et al.May 7, 2020
+26
B
M
A
The cellular and molecular basis of stromal cell recruitment, activation and crosstalk in carcinomas is poorly understood, limiting the development of targeted anti-stromal therapies. In mouse models of triple negative breast cancer (TNBC), Hh ligand produced by neoplastic cells reprogrammed cancer-associated fibroblast (CAF) gene expression, driving tumor growth and metastasis. Hh-activated CAFs upregulated expression of FGF5 and production of fibrillar collagen, leading to FGFR and FAK activation in adjacent neoplastic cells, which then acquired a stem-like, drug-resistant phenotype. Treatment with smoothened inhibitors (SMOi) reversed these phenotypes. Stromal treatment of TNBC patient-derived xenograft (PDX) models with SMOi downregulated the expression of cancer stem cell markers and sensitized tumors to docetaxel, leading to markedly improved survival and reduced metastatic burden. In the phase I clinical trial EDALINE, 3 of 12 patients with metastatic TNBC derived clinical benefit from combination therapy with the SMOi Sonidegib and docetaxel chemotherapy, with one patient experiencing a complete response. Markers of pathway activity correlated with response. These studies identify Hh signaling to CAFs as a novel mediator of cancer stem cell plasticity and an exciting new therapeutic target in TNBC.
0

Hypothesis-free analysis of deep vein thrombosis aetiology: a Mendelian randomization study

Andrei‐Emil Constantinescu et al.May 7, 2020
+6
L
C
A
Background: Deep vein thrombosis (DVT) is the formation of a thrombus/clot in the deep veins, when part of this clot breaks off it can travel to the lungs, resulting in pulmonary embolism. These two conditions together are known as venous thromboembolism (VTE), a leading cause of death and disability worldwide. Despite the prevalence of VTE, we do not fully understand what causes it and it is often overlooked as a major public health problem. Confirming and identifying risk factors associated with DVT is likely to lead to a reduction in the incidence, morbidity and mortality of VTE especially where these risk factors are modifiable. We can do this, by exploiting the availability of summary genetic data from genome-wide association studies (GWAS) of numerous phenotypes, including DVT, which permits hypothesis-free causal inference. Objectives: To identify novel risk factors for DVT and to assess the causality of factors previously shown to be associated with DVT. Methods: Two-sample Mendelian randomization (MR) was performed using summarised genetic data. Inverse variance weighted (IVW) estimates were calculated and validated by additional methods more robust to horizontal pleiotropy (MR Egger, simple mode, weighted mode, and weighted median). Bidirectional and heterogeneity sensitivity analyses were performed to further evaluate our findings. Results: Forty-seven exposures passed an exposure-exposure correlation-adjusted Bonferroni P-value threshold (5.43E-05). These included previously hypothesised risk factors for DVT (e.g. body mass index, varicose veins, height, hyperthyroidism) and novel associations (e.g. prospective memory, basal metabolic rate). Conclusion: Our analyses confirmed causal associations of risk factors previously associated with DVT and highlighted several novel risk factors for the disease. Our study demonstrates the utility of using a hypothesis free Mendelian randomization approach for the identification of novel disease risk factors.
0

MicroRNAs as potential therapeutics to enhance chemosensitivity in advanced prostate cancer

Huiming Lin et al.May 7, 2020
+13
J
I
H
Docetaxel and cabazitaxel are taxane chemotherapy treatments for metastatic castration resistant prostate cancer (CRPC). However, therapeutic resistance remains a major issue. MicroRNAs are short non-coding RNAs that can silence multiple genes, regulating several signalling pathways simultaneously. Therefore, synthetic microRNAs may have therapeutic potential in CRPC by regulating genes involved in taxane response and minimise compensatory mechanisms that cause taxane resistance. To identify microRNAs that can improve the efficacy of taxanes in CRPC, we performed a genome-wide screen of 1280 microRNAs in the CRPC cell lines PC3 and DU145 in combination with docetaxel or cabazitaxel treatment. Mimics of miR-217 and miR-181b-5p enhanced apoptosis significantly in PC3 cells in the presence of these taxanes. These mimics downregulated at least a thousand different transcripts, which were enriched for genes with cell proliferation and focal adhesion functions. Individual knockdown of a selection of 46 genes representing these transcripts resulted in toxic or taxane sensitisation effects, indicating that these genes may be mediating the effects of the microRNA mimics. A range of these genes are expressed in CRPC metastases, suggesting that these microRNA mimics may be functional in CRPC. With further development, these microRNA mimics may have therapeutic potential to improve taxane response in CRPC patients.
0

Mendelian Randomization analysis reveals a causal influence of circulating sclerostin levels on bone mineral density and fractures

Jie Zheng et al.May 7, 2020
+27
I
W
J
In bone, sclerostin is mainly osteocyte-derived and plays an important local role in adaptive responses to mechanical loading. Whether circulating levels of sclerostin also play a functional role is currently unclear, which we aimed to examine by two sample Mendelian Randomisation (MR). A genetic instrument for circulating sclerostin, derived from a genome wide association study (GWAS) meta-analysis of serum sclerostin in 10,584 European-descent individuals, was examined in relation to femoral neck bone mineral density (BMD; n= 32,744) in GEFOS, and estimated BMD by heel ultrasound (eBMD; n=426,824), and fracture risk (n=426,795), in UK Biobank. Our GWAS identified two novel serum sclerostin loci, B4GALNT3 (standard deviation (SD)) change in sclerostin per A allele (β=0.20, P=4.6×10−49), and GALNT1 (β=0.11 per G allele, P=4.4×10−11). B4GALNT3 is an N-acetyl-galactosaminyltransferase, adding a terminal LacdiNAc disaccharide to target glycocoproteins, found to be predominantly expressed in kidney, whereas GALNT1 is an enzyme causing mucin-type O-linked glycosylation. Using these two SNPs as genetic instruments, MR revealed an inverse causal relationship between serum sclerostin and femoral neck BMD (β= −0.12, 95%CI= −0.20 to −0.05) and eBMD (β= −0.12, 95%CI= −0.14 to −0.10), and a positive relationship with fracture risk (β= 0.11, 95%CI= 0.01 to 0.21). Colocalization analysis demonstrated common genetic signals within the B4GALNT3 locus for higher sclerostin, lower eBMD, and greater B4GALNT3 expression in arterial tissue (Probability>99%). Our findings suggest that higher sclerostin levels are causally related to lower BMD and greater fracture risk. Hence, strategies for reducing circulating sclerostin, for example by targeting glycosylation enzymes as suggested by our GWAS results, may prove valuable in treating osteoporosis.
Load More