PK
Paul Kirk
Author with expertise in Microarray Data Analysis and Gene Expression Profiling
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
22
(50% Open Access)
Cited by:
972
h-index:
31
/
i10-index:
58
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Cardiac T2* Magnetic Resonance for Prediction of Cardiac Complications in Thalassemia Major

Paul Kirk et al.Oct 3, 2009
+8
J
S
P
Background— The goal of this study was to determine the predictive value of cardiac T2* magnetic resonance for heart failure and arrhythmia in thalassemia major. Methods and Results— We analyzed cardiac and liver T2* magnetic resonance and serum ferritin in 652 thalassemia major patients from 21 UK centers with 1442 magnetic resonance scans. The relative risk for heart failure with cardiac T2* values <10 ms (compared with >10 ms) was 160 (95% confidence interval, 39 to 653). Heart failure occurred in 47% of patients within 1 year of a cardiac T2* <6 ms with a relative risk of 270 (95% confidence interval, 64 to 1129). The area under the receiver-operating characteristic curve for predicting heart failure was significantly greater for cardiac T2* (0.948) than for liver T2* (0.589; P <0.001) or serum ferritin (0.629; P <0.001). Cardiac T2* was <10 ms in 98% of scans in patients who developed heart failure. The relative risk for arrhythmia with cardiac T2* values <20 ms (compared with >20 ms) was 4.6 (95% confidence interval, 2.66 to 7.95). Arrhythmia occurred in 14% of patients within 1 year of a cardiac T2* of <6 ms. The area under the receiver-operating characteristic curve for predicting arrhythmia was significantly greater for cardiac T2* (0.747) than for liver T2* (0.514; P <0.001) or serum ferritin (0.518; P <0.001). The cardiac T2* was <20 ms in 83% of scans in patients who developed arrhythmia. Conclusions— Cardiac T2* magnetic resonance identifies patients at high risk of heart failure and arrhythmia from myocardial siderosis in thalassemia major and is superior to serum ferritin and liver iron. Using cardiac T2* for the early identification and treatment of patients at risk is a logical means of reducing the high burden of cardiac mortality in myocardial siderosis. Clinical Trial Registration— URL: http://www.clinicaltrials.gov. Unique identifier: NCT00520559.
0
Citation530
0
Save
0

On T2* Magnetic Resonance and Cardiac Iron

John‐Paul Carpenter et al.Mar 29, 2011
+18
M
S
J
Measurement of myocardial iron is key to the clinical management of patients at risk of siderotic cardiomyopathy. The cardiovascular magnetic resonance relaxation parameter R2* (assessed clinically via its reciprocal, T2*) measured in the ventricular septum is used to assess cardiac iron, but iron calibration and distribution data in humans are limited.Twelve human hearts were studied from transfusion-dependent patients after either death (heart failure, n=7; stroke, n=1) or transplantation for end-stage heart failure (n=4). After cardiovascular magnetic resonance R2* measurement, tissue iron concentration was measured in multiple samples of each heart with inductively coupled plasma atomic emission spectroscopy. Iron distribution throughout the heart showed no systematic variation between segments, but epicardial iron concentration was higher than in the endocardium. The mean ± SD global myocardial iron causing severe heart failure in 10 patients was 5.98 ± 2.42 mg/g dry weight (range, 3.19 to 9.50 mg/g), but in 1 outlier case of heart failure was 25.9 mg/g dry weight. Myocardial ln[R2*] was strongly linearly correlated with ln[Fe] (R²=0.910, P<0.001), leading to [Fe]=45.0×(T2*)⁻¹·²² for the clinical calibration equation with [Fe] in milligrams per gram dry weight and T2* in milliseconds. Midventricular septal iron concentration and R2* were both highly representative of mean global myocardial iron.These data detail the iron distribution throughout the heart in iron overload and provide calibration in humans for cardiovascular magnetic resonance R2* against myocardial iron concentration. The iron values are of considerable interest in terms of the level of cardiac iron associated with iron-related death and indicate that the heart is more sensitive to iron loading than the liver. The results also validate the current clinical practice of monitoring cardiac iron in vivo by cardiovascular magnetic resonance of the midseptum.
0
Citation433
0
Save
3

A semi-supervised Bayesian approach for simultaneous protein sub-cellular localisation assignment and novelty detection

Oliver Crook et al.May 5, 2020
+4
D
A
O
Abstract The cell is compartmentalised into complex micro-environments allowing an array of specialised biological processes to be carried out in synchrony. Determining a protein’s sub-cellular localisation to one or more of these compartments can therefore be a first step in determining its function. High-throughput and high-accuracy mass spectrometry-based sub-cellular proteomic methods can now shed light on the localisation of thousands of proteins at once. Machine learning algorithms are then typically employed to make protein-organelle assignments. However, these algorithms are limited by insufficient and incomplete annotation. We propose a semi-supervised Bayesian approach to novelty detection, allowing the discovery of additional, previously unannotated sub-cellular niches. Inference in our model is performed in a Bayesian framework, allowing us to quantify uncertainty in the allocation of proteins to new sub-cellular niches, as well as in the number of newly discovered compartments. We apply our approach across 10 mass spectrometry based spatial proteomic datasets, representing a diverse range of experimental protocols. Application of our approach to hyper LOPIT datasets validates its utility by recovering enrichment with chromatin-associated proteins without annotation and uncovers sub-nuclear compartmentalisation which was not identified in the original analysis. Moreover, using sub-cellular proteomics data from Saccharomyces cerevisiae , we uncover a novel group of proteins trafficking from the ER to the early Golgi apparatus. Overall, we demonstrate the potential for novelty detection to yield biologically relevant niches that are missed by current approaches.
3
Citation3
0
Save
33

BaseQTL: a Bayesian method to detect eQTLs from RNA-seq data with or without genotypes

Elena Vigorito et al.Jul 16, 2020
+3
C
W
E
Abstract Available methods to detect molecular quantitative trait loci (QTL) require study individuals to be genotyped. Here, we describe BaseQTL, a Bayesian method that exploits allele-specific expression to map molecular QTL from sequencing reads even when no genotypes are available. When used with genotypes, BaseQTL has lower error rates and increased power compared with existing QTL mapping methods. Running without genotypes limits how many tests can be performed, but due to the proximity of QTL variants to gene bodies, the 2.8% of variants within a 100kB-window that could be tested, contained 26% of QTL variants detectable with genotypes. eQTL effect estimates were invariably consistent between analyses performed with and without genotypes. Often, sequencing data may be generated in absence of genotypes on patients and controls in differential expression studies, and we identified an apparent psoriasis-specific effect for GSTP1 in one such dataset, providing new insights into disease-dependent gene regulation.
33
Citation2
0
Save
1

A semi-supervised Bayesian mixture modelling approach for joint batch correction and classification

Stephen Coleman et al.Jan 14, 2022
+3
X
K
S
A bstract Systematic differences between batches of samples present significant challenges when analysing biological data. Such batch effects are well-studied and are liable to occur in any setting where multiple batches are assayed. Many existing methods for accounting for these have focused on high-dimensional data such as RNA-seq and have assumptions that reflect this. Here we focus on batch-correction in low-dimensional classification problems. We propose a semi-supervised Bayesian generative classifier based on mixture models that jointly predicts class labels and models batch effects. Our model allows observations to be probabilistically assigned to classes in a way that incorporates uncertainty arising from batch effects. By simultaneously inferring the classification and the batch-correction our method is more robust to dependence between batch and class than pre-processing steps such as ComBat. We explore two choices for the within-class densities: the multivariate normal and the multivariate t . A simulation study demonstrates that our method performs well compared to popular off-the-shelf machine learning methods and is also quick; performing 15,000 iterations on a dataset of 750 samples with 2 measurements each in 11.7 seconds for the MVN mixture model and 14.7 seconds for the MVT mixture model. We further validate our model on gene expression data where cell type (class) is known and simulate batch effects. We apply our model to two datasets generated using the enzyme-linked immunosorbent assay (ELISA), a spectrophotometric assay often used to screen for antibodies. The examples we consider were collected in 2020 and measure seropositivity for SARS-CoV-2. We use our model to estimate seroprevalence in the populations studied. We implement the models in C++ using a Metropolis-within-Gibbs algorithm, available in the R package batchmix . Scripts to recreate our analysis are at https://github.com/stcolema/BatchClassifierPaper .
9

Bayesian clustering with uncertain data

Kath Nicholls et al.Dec 10, 2022
C
P
K
Abstract Clustering is widely used in bioinformatics and many other fields, with applications from exploratory analysis to prediction. Many types of data have associated uncertainty or measurement error, but this is rarely used to inform the clustering. We present Dirichlet Process Mixtures with Uncertainty (DPMUnc), an extension of a Bayesian nonparametric clustering algorithm which makes use of the uncertainty associated with data points. We show that DPMUnc out-performs existing methods on simulated data. We cluster immune-mediated diseases (IMD) using GWAS summary statistics, which have uncertainty linked with the sample size of the study. DPMUnc separates autoimmune from autoinflammatory diseases and isolates other subgroups such as adult-onset arthritis. We additionally consider how DPMUnc can be used to cluster gene expression datasets that have been summarised using gene signatures. We first introduce a novel procedure for generating a summary of a gene signature on a dataset different to the one where it was discovered. Since the genes in the gene signature are unlikely to be as strongly correlated as in the original dataset, it is important to quantify the variance of the gene signature for each individual. We summarise three public gene expression datasets containing patients with a range of IMD, using three relevant gene signatures. We find association between disease and the clusters returned by DPMUnc, with clustering structure replicated across the datasets. The significance of this work is two-fold. Firstly, we demonstrate that when data has associated uncertainty, this uncertainty should be used to inform clustering and we present a method which does this, DPMUnc. Secondly, we present a procedure for using gene signatures in datasets other than where they were originally defined. We show the value of this procedure by summarising gene expression data from patients with immune-mediated diseases using relevant gene signatures, and clustering these patients using DPMUnc. Author Summary Identifying groups of items that are similar to each other, a process called clustering, has a range of applications. For example, if patients split into two distinct groups this suggests that a disease may have subtypes which should be treated differently. Real data often has measurement error associated with it, but this error is frequently discarded by clustering methods. We propose a clustering method which makes use of the measurement error and use it to cluster diseases linked to the immune system. Gene expression datasets measure the activity level of all ~20,000 genes in the human genome. We propose a procedure for summarising gene expression data using gene signatures, lists of genes produced by highly focused studies. For example, a study might list the genes which increase activity after exposure to a particular virus. The genes in the gene signature may not be as tightly correlated in a new dataset, and so our procedure measures the strength of the gene signature in the new dataset, effectively defining measurement error for the summary. We summarise gene expression datasets related to the immune system using relevant gene signatures and find that our method groups patients with the same disease.
0

Extreme phenotypes define epigenetic and metabolic signatures in cardiometabolic syndrome.

Denis Seyres et al.Mar 6, 2020
+34
J
A
D
Providing a molecular characterisation of cardiometabolic syndrome (CMS) could improve our understanding of its pathogenesis and pathophysiology, and provide a step toward the development of better treatments. To this end, we performed a deep phenotyping analysis of 185 blood donors, 10 obese, and 10 lipodystrophy patients. We analysed transcriptomes and epigenomes of monocytes, neutrophils, macrophages and platelets. Additionally, plasma metabolites including lipids and biochemistry measurements were quantified. Multi-omics integration of this data allowed us to identify combinations of features related to patient status and to order the donor population according to their molecular similarity to patients. We also performed differential analyses on epigenomic, transcriptomic and plasma proteomic data collected from obese individuals before and six months after bariatric surgery. These analyses revealed a pattern of abnormal activation of immune cells in obese individuals and lipodystrophy patients, which was partially reverted six months after bariatric surgery.
0

MR-Clust: Clustering of genetic variants in Mendelian randomization with similar causal estimates

Christopher Foley et al.Dec 19, 2019
S
P
C
Motivation: Mendelian randomization is an epidemiological technique that uses genetic variants as instrumental variables to estimate the causal effect of a risk factor on an outcome. We consider a scenario in which causal estimates based on each variant in turn differ more strongly than expected by chance alone, but the variants can be divided into distinct clusters, such that all variants in the cluster have similar causal estimates. This scenario is likely to occur when there are several distinct causal mechanisms by which a risk factor influences an outcome with different magnitudes of causal effect. We have developed an algorithm MR-Clust that finds such clusters of variants, and so can identify variants that reflect distinct causal mechanisms. Two features of our clustering algorithm are that it accounts for uncertainty in the causal estimates, and it includes 'null' and 'junk' clusters, to provide protection against the detection of spurious clusters. Results: Our algorithm correctly detected the number of clusters in a simulation analysis, outperforming the popular Mclust method. In an applied example considering the effect of blood pressure on coronary artery disease risk, the method detected four clusters of genetic variants. A hypothesis-free search suggested that variants in the cluster with a negative effect of blood pressure on coronary artery disease risk were more strongly related to trunk fat percentage and other adiposity measures than variants not in this cluster.
0

Retroviruses integrate into a shared, non-palindromic motif

Paul Kirk et al.Dec 20, 2015
+2
A
M
P
Palindromic consensus nucleotide sequences are found at the genomic integration sites of retroviruses and other transposable elements. It has been suggested that the palindromic consensus arises as a consequence of structural symmetry in the integrase complex, but the precise mechanism has yet to be elucidated. Here we perform a statistical analysis of large datasets of HTLV-1 and HIV-1 integration sites. The results show that the palindromic consensus sequence is not present in individual integration sites, but appears to arise in the population average as a consequence of the existence of a non-palindromic nucleotide motif that occurs in approximately equal proportions on the plus-strand and the minus-strand of the host genome. We demonstrate that palindromic probability position matrices are characteristic of such situations. We develop a generally applicable algorithm to sort the individual integration site sequences into plus-strand and minus-strand subpopulations. We apply this algorithm to identify the respective integration site nucleotide motifs of five retroviruses of different genera: HTLV-1, HIV-1, MLV, ASLV, and PFV}. The results reveal a non-palindromic motif that is shared between these retroviruses.
0

Origins of cell-to-cell variability, kinetic proof-reading and the robustness of MAPK signal transduction

Sarah Filippi et al.Jul 1, 2015
+7
C
T
S
Cellular signalling processes can exhibit pronounced cell-to-cell variability in genetically identical cells. This affects how individual cells respond differentially to the same environmental stimulus. However, the origins of cell-to-cell variability in cellular signalling systems remain poorly understood. Here we measure the temporal evolution of phosphorylated MEK and ERK dynamics across populations of cells and quantify the levels of population heterogeneity over time using high-throughput image cytometry. We use a statistical modelling framework to show that upstream noise is the dominant factor causing cell-to-cell variability in ERK phosphorylation, rather than stochasticity in the phosphorylation/dephosphorylation of ERK. In particular, the cell-to-cell variability during sustained phosphorylation stems from random fluctuations in the background upstream signalling processes, while during transient phosphorylation, the heterogeneity is primarily due to noise in the intensity of the upstream signal(s). We show that the core MEK/ERK system uses kinetic proof-reading to faithfully and robustly transmits these variable inputs. The MAPK cascade thus propagates cell-to-cell variability at the population level, rather than attenuating or increasing it.
Load More