JR
John Reid
Author with expertise in Stochasticity in Gene Regulatory Networks
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(31% Open Access)
Cited by:
716
h-index:
23
/
i10-index:
32
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Bayesian inference of transcriptional branching identifies regulators of early germ cell development in humans

Christopher Penfold et al.Jul 24, 2017
Abstract During embryonic development, cells undertake a series of fate decisions to form a complete organism comprised of various cell types, epitomising a branching process. A striking example of branching occurs in humans around the time of implantation, when primordial germ cells (PGCs), precursors of sperm and eggs, and somatic lineages are specified. Due to inaccessibility of human embryos at this stage of development, understanding the mechanisms of PGC specification remains difficult. The integrative modelling of single cell transcriptomics data from embryos and appropriate in vitro models should prove to be a useful resource for investigating this system, provided that the cells can be suitably ordered over a developmental axis. Unfortunately, most methods for inferring cell ordering were not designed with structured (time series) data in mind. Although some probabilistic approaches address these limitations by incorporating prior information about the developmental stage (capture time) of the cell, they do not allow the ordering of cells over processes with more than one terminal cell fate. To investigate the mechanisms of PGC specification, we develop a probabilistic pseudotime approach, branch-recombinant Gaussian process latent variable models (B-RGPLVMs), that use an explicit model of transcriptional branching in individual marker genes, allowing the ordering of cells over developmental trajectories with arbitrary numbers of branches. We use first demonstrate the advantage of our approach over existing pseudotime algorithms and subsequently use it to investigate early human development, as primordial germ cells (PGCs) and somatic cells diverge. We identify known master regulators of human PGCs, and predict roles for a variety of signalling pathways, transcription factors, and epigenetic modifiers. By concentrating on the earliest branched signalling events, we identified an antagonistic role for FGF receptor (FGFR) signalling pathway in the acquisition of competence for human PGC fate, and identify putative roles for PRC1 and PRC2 in PGC specification. We experimentally validate our predictions using pharmacological blocking of FGFR or its downstream effectors (MEK, PI3K and JAK), and demonstrate enhanced competency for PGC fate in vitro , whilst small molecule inhibition of the enzymatic component of PRC1/PRC2 reveals reduced capacity of cells to form PGCs in vitro . Thus, B-RGPLVMs represent a powerful and flexible data-driven approach for dissecting the temporal dynamics of cell fate decisions, providing unique insights into the mechanisms of early embryogenesis. Scripts relating to this analysis are available from: https://github.com/cap76/PGCPseudotime
0
Citation6
0
Save
0

Projection layers improve deep learning models of regulatory DNA function

Alex Hawkins-Hooker et al.Sep 10, 2018
Abstract With the increasing application of deep learning methods to the modelling of regulatory DNA sequences has come an interest in exploring what types of architecture are best suited to the domain. Networks designed to predict many functional characteristics of noncoding DNA in a multitask framework have to recognise a large number of motifs and as a result benefit from large numbers of convolutional filters in the first layer. The use of large first layers in turn motivates an exploration of strategies for addressing the sparsity of output and possibility for overfitting that result. To this end we propose the use of a dimensionality-reducing linear projection layer after the initial motif-recognising convolutions. In experiments with a reduced version of the DeepSEA dataset we find that inserting this layer in combination with dropout into convolutional and convolutional-recurrent architectures can improve predictive performance across a range of first layer sizes. We further validate our approach by incorporating the projection layer into a new convolutional-recurrent architecture which achieves state of the art performance on the full DeepSEA dataset. Analysis of the learned projection weights shows that the inclusion of this layer simplifies the network’s internal representation of the occurrence of motifs, notably by projecting features representing forward and reverse-complement motifs to similar positions in the lower dimensional feature space output by the layer.
0

Clusternomics: Integrative Context-Dependent Clustering For Heterogeneous Datasets

Evelina Gabašová et al.May 17, 2017
Integrative clustering is used to identify groups of samples by jointly analysing multiple datasets describing the same set of biological samples, such as gene expression, copy number, methylation etc. Most existing algorithms for integrative clustering assume that there is a shared consistent set of clusters across all datasets, and most of the data samples follow this structure. However in practice, the structure across heterogeneous datasets can be more varied, with clusters being joined in some datasets and separated in others. In this paper, we present a probabilistic clustering method to identify groups across datasets that do not share the same cluster structure. The proposed algorithm, Clusternomics, identifies groups of samples that share their global behaviour across heterogeneous datasets. The algorithm models clusters on the level of individual datasets, while also extracting global structure that arises from the local cluster assignments. Clusters on both the local and the global level are modelled using a hierarchical Dirichlet mixture model to identify structure on both levels. We evaluated the model both on simulated and on real-world datasets. The simulated data exemplifies datasets with varying degrees of common structure. In such a setting Clusternomics outperforms existing algorithms for integrative and consensus clustering. In a real-world application, we used the algorithm for cancer subtyping, identifying subtypes of cancer from heterogeneous datasets. We applied the algorithm to TCGA breast cancer dataset, integrating gene expression, miRNA expression, DNA methylation and proteomics. The algorithm extracted clinically meaningful clusters with significantly different survival probabilities. We also evaluated the algorithm on lung and kidney cancer TCGA datasets with high dimensionality, again showing clinically significant results and scalability of the algorithm.
0

Machine learning based classification of cells into chronological stages using single-cell transcriptomics.

Sumeet Singh et al.Apr 17, 2018
Age-associated deterioration of cellular physiology leads to pathological conditions. The ability to detect premature aging could provide a window for preventive therapies against age-related diseases. However, the techniques for determining cellular age are limited, as they rely on a limited set of histological markers and lack predictive power. Here, we implement GERAS (GEnetic Reference for Age of Single-cell), a machine learning based framework capable of assigning individual cells to chronological stages based on their transcriptomes. GERAS displays greater than 90% accuracy in classifying the chronological stage of zebrafish and human pancreatic cells. The framework demonstrates robustness against biological and technical noise, as evaluated by its performance on independent samplings of single-cells. Additionally, GERAS determines the impact of differences in calorie intake and BMI on the aging of zebrafish and human pancreatic cells, respectively. We further harness the predictive power of GERAS to identify genome-wide molecular factors that correlate with aging. We show that one of these factors, junb, is necessary to maintain the proliferative state of juvenile beta-cells. Our results showcase the applicability of a machine learning framework to classify the chronological stage of heterogeneous cell populations, while enabling to detect pro-aging factors and candidate genes associated with aging.
0

GPseudoClust: deconvolution of shared pseudo-profiles at single-cell resolution

Magdalena Strauß et al.Mar 5, 2019
Motivation Many methods have been developed to cluster genes on the basis of their changes in mRNA expression over time, using bulk RNA-seq or microarray data. However, single-cell data may present a particular challenge for these algorithms, since the temporal ordering of cells is not directly observed. One way to address this is to first use pseudotime methods to order the cells, and then apply clustering techniques for time course data. However, pseudotime estimates are subject to high levels of uncertainty, and failing to account for this uncertainty is liable to lead to erroneous and/or over-confident gene clusters.Results The proposed method, GPseudoClust, is a novel approach that jointly infers pseudotem-poral ordering and gene clusters, and quantifies the uncertainty in both. GPseudoClust combines a recent method for pseudotime inference with nonparametric Bayesian clustering methods, efficient MCMC sampling, and novel subsampling strategies which aid computation. We consider a broad array of simulated and experimental datasets to demonstrate the effectiveness of GPseudoClust in a range of settings.Availability An implementation is available on GitHub: and .Contact ms58{at}sanger.ac.ukSupplementary information Supplementary materials are available.
0

Mutual Information Estimation For Transcriptional Regulatory Network Inference

Jonathan Ish-Horowicz et al.May 1, 2017
Mutual information-based network inference algorithms are an important tool in the reverse-engineering of transcriptional regulatory networks, but all rely on estimates of the mutual information between the expression of pairs of genes. Various methods exist to compute estimates of the mutual information, but none have been firmly established as optimal for network inference. The performance of 9 mutual information estimation methods are compared using three popular network inference algorithms: CLR, MRNET and ARACNE. The performance of the estimators is compared on one synthetic and two real datasets. For estimators that discretise data, the effect of discretisation parameters are also studied in detail. Implementations of 5 estimators are provided in parallelised C++ with an R interface. These are faster than alternative implementations, with reductions in computation time up to a factor of 3,500. The B-spline estimator consistently performs well on real and synthetic datasets. CLR was found to be the best performing inference algorithm, corroborating previous results indicating that it is the state of the art mutual inference algorithm. It is also found to be robust to the mutual information estimation method and their parameters. Furthermore, when using an estimator that discretises expression data, using N 1/3 bins for N samples gives the most accurate inferred network. This contradicts previous findings that suggested using N 1/2 bins.
0

Branch-recombinant Gaussian processes for analysis of perturbations in biological time series

Christopher Penfold et al.Mar 29, 2018
A common class of behaviour encountered in the biological sciences involves branching and recombination. During branching, a statistical process bifurcates resulting in two or more potentially correlated processes that may undergo further branching; the contrary is true during recombination, where two or more statistical processes converge into one. A key objective is to identify the time of this bifurcation (branch time) from time series measurements e.g., comparing a control time series with a perturbed time series. Whilst statistical treatments for the two branch (control versus treatment) case exists, the ability to infer more complex branching structure from time series data remains open. Gaussian processes (GPs) represents an ideal framework for such analysis, allowing for nonlinear regression that includes a rigorous treatment of uncertainty. Currently, however, GP models only exist for two-branch systems. Here we highlight how arbitrarily complex branching processes can be built using the correct composition of covariance functions within a GP framework, thus outlining a general framework for the treatment of branching and recombination in the form of branch-recombinant Gaussian processes (B-RGPs). We first demonstrate the performance of B-RGPs compared to a variety of existing regression approaches, and demonstrate robustness to model misspecification. B-RGPs are then used to investigate the branching patterns of Arabidopsis thaliana gene expression following inoculation with the hemibotrophic bacteria, Pseudomonas syringae DC3000, and a disarmed mutant strain, hrpA. By grouping genes according to the number of branches, we could naturally separate out genes involved in basal immune response from those subverted by the virulent strain, and show enrichment for targets of pathogen protein effectors. Finally, we identify two early branching genes WRKY11 and WRKY17, and showed that groups of genes that branched at similar times to WRKY11/17 were enriched for W-box binding motifs, and overrepresented for genes differentially expressed in WRKY11/17 knockouts, suggesting that branch time could be used for identifying direct and indirect binding targets of key transcription factors.
Load More