AG
Alex Gavryushkin
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
19
(79% Open Access)
Cited by:
503
h-index:
13
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Microbiome interactions shape host fitness

Alison Gould et al.Dec 3, 2018
Gut bacteria can affect key aspects of host fitness, such as development, fecundity, and lifespan, while the host, in turn, shapes the gut microbiome. However, it is unclear to what extent individual species versus community interactions within the microbiome are linked to host fitness. Here, we combinatorially dissect the natural microbiome of Drosophila melanogaster and reveal that interactions between bacteria shape host fitness through life history tradeoffs. Empirically, we made germ-free flies colonized with each possible combination of the five core species of fly gut bacteria. We measured the resulting bacterial community abundances and fly fitness traits, including development, reproduction, and lifespan. The fly gut promoted bacterial diversity, which, in turn, accelerated development, reproduction, and aging: Flies that reproduced more died sooner. From these measurements, we calculated the impact of bacterial interactions on fly fitness by adapting the mathematics of genetic epistasis to the microbiome. Development and fecundity converged with higher diversity, suggesting minimal dependence on interactions. However, host lifespan and microbiome abundances were highly dependent on interactions between bacterial species. Higher-order interactions (involving three, four, and five species) occurred in 13-44% of possible cases depending on the trait, with the same interactions affecting multiple traits, a reflection of the life history tradeoff. Overall, we found these interactions were frequently context-dependent and often had the same magnitude as individual species themselves, indicating that the interactions can be as important as the individual species in gut microbiomes.
0
Citation464
0
Save
1

Testing for phylogenetic signal in single-cell RNA-seq data

Jiří Moravec et al.Jan 8, 2021
Abstract Phylogenetic methods are emerging as a useful tool to understand cancer evolutionary dynamics, including tumor structure, heterogeneity, and progression. Most currently used approaches utilize either bulk whole genome sequencing (WGS) or single-cell DNA sequencing (scDNA-seq) and are based on calling copy number alterations and single nucleotide variants (SNVs). scRNA-seq is commonly applied to explore differential gene expression of cancer cells throughout tumor progression. The method exacerbates the single-cell sequencing problem of low yield per cell with uneven expression levels. This accounts for low and uneven sequencing coverage and makes SNV detection and phylogenetic analysis challenging. In this paper, we demonstrate for the first time that scRNA-seq data contains sufficient evolutionary signal and can also be utilized in phylogenetic analyses. We explore and compare results of such analyses based on both expression levels and SNVs called from scRNA-seq data. Both techniques are shown to be useful for reconstructing phylogenetic relationships between cells, reflecting the clonal composition of a tumor. Both standardized expression values and SNVs appear to be equally capable of reconstructing a similar pattern of phylogenetic relationship. This pattern is stable even when phylogenetic uncertainty is taken in account. Our results open up a new direction of somatic phylogenetics based on scRNA-seq data. Further research is required to refine and improve these approaches to capture the full picture of somatic evolutionary dynamics in cancer.
1
Citation9
0
Save
11

Online Bayesian Analysis with BEAST 2

Remco Bouckaert et al.May 5, 2022
A bstract There are a growing number of areas, e.g. epidemiology and within-organism cancer evolution, where re-analysing all available data from scratch every time new data becomes available or old data is refined is no longer feasible. All these and related areas can benefit from online phylogenetic inference that can booster previous data analyses. Here, we make the case that adding/removing taxa from an analysis can have substantial non-local impact on the tree that is inferred, both in a model based setting, as well as for distance based methods. Consequently, online phylogenetic algorithms may require global updates of the trees and other parameters, a task that in general is highly non-trivial. Motivated by this observation, we designed an online algorithm that benefits from a parallelism in a Bayesian setting that is substantially more efficient than re-running the analysis from scratch. Furthermore, our algorithm is not sensitive to the number of sequences added, allowing the sequence data to grow/be refined iteratively. We show how this approach can be used in a maximum likelihood setting, and – apart from adding/removing new sequences – demonstrate a number of practical alternative use cases of our algorithm, including how to break up a single (offline) large analysis to get results faster. An open source implementation is available under GPL3 license as the ‘online’ package for BEAST 2 at https://github.com/rbouckaert/online and a tutorial at https://github.com/rbouckaert/online-tutorial .
11
Citation8
0
Save
1

Automated convergence diagnostic for phylogenetic MCMC analyses

Lars Berling et al.Aug 14, 2023
Abstract Convergence assessment in Markov chain Monte Carlo (MCMC) based analyses is crucial but challenging, especially so in high dimensional and complex spaces such as the space of phylogenetic trees (treespace). Here we leverage recent advances in computational geometry of the treespace and introduce a method that combines classical statistical techniques and algorithms with geometric properties of the treespace to automatically evaluate and assess convergence of phylogenetic MCMC analyses. Our method systematically evaluates convergence across multiple MCMC chains and achieves high accuracy in detecting convergence of chains over the treespace. Furthermore, our approach is developed to allow for realtime convergence evaluation during the MCMC algorithm run, eliminating any of the chain post-processing steps that are currently required. Our tool therefore improves reliability and efficiency of MCMC based phylogenetic inference methods and makes analyses easier to reproduce and compare. We demonstrate the efficacy of our diagnostic via a well calibrated simulation study and provide examples of its performance on real data sets. The open source package for the phylogenetic inference framework BEAST2, called ASM, that implements these methods, making them accessible through a user-friendly GUI, is available from https://github.com/rbouckaert/asm/ . The open source Python package, called tetres, that provides an interface for these methods enabling their applications beyond BEAST2 can be accessed at https://github.com/bioDS/tetres/ .
1
Citation3
0
Save
0

The Fossilised Birth-Death Model is Identifiable

Kate Truman et al.Feb 12, 2024
Abstract Time-dependent birth-death sampling models have been used in numerous studies for inferring past evolutionary dynamics in different areas, e.g. speciation and extinction rates in macroevolutionary studies, or effective reproductive number in epidemiological studies. These models are branching processes where lineages can bifurcate, die, or be sampled with time-dependent birth, death, and sampling rates and generate phylogenetic trees. It has recently been shown that in some subclasses of such models, different sets of rates can result in the same distributions of reconstructed phylogenetic trees, and therefore the rates become unidentifiable from the trees regardless of their size. Here we show that widely used time-dependent fossilised birth-death (FBD) models are identifiable. This subclass of models makes more realistic assumptions about the fossilisation process and certain infectious disease transmission processes than the unidentifiable birth-death sampling models. Namely, FBD models assume that sampled lineages stay in the process rather than being immediately removed upon sampling. Identifiability of the time-dependent FBD model ensures that statistical methods that implement this model infer the true underlying temporal diversification or epidemiological dynamics from phylogenetic trees or directly from molecular or other comparative data. We further show that the time-dependent birth-death model with an extra parameter, the removal after sampling probability, is unidentifiable. This implies that in scenarios where we do not know how sampling affects lineages we are unable to infer this extra parameter together with birth, death, and sampling rates solely from trees. Significance Statement Identifiability of a statistical model is crucial for consistent inference which guarantees that parameters can be estimated close to their true values with sufficient amount of data. Recent results on unidentifiability of birth-death sampling models have put into question many macroevolutionary and epidemiological studies and caused considerable concern among researchers using these models. A related class of models, fossilised birth-death (FBD) models, has recently become a major tool for inferring past speciation or infectious disease transmission dynamics and dated evolutionary (phylogenetic) trees. Our result showing identifiability of FBD models enables researchers to confidently use these models and ensures the large body of research in palaeontology, ecology, and epidemiology reliant on the previously estimated parameters remains valid.
0

Learning epistatic gene interactions from perturbation screens

Kieran Elmes et al.Aug 25, 2020
A bstract The treatment of complex diseases often relies on combinatorial therapy, a strategy where drugs are used to target multiple genes simultaneously. Promising candidate genes for combinatorial perturbation often constitute epistatic genes, i.e., genes which contribute to a phenotype in a non-linear fashion. Experimental identification of the full landscape of genetic interactions by perturbing all gene combinations is prohibitive due to the exponential growth of testable hypotheses. Here we present a model for the inference of pairwise epistatic, including synthetic lethal, gene interactions from siRNA-based perturbation screens. The model exploits the combinatorial nature of siRNA-based screens resulting from the high numbers of sequence-dependent off-target effects, where each siRNA apart from its intended target knocks down hundreds of additional genes. We show that conditional and marginal epistasis can be estimated as interaction coefficients of regression models on perturbation data. We compare two methods, namely glinternet and xyz , for selecting non-zero effects in high dimensions as components of the model, and make recommendations for the appropriate use of each. For data simulated from real RNAi screening libraries, we show that glinternet successfully identifies epistatic gene pairs with high accuracy across a wide range of relevant parameters for the signal-to-noise ratio of observed phenotypes, the effect size of epistasis and the number of observations per double knockdown. xyz is also able to identify interactions from lower dimensional data sets (fewer genes), but is less accurate for many dimensions. Higher accuracy of glinternet , however, comes at the cost of longer running time compared to xyz . The general model is widely applicable and allows mining the wealth of publicly available RNAi screening data for the estimation of epistatic interactions between genes. As a proof of concept, we apply the model to search for interactions, and potential targets for treatment, among previously published sets of siRNA perturbation screens on various pathogens. The identified interactions include both known epistatic interactions as well as novel findings.
0
Citation1
0
Save
6

A Fast Lasso-Based Method for Inferring Higher-Order Interactions

Kieran Elmes et al.Dec 14, 2021
A bstract Large-scale genotype-phenotype screens provide a wealth of data for identifying molecular alterations associated with a phenotype. Epistatic effects play an important role in such association studies. For example, siRNA perturbation screens can be used to identify combinatorial gene-silencing effects. In bacteria, epistasis has practical consequences in determining antimicrobial resistance as the genetic background of a strain plays an important role in determining resistance. Recently developed tools scale to human exome-wide screens for pairwise interactions, but none to date have included the possibility of three-way interactions. Expanding upon recent state-of-the art methods, we make a number of improvements to the performance on large-scale data, making consideration of three-way interactions possible. We demonstrate our proposed method, Pint , on both simulated and real data sets, including antibiotic resistance testing and siRNA perturbation screens. Pint outperforms known methods in simulated data, and identifies a number of biologically plausible gene effects in both the antibiotic and siRNA models. For example, we have identified a combination of known tumor suppressor genes that is predicted (using Pint ) to cause a significant increase in cell proliferation. A uthor S ummary In recent years, large-scale genetic datasets have become available for analysis. These large datasets often stretch the limits of classic computational methods, requiring too much memory or simply taking a prohibitively long time to run. Due to the enormous number of potential interactions, each gene or variation in the data is often modeled on its own, without considering interactions between them. Recently, methods have been developed to solve regression problems that include these interacting effects. Even the fastest of these cannot include threeway interactions, however. We improve upon one such method, developing an approach that is significantly faster than the current state of the art. Moreover, our method scales to three-way interactions among thousands of genes, while avoiding a number of the limitations of previous approaches. We analyse large-scale simulated data, antibiotic resistance, and gene-silencing datasets to demonstrate the accuracy and performance of our approach.
6
Citation1
0
Save
0

Geometry of Ranked Nearest Neighbour Interchange Space of Phylogenetic Trees

Lena Collienne et al.Dec 20, 2019
A bstract In this paper we study the graph of ranked phylogenetic trees where the adjacency relation is given by a local rearrangement of the tree structure. Our work is motivated by tree inference algorithms, such as maximum likelihood and Markov Chain Monte Carlo methods, where the geometry of the search space plays a central role for efficiency and practicality of optimisation and sampling. We hence focus on understanding the geometry of the space (graph) of ranked trees, the so-called ranked nearest neighbour interchange (RNNI) graph. We find the radius and diameter of the space exactly, improving the best previously known estimates. Since the RNNI graph is a generalisation of the classical nearest neighbour interchange (NNI) graph to ranked phylogenetic trees, we compare geometric and algorithmic properties of the two graphs. Surprisingly, we discover that both geometric and algorithmic properties of RNNI and NNI are quite different. For example, we establish convexity of certain natural subspaces in RNNI which are not convex is NNI. Our results suggest that the complexity of computing distances in the two graphs is different.
Load More