TL
Thibault Latrille
Author with expertise in Population Genetic Structure and Dynamics
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(60% Open Access)
Cited by:
3
h-index:
5
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Toward a semi-supervised learning approach to phylogenetic estimation

Daniele Silvestro et al.Jun 25, 2024
Abstract Models have always been central to inferring molecular evolution and to reconstructing phylogenetic trees. Their use typically involves the development of a mechanistic framework reflecting our understanding of the underlying biological processes, such as nucleotide substitutions, and the estimation of model parameters by maximum likelihood or Bayesian inference. However, deriving and optimizing the likelihood of the data is not always possible under complex evolutionary scenarios or even tractable for large datasets, often leading to unrealistic simplifying assumptions in the fitted models. To overcome this issue, we coupled stochastic simulations of genome evolution with a new supervised deep-learning model to infer key parameters of molecular evolution. Our model is designed to directly analyze multiple sequence alignments and estimate per-site evolutionary rates and divergence without requiring a known phylogenetic tree. The accuracy of our predictions matched that of likelihood-based phylogenetic inference when rate heterogeneity followed a simple gamma distribution, but it strongly exceeded it under more complex patterns of rate variation, such as codon models. Our approach is highly scalable and can be efficiently applied to genomic data, as we showed on a dataset of 26 million nucleotides from the clownfish clade. Our simulations also showed that the integration of per-site rates obtained by deep learning within a Bayesian framework led to significantly more accurate phylogenetic inference, particularly with respect to the estimated branch lengths. We thus propose that future advancements in phylogenetic analysis will benefit from a semi-supervised learning approach that combines deep-learning estimation of substitution rates, which allows for more flexible models of rate variation, and probabilistic inference of the phylogenetic tree, which guarantees interpretability and a rigorous assessment of statistical support.
0
Citation2
0
Save
1

Genes and sites under adaptation at the phylogenetic scale also exhibit adaptation at the population-genetic scale

Thibault Latrille et al.Sep 26, 2022
Abstract Adaptation in protein-coding sequences can be detected from multiple sequence alignments across species, or alternatively by leveraging polymorphism data inside a population. Across species, quantification of the adaptive rate relies on phylogenetic codon models, classically formulated in terms of the ratio of non-synonymous over synonymous substitution rates. Evidence of an accelerated non-synonymous substitution rate is considered a signature of pervasive adaptation. However, because of the background of purifying selection, these models are potentially limited in their sensitivity. Recent developments have led to more sophisticated mutation-selection codon models aimed at making a more detailed quantitative assessment of the interplay between mutation, purifying and positive selection. In this study, we conducted a large-scale exome-wide analysis of placental mammals with mutation-selection models, assessing their performance at detecting proteins and sites under adaptation. Importantly, mutation-selection codon models are based on a population-genetic formalism and thus are directly comparable to McDonald & Kreitman tests at the population level to quantify adaptation. Taking advantage of this relationship between phylogenetic and population genetics, we integrated divergence and polymorphism data across the entire exome for 29 populations across 7 genera, and showed that proteins and sites detected to be under adaptation at the phylogenetic scale are also under adaptation at the population-genetic scale. Altogether, our exome-wide analysis shows that phylogenetic mutation-selection codon models and population-genetic test of adaptation can be reconciled and are congruent, paving the way for integrative models and analyses across individuals and populations. Significance Statement Detecting genes under adaptation represents a key step in the decoding of genomes. Several methods have been proposed, focussing either on the short time scale (population genetics, e.g. human populations), or on the long time scale (phylogenetics, e.g. across mammals). However, the accuracy of these methods is still under debate, and it is still unclear whether the signatures of adaptation are congruent across evolutionary scales. In this study, using novel phylogenetic methods and gathering genome data across and within species, we show that the signatures of adaptation at the phylogenetic and population-genetic scales can be reconciled. While providing a mutual confirmation of the two approaches, our work paves the way for further methodological integration between micro- and macro-evolutionary genomics.
1
Citation1
0
Save
7

Detecting diversifying selection for a trait from within and between-species genotypes and phenotypes

Thibault Latrille et al.Jan 1, 2023
To quantify selection acting on a trait, methods have been developed using either within or between-species variation. However, methods using within-species variation do not integrate the changes at the macro-evolutionary scale. Conversely, current methods using between-species variation usually discard within-species variation, thus not accounting for processes at the micro-evolutionary scale. The main goal of this study is to define a neutrality index for a quantitative trait, by combining within- and between-species variation. This neutrality index integrates nucleotide polymorphism and divergence for normalizing trait variation. As such, it does not require estimation of population size nor of time of speciation for normalization. Our index can be used to seek deviation from the null model of neutral evolution, and test for diversifying selection. Applied to brain mass and body mass at the mammalian scale, we show that brain mass is under diversifying selection. Finally, we show that our test is not sensitive to the assumption that population sizes, mutation rates and generation time are constant across the phylogeny, and automatically adjust for it.
0

Detecting diversifying selection for a trait from within and between-species genotypes and phenotypes

Thibault Latrille et al.Jul 11, 2024
Abstract To quantify selection acting on a trait, methods have been developed using either within or between-species variation. However, methods using within-species variation do not integrate the changes at the macroevolutionary scale. Conversely, current methods using between-species variation usually discard within-species variation, thus not accounting for processes at the micro-evolutionary scale. The main goal of this study is to define a neutrality index for a quantitative trait, by combining withinand between-species variation. This neutrality index integrates nucleotide polymorphism and divergence for normalizing trait variation. As such, it does not require estimation of population size nor of time of speciation for normalization. Our index can be used to seek deviation from the null model of neutral evolution, and test for diversifying selection. Applied to brain mass and body mass at the mammalian scale, we show that brain mass is under diversifying selection. Finally, we show that our test is not sensitive to the assumption that population sizes, mutation rates and generation time are constant across the phylogeny, and automatically adjust for it.
7

Inferring long-term effective population size with Mutation-Selection models

Thibault Latrille et al.Jan 13, 2021
Abstract Mutation-selection phylogenetic codon models are grounded on population genetics first principles and represent a principled approach for investigating the intricate interplay between mutation, selection and drift. In their current form, mutation-selection codon models are entirely characterized by the collection of site-specific amino-acid fitness profiles. However, thus far, they have relied on the assumption of a constant genetic drift, translating into a unique effective population size ( N e ) across the phylogeny, clearly an unreasonable hypothesis. This assumption can be alleviated by introducing variation in N e between lineages. In addition to N e , the mutation rate ( μ ) is susceptible to vary between lineages, and both should co-vary with life-history traits (LHTs). This suggests that the model should more globally account for the joint evolutionary process followed by all of these lineage-specific variables ( N e , μ , and LHTs). In this direction, we introduce an extended mutation-selection model jointly reconstructing in a Bayesian Monte Carlo framework the fitness landscape across sites and long-term trends in N e , μ and LHTs along the phylogeny, from an alignment of DNA coding sequences and a matrix of observed LHTs in extant species. The model was tested against simulated data and applied to empirical data in mammals, isopods and primates. The reconstructed history of N e in these groups appears to correlate with LHTs or ecological variables in a way that suggests that the reconstruction is reasonable, at least in its global trends. On the other hand, the range of variation in Ne inferred across species is surprisingly narrow. This last point suggests that some of the assumptions of the model, in particular concerning the assumed absence of epistatic interactions between sites, are potentially problematic.
6

A theoretical approach for quantifying the impact of changes in effective population size and expression level on the rate of coding sequence evolution

Thibault Latrille et al.Jan 13, 2021
Abstract Molecular sequences are shaped by selection, where the strength of selection relative to drift is determined by effective population size ( N e ). Populations with high N e are expected to undergo stronger purifying selection, and consequently to show a lower substitution rate for selected mutations relative to the substitution rate for neutral mutations ( ω ). However, computational models based on biophysics of protein stability have suggested that ω can also be independent of N e , a result proven under general conditions. Together, the response of ω to changes in N e depends on the specific mapping from sequence to fitness. Importantly, an increase in protein expression level has been found empirically to result in decrease of ω , an observation predicted by theoretical models assuming selection for protein stability. Here, we derive a theoretical approximation for the response of ω to changes in N e and expression level, under an explicit genotype-phenotype-fitness map. The method is generally valid for additive traits and log-concave fitness functions. We applied these results to protein undergoing selection for their conformational stability and corroborate out findings with simulations under more complex models. We predict a weak response of ω to changes in either N e or expression level, which are interchangeable. Based on empirical data, we propose that fitness based on the conformational stability may not be a sufficient mechanism to explain the empirically observed variation in ω across species. Other aspects of protein biophysics might be explored, such as protein-protein interactions, which can lead to a stronger response of ω to changes in N e .
5

An improved codon modeling approach for accurate estimation of the mutation bias

Thibault Latrille et al.Jul 1, 2021
Abstract Nucleotide composition in protein-coding sequences is the result of the equilibrium between mutation and selection. In particular, the nucleotide composition differs between the three coding positions, with the third position showing more extreme composition than the first and the second positions. Yet, phylogenetic codon models do not correctly capture this phenomenon and instead predict that the nucleotide composition should be the same for all 3 positions of the codons. Alternatively, some models allow for different nucleotide rates at the three positions, a problematic approach since the mutation process should in principle be blind to the coding structure and homogeneous across coding positions. Practically, this misconception could have important consequences in modelling the impact of GC-biased gene conversion (gBGC) on the evolution of protein-coding sequences, a factor which requires mutation and fixation biases to be carefully disentangled. Conceptually, the problem comes from the fact that phylogenetic codon models cannot correctly capture the fixation bias acting against the mutational pressure at the mutation-selection equilibrium. To address this problem, we present an improved codon modeling approach where the fixation rate is not seen as a scalar anymore, but as a tensor unfolding along multiple directions, which gives an accurate representation of how mutation and selection oppose each other at equilibrium. Thanks to this, this modelling approach yields a reliable estimate of the mutational process, while disentangling fixation probabilities in different directions.
1

Gene expression is the main driver of purifying selection in large penguin populations

Emiliano Trucchi et al.Aug 8, 2023
Abstract Purifying selection is the most pervasive type of selection, as it constantly removes deleterious mutations arising in populations, directly scaling with population size. Highly expressed genes appear to accumulate fewer deleterious mutations between divergent species’ lineages, pointing towards gene expression as an additional driver of purifying selection. However, estimates of the effect of gene expression on segregating deleterious variants in natural populations are lacking, as well as an understanding of the relative contribution of population size and gene expression to overall purifying selection pressure. Here, we analyse genomic and transcriptomic data from two natural populations of closely related sister species with different demographic histories, the Emperor ( Aptenodytes forsteri ) and the King penguins ( A. patagonicus), and demonstrate that purifying selection at the population-level depends on the level of gene expression, with larger effects than population size. Deleterious segregating variants spread less in the population when they are in genes with higher expression rate. Leveraging realistic forward simulations, we estimate that the top 10% of the most highly expressed genes in a genome experience a selection pressure corresponding to an average selection coefficient of −0.1, which decreases to a selection coefficient of −0.01 for the top 50%. Gene expression appears to be a fundamental driver of purifying selection in natural populations, also effective at small population size. We suggest gene expression could be used as a proxy for gene selection coefficients ( i.e. , distribution of fitness effects), which are notoriously difficult to derive in non-model species under real-world conditions.
0

Improved estimation of molecular evolution coupling stochastic simulations and deep learning

Daniele Silvestro et al.Jan 1, 2023
Models have always been central to inferring molecular evolution and to reconstructing phylogenetic trees. Their use typically involves the development of a mechanistic framework reflecting our understanding of the underlying biological processes, such as nucleotide substitutions, and the estimation of model parameters by maximum likelihood or Bayesian inference. However, deriving and optimizing the likelihood of the data is not always possible under complex evolutionary scenarios or tractable for large datasets, often leading to unrealistic simplifying assumptions in the fitted models. To overcome this issue, we couple stochastic simulations of genome evolution with a new supervised deep learning model to infer key parameters of molecular evolution. Our model is designed to directly analyze multiple sequence alignments and estimate per-site evolutionary rates and divergence, without requiring a known phylogenetic tree. The accuracy of our predictions matches that of likelihood-based phylogenetic inference, when rate heterogeneity follows a simple gamma distribution, but it strongly exceeds it under more complex patterns of rate variation, such as codon models. Our approach is highly scalable and can be efficiently applied to genomic data, as we show on a dataset of 26 million nucleotides from the clownfish clade. Our simulations also show that the per-site rates obtained by deep learning increase the likelihood of the true tree and could therefore lead to more accurate phylogenetic inference. We propose that future advancements in phylogenetic analysis will benefit from a semi-supervised learning approach that combines deep-learning estimation of substitution rates, which allows for more flexible models of rate variation, and probabilistic inference of the phylogenetic tree, which guarantees interpretability and a rigorous assessments of statistical support.