DV
Diego Vecchyo
Author with expertise in Population Genetic Structure and Dynamics
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(56% Open Access)
Cited by:
567
h-index:
14
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genome Sequencing Highlights the Dynamic Early History of Dogs

Adam Freedman et al.Jan 16, 2014
+27
H
A
A
To identify genetic changes underlying dog domestication and reconstruct their early evolutionary history, we generated high-quality genome sequences from three gray wolves, one from each of the three putative centers of dog domestication, two basal dog lineages (Basenji and Dingo) and a golden jackal as an outgroup. Analysis of these sequences supports a demographic model in which dogs and wolves diverged through a dynamic process involving population bottlenecks in both lineages and post-divergence gene flow. In dogs, the domestication bottleneck involved at least a 16-fold reduction in population size, a much more severe bottleneck than estimated previously. A sharp bottleneck in wolves occurred soon after their divergence from dogs, implying that the pool of diversity from which dogs arose was substantially larger than represented by modern wolf populations. We narrow the plausible range for the date of initial dog domestication to an interval spanning 11–16 thousand years ago, predating the rise of agriculture. In light of this finding, we expand upon previous work regarding the increase in copy number of the amylase gene (AMY2B) in dogs, which is believed to have aided digestion of starch in agricultural refuse. We find standing variation for amylase copy number variation in wolves and little or no copy number increase in the Dingo and Husky lineages. In conjunction with the estimated timing of dog origins, these results provide additional support to archaeological finds, suggesting the earliest dogs arose alongside hunter-gathers rather than agriculturists. Regarding the geographic origin of dogs, we find that, surprisingly, none of the extant wolf lineages from putative domestication centers is more closely related to dogs, and, instead, the sampled wolves form a sister monophyletic clade. This result, in combination with dog-wolf admixture during the process of domestication, suggests that a re-evaluation of past hypotheses regarding dog origins is necessary.
0
Citation562
0
Save
13

The Utility of Ancestral and Derived Allele Sharing for Genome-Wide Inferences of Introgression

David Peede et al.Dec 2, 2022
E
D
D
Abstract The past decade has ushered in a resurgence of studies highlighting the importance of introgression throughout the Tree of Life. Several methods exist for detecting and quantifying introgression on a genomic scale, yet the majority of these methods primarily utilize signals of derived allele sharing between donor and recipient populations. In this study, we exploit the fact that introgression will not only result in derived allele sharing but also the reintroduction of ancestral alleles to derive new estimators of the admixture proportion. Using coalescent simulations, we assess the performance of our new methods and the methods proposed in Lopez Fang et al. 2022 to assess the utility of incorporating shared ancestral variation into genome-wide inferences of introgression. Using coalescent theory, simulations, and applying our methods to human and canid data, we find that methods incorporating ancestral allele sharing are comparable to their derived allele sharing counterparts, in turn providing researchers with the opportunity to utilize more of the genomic signature of introgression.
13
Citation2
0
Save
86

Leveraging shared ancestral variation to detect local introgression

Lesly Fang et al.Mar 21, 2022
E
D
E
L
Abstract Introgression is a common evolutionary phenomenon that results in shared genetic material across non-sister taxa. Existing statistical methods such as Patterson’s D statistic can detect introgression by measuring an excess of shared derived alleles between populations. The D statistic is effective to detect genome-wide patterns of introgression but can give spurious inferences of introgression when applied to local regions. We propose a new statistic, D + , that leverages both shared ancestral and derived alleles to infer local introgressed regions. Incorporating both shared derived and ancestral alleles increases the number of informative sites per region, improving our ability to identify local introgression. We use a coalescent framework to derive the expected value of this statistic as a function of different demographic parameters under an instantaneous admixture model and use coalescent simulations to compute the power and precision of D + . While the power of D and D + is comparable, D + has better precision than D . We apply D + to empirical data from the 1000 Genome Project and Heliconius butterflies to infer local targets of introgression in humans and in butterflies.
86
Citation2
0
Save
1

Demographic Modeling of Admixed Latin American Populations from Whole Genomes

Santiago Medina-Muñoz et al.Mar 8, 2023
+4
L
D
S
ABSTRACT Demographic models of Latin American populations often fail to fully capture their complex evolutionary history, which has been shaped by both recent admixture and deeper-in-time demographic events. To address this gap, we used high-coverage whole genome data from Indigenous American ancestries in present-day Mexico and existing genomes from across Latin America to infer multiple demographic models that capture the impact of different timescales on genetic diversity. Our approach, which combines analyses of allele frequencies and ancestry tract length distributions, represents a significant improvement over current models in predicting patterns of genetic variation in admixed Latin American populations. We jointly modeled the contribution of European, African, East Asian, and Indigenous American ancestries into present-day Latin American populations to capture the historical demographic events that have shaped genetic variation. Our inferred demographic histories are consistent across different genomic regions and annotations, suggesting that our inferences are robust to the potential effects of linked selection. In conjunction with published distributions of fitness effects for new nonsynonymous mutations in humans, we show in large-scale simulations that our models recover important features of both neutral and deleterious variation. By providing a more realistic framework for understanding the evolutionary history of Latin American populations, our models can help address the historical under-representation of admixed groups in genomics research, and can be a valuable resource for future studies of populations with complex admixture and demographic histories.
1
Citation1
0
Save
0

Fst between archaic and present-day samples

Diego Vecchyo et al.Jul 4, 2018
M
D
The increasing abundance of DNA sequences obtained from fossils calls for new population genetics theory that takes account of both the temporal and spatial separation of samples. Here we exploit the relationship between Wright's Fst and average coalescence times to develop an analytic theory describing how Fst depends on both the distance and time separating pairs of sampled genomes. We apply this theory to several simple models of population history. If there is a time series of samples, partial population replacement creates a discontinuity in pairwise Fst values. The magnitude of the discontinuity depends on the extent of replacement. In stepping-stone models, pairwise Fst values between archaic and present-day samples reflect both the spatial and temporal separation. At long distances, an isolation by distance pattern dominates. At short distances, the time separation dominates. Analytic predictions fit patterns generated by simulations. We illustrate our results with applications to archaic samples from European human populations. We compare present-day samples with a pair of archaic samples taken before and after a replacement event.
32

A likelihood-based framework for demographic inference from genealogical trees

Caoqi Fan et al.Jan 1, 2023
+5
J
N
C
The demographic history of a population drives the pattern of genetic variation and is encoded in the gene-genealogical trees of the sampled alleles. However, existing methods to infer demographic history from genetic data tend to use relatively low-dimensional summaries of the genealogy, such as allele frequency spectra. As a step toward capturing more of the information encoded in the genome-wide sequence of genealogical trees, here we propose a novel framework called the genealogical likelihood (gLike), which derives the full likelihood of a genealogical tree under any hypothesized demographic history. Employing a graph-based structure, gLike summarizes across independent trees the relationships among all lineages in a tree with all possible trajectories of population memberships through time and efficiently computes the exact marginal probability under a parameterized demographic model. Through extensive simulations and empirical applications on populations that have experienced multiple admixtures, we showed that gLike can accurately estimate dozens of demographic parameters when the true genealogy is known, including ancestral population sizes, admixture timing, and admixture proportions. Moreover, when using genealogical trees inferred from genetic data, we showed that gLike outperformed conventional demographic inference methods that leverage only the allele-frequency spectrum and yielded parameter estimates that align with established historical knowledge of the past demographic histories for populations like Latino Americans and Native Hawaiians. Furthermore, our framework can trace ancestral histories by analyzing a sample from the admixed population without proxies for its source populations, removing the need to sample ancestral populations that may no longer exist. Taken together, our proposed gLike framework harnesses underutilized genealogical information to offer exceptional sensitivity and accuracy in inferring complex demographies for humans and other species, particularly as estimation of genome-wide genealogies improves.
32
0
Save
0

A community-maintained standard library of population genetic models

Jeffrey Adrion et al.Dec 21, 2019
+26
N
C
J
The explosion in population genomic data demands ever more complex modes of analysis, and increasingly these analyses depend on sophisticated simulations. Recent advances in population genetic simulation have made it possible to simulate large and complex models, but specifying such models for a particular simulation engine remains a difficult and error-prone task. Computational genetics researchers currently re-implement simulation models independently, leading to duplication of effort and the possibility for error. Population genetics, as a field, also lacks standard benchmarks by which new tools for inference might be measured. Here we describe a new resource, stdpopsim, that attempts to rectify this situation. Stdpopsim is a community-driven open source project, which provides easy access to a standard catalog of published simulation models from a wide range of organisms and supports multiple simulation engine backends. We share some examples demonstrating how stdpopsim can be used to systematically compare demographic inference methods, and we encourage an even broader community of developers to contribute to this growing resource.
0

Natural selection acting on complex traits hampers the predictive accuracy of polygenic scores in ancient samples

Valeria Añorve-Garibay et al.Sep 11, 2024
D
M
E
V
The prediction of phenotypes from ancient humans has gained interest due to its potential to investigate the evolution of complex traits. These predictions are commonly performed using polygenic scores computed with DNA information from ancient humans along with genome-wide association studies (GWAS) data from present-day humans. However, numerous evolutionary processes could impact the prediction of phenotypes from ancient humans based on polygenic scores. In this work we investigate how natural selection impacts phenotypic predictions on ancient individuals using polygenic scores. We use simulations of an additive trait to analyze how natural selection impacts phenotypic predictions with polygenic scores. We simulate a trait evolving under neutrality, stabilizing selection and directional selection. We find that stabilizing and directional selection have contrasting effects on ancient phenotypic predictions. Stabilizing selection accelerates the loss of large-effect alleles contributing to trait variation. Conversely, directional selection accelerates the loss of small and large-effect alleles that drive individuals farther away from the optimal phenotypic value. These effects result in specific shared genetic variation patterns between ancient and modern populations which hamper the accuracy of polygenic scores to predict phenotypes. Furthermore, we conducted simulations that include realistic strengths of stabilizing selection and heritability estimates to show how natural selection could impact the predictive accuracy of ancient polygenic scores for two widely studied traits: height and body mass index. We emphasize the importance of considering how natural selection can decrease the reliability of ancient polygenic scores to perform phenotypic predictions on an ancient population.
0

Haplotype-based inference of the distribution of fitness effects

Diego Vecchyo et al.Sep 16, 2019
J
K
D
Recent genome sequencing studies with large sample sizes in humans have discovered a vast quantity of low-frequency variants, providing an important source of information to analyze how selection is acting on human genetic variation. In order to estimate the strength of natural selection acting on low-frequency variants, we have developed a likelihood-based method that uses the lengths of pairwise identity-by-state between haplotypes carrying low-frequency variants. We show that in some non-equilibrium populations (such as those that have had recent population expansions) it is possible to distinguish between positive or negative selection acting on a set of variants. With our new framework, one can infer a fixed selection intensity acting on a set of variants at a particular frequency, or a distribution of selection coefficients for standing variants and new mutations. We apply our method to the UK10K phased haplotype dataset of 3,781 individuals and find a similar proportion of neutral, moderately deleterious, and deleterious variants compared to previous estimates made using the site frequency spectrum. We discuss several interpretations for this result, including that selective constraints have remained constant over time.