PC
Piya Changmai
Author with expertise in Genomic Analysis of Ancient DNA
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(69% Open Access)
Cited by:
378
h-index:
15
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
42

On the limits of fitting complex models of population history to genetic data

Robert Maier et al.May 8, 2022
Abstract Our understanding of human population history in deep time has been assisted by fitting “admixture graphs” to data: models that specify the ordering of population splits and mixtures which is the only information needed to capture the patterns of allele frequency correlation among populations. Not needing to specify population size changes, split times, or whether admixture events were sudden or drawn out simplifies the space of models that need to be searched. However, the space of possible admixture graphs relating populations is vast and cannot be sampled fully, and thus most published studies have identified fitting admixture graphs through a manual process driven by prior hypotheses, leaving the vast majority of alternative models unexplored. Here, we develop a method for systematically searching the space of all admixture graphs that can incorporate non-genetic information in the form of topology constraints. We implement this findGraphs tool within a software package, ADMIXTOOLS 2 , which is a reimplementation of the ADMIXTOOLS software with new features and large performance gains. We apply this methodology to identify alternative models to admixture graphs that played key roles in eight published studies and find that graphs modeling more than six populations and two or three admixture events are often not unique, with many alternative models fitting nominally or significantly better than the published one. Our results suggest that strong claims about population history from admixture graphs should only be made when all well-fitting and temporally plausible models share common topological features. Our re-evaluation of published data also provides insight into the population histories of humans, dogs, and horses, identifying features that are stable across the models we explored, as well as scenarios of populations relationships that differ in important ways from models that have been highlighted in the literature, that fit the allele frequency correlation data, and that are not obviously wrong.
42
Citation34
0
Save
0

The Genetic Origin of the Indo-Europeans

Iosif Lazaridis et al.Apr 18, 2024
The Yamnaya archaeological complex appeared around 3300BCE across the steppes north of the Black and Caspian Seas, and by 3000BCE reached its maximal extent from Hungary in the west to Kazakhstan in the east. To localize the ancestral and geographical origins of the Yamnaya among the diverse Eneolithic people that preceded them, we studied ancient DNA data from 428 individuals of which 299 are reported for the first time, demonstrating three previously unknown Eneolithic genetic clines. First, a “Caucasus-Lower Volga” (CLV) Cline suffused with Caucasus hunter-gatherer (CHG) ancestry extended between a Caucasus Neolithic southern end in Neolithic Armenia, and a steppe northern end in Berezhnovka in the Lower Volga. Bidirectional gene flow across the CLV cline created admixed intermediate populations in both the north Caucasus, such as the Maikop people, and on the steppe, such as those at the site of Remontnoye north of the Manych depression. CLV people also helped form two major riverine clines by admixing with distinct groups of European hunter-gatherers. A “Volga Cline” was formed as Lower Volga people mixed with upriver populations that had more Eastern hunter-gatherer (EHG) ancestry, creating genetically hyper-variable populations as at Khvalynsk in the Middle Volga. A “Dnipro Cline” was formed as CLV people bearing both Caucasus Neolithic and Lower Volga ancestry moved west and acquired Ukraine Neolithic hunter-gatherer (UNHG) ancestry to establish the population of the Serednii Stih culture from which the direct ancestors of the Yamnaya themselves were formed around 4000BCE. This population grew rapidly after 3750-3350BCE, precipitating the expansion of people of the Yamnaya culture who totally displaced previous groups on the Volga and further east, while admixing with more sedentary groups in the west. CLV cline people with Lower Volga ancestry contributed four fifths of the ancestry of the Yamnaya, but also, entering Anatolia from the east, contributed at least a tenth of the ancestry of Bronze Age Central Anatolians, where the Hittite language, related to the Indo-European languages spread by the Yamnaya, was spoken. We thus propose that the final unity of the speakers of the “Proto-Indo-Anatolian” ancestral language of both Anatolian and Indo-European languages can be traced to CLV cline people sometime between 4400-4000 BCE. Abstract Figure Summary Figure: The origin of Indo-Anatolian and Indo-European languages. Genetic reconstruction of the ancestry of Pontic-Caspian steppe and West Asian populations points to the North Caucasus-Lower Volga area as the homeland of Indo-Anatolian languages and to the Serednii Stih archaeological culture of the Dnipro-Don area as the homeland of Indo-European languages. The Caucasus-Lower Volga people had diverse distal roots, estimated using the qpAdm software on the left barplot, as Caucasus hunter-gatherer (purple), Central Asian (red), Eastern hunter-gatherer (pink), and West Asian Neolithic (green). Caucasus-Lower Volga expansions, estimated using qpAdm on the right barplot as disseminated Caucasus Neolithic (blue)-Lower Volga Eneolithic (orange) proximal ancestries, mixing with the inhabitants of the North Pontic region (yellow), Volga region (yellow), and West Asia (green).
0
Citation2
0
Save
23

Circumpolar peoples and their languages: lexical and genomic data suggest ancient Chukotko-Kamchatkan–Nivkh and Yukaghir-Samoyedic connections

George Starostin et al.Feb 28, 2021
Abstract Relationships between universally recognized language families represent a hotly debated topic in historical linguistics, and the same is true for correlation between signals of genetic and linguistic relatedness. We developed a weighted permutation test and applied it on basic vocabularies for 31 pairs of languages and reconstructed proto-languages to show that three groups of circumpolar language families in the Northern Hemisphere show evidence of relationship though borrowing in the basic vocabulary or common descent: [Chukotko-Kamchatkan and Nivkh]; [Yukaghir and Samoyedic]; [Yeniseian, Na-Dene, and Burushaski]. The former two pairs showed the most significant signals of language relationship, and the same pairs demonstrated parallel signals of genetic relationship implying common descent or substantial gene flows. For finding the genetic signals we used genome-wide genetic data for present-day groups and a bootstrapping model comparison approach for admixture graphs or, alternatively, haplotype sharing statistics. Our findings further support some hypotheses on long-distance language relationship put forward based on the linguistic methods but lacking universal acceptance. Significance statement Indigenous people inhabiting polar and sub-polar regions in the Northern Hemisphere speak diverse languages belonging to at least seven language families which are traditionally thought of as unrelated entities. We developed a weighted permutation test and applied it to basic vocabularies of a number of languages and reconstructed proto-languages to show that at least three groups of circumpolar language families show evidence of relationship though either borrowing in the basic vocabulary or common descent: Chukotko-Kamchatkan and Nivkh; Yukaghir and Samoyedic; Yeniseian, Na-Dene, and Burushaski. The former two pairs showed the most significant signals of language relationship, and the same pairs demonstrated parallel signals of genetic relationship implying common descent or substantial gene flows.
23
Citation2
0
Save
0

Genomic study of the Ket: a Paleo-Eskimo-related ethnic group with significant ancient North Eurasian ancestry

Pavel Flegontov et al.Aug 13, 2015
The Kets, an ethnic group in the Yenisei River basin, Russia, are considered the last nomadic hunter-gatherers of Siberia, and Ket language has no transparent affiliation with any language family. We investigated connections between the Kets and Siberian and North American populations, with emphasis on the Mal'ta and Paleo-Eskimo ancient genomes, using original data from 46 unrelated samples of Kets and 42 samples of their neighboring ethnic groups (Uralic-speaking Nganasans, Enets, and Selkups). We genotyped over 130,000 autosomal SNPs, identified mitochondrial and Y-chromosomal haplogroups, and performed high-coverage genome sequencing of two Ket individuals. We established that Nganasans, Kets, Selkups, and Yukaghirs form a cluster of populations most closely related to Paleo-Eskimos in Siberia (not considering indigenous populations of Chukotka and Kamchatka). Kets are closely related to modern Selkups and to some Bronze and Iron Age populations of the Altai region, with all these groups sharing a high degree of Mal'ta ancestry. Implications of these findings for the linguistic hypothesis uniting Ket and Na-Dene languages into a language macrofamily are discussed.
0

Contrasting maternal and paternal genetic variation of hunter-gatherer groups in Thailand

Wibhu Kutanan et al.Oct 13, 2017
The Maniq and Mlabri are the only recorded nomadic hunter-gatherer groups in Thailand. Here, we sequenced complete mitochondrial (mt) DNA genomes and ~2.364 Mbp of non-recombining Y chromosome (NRY) to learn more about the origins of these two enigmatic populations. Both groups exhibited low genetic diversity compared to other Thai populations, and contrasting patterns of mtDNA and NRY diversity: there was greater mtDNA diversity in the Maniq than in the Mlabri, while the converse was true for the NRY. We found basal uniparental lineages in the Maniq, namely mtDNA haplogroups M21a, R21 and M17a, and NRY haplogroup K. Overall, the Maniq are genetically similar to other negrito groups in Southeast Asia. By contrast, the Mlabri haplogroups (B5a1b1 for mtDNA and O1b1a1a1b and O1b1a1a1b1a1 for the NRY) are common lineages in Southeast Asian non-negrito groups, and overall the Mlabri are genetically similar to their linguistic relatives (Htin and Khmu) and other groups from northeastern Thailand. In agreement with previous studies of the Mlabri, our results indicate that the Malbri do not directly descend from the indigenous negritos. Instead, they likely have a recent origin (within the past 1,000 years) by an extreme founder event (involving just one maternal and two paternal lineages) from an agricultural group, most likely the Htin or a closely-related group.
48

False discovery rates of qpAdm-based screens for genetic admixture

Olga Flegontova et al.Jan 1, 2023
Although a broad range of methods exists for reconstructing population history from genome-wide single nucleotide polymorphism data, just a few methods gained popularity in archaeogenetics: principal component analysis (PCA); ADMIXTURE, an algorithm that models individuals as mixtures of multiple ancestral sources represented by actual or inferred populations; formal tests for admixture such as f3-statistics and D/f4-statistics; and qpAdm, a tool for fitting two-component and more complex admixture models to groups or individuals. Despite their popularity in archaeogenetics, which is explained by modest computational requirements and ability to analyze data of various types and qualities, protocols relying on qpAdm that screen numerous alternative models of varying complexity and find "fitting" models (often considering both estimated admixture proportions and p-values as a composite criterion of model fit) remain untested on complex simulated population histories in the form of admixture graphs of random topology. We analyzed genotype data extracted from such simulations and tested various types of high-throughput qpAdm protocols ("rotating" and "non-rotating", with or without temporal stratification of target groups and proxy ancestry sources, and with or without a "model competition" step). We caution that high-throughput qpAdm protocols may be inappropriate for exploratory analyses in poorly studied regions/periods since their false discovery rates varied between 12% and 68% depending on the details of the protocol and on the amount and quality of simulated data (i.e., >12% of fitting two-way admixture models imply gene flows that were not simulated). We demonstrate that for reducing false discovery rates of qpAdm protocols to nearly 0% it is advisable to use large SNP sets with low missing data rates, the rotating qpAdm protocol with a strictly enforced rule that target groups do not pre-date their proxy sources, and an unsupervised ADMIXTURE analysis as a way to verify feasible qpAdm models. Our study has a number of limitations: for instance, these recommendations depend on the assumption that the underlying genetic history is a complex admixture graph and not a stepping-stone model.
16

Modeling of African population history usingf-statistics can be highly biased and is not addressed by previously suggested SNP ascertainment schemes

Pavel Flegontov et al.Jan 22, 2023
f -statistics have emerged as a first line of analysis for making inferences about demographic history from genome-wide data. These statistics can provide strong evidence for either admixture or cladality, which can be robust to substantial rates of errors or missing data. f -statistics are guaranteed to be unbiased under "SNP ascertainment" (analyzing non-randomly chosen subsets of single nucleotide polymorphisms) only if it relies on a population that is an outgroup for all groups analyzed. However, ascertainment on a true outgroup that is not co-analyzed with other populations is often impractical and uncommon in the literature. In this study focused on practical rather than theoretical aspects of SNP ascertainment, we show that many non-outgroup ascertainment schemes lead to false rejection of true demographic histories, as well as to failure to reject incorrect models. But the bias introduced by common ascertainments such as the 1240K panel is mostly limited to situations when more than one sub-Saharan African and/or archaic human groups (Neanderthals and Denisovans) or non-human outgroups are co-modelled, for example, f4 -statistics involving one non-African group, two African groups, and one archaic group. Analyzing panels of SNPs polymorphic in archaic humans, which has been suggested as a solution for the ascertainment problem, cannot fix all these problems since for some classes of f -statistics it is not a clean outgroup ascertainment, and in other cases it demonstrates relatively low power to reject incorrect demographic models since it provides a relatively small number of variants common in anatomically modern humans. And due to the paucity of high-coverage archaic genomes, archaic individuals used for ascertainment often act as sole representatives of the respective groups in an analysis, and we show that this approach is highly problematic. By carrying out large numbers of simulations of diverse demographic histories, we find that bias in inferences based on f -statistics introduced by non-outgroup ascertainment can be minimized if the derived allele frequency spectrum in the population used for ascertainment approaches the spectrum that existed at the root of all groups being co-analyzed. Ascertaining on sites with variants common in a diverse group of African individuals provides a good approximation to such a set of SNPs, addressing the great majority of biases and also retaining high statistical power for studying population history. Such a "pan-African" ascertainment, although not completely problem-free, allows unbiased exploration of demographic models for the widest set of archaic and modern human populations, as compared to the other ascertainment schemes we explored.
Load More