IG
Ilan Gronau
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(60% Open Access)
Cited by:
2,030
h-index:
20
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Bayesian inference of ancient human demography from individual genome sequences

Ilan Gronau et al.Sep 18, 2011
+2
B
M
I
Adam Siepel and colleagues estimate key parameters for ancient human demography using a Bayesian analysis of the whole-genome sequences of six individuals from diverse populations. They present new methods for coalescent-based inference of demographic parameters as well as a custom pipeline for genotype inference. Whole-genome sequences provide a rich source of information about human evolution. Here we describe an effort to estimate key evolutionary parameters based on the whole-genome sequences of six individuals from diverse human populations. We used a Bayesian, coalescent-based approach to obtain information about ancestral population sizes, divergence times and migration rates from inferred genealogies at many neutrally evolving loci across the genome. We introduce new methods for accommodating gene flow between populations and integrating over possible phasings of diploid genotypes. We also describe a custom pipeline for genotype inference to mitigate biases from heterogeneous sequencing technologies and coverage levels. Our analysis indicates that the San population of southern Africa diverged from other human populations approximately 108–157 thousand years ago, that Eurasians diverged from an ancestral African population 38–64 thousand years ago, and that the effective population size of the ancestors of all modern humans was ∼9,000.
0
Citation584
0
Save
0

Genome Sequencing Highlights the Dynamic Early History of Dogs

Adam Freedman et al.Jan 16, 2014
+27
H
A
A
To identify genetic changes underlying dog domestication and reconstruct their early evolutionary history, we generated high-quality genome sequences from three gray wolves, one from each of the three putative centers of dog domestication, two basal dog lineages (Basenji and Dingo) and a golden jackal as an outgroup. Analysis of these sequences supports a demographic model in which dogs and wolves diverged through a dynamic process involving population bottlenecks in both lineages and post-divergence gene flow. In dogs, the domestication bottleneck involved at least a 16-fold reduction in population size, a much more severe bottleneck than estimated previously. A sharp bottleneck in wolves occurred soon after their divergence from dogs, implying that the pool of diversity from which dogs arose was substantially larger than represented by modern wolf populations. We narrow the plausible range for the date of initial dog domestication to an interval spanning 11–16 thousand years ago, predating the rise of agriculture. In light of this finding, we expand upon previous work regarding the increase in copy number of the amylase gene (AMY2B) in dogs, which is believed to have aided digestion of starch in agricultural refuse. We find standing variation for amylase copy number variation in wolves and little or no copy number increase in the Dingo and Husky lineages. In conjunction with the estimated timing of dog origins, these results provide additional support to archaeological finds, suggesting the earliest dogs arose alongside hunter-gathers rather than agriculturists. Regarding the geographic origin of dogs, we find that, surprisingly, none of the extant wolf lineages from putative domestication centers is more closely related to dogs, and, instead, the sampled wolves form a sister monophyletic clade. This result, in combination with dog-wolf admixture during the process of domestication, suggests that a re-evaluation of past hypotheses regarding dog origins is necessary.
0
Citation562
0
Save
0

Ancient gene flow from early modern humans into Eastern Neanderthals

Martin Kuhlwilm et al.Feb 1, 2016
+19
M
I
M
It is known that there was gene flow from Neanderthals to modern humans around 50,000 years ago; now, analysis of a Neanderthal genome from the Altai Mountains in Siberia reveals evidence of gene flow 100,000 years ago in the other direction—from early modern humans to Neanderthals. Sergi Castellano and colleagues analyse genomic data from Neanderthal and Denisovan modern humans from the Altai Mountains in Siberia and from Neanderthals from Spain and Croatia. Using a Bayesian method for inference of demographic models known as G-PhoCS (Generalized Phylogenetic Coalescent Sampler), the authors obtain preliminary quantitative estimates of previously reported gene flow events between modern and archaic humans. They also report evidence of gene flow from an early modern human population to the ancestors of Neanderthals from the Altai Mountains more than 100,000 years ago, in the opposite direction to the instances of gene flow from Neanderthals to modern humans. It has been shown that Neanderthals contributed genetically to modern humans outside Africa 47,000–65,000 years ago. Here we analyse the genomes of a Neanderthal and a Denisovan from the Altai Mountains in Siberia together with the sequences of chromosome 21 of two Neanderthals from Spain and Croatia. We find that a population that diverged early from other modern humans in Africa contributed genetically to the ancestors of Neanderthals from the Altai Mountains roughly 100,000 years ago. By contrast, we do not detect such a genetic contribution in the Denisovan or the two European Neanderthals. We conclude that in addition to later interbreeding events, the ancestors of Neanderthals from the Altai Mountains and early modern humans met and interbred, possibly in the Near East, many thousands of years earlier than previously thought.
0
Citation504
0
Save
0

Genome-Wide Inference of Ancestral Recombination Graphs

Matthew Rasmussen et al.May 15, 2014
A
I
M
M
The complex correlation structure of a collection of orthologous DNA sequences is uniquely captured by the “ancestral recombination graph” (ARG), a complete record of coalescence and recombination events in the history of the sample. However, existing methods for ARG inference are computationally intensive, highly approximate, or limited to small numbers of sequences, and, as a consequence, explicit ARG inference is rarely used in applied population genomics. Here, we introduce a new algorithm for ARG inference that is efficient enough to apply to dozens of complete mammalian genomes. The key idea of our approach is to sample an ARG of chromosomes conditional on an ARG of chromosomes, an operation we call “threading.” Using techniques based on hidden Markov models, we can perform this threading operation exactly, up to the assumptions of the sequentially Markov coalescent and a discretization of time. An extension allows for threading of subtrees instead of individual sequences. Repeated application of these threading operations results in highly efficient Markov chain Monte Carlo samplers for ARGs. We have implemented these methods in a computer program called ARGweaver. Experiments with simulated data indicate that ARGweaver converges rapidly to the posterior distribution over ARGs and is effective in recovering various features of the ARG for dozens of sequences generated under realistic parameters for human populations. In applications of ARGweaver to 54 human genome sequences from Complete Genomics, we find clear signatures of natural selection, including regions of unusually ancient ancestry associated with balancing selection and reductions in allele age in sites under directional selection. The patterns we observe near protein-coding genes are consistent with a primary influence from background selection rather than hitchhiking, although we cannot rule out a contribution from recurrent selective sweeps.
0
Citation375
0
Save
49

Expanding the stdpopsim species catalog, and lessons learned for realistic genome simulations

M. Lauterbur et al.Oct 31, 2022
+41
P
R
M
Abstract Simulation is a key tool in population genetics for both methods development and empirical research, but producing simulations that recapitulate the main features of genomic data sets remains a major obstacle. Today, more realistic simulations are possible thanks to large increases in the quantity and quality of available genetic data, and to the sophistication of inference and simulation software. However, implementing these simulations still requires substantial time and specialized knowledge. These challenges are especially pronounced for simulating genomes for species that are not well-studied, since it is not always clear what information is required to produce simulations with a level of realism sufficient to confidently answer a given question. The community-developed framework stdpopsim seeks to lower this barrier by facilitating the simulation of complex population genetic models using up-to-date information. The initial version of stdpopsim focused on establishing this framework using six well-characterized model species (Adrion et al., 2020). Here, we report on major improvements made in the new release of stdpopsim (version 0.2), which includes a significant expansion of the species catalog and substantial additions to simulation capabilities. Features added to improve the realism of the simulated genomes include non-crossover recombination and provision of species-specific genomic annotations. Through community-driven efforts, we expanded the number of species in the catalog more than three-fold and broadened coverage across the tree of life. During the process of expanding the catalog, we have identified common sticking points and developed best practices for setting up genome-scale simulations. We describe the input data required for generating a realistic simulation, suggest good practices for obtaining the relevant information from the literature, and discuss common pitfalls and major considerations. These improvements to stdpopsim aim to further promote the use of realistic whole-genome population genetic simulations, especially in non-model organisms, making them available, transparent, and accessible to everyone.
49
Citation4
0
Save
0

Genome-AC-GAN: Enhancing Synthetic Genotype Generation through Auxiliary Classification

Shaked Ahronoviz et al.Feb 16, 2024
I
S
In recent years, there have been increasing attempts to develop computational methods for generating synthetic genomic data that aim to mimic real genomic datasets. Artificial genomes (AGs) generated by these methods have emerged as a promising potential solution for privacy concerns raised by public genomic datasets and as means to provide adequate representation of under-sampled populations. However, existing methods for generating AGs provide a very limited capability for faithfully capturing features of different sub-populations within a larger cohort. In this study, we propose a novel method called the Genome Auxiliary Classifier Generative Adversarial Network (Genome-AC-GAN), which generates AGs tailored to specific sub-populations. We conducted experiments to evaluate the performance of the Genome-AC-GAN and compare the AGs it generates with real genomic data as well as with AGs generated by previously published methods. The Genome-AC-GAN outperforms other methods and faithfully models population structure, which is not adequately captured by existing methods. We also demonstrate the use of AGs generated by the Genome-AC-GAN in augmentation of datasets used as training sets for classifying genomes into populations. These experiments demonstrate the benefits of AGs in enhancing classification accuracy, especially when dealing with under-sampled and closely related populations.
0
Citation1
0
Save
0

Deep genetic substructure within bonobos

Sojung Han et al.Jul 1, 2024
+8
G
C
S
Establishing the genetic and geographic structure of populations is fundamental both to understand their evolutionary past and preserve their future, especially for endangered species. Nevertheless, the patterns of genetic population structure are unknown for most endangered species, including some of our closest living relatives. This is the case of bonobos (Pan paniscus) which together with chimpanzees (Pan troglodytes) are humans' closest living relatives. Chimpanzees live across equatorial Africa and are classified into four subspecies (Groves, 2001), with some genetic population substructure even within subspecies. Conversely, bonobos live exclusively in the Democratic Republic of Congo and are considered a homogeneous group with low genetic diversity (Fischer et al. 2011) despite some population structure inferred from mtDNA. Nevertheless, mtDNA aside, their genetic structure remains unknown, hampering our understanding of the species and conservation efforts. Placing bonobos' genetics in space is however challenging because, being endangered, only non-invasive sampling is possible for wild individuals. Here, we jointly analyse the exomes and mtDNA from 20 wild-born bonobos, the whole-genomes of 10 captive bonobos and the mtDNA of 61 wild individuals. We identify three genetically distinct bonobo groups of inferred Central, Western and Far-Western geographic origin within the bonobo range. We estimate the split time between the central and western populations to ~145,000 years ago, and genetic differentiation to be in the order of that of the closest chimpanzee subspecies. We identify putative signatures of differential genetic adaptation among populations for genes associated with homeostasis, metabolism and the nervous system. Furthermore, our estimated long-term Ne for Far-West (~3,000) is among the lowest estimated for any great ape lineage. Our results highlight the need of attention to bonobo substructure, both in terms of research and conservation.
0

A community-maintained standard library of population genetic models

Jeffrey Adrion et al.Dec 21, 2019
+26
N
C
J
The explosion in population genomic data demands ever more complex modes of analysis, and increasingly these analyses depend on sophisticated simulations. Recent advances in population genetic simulation have made it possible to simulate large and complex models, but specifying such models for a particular simulation engine remains a difficult and error-prone task. Computational genetics researchers currently re-implement simulation models independently, leading to duplication of effort and the possibility for error. Population genetics, as a field, also lacks standard benchmarks by which new tools for inference might be measured. Here we describe a new resource, stdpopsim, that attempts to rectify this situation. Stdpopsim is a community-driven open source project, which provides easy access to a standard catalog of published simulation models from a wide range of organisms and supports multiple simulation engine backends. We share some examples demonstrating how stdpopsim can be used to systematically compare demographic inference methods, and we encourage an even broader community of developers to contribute to this growing resource.
0

Genomic islands of differentiation in a rapid avian radiation have been driven by recent selective sweeps

Hussein Hejase et al.Mar 8, 2020
+4
L
A
H
Numerous studies of emerging species have identified genomic "islands" of elevated differentiation against a background of relative homogeneity. The causes of these islands remain unclear, however, with some signs pointing toward "speciation genes" that locally restrict gene flow and others suggesting selective sweeps that have occurred within nascent species after speciation. Here, we examine this question through the lens of recently obtained genome sequence data for five species of southern capuchino seedeaters, finch-like birds from South America that have undergone a species radiation during the last ~50,000 generations. By applying newly developed statistical methods for ancestral recombination graph inference and machine-learning methods for the prediction of selective sweeps, we show that the striking islands of differentiation in these birds appear to be generally associated with relatively recent, species-specific selective sweeps, most of which are predicted to be "soft" sweeps acting on standing genetic variation. Many of these sweeps coincide with genes associated with melanin-based variation in plumage, suggesting a prominent role for sexual selection. At the same time, a few loci also exhibit indications of possible selection against gene flow. These observations shed new light on the complex manner in which natural selection shapes genome sequences during speciation.
0

Probabilities of Fitness Consequences for Point Mutations Across the Human Genome

Brad Gulko et al.Jul 2, 2014
A
M
I
B
We describe a novel computational method for estimating the probability that a point mutation at each position in a genome will influence fitness. These fitness consequence (fitCons) scores serve as evolution-based measures of potential genomic function. Our approach is to cluster genomic positions into groups exhibiting distinct "fingerprints" based on high-throughput functional genomic data, then to estimate a probability of fitness consequences for each group from associated patterns of genetic polymorphism and divergence. We have generated fitCons scores for three human cell types based on public data from ENCODE. Compared with conventional conservation scores, fitCons scores show considerably improved prediction power for cis-regulatory elements. In addition, fitCons scores indicate that 4.2-7.5% of nucleotides in the human genome have influenced fitness since the human-chimpanzee divergence, and, in contrast to several recent studies, they suggest that recent evolutionary turnover has had alimited impact on the functional content of the genome.