YS
Yun Song
Author with expertise in Population Genetic Structure and Dynamics
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
62
(61% Open Access)
Cited by:
4,025
h-index:
51
/
i10-index:
130
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Simons Genome Diversity Project: 300 genomes from 142 diverse populations

Swapan Mallick et al.Sep 20, 2016
Here we report the Simons Genome Diversity Project data set: high quality genomes from 300 individuals from 142 diverse populations. These genomes include at least 5.8 million base pairs that are not present in the human reference genome. Our analysis reveals key features of the landscape of human genome variation, including that the rate of accumulation of mutations has accelerated by about 5% in non-Africans compared to Africans since divergence. We show that the ancestors of some pairs of present-day human populations were substantially separated by 100,000 years ago, well before the archaeologically attested onset of behavioural modernity. We also demonstrate that indigenous Australians, New Guineans and Andamanese do not derive substantial ancestry from an early dispersal of modern humans; instead, their modern human ancestry is consistent with coming from the same source as that of other non-Africans. Deep whole-genome sequencing of 300 individuals from 142 diverse populations provides insights into key population genetic parameters, shows that all modern human ancestry outside of Africa including in Australasians is consistent with descending from a single founding population, and suggests a higher rate of accumulation of mutations in non-Africans compared to Africans since divergence. Three international collaborations reporting in this issue of Nature describe 787 high-quality genomes from individuals from geographically diverse populations. David Reich and colleagues analysed whole-genome sequences of 300 individuals from 142 populations. Their findings include an accelerated estimated rate of accumulation of mutations in non-Africans compared to Africans since divergence, and that indigenous Australians, New Guineans and Andamanese do not derive substantial ancestry from an early dispersal of modern humans but from the same source as that of other non-Africans. Eske Willerlsev and colleagues obtained whole-genome data for 83 Aboriginal Australians and 25 Papuans from the New Guinea Highlands. They estimate that Aboriginal Australians and Papuans diverged from Eurasian populations 51,000–72,000 years ago, following a single out-of-Africa dispersal. Luca Pagani et al. report on a dataset of 483 high-coverage human genomes from 148 populations worldwide, including 379 new genomes from 125 populations. Their analyses support the model by which all non-African populations derive most of their genetic ancestry from a single recent migration out of Africa, although a Papuan contribution suggests a trace of an earlier human expansion.
0
Citation1,413
0
Save
0

Robust and scalable inference of population history from hundreds of unphased whole genomes

Jonathan Terhorst et al.Dec 26, 2016
Yun Song and colleagues present SMC++, a statistical method for population history inference capable of analyzing unphased whole genomes and sample sizes much larger than can be analyzed by current methods. The authors apply SMC++ to sequence data from human, Drosophila and finch populations. It has recently been demonstrated that inference methods based on genealogical processes with recombination can uncover past population history in unprecedented detail. However, these methods scale poorly with sample size, limiting resolution in the recent past, and they require phased genomes, which contain switch errors that can catastrophically distort the inferred history. Here we present SMC++, a new statistical tool capable of analyzing orders of magnitude more samples than existing methods while requiring only unphased genomes (its results are independent of phasing). SMC++ can jointly infer population size histories and split times in diverged populations, and it employs a novel spline regularization scheme that greatly reduces estimation error. We apply SMC++ to analyze sequence data from over a thousand human genomes in Africa and Eurasia, hundreds of genomes from a Drosophila melanogaster population in Africa, and tens of genomes from zebra finch and long-tailed finch populations in Australia.
0
Citation672
0
Save
0

Genomic Variation in Natural Populations ofDrosophila melanogaster

Charles Langley et al.Jun 7, 2012
This report of independent genome sequences of two natural populations of Drosophila melanogaster (37 from North America and 6 from Africa) provides unique insight into forces shaping genomic polymorphism and divergence. Evidence of interactions between natural selection and genetic linkage is abundant not only in centromere- and telomere-proximal regions, but also throughout the euchromatic arms. Linkage disequilibrium, which decays within 1 kbp, exhibits a strong bias toward coupling of the more frequent alleles and provides a high-resolution map of recombination rate. The juxtaposition of population genetics statistics in small genomic windows with gene structures and chromatin states yields a rich, high-resolution annotation, including the following: (1) 5'- and 3'-UTRs are enriched for regions of reduced polymorphism relative to lineage-specific divergence; (2) exons overlap with windows of excess relative polymorphism; (3) epigenetic marks associated with active transcription initiation sites overlap with regions of reduced relative polymorphism and relatively reduced estimates of the rate of recombination; (4) the rate of adaptive nonsynonymous fixation increases with the rate of crossing over per base pair; and (5) both duplications and deletions are enriched near origins of replication and their density correlates negatively with the rate of crossing over. Available demographic models of X and autosome descent cannot account for the increased divergence on the X and loss of diversity associated with the out-of-Africa migration. Comparison of the variation among these genomes to variation among genomes from D. simulans suggests that many targets of directional selection are shared between these species.
0
Citation353
0
Save
0

Terminal Pleistocene Alaskan genome reveals first founding population of Native Americans

J. Moreno-Mayar et al.Jan 1, 2018
Despite broad agreement that the Americas were initially populated via Beringia, the land bridge that connected far northeast Asia with northwestern North America during the Pleistocene epoch, when and how the peopling of the Americas occurred remains unresolved. Analyses of human remains from Late Pleistocene Alaska are important to resolving the timing and dispersal of these populations. The remains of two infants were recovered at Upward Sun River (USR), and have been dated to around 11.5 thousand years ago (ka). Here, by sequencing the USR1 genome to an average coverage of approximately 17 times, we show that USR1 is most closely related to Native Americans, but falls basal to all previously sequenced contemporary and ancient Native Americans. As such, USR1 represents a distinct Ancient Beringian population. Using demographic modelling, we infer that the Ancient Beringian population and ancestors of other Native Americans descended from a single founding population that initially split from East Asians around 36 ± 1.5 ka, with gene flow persisting until around 25 ± 1.1 ka. Gene flow from ancient north Eurasians into all Native Americans took place 25-20 ka, with Ancient Beringians branching off around 22-18.1 ka. Our findings support a long-term genetic structure in ancestral Native Americans, consistent with the Beringian 'standstill model'. We show that the basal northern and southern Native American branches, to which all other Native Americans belong, diverged around 17.5-14.6 ka, and that this probably occurred south of the North American ice sheets. We also show that after 11.5 ka, some of the northern Native American populations received gene flow from a Siberian population most closely related to Koryaks, but not Palaeo-Eskimos, Inuits or Kets, and that Native American gene flow into Inuits was through northern and not southern Native American groups. Our findings further suggest that the far-northern North American presence of northern Native Americans is from a back migration that replaced or absorbed the initial founding population of Ancient Beringians.
0
Citation342
0
Save
0

Genome-Wide Fine-Scale Recombination Rate Variation in Drosophila melanogaster

Andrew Chan et al.Dec 20, 2012
Estimating fine-scale recombination maps of Drosophila from population genomic data is a challenging problem, in particular because of the high background recombination rate. In this paper, a new computational method is developed to address this challenge. Through an extensive simulation study, it is demonstrated that the method allows more accurate inference, and exhibits greater robustness to the effects of natural selection and noise, compared to a well-used previous method developed for studying fine-scale recombination rate variation in the human genome. As an application, a genome-wide analysis of genetic variation data is performed for two Drosophila melanogaster populations, one from North America (Raleigh, USA) and the other from Africa (Gikongoro, Rwanda). It is shown that fine-scale recombination rate variation is widespread throughout the D. melanogaster genome, across all chromosomes and in both populations. At the fine-scale, a conservative, systematic search for evidence of recombination hotspots suggests the existence of a handful of putative hotspots each with at least a tenfold increase in intensity over the background rate. A wavelet analysis is carried out to compare the estimated recombination maps in the two populations and to quantify the extent to which recombination rates are conserved. In general, similarity is observed at very broad scales, but substantial differences are seen at fine scales. The average recombination rate of the X chromosome appears to be higher than that of the autosomes in both populations, and this pattern is much more pronounced in the African population than the North American population. The correlation between various genomic features—including recombination rates, diversity, divergence, GC content, gene content, and sequence quality—is examined using the wavelet analysis, and it is shown that the most notable difference between D. melanogaster and humans is in the correlation between recombination and diversity.
0
Citation297
0
Save
1

Deep Learning for Population Genetic Inference

Sara Sheehan et al.Mar 28, 2016
Given genomic variation data from multiple individuals, computing the likelihood of complex population genetic models is often infeasible. To circumvent this problem, we introduce a novel likelihood-free inference framework by applying deep learning, a powerful modern technique in machine learning. Deep learning makes use of multilayer neural networks to learn a feature-based function from the input (e.g., hundreds of correlated summary statistics of data) to the output (e.g., population genetic parameters of interest). We demonstrate that deep learning can be effectively employed for population genetic inference and learning informative features of data. As a concrete application, we focus on the challenging problem of jointly inferring natural selection and demography (in the form of a population size change history). Our method is able to separate the global nature of demography from the local nature of selection, without sequential steps for these two factors. Studying demography and selection jointly is motivated by Drosophila, where pervasive selection confounds demographic analysis. We apply our method to 197 African Drosophila melanogaster genomes from Zambia to infer both their overall demography, and regions of their genome under selection. We find many regions of the genome that have experienced hard sweeps, and fewer under selection on standing variation (soft sweep) or balancing selection. Interestingly, we find that soft sweeps and balancing selection occur more frequently closer to the centromere of each chromosome. In addition, our demographic inference suggests that previously estimated bottlenecks for African Drosophila melanogaster are too extreme.
1
Citation255
0
Save
56

Single Layers of Attention Suffice to Predict Protein Contacts

Nicholas Bhattacharya et al.Dec 22, 2020
A bstract The established approach to unsupervised protein contact prediction estimates co-evolving positions using undirected graphical models. This approach trains a Potts model on a Multiple Sequence Alignment, then predicts that the edges with highest weight correspond to contacts in the 3D structure. On the other hand, increasingly large Transformers are being pretrained on protein sequence databases but have demonstrated mixed results for downstream tasks, including contact prediction. This has sparked discussion about the role of scale and attention-based models in unsupervised protein representation learning. We argue that attention is a principled model of protein interactions, grounded in real properties of protein family data. We introduce a simplified attention layer, factored attention , and show that it achieves comparable performance to Potts models, while sharing parameters both within and across families. Further, we extract contacts from the attention maps of a pretrained Transformer and show they perform competitively with the other two approaches. This provides evidence that large-scale pretraining can learn meaningful protein features when presented with unlabeled and unaligned data. We contrast factored attention with the Transformer to indicate that the Transformer leverages hierarchical signal in protein family databases not captured by our single-layer models. This raises the exciting possibility for the development of powerful structured models of protein family databases. 1
46

Longitudinal single-cell epitope and RNA-sequencing reveals the immunological impact of type 1 interferon autoantibodies in critical COVID-19

Monique Wijst et al.Mar 10, 2021
Abstract Type I interferon (IFN-I) neutralizing autoantibodies have been found in some critical COVID-19 patients; however, their prevalence and longitudinal dynamics across the disease severity scale, and functional effects on circulating leukocytes remain unknown. Here, in 284 COVID-19 patients, we found IFN-I autoantibodies in 19% of critical, 6% of severe and none of the moderate cases. Longitudinal profiling of over 600,000 peripheral blood mononuclear cells using multiplexed single-cell epitope and transcriptome sequencing from 54 COVID-19 patients, 15 non-COVID-19 patients and 11 non-hospitalized healthy controls, revealed a lack of IFN-I stimulated gene (ISG-I) response in myeloid cells from critical cases, including those producing anti-IFN-I autoantibodies. Moreover, surface protein analysis showed an inverse correlation of the inhibitory receptor LAIR-1 with ISG-I expression response early in the disease course. This aberrant ISG-I response in critical patients with and without IFN-I autoantibodies, supports a unifying model for disease pathogenesis involving ISG-I suppression via convergent mechanisms.
46
Citation26
0
Save
Load More