AH
Asger Hobolth
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
20
(55% Open Access)
Cited by:
3,597
h-index:
41
/
i10-index:
73
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Great ape genetic diversity and population history

Javier Prado-Martinez et al.Jul 1, 2013
High-coverage sequencing of 79 (wild and captive) individuals representing all six non-human great ape species has identified over 88 million single nucleotide polymorphisms providing insight into ape genetic variation and evolutionary history and enabling comparison with human genetic diversity. In an effort to provide insights into great ape genetic variation, the authors sequence 79 wild- and captive-born individuals from across all six great ape species and seven subspecies. Their data and analyses shed light on population structure and gene flow, inbreeding, inferred dynamics of effective population sizes and the differences in the rate of gene loss among the great apes. This new catalogue of great ape genome diversity provides a valuable resource for evolutionary and conservation studies. Most great ape genetic variation remains uncharacterized1,2; however, its study is critical for understanding population history3,4,5,6, recombination7, selection8 and susceptibility to disease9,10. Here we sequence to high coverage a total of 79 wild- and captive-born individuals representing all six great ape species and seven subspecies and report 88.8 million single nucleotide polymorphisms. Our analysis provides support for genetically distinct populations within each species, signals of gene flow, and the split of common chimpanzees into two distinct groups: Nigeria–Cameroon/western and central/eastern populations. We find extensive inbreeding in almost all wild populations, with eastern gorillas being the most extreme. Inferred effective population sizes have varied radically over time in different lineages and this appears to have a profound effect on the genetic diversity at, or close to, genes in almost all species. We discover and assign 1,982 loss-of-function variants throughout the human and great ape lineages, determining that the rate of gene loss has not been different in the human branch compared to other internal branches in the great ape phylogeny. This comprehensive catalogue of great ape genome diversity provides a framework for understanding evolution and a resource for more effective management of wild and captive great ape populations.
0
Citation882
0
Save
0

Insights into hominid evolution from the gorilla genome sequence

Aylwyn Scally et al.Mar 1, 2012
Gorillas are humans’ closest living relatives after chimpanzees, and are of comparable importance for the study of human origins and evolution. Here we present the assembly and analysis of a genome sequence for the western lowland gorilla, and compare the whole genomes of all extant great ape genera. We propose a synthesis of genetic and fossil evidence consistent with placing the human–chimpanzee and human–chimpanzee–gorilla speciation events at approximately 6 and 10 million years ago. In 30% of the genome, gorilla is closer to human or chimpanzee than the latter are to each other; this is rarer around coding genes, indicating pervasive selection throughout great ape evolution, and has functional consequences in gene expression. A comparison of protein coding genes reveals approximately 500 genes showing accelerated evolution on each of the gorilla, human and chimpanzee lineages, and evidence for parallel acceleration, particularly of genes involved in hearing. We also compare the western and eastern gorilla species, estimating an average sequence divergence time 1.75 million years ago, but with evidence for more recent genetic exchange and a population bottleneck in the eastern species. The use of the genome sequence in these and future analyses will promote a deeper understanding of great ape biology and evolution. The genome of a western lowland gorilla has been sequenced and analysed, completing the genome sequences of all great ape genera, and providing evidence for parallel accelerated evolution in chimpanzee, gorilla and human lineages at a number of loci. The genome of the gorilla has been sequenced, making it possible to compare the DNA of the four surviving hominid genera: human, chimpanzee, gorilla and orang-utan. The data — mainly from a female western lowland gorilla named Kamilah, but also from other gorillas representing both the western lowland and eastern lowland sub-species — imply that in almost one-third of its genome, the gorilla is closer to the human or chimpanzee than the human and chimp are to each other. Around 500 genes show accelerated evolution in gorilla, human and chimpanzee lineages, and there is evidence for parallel acceleration, particularly in genes associated with hearing. On the basis of genetic and fossil evidence, the authors suggest that the human–chimpanzee and human–chimpanzee–gorilla speciation events occurred at around 6 million and 10 million years ago respectively, whereas the two gorilla species diverged around 1.75 million years ago.
0
Citation749
0
Save
0

Comparative and demographic analysis of orang-utan genomes

Devin Locke et al.Jan 25, 2011
The genome of the Southeast Asian great ape or orang-utan has been sequenced — specifically a draft assembly of a Sumatran female individual and short-read sequence data from five further Sumatran and five Bornean orang-utan, Pongo abelii and Pongo pygmaeus, respectively. Orang-utan species appear to have split around 400,000 years ago, more recent than most previous estimates suggested, resulting in an average Bornean–Sumatran nucleotide identity of 99.68%. Structural evolution of the orang-utan genome seems to have proceeded much more slowly than that of other great apes, including chimpanzees and humans. With both orang-utan species on the endangered list, the authors hope that knowledge of the genome sequence and its variation between populations will provide a valuable resource for conservationists. The genome of the southeast Asian orang-utan has been sequenced. The draft assembly of a Sumatran individual alongside sequence data from five Sumatran and five Bornean orang-utan genomes is presented. The resources and analyses described offer new opportunities in evolutionary genomics, insights into hominid biology, and an extensive database of variation for conservation efforts. ‘Orang-utan’ is derived from a Malay term meaning ‘man of the forest’ and aptly describes the southeast Asian great apes native to Sumatra and Borneo. The orang-utan species, Pongo abelii (Sumatran) and Pongo pygmaeus (Bornean), are the most phylogenetically distant great apes from humans, thereby providing an informative perspective on hominid evolution. Here we present a Sumatran orang-utan draft genome assembly and short read sequence data from five Sumatran and five Bornean orang-utan genomes. Our analyses reveal that, compared to other primates, the orang-utan genome has many unique features. Structural evolution of the orang-utan genome has proceeded much more slowly than other great apes, evidenced by fewer rearrangements, less segmental duplication, a lower rate of gene family turnover and surprisingly quiescent Alu repeats, which have played a major role in restructuring other primate genomes. We also describe a primate polymorphic neocentromere, found in both Pongo species, emphasizing the gradual evolution of orang-utan genome structure. Orang-utans have extremely low energy usage for a eutherian mammal1, far lower than their hominid relatives. Adding their genome to the repertoire of sequenced primates illuminates new signals of positive selection in several pathways including glycolipid metabolism. From the population perspective, both Pongo species are deeply diverse; however, Sumatran individuals possess greater diversity than their Bornean counterparts, and more species-specific variation. Our estimate of Bornean/Sumatran speciation time, 400,000 years ago, is more recent than most previous studies and underscores the complexity of the orang-utan speciation process. Despite a smaller modern census population size, the Sumatran effective population size (Ne) expanded exponentially relative to the ancestral Ne after the split, while Bornean Ne declined over the same period. Overall, the resources and analyses presented here offer new opportunities in evolutionary genomics, insights into hominid biology, and an extensive database of variation for conservation efforts.
0
Citation602
0
Save
0

The bonobo genome compared with the chimpanzee and human genomes

Kay Prüfer et al.Jun 1, 2012
Sequencing of the bonobo genome shows that more than three per cent of the human genome is more closely related to either the bonobo genome or the chimpanzee genome than those genomes are to each other. The chimpanzee and the bonobo are our species' two closest living relatives. This paper reports the genome sequence of the bonobo, the last ape to be sequenced. Comparative genomic analyses reveal that more than 3% of the human genome is more closely related to either the bonobo or the chimpanzee genome than these are to each other. The results shed light on the ancestry of the two ape species and might eventually help us to understand the genetic basis of phenotypes that humans share with one or the other ape species. Two African apes are the closest living relatives of humans: the chimpanzee (Pan troglodytes) and the bonobo (Pan paniscus). Although they are similar in many respects, bonobos and chimpanzees differ strikingly in key social and sexual behaviours1,2,3,4, and for some of these traits they show more similarity with humans than with each other. Here we report the sequencing and assembly of the bonobo genome to study its evolutionary relationship with the chimpanzee and human genomes. We find that more than three per cent of the human genome is more closely related to either the bonobo or the chimpanzee genome than these are to each other. These regions allow various aspects of the ancestry of the two ape species to be reconstructed. In addition, many of the regions that overlap genes may eventually help us understand the genetic basis of phenotypes that humans share with one of the two apes to the exclusion of the other.
0
Citation537
0
Save
0

Analyses of non-coding somatic drivers in 2,658 cancer whole genomes

Michael Stratton et al.Feb 5, 2020
Abstract The discovery of drivers of cancer has traditionally focused on protein-coding genes 1–4 . Here we present analyses of driver point mutations and structural variants in non-coding regions across 2,658 genomes from the Pan-Cancer Analysis of Whole Genomes (PCAWG) Consortium 5 of the International Cancer Genome Consortium (ICGC) and The Cancer Genome Atlas (TCGA). For point mutations, we developed a statistically rigorous strategy for combining significance levels from multiple methods of driver discovery that overcomes the limitations of individual methods. For structural variants, we present two methods of driver discovery, and identify regions that are significantly affected by recurrent breakpoints and recurrent somatic juxtapositions. Our analyses confirm previously reported drivers 6,7 , raise doubts about others and identify novel candidates, including point mutations in the 5′ region of TP53 , in the 3′ untranslated regions of NFKBIZ and TOB1 , focal deletions in BRD4 and rearrangements in the loci of AKR1C genes. We show that although point mutations and structural variants that drive cancer are less frequent in non-coding genes and regulatory sequences than in protein-coding genes, additional examples of these drivers will be found as more cancer genomes become available.
0
Citation484
0
Save
0

Genomic Relationships and Speciation Times of Human, Chimpanzee, and Gorilla Inferred from a Coalescent Hidden Markov Model

Asger Hobolth et al.Feb 20, 2007
The genealogical relationship of human, chimpanzee, and gorilla varies along the genome. We develop a hidden Markov model (HMM) that incorporates this variation and relate the model parameters to population genetics quantities such as speciation times and ancestral population sizes. Our HMM is an analytically tractable approximation to the coalescent process with recombination, and in simulations we see no apparent bias in the HMM estimates. We apply the HMM to four autosomal contiguous human-chimp-gorilla-orangutan alignments comprising a total of 1.9 million base pairs. We find a very recent speciation time of human-chimp (4.1 +/- 0.4 million years), and fairly large ancestral effective population sizes (65,000 +/- 30,000 for the human-chimp ancestor and 45,000 +/- 10,000 for the human-chimp-gorilla ancestor). Furthermore, around 50% of the human genome coalesces with chimpanzee after speciation with gorilla. We also consider 250,000 base pairs of X-chromosome alignments and find an effective population size much smaller than 75% of the autosomal effective population sizes. Finally, we find that the rate of transitions between different genealogies correlates well with the region-wide present-day human recombination rate, but does not correlate with the fine-scale recombination rates and recombination hot spots, suggesting that the latter are evolutionarily transient.
0
Citation338
0
Save
6

PhaseTypeR: phase-type distributions in R with reward transformations and a view towards population genetics

Iker Rivas-González et al.Jun 17, 2022
Abstract Phase-type distributions are a general class of models that are traditionally used in actuarial sciences and queuing theory, and more recently in population genetics. A phase-type distributed random variable is the time to absorption in a discrete or continuous time Markov chain on a finite state space with an absorbing state. The R package PhaseTypeR contains all the key functions—mean, (co)variance, probability density function, cumulative distribution function, quantile function, random sampling and reward transformations—for both continuous (PH) and discrete (DPH) phase-type distributions. Additionally, we have also implemented the multivariate continuous case (MPH) and the multivariate discrete case (MDPH). We illustrate the usage of PhaseTypeR in simple examples from population genetics (e.g. the time until the most recent common ancestor or the total number of mutations in an alignment of homologous DNA sequences), and we demonstrate the power of PhaseTypeR in more involved applications from population genetics, such as the coalescent with recombination and the structured coalescent. The multivariate distributions and ability to reward-transform are particularly important in population genetics, and a unique feature of PhaseTypeR .
6
Citation2
0
Save
51

Studying models of balancing selection using phase-type theory

Kai Zeng et al.Jul 7, 2020
ABSTRACT Balancing selection (BLS) is the evolutionary force that maintains high levels of genetic variability in many important genes. To further our understanding of its evolutionary significance, we analyse models with BLS acting on a biallelic locus: an equilibrium model with long-term BLS, a model with long-term BLS and recent changes in population size, and a model of recent BLS. Using phase-type theory, a mathematical tool for analysing continuous time Markov chains with an absorbing state, we examine how BLS affects polymorphism patterns in linked neutral regions, as summarised by nucleotide diversity, the expected number of segregating sites, the site frequency spectrum, and the level of linkage disequilibrium (LD). Long-term BLS affects polymorphism patterns in a relatively small genomic neighbourhood, and such selection targets are easier to detect when the equilibrium frequencies of the selected variants are close to 50%, or when there has been a population size reduction. For a new mutation subject to BLS, its initial increase in frequency in the population causes linked neutral regions to have reduced diversity, an excess of both high and low frequency derived variants, and elevated LD with the selected locus. These patterns are similar to those produced by selective sweeps, but the effects of recent BLS are weaker. Nonetheless, compared to selective sweeps, non-equilibrium polymorphism and LD patterns persist for a much longer period under recent BLS, which may increase the chance of detecting such selection targets. An R package for analysing these models, among others (e.g., isolation with migration), is available.
51
Citation2
0
Save
5

Graph-based algorithms for phase-type distributions

Tobias Røikjer et al.Mar 14, 2022
Abstract Phase-type distributions model the time until absorption in continuous or discrete-time Markov chains on a finite state space. The multivariate phase-type distributions have diverse and important applications by modeling rewards accumulated at visited states. However, even moderately sized state spaces make the traditional matrix-based equations computationally infeasible. State spaces of phase-type distributions are often large but sparse, with only a few transitions from a state. This sparseness makes a graph-based representation of the phase-type distribution more natural and efficient than the traditional matrix-based representation. In this paper, we develop graph-based algorithms for analyzing phase-type distributions. In addition to algorithms for state space construction, reward transformation, and moments calculation, we give algorithms for the marginal distribution functions of multivariate phase-type distributions and for the state probability vector of the underlying Markov chains of both time-homogeneous and time-inhomogeneous phase-type distributions. The algorithms are available as a numerically stable and memory-efficient open source software package written in C named ptdalgorithms . This library exposes all methods in the programming languages C and R . We compare the running time of ptdalgorithms to the fastest tools using a traditional matrix-based formulation. This comparison includes the computation of the probability distribution, which is usually computed by exponentiation of the sub-intensity or sub-transition matrix. We also compare time spent calculating the moments of (multivariate) phase-type distributions usually defined by inversion of the same matrices. The numerical results of our graph-based and traditional matrix-based methods are identical, and our graph-based algorithms are often orders of magnitudes faster. Finally, we demonstrate with a classic problem from population genetics how ptdalgorithms serves as a much faster, simpler, and completely general modeling alternative.
5
Paper
Citation1
0
Save
0

Estimating gene conversion tract length and rate from PacBio HiFi data

Anders Charmouh et al.Jul 6, 2024
Gene conversions are broadly defined as the transfer of genetic material from a 'donor' to an 'acceptor' sequence and can happen both in meiosis and mitosis. They are a subset of non-crossover events and like crossover events, gene conversion can generate new combinations of alleles, erode linkage disequilibrium, and even counteract the mutation load by reverting germline mutations through GC-biased gene conversion. Estimating the rate of gene conversion and the distribution of gene conversion tract lengths remains challenging. Here, we present a new method for estimating tract length, rate and detection probability of non-crossover events directly in HiFi PacBio long read data. The method can be applied with data from a single individual, is unbiased even under low single nucleotide variant densities and does not necessitate any demographic or evolutionary assumptions. We apply the method to gene conversion events observed directly in Pacbio HiFI read data from a human sperm sample and find that human gene conversion tracts are shorter (mean of 50 base pairs) than estimates from yeast or Drosophila. We also estimate that typical human male gametes undergo on average 280 non-crossover events where approximately 7 are expected to become visible as gene conversions moving variants from one donor haplotype to an acceptor haplotype.
Load More