RH
Robert Harris
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
26
(54% Open Access)
Cited by:
6,236
h-index:
46
/
i10-index:
149
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
13

Towards complete and error-free genome assemblies of all vertebrate species

Arang Rhie et al.Apr 28, 2021
Abstract High-quality and complete reference genome assemblies are fundamental for the application of genomics to biology, disease, and biodiversity conservation. However, such assemblies are available for only a few non-microbial species 1–4 . To address this issue, the international Genome 10K (G10K) consortium 5,6 has worked over a five-year period to evaluate and develop cost-effective methods for assembling highly accurate and nearly complete reference genomes. Here we present lessons learned from generating assemblies for 16 species that represent six major vertebrate lineages. We confirm that long-read sequencing technologies are essential for maximizing genome quality, and that unresolved complex repeats and haplotype heterozygosity are major sources of assembly error when not handled correctly. Our assemblies correct substantial errors, add missing sequence in some of the best historical reference genomes, and reveal biological discoveries. These include the identification of many false gene duplications, increases in gene sizes, chromosome rearrangements that are specific to lineages, a repeated independent chromosome breakpoint in bat genomes, and a canonical GC-rich pattern in protein-coding genes and their regulatory regions. Adopting these lessons, we have embarked on the Vertebrate Genomes Project (VGP), an international effort to generate high-quality, complete reference genomes for all of the roughly 70,000 extant vertebrate species and to help to enable a new era of discovery across the life sciences.
13
Citation1,568
0
Save
0

Genome analysis of the platypus reveals unique signatures of evolution

Wesley Warren et al.May 1, 2008
We present a draft genome sequence of the platypus, Ornithorhynchus anatinus. This monotreme exhibits a fascinating combination of reptilian and mammalian characters. For example, platypuses have a coat of fur adapted to an aquatic lifestyle; platypus females lactate, yet lay eggs; and males are equipped with venom similar to that of reptiles. Analysis of the first monotreme genome aligned these features with genetic innovations. We find that reptile and platypus venom proteins have been co-opted independently from the same gene families; milk protein genes are conserved despite platypuses laying eggs; and immune gene family expansions are directly related to platypus biology. Expansions of protein, non-protein-coding RNA and microRNA families, as well as repeat elements, are identified. Sequencing of this genome now provides a valuable resource for deep mammalian comparative analyses, as well as for monotreme biology and conservation. The duck-billed platypus (Ornithorhynchus anatinus) is a unique egg-laying mammal, with lactation, venom and a bill. It even has an electro­sensory system for foraging underwater. Platypuses are monotremes descended from the most basal branch of the mammalian lineage and combine aspects of both reptilian and mammalian biology. Now an international consortium reports the sequence and analysis of the platypus genome. It is an amalgam of reptilian, mammalian and its own unique characteristics that provides clues to the function and evolution of all mammalian genomes. As well as helping uncover the origins of genomic imprinting, analyses show that platypus and reptile venom proteins have been co-opted independently from the same gene families; milk protein genes are conserved; and immune gene family expansions are directly related to platypus biology. The sequence provides an invaluable resource for comparative genomics, and it will be important for monotreme conservation. The cover image shows the bill with electro­sensory pits, eye and ear opening behind the eye. Platypuses are monotremes and combine aspects of both reptilian and mammalian behaviour. An international consortium reports the genome sequence and analysis of Ornithorhynchus anatinus and as expected, parts of the genome look more like mammals, whereas other parts more like reptiles or even chickens.
0
Citation703
0
Save
0

Comparative and demographic analysis of orang-utan genomes

Devin Locke et al.Jan 25, 2011
The genome of the Southeast Asian great ape or orang-utan has been sequenced — specifically a draft assembly of a Sumatran female individual and short-read sequence data from five further Sumatran and five Bornean orang-utan, Pongo abelii and Pongo pygmaeus, respectively. Orang-utan species appear to have split around 400,000 years ago, more recent than most previous estimates suggested, resulting in an average Bornean–Sumatran nucleotide identity of 99.68%. Structural evolution of the orang-utan genome seems to have proceeded much more slowly than that of other great apes, including chimpanzees and humans. With both orang-utan species on the endangered list, the authors hope that knowledge of the genome sequence and its variation between populations will provide a valuable resource for conservationists. The genome of the southeast Asian orang-utan has been sequenced. The draft assembly of a Sumatran individual alongside sequence data from five Sumatran and five Bornean orang-utan genomes is presented. The resources and analyses described offer new opportunities in evolutionary genomics, insights into hominid biology, and an extensive database of variation for conservation efforts. ‘Orang-utan’ is derived from a Malay term meaning ‘man of the forest’ and aptly describes the southeast Asian great apes native to Sumatra and Borneo. The orang-utan species, Pongo abelii (Sumatran) and Pongo pygmaeus (Bornean), are the most phylogenetically distant great apes from humans, thereby providing an informative perspective on hominid evolution. Here we present a Sumatran orang-utan draft genome assembly and short read sequence data from five Sumatran and five Bornean orang-utan genomes. Our analyses reveal that, compared to other primates, the orang-utan genome has many unique features. Structural evolution of the orang-utan genome has proceeded much more slowly than other great apes, evidenced by fewer rearrangements, less segmental duplication, a lower rate of gene family turnover and surprisingly quiescent Alu repeats, which have played a major role in restructuring other primate genomes. We also describe a primate polymorphic neocentromere, found in both Pongo species, emphasizing the gradual evolution of orang-utan genome structure. Orang-utans have extremely low energy usage for a eutherian mammal1, far lower than their hominid relatives. Adding their genome to the repertoire of sequenced primates illuminates new signals of positive selection in several pathways including glycolipid metabolism. From the population perspective, both Pongo species are deeply diverse; however, Sumatran individuals possess greater diversity than their Bornean counterparts, and more species-specific variation. Our estimate of Bornean/Sumatran speciation time, 400,000 years ago, is more recent than most previous studies and underscores the complexity of the orang-utan speciation process. Despite a smaller modern census population size, the Sumatran effective population size (Ne) expanded exponentially relative to the ancestral Ne after the split, while Bornean Ne declined over the same period. Overall, the resources and analyses presented here offer new opportunities in evolutionary genomics, insights into hominid biology, and an extensive database of variation for conservation efforts.
0
Citation602
0
Save
0

Integrative annotation of chromatin elements from ENCODE data

Michael Hoffman et al.Dec 5, 2012
The ENCODE Project has generated a wealth of experimental information mapping diverse chromatin properties in several human cell lines. Although each such data track is independently informative toward the annotation of regulatory elements, their interrelations contain much richer information for the systematic annotation of regulatory elements. To uncover these interrelations and to generate an interpretable summary of the massive datasets of the ENCODE Project, we apply unsupervised learning methodologies, converting dozens of chromatin datasets into discrete annotation maps of regulatory regions and other chromatin elements across the human genome. These methods rediscover and summarize diverse aspects of chromatin architecture, elucidate the interplay between chromatin activity and RNA transcription, and reveal that a large proportion of the genome lies in a quiescent state, even across multiple cell types. The resulting annotation of non-coding regulatory elements correlate strongly with mammalian evolutionary constraint, and provide an unbiased approach for evaluating metrics of evolutionary constraint in human. Lastly, we use the regulatory annotations to revisit previously uncharacterized disease-associated loci, resulting in focused, testable hypotheses through the lens of the chromatin landscape.
0
Citation565
0
Save
0

Complete Khoisan and Bantu genomes from southern Africa

Stephan Schuster et al.Feb 1, 2010
The complete genome sequences of an indigenous hunter-gatherer from Namibia's Kalahari Desert and of a Bantu from South Africa are presented in this issue, together with protein-coding regions from three other hunter-gatherer groups from the Kalahari. Analysis of genetic variance in what is probably the oldest known modern human lineage will contribute to understanding human diversity, and facilitate the inclusion of southern Africans in medical genomics research projects. Initial observations from the data include the fact that the Bushmen seem more different from each other, in terms of nucleotide substitutions, than typical Asians and Europeans. More speculatively, variants between these genomes and the existing data sets may point to genetic adaptations for an agricultural lifestyle. Until now, fully sequenced human genomes of the indigenous hunter-gatherer peoples of southern Africa have been limited to recently diverged populations. The complete genome sequences of an indigenous hunter-gatherer from the Kalahari Desert and of a Bantu from southern Africa are now presented. The extent of whole-genome and exome diversity is characterized; the observed genomic differences may help to pinpoint genetic adaptations to an agricultural lifestyle. The genetic structure of the indigenous hunter-gatherer peoples of southern Africa, the oldest known lineage of modern human, is important for understanding human diversity. Studies based on mitochondrial1 and small sets of nuclear markers2 have shown that these hunter-gatherers, known as Khoisan, San, or Bushmen, are genetically divergent from other humans1,3. However, until now, fully sequenced human genomes have been limited to recently diverged populations4,5,6,7,8. Here we present the complete genome sequences of an indigenous hunter-gatherer from the Kalahari Desert and a Bantu from southern Africa, as well as protein-coding regions from an additional three hunter-gatherers from disparate regions of the Kalahari. We characterize the extent of whole-genome and exome diversity among the five men, reporting 1.3 million novel DNA differences genome-wide, including 13,146 novel amino acid variants. In terms of nucleotide substitutions, the Bushmen seem to be, on average, more different from each other than, for example, a European and an Asian. Observed genomic differences between the hunter-gatherers and others may help to pinpoint genetic adaptations to an agricultural lifestyle. Adding the described variants to current databases will facilitate inclusion of southern Africans in medical research efforts, particularly when family and medical histories can be correlated with genome-wide data.
0
Citation493
0
Save
0

Progressive Cactus is a multiple-genome aligner for the thousand-genome era

Joel Armstrong et al.Nov 11, 2020
Abstract New genome assemblies have been arriving at a rapidly increasing pace, thanks to decreases in sequencing costs and improvements in third-generation sequencing technologies 1–3 . For example, the number of vertebrate genome assemblies currently in the NCBI (National Center for Biotechnology Information) database 4 increased by more than 50% to 1,485 assemblies in the year from July 2018 to July 2019. In addition to this influx of assemblies from different species, new human de novo assemblies 5 are being produced, which enable the analysis of not only small polymorphisms, but also complex, large-scale structural differences between human individuals and haplotypes. This coming era and its unprecedented amount of data offer the opportunity to uncover many insights into genome evolution but also present challenges in how to adapt current analysis methods to meet the increased scale. Cactus 6 , a reference-free multiple genome alignment program, has been shown to be highly accurate, but the existing implementation scales poorly with increasing numbers of genomes, and struggles in regions of highly duplicated sequences. Here we describe progressive extensions to Cactus to create Progressive Cactus, which enables the reference-free alignment of tens to thousands of large vertebrate genomes while maintaining high alignment quality. We describe results from an alignment of more than 600 amniote genomes, which is to our knowledge the largest multiple vertebrate genome alignment created so far.
0
Citation351
0
Save
0

The complete sequence and comparative analysis of ape sex chromosomes

Kateryna Makova et al.May 29, 2024
Abstract Apes possess two sex chromosomes—the male-specific Y chromosome and the X chromosome, which is present in both males and females. The Y chromosome is crucial for male reproduction, with deletions being linked to infertility 1 . The X chromosome is vital for reproduction and cognition 2 . Variation in mating patterns and brain function among apes suggests corresponding differences in their sex chromosomes. However, owing to their repetitive nature and incomplete reference assemblies, ape sex chromosomes have been challenging to study. Here, using the methodology developed for the telomere-to-telomere (T2T) human genome, we produced gapless assemblies of the X and Y chromosomes for five great apes (bonobo ( Pan paniscus ), chimpanzee ( Pan troglodytes ), western lowland gorilla ( Gorilla gorilla gorilla ), Bornean orangutan ( Pongo pygmaeus ) and Sumatran orangutan ( Pongo abelii )) and a lesser ape (the siamang gibbon ( Symphalangus syndactylus )), and untangled the intricacies of their evolution. Compared with the X chromosomes, the ape Y chromosomes vary greatly in size and have low alignability and high levels of structural rearrangements—owing to the accumulation of lineage-specific ampliconic regions, palindromes, transposable elements and satellites. Many Y chromosome genes expand in multi-copy families and some evolve under purifying selection. Thus, the Y chromosome exhibits dynamic evolution, whereas the X chromosome is more stable. Mapping short-read sequencing data to these assemblies revealed diversity and selection patterns on sex chromosomes of more than 100 individual great apes. These reference assemblies are expected to inform human evolution and conservation genetics of non-human apes, all of which are endangered species.
0
Citation15
0
Save
Load More