RD
Richard Durbin
Author with expertise in RNA Sequencing Data Analysis
Wellcome Sanger Institute, University of Cambridge, University of Edinburgh
+ 8 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
63
(57% Open Access)
Cited by:
50,600
h-index:
138
/
i10-index:
308
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
2

The Sequence Alignment/Map format and SAMtools

Heng Li et al.Oct 24, 2023
+6
A
R
H
The Sequence Alignment/Map (SAM) format is a generic alignment format for storing read alignments against reference sequences, supporting short and long reads (up to 128 Mbp) produced by different sequencing platforms. It is flexible in style, compact in size, efficient in random access and is the format in which alignments from the 1000 Genomes Project are released. SAMtools implements various utilities for post-processing alignments in the SAM format, such as indexing, variant caller and alignment viewer, and thus provides universal tools for processing read alignments.http://samtools.sourceforge.net.
195

The complete sequence of a human genome

Sergey Nurk et al.Apr 1, 2022
+97
A
S
S
Since its initial release in 2000, the human reference genome has covered only the euchromatic fraction of the genome, leaving important heterochromatic regions unfinished. Addressing the remaining 8% of the genome, the Telomere-to-Telomere (T2T) Consortium presents a complete 3.055 billion-base pair sequence of a human genome, T2T-CHM13, that includes gapless assemblies for all chromosomes except Y, corrects errors in the prior references, and introduces nearly 200 million base pairs of sequence containing 1956 gene predictions, 99 of which are predicted to be protein coding. The completed regions include all centromeric satellite arrays, recent segmental duplications, and the short arms of all five acrocentric chromosomes, unlocking these complex regions of the genome to variational and functional studies.
195
Citation1,417
3
Save
370

Population Genomics of Postglacial Western Eurasia

Morten Allentoft et al.Oct 23, 2023
+161
A
M
M
Summary Western Eurasia witnessed several large-scale human migrations during the Holocene 1–5 . To investigate the cross-continental impacts we shotgun-sequenced 317 primarily Mesolithic and Neolithic genomes from across Northern and Western Eurasia. These were imputed alongside published data to obtain diploid genotypes from >1,600 ancient humans. Our analyses revealed a ‘Great Divide’ genomic boundary extending from the Black Sea to the Baltic. Mesolithic hunter-gatherers (HGs) were highly genetically differentiated east and west of this zone, and the impact of the neolithisation was equally disparate. Large-scale ancestry shifts occurred in the west as farming was introduced, including near-total replacements of HGs in many areas, whereas no substantial ancestry shifts happened east of the zone during the same period. Similarly, relatedness decreased in the west from the Neolithic transition onwards, while east of the Urals relatedness remained high until ∼4,000 BP, consistent with persistence of localised HG groups. The boundary dissolved when Yamnaya-related ancestry spread across western Eurasia around 5,000 BP resulting in a second major turnover that reached most parts of Europe within a 1,000-year span. The genetic origin and fate of the Yamnaya have remained elusive but we demonstrate that HGs from the Middle Don region contributed ancestry to them. Yamnaya-groups later admixed with individuals associated with the Globular Amphora Culture before expanding into Europe. Similar turnovers occurred in western Siberia, where we report new genomic data from a ‘Neolithic steppe’ cline spanning the Siberian forest steppe to Lake Baikal. These prehistoric migrations had profound and lasting effects on the genetic diversity of Eurasian populations.
370
Citation28
0
Save
9

False gene and chromosome losses affected by assembly and sequence errors

J. Kim et al.Oct 24, 2023
+16
B
C
J
Abstract Many genome assemblies have been found to be incomplete and contain misassemblies. The Vertebrate Genomes Project (VGP) has been producing assemblies with an emphasis on being as complete and error-free as possible, utilizing long reads, long-range scaffolding data, new assembly algorithms, and manual curation. Here we evaluate these new vertebrate genome assemblies relative to the previous references for the same species, including a mammal (platypus), two birds (zebra finch, Anna’s hummingbird), and a fish (climbing perch). We found that 3 to 11% of genomic sequence was entirely missing in the previous reference assemblies, which included nearly entire GC-rich and repeat-rich microchromosomes with high gene density. Genome-wide, between 25 to 60% of the genes were either completely or partially missing in the previous assemblies, and this was in part due to a bias in GC-rich 5’-proximal promoters and 5’ exon regions. Our findings reveal novel regulatory landscapes and protein coding sequences that have been greatly underestimated in previous assemblies and are now present in the VGP assemblies.
9
Citation19
0
Save
61

Genomics of cold adaptations in the Antarctic notothenioid fish radiation

Iliana Bista et al.Oct 24, 2023
+18
T
J
I
Abstract Numerous novel adaptations characterise the radiation of notothenioids, the dominant fish group in the freezing seas of the Southern Ocean. To improve understanding of the evolution of this iconic fish group, we generated and analysed new genome assemblies for 24 species covering all major subgroups of the radiation. We present a new estimate for the onset of the radiation at 10.7 million years ago, based on a time-calibrated phylogeny derived from genome-wide sequence data. We identify a two-fold variation in genome size, driven by expansion of multiple transposable element families, and use long-read sequencing data to reconstruct two evolutionarily important, highly repetitive gene family loci. First, we present the most complete reconstruction to date of the antifreeze glycoprotein gene family, whose emergence enabled survival in sub-zero temperatures, showing the expansion of the antifreeze gene locus from the ancestral to the derived state. Second, we trace the loss of haemoglobin genes in icefishes, the only vertebrates lacking functional haemoglobins, through complete reconstruction of the two haemoglobin gene clusters across notothenioid families. Finally, we show that both the haemoglobin and antifreeze genomic loci are characterised by multiple transposon expansions that may have driven the evolutionary history of these genes.
61
Paper
Citation14
0
Save
0

100 ancient genomes show repeated population turnovers in Neolithic Denmark

Morten Allentoft et al.Mar 2, 2024
+65
A
M
M
Abstract Major migration events in Holocene Eurasia have been characterized genetically at broad regional scales 1–4 . However, insights into the population dynamics in the contact zones are hampered by a lack of ancient genomic data sampled at high spatiotemporal resolution 5–7 . Here, to address this, we analysed shotgun-sequenced genomes from 100 skeletons spanning 7,300 years of the Mesolithic period, Neolithic period and Early Bronze Age in Denmark and integrated these with proxies for diet ( 13 C and 15 N content), mobility ( 87 Sr/ 86 Sr ratio) and vegetation cover (pollen). We observe that Danish Mesolithic individuals of the Maglemose, Kongemose and Ertebølle cultures form a distinct genetic cluster related to other Western European hunter-gatherers. Despite shifts in material culture they displayed genetic homogeneity from around 10,500 to 5,900 calibrated years before present, when Neolithic farmers with Anatolian-derived ancestry arrived. Although the Neolithic transition was delayed by more than a millennium relative to Central Europe, it was very abrupt and resulted in a population turnover with limited genetic contribution from local hunter-gatherers. The succeeding Neolithic population, associated with the Funnel Beaker culture, persisted for only about 1,000 years before immigrants with eastern Steppe-derived ancestry arrived. This second and equally rapid population replacement gave rise to the Single Grave culture with an ancestry profile more similar to present-day Danes. In our multiproxy dataset, these major demographic events are manifested as parallel shifts in genotype, phenotype, diet and land use.
0
Citation13
1
Save
44

Differential use of multiple genetic sex determination systems in divergent ecomorphs of an African crater lake cichlid

Hannah Munby et al.Oct 24, 2023
+13
B
T
H
Abstract African cichlid fishes not only exhibit remarkably high rates of speciation but also have some of the fastest evolving sex determination systems in vertebrates. However, little is known empirically in cichlids about the genetic mechanisms generating new sex-determining variants, what forces dictate their fate, the demographic scales at which they evolve, and whether they are related to speciation. To address these questions, we looked for sex-associated loci in full genome data from 647 individuals of Astatotilapia calliptera from Lake Masoko, a small isolated crater lake in Tanzania, which contains two distinct ecomorphs of the species. We identified three separate XY systems on recombining chromosomes. Two Y alleles derive from mutations that increase expression of the gonadal soma-derived factor gene ( gsdf ) on chromosome 7; the first is a tandem duplication of the entire gene observed throughout much of the Lake Malawi haplochromine cichlid radiation to which A. calliptera belongs, and the second is a 5 kb insertion directly upstream of gsdf . Both the latter variant and another 700 bp insertion on chromosome 19 responsible for the third Y allele arose from transposable element insertions. Males belonging to the Masoko deep-water benthic ecomorph are determined exclusively by the gsdf duplication, whereas all three Y alleles are used in the Masoko littoral ecomorph, in which they appear to act antagonistically among males with different amounts of benthic admixture. This antagonism in the face of ongoing admixture may be important for sustaining multifactorial sex determination in Lake Masoko. In addition to identifying the molecular basis of three coexisting sex determining alleles, these results demonstrate that genetic interactions between Y alleles and genetic background can potentially affect fitness and adaptive evolution.
44
Paper
Citation13
0
Save
0

trio-sga: facilitating de novo assembly of highly heterozygous genomes with parent-child trios

Milan Malinsky et al.May 7, 2020
R
J
M
Abstract Motivation Most DNA sequence in diploid organisms is found in two copies, one contributed by the mother and the other by the father. The high density of differences between the maternally and paternally contributed sequences (heterozygous sites) in some organisms makes de novo genome assembly very challenging, even for algorithms specifically designed to deal with these cases. Therefore, various approaches, most commonly inbreeding in the laboratory, are used to reduce heterozygosity in genomic data prior to assembly. However, many species are not amenable to these techniques. Results We introduce trio-sga , a set of three algorithms designed to take advantage of mother-father-offspring trio sequencing to facilitate better quality genome assembly in organisms with moderate to high levels of heterozygosity. Two of the algorithms use haplotype phase information present in the trio data to eliminate the majority of heterozygous sites before the assembly commences. The third algorithm is designed to reduce sequencing costs by enabling the use of parents’ reads in the assembly of the genome of the offspring. We test these algorithms on a ‘simulated trio’ from four hap-loid datasets, and further demonstrate their performance by assembling three highly heterozygous Heliconius butterfly genomes. While the implementation of trio-sga is tuned towards Illumina-generated data, we note that the trio approach to reducing heterozygosity is likely to have cross-platform utility for de novo assembly.
63

Complete vertebrate mitogenomes reveal widespread gene duplications and repeats

Giulio Formenti et al.Oct 24, 2023
+37
J
A
G
Abstract Modern sequencing technologies should make the assembly of the relatively small mitochondrial genomes an easy undertaking. However, few tools exist that address mitochondrial assembly directly. As part of the Vertebrate Genomes Project (VGP) we have developed mitoVGP, a fully automated pipeline for similarity-based identification of mitochondrial reads and de novo assembly of mitochondrial genomes that incorporates both long (>10 kbp, PacBio or Nanopore) and short (100-300 bp, Illumina) reads. Our pipeline led to successful complete mitogenome assemblies of 100 vertebrate species of the VGP. We have observed that tissue type and library size selection have considerable impact on mitogenome sequencing and assembly. Comparing our assemblies to purportedly complete reference mitogenomes based on short-read sequencing, we have identified errors, missing sequences, and incomplete genes in those references, particularly in repeat regions. Our assemblies have also identified novel gene region duplications, shedding new light on mitochondrial genome evolution and organization.
0

Fast and scalable genome-wide inference of local tree topologies from large number of haplotypes based on tree consistent PBWT data structure

Vladimir Shchur et al.May 7, 2020
R
L
V
Estimation of the relationship between DNA sequences is one of the most important problems in genomics. Understanding these relationships is central to demographic inference, correction of population structure in GWAS, identifying signals of selection etc. The data structure containing the full information about sample genealogy is called the ancestral recombination graph (ARG). However, ARG inference is a very difficult problem, not least due to a very complex state space. In this work we describe a new approach for fast and scalable generation of local tree topologies relating large numbers of haplotypes. Our method is closely related to the estimation of ARG, and captures both local and global properties of an ARG. It is based on a data structure which we call tree consistent PBWT, a modification of PBWT data structure introduced by R. Durbin (2014). We also explore some methods to estimate the quality of the generated tree topologies and to make inferences based on them. At the end we discuss a probabilistic model which could potentially lead to the estimation of ARG node times.
0
Citation7
0
Save
Load More