DB
Derek Bickhart
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
22
(68% Open Access)
Cited by:
3,029
h-index:
42
/
i10-index:
87
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

metaFlye: scalable long-read metagenome assembly using repeat graphs

Mikhail Kolmogorov et al.Oct 5, 2020
+8
B
D
M
Long-read sequencing technologies have substantially improved the assemblies of many isolate bacterial genomes as compared to fragmented short-read assemblies. However, assembling complex metagenomic datasets remains difficult even for state-of-the-art long-read assemblers. Here we present metaFlye, which addresses important long-read metagenomic assembly challenges, such as uneven bacterial composition and intra-species heterogeneity. First, we benchmarked metaFlye using simulated and mock bacterial communities and show that it consistently produces assemblies with better completeness and contiguity than state-of-the-art long-read assemblers. Second, we performed long-read sequencing of the sheep microbiome and applied metaFlye to reconstruct 63 complete or nearly complete bacterial genomes within single contigs. Finally, we show that long-read assembly of human microbiomes enables the discovery of full-length biosynthetic gene clusters that encode biomedically important natural products.
0
Citation574
0
Save
0

Single-molecule sequencing and chromatin conformation capture enable de novo reference assembly of the domestic goat genome

Derek Bickhart et al.Mar 6, 2017
+27
S
B
D
The decrease in sequencing cost and increased sophistication of assembly algorithms for short-read platforms has resulted in a sharp increase in the number of species with genome assemblies. However, these assemblies are highly fragmented, with many gaps, ambiguities, and errors, impeding downstream applications. We demonstrate current state of the art for de novo assembly using the domestic goat (Capra hircus) based on long reads for contig formation, short reads for consensus validation, and scaffolding by optical and chromatin interaction mapping. These combined technologies produced what is, to our knowledge, the most continuous de novo mammalian assembly to date, with chromosome-length scaffolds and only 649 gaps. Our assembly represents a ∼400-fold improvement in continuity due to properly assembled gaps, compared to the previously published C. hircus assembly, and better resolves repetitive structures longer than 1 kb, representing the largest repeat family and immune gene complex yet produced for an individual of a ruminant species.
0
Citation561
0
Save
0

De novo assembly of the cattle reference genome with single-molecule sequencing

Benjamin Rosen et al.Mar 1, 2020
+30
R
D
B
Abstract Background Major advances in selection progress for cattle have been made following the introduction of genomic tools over the past 10–12 years. These tools depend upon the Bos taurus reference genome (UMD3.1.1), which was created using now-outdated technologies and is hindered by a variety of deficiencies and inaccuracies. Results We present the new reference genome for cattle, ARS-UCD1.2, based on the same animal as the original to facilitate transfer and interpretation of results obtained from the earlier version, but applying a combination of modern technologies in a de novo assembly to increase continuity, accuracy, and completeness. The assembly includes 2.7 Gb and is &gt;250× more continuous than the original assembly, with contig N50 &gt;25 Mb and L50 of 32. We also greatly expanded supporting RNA-based data for annotation that identifies 30,396 total genes (21,039 protein coding). The new reference assembly is accessible in annotated form for public use. Conclusions We demonstrate that improved continuity of assembled sequence warrants the adoption of ARS-UCD1.2 as the new cattle reference genome and that increased assembly accuracy will benefit future research on this species.
0
Citation484
0
Save
0

De novo assembly of haplotype-resolved genomes with trio binning

Sergey Koren et al.Oct 22, 2018
+7
B
A
S
Trio binning assembles both haplotypes of a genome by combining long-read sequence data with short-read data from both parents. Complex allelic variation hampers the assembly of haplotype-resolved sequences from diploid genomes. We developed trio binning, an approach that simplifies haplotype assembly by resolving allelic variation before assembly. In contrast with prior approaches, the effectiveness of our method improved with increasing heterozygosity. Trio binning uses short reads from two parental genomes to first partition long reads from an offspring into haplotype-specific sets. Each haplotype is then assembled independently, resulting in a complete diploid reconstruction. We used trio binning to recover both haplotypes of a diploid human genome and identified complex structural variants missed by alternative approaches. We sequenced an F1 cross between the cattle subspecies Bos taurus taurus and Bos taurus indicus and completely assembled both parental haplotypes with NG50 haplotig sizes of >20 Mb and 99.998% accuracy, surpassing the quality of current cattle reference genomes. We suggest that trio binning improves diploid genome assembly and will facilitate new studies of haplotype variation and inheritance.
0
Citation439
0
Save
0

Genome characteristics of facultatively symbiotic Frankia sp. strains reflect host range and host plant biogeography

Philippe Normand et al.Dec 6, 2006
+37
L
P
P
Soil bacteria that also form mutualistic symbioses in plants encounter two major levels of selection. One occurs during adaptation to and survival in soil, and the other occurs in concert with host plant speciation and adaptation. Actinobacteria from the genus Frankia are facultative symbionts that form N 2 -fixing root nodules on diverse and globally distributed angiosperms in the “actinorhizal” symbioses. Three closely related clades of Frankia sp. strains are recognized; members of each clade infect a subset of plants from among eight angiosperm families. We sequenced the genomes from three strains; their sizes varied from 5.43 Mbp for a narrow host range strain ( Frankia sp. strain HFPCcI3) to 7.50 Mbp for a medium host range strain ( Frankia alni strain ACN14a) to 9.04 Mbp for a broad host range strain ( Frankia sp. strain EAN1pec.) This size divergence is the largest yet reported for such closely related soil bacteria (97.8%–98.9% identity of 16S rRNA genes). The extent of gene deletion, duplication, and acquisition is in concert with the biogeographic history of the symbioses and host plant speciation. Host plant isolation favored genome contraction, whereas host plant diversification favored genome expansion. The results support the idea that major genome expansions as well as reductions can occur in facultative symbiotic soil bacteria as they respond to new environments in the context of their symbioses.
0
Citation359
0
Save
0

Copy number variation of individual cattle genomes using next-generation sequencing

Derek Bickhart et al.Feb 2, 2012
+12
S
Y
D
Copy number variations (CNVs) affect a wide range of phenotypic traits; however, CNVs in or near segmental duplication regions are often intractable. Using a read depth approach based on next-generation sequencing, we examined genome-wide copy number differences among five taurine (three Angus, one Holstein, and one Hereford) and one indicine (Nelore) cattle. Within mapped chromosomal sequence, we identified 1265 CNV regions comprising ∼55.6-Mbp sequence—476 of which (∼38%) have not previously been reported. We validated this sequence-based CNV call set with array comparative genomic hybridization (aCGH), quantitative PCR (qPCR), and fluorescent in situ hybridization (FISH), achieving a validation rate of 82% and a false positive rate of 8%. We further estimated absolute copy numbers for genomic segments and annotated genes in each individual. Surveys of the top 25 most variable genes revealed that the Nelore individual had the lowest copy numbers in 13 cases (∼52%, χ 2 test; P -value <0.05). In contrast, genes related to pathogen- and parasite-resistance, such as CATHL4 and ULBP17 , were highly duplicated in the Nelore individual relative to the taurine cattle, while genes involved in lipid transport and metabolism, including APOL3 and FABP2 , were highly duplicated in the beef breeds. These CNV regions also harbor genes like BPIFA2A (BSP30A) and WC1 , suggesting that some CNVs may be associated with breed-specific differences in adaptation, health, and production traits. By providing the first individualized cattle CNV and segmental duplication maps and genome-wide gene copy number estimates, we enable future CNV studies into highly duplicated regions in the cattle genome.
0
Citation285
0
Save
1

An improved pig reference genome sequence to enable pig genetics and genomics research

Amanda Warr et al.Jun 1, 2020
+37
B
N
A
Abstract Background The domestic pig (Sus scrofa) is important both as a food source and as a biomedical model given its similarity in size, anatomy, physiology, metabolism, pathology, and pharmacology to humans. The draft reference genome (Sscrofa10.2) of a purebred Duroc female pig established using older clone-based sequencing methods was incomplete, and unresolved redundancies, short-range order and orientation errors, and associated misassembled genes limited its utility. Results We present 2 annotated highly contiguous chromosome-level genome assemblies created with more recent long-read technologies and a whole-genome shotgun strategy, 1 for the same Duroc female (Sscrofa11.1) and 1 for an outbred, composite-breed male (USMARCv1.0). Both assemblies are of substantially higher (&gt;90-fold) continuity and accuracy than Sscrofa10.2. Conclusions These highly contiguous assemblies plus annotation of a further 11 short-read assemblies provide an unprecedented view of the genetic make-up of this important agricultural and biomedical model species. We propose that the improved Duroc assembly (Sscrofa11.1) become the reference genome for genomic research in pigs.
1
Citation278
0
Save
1

Accurate viral genome reconstruction and host assignment with proximity-ligation sequencing

Gherman Uritskiy et al.Jun 14, 2021
+11
C
M
G
Viruses play crucial roles in the ecology of microbial communities, yet they remain relatively understudied in their native environments. Despite many advancements in high-throughput whole-genome sequencing (WGS), sequence assembly, and annotation of viruses, the reconstruction of full-length viral genomes directly from metagenomic sequencing is possible only for the most abundant phages and requires long-read sequencing technologies. Additionally, the prediction of their cellular hosts remains difficult from conventional metagenomic sequencing alone. To address these gaps in the field and to accelerate the study of viruses directly in their native microbiomes, we developed an end-to-end bioinformatics platform for viral genome reconstruction and host attribution from metagenomic data using proximity-ligation sequencing (i.e., Hi-C). We demonstrate the capabilities of the platform by recovering and characterizing the metavirome of a variety of metagenomes, including a fecal microbiome that has also been sequenced with accurate long reads, allowing for the assessment and benchmarking of the new methods. The platform can accurately extract numerous near-complete viral genomes even from highly fragmented short-read assemblies and can reliably predict their cellular hosts with minimal false positives. To our knowledge, this is the first software for performing these tasks. Being significantly cheaper than long-read sequencing of comparable depth, the incorporation of proximity-ligation sequencing in microbiome research shows promise to greatly accelerate future advancements in the field.
1
Citation17
0
Save
150

Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing

Derek Bickhart et al.May 4, 2021
+15
E
M
D
Abstract Microbial communities in many environments include distinct lineages of closely related organisms which have proved challenging to separate in metagenomic assembly, preventing generation of complete metagenome-assembled genomes (MAGs). The advent of long and accurate HiFi reads presents a possible means to address this challenge by generating complete MAGs for nearly all sufficiently abundant bacterial genomes in a microbial community. We present a metagenomic HiFi assembly of a complex microbial community from sheep fecal material that resulted in 428 high-quality MAGs from a single sample, the highest resolution achieved with metagenomic deconvolution to date. We applied a computational approach to separate distinct haplotype lineages and identified haplotypes of hundreds of variants across hundreds of kilobases of genomic sequence. Analysis of these haplotypes revealed 220 lineage-resolved complete MAGs, including 44 in single circular contigs, and demonstrated improvement in overall assembly compared to error-prone long reads. We report the characterization of multiple, closely-related microbes within a sample with potential to improve precision in assigning mobile genetic elements to host genomes within complex microbial communities.
150
Citation16
0
Save
13

Truncation of IFT80 causes early embryonic loss in cattle

M. Ortega et al.Jul 3, 2021
+5
J
D
M
Abstract Recessive alleles represent a risk in populations that have undergone bottleneck events. We present a comprehensive framework for identification and validation of these genetic defects, including haplotype-based detection, variant selection from sequence data, and validation using knockout embryos. Holstein haplotype 2 (HH2), which causes embryonic death, was used to demonstrate the approach. HH2 was identified using a deficiency-of-homozygotes approach and confirmed to negatively affect conception rate and stillbirths. Five carriers were present in a group of 183 sequenced Holstein bulls selected to maximize the coverage of unique haplotypes. Three variants concordant with haplotype calls were found in HH2: a high-priority frameshift mutation resulting in a deletion, and two low-priority variants (1 synonymous variant, 1 premature stop codon). The frameshift in intraflagellar protein 80 ( IFT80 ) was confirmed in a separate group of Holsteins from the 1000 Bull Genomes Project that shared no animals with the discovery set. IFT80 -null embryos were generated by truncating the IFT80 transcript at exon 2 or 11 using a CRISPR-Cas9 system. Abattoir-derived oocytes were fertilized in vitro and embryos were injected at the one-cell stage either with CRISPR-Cas9 complex (n=100) or Cas9 mRNA (control, n=100) before return to culture, and replicated 3 times. IFT80 is activated at the 8-cell stage, and IFT80-null embryos arrested at this stage of development, which is consistent with data from mouse hypomorphs and HH2 carrier-to-carrier matings. This frameshift in IFT80 on chromosome 1 at 107,172,615 bp (p.Leu381fs) disrupts WNT and hedgehog signaling, and is responsible for the death of homozygous embryos. Significance Statement Holstein haplotype 2 is an embryonic lethal present in 1.21% of the US Holstein cattle population, and unrecognized carrier-to-carrier matings are responsible for >$2 million/year in additional breeding expenses. A high-impact frameshift mutation in exon 11 of intraflagellar protein 80 (IFT80) was identified as the putative causal variant. Biallelic IFT80 knockout embryos were produced in vitro and compared to wild-type embryos. IFT80-null embryos consistently arrested at the 8-cell stage of development. The IFT80 protein expressed in knockout embryos had substantially altered protein structure, resulting in a loss of functional domains. These results validate the putative causal mutation observed in Holsteins. This system is a good model for investigating possible causal variants that affect livestock fertility early in development.
13
Citation5
0
Save
Load More