EJ
Erich Jarvis
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(81% Open Access)
Cited by:
1,944
h-index:
16
/
i10-index:
24
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
107

Automated assembly of high-quality diploid human reference genomes

Erich Jarvis et al.Mar 6, 2022
Abstract The current human reference genome, GRCh38, represents over 20 years of effort to generate a high-quality assembly, which has greatly benefited society 1, 2 . However, it still has many gaps and errors, and does not represent a biological human genome since it is a blend of multiple individuals 3, 4 . Recently, a high-quality telomere-to-telomere reference genome, CHM13, was generated with the latest long-read technologies, but it was derived from a hydatidiform mole cell line with a duplicate genome, and is thus nearly homozygous 5 . To address these limitations, the Human Pangenome Reference Consortium (HPRC) recently formed with the goal of creating a collection of high-quality, cost-effective, diploid genome assemblies for a pangenome reference that represents human genetic diversity 6 . Here, in our first scientific report, we determined which combination of current genome sequencing and automated assembly approaches yields the most complete, accurate, and cost-effective diploid genome assemblies with minimal manual curation. Approaches that used highly accurate long reads and parent-child data to sort haplotypes during assembly outperformed those that did not. Developing a combination of all the top performing methods, we generated our first high- quality diploid reference assembly, containing only ∼4 gaps (range 0-12) per chromosome, most within + 1% of CHM13’s length. Nearly 1/4th of protein coding genes have synonymous amino acid changes between haplotypes, and centromeric regions showed the highest density of variation. Our findings serve as a foundation for assembling near-complete diploid human genomes at the scale required for constructing a human pangenome reference that captures all genetic variation from single nucleotides to large structural rearrangements.
107
Citation18
0
Save
153

Species-wide genomics of kākāpō provides transformational tools to accelerate recovery

Joseph Guhlin et al.Oct 24, 2022
Abstract The kākāpō is a critically endangered, intensively managed, long-lived nocturnal parrot endemic to Aotearoa New Zealand. We generated and analyzed whole-genome sequence data for nearly all individuals living in early 2018 (169 individuals) to generate a high-quality species-wide genetic variant callset. We leverage extensive long-term metadata to quantify genome-wide diversity of the species over time and present new approaches using probabilistic programming, combined with a phenotype dataset spanning five decades, to disentangle phenotypic variance into environmental and genetic effects while quantifying uncertainty in small populations. We find associations for growth, disease susceptibility, clutch size, and egg fertility within genic regions previously shown to influence these traits in other species. Finally, we generate breeding values to predict phenotype and illustrate that active management over the past 45 years has maintained both genome-wide diversity and diversity in breeding values, and hence, evolutionary potential. We provide new pathways for informing future conservation management decisions for kākāpō, including prioritizing individuals for translocation and monitoring individuals with poor growth or high disease risk. Overall, by explicitly addressing the challenge of small sample size, we provide a template for the inclusion of genomic data that will be transformational for species recovery efforts around the globe.
153
Citation12
0
Save
14

Convergent gene expression highlights shared vocal motor microcircuitry in songbirds and humans

Gregory Gedman et al.Jul 2, 2022
Abstract Vocal learning is a skilled motor behavior observed in several mammalian and avian species and is critical for human speech. While convergent gene expression patterns have highlighted similar primary motor and striatal pathways for vocal imitation in songbirds and humans, the extent of molecular and circuit convergence remains unresolved. Here we profiled the four principal song nuclei of the zebra finch (HVC, LMAN, RA, Area X) and their surrounding brain regions using RNA-Seq and compared them with specialized markers we identified for human speech brain regions. Expanding previous work, both songbird RA and HVC exhibited convergent specialized gene expression of ∼350 genes with human laryngeal sensorimotor cortex. The songbird HVC RA intratelencephalic (IT) neurons were the predominant cell type that was convergent with human, specifically layer 2/3 IT neurons, while the songbird RA extratelencephalic (ET) projection neurons exhibited convergent expression with human layer 5 ET projection neurons. The molecular specializations of both songbird LMAN and human Broca’s area were more unique to each species. These findings demonstrate the extent of convergent molecular specializations in distantly related species for vocal imitation and emphasize important evolutionary constraints for this complex trait. One-Sentence Summary Our data provide hundreds of candidate genes to study the molecular basis and evolution of song and speech across species.
14
Citation3
0
Save
1

Benchmarking ultra-high molecular weight DNA preservation methods for long-read and long-range sequencing

Hollis Dahn et al.Jul 14, 2021
Abstract Studies in vertebrate genomics require sampling from a broad range of tissue types, taxa, and localities. Recent advancements in long-read and long-range genome sequencing have made it possible to produce high-quality chromosome-level genome assemblies for almost any organism. However, adequate tissue preservation for the requisite ultra-high molecular weight DNA (uHMW DNA) remains a major challenge. Here we present a comparative study of preservation methods for field and laboratory tissue sampling, across vertebrate classes and different tissue types. We find that no single method is best for all cases. Instead, the optimal storage and extraction methods vary by taxa, by tissue, and by down-stream application. Therefore, we provide sample preservation guidelines that ensure sufficient DNA integrity and amount required for use with long-read and long-range sequencing technologies across vertebrates. Our best practices generated the uHMW DNA needed for the high-quality reference genomes for Phase 1 of the Vertebrate Genomes Project (VGP), whose ultimate mission is to generate chromosome-level reference genome assemblies of all ∼70,000 extant vertebrate species.
1
Citation1
0
Save
0

De Novo PacBio long-read and phased avian genome assemblies correct and add to genes important in neuroscience research

Jonas Korlach et al.Jan 28, 2017
Reference quality genomes are expected to provide a resource for studying gene structure and function. However, often genes of interest are not completely or accurately assembled, leading to unknown errors in analyses or additional cloning efforts for the correct sequences. A promising solution to this problem is long-read sequencing. Here we tested PacBio-based long-read sequencing and diploid assembly for potential improvements to the Sanger-based intermediate-read zebra finch reference and Illumina-based short-read Anna??s hummingbird reference, two vocal learning avian species widely studied in neuroscience and genomics. With DNA of the same individuals used to generate the reference genomes, we generated diploid assemblies with the FALCON-Unzip assembler, resulting in contigs with no gaps in the megabase range (N50s of 5.4 and 7.7 Mb, respectively), and representing 150-fold and 200-fold improvements over the current zebra finch and hummingbird references, respectively. These long-read assemblies corrected and resolved what we discovered to be misassemblies, including due to erroneous sequences flanking gaps, complex repeat structure errors in the references, base call errors in difficult to sequence regions, and inaccurate resolution of allelic differences between the two haplotypes. We analyzed protein-coding genes widely studied in neuroscience and specialized in vocal learning species, and found numerous assembly and sequence errors in the reference genes that the PacBio-based assemblies resolved completely, validated by single long genomic reads and transcriptome reads. These findings demonstrate, for the first time in non-human vocal learning species, the impact of higher quality, phased and gap-less assemblies for understanding gene structure and function.
1

A Chromosome-Level Genome Assembly for the Rock Ptarmigan (Lagopus muta)

Theodore Squires et al.Feb 3, 2023
Abstract The Rock Ptarmigan ( Lagopus muta ) is a cold-adapted, largely sedentary, game bird with a Holarctic distribution. The species represents an important example of an organism likely to be affected by ongoing climatic shifts across a disparate range. We provide here a high-quality reference genome and mitogenome for the Rock Ptarmigan assembled from PacBio HiFi and Hi-C sequencing of a female bird from Iceland. The total size of the genome is 1.03 Gb with a scaffold N50 of 71.23 Mb and a contig N50 of 17.91 Mb. The final scaffolds represent all 40 predicted chromosomes, and the mitochondria with a BUSCO score of 98.6%. Gene annotation resulted in 16,078 protein-coding genes out of a total 19,831 predicted (81.08% excluding pseudogenes). The genome included 21.07% repeat sequences, and the average length of genes, exons, and introns were, 33605, 394, and 4265 bp respectively. The availability of a new reference-quality genome will contribute to understanding the Rock Ptarmigan’s unique evolutionary history, vulnerability to climate change, and demographic trajectories around the globe and serve as a reference genome for the species in the family Tetraonidae (order Galliformes).
0

A reference genome for the Andean cavefish Trichomycterus rosablanca (Siluriformes, Trichomycteridae): building genomic resources to study evolution in cave environments

Carlos Cadena et al.Jan 1, 2023
Animals living in caves are of broad relevance to evolutionary biologists interested in understanding the mechanisms underpinning convergent evolution. In the Eastern Andes of Colombia, populations from at least two distinct clades of Trichomycterus catfishes (Siluriformes) independently colonized cave environments and converged in phenotype by losing their eyes and pigmentation. We are pursuing several research questions using genomics to understand the evolutionary forces and molecular mechanisms responsible for repeated morphological changes in this system. As a foundation for such studies, here we describe a diploid, chromosome-scale, long-read reference genome for Trichomycterus rosablanca, a blind, depigmented species endemic to the karstic system of the department of Santander. The nuclear genome comprises 1Gb in 27 chromosomes, with a 40.0x HiFi long-read genome coverage having a N50 scaffold of 40.4 Mb and N50 contig of 13.1 Mb, with 96.9% (Eukaryota) and 95.4% (Actinopterygii) universal single-copy orthologs (BUSCO). This assembly provides the first reference genome for the speciose genus Trichomycterus, which will serve as a key resource for research on the genomics of phenotypic evolution.
Load More