NO
Nathan Olson
Author with expertise in RNA Sequencing Data Analysis
National Institute of Standards and Technology, Material Measurement Laboratory, University of Chicago
+ 7 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
23
(65% Open Access)
Cited by:
1,685
h-index:
31
/
i10-index:
39
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
195

The complete sequence of a human genome

Sergey Nurk et al.Apr 1, 2022
+97
A
S
S
Since its initial release in 2000, the human reference genome has covered only the euchromatic fraction of the genome, leaving important heterochromatic regions unfinished. Addressing the remaining 8% of the genome, the Telomere-to-Telomere (T2T) Consortium presents a complete 3.055 billion-base pair sequence of a human genome, T2T-CHM13, that includes gapless assemblies for all chromosomes except Y, corrects errors in the prior references, and introduces nearly 200 million base pairs of sequence containing 1956 gene predictions, 99 of which are predicted to be protein coding. The completed regions include all centromeric satellite arrays, recent segmental duplications, and the short arms of all five acrocentric chromosomes, unlocking these complex regions of the genome to variational and functional studies.
195
Citation1,417
3
Save
5

The complete sequence of a human Y chromosome

Arang Rhie et al.Aug 26, 2023
+83
M
S
A
5
Paper
Citation88
3
Save
335

A complete reference genome improves analysis of human genetic variation

Sergey Aganezov et al.Oct 24, 2023
+30
D
S
S
Abstract Compared to its predecessors, the Telomere-to-Telomere CHM13 genome adds nearly 200 Mbp of sequence, corrects thousands of structural errors, and unlocks the most complex regions of the human genome to clinical and functional study. Here we demonstrate how the new reference universally improves read mapping and variant calling for 3,202 and 17 globally diverse samples sequenced with short and long reads, respectively. We identify hundreds of thousands of novel variants per sample—a new frontier for evolutionary and biomedical discovery. Simultaneously, the new reference eliminates tens of thousands of spurious variants per sample, including up to 12-fold reduction of false positives in 269 medically relevant genes. The vast improvement in variant discovery coupled with population and functional genomic resources position T2T-CHM13 to replace GRCh38 as the prevailing reference for human genetics. One Sentence Summary The T2T-CHM13 reference genome universally improves the analysis of human genetic variation.
81

Towards a Comprehensive Variation Benchmark for Challenging Medically-Relevant Autosomal Genes

Justin Wagner et al.Oct 24, 2023
+34
L
N
J
Abstract The repetitive nature and complexity of multiple medically important genes make them intractable to accurate analysis, despite the maturity of short-read sequencing, resulting in a gap in clinical applications of genome sequencing. The Genome in a Bottle Consortium has provided benchmark variant sets, but these excluded some medically relevant genes due to their repetitiveness or polymorphic complexity. In this study, we characterize 273 of these 395 challenging autosomal genes that have multiple implications for medical sequencing. This extended, curated benchmark reports over 17,000 SNVs, 3,600 INDELs, and 200 SVs each for GRCh37 and GRCh38 across HG002. We show that false duplications in either GRCh37 or GRCh38 result in reference-specific, missed variants for short- and long-read technologies in medically important genes including CBS , CRYAA , and KCNE1 . Our proposed solution improves variant recall in these genes from 8% to 100%. This benchmark will significantly improve the comprehensive characterization of these medically relevant genes and guide new method development.
81
Paper
Citation24
0
Save
0

Benchmarking of small and large variants across tandem repeats

Adam English et al.May 26, 2024
+11
H
E
A
Abstract Tandem repeats (TRs) are highly polymorphic in the human genome, have thousands of associated molecular traits, and are linked to over 60 disease phenotypes. However, their complexity often excludes them from at-scale studies due to challenges with variant calling, representation, and lack of a genome-wide standard. To promote TR methods development, we create a comprehensive catalog of TR regions and explore its properties across 86 samples. We then curate variants from the GIAB HG002 individual to create a tandem repeat benchmark. We also present a variant comparison method that handles small and large alleles and varying allelic representation. The 8.1% of the genome covered by the TR catalog holds ∼24.9% of variants per individual, including 124,728 small and 17,988 large variants for the GIAB HG002 TR benchmark. We work with the GIAB community to demonstrate the utility of this benchmark across short and long read technologies.
0
Citation8
0
Save
1

The genotype-phenotype landscape of an allosteric protein

Drew Tack et al.Oct 24, 2023
+6
A
P
D
Abstract Allostery is a fundamental biophysical mechanism that underlies cellular sensing, signaling, and metabolism. Quantitative methods to characterize the genotype-phenotype relationships for allosteric proteins would provide data needed to improve engineering of biological systems, to uncover the role of allosteric mis-regulation in disease, and to develop allosterically targeted drugs 1 . Here we report the large-scale measurement of the genotype-phenotype landscape for an allosteric protein: the lac repressor from Escherichia coli , LacI. Using a method that combines long-read and short-read DNA sequencing, we quantitatively determine the dose-response curves for nearly 10 5 variants of the LacI sensor. With the resulting data, we train a deep neural network (DNN) capable of predicting the dose-response curves for additional LacI genotypes in silico. We then map the impact of amino acid substitutions on the allosteric function of LacI. Additionally, we demonstrate engineering of allosteric function with unprecedented accuracy by identifying LacI variants from the measured landscape with quantitatively specified dose-response curves. Finally, we discover sensors with previously unreported band-stop dose-response curves. Overall, our results provide the first high-coverage, quantitative view of genotype-phenotype relationships for an allosteric protein, revealing a surprising diversity of phenotypes and showing that each phenotype is accessible via multiple distinct genotypes.
0

metagenomeFeatures: An R package for working with 16S rRNA reference databases and marker-gene survey feature data

Nathan Olson et al.May 7, 2020
+3
J
N
N
Abstract We developed the metagenomeFeatures R Bioconductor package along with annotation packages for the three primary 16S rRNA databases (Greengenes, RDP, and SILVA) to facilitate working with 16S rRNA sequence databases and marker-gene survey feature data. The metagenomeFeatures package defines two classes, MgDb for working with 16S rRNA sequence databases, and mgFeatures for working with marker-gene survey feature data. The associated annotation packages provide a consistent interface to the different 16S rRNA databases facilitating database comparison and exploration. The mgFeatures represents a crucial step in the development of a common data structure for working with 16S marker-gene survey data in R. Availability https://bioconductor.org/packages/release/bioc/html/metagenomeFeatures.html Contact nolson@nist.gov
0
Citation3
0
Save
29

StratoMod: Predicting sequencing and variant calling errors with interpretable machine learning

Nathan Dwarshuis et al.Oct 24, 2023
+3
N
P
N
Abstract Despite the variety in sequencing platforms, mappers, and variant callers, no single pipeline is optimal across the entire human genome. Therefore, developers, clinicians, and researchers need to make tradeoffs when designing pipelines for their application. Currently, assessing such tradeoffs relies on intuition about how a certain pipeline will perform in a given genomic context. We present Stratomod, which addresses this problem using an interpretable machine-learning classifier to predict variant calling errors in a data-driven manner. We showed Stratomod can precisely quantify the likelihood of missing variants using Hifi or Illumina, and leveraged Stratomod’s interpretability to measure contributions from difficult-to-map and homopolymer regions for each respective outcome. Furthermore, we used Statomod to assess the likelihood of missing variants due to mismapping using linear vs. graph-based references, and identified the hard-to-map regions where graph-based methods excelled and by how much. For these we utilized our new benchmark based on the Q100 HG002 assembly, which contains previously-inaccessible difficult regions. Furthermore, Stratomod presents a new method of finding likely false negatives, which is an improvement over current pipelines which only filter false positives. We anticipate this being useful for performing precise risk-reward analyses when designing variant calling pipelines.
29
Paper
Citation3
0
Save
8

The genotype-phenotype landscape of an allosteric protein

Drew Tack et al.Oct 24, 2023
+6
A
P
D
Abstract Allostery is a fundamental biophysical mechanism that underlies cellular sensing, signaling, and metabolism. Yet a quantitative understanding of allosteric genotype-phenotype relationships remains elusive. Here we report the large-scale measurement of the genotype-phenotype landscape for an allosteric protein: the lac repressor from Escherichia coli , LacI. Using a method that combines long-read and short-read DNA sequencing, we quantitatively measure the dose-response curves for nearly 10 5 variants of the LacI genetic sensor. The resulting data provide a quantitative map of the effect of amino acid substitutions on LacI allostery and reveal systematic sequence-structure-function relationships. We find that in many cases, allosteric phenotypes can be quantitatively predicted with additive or neural-network models, but unpredictable changes also occur. For example, we were surprised to discover a new band-stop phenotype that challenges conventional models of allostery and that emerges from combinations of nearly silent amino acid substitutions.
0

Small variant benchmark from a complete assembly of X and Y chromosomes

Justin Wagner et al.Nov 1, 2023
+24
J
N
J
The sex chromosomes contain complex, important genes impacting medical phenotypes. This benchmark includes 111,725 variants across the Genome in a Bottle HG002 reference material, advancing variant accuracy across the X and Y chromosomes. This work demonstrates how complete assemblies can expand benchmarks to more difficult regions, while highlighting remaining challenges in variant benchmarking in complex genomic regions such as gene conversions, copy number variable gene arrays, and human satellites.
Load More