AC
Andrew Carroll
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
33
(79% Open Access)
Cited by:
3,528
h-index:
44
/
i10-index:
64
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome

Aaron Wenger et al.Aug 12, 2019
+25
W
P
A
The DNA sequencing technologies in use today produce either highly accurate short reads or less-accurate long reads. We report the optimization of circular consensus sequencing (CCS) to improve the accuracy of single-molecule real-time (SMRT) sequencing (PacBio) and generate highly accurate (99.8%) long high-fidelity (HiFi) reads with an average length of 13.5 kilobases (kb). We applied our approach to sequence the well-characterized human HG002/NA24385 genome and obtained precision and recall rates of at least 99.91% for single-nucleotide variants (SNVs), 95.98% for insertions and deletions <50 bp (indels) and 95.99% for structural variants. Our CCS method matches or exceeds the ability of short-read sequencing to detect small variants and structural variants. We estimate that 2,434 discordances are correctable mistakes in the ‘genome in a bottle’ (GIAB) benchmark set. Nearly all (99.64%) variants can be phased into haplotypes, further improving variant detection. De novo genome assembly using CCS reads alone produced a contiguous and accurate genome with a contig N50 of >15 megabases (Mb) and concordance of 99.997%, substantially outperforming assembly with less-accurate long reads. High-fidelity reads improve variant detection and genome assembly on the PacBio platform.
0
Citation1,171
0
Save
0

Genetic evidence for three unique components in primary cell-wall cellulose synthase complexes in Arabidopsis

Staffan Persson et al.Sep 19, 2007
+6
A
A
S
In higher plants, cellulose is synthesized at the plasma membrane by the cellulose synthase (CESA) complex. The catalytic core of the complex is believed to be composed of three types of CESA subunits. Indirect evidence suggests that the complex associated with primary wall cellulose deposition consists of CESA1, -3, and -6 in Arabidopsis thaliana. However, phenotypes associated with mutations in two of these genes, CESA1 and -6, suggest unequal contribution by the different CESAs to overall enzymatic activity of the complex. We present evidence that the primary complex requires three unique types of components, CESA1-, CESA3-, and CESA6-related, for activity. Removal of any of these components results in gametophytic lethality due to pollen defects, demonstrating that primary-wall cellulose synthesis is necessary for pollen development. We also show that the CESA6-related CESAs are partially functionally redundant.
0

Real-Time Imaging of Cellulose Reorientation during Cell Wall Expansion in Arabidopsis Roots

Charles Anderson et al.Dec 4, 2009
C
L
A
C
Abstract Cellulose forms the major load-bearing network of the plant cell wall, which simultaneously protects the cell and directs its growth. Although the process of cellulose synthesis has been observed, little is known about the behavior of cellulose in the wall after synthesis. Using Pontamine Fast Scarlet 4B, a dye that fluoresces preferentially in the presence of cellulose and has excitation and emission wavelengths suitable for confocal microscopy, we imaged the architecture and dynamics of cellulose in the cell walls of expanding root cells. We found that cellulose exists in Arabidopsis (Arabidopsis thaliana) cell walls in large fibrillar bundles that vary in orientation. During anisotropic wall expansion in wild-type plants, we observed that these cellulose bundles rotate in a transverse to longitudinal direction. We also found that cellulose organization is significantly altered in mutants lacking either a cellulose synthase subunit or two xyloglucan xylosyltransferase isoforms. Our results support a model in which cellulose is deposited transversely to accommodate longitudinal cell expansion and reoriented during expansion to generate a cell wall that is fortified against strain from any direction.
1

A draft human pangenome reference

Wen‐Wei Liao et al.May 10, 2023
+97
J
M
W
Abstract Here the Human Pangenome Reference Consortium presents a first draft of the human pangenome reference. The pangenome contains 47 phased, diploid assemblies from a cohort of genetically diverse individuals 1 . These assemblies cover more than 99% of the expected sequence in each genome and are more than 99% accurate at the structural and base pair levels. Based on alignments of the assemblies, we generate a draft pangenome that captures known variants and haplotypes and reveals new alleles at structurally complex loci. We also add 119 million base pairs of euchromatic polymorphic sequences and 1,115 gene duplications relative to the existing reference GRCh38. Roughly 90 million of the additional base pairs are derived from structural variation. Using our draft pangenome to analyse short-read data reduced small variant discovery errors by 34% and increased the number of structural variants detected per haplotype by 104% compared with GRCh38-based workflows, which enabled the typing of the vast majority of structural variant alleles per sample.
1
Citation381
0
Save
0

Genome of the long-living sacred lotus (Nelumbo nucifera Gaertn.)

Ray Ming et al.Jan 1, 2013
+68
Y
R
R
Sacred lotus is a basal eudicot with agricultural, medicinal, cultural and religious importance. It was domesticated in Asia about 7,000 years ago, and cultivated for its rhizomes and seeds as a food crop. It is particularly noted for its 1,300-year seed longevity and exceptional water repellency, known as the lotus effect. The latter property is due to the nanoscopic closely packed protuberances of its self-cleaning leaf surface, which have been adapted for the manufacture of a self-cleaning industrial paint, Lotusan. The genome of the China Antique variety of the sacred lotus was sequenced with Illumina and 454 technologies, at respective depths of 101× and 5.2×. The final assembly has a contig N50 of 38.8 kbp and a scaffold N50 of 3.4 Mbp, and covers 86.5% of the estimated 929 Mbp total genome size. The genome notably lacks the paleo-triplication observed in other eudicots, but reveals a lineage-specific duplication. The genome has evidence of slow evolution, with a 30% slower nucleotide mutation rate than observed in grape. Comparisons of the available sequenced genomes suggest a minimum gene set for vascular plants of 4,223 genes. Strikingly, the sacred lotus has 16 COG2132 multi-copper oxidase family proteins with root-specific expression; these are involved in root meristem phosphate starvation, reflecting adaptation to limited nutrient availability in an aquatic environment. The slow nucleotide substitution rate makes the sacred lotus a better resource than the current standard, grape, for reconstructing the pan-eudicot genome, and should therefore accelerate comparative analysis between eudicots and monocots.
0
Citation374
0
Save
0

A robust benchmark for detection of germline large deletions and insertions

Justin Zook et al.Jun 15, 2020
+47
N
N
J
New technologies and analysis methods are enabling genomic structural variants (SVs) to be detected with ever-increasing accuracy, resolution and comprehensiveness. To help translate these methods to routine research and clinical practice, we developed a sequence-resolved benchmark set for identification of both false-negative and false-positive germline large insertions and deletions. To create this benchmark for a broadly consented son in a Personal Genome Project trio with broadly available cells and DNA, the Genome in a Bottle Consortium integrated 19 sequence-resolved variant calling methods from diverse technologies. The final benchmark set contains 12,745 isolated, sequence-resolved insertion (7,281) and deletion (5,464) calls ≥50 base pairs (bp). The Tier 1 benchmark regions, for which any extra calls are putative false positives, cover 2.51 Gbp and 5,262 insertions and 4,095 deletions supported by ≥1 diploid assembly. We demonstrate that the benchmark set reliably identifies false negatives and false positives in high-quality SV callsets from short-, linked- and long-read sequencing and optical mapping. Detection of structural variants in the human genome is facilitated by a benchmark set of large deletions and insertions.
0
Citation305
0
Save
0

Ultrarapid Nanopore Genome Sequencing in a Critical Care Setting

John Gorzynski et al.Feb 17, 2022
+34
K
S
J
0
Citation126
0
Save
0

A robust benchmark for germline structural variant detection

Justin Zook et al.Jun 9, 2019
+49
L
N
J
Abstract New technologies and analysis methods are enabling genomic structural variants (SVs) to be detected with ever-increasing accuracy, resolution, and comprehensiveness. Translating these methods to routine research and clinical practice requires robust benchmark sets. We developed the first benchmark set for identification of both false negative and false positive germline SVs, which complements recent efforts emphasizing increasingly comprehensive characterization of SVs. To create this benchmark for a broadly consented son in a Personal Genome Project trio with broadly available cells and DNA, the Genome in a Bottle (GIAB) Consortium integrated 19 sequence-resolved variant calling methods, both alignment- and de novo assembly-based, from short-, linked-, and long-read sequencing, as well as optical and electronic mapping. The final benchmark set contains 12745 isolated, sequence-resolved insertion and deletion calls ≥50 base pairs (bp) discovered by at least 2 technologies or 5 callsets, genotyped as heterozygous or homozygous variants by long reads. The Tier 1 benchmark regions, for which any extra calls are putative false positives, cover 2.66 Gbp and 9641 SVs supported by at least one diploid assembly. Support for SVs was assessed using svviz with short-, linked-, and long-read sequence data. In general, there was strong support from multiple technologies for the benchmark SVs, with 90 % of the Tier 1 SVs having support in reads from more than one technology. The Mendelian genotype error rate was 0.3 %, and genotype concordance with manual curation was >98.7 %. We demonstrate the utility of the benchmark set by showing it reliably identifies both false negatives and false positives in high-quality SV callsets from short-, linked-, and long-read sequencing and optical mapping.
0
Citation63
0
Save
1

Pangenome graph construction from genome alignments with Minigraph-Cactus

Glenn Hickey et al.May 10, 2023
+96
J
J
G
Pangenome references address biases of reference genomes by storing a representative set of diverse haplotypes and their alignment, usually as a graph. Alternate alleles determined by variant callers can be used to construct pangenome graphs, but advances in long-read sequencing are leading to widely available, high-quality phased assemblies. Constructing a pangenome graph directly from assemblies, as opposed to variant calls, leverages the graph’s ability to represent variation at different scales. Here we present the Minigraph-Cactus pangenome pipeline, which creates pangenomes directly from whole-genome alignments, and demonstrate its ability to scale to 90 human haplotypes from the Human Pangenome Reference Consortium. The method builds graphs containing all forms of genetic variation while allowing use of current mapping and genotyping tools. We measure the effect of the quality and completeness of reference genomes used for analysis within the pangenomes and show that using the CHM13 reference from the Telomere-to-Telomere Consortium improves the accuracy of our methods. We also demonstrate construction of a Drosophila melanogaster pangenome. Constructing genome graphs directly from genome assemblies overcomes single-reference bias.
1
Citation61
0
Save
45

Accurate, scalable cohort variant calls using DeepVariant and GLnexus

Taedong Yun et al.Feb 11, 2020
+4
P
H
T
Abstract Population-scale sequenced cohorts are foundational resources for genetic analyses, but processing raw reads into analysis-ready variants remains challenging. Here we introduce an open-source cohort variant-calling method using the highly-accurate caller DeepVariant and scalable merging tool GLnexus. We optimized callset quality based on benchmark samples and Mendelian consistency across many sample sizes and sequencing specifications, resulting in substantial quality improvements and cost savings over existing best practices. We further evaluated our pipeline in the 1000 Genomes Project (1KGP) samples, showing superior quality metrics and imputation performance. We publicly release the 1KGP callset to foster development of broad studies of genetic variation.
45
Citation24
0
Save
Load More