JD
Jennifer Davis
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(50% Open Access)
Cited by:
387
h-index:
11
/
i10-index:
12
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A robust benchmark for germline structural variant detection

Justin Zook et al.Jun 9, 2019
Abstract New technologies and analysis methods are enabling genomic structural variants (SVs) to be detected with ever-increasing accuracy, resolution, and comprehensiveness. Translating these methods to routine research and clinical practice requires robust benchmark sets. We developed the first benchmark set for identification of both false negative and false positive germline SVs, which complements recent efforts emphasizing increasingly comprehensive characterization of SVs. To create this benchmark for a broadly consented son in a Personal Genome Project trio with broadly available cells and DNA, the Genome in a Bottle (GIAB) Consortium integrated 19 sequence-resolved variant calling methods, both alignment- and de novo assembly-based, from short-, linked-, and long-read sequencing, as well as optical and electronic mapping. The final benchmark set contains 12745 isolated, sequence-resolved insertion and deletion calls ≥50 base pairs (bp) discovered by at least 2 technologies or 5 callsets, genotyped as heterozygous or homozygous variants by long reads. The Tier 1 benchmark regions, for which any extra calls are putative false positives, cover 2.66 Gbp and 9641 SVs supported by at least one diploid assembly. Support for SVs was assessed using svviz with short-, linked-, and long-read sequence data. In general, there was strong support from multiple technologies for the benchmark SVs, with 90 % of the Tier 1 SVs having support in reads from more than one technology. The Mendelian genotype error rate was 0.3 %, and genotype concordance with manual curation was >98.7 %. We demonstrate the utility of the benchmark set by showing it reliably identifies both false negatives and false positives in high-quality SV callsets from short-, linked-, and long-read sequencing and optical mapping.
0
Citation63
0
Save
0

Automated Structural Variant Verification in Human Genomes using Single-Molecule Electronic DNA Mapping

Michael Kaiser et al.May 22, 2017
The importance of structural variation in human disease and the difficulty of detecting structural variants larger than 50 base pairs has led to the development of several long-read sequencing technologies and optical mapping platforms. Frequently, multiple technologies and ad hoc methods are required to obtain a consensus regarding the location, size and nature of a structural variant, with no approach able to reliably bridge the gap of variant sizes between the domain of short-read approaches and the largest rearrangements observed with optical mapping. To address this unmet need, we have developed a new software package, SV-Verify™ , which utilizes data collected with the Nabsys High Definition Mapping (HD-Mapping™ ) system, to perform hypothesis-based verification of putative deletions. We demonstrate that whole genome maps, constructed from electronic detection of tagged DNA, hundreds of kilobases in length, can be used effectively to facilitate calling of structural variants ranging in size from 300 base pairs to hundreds of kilobase pairs. SV-Verify implements hypothesis-based verification of putative structural variants using a set of support vector machines and is capable of concurrently testing several thousand independent hypotheses. We describe support vector machine training, utilizing a well-characterized human genome, and application of the resulting classifiers to another human genome, demonstrating high sensitivity and specificity for deletions ≥300 base pairs.
0
Citation9
0
Save
0

Duplications drive diversity in Bordetella pertussis on an underestimated scale.

Jonathan Abrahams et al.Feb 7, 2020
Bacterial genetic diversity is often described using solely base pair changes despite a wide variety of other mutation types likely being major contributors. Tandem duplications of genomic loci are thought to be widespread among bacteria but due to their often intractable size and instability, comprehensive studies of the range and genome dynamics of these mutations are rare. We define a methodology to investigate duplications in bacterial genomes based on read depth of genome sequence data as a proxy for copy number. We demonstrate the approach with Bordetella pertussis, whose insertion sequence element-rich genome provides extensive scope for duplications to occur. Analysis of genome sequence data for 2430 B. pertussis isolates identified 272 putative duplications, of which 94% were located at 11 hotspot loci. We demonstrate limited phylogenetic connection for the occurrence of duplications, suggesting unstable and sporadic characteristics. Genome instability was further described in-vitro using long read sequencing via the Nanopore platform. Clonally derived laboratory cultures produced heterogenous populations containing multiple structural variants. Short read data was used to predict 272 duplications, whilst long reads generated on the Nanopore platform enabled the in-depth study of the genome dynamics of tandem duplications in B. pertussis. Our work reveals the unrecognised and dynamic genetic diversity of B. pertussis and, as the complexity of the B. pertussis genome is not unique, highlights the need for a holistic and fundamental understanding of bacterial genetics.
0

Population and individual effects of non-coding variants inform genetic risk factors

Mauro Pala et al.Jul 21, 2016
Identifying functional non-coding variants can enhance genome interpretation and inform novel genetic risk factors. We used whole genomes and peripheral white blood cell transcriptomes from 624 Sardinian individuals to identify non-coding variants that contribute to population, family, and individual differences in transcript abundance. We identified 21,183 independent expression quantitative trait loci (eQTLs) and 6,768 independent splicing quantitative trait loci (sQTLs) influencing 73 and 41% of all tested genes. When we compared Sardinian eQTLs to those previously identified in Europe, we identified differentiated eQTLs at genes involved in malarial resistance and multiple sclerosis, reflecting the long-term epidemiological history of the island's population. Taking advantage of pedigree data for the population sample, we identify segregating patterns of outlier gene expression and allelic imbalance in 61 Sardinian trios. We identified 809 expression outliers (median z-score of 2.97) averaging 13.3 genes with outlier expression per individual. We then connected these outlier expression events to rare non-coding variants. Our results provide new insight into the effects of non-coding variants and their relationship to population history, traits and individual genetic risk.