JW
Jessica Way
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(75% Open Access)
Cited by:
1
h-index:
4
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
2

A comparative study of structural variant calling strategies using the Alzheimer’s Disease Sequencing Project’s whole genome family data

John Malamon et al.May 20, 2022
+17
J
K
J
ABSTRACT Background Reliable detection and accurate genotyping of structural variants (SVs) and insertion/deletions (indels) from whole-genome sequence (WGS) data is a significant challenge. We present a protocol for variant calling, quality control, call merging, sensitivity analysis, in silico genotyping, and laboratory validation protocols for generating a high-quality deletion call set from whole genome sequences as part of the Alzheimer’s Disease Sequencing Project (ADSP). This dataset contains 578 individuals from 111 families. Methods We applied two complementary pipelines (Scalpel and Parliament) for SV/indel calling, break-point refinement, genotyping, and local reassembly to produce a high-quality annotated call set. Sensitivity was measured in sample replicates (N=9) for all callers using in silico variant spike-in for a wide range of event sizes. We focused on deletions because these events were more reliably called. To evaluate caller specificity, we developed a novel metric called the D-score that leverages deletion sharing frequencies within and outside of families to rank recurring deletions. Assessment of overall quality across size bins was measured with the kinship coefficient. Individual callers were evaluated for computational cost, performance, sensitivity, and specificity. Quality of calls were evaluated by Sanger sequencing of predicted loss-of-function (LOF) variants, variants near AD candidate genes, and randomly selected genome-wide deletions ranging from 2 to 17,000 bp. Results We generated a high-quality deletion call set across a wide range of event sizes consisting of 152,301 deletions with an average of 263 per genome. A total of 114 of 146 predicted deletions (78.1%) were validated by Sanger sequencing. Scalpel was more accurate in calling deletions ≤100 bp, whereas for Parliament, sensitivity was improved for deletions > 900 bp. We validated 83.0% (88/106) and 72.5% (37/51) of calls made by Scalpel and Parliament, respectively. Eleven deletions called by both Parliament and Scalpel in the 101-900 bin were tested and all were confirmed by Sanger sequencing. Conclusions We developed a flexible protocol to assess the quality of deletion detection across a wide range of sizes. We also generated a truth set of Sanger sequencing validated deletions with precise breakpoints covering a wide spectrum of sizes between 1 and 17,000 bp.
2
Citation1
0
Save
0

Inferring the molecular mechanisms of noncoding Alzheimer's disease-associated genetic variants

Alexandre Amlie‐Wolf et al.Aug 27, 2018
+11
Y
E
A
INTRODUCTION: We set out to characterize the causal variants, regulatory mechanisms, tissue contexts, and target genes underlying noncoding late-onset Alzheimer's Disease (LOAD)-associated genetic signals. METHODS: We applied our INFERNO method to the IGAP genome-wide association study (GWAS) data, annotating all potentially causal variants with tissue-specific regulatory activity. Bayesian co-localization analysis of GWAS summary statistics and eQTL data was performed to identify tissue-specific target genes. RESULTS: INFERNO identified enhancer dysregulation in all 19 tag regions analyzed, significant enrichments of enhancer overlaps in the immune-related blood category, and co-localized eQTL signals overlapping enhancers from the matching tissue class in ten regions (ABCA7, BIN1, CASS4, CD2AP, CD33, CELF1, CLU, EPHA1, FERMT2, ZCWPW1). We validated the allele-specific effects of several variants on enhancer function using luciferase expression assays. DISCUSSION: Integrating functional genomics with GWAS signals yielded insights into the regulatory mechanisms, tissue contexts, and genes affected by noncoding genetic variation associated with LOAD risk.
1

Deploying genomics workflows on high performance computing (HPC) platforms: storage, memory, and compute considerations

Marissa Powers et al.Apr 8, 2022
+7
P
K
M
Abstract Next Generation Sequencing (NGS) workloads largely consist of pipelines of tasks with heterogeneous compute, memory, and storage requirements. Identifying the optimal system configuration has historically required expertise in both system architecture and bioinformatics. This paper outlines infrastructure recommendations for one commonly used genomics workload based on extensive benchmarking and profiling, along with recommendations on how to tune genomics workflows for high performance computing (HPC) infrastructure. The demonstrated methodology and learnings can be extended for other genomics workloads and for other infrastructures such as the cloud.
1

The Neuroscience Multi-Omic Archive: A BRAIN Initiative resource for single-cell transcriptomic and epigenomic data from the mammalian brain

Seth Ament et al.Sep 9, 2022
+26
E
G
S
ABSTRACT Scalable technologies to sequence the transcriptomes and epigenomes of single cells are transforming our understanding of cell types and cell states. The Brain Research through Advancing Innovative Neurotechnologies (BRAIN) Initiative Cell Census Network (BICCN) is applying these technologies at unprecedented scale to map the cell types in the mammalian brain. In an effort to increase data FAIRness (Findable, Accessible, Interoperable, Reusable), the NIH has established repositories to make data generated by the BICCN and related BRAIN Initiative projects accessible to the broader research community. Here, we describe the Neuroscience Multi-Omic Archive (NeMO Archive; nemoarchive.org ), which serves as the primary repository for genomics data from the BRAIN Initiative. Working closely with other BRAIN Initiative researchers, we have organized these data into a continually expanding, curated repository, which contains transcriptomic and epigenomic data from over 50 million brain cells, including single-cell genomic data from all of the major regions of the adult and prenatal human and mouse brains, as well as substantial single-cell genomic data from non-human primates. We make available several tools for accessing these data, including a searchable web portal, a cloud-computing interface for large-scale data processing (implemented on Terra, terra.bio ), and a visualization and analysis platform, NeMO Analytics ( nemoanalytics.org ). KEY POINTS The Neuroscience Multi-Omic Archive serves as the genomics data repository for the BRAIN Initiative. Genomic data from >50 million cells span all the major regions of the brains of humans and mice. We provide a searchable web portal, a cloud-computing interface, and a data visualization platform.