DF
Donald Freed
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(71% Open Access)
Cited by:
2,147
h-index:
9
/
i10-index:
9
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A draft map of the human proteome

Min‐Sik Kim et al.May 27, 2014
+69
S
B
M
The availability of human genome sequence has transformed biomedical research over the past decade. However, an equivalent map for the human proteome with direct measurements of proteins and peptides does not exist yet. Here we present a draft map of the human proteome using high-resolution Fourier-transform mass spectrometry. In-depth proteomic profiling of 30 histologically normal human samples, including 17 adult tissues, 7 fetal tissues and 6 purified primary haematopoietic cells, resulted in identification of proteins encoded by 17,294 genes accounting for approximately 84% of the total annotated protein-coding genes in humans. A unique and comprehensive strategy for proteogenomic analysis enabled us to discover a number of novel protein-coding regions, which includes translated pseudogenes, non-coding RNAs and upstream open reading frames. This large human proteome catalogue (available as an interactive web-based resource at http://www.humanproteomemap.org) will complement available human genome and transcriptome data to accelerate biomedical research in health and disease.
0
Citation2,084
0
Save
0

TNscope: Accurate Detection of Somatic Mutations with Haplotype-based Variant Candidate Detection and Machine Learning Filtering

Donald Freed et al.Jan 19, 2018
R
R
D
Abstract Detection of somatic mutations in tumor samples is important in the clinic, where treatment decisions are increasingly based upon molecular diagnostics. However, accurate detection of these mutations is difficult, due in part to intra-tumor heterogeneity, contamination of the tumor sample with normal tissue and pervasive structural variation. Here, we describe Sentieon TNscope, a haplotype-based somatic variant caller with increased accuracy relative to existing methods. An early engineering version of TNscope was used in our submission to the most recent ICGC-DREAM Somatic Mutation calling challenge. In that challenge, TNscope is the leader in accuracy for SNVs, indels and SVs. To further improve variant calling accuracy, we combined the improvements in the variant caller with machine learning. We benchmarked TNscope using in-silico mixtures of well-characterized Genome in a Bottle (GIAB) samples. TNscope displays higher accuracy than the other benchmarked tools and the accuracy is substantially improved by the machine learning model.
0
Citation52
0
Save
1

DNAscope: High accuracy small variant calling using machine learning

Donald Freed et al.May 22, 2022
+3
H
R
D
Abstract We present DNAscope, an accurate and efficient germline small-variant caller. DNAscope combines the robust and well-established preprocessing and assembly mathematics of the GATK’s HaplotypeCaller with a machine-learned genotyping model. Benchmarks of DNAscope and DNAseq (Sentieon’s GATK-matching germline variant calling pipeline) demonstrate that DNAscope achieves superior SNP and insertion/deletion accuracy with reduced computational cost.
1
Citation7
0
Save
6

Processing UMI Datasets at High Accuracy and Efficiency with the Sentieon ctDNA Analysis Pipeline

Jinnan Hu et al.Jun 5, 2022
+8
Y
C
J
Abstract Liquid biopsy enables identification of low allele frequency (AF) tumor variants and novel clinical applications such as minimum residual disease (MRD) monitoring. However, challenges remain, primarily due to limited sample volume and low read count of low-AF variants. Because of the low AFs, some clinically significant variants are difficult to distinguish from errors introduced by PCR amplification and sequencing. Unique Molecular Identifiers (UMIs) have been developed to further reduce base error rates and improve the variant calling accuracy, which enables better discrimination between background errors and real somatic variants. While multiple UMI-aware ctDNA analysis pipelines have been published and adopted, their accuracy and runtime efficiency could be improved. In this study, we present the Sentieon ctDNA pipeline, a fast and accurate solution for small somatic variant calling from ctDNA sequencing data. The pipeline consists of four core modules: alignment, consensus generation, variant calling, and variant filtering. We benchmarked the ctDNA pipeline using both simulated and real datasets, and found that the Sentieon ctDNA pipeline is more accurate than alternatives.
6
Paper
Citation4
0
Save
0

Small variant benchmark from a complete assembly of X and Y chromosomes

Justin Wagner et al.Jan 1, 2023
+24
J
N
J
The sex chromosomes contain complex, important genes impacting medical phenotypes. This benchmark includes 111,725 variants across the Genome in a Bottle HG002 reference material, advancing variant accuracy across the X and Y chromosomes. This work demonstrates how complete assemblies can expand benchmarks to more difficult regions, while highlighting remaining challenges in variant benchmarking in complex genomic regions such as gene conversions, copy number variable gene arrays, and human satellites.
0

The Sentieon Genomics Tools - A fast and accurate solution to variant calling from next-generation sequence data

Donald Freed et al.Mar 10, 2017
J
J
R
D
In the past six years worldwide capacity for human genome sequencing has grown by more than five orders of magnitude, with costs falling by nearly two orders of magnitude over the same period. The rapid expansion in the production of next-generation sequence data and the use of these data in a wide range of new applications has created a need for improved computational tools for data processing. The Sentieon Genomics tools provide an optimized reimplementation of the most accurate pipelines for calling variants from next-generation sequence data, resulting in more than a 10-fold increase in processing speed while providing identical results to best practices pipelines. Here we demonstrate the consistency and improved performance of Sentieon's tools relative to BWA, GATK, MuTect, and MuTect2 through analysis of publically available human exome, low-coverage genome, and high-depth genome sequence data.
27

Sentieon DNAscope LongRead – A highly Accurate, Fast, and Efficient Pipeline for Germline Variant Calling from PacBio HiFi reads

Donald Freed et al.Jun 3, 2022
Z
A
W
D
Abstract PacBio ® HiFi sequencing is the first technology to offer economical and highly accurate long-read sequencing, with average read lengths greater than 10kb and average base accuracy of 99.8% 1 . Here, we present DNAscope LongRead, an accurate and efficient pipeline for germline variant calling from PacBio ® HiFi reads. DNAscope LongRead is a modification and extension of Sentieon’s DNAscope tool, a precisionFDA award-winning variant caller. DNAscope LongRead is computationally efficient, calling variants from 30x HiFi samples in under 4 hours on a 16-core machine (120 virtual core-hours) and highly accurate, with precision and recall on the most recent GIAB benchmark dataset exceeding 99.83% for HiFi samples sequenced at 30x coverage, and robust to changes in benchmark dataset and upstream library preparation and sequencing.