YF
Yossi Farjoun
Author with expertise in RNA Sequencing Data Analysis
Jewish General Hospital, McGill University, Fulcrum Therapeutics (United States)
+ 10 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
11
(36% Open Access)
Cited by:
51
h-index:
24
/
i10-index:
34
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
376

Cost-efficient whole genome-sequencing using novel mostly natural sequencing-by-synthesis chemistry and open fluidics platform

Gilad Almogy et al.Oct 13, 2023
+37
F
M
G
Abstract We introduce a massively parallel novel sequencing platform that combines an open flow cell design on a circular wafer with a large surface area and mostly natural nucleotides that allow optical end-point detection without reversible terminators. This platform enables sequencing billions of reads with longer read length (∼300bp) and fast runs times (<20hrs) with high base accuracy (Q30 > 85%), at a low cost of $1/Gb. We establish system performance by whole-genome sequencing of the Genome-In-A-Bottle reference samples HG001-7, demonstrating high accuracy for SNPs (99.6%) and Indels in homopolymers up to length 10 (96.4%) across the vast majority (>98%) of the defined high-confidence regions of these samples. We demonstrate scalability of the whole-genome sequencing workflow by sequencing an additional 224 selected samples from the 1000 Genomes project achieving high concordance with reference data.
376
Paper
Citation33
0
Save
0

Mapping and characterization of structural variation in 17,795 human genomes

Haley Abel et al.Sep 14, 2024
+97
A
D
H
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Konrad Karczewski et al.May 6, 2020
+161
S
X
K
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Paper
Citation8
0
Save
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.May 6, 2020
+62
G
L
K
Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes critical for an organism’s function will be depleted for such variants in natural populations, while non-essential genes will tolerate their accumulation. However, predicted loss-of-function (pLoF) variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes[1][1]. Here, we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence pLoF variants in this cohort after filtering for sequencing and annotation artifacts. Using an improved human mutation rate model, we classify human protein-coding genes along a spectrum representing tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve gene discovery power for both common and rare diseases.### Competing Interest Statement [1]: #ref-1
0
0
Save
0

Characterization and remediation of sample index swaps by non-redundant dual indexing on massively parallel sequencing platforms

Maura Costello et al.May 6, 2020
+12
J
M
M
Here, we present an in-depth characterization of the index swapping mechanism on Illumina instruments that employ the ExAmp chemistry for cluster generation (HiSeqX, HiSeq4000, and NovaSeq). We discuss best practices for eliminating the effects of index swapping on data integrity by utilizing unique dual indexing for complete filtering of index swapped reads. We calculate mean swap rates across multiple sample preparation methods and sequencer models, demonstrating that different methods can have vastly different swap rates, and show that even non-ExAmp chemistry instruments display trace levels of index swapping. Finally, using computational methods we provide a greater insight into the mechanism of index swapping.
0

Systematic comparison of monoclonal versus polyclonal antibodies for mapping histone modifications by ChIP-seq

Michele Busby et al.May 7, 2020
+9
C
C
M
Background: The robustness of ChIP-seq datasets is highly dependent upon the antibodies used. Currently, polyclonal antibodies are the standard despite several limitations: they are non-renewable, vary in performance between lots, and need to be validated with each new lot. In contrast, monoclonal antibody lots are renewable and provide consistent performance. To increase ChIP-seq standardization, we investigated whether monoclonal antibodies could replace polyclonal antibodies. We compared monoclonal antibodies that target five key histone modifications (H3K4me1, H3K4me3, H3K9me3, H3K27ac and H3K27me3) to their polyclonal counterparts in both human and mouse cells. Results: Overall performance was highly similar for four monoclonal/polyclonal pairs, including when we used two distinct lots of the same monoclonal antibody. In contrast, the binding patterns for H3K27ac differed substantially between polyclonal and monoclonal antibodies. However, this was most likely due to the distinct immunogen used rather than the clonality of the antibody. Conclusions: Altogether, we found that monoclonal antibodies as a class perform as well as polyclonal antibodies for the detection of histone post-translational modifications in both human and mouse. Accordingly, we recommend the use of monoclonal antibodies in ChIP-seq experiments.
0

Somatic Truth Data from Cell Lineage

Megan Shand et al.May 7, 2020
+6
L
J
M
Existing somatic benchmark datasets for human sequencing data use germline variants, synthetic methods, or expensive validations, none of which are satisfactory for providing a large collection of true somatic variation across a whole genome. Here we propose a dataset of short somatic mutations, that are validated using a known cell lineage. The dataset contains 56,974 (2,687 unique) Single Nucleotide Variations (SNV), 6,370 (316 unique) small Insertions and Deletions (Indels), and 144 (8 unique) Copy Number Variants (CNV) across 98 in silico mixed truth sets with a high confidence region covering 2.7 gigabases per mixture. The data is publicly available for use as a benchmarking dataset for somatic short mutation discovery pipelines.
0

Detecting sample swaps in diverse NGS data types using linkage disequilibrium

Nauman Javed et al.May 7, 2020
+3
T
Y
N
As the number of genomics datasets grows rapidly, sample mislabeling has become a high stakes issue. We present CrosscheckFingerprints (Crosscheck), a tool for quantifying sample-relatedness and detecting incorrectly paired sequencing datasets from different donors. Crosscheck outperforms similar methods and is effective even when data are sparse or from different assays. Application of Crosscheck to 8851 ENCODE ChIP-, RNA-, and DNase-seq datasets enabled us to identify and correct dozens of mislabeled samples and ambiguous metadata annotations, representing ~1% of ENCODE datasets.### Competing Interest StatementThe authors have declared no competing interest.
0
0
Save
0

Functional equivalence of genome sequencing analysis pipelines enables harmonized variant calling across human genetics projects

Allison Regier et al.May 6, 2020
+17
D
Y
A
Hundreds of thousands of human whole genome sequencing (WGS) datasets will be generated over the next few years to interrogate a broad range of traits, across diverse populations. These data are more valuable in aggregate: joint analysis of genomes from many sources increases sample size and statistical power for trait mapping, and will enable studies of genome biology, population genetics and genome function at unprecedented scale. A central challenge for joint analysis is that different WGS data processing and analysis pipelines cause substantial batch effects in combined datasets, necessitating computationally expensive reprocessing and harmonization prior to variant calling. This approach is no longer tenable given the scale of current studies and data volumes. Here, in a collaboration across multiple genome centers and NIH programs, we define WGS data processing standards that allow different groups to produce "functionally equivalent" (FE) results suitable for joint variant calling with minimal batch effects. Our approach promotes broad harmonization of upstream data processing steps, while allowing for diverse variant callers. Importantly, it allows each group to continue innovating on data processing pipelines, as long as results remain compatible. We present initial FE pipelines developed at five genome centers and show that they yield similar variant calling results — including single nucleotide (SNV), insertion/deletion (indel) and structural variation (SV) — and produce significantly less variability than sequencing replicates. Residual inter-pipeline variability is concentrated at low quality sites and repetitive genomic regions prone to stochastic effects. This work alleviates a key technical bottleneck for genome aggregation and helps lay the foundation for broad data sharing and community-wide "big-data" human genetics studies.
290

A genome-wide mutational constraint map quantified from variation in 76,156 human genomes

Siwei Chen et al.Oct 11, 2023
+42
J
L
S
Abstract The depletion of disruptive variation caused by purifying natural selection (constraint) has been widely used to investigate protein-coding genes underlying human disorders, but attempts to assess constraint for non-protein-coding regions have proven more difficult. Here we aggregate, process, and release a dataset of 76,156 human genomes from the Genome Aggregation Database (gnomAD), the largest public open-access human genome reference dataset, and use this dataset to build a mutational constraint map for the whole genome. We present a refined mutational model that incorporates local sequence context and regional genomic features to detect depletions of variation across the genome. As expected, proteincoding sequences overall are under stronger constraint than non-coding regions. Within the non-coding genome, constrained regions are enriched for known regulatory elements and variants implicated in complex human diseases and traits, facilitating the triangulation of biological annotation, disease association, and natural selection to non-coding DNA analysis. More constrained regulatory elements tend to regulate more constrained protein-coding genes, while non-coding constraint captures additional functional information underrecognized by gene constraint metrics. We demonstrate that this genome-wide constraint map provides an effective approach for characterizing the non-coding genome and improving the identification and interpretation of functional human genetic variation.
Load More