DJ
David Jáspez
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
29
h-index:
8
/
i10-index:
7
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

A benchmarking of human mitochondrial DNA haplogroup classifiers from whole-genome and whole-exome sequence data

Víctor García‐Olivares et al.Feb 12, 2021
Abstract The mitochondrial genome (mtDNA) is of interest for a range of fields including evolutionary, forensic, and medical genetics. Human mitogenomes can be classified into evolutionary related haplogroups that provide ancestral information and pedigree relationships. Because of this and the advent of high-throughput sequencing (HTS) technology, there is a diversity of bioinformatic tools for haplogroup classification. We present a benchmarking of the 11 most salient tools for human mtDNA classification using empirical whole-genome (WGS) and whole-exome (WES) short-read sequencing data from 36 unrelated donors. Besides, because of its relevance, we also assess the best performing tool in third-generation long noisy read WGS data obtained with nanopore technology for a subset of the donors. We found that, for short-read WGS, most of the tools exhibit high accuracy for haplogroup classification irrespective of the input file used for the analysis. However, for short-read WES, Haplocheck and MixEmt were the most accurate tools. Based on the performance shown for WGS and WES, and the accompanying qualitative assessment, Haplocheck stands out as the most complete tool. For third-generation HTS data, we also showed that Haplocheck was able to accurately retrieve mtDNA haplogroups for all samples assessed, although only after following assembly-based approaches (either based on a referenced-based assembly or a hybrid de novo assembly). Taken together, our results provide guidance for researchers to select the most suitable tool to conduct the mtDNA analyses from HTS data.
1
Citation2
0
Save
8

A benchmarking of human Y-chromosomal haplogroup classifiers from whole-genome and whole-exome sequence data

Víctor García‐Olivares et al.Sep 19, 2022
Abstract The non-recombinant region of the Y chromosome (NRY) contains a great number of polymorphic markers that allows to accurately reconstruct pedigree relationships and retrieve ancestral information from study samples. The analysis of NRY is typically implemented in anthropological, medical, and forensic studies. High-throughput sequencing (HTS) has profoundly increased the identification of genetic markers in the NRY genealogy and has prompted the development of automated NRY haplogroup classification tools. Here, we present a benchmarking study of five command-line tools for NRY haplogroup classification. The evaluation was done using empirical short-read HTS data from 50 unrelated donors using paired data from whole-genome sequencing (WGS) and whole-exome sequencing (WES) experiments. Besides, we evaluate the performance of the top-ranked tool in the classification of data of third generation HTS obtained from a subset of donors. Our findings demonstrate that WES can be an efficient approach to infer the NRY haplogroup, albeit generally providing a lower level of genealogical resolution than that recovered by WGS. Among the tools evaluated, YLeaf offers the best performance for both WGS and WES applications. Finally, we demonstrate that YLeaf is able to correctly classify all samples sequenced with nanopore technology from long noisy reads.
8
Citation1
0
Save
0

A tiered strategy to identify relevant genetic variants in familial pulmonary fibrosis: a proof of concept for the clinical practice

Aitana Alonso-González et al.Jan 2, 2025
Abstract Idiopathic pulmonary fibrosis (IPF) is a progressive, late-onset disease marked by lung scarring and irreversible loss of lung function. Genetic factors significantly contribute to both familial and sporadic cases, yet there are scarce evidence-based studies highlighting the benefits of integrating genetics into the management of IPF patients. In this study, we performed whole-exome sequencing and telomere length (TL) measurements on IPF patients and their relatives. We then identified rare deleterious variants using three virtual gene panels encompassing IPF or TL genes with varying levels of evidence supporting their potential relationship with the disease. We identified 10 candidate variants in well-established disease genes, and these results were validated using two automatic prioritization tools (Exomiser and Franklin). Pathogenic variants were found in two telomere-related genes ( RTEL1 and NAF1 ), and both were associated with severe TL shortening. Our results suggest that this tiered virtual panel strategy is sufficiently robust and serves as a viable solution in clinical practice. It generates valuable genetic data which can be interpreted and validated with the expertise of a multidisciplinary team.
131

precisionFDA Truth Challenge V2: Calling variants from short- and long-reads in difficult-to-map regions

Nathan Olson et al.Nov 15, 2020
Summary The precisionFDA Truth Challenge V2 aimed to assess the state-of-the-art of variant calling in difficult-to-map regions and the Major Histocompatibility Complex (MHC). Starting with FASTQ files, 20 challenge participants applied their variant calling pipelines and submitted 64 variant callsets for one or more sequencing technologies (~35X Illumina, ~35X PacBio HiFi, and ~50X Oxford Nanopore Technologies). Submissions were evaluated following best practices for benchmarking small variants with the new GIAB benchmark sets and genome stratifications. Challenge submissions included a number of innovative methods for all three technologies, with graph-based and machine-learning methods scoring best for short-read and long-read datasets, respectively. New methods out-performed the 2016 Truth Challenge winners, and new machine-learning approaches combining multiple sequencing technologies performed particularly well. Recent developments in sequencing and variant calling have enabled benchmarking variants in challenging genomic regions, paving the way for the identification of previously unknown clinically relevant variants.
0

Benchmarking of bioinformatics tools for the hybrid de novo assembly of human whole-genome sequencing data

Adrián Muñoz‐Barrera et al.May 29, 2024
Accurate and complete de novo assembled genomes sustain variant identification and catalyze the discovery of new genomic features and biological functions. However, accurate and precise de novo assemblies of large and complex genomes remains a challenging task. Long-read sequencing data alone or in hybrid mode combined with more accurate short-read sequences facilitate the de novo assembly of genomes. A number of software exists for de novo genome assembly from long-read data although specific performance comparisons to assembly human genomes are lacking. Here we benchmarked 11 different pipelines including four long-read only assemblers and three hybrid assemblers, combined with four polishing schemes for de novo genome assembly of a human reference material sequenced with Oxford Nanopore Technologies and Illumina. In addition, the best performing choice was validated in a non-reference routine laboratory sample. Software performance was evaluated by assessing the quality of the assemblies with QUAST, BUSCO, and Merqury metrics, and the computational costs associated with each of the pipelines were also assessed. We found that Flye was superior to all other assemblers, especially when relying on Ratatosk error-corrected long-reads. Polishing improved the accuracy and continuity of the assemblies and the combination of two rounds of Racon and Pilon achieved the best results. The assembly of the non-reference sample showed comparable assembly metrics as those of the reference material. Based on the results, a complete optimal analysis pipeline for the assembly, polishing, and contig curation developed on Nextflow is provided to enable efficient parallelization and built-in dependency management to further advance in the generation of high-quality and chromosome-level human assemblies.