FF
Faisal Fadlelmola
Author with expertise in Management and Reproducibility of Scientific Workflows
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(60% Open Access)
Cited by:
407
h-index:
14
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
20

Design considerations for workflow management systems use in production genomics research and the clinic

Azza Ahmed et al.Apr 5, 2021
ABSTRACT Background The changing landscape of genomics research and clinical practice has created a need for computational pipelines capable of efficiently orchestrating complex analysis stages while handling large volumes of data across heterogeneous computational environments. Workflow Management Systems (WfMSs) are the software components employed to fill this gap. Results This work provides an approach and systematic evaluation of key features of popular bioinformatics WfMSs in use today: Nextflow, CWL, and WDL and some of their executors, along with Swift/T, a workflow manager commonly used in high-scale physics applications. We employed two use cases: a variant-calling genomic pipeline and a scalability-testing framework, where both were run locally, on an HPC cluster, and in the cloud. This allowed for evaluation of those four WfMSs in terms of language expressiveness, modularity, scalability, robustness, reproducibility, interoperability, ease of development, along with adoption and usage in research labs and healthcare settings. This article is trying to answer, “which WfMS should be chosen for a given bioinformatics application regardless of analysis type?” . Conclusions The choice of a given WfMS is a function of both its intrinsic language and engine features. Within bioinformatics, where analysts are a mix of dry and wet lab scientists, the choice is also governed by collaborations and adoption within large consortia and technical support provided by the WfMS team/community. As the community and its needs continue to evolve along with computational infrastructure, WfMSs will also evolve, especially those with permissive licenses that allow commercial use. In much the same way as the dataflow paradigm and containerization are now well understood to be very useful in bioinformatics applications, we will continue to see innovations of tools and utilities for other purposes, like big data technologies, interoperability, and provenance.
20
Paper
Citation5
0
Save
0

The extent and impact of variation in ADME genes in sub-Saharan African populations

Jorge Rocha et al.Jun 14, 2020
Abstract Investigating variation in genes involved in the absorption, distribution, metabolism , and excretion (ADME) of drugs are key to characterising pharmacogenomic (PGx) relationships. ADME gene variation is relatively well characterised in European and Asian populations, but African populations are under-studied – which has implications for safe and effective drug use in Africa. The genetic diversity of ADME genes across sub-Saharan African populations is large. The Southern African population cluster is most distinct from that of far West Africa. PGx strategies based on European variants will be of limited use in African populations. Although established variants are important, PGx must take into account the full range of African variation. This work urges further characterisation of variants in African populations including in vitro and in silico studies, and to consider the unique African ADME landscape when developing precision medicine guidelines and tools for African populations. Author summary The ADME genes are a group of genes that play a key role in absorption, distribution, metabolism and excretion of drugs. Variations in these genes can have a significant impact on drug safety and efficacy. Africa has a high level of genetic variation and is under-studied in drug development, which makes study of variations in these genes in African populations very important. Using a new data set of 458 high-coverage genomes from across Africa, we characterise the extent and impact of variation in the ADME genes, looking at both single nucleotide and copy number variations. We identified 343,368 variants, including 40,692 novel variants, and 930 coding variants which are predicted to have high impact on function. Our discovery curves indicate that there will be considerable value in sequencing more African genomes. Moreover, relatively few of these novel variants are captured on common genotyping arrays. We show that there is considerable diversity within Africa in some important genes, and this will have significant consequences for the emerging field of precision medicine in Africa.
0
Citation2
0
Save
0

Managing genomic variant calling workflows with Swift/T

Azza Ahmed et al.Jan 18, 2019
Genomic variant discovery is frequently performed using the GATK Best Practices variant calling pipeline, a complex workflow with multiple steps, fans/merges, and conditionals. This complexity makes management of the workflow difficult on a computer cluster, especially when running in parallel on large batches of data: hundreds or thousands of samples at a time. Here we describe a wrapper for the GATK-based variant calling workflow using the Swift/T parallel scripting language. Standard built-in features include the flexibility to split by chromosome before variant calling, optionally permitting the analysis to continue when faulty samples are detected, and allowing users to analyze multiple samples in parallel within each cluster node. The use of Swift/T conveys two key advantages: (1) Thanks to the embedded ability of Swift/T to transparently operate in multiple cluster scheduling environments (PBS Torque, SLURM, Cray aprun environment, etc.,) a single workflow is trivially portable across numerous clusters; (2) The leaf functions of Swift/T permit developers to easily swap executables in and out of the workflow, conditional on the analyst's choice, which makes the workflow easy to maintain. This modular design permits separation of the workflow into multiple stages and the request of resources optimal for each stage of the pipeline. While Swift/T's implicit data-level parallelism eliminates the need for the developer to code parallel analysis of multiple samples, it does make debugging of the workflow a bit more difficult, as is the case with any implicitly parallel code. With the above features, users have a powerful and portable way to scale up their variant calling analysis to run in many traditional computer cluster architectures. https://github.com/ncsa/Swift-T-Variant-Calling http://swift-t-variant-calling.readthedocs.io/en/latest/