LL
Leandro Lima
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
28
h-index:
17
/
i10-index:
22
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Exploring bacterial diversity via a curated and searchable snapshot of archived DNA sequences

Grace Blackwell et al.Mar 3, 2021
ABSTRACT The open sharing of genomic data provides an incredibly rich resource for the study of bacterial evolution and function, and even anthropogenic activities such as the widespread use of antimicrobials. Whilst these archives are rich in data, considerable processing is required before biological questions can be addressed. Here, we assembled and characterised 661,405 bacterial genomes using a uniform standardised approach, retrieved from the European Nucleotide Archive (ENA) in November of 2018. A searchable COBS index has been produced, facilitating the easy interrogation of the entire dataset for a specific gene or mutation. Additional MinHash and pp-sketch indices support genome-wide comparisons and estimations of genomic distance. An analysis on this scale revealed the uneven species composition in the ENA/public databases, with just 20 of the total 2,336 species making up 90% of the genomes. The over-represented species tend to be acute/common human pathogens. This aligns with research priorities at different levels from individuals with targeted but focused research questions, areas of focus for the funding bodies or national public health agencies, to those identified globally as priority pathogens by the WHO for their resistance to front and last line antimicrobials. Understanding the actual and potential biases in bacterial diversity depicted in this snapshot, and hence within the data being submitted to the public sequencing archives, is essential if we are to target and fill gaps in our understanding of the bacterial kingdom.
1
Citation7
0
Save
22

Minos: variant adjudication and joint genotyping of cohorts of bacterial genomes

Martin Hunt et al.Sep 15, 2021
Abstract Short-read variant calling for bacterial genomics is a mature field, and there are many widely-used software tools. Different underlying approaches (eg pileup, local or global assembly, paired-read use, haplotype use) lend each tool different strengths, especially when considering non-SNP (single nucleotide polymorphism) variation or potentially distant reference genomes. It would therefore be valuable to be able to integrate the results from multiple variant callers, using a robust statistical approach to “adjudicate” at loci where there is disagreement between callers. To this end, we present a tool, Minos, for variant adjudication by mapping reads to a genome graph of variant calls. Minos allows users to combine output from multiple variant callers without loss of precision. Minos also addresses a second problem of joint genotyping SNPs and indels in bacterial cohorts, which can also be framed as an adjudication problem. We benchmark on 62 samples from 3 species ( Mycobacterium tuberculosis, Staphylococcus aureus, Klebsiella pneumoniae ) and an outbreak of 385 M. tuberculosis samples. Finally, we joint genotype a large M. tuberculosis cohort (N ≈ 15k) for which the rifampicin phenotype is known. We build a map of non-synonymous variants in the RRDR (rifampicin resistance determining region) of the rpoB gene and extend current knowledge relating RRDR SNPs to heterogeneity in rifampicin resistance levels. We replicate this finding in a second M. tuberculosis cohort (N ≈ 13k). Minos is released under the MIT license, available at https://github.com/iqbal-lab-org/minos .
22
Citation6
0
Save
0

HadoopCNV: A dynamic programming imputation algorithm to detect copy number variants from sequencing data

Hui Yang et al.Apr 5, 2017
ABSTRACT BACKGROUND Whole-genome sequencing (WGS) data may be used to identify copy number variations (CNVs). Existing CNV detection methods mostly rely on read depth or alignment characteristics (paired-end distance and split reads) to infer gains/losses, while neglecting allelic intensity ratios and cannot quantify copy numbers. Additionally, most CNV callers are not scalable to handle a large number of WGS samples. METHODS To facilitate large-scale and rapid CNV detection from WGS data, we developed a Dynamic Programming Imputation (DPI) based algorithm called HadoopCNV, which infers copy number changes through both allelic frequency and read depth information. Our implementation is built on the Hadoop framework, enabling multiple compute nodes to work in parallel. RESULTS Compared to two widely used tools – CNVnator and LUMPY, HadoopCNV has similar or better performance on both simulated data sets and real data on the NA12878 individual. Additionally, analysis on a 10-member pedigree showed that HadoopCNV has a Mendelian precision that is similar or better than other tools. Furthermore, HadoopCNV can accurately infer loss of heterozygosity (LOH), while other tools cannot. HadoopCNV requires only 1.6 hours for a human genome with 30X coverage, on a 32-node cluster, with a linear relationship between speed improvement and the number of nodes. We further developed a method to combine HadoopCNV and LUMPY result, and demonstrated that the combination resulted in better performance than any individual tools. CONCLUSIONS The combination of high-resolution, allele-specific read depth from WGS data and Hadoop framework can result in efficient and accurate detection of CNVs.
0
Citation5
0
Save
0

A fast and agnostic method for bacterial genome-wide association studies: bridging the gap between kmers and genetic events

Magali Jaillard et al.Apr 9, 2018
Motivation: Genome-wide association study (GWAS) methods applied to bacterial genomes have shown promising results for genetic marker discovery or fine-assessment of marker effect. Recently, alignment-free methods based on kmer composition have proven their ability to explore the accessory genome. However, they lead to redundant descriptions and results which are hard to interpret. Methods: Here, we introduce DBGWAS, an extended kmer-based GWAS method producing interpretable genetic variants associated with phenotypes. Relying on compacted De Bruijn graphs (cDBG), our method gathers cDBG nodes identified by the association model into subgraphs defined from their neighbourhood in the initial cDBG. DBGWAS is fast, alignment-free and only requires a set of contigs and phenotypes. It produces annotated subgraphs representing local polymorphisms as well as mobile genetic elements (MGE) and offers a graphical framework to interpret GWAS results. Results: We validated our method using antibiotic resistance phenotypes for three bacterial species. DBGWAS recovered known resistance determinants such as mutations in core genes in Mycobacterium tuberculosis and genes acquired by horizontal transfer in Staphylococcus aureus and Pseudomonas aeruginosa - along with their MGE context. It also enabled us to formulate new hypotheses involving genetic variants not yet described in the antibiotic resistance literature. Conclusion: Our novel method proved its efficiency to retrieve any type of phenotype-associated genetic variant without prior knowledge. All experiments were computed in less than two hours and reported a compact set of meaningful subgraphs, thereby outperforming other GWAS approaches and facilitating the interpretation of the results. Availability: Open-source tool available at https://gitlab.com/leoisl/dbgwas
8

An integrated multi-omic analysis of iPSC-derived motor neurons from C9ORF72 ALS patients

Loren Ornelas et al.Nov 1, 2020
Summary Neurodegenerative diseases present a challenge for systems biology, due to the lack of reliable animal models and the difficulties in obtaining samples from patients at early stages of disease, when interventions might be most effective. Studying induced pluripotent stem cell (iPSC)-derived neurons could overcome these challenges and dramatically accelerate and broaden therapeutic strategies. Here we undertook a network-based multi-omic characterization of iPSC-derived motor neurons from ALS patients carrying genetically dominant hexanucleotide expansions in C9orf72 to gain a deeper understanding of the relationship between DNA, RNA, epigenetics and protein in the same pool of tissue. ALS motor neurons showed the expected C9orf72 -related alterations to specific nucleoporins and production of dipeptide repeats. RNA-seq, ATAC-seq and data-independent acquisition mass-spectrometry (DIA-MS) proteomics were then performed on the same motor neuron cultures. Using integrative computational methods that combined all of the omics, we discovered a number of novel dysregulated pathways including biological adhesion and extracellular matrix organization and disruption in other expected pathways such as RNA splicing and nuclear transport. We tested the relevance of these pathways in vivo in a C9orf72 Drosophila model, analyzing the data to determine which pathways were causing disease phenotypes and which were compensatory. We also confirmed that some pathways are altered in late-stage neurodegeneration by analyzing human postmortem C9 cervical spine data. To validate that these key pathways were integral to the C9 signature, we prepared a separate set of C9orf72 and control motor neuron cultures using a different differentiation protocol and applied the same methods. As expected, there were major overall differences between the differentiation protocols, especially at the level of in individual omics data. However, a number of the core dysregulated pathways remained significant using the integrated multiomic analysis. This new method of analyzing patient specific neural cultures allows the generation of disease-related hypotheses with a small number of patient lines which can be tested in larger cohorts of patients.
1

CALDERA: Finding all significant de Bruijn subgraphs for bacterial GWAS

Hector Bézieux et al.Nov 5, 2021
Abstract Genome wide association studies (GWAS), aiming to find genetic variants associated with a trait, have widely been used on bacteria to identify genetic determinants of drug resistance or hypervirulence. Recent bacterial GWAS methods usually rely on k -mers, whose presence in a genome can denote variants ranging from single nucleotide polymorphisms to mobile genetic elements. Since many bacterial species include genes that are not shared among all strains, this approach avoids the reliance on a common reference genome. However, the same gene can exist in slightly different versions across different strains, leading to diluted effects when trying to detect its association to a phenotype through k -mer based GWAS. Here we propose to overcome this by testing covariates built from closed connected subgraphs of the De Bruijn graph defined over genomic k -mers. These covariates are able to capture polymorphic genes as a single entity, improving k -mer based GWAS in terms of power and interpretability. As the number of subgraphs is exponential in the number of nodes in the DBG, a method naively testing all possible subgraphs would result in very low statistical power due to multiple testing corrections, and the mere exploration of these subgraphs would quickly become computationally intractable. The concept of testable hypothesis has successfully been used to address both problems in similar contexts. We leverage this concept to test all closed connected subgraphs by proposing a novel enumeration scheme for these objects which fully exploits the pruning opportunity offered by testability, resulting in drastic improvements in computational efficiency. We illustrate this on both real and simulated datasets and also demonstrate how considering subgraphs leads to a more powerful and interpretable method. Our method integrates with existing visual tools to facilitate interpretation. We also provide an implementation of our method, as well as code to reproduce all results at https://github.com/HectorRDB/Caldera_Recomb .