RA
Roberto Alvarez
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(83% Open Access)
Cited by:
9
h-index:
13
/
i10-index:
14
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

BioContainers Registry: searching for bioinformatics tools, packages and containers

Jinwen Bai et al.Jul 22, 2020
+8
M
R
J
1 Abstract BioContainers is an open-source project that aims to create, store, and distribute bioinformatics software containers and packages. The BioContainers community has developed a set of guidelines to standardize the software containers including the metadata, versions, licenses, and/or software dependencies. BioContainers supports multiple packaging and containers technologies such as Conda, Docker, and Singularity. Here, we introduce the BioContainers Registry and Restful API to make containerized bioinformatics tools more findable, accessible, interoperable, and reusable (FAIR). BioContainers registry provides a fast and convenient way to find and retrieve bioinformatics tools packages and containers. By doing so, it will increase the use of bioinformatics packages and containers while promoting replicability and reproducibility in research.
1
Citation6
0
Save
9

Conservation and evolution of the sporulation gene set in diverse members of the Firmicutes

Michael Galperin et al.Feb 26, 2022
+2
N
R
M
ABSTRACT The current classification of the phylum Firmicutes (new name, Bacillota ) features eight distinct classes, six of which include known spore-forming bacteria. In Bacillus subtilis , sporulation involves up to 500 genes, many of which do not have orthologs in other bacilli and/or clostridia. Previous studies identified about 60 sporulation genes of B. subtilis that were shared by all spore-forming members of the Firmicutes. These genes are referred to as the sporulation core or signature although many of these are found also in genomes of non-spore-formers. Using an expanded set of 180 firmicute genomes from 160 genera, including 76 spore-forming species, we investigated the conservation of the sporulation genes, in particular, seeking to identify lineages that lack some of the genes from the conserved sporulation core. The results of this analysis confirmed that many small acid-soluble spore proteins (SASPs), spore coat proteins, and germination proteins, which were previously characterized in bacilli, are missing in spore-forming members of Clostridia and other classes of Firmicutes. A particularly dramatic loss of sporulation genes was observed in the spore-forming members of the families Planococcaceae and Erysipelotrichaceae . Fifteen species from diverse lineages were found to carry skin ( sigK -interrupting) elements of different sizes that all encoded SpoIVCA-like recombinases but did not share any other genes. Phylogenetic trees built from concatenated alignments of sporulation proteins and ribosomal proteins showed similar topology, indicating an early origin and subsequent vertical inheritance of the sporulation genes. IMPORTANCE Many members of the phylum Firmicutes ( Bacillota ) are capable of producing endospores, which enhance the survival of important Gram-positive pathogens that cause such diseases as anthrax, botulism, colitis, gas gangrene, and tetanus. We show that the core set of sporulation genes, defined previously through genome comparisons of several bacilli and clostridia, is conserved in a wide variety of spore-formers from several distinct lineages of Firmicutes. We also detect widespread loss of sporulation genes in many organisms, particularly within families Planococcaceae and Erysipelotrichaceae. Members of these families, such as Lysinobacillus sphaericus and Clostridium innocuum , could be excellent model organisms for studying sporulation mechanisms, such as engulfment, formation of the spore coat, and spore germination.
9
Citation2
0
Save
6

De novotranscriptome assembly and the effect of foreign RNA contamination

Roberto Alvarez et al.Nov 7, 2022
D
R
Abstract Multiple next-generation-sequencing (NGS)-based studies are enabled by the availability of a reference genome of the target organism. Unfortunately, several organisms remain unannotated due to the cost and complexity of generating a complete (or close to complete) reference genome. These unannotated organisms, however, can also be studied if a de novo reference transcriptome is assembled from whole transcriptome sequencing experiments. This technology is cost effective and widely used but is susceptible to off-target RNA contamination. In this manuscript, we present GTax, a taxonomy structured database of genomic sequences that can be used with BLAST to detect and remove foreign contamination in RNA sequencing samples before assembly. In addition, we investigate the effect of foreign RNA contamination on a de novo transcriptome assembly of Solanum lycopersicum (tomato). Our study demonstrates that removing foreign contamination in sequencing samples reduces the number of assembled chimeric transcripts.
6
Citation1
0
Save
31

ElasticBLAST: Accelerating Sequence Search via Cloud Computing

Christiam Camacho et al.Jan 4, 2023
+2
G
R
C
Biomedical researchers use alignments produced by BLAST (Basic Local Alignment Search Tool) to categorize their query sequences. Producing such alignments is an essential bioinformatics task that is well suited for the cloud. The cloud can perform many calculations quickly as well as store and access large volumes of data. Bioinformaticians can also use it to collaborate with other researchers, sharing their results, datasets and even their pipelines on a common platform.We present ElasticBLAST, a cloud native application to perform BLAST alignments in the cloud. ElasticBLAST can handle anywhere from a few to many thousands of queries and run the searches on thousands of virtual CPUs (if desired), deleting resources when it is done. It uses cloud native tools for orchestration and can request discounted instances, lowering cloud costs for users. It is supported on Amazon Web Services and Google Cloud Platform. It can search BLAST databases that are user provided or from the National Center for Biotechnology Information.We show that ElasticBLAST is a useful application that can efficiently perform BLAST searches for the user in the cloud, demonstrating that with two examples. At the same time, it hides much of the complexity of working in the cloud, lowering the threshold to move work to the cloud.
0

BAMscale: quantification of DNA sequencing peaks and generation of scaled coverage tracks

Lőrinc Pongor et al.Jun 13, 2019
+13
R
J
L
BAMscale is a one-step tool that processes DNA sequencing datasets from chromatin binding (ChIP-seq) and chromatin state changes (ATAC-seq, END-seq) experiments to DNA replication data (OK-seq, NS-seq and replication timing). The outputs include normalized peak scores in text format and scaled coverage tracks (BigWig) which are directly accessible to data visualization programs. BAMscale (available at ) effectively processes large sequencing datasets (~100Gb size) in minutes, outperforming currently available tools.
12

Non-essential ribosomal proteins in bacteria and archaea identified using COGs

Michael Galperin et al.Feb 1, 2021
+2
Y
R
M
ABSTRACT Ribosomal proteins (RPs) are highly conserved across the bacterial and archaeal domains. Although many RPs are essential for survival, genome analysis demonstrates the absence of some RP genes in many bacterial and archaeal genomes. Furthermore, global transposon mutagenesis and/or targeted deletion showed that elimination of some RP genes had only a moderate effect on the bacterial growth rate. Here, we systematically analyze the evolutionary conservation of RPs in prokaryotes by compiling the list of the ribosomal genes that are missing from the one or more genomes in the recently updated version of the Clusters of Orthologous Genes (COG) database. Some of these absences occurred because the respective genes carried frameshifts, presumably, resulting from sequencing errors, while others were overlooked and not translated during genome annotation. Apart from these annotation errors, we identified multiple genuine losses of RP genes in a variety of bacteria and archaea. Some of these losses are clade-specific, whereas others occur in symbionts and parasites with dramatically reduced genomes. The lists of computationally and experimentally defined non-essential ribosomal genes show a substantial overlap, revealing a common trend in prokaryote ribosome evolution that could be linked to the architecture and assembly of the ribosomes. Thus, RPs that are located at the surface of the ribosome and/or are incorporated at a late stage of ribosome assembly are more likely to be non-essential and to be lost during microbial evolution, particularly, in the course of genome compaction. IMPORTANCE In many prokaryote genomes, one or more ribosomal protein (RP) genes are missing. Analysis of 1,309 prokaryote genomes included in the COG database shows that only about half of the RPs are universally conserved in bacteria and archaea. In contrast, up to 21 other RPs are missing in some genomes, primarily, tiny (<1 Mb) genomes of host-associated bacteria and archaea. Ten universal and nine archaea-specific ribosomal proteins show clear patterns of lineage-specific gene loss. Most of the RPs that are frequently lost from bacterial genomes are located on the ribosome periphery and are non-essential in Escherichia coli and Bacillus subtilis . These results reveal general trends and common constraints in the architecture and evolution of ribosomes in prokaryotes.