MR
Marcel Ramos
Author with expertise in Microarray Data Analysis and Gene Expression Profiling
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(50% Open Access)
Cited by:
31
h-index:
15
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
24

Curated Single Cell Multimodal Landmark Datasets for R/Bioconductor

L. Waldron et al.Oct 28, 2021
Abstract Background The majority of high-throughput single-cell molecular profiling methods quantify RNA expression; however, recent multimodal profiling methods add simultaneous measurement of genomic, proteomic, epigenetic, and/or spatial information on the same cells. The development of new statistical and computational methods in Bioconductor for such data will be facilitated by easy availability of landmark datasets using standard data classes. Results We collected, processed, and packaged publicly available landmark datasets from important single-cell multimodal protocols, including CITE-Seq, ECCITE-Seq, SCoPE2, scNMT, 10X Multiome, seqFISH, and G&T. We integrate data modalities via the MultiAssayExperiment Bioconductor class, document and re-distribute datasets as the SingleCellMultiModal package in Bioconductor’s Cloud-based ExperimentHub . The result is single-command actualization of landmark datasets from seven single-cell multimodal data generation technologies, without need for further data processing or wrangling in order to analyze and develop methods within Bioconductor’s ecosystem of hundreds of packages for single-cell and multimodal data. Conclusions We provide two examples of integrative analyses that are greatly simplified by SingleCellMultiModal . The package will facilitate development of bioinformatic and statistical methods in Bioconductor to meet the challenges of integrating molecular layers and analyzing phenotypic outputs including cell differentiation, activity, and disease. Author Summary Experimental data packages that provide landmark datasets have historically played an important role in the development of new statistical methods in Bioconductor by lowering the barrier of access to relevant data, providing a common testing ground for software development and benchmarking, and encouraging interoperability around common data structures. In this manuscript, we review major classes of technologies for collecting multimodal data including genomics, transcriptomics, epigenetics, proteomics, and spatial information at the level of single cells. We present the SingleCellMultiModal R/Bioconductor package that provides single-command access to landmark datasets from seven different technologies, storing datasets using HDF5 and sparse arrays for memory efficiency and integrating data modalities via the MultiAssayExperiment class. We demonstrate two integrative analyses that are greatly simplified by SingleCellMultiModal. The package facilitates development and benchmarking of bioinformatic and statistical methods to integrate molecular layers at the level of single cells with phenotypic outputs including cell differentiation, activity, and disease, within Bioconductor’s ecosystem of hundreds of packages for single-cell and multimodal data.
38

HGNChelper: identification and correction of invalid gene symbols for human and mouse

Sehyun Oh et al.Sep 18, 2020
Abstract Gene symbols are recognizable identifiers for gene names but are unstable and error-prone due to aliasing, manual entry, and unintentional conversion by spreadsheets to date format. Official gene symbol resources such as HUGO Gene Nomenclature Committee (HGNC) for human genes and the Mouse Genome Informatics project (MGI) for mouse genes provide authoritative sources of valid, aliased, and outdated symbols, but lack a programmatic interface and correction of symbols converted by spreadsheets. We present HGNChelper, an R package that identifies known aliases and outdated gene symbols based on the HGNC human and MGI mouse gene symbol databases, in addition to common mislabeling introduced by spreadsheets, and provides corrections where possible. HGNChelper identified invalid gene symbols in the most recent Molecular Signatures Database (mSigDB 7.0) and in platform annotation files of the Gene Expression Omnibus, with prevalence ranging from ∼3% in recent platforms to 30-40% in the earliest platforms from 2002-03. HGNChelper is installable from CRAN, with open development and issue tracking on GitHub and an associated pkgdown site https://waldronlab.io/HGNChelper/ .
38
Citation1
0
Save
54

GenomicSuperSignature: interpretation of RNA-seq experiments through robust, efficient comparison to public databases

Sehyun Oh et al.May 27, 2021
Abstract Millions of transcriptomic profiles have been deposited in public archives, yet remain underused for the interpretation of new experiments. We present a novel method for interpreting new transcriptomic datasets through near-instantaneous comparison to public archives without high-performance computing requirements. We performed Principal Component Analysis on 536 studies comprising 44,890 RNA sequencing profiles. Sufficiently similar loading vectors were aggregated to form R eplicable A xes of V ariation (RAV). RAVs were annotated with metadata of originating studies and samples and by gene set enrichment analysis. Functionality to associate new datasets with RAVs, extract interpretable annotations, and provide intuitive visualization are implemented as the GenomicSuperSignature R/Bioconductor package. We demonstrated the efficient and coherent database searching, robustness to batch effects and heterogeneous training data, and transfer learning capacity of our method using TCGA and rare diseases datasets. GenomicSuperSignature will aid analyzing new gene expression data in the context of existing databases using minimal computing resources. PURPOSE Millions of transcriptomic profiles have been deposited in public archives, yet remain underused for the interpretation of new experiments. Existing methods for leveraging these public resources have focused on the reanalysis of existing data or analysis of new datasets independently. We present a novel approach to interpreting new transcriptomic datasets by near-instantaneous comparison to public archives without high-performance computing requirements. METHODS To identify replicable and interpretable axes of variation in any given gene expression dataset, we performed Principal Component Analysis (PCA) on 536 studies comprising 44,890 RNA sequencing profiles. Sufficiently similar loading vectors, when compared across studies, were aggregated to form R eplicable A xes of V ariation (RAV). RAVs were annotated with metadata of originating studies and samples and by gene set enrichment analysis. Functionality to associate new datasets with RAVs, extract interpretable annotations, and provide intuitive visualization are implemented as the GenomicSuperSignature R/Bioconductor package. RESULTS RAVs are robust to batch effects and the presence of low-quality or irrelevant studies, and identify signals that can be lost by merging samples across the training datasets. The GenomicSuperSignature package allows instantaneous matching of PCA axes in new datasets to pre-computed RAVs, cutting down the analysis time from days to the order of seconds on an ordinary laptop. We demonstrate that RAVs associated with a phenotype can provide insight into weak or indirectly measured biological attributes in a new study by leveraging accumulated data from published datasets. Benchmarking against complementary previous works demonstrates that the RAV index 1) identifies colorectal carcinoma transcriptome subtypes that are similar to but more correlated with clinicopathological characteristics than previous disease-specific efforts and 2) can estimate neutrophil counts through transfer learning on new data comparably to the previous efforts despite major differences in training datasets and model building processes with the additional benefits of flexibility and scalability of the model application. CONCLUSION GenomicSuperSignature establishes an information resource and software tools to interrogate it. Prior knowledge databases are coherently linked, enabling researchers to analyze new gene expression data in the context of existing databases using minimal computing resources. The robustness of GenomicSuperSignature suggests that we can expand this approach beyond human gene expression profiles, such as single-cell RNA-seq, microbiome abundance, and different species’ transcriptomics datasets.
0

Reliable analysis of clinical tumor-only whole exome sequencing data

Sehyun Oh et al.Feb 18, 2019
Background: Allele-specific copy number alteration (CNA) analysis is essential to study the functional impact of single nucleotide variants (SNV) and the process of tumorigenesis. Most commonly used tools in the field rely on high quality genome-wide data with matched normal profiles, limiting their applicability in clinical settings. Methods: We propose a workflow, based on the open-source PureCN R/Bioconductor package in conjunction with widely used variant-calling and copy number segmentation algorithms, for allele-specific CNA analysis from whole exome sequencing (WES) without matched normals. We use The Cancer Genome Atlas (TCGA) ovarian carcinoma (OV) and lung adenocarcinoma (LUAD) datasets to benchmark its performance against gold standard SNP6 microarray and WES datasets with matched normal samples. Our workflow further classifies SNVs by somatic status and then uses this information to infer somatic mutational signatures and tumor mutational burden (TMB). Results: Application of our workflow to tumor-only WES data produces tumor purity and ploidy estimates that are highly concordant with estimates from SNP6 microarray data and matched-normal WES data. The presence of cancer type-specific somatic mutational signatures was inferred with high accuracy. We also demonstrate high concordance of TMB between our tumor-only workflow and matched normal pipelines. Conclusion: The proposed workflow provides, to our knowledge, the only open-source option for comprehensive allele-specific CNA analysis and SNV classification of tumor-only WES with demonstrated high accuracy.
0

Towards a gold standard for benchmarking gene set enrichment analysis

Ludwig Geistlinger et al.Jun 19, 2019
Background: Although gene set enrichment analysis has become an integral part of high-throughput gene expression data analysis, the assessment of enrichment methods remains rudimentary and ad hoc. In the absence of suitable gold standards, evaluations are commonly restricted to selected data sets and biological reasoning on the relevance of resulting enriched gene sets. However, this is typically incomplete and biased towards the goals of individual investigations. Results: We present a general framework for standardized and structured benchmarking of enrichment methods based on defined criteria for applicability, gene set prioritization, and detection of relevant processes. This framework incorporates a curated compendium of 75 expression data sets investigating 42 different human diseases. The compendium features microarray and RNA-seq measurements, and each dataset is associated with a precompiled GO/KEGG relevance ranking for the corresponding disease under investigation. We perform a comprehensive assessment of 10 major enrichment methods on the benchmark compendium, identifying significant differences in (i) runtime and applicability to RNA-seq data, (ii) fraction of enriched gene sets depending on the type of null hypothesis tested, and (iii) recovery of the a priori defined relevance rankings. Based on these findings, we make practical recommendations on (i) how methods originally developed for microarray data can efficiently be applied to RNA-seq data, (ii) how to interpret results depending on the type of gene set test conducted, and (iii) which methods are best suited to effectively prioritize gene sets with high relevance for the phenotype investigated. Conclusion: We carried out a systematic assessment of existing enrichment methods, and identified best performing methods, but also general shortcomings in how gene set analysis is currently conducted. We provide a directly executable benchmark system for straightforward assessment of additional enrichment methods. Availability: http://bioconductor.org/packages/GSEABenchmarkeR
0

bamSliceR: cross-cohort variant and allelic bias analysis for rare variants and rare diseases

Yizhou Huang et al.Jan 1, 2023
Rare diseases and conditions create unique challenges for genetic epidemiologists precisely because cases and samples are scarce. In recent years, whole-genome and whole-transcriptome sequencing (WGS /WTS) have eased the study of rare genetic variants. Paired WGS and WTS data are ideal, but logistical and financial constraints often preclude generating paired WGS and WTS data. Thus, many databases contain a patchwork of specimens with either WGS or WTS data, but only a minority of samples have both. The NCI Genomic Data Commons facilitates controlled access to genomic and transcriptomic data for thousands of subjects, many with unpaired sequencing results. Local reanalysis of expressed variants across whole transcriptomes requires significant data storage, compute, and expertise. We developed the bamSliceR package to facilitate swift transition from aligned sequence reads to expressed variant characterization. bamSliceR leverages the NCI Genomic Data Commons API to query genomic sub-regions of aligned sequence reads from specimens identified through the robust Bioconductor ecosystem. We demonstrate how population-scale targeted genomic analysis can be completed using orders of magnitude fewer resources in this fashion, with minimal compute burden. We demonstrate pilot results from bamSliceR for the TARGET pediatric AML and BEAT-AML projects, where identification of rare but recurrent somatic variants directly yields biologically testable hypotheses. bamSliceR and its documentation are freely available on GitHub at https://github.com/trichelab/bamSliceR .
0

Multi-omic analysis supports a developmental hierarchy of molecular subtypes in high-grade serous ovarian carcinoma

Ludwig Geistlinger et al.Feb 19, 2019
Background: The majority of ovarian carcinomas are of high-grade serous histology, which is associated with poor prognosis and limited treatment options. Several studies have identified gene expression-based subtypes of high-grade serous ovarian carcinoma (HGSOC) as a basis for targeted therapy, yet extensive ambiguity in subtype classification impairs translation of these subtypes into clinical practice. Furthermore, although HGSOC tumors are known to be frequently polyclonal, it is unknown whether clones within the same tumor share the same subtype. Results: We investigate whether ambiguity in subtype classification can be attributed to the polyclonal composition of HGSOC tumors, addressing the currently unresolved question whether proposed subtypes are early or late events in tumorigenesis. This hypothesis is first tested in The Cancer Genome Atlas HGSOC cases by (i) analyzing recurrent somatic copy number alterations for their association with subtypes, (ii) inferring per-alteration clonality from complementary analysis of SNP arrays and whole-exome sequencing, and (iii) testing whether subtype-associated alterations tend to predominantly occur clonally (early events) or subclonally (late events). As opposed to the genomically distinct evolution of soft-tissue sarcoma subtypes, we find that subtype association of HGSOC alterations significantly correlate with subclonality. This correlation is particularly evident for the high-purity proliferative subtype spectrum, which is also characterized by extreme genomic instability, absence of immune infiltration, and increased patient age. This is in stark contrast to the high-purity differentiated subtype spectrum, which is characterized by largely intact genome integrity, high immune infiltration, and younger patient age. Other subtypes showed intermediate levels for these characteristics. From single cell sequencing of an independent HGSOC tumor, we demonstrate that ambiguity in subtype classification extends to individual tumor epithelial cells, further supporting a developmental transition from one subtype spectrum to another. Conclusion: We propose a novel model of HGSOC tumor development that complements the subtype perspective. In this model, individual tumors develop from an early differentiated spectrum to a late proliferative spectrum, and may exhibit characteristics of different previously defined "subtypes" at different points along a timeline characterized by increasing genomic instability and subclonal expansion. This model is more consistent with available bulk and single-cell data, and provides an explanation for ambiguity in subtype classification as the result of assigning discrete, mutually exclusive subtypes to a genomically complex process of tumor evolution.