GM
Giacomo Marino
Author with expertise in Microarray Data Analysis and Gene Expression Profiling
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
1
h-index:
4
/
i10-index:
2
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

ReproTox-KG: Toxicology Knowledge Graph for Structural Birth Defects

John Evangelista et al.Sep 17, 2022
+16
P
D
J
Abstract Birth defects are functional and structural abnormalities that impact 1 in 33 births in the United States. Birth defects have been attributed to genetic as well as other factors, but for most birth defects there are no known causes. Small molecule drugs, cosmetics, foods, and environmental pollutants may cause birth defects when the mother is exposed to them during pregnancy. These molecules may interfere with the process of normal fetal development. To characterize associations between small molecule compounds and their potential to induce specific birth abnormalities, we gathered knowledge from multiple sources to construct a reproductive toxicity Knowledge Graph (ReproTox-KG) with an initial focus on associations between birth defects, drugs, and genes. Specifically, to construct ReproTox-KG we gathered data from drug/birth-defect associations from co-mentions in published abstracts, gene/birth-defect associations from genetic studies, drug- and preclinical-compound-induced gene expression data, known drug targets, genetic burden scores for all human genes, and placental crossing scores for all small molecules in ReproTox-KG. Using the data stored within ReproTox-KG, we scored 30,000 preclinical small molecules for their potential to induce birth defects. Querying the ReproTox-KG, we identified over 500 birth-defect/gene/drug cliques that can be used to explain molecular mechanisms for drug-induced birth defects. The ReproTox-KG is provided as curated tables and via a web-based user interface that can enable users to explore the associations between birth defects, approved and preclinical drugs, and human genes.
1
Citation1
0
Save
0

RummaGEO: Automatic Mining of Human and Mouse Gene Sets from GEO

Giacomo Marino et al.Apr 13, 2024
A
E
D
G
Abstract The Gene Expression Omnibus (GEO) is a major open biomedical research repository for transcriptomics and other omics datasets. It currently contains millions of gene expression samples from tens of thousands of studies collected by many biomedical research laboratories from around the world. While users of the GEO repository can search the metadata describing studies for locating relevant datasets, there are currently no methods or resources that facilitate global search of GEO at the data level. To address this shortcoming, we developed RummaGEO, a webserver application that enables gene expression signature search of a large collection of human and mouse RNA-seq studies deposited into GEO. To develop the search engine, we performed offline automatic identification of sample conditions from the uniformly aligned GEO studies available from ARCHS4. We then computed differential expression signatures to extract gene sets from these studies. In total, RummaGEO currently contains 135,264 human and 158,062 mouse gene sets extracted from 23,395 GEO studies. Next, we analyzed the contents of the RummaGEO database to identify statistical patterns and perform various global analyses. The contents of the RummaGEO database are provided as a web-server search engine with signature search, PubMed search, and metadata search functionalities. Overall, RummaGEO provides an unprecedented resource for the biomedical research community enabling hypothesis generation for many future studies. The RummaGEO search engine is available from: https://rummageo.com/ .
1

Rummagene: Mining Gene Sets from Supporting Materials of PMC Publications

Daniel Clarke et al.Oct 5, 2023
+3
J
E
D
Abstract Every week thousands of biomedical research papers are published with a portion of them containing supporting tables with data about genes, transcripts, variants, and proteins. For example, supporting tables may contain differentially expressed genes and proteins from transcriptomics and proteomics assays, targets of transcription factors from ChIP-seq experiments, hits from genome-wide CRISPR screens, or genes identified to harbor mutations from GWAS studies. Because these gene sets are commonly buried in the supplemental tables of research publications, they are not widely available for search and reuse. Rummagene, available from https://rummagene.com , is a web server application that provides access to hundreds of thousands human and mouse gene sets extracted from supporting materials of publications listed on PubMed Central (PMC). To create Rummagene, we first developed a softbot that extracts human and mouse gene sets from supporting tables of PMC publications. So far, the softbot has scanned 5,448,589 PMC articles to find 121,237 articles that contain 642,389 gene sets. These gene sets are served for enrichment analysis, free text, and table title search. Users of Rummagene can submit their own gene sets to find matching gene sets ranked by their overlap with the input gene set. In addition to providing the extracted gene sets for search, we investigated the massive corpus of these gene sets for statistical patterns. We show that the number of gene sets reported in publications is rapidly increasing, containing both short sets that are highly enriched in highly studied genes, and long sets from omics profiling. We also demonstrate that the gene sets in Rummagene can be used for transcription factor and kinase enrichment analyses, and for gene function predictions. By combining gene set similarity with abstract similarity, Rummagene can be used to find surprising relationships between unexpected biological processes, concepts, and named entities. Finally, by overlaying the Rummagene gene set space with the Enrichr gene set space we can discover areas of biological and biomedical knowledge unique to each resource.
0

Playbook Workflow Builder: Interactive Construction of Bioinformatics Workflows from a Network of Microservices

Daniel Clarke et al.Jun 9, 2024
+37
Z
J
D
Abstract Many biomedical research projects produce large-scale datasets that may serve as resources for the research community for hypothesis generation, facilitating diverse use cases. Towards the goal of developing infrastructure to support the findability, accessibility, interoperability, and reusability (FAIR) of biomedical digital objects and maximally extracting knowledge from data, complex queries that span across data and tools from multiple resources are currently not easily possible. By utilizing existing FAIR application programming interfaces (APIs) that serve knowledge from many repositories and bioinformatics tools, different types of complex queries and workflows can be created by using these APIs together. The Playbook Workflow Builder (PWB) is a web-based platform that facilitates interactive construction of workflows by enabling users to utilize an ever-growing network of input datasets, semantically annotated API endpoints, and data visualization tools contributed by an ecosystem. Via a user-friendly web-based user interface (UI), workflows can be constructed from contributed building-blocks without technical expertise. The output of each step of the workflows are provided in reports containing textual descriptions, as well as interactive and downloadable figures and tables. To demonstrate the ability of the PWB to generate meaningful hypotheses that draw knowledge from across multiple resources, we present several use cases. For example, one of these use cases sieves novel targets for individual cancer patients using data from the GTEx, LINCS, Metabolomics, GlyGen, and the ExRNA Communication Consortium (ERCC) Common Fund (CF) Data Coordination Centers (DCCs). The workflows created with the PWB can be published and repurposed to tackle similar use cases using different inputs. The PWB platform is available from: https://playbook-workflow-builder.cloud/ .