GS
Genevieve Stein-O’Brien
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
University of Baltimore, Johns Hopkins Medicine, Johns Hopkins University
+ 12 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
27
(56% Open Access)
Cited by:
21
h-index:
20
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
23

Inflammatory Signaling in Pancreatic Cancer Transfers Between a Single-cell RNA Sequencing Atlas and Co-Culture

Benedict Kinny‐Köster et al.Oct 24, 2023
+26
J
S
B
Abstract Pancreatic ductal adenocarcinoma (PDAC) is an aggressive malignancy characterized by a heterogeneous tumor microenvironment (TME) that is enriched with cancer associated fibroblasts (CAFs) 1 . Cell-cell interactions involving these CAFs promote an immunosuppressive phenotype with altered inflammatory gene expression. While single-cell transcriptomics provides a tool to dissect the complex intercellular pathways that regulate cancer-associated inflammation in human tumors, complementary experimental systems for mechanistic validation remain limited. This study integrated single-cell data from human tumors and novel organoid co-cultures to study the PDAC TME. We derived a comprehensive atlas of PDAC gene expression from six published human single-cell RNA sequencing (scRNA-seq) datasets 2–7 to characterize intercellular signaling pathways between epithelial tumor cells and CAFs that regulate the inflammatory TME. Analysis of the epithelial cell compartment identified global gene expression pathways that modulate inflammatory signaling and are correlated with CAF composition. We then generated patient-derived organoid-CAF co-cultures to serve as a biological model of the cellular interactions learned from human tissue in the atlas. Transfer learning analysis to additional scRNA-seq data of this co-culture system and mechanistic experiments confirmed the epithelial response to fibroblast signaling. This bidirectional approach of complementary computational and in vitro applications provides a framework for future studies identifying important mechanisms of intercellular interactions in PDAC.
23
Paper
Citation5
0
Save
113

Universal prediction of cell cycle position using transfer learning

Shiqing Zheng et al.Oct 24, 2023
+7
J
G
S
ABSTRACT Background The cell cycle is a highly conserved, continuous process which controls faithful replication and division of cells. Single-cell technologies have enabled increasingly precise measurements of the cell cycle both as a biological process of interest and as a possible confounding factor. Despite its importance and conservation, there is no universally applicable approach to infer position in the cell cycle with high-resolution from single-cell RNA-seq data. Results Here, we present tricycle, an R/Bioconductor package, to address this challenge by leveraging key features of the biology of the cell cycle, the mathematical properties of principal component analysis of periodic functions, and the use of transfer learning. We estimate a cell cycle embedding using a fixed reference dataset and project new data into this reference embedding; an approach that overcomes key limitations of learning a dataset dependent embedding. Tricycle then predicts a cell-specific position in the cell cycle based on the data projection. The accuracy of tricycle compares favorably to gold-standard experimental assays, which generally require specialized measurements in specifically constructed in vitro systems. Using internal controls which are available for any dataset, we show that tricycle predictions generalize to datasets with multiple cell types, across tissues, species and even sequencing assays. Conclusions Tricycle generalizes across datasets, is highly scalable and applicable to atlas-level single-cell RNA-seq data.
113
Citation5
0
Save
0

Integrated time course omics analysis distinguishes immediate therapeutic response from acquired resistance

Genevieve Stein-O’Brien et al.May 6, 2020
+13
S
L
G
Abstract BACKGROUND Targeted therapies specifically act by blocking the activity of proteins that are encoded by genes critical for tumorigenesis. However, most cancers acquire resistance and long-term disease remission is rarely observed. Understanding the time course of molecular changes responsible for the development of acquired resistance could enable optimization of patients’ treatment options. Clinically, acquired therapeutic resistance can only be studied at a single time point in resistant tumors. To determine the dynamics of these molecular changes, we obtained high throughput omics data weekly during the development of cetuximab resistance in a head and neck cancer in vitro model. RESULTS An unsupervised algorithm, CoGAPS, was used to quantify the evolving transcriptional and epigenetic changes. Applying a PatternMarker statistic to the results from CoGAPS enabled novel heatmap-based visualization of the dynamics in these time course omics data. We demonstrate that transcriptional changes result from immediate therapeutic response or resistance, whereas epigenetic alterations only occur with resistance. Integrated analysis demonstrates delayed onset of changes in DNA methylation relative to transcription, suggesting that resistance is stabilized epigenetically. CONCLUSIONS Genes with epigenetic alterations associated with resistance that have concordant expression changes are hypothesized to stabilize resistance. These genes include FGFR1, which was associated with EGFR inhibitor resistance previously. Thus, integrated omics analysis distinguishes the timing of molecular drivers of resistance. Our findings provide a relevant towards better understanding of the time course progression of changes resulting in acquired resistance to targeted therapies. This is an important contribution to the development of alternative treatment strategies that would introduce new drugs before the resistant phenotype develops.
0
Citation3
0
Save
30

Uncovering the spatial landscape of molecular interactions within the tumor microenvironment through latent spaces

Atul Deshpande et al.Oct 24, 2023
+22
D
M
A
Abstract Recent advances in spatial transcriptomics (ST) enable gene expression measurements from a tissue sample while retaining its spatial context. This technology enables unprecedented in situ resolution of the regulatory pathways that underlie the heterogeneity in the tumor and its microenvironment (TME). The direct characterization of cellular co-localization with spatial technologies facilities quantification of the molecular changes resulting from direct cell-cell interaction, as occurs in tumor-immune interactions. We present SpaceMarkers, a novel bioinformatics algorithm to infer molecular changes from cell-cell interaction from latent space analysis of ST data. We apply this approach to infer molecular changes from tumor-immune interactions in Visium spatial transcriptomics data of metastasis, invasive and precursor lesions, and immunotherapy treatment. Further transfer learning in matched scRNA-seq data enabled further quantification of the specific cell types in which SpaceMarkers are enriched. Altogether, SpaceMarkers can identify the location and context-specific molecular interactions within the TME from ST data.
14

Inferring cellular and molecular processes in single-cell data with non-negative matrix factorization using Python, R, and GenePattern Notebook implementations of CoGAPS

Jeanette Johnson et al.Oct 24, 2023
+13
J
A
J
Abstract Non-negative matrix factorization (NMF) is an unsupervised learning method well suited to high-throughput biology. Still, inferring biological processes requires additional post hoc statistics and annotation for interpretation of features learned from software packages developed for NMF implementation. Here, we aim to introduce a suite of computational tools that implement NMF and provide methods for accurate, clear biological interpretation and analysis. A generalized discussion of NMF covering its benefits, limitations, and open questions in the field is followed by three vignettes for the Bayesian NMF algorithm CoGAPS (Coordinated Gene Activity across Pattern Subsets). Each vignette will demonstrate NMF analysis to quantify cell state transitions in public domain single-cell RNA-sequencing (scRNA-seq) data of malignant epithelial cells in 25 pancreatic ductal adenocarcinoma (PDAC) tumors and 11 control samples. The first uses PyCoGAPS, our new Python interface for CoGAPS that we developed to enhance runtime of Bayesian NMF for large datasets. The second vignette steps through the same analysis using our R CoGAPS interface, and the third introduces two new cloud-based, plug-and-play options for running CoGAPS using GenePattern Notebook and Docker. By providing Python support, cloud-based computing options, and relevant example workflows, we facilitate user-friendly interpretation and implementation of NMF for single-cell analyses.
5

Insights for disease modeling from single cell transcriptomics of iPSC-derived Ngn2-induced neurons and astrocytes across differentiation time and co-culture

Debamitra Das et al.Oct 24, 2023
+6
G
S
D
ABSTRACT Trans-differentiation of human induced pluripotent stem cells into neurons via Ngn2-induction (hiPSC-N) has become an efficient system to quickly generate neurons for disease modeling and in vitro assay development, a significant advance from previously used neoplastic and other cell lines. Recent single-cell interrogation of Ngn2-induced neurons however, has revealed some similarities to unexpected neuronal lineages. Similarly, a straightforward method to generate hiPSC derived astrocytes (hiPSC-A) for the study of neuropsychiatric disorders has also been described. Here we examine the homogeneity and similarity of hiPSC-N and hiPSC-A to their in vivo counterparts, the impact of different lengths of time post Ngn2 induction on hiPSC-N (15 or 21 days) and of hiPSC-N / hiPSC-A co-culture. Leveraging the wealth of existing public single-cell RNA-seq (scRNA-seq) data in Ngn2-induced neurons and in vivo data from the developing brain, we provide perspectives on the lineage origins and maturation of hiPSC-N and hiPSC-A. While induction protocols in different labs produce consistent cell type profiles, both hiPSC-N and hiPSC-A show significant heterogeneity and similarity to multiple in vivo cell fates, and both more precisely approximate their in vivo counterparts when co-cultured. Gene expression data from the hiPSC-N show enrichment of genes linked to schizophrenia (SZ) and autism spectrum disorders (ASD) as has been previously shown for neural stem cells and neurons. These overrepresentations of disease genes are strongest in our system at early times (day 15) in Ngn2-induction/maturation of neurons, when we also observe the greatest similarity to early in vivo excitatory neurons. We have assembled this new scRNA-seq data along with the public data explored here as an integrated biologist-friendly web-resource for researchers seeking to understand this system more deeply: nemoanalytics.org/p?l=DasEtAlNGN2&g=PRPH.
5
Paper
Citation2
0
Save
0

Transcriptional Control of Neocortical Size and Microcephaly

Soraia Barão et al.May 29, 2024
+6
R
Y
S
Abstract The mammalian neocortex differs vastly in size and complexity between mammalian species, yet the mechanisms that lead to an increase in brain size during evolution are not known. We show here that two transcription factors coordinate gene expression programs in progenitor cells of the neocortex to regulate their proliferative capacity and neuronal output in order to determine brain size. Comparative studies in mice, ferrets and macaques demonstrate an evolutionary conserved function for these transcription factors to regulate progenitor behaviors across the mammalian clade. Strikingly, the two transcriptional regulators control the expression of large numbers of genes linked to microcephaly suggesting that transcriptional deregulation as an important determinant of the molecular pathogenesis of microcephaly, which is consistent with the finding that genetic manipulation of the two transcription factors leads to severe microcephaly.
0
Citation1
0
Save
0

CancerInSilico: An R/Bioconductor package for combining mathematical and statistical modeling to simulate time course bulk and single cell gene expression data in cancer

Thomas Sherman et al.May 6, 2020
+12
R
L
T
Abstract Bioinformatics techniques to analyze time course bulk and single cell omics data are advancing. The absence of a known ground truth of the dynamics of molecular changes challenges benchmarking their performance on real data. Realistic simulated time-course datasets are essential to assess the performance of time course bioinformatics algorithms. We develop an R/Bioconductor package, CancerInSilico , to simulate bulk and single cell transcriptional data from a known ground truth obtained from mathematical models of cellular systems. This package contains a general R infrastructure for running cell-based models and simulating gene expression data based on the model states. We show how to use this package to simulate a gene expression data set and consequently benchmark analysis methods on this data set with a known ground truth. The package is freely available via Bioconductor: http://bioconductor.org/packages/CancerInSilico/
0
Citation1
0
Save
0

Epigenetic Regulation of Gene Expression in Cancer: Techniques, Resources, and Analysis

Luciane Kagohara et al.May 6, 2020
+8
D
G
L
Cancer is a complex disease, driven by aberrant activity in numerous signaling pathways in even individual malignant cells. Epigenetic changes are critical mediators of these functional changes that drive and maintain the malignant phenotype. Changes in DNA methylation, histone acetylation and methylation, non-coding RNAs, post-translational modifications are all epigenetic drivers in cancer, independent of changes in the DNA sequence. These epigenetic alterations, once thought to be crucial only for the malignant phenotype maintenance, are now recognized as critical also for disrupting essential pathways that protect the cells from uncontrolled growth, longer survival and establishment in distant sites from the original tissue. In this review, we focus on DNA methylation and chromatin structure in cancer. While associated with cancer, the precise functional role of these alterations is an area of active research using emerging high-throughput approaches and bioinformatics analysis tools. Therefore, this review describes these high-throughput measurement technologies, public domain databases for high-throughput epigenetic data in tumors and model systems, and bioinformatics algorithms for their analysis. Advances in bioinformatics data integration techniques that combine these epigenetic data with genomics data are essential to infer the function of specific epigenetic alterations in cancer, and are therefore also a focus of this review. Future studies using these emerging technologies will elucidate how alterations in the cancer epigenome cooperate with genetic aberrations to cause tumorigenesis initiation and progression. This deeper understanding is essential to future studies that will precisely infer patients prognosis and select patients who will be responsive to emerging epigenetic therapies.
0

Enter the matrix: factorization uncovers knowledge from omics

Genevieve Stein-O’Brien et al.May 6, 2020
+9
A
R
G
Omics data contains signal from the molecular, physical, and kinetic inter- and intra-cellular interactions that control biological systems. Matrix factorization techniques can reveal low-dimensional structure from high-dimensional data that reflect these interactions. These techniques can uncover new biological knowledge from diverse high-throughput omics data in topics ranging from pathway discovery to time course analysis. We review exemplary applications of matrix factorization for systems-level analyses. We discuss appropriate application of these methods, their limitations, and focus on analysis of results to facilitate optimal biological interpretation. The inference of biologically relevant features with matrix factorization enables discovery from high-throughput data beyond the limits of current biological knowledge-answering questions from high-dimensional data that we have not yet thought to ask.
Load More