SS
Souvik Seal
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(89% Open Access)
Cited by:
5
h-index:
5
/
i10-index:
2
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
5

DenVar: Density-based Variation analysis of multiplex imaging data

Souvik Seal et al.Sep 29, 2021
+2
T
T
S
Abstract Multiplex immunohistochemistry (mIHC) and multiplexed ion beam imaging (MIBI) platforms have become increasingly popular for studying complex single-cell biology in the tumor microenvironment (TME) of cancer subjects. Studying the intensity of the proteins that regulate important cell-functions, often known as functional markers, in the TME becomes extremely crucial for subject-specific assessment of risks, such as risk of recurrence and risk of death. The conventional approach requires selection of two thresholds, one to define the cells of the TME as positive or negative for a particular functional marker, and the other to classify the subjects based on the proportion of the positive cells. The selection of the thresholds has a large impact on the results and an arbitrary selection can lead to an incomprehensible conclusion. In light of this problem, we present a threshold-free distance between the subjects based on the probability densities of the functional markers. The distance can be used to classify the subjects into meaningful groups or can be used in a linear mixed model setup for testing association with clinical outcomes. The method gets rid of the subjectivity bias of the thresholding-based approach, enabling an easier but interpretable analysis of these types of data. With the proposed method, we analyze a lung cancer dataset from an mIHC platform, finding the difference in the density of functional marker HLA-DR to be significantly associated with the overall survival. The approach is also applied on an MIBI triple-negative breast cancer dataset to analyze effects of multiple functional markers. Finally, we demonstrate the reliability of our method through extensive simulation studies.
11

Rapid Estimation of SNP Heritability using Predictive Process approximation in Large scale Cohort Studies

Souvik Seal et al.May 14, 2021
S
A
S
Abstract With the advent of high throughput genetic data, there have been attempts to estimate heritability from genome-wide SNP data on a cohort of distantly related individuals using linear mixed model (LMM). Fitting such an LMM in a large scale cohort study, however, is tremendously challenging due to its high dimensional linear algebraic operations. In this paper, we propose a new method named PredLMM approximating the aforementioned LMM motivated by the concepts of genetic coalescence and gaussian predictive process. PredLMM has substantially better computational complexity than most of the existing LMM based methods and thus, provides a fast alternative for estimating heritability in large scale cohort studies. Theoretically, we show that under a model of genetic coalescence, the limiting form of our approximation is the celebrated predictive process approximation of large gaussian process likelihoods that has well-established accuracy standards. We illustrate our approach with extensive simulation studies and use it to estimate the heritability of multiple quantitative traits from the UK Biobank cohort.
11
Citation1
0
Save
5

FunSpace: A functional and spatial analytic approach to cell imaging data using entropy measures

Thao Vu et al.Jun 18, 2022
+3
J
S
T
Spatial heterogeneity in the tumor microenvironment (TME) plays a critical role in gaining insights into tumor development and progression. Conventional metrics typically capture the spatial differential between TME cellular architectures by either exploring the cell distributions in a pairwise fashion or aggregating the heterogeneity across multiple cell distributions without considering for the spatial contribution. As such, none of the existing approaches has fully accounted for the heterogeneity caused by both cellular diversity and spatial configurations of multiple cell categories. In this article, we propose an approach to leverage the spatial entropy measures at multiple distance ranges to account for the spatial heterogeneity across different cellular architectures. Then, functional principal component analysis (FPCA) targeting sparse data is applied to estimate FPC scores which are then predictors in a Cox regression model to investigate the impact of spatial heterogeneity in the TME on survival outcome, holding other clinical variables constant. Using an ovarian cancer dataset (n = 114) as a case study, we found that the spatial heterogeneity in the TME immune compositions of CD19+ B cells, CD4+ T cells, CD8+ T cells, and CD68+ macrophages, had a significant non-zero effect on the overall survival (p = 0.027). In the simulations studies under different spatial configurations, the proposed method demonstrated a high predictive power by accounting for both clinical effect and the impact of spatial heterogeneity.
5
Paper
Citation1
0
Save
1

SpaceANOVA: Spatial co-occurrence analysis of cell types in multiplex imaging data using point process and functional ANOVA

Souvik Seal et al.Jul 7, 2023
+7
P
B
S
Multiplex imaging platforms have enabled the identification of the spatial organization of different types of cells in complex tissue or tumor microenvironment (TME). Exploring the potential variations in the spatial co-occurrence or co-localization of different cell types across distinct tissue or disease classes can provide significant pathological insights, paving the way for intervention strategies. However, the existing methods in this context either rely on stringent statistical assumptions or suffer from a lack of generalizability.
1

MIAMI: Mutual Information-based Analysis of Multiplex Imaging data

Souvik Seal et al.Feb 11, 2022
D
S
Abstract Motivation Studying the interaction or co-expression of the proteins or markers in the tumor microenvironment (TME) of cancer subjects can be crucial in the assessment of risks, such as death or recurrence. In the conventional approach, the cells need to be declared positive or negative for a marker based on its intensity. For multiple markers, manual thresholds are required for each marker, which can become cumbersome. The performance of the subsequent analysis relies heavily on this step and thus suffers from subjectivity and lacks robustness. Results We present a new method where different marker intensities are viewed as dependent random variables, and the mutual information (MI) between them is considered to be a metric of co-expression. Estimation of the joint density, as required in the traditional form of MI, becomes increasingly challenging as the number of markers increases. We consider an alternative formulation of MI which is conceptually similar but has an efficient estimation technique for which we develop a new generalization. With the proposed method, we analyzed a lung cancer dataset finding the co-expression of the markers, HLA-DR and CK to be associated with survival. We also analyzed a triple negative breast cancer dataset finding the co-expression of the immuno-regulatory proteins, PD1, PD-L1, Lag3 and IDO, to be associated with disease recurrence. We demonstrated the robustness of our method through different simulation studies. Availability The associated R package can be found here, https://github.com/sealx017/MIAMI . Contact souvik.seal@cuanschutz.edu Supplementary information The Supplementary Material is attached.
1
Citation1
0
Save
1

SMASH: Scalable Method for Analyzing Spatial Heterogeneity of genes in spatial transcriptomics data

Souvik Seal et al.Mar 25, 2023
D
B
S
In high-throughput spatial transcriptomics (ST) studies, it is of great interest to identify the genes whose level of expression in a tissue covaries with the spatial location of cells/spots. Such genes, also known as spatially variable genes (SVGs), can be crucial to the biological understanding of both structural and functional characteristics of complex tissues. Existing methods for detecting SVGs either suffer from huge computational demand or significantly lack statistical power. We propose a non-parametric method termed SMASH that achieves a balance between the above two problems. We compare SMASH with other existing methods in varying simulation scenarios demonstrating its superior statistical power and robustness. We apply the method to four ST datasets from different platforms revealing interesting biological insights.
1

RCFGL: Rapid Condition adaptive Fused Graphical Lasso and application to modeling brain region co-expression networks

Souvik Seal et al.Feb 10, 2022
+2
E
Q
S
Abstract Inferring gene co-expression networks is a useful process for understanding gene regulation and pathway activity. The networks are usually undirected graphs where genes are represented as nodes and an edge represents a significant co-expression relationship. When gene-expression data from multiple conditions (e.g., treatments, tissues, strains) are available, joint estimation of networks harnessing shared information across them can significantly increase the power of analysis. In addition, examining condition-specific patterns of co-expression can provide insights into the underlying cellular processes activated in a particular condition. Condition adaptive fused graphical lasso (CFGL) is an existing method that incorporates condition specificity in a fused graphical lasso (FGL) model for estimating multiple co-expression networks. However, the current implementation of CFGL is prohibitively slow even for a moderate number of genes and can only be used for a maximum of three conditions. In this paper, we propose a fast alternative of CFGL known as rapid condition adaptive fused graphical lasso (RCFGL). In RCFGL, we incorporate the condition specificity into another popular model for joint network estimation, known as fused multiple graphical lasso (FMGL). We use a more efficient algorithm in the iterative steps compared to CFGL, enabling faster computation and making it easily generalizable for more than three conditions. We also present a novel screening rule to determine if the full network estimation problem can be broken down into estimation of smaller disjoint sub-networks, thereby reducing the complexity further. We demonstrate the computational advantage and superior performance of our method compared to two non-condition adaptive methods, FGL and FMGL, and one condition adaptive method, CFGL in several simulation scenarios. We use RCFGL to jointly estimate the gene co-expression networks of different brain regions (conditions) using a cohort of heterogeneous stock rats. We also provide an accommodating C and Python based package that implements RCFGL. Author summary Inferring gene co-expression networks can be useful for understanding pathway activity and gene regulation. While jointly estimating co-expression networks of multiple conditions, taking into account condition specificity such as information about an edge being present only in a specific condition, substantially increases the power. In this paper, a computationally rapid condition adaptive method for jointly estimating gene co-expression networks of multiple conditions is proposed. The novelty of the method is demonstrated through a broad range of simulation studies and a real data analysis with multiple brain regions from a genetically diverse cohort of rats.
0

cytoKernel: Robust kernel embeddings for assessing differential expression of single cell data

Tusharkanti Ghosh et al.Aug 19, 2024
+5
S
R
T
High-throughput sequencing of single-cell data can be used to rigorously evlauate cell specification and enable intricate variations between groups or conditions. Many popular existing methods for differential expression target differences in aggregate measurements (mean, median, sum) and limit their approaches to detect only global differential changes. We present a robust method for differential expression of single-cell data using a kernel-based score test, cytoKernel. cytoKernel is specifically designed to assess the differential expression of single cell RNA sequencing and high-dimensional flow or mass cytometry data using the full probability distribution pattern. cytoKernel is based on kernel embeddings which employs the probability distributions of the single cell data, by calculating the pairwise divergence/distance between distributions of subjects. It can detect both patterns involving aggregate changes, as well as more elusive variations that are often overlooked due to the multimodal characteristics of single cell data. We performed extensive benchmarks across both simulated and real data sets from mass cytometry data and single-cell RNA sequencing. The cytoKernel procedure effectively controls the False Discovery Rate (FDR) and shows favourable performance compared to existing methods. The method is able to identify more differential patterns than existing approaches. We apply cytoKernel to assess gene expression and protein marker expression differences from cell subpopulations in various publicly available single-cell RNAseq and mass cytometry data sets. The methods described in this paper are implemented in the open-source R package cytoKernel, which is freely available from Bioconductor at \url{http://bioconductor.org/packages/cytoKernel}.
1

Estimating SNP heritability in presence of population substructure in biobank-scale datasets

Zhaotong Lin et al.Aug 5, 2020
S
S
Z
SNP heritability of a trait is measured by the proportion of total variance explained by the additive effects of genome-wide single nucleotide polymorphisms (SNPs). Linear mixed models are routinely used to estimate SNP heritability for many complex traits. The basic concept behind this approach is to model genetic contribution as a random effect, where the variance of this genetic contribution attributes to the heritability of the trait. This linear mixed model approach requires estimation of ‘relatedness’ among individuals in the sample, which is usually captured by estimating a genetic relationship matrix (GRM). Heritability is estimated by the restricted maximum likelihood (REML) or method of moments (MOM) approaches, and this estimation relies heavily on the GRM computed from the genetic data on individuals. Presence of population substructure in the data could significantly impact the GRM estimation and may introduce bias in heritability estimation. The common practice of accounting for such population substructure is to adjust for the top few principal components of the GRM as covariates in the linear mixed model. Here we propose an alternative way of estimating heritability in multi-ethnic studies. Our proposed approach is a MOM estimator derived from the Haseman-Elston regression and gives an asymptotically unbiased estimate of heritability in presence of population stratification. It introduces adjustments for the population stratification in a second-order estimating equation and allows for the total phenotypic variance vary by ethnicity. We study the performance of different MOM and REML approaches in presence of population stratification through extensive simulation studies. We estimate the heritability of height, weight and other anthropometric traits in the UK Biobank cohort to investigate the impact of subtle population substructure on SNP heritability estimation.