BS
Björn Sandstede
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(40% Open Access)
Cited by:
50
h-index:
47
/
i10-index:
114
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
12

Gromov-Wasserstein optimal transport to align single-cell multi-omics data

Pınar Demetçi et al.Apr 29, 2020
Abstract Data integration of single-cell measurements is critical for understanding cell development and disease, but the lack of correspondence between different types of measurements makes such efforts challenging. Several unsupervised algorithms can align heterogeneous single-cell measurements in a shared space, enabling the creation of mappings between single cells in different data domains. However, these algorithms require hyperparameter tuning for high-quality alignments, which is difficult in an unsupervised setting without correspondence information for validation. We present Single-Cell alignment using Optimal Transport (SCOT), an unsupervised learning algorithm that uses Gromov Wasserstein-based optimal transport to align single-cell multi-omics datasets. We compare the alignment performance of SCOT with state-of-the-art algorithms on four simulated and two real-world datasets. SCOT performs on par with state-of-the-art methods but is faster and requires tuning fewer hyperparameters. Furthermore, we provide an algorithm for SCOT to use Gromov Wasserstein distance to guide the parameter selection. Thus, unlike previous methods, SCOT aligns well without using any orthogonal correspondence information to pick the hyperparameters. Our source code and scripts for replicating the results are available at https://github.com/rsinghlab/SCOT .
4

Unsupervised integration of single-cell multi-omics datasets with disparities in cell-type representation

Pınar Demetçi et al.Nov 11, 2021
Abstract Integrated analysis of multi-omics data allows the study of how different molecular views in the genome interact to regulate cellular processes; however, with a few exceptions, applying multiple sequencing assays on the same single cell is not possible. While recent unsupervised algorithms align single-cell multi-omic datasets, these methods have been primarily benchmarked on co-assay experiments rather than the more common single-cell experiments taken from separately sampled cell populations. Therefore, most existing methods perform subpar alignments on such datasets. Here, we improve our previous work Single Cell alignment using Optimal Transport (SCOT) by using unbalanced optimal transport to handle disproportionate cell-type representation and differing sample sizes across single-cell measurements. We show that our proposed method, SCOTv2, consistently yields quality alignments on five real-world single-cell datasets with varying cell-type proportions and is computationally tractable. Additionally, we extend SCOTv2 to integrate multiple ( M ≥ 2) single-cell measurements and present a self-tuning heuristic process to select hyperparameters in the absence of any orthogonal correspondence information. Available at: http://rsinghlab.github.io/SCOT .
4
Citation7
0
Save
0

Time-dependent Canonical Correlation Analysis for Multilevel Time Series

Xuefei Cao et al.May 24, 2019
Canonical Correlation Analysis is a technique in multivariate data analysis for finding linear projections that maximize the correlation between two groups of variables. The correlations are typically defined without accounting for the serial correlations between observations, a typical setting for time series data. To understand the coupling dynamics and temporal variations between the two time-varying sources, we introduce the time-dependent canonical correlation analysis (TDCCA), a method for inferring time-dependent canonical vectors from multilevel time series data. A convex formulation of the problem is proposed, which leverages the singular value decomposition (SVD) characterization of all solutions of the CCA problem. We use simulated datasets to validate the proposed algorithm. Moreover, we propose a novel measure, canonical correlation variation as another way to assess the dynamic pattern of brain connections and we apply it to a real resting state fMRI dataset to study the aging effects on brain connectivity. Additionally, we explore our proposed method in a task-related fMRI to detect the temporal dynamics due to different motor tasks. We show that, compared to extant methods, the TDCCA-based approach not only detect temporal changes but also improves feature extraction. Together, this paper contributes broadly to new computational methodologies in understanding multilevel time series.
0

Hierarchical clustering of gene-level association statistics reveals shared and differential genetic architecture among traits in the UK Biobank

Melissa McGuirl et al.Mar 4, 2019
Genome-wide association (GWA) studies have generally focused on a single phenotype of interest. Emerging biobanks that pair genotype data from thousands of individuals with phenotype data using medical records or surveys enable testing for genetic associations in each phenotype assayed. However, methods for characterizing shared genetic architecture among multiple traits are lagging behind. Here, we present a new method, Ward clustering to identify Internal Nod branch length outliers using Gene Scores(WINGS), for characterizing shared and divergent genetic architecture among multiple phenotypes. The objective of WINGS (freely available at https://github.com/ramachandran-lab/PEGASUS-WINGS) is to identify groups of phenotypes, or 'clusters', that share a core set of genes enriched for mutations in cases. We show in simulations that WINGS can reliably detect phenotype clusters across a range of percent shared architecture and number of phenotypes included. We then use the gene-level association test PEGASUS with WINGS to characterize shared genetic architecture among 87 case-control and seven quantitative phenotypes in 349,468 unrelated European-ancestry individuals from the UK Biobank. We identify 10 significant phenotype clusters that contain two to eight phenotypes. One significant cluster of seven immunological phenotypes is driven by seven genes; these genes have each been associated with two or more of those same phenotypes in past publications. WINGS offers a precise and efficient new application of Ward hierarchical clustering to generate hypotheses regarding shared genetic architecture among phenotypes in the biobank era.