HV
Hy Vuong
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(57% Open Access)
Cited by:
63
h-index:
3
/
i10-index:
2
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
13

BBrowser: Making single-cell data easily accessible

Tri Le et al.Dec 11, 2020
+27
H
L
T
Abstract BioTuring’s BBrowser is a software solution that helps scientists effectively analyze single-cell omics data. It combines big data with big computation and modern data visualization to create a unique platform where scientists can interact and obtain important biological insights from the massive amounts of single-cell data. BBrowser has three main components: a curated single-cell database, a big-data analytics layer, and a data visualization module. BBrowser is available for download at: https://bioturing.com/bbrowser/download .
13
Citation44
0
Save
14

Venice: A New Algorithm for Finding Marker Genes in Single-Cell Transcriptomic Data

Hy Vuong et al.Nov 17, 2020
+2
T
T
H
A bstract Most widely used tools for finding marker genes in single cell data (SeuratT/NegBinom/Poisson, CellRanger, EdgeR, limmatrend) use a conventional definition of differentially expressed genes : genes with different mean expression values. However, in single-cell data, a cell population can be a mixture of many cell types/cell states, hence the mean expression of genes cannot represent the whole population. In addition, these tools assume that gene expression of a population belongs to a specific family of distribution. This assumption is often violated in single-cell data. In this work, we define marker genes of a cell population as genes that can be used to distinguish cells in the population from cells in other populations. Besides log-fold change, we devise a new metric to classify genes into up-regulated, down-regulated, and transitional states. In a benchmark for finding up-regulated and down-regulated genes, our tool outperforms all compared methods, including Seurat, ROTS, scDD, edgeR, MAST, limma, normal t-test, Wilcoxon and Kolmogorov–Smirnov test. Our method is much faster than all compared methods, therefore, enables interactive analysis for large single-cell data sets in BioTuring Browser. Venice algorithm is available within Signac package: https://github.com/bioturing/signac 1 ).
14
Citation16
0
Save
0

A revisit of RSEM generative model and its EM algorithm for quantifying transcript abundances.

Hy Vuong et al.Dec 21, 2018
+2
T
T
H
RSEM has been mainly known for its accuracy in transcript abundance quantification. However, its quantification time is extremely high compared to that of recent quantification tools. In this paper, we revised the RSEM's EM algorithm. In particular, we derived accurate M-step updates to eliminate incorrect heuristic updates in RSEM. We also implement some optimizations that reduce the quantification time about a hundred times while still have better accuracy compared to RSEM. In particular, we noticed that different parameters have different convergence rates, therefore we identified and removed early converged parameters to significantly reduce the model complexity in further iterations, and we also use SQUAREM method to further speed up the convergence rate. We implemented these revisions in a packaged named Hera-EM, with source code available at: https://github.com/bioturing/hera/tree/master/hera-EM
0
Citation3
0
Save
0

Hera-T: an efficient and accurate approach for quantifying gene abundances from 10X-Chromium data with high rates of non-exonic reads.

Thang Tran et al.Jan 26, 2019
S
H
T
T
An important but rarely discussed phenomenon in single cell data generated by the 10X-Chromium protocol is that the fraction of non-exonic reads is very high. This number usually exceeds 30% of the total reads. Without aligning them to a complete genome reference, non-exonic reads can be erroneously aligned to the transcriptome reference with higher error rates. To tackle this problem, Cell Ranger chooses to firstly align reads against the whole genome, and at a later step, uses a genome annotation to select reads that align to the transcriptome. Despite its high running time and large memory consumption, Cell Ranger remains the most widely used tool to quantify 10XGenomics single-cell RNA-Seq data for its accuracy. In this work, we introduce Hera-T, a fast and accurate tool for estimating gene abundances in single cell data generated by the 10X-Chromium protocol. By devising a new strategy for aligning reads to both transcriptome and genome references, Hera-T reduces both running time and memory consumption from 10 to 100 folds while giving similar results compared to CellRanger's. Hera-T also addresses some difficult splicing alignment scenarios that Cell Ranger fails to address, and therefore, obtains better accuracy compared to Cell Ranger. Excluding the reads in those scenarios, Hera-T and Cell Ranger results have correlation scores>0.99. For a single-cell data set with 49 million of reads, Cell Ranger took 3 hours (179 minutes)while Hera-T took 1.75 minutes; for another single-cell data set with 784 millions of reads, Cell Ranger took about 25 hours while Hera-T took 32 minutes. For those data sets, CellRanger completely used all 32 GB of memory while Hera-T consumed at most 8 GB. Hera-T package is available for download at https://bioturing.com/product/hera-t
0

Benchmarking AlphaSC: A Leap in Single-Cell Data Processing

Hy Vuong et al.Jan 1, 2023
+6
N
T
H
We benchmarked AlphaSC, BioTuring9s GPU-accelerated single-cell analytics package, against other popular tools including Scanpy, Seurat, and RAPIDS. The results demonstrate that AlphaSC operates thousands of times faster than Seurat and Scanpy. Additionally, it surpasses RAPIDS, another GPU-accelerated package from NVIDIA, by an order of magnitude in terms of speed while also consuming considerably less RAM and GPU memory. Importantly, this significant increase in AlphaSC9s performance does not compromise its quality.
0

IC-VAE: A Novel Deep Learning Framework for Interpreting Multiplexed Tissue Imaging Data.

Thanh-Huy Nguyen et al.Jan 1, 2023
+2
H
H
T
Interpreting protein expression in multiplexed tissue imaging data presents a significant challenge due to the high dimensionality of the resulting images, the variety of intracellular structures, cell shapes resulting from 2-D tissue sectioning, and the presence of technological noise and imaging artifacts. Here, we introduce the Information-Controlled Variational Autoencoder (IC-VAE), a deep generative model designed to tackle this challenge. The contribution of IC-VAE to the VAE framework is the ability to control the shared information among latent subspaces. We use IC-VAE to factorize each cell9s image into its true protein expression, various cellular components, and background noise, while controlling the shared information among some of these components. Compared with other normalization methods, this approach leads to superior results in downstream analysis, such as analyzing the expression of biomarkers, classification for cell types, or visualizing cell clusters using t-SNE/UMAP techniques.
10

An Entropy Approach for Choosing Gene Expression Cutoff

Hy Vuong et al.May 5, 2022
+2
T
H
H
Abstract Annotating cell types using single-cell transcriptome data usually requires binarizing the expression data to distinguish between the background noise vs. real expression or low expression vs. high expression cases. A common approach is choosing a “reasonable” cutoff value, but it remains unclear how to choose it. In this work, we describe a simple yet effective approach for finding this threshold value.