HS
Hiroyuki Sato
Author with expertise in MicroRNA Regulation in Cancer and Development
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
877
h-index:
26
/
i10-index:
55
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Benchmarking principal component analysis for large-scale single-cell RNA-sequencing

Koki Tsuyuzaki et al.May 20, 2019
Principal component analysis (PCA) is an essential method for analyzing single-cell RNA-seq (scRNA-seq) datasets, but large-scale scRNA-seq datasets require long computational times and a large memory capacity.In this work, we review 21 fast and memory-efficient PCA implementations (10 algorithms) and evaluate their application using 4 real and 18 synthetic datasets. Our benchmarking showed that some PCA algorithms are faster, more memory efficient, and more accurate than others. In consideration of the differences in the computational environments of users and developers, we have also developed guidelines to assist with selection of appropriate PCA implementations.* PCA : principal component analysis scRNA-seq : single-cell RNA sequencing sci-RNA-seq : single-cell combinatorial-indexing RNA-sequencing analysis UML : unsupervised machine learning QC : quality control PC : principal component EVD : eigenvalue decomposition SVD : singular value decomposition SimT : similarity transformation-based DS : downsampling-based SU : SVD update-based Krylov : Krylov subspace-based GD : gradient descent-based Rand : Random projection-based Sklearn : scikit-learn SKL : sequential Karhunen-Loeve transform IRLBA : augmented implicitly restarted Lanczos bidiagonalization IRAM : implicitly restarted Arnoldi method GD : gradient descent SGD : stochastic gradient descent t-SNE : t-stochastic neighbor embedding UMAP : uniform manifold approximation and projection FIt-SNE : Fourier transform-accelerated interpolation-based t-stochastic neighbor embedding oocPCA : out-of-core PCA GMM : Gaussian mixture model ARI : adjusted Rand index Zstd : Zstandard UMI : unique molecular identifier CSV : comma-separated values HDF5 : hierarchical data format 5 10X-HDF5 : HDF5 provided by 10X Genomics CSC : compressed sparse column format CSR : compressed sparse row format CCA : canonical correlation analysis GLM : generalized linear models CPMED : Count per median HVGs : highly variable genes