JK
Jae‐Sik Kim
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
3
(100% Open Access)
Cited by:
298
h-index:
12
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

HiG2Vec: Hierarchical Representations of Gene Ontology and Genes in the Poincaré Ball

Jae‐Sik Kim et al.Jul 15, 2020
Abstract Knowledge manipulation of gene ontology (GO) and gene ontology annotation (GOA) can be done primarily by using vector representation of GO terms and genes for versatile applications such as deep learning. Previous studies have represented GO terms and genes or gene products to measure their semantic similarity using the Word2Vec-based method, which is an embedding method to represent entities as numeric vectors in Euclidean space. However, this method has the limitation that embedding large graph-structured data in the Euclidean space cannot prevent a loss of information of latent hierarchies, thus precluding the semantics of GO and GOA from being captured optimally. In this paper, we propose hierarchical representations of GO and genes (HiG2Vec) that apply Poincaré embedding specialized in the representation of hierarchy through a two-step procedure: GO embedding and gene embedding. Through experiments, we show that our model represents the hierarchical structure better than other approaches and predicts the interaction of genes or gene products similar to or better than previous studies. The results indicate that HiG2Vec is superior to other methods in capturing the GO and gene semantics and in data utilization as well. It can be robustly applied to manipulate various biological knowledge. Availability https://github.com/JaesikKim/HiG2Vec Contact kasohn@ajou.ac.kr , Dokyoon.Kim@pennmedicine.upenn.edu
1
Citation2
0
Save
0

Cytometry Masked Autoencoder: An Accurate and Interpretable Automated Immunophenotyper

Jae‐Sik Kim et al.Feb 14, 2024
Abstract High-throughput single-cell cytometry data are crucial for understanding involvement of immune system in diseases and responses to treatment. Traditional methods for annotating cytometry data, specifically manual gating and clustering, face challenges in scalability, robustness, and accuracy. In this study, we propose a cytometry masked autoencoder (cyMAE), which offers an automated solution for immunophenotyping tasks including cell type annotation. The cyMAE model is designed to uphold user-defined cell type definitions, thereby facilitating easier interpretation and cross-study comparisons. The cyMAE model operates on a pre-train and fine-tune approach. In the pre-training phase, cyMAE employs Masked Cytometry Modelling (MCM) to learn relationships between protein markers in immune cells solely based on protein expression, without relying on prior information such as cell identity and cell type-specific marker proteins. Subsequently, the pre-trained cyMAE is fine-tuned on multiple specialized tasks via task-specific supervised learning. The pre-trained cyMAE addresses the shortcomings of manual gating and clustering methods by providing accurate and interpretable predictions. Through validation across multiple cohorts, we demonstrate that cyMAE effectively identifies co-occurrence patterns of bound labeled antibodies, delivers accurate and interpretable cellular immunophenotyping, and improves the prediction of subject metadata status. Specifically, we evaluated cyMAE for cell type annotation and imputation at the cellular-level and SARS-CoV-2 infection prediction, secondary immune response prediction against COVID-19, and prediction of the infection stage in COVID-19 progression at the subject-level. The introduction of cyMAE marks a significant step forward in immunology research, particularly in large-scale and high-throughput human immune profiling. This approach offers new possibilities for predicting and interpreting cellular-level and subject-level phenotypes in both health and disease.