YS
Yongsoo Song
Author with expertise in Privacy-Preserving Techniques for Data Analysis and Machine Learning
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
3
(100% Open Access)
Cited by:
21
h-index:
10
/
i10-index:
11
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
22

Ultra-Fast Homomorphic Encryption Models enable Secure Outsourcing of Genotype Imputation

Miran Kim et al.Jul 4, 2020
ABSTRACT Genotype imputation is a fundamental step in genomic data analysis such as GWAS, where missing variant genotypes are predicted using the existing genotypes of nearby ‘tag’ variants. Imputation greatly decreases the genotyping cost and provides high-quality estimates of common variant genotypes. As population panels increase, e.g., the TOPMED Project, genotype imputation is becoming more accurate, but it requires high computational power. Although researchers can outsource genotype imputation, privacy concerns may prohibit genetic data sharing with an untrusted imputation service. To address this problem, we developed the first fully secure genotype imputation by utilizing ultra-fast homomorphic encryption (HE) techniques that can evaluate millions of imputation models in seconds. In HE-based methods, the genotype data is end-to-end encrypted, i.e., encrypted in transit, at rest, and, most importantly, in analysis, and can be decrypted only by the data owner. We compared secure imputation with three other state-of-the-art non-secure methods under different settings. We found that HE-based methods provide full genetic data security with comparable or slightly lower accuracy. In addition, HE-based methods have time and memory requirements that are comparable and even lower than the non-secure methods. We provide five different implementations and workflows that make use of three cutting-edge HE schemes (BFV, CKKS, TFHE) developed by the top contestants of the iDASH19 Genome Privacy Challenge. Our results provide strong evidence that HE-based methods can practically perform resource-intensive computations for high throughput genetic data analysis. In addition, the publicly available codebases provide a reference for the development of secure genomic data analysis methods.
22
Citation17
0
Save
1

Open Imputation Server provides secure Imputation services with provable genomic privacy

Arif Harmanci et al.Oct 1, 2021
Abstract Summary As DNA sequencing data is available for personal use, genomic privacy is becoming a major challenge. Nevertheless, high-throughput genomic data analysis outsourcing is performed using pipelines that tend to overlook these challenges. Results We present a client-server-based outsourcing framework for genotype imputation, an important step in genomic data analyses. Genotype data is encrypted by the client and encrypted data are used by the server that never observes the data in plain. Cloud-based framework can benefit from virtually unlimited computational resources while providing provable confidentiality. We demonstrate server’s utility from several aspects using genotype dataset from the 1000 Genomes datasets. First, we benchmark the accuracy of common variant imputation in comparison to BEAGLE, a state-of-the-art imputation method. We also provide the detailed time requirements of the server to showcase scaling of time usage in different steps of imputation. We also present a simple correlation metric that can be used to estimate imputation accuracy using only the reference panels. This is important for filtering the variants in downstream analyses. As a further demonstration and a different use case, we performed a simulated genomewide association study (GWAS) using imputed and known genotypes and highlight potential utility of the server for association studies. Overall, our study present multiple lines of evidence for usability of secure imputation service. Availability Server is publicly available at https://www.secureomics.org/OpenImpute . Users can anonymously test and use imputation server without registration. Contact Arif.O.Harmanci@uth.tmc.edu
1
Citation4
0
Save
0

Harnessing the potential of shared data in a secure, inclusive, and resilient manner via multi-key homomorphic encryption

David Kang et al.Jun 13, 2024
Abstract In this manuscript, we develop a multi-party framework tailored for multiple data contributors seeking machine learning insights from combined data sources. Grounded in statistical learning principles, we introduce the Multi-Key Homomorphic Encryption Logistic Regression (MK-HELR) algorithm, designed to execute logistic regression on encrypted multi-party data. Given that models built on aggregated datasets often demonstrate superior generalization capabilities, our approach offers data contributors the collective strength of shared data while ensuring their original data remains private due to encryption. Apart from facilitating logistic regression on combined encrypted data from diverse sources, this algorithm creates a collaborative learning environment with dynamic membership. Notably, it can seamlessly incorporate new participants during the learning process, addressing the key limitation of prior methods that demanded a predetermined number of contributors to be set before the learning process begins. This flexibility is crucial in real-world scenarios, accommodating varying data contribution timelines and unanticipated fluctuations in participant numbers, due to additions and departures. Using the AI4I public predictive maintenance dataset, we demonstrate the MK-HELR algorithm, setting the stage for further research in secure, dynamic, and collaborative multi-party learning scenarios.