SY
Shinjae Yoo
Author with expertise in RNA Sequencing Data Analysis
Brookhaven National Laboratory, Brookhaven College, GE Global Research (United States)
+ 10 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
14
(43% Open Access)
Cited by:
13
h-index:
25
/
i10-index:
58
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Quantum-centric supercomputing for materials science: A perspective on challenges and future directions

Yuri Alexeev et al.Sep 6, 2024
+125
M
M
Y
Computational models are an essential tool for the design, characterization, and discovery of novel materials. Computationally hard tasks in materials science stretch the limits of existing high-performance supercomputing centers, consuming much of their resources for simulation, analysis, and data processing. Quantum computing, on the other hand, is an emerging technology with the potential to accelerate many of the computational tasks needed for materials science. In order to do that, the quantum technology must interact with conventional high-performance computing in several ways: approximate results validation, identification of hard problems, and synergies in quantum-centric supercomputing. In this paper, we provide a perspective on how quantum-centric supercomputing can help address critical computational problems in materials science, the challenges to face in order to solve representative use cases, and new suggested directions.
0
Citation4
0
Save
28

Overestimated Polygenic Prediction due to Overlapping Subjects in Genetic Datasets

David Park et al.Oct 24, 2023
+6
S
M
D
ABSTRACT Recently, polygenic risk score (PRS) has gained significant attention in studies involving complex genetic diseases and traits. PRS is often derived from summary statistics, from which the independence between discovery and replication sets cannot be monitored. Prior studies, in which the independence is strictly observed, report a relatively low gain from PRS in predictive models of binary traits. We hypothesize that the independence assumption may be compromised when using the summary statistics, and suspect an overestimation bias in the predictive accuracy. To demonstrate the overestimation bias in the replication dataset, prediction performances of PRS models are compared when overlapping subjects are either present or removed. We consider the task of Alzheimer’s disease (AD) prediction across genetics datasets, including the International Genomics of Alzheimer’s Project (IGAP), AD Sequencing Project (ADSP), and Accelerating Medicine Partnership - Alzheimer’s Disease (AMP-AD). PRS is computed from either sequencing studies for ADSP and AMP-AD (denoted as rPRS) or the summary statistics for IGAP (sPRS). Two variables with the high heritability in UK Biobank, hypertension, and height, are used to derive an exemplary scale effect of PRS. Based on the scale effect, the expected performance of sPRS is computed for AD prediction. Using ADSP as a discovery set for rPRS on AMP-AD, ΔAUC and ΔR 2 (performance gains in AUC and R 2 by PRS) record 0.069 and 0.11, respectively. Both drop to 0.0017 and 0.0041 once overlapping subjects are removed from AMP-AD. sPRS is derived from IGAP, which records ΔAUC and ΔR 2 of 0.051±0.013 and 0.063±0.015 for ADSP and 0.060 and 0.086 for AMP-AD, respectively. On UK Biobank, rPRS performances for hypertension assuming a similar size of discovery and replication sets are 0.0036±0.0027 (ΔAUC) and 0.0032±0.0028 (ΔR 2 ). For height, ΔR 2 is 0.029±0.0037. Considering the high heritability of hypertension and height of UK Biobank, we conclude that sPRS results from AD databases are inflated. The higher performances relative to the size of the discovery set were observed in PRS studies of several diseases. PRS performances for binary traits, such as AD and hypertension, turned out unexpectedly low. This may, along with the difference in linkage disequilibrium, explain the high variability of PRS performances in cross-nation or cross-ethnicity applications, i.e., when there are no overlapping subjects. Hence, for sPRS, potential duplications should be carefully considered within the same ethnic group.
28
Citation3
0
Save
0

INSURE: an Information theory iNspired diSentanglement and pURification modEl for domain generalization

Xi Yu et al.Sep 11, 2024
+2
S
H
X
Domain Generalization (DG) aims to learn a generalizable model on the unseen target domain by only training on the multiple observed source domains. Although a variety of DG methods have focused on extracting domain-invariant features, the domain-specific class-relevant features have attracted attention and been argued to benefit generalization to the unseen target domain. To take into account the class-relevant domain-specific information, in this paper we propose an Information theory iNspired diSentanglement and pURification modEl (INSURE) to explicitly disentangle the latent features to obtain sufficient and compact (necessary) class-relevant feature for generalization to the unseen domain. Specifically, we first propose an information theory inspired loss function to ensure the disentangled class-relevant features contain sufficient class label information and the other disentangled auxiliary feature has sufficient domain information. We further propose a paired purification loss function to let the auxiliary feature discard all the class-relevant information and thus the class-relevant feature will contain sufficient and compact (necessary) class-relevant information. Moreover, instead of using multiple encoders, we propose to use a learnable binary mask as our disentangler to make the disentanglement more efficient and make the disentangled features complementary to each other. We conduct extensive experiments on five widely used DG benchmark datasets including PACS, VLCS, OfficeHome, TerraIncognita, and DomainNet. The proposed INSURE achieves state-of-the-art performance. We also empirically show that domain-specific class-relevant features are beneficial for domain generalization. The code is available at https://github.com/yuxi120407/INSURE.
0

Federated quantum long short-term memory (FedQLSTM)

Mahdi Chehimi et al.Sep 6, 2024
S
W
S
M
Abstract Quantum federated learning (QFL) can facilitate collaborative learning across multiple clients using quantum machine learning (QML) models, while preserving data privacy. Although recent advances in QFL span different tasks like classification while leveraging several data types, no prior work has focused on developing a QFL framework that utilizes temporal data to approximate functions useful to analyze the performance of distributed quantum sensing networks. In this paper, a novel QFL framework that is the first to integrate quantum long short-term memory (QLSTM) models with temporal data is proposed. The proposed federated QLSTM (FedQLSTM) framework is exploited for performing the task of function approximation. In this regard, three key use cases are presented: Bessel function approximation, sinusoidal delayed quantum feedback control function approximation, and Struve function approximation. Simulation results confirm that, for all considered use cases, the proposed FedQLSTM framework achieves a faster convergence rate under one local training epoch, minimizing the overall computations, and saving 25–33% of the number of communication rounds needed until convergence compared to an FL framework with classical LSTM models.
0

Quantum Computing for High-Energy Physics: State of the Art and Challenges

Alberto Meglio et al.Sep 6, 2024
+44
K
J
A
Quantum computers offer an intriguing path for a paradigmatic change of computing in the natural sciences and beyond, with the potential for achieving a so-called quantum advantage—namely, a significant (in some cases exponential) speedup of numerical simulations. The rapid development of hardware devices with various realizations of qubits enables the execution of small-scale but representative applications on quantum computers. In particular, the high-energy physics community plays a pivotal role in accessing the power of quantum computing, since the field is a driving source for challenging computational problems. This concerns, on the theoretical side, the exploration of models that are very hard or even impossible to address with classical techniques and, on the experimental side, the enormous data challenge of newly emerging experiments, such as the upgrade of the Large Hadron Collider. In this Roadmap paper, led by CERN, DESY, and IBM, we provide the status of high-energy physics quantum computations and give examples of theoretical and experimental target benchmark applications, which can be addressed in the near future. Having in mind hardware with about 100 qubits capable of executing several thousand two-qubit gates, where possible, we also provide resource estimates for the examples given using error-mitigated quantum computing. The ultimate declared goal of this task force is therefore to trigger further research in the high-energy physics community to develop interesting use cases for demonstrations on near-term quantum computers. Published by the American Physical Society 2024
0

Electronic Health Records Based Prediction of Future Incidence of Alzheimer’s Disease Using Machine Learning

Ji Park et al.Oct 24, 2023
+6
J
H
J
Abstract Background Accurate prediction of future incidence of Alzheimer’s disease may facilitate intervention strategy to delay disease onset. Existing AD risk prediction models require collection of biospecimen (genetic, CSF, or blood samples), cognitive testing, or brain imaging. Conversely, EHR provides an opportunity to build a completely automated risk prediction model based on individuals’ history of health and healthcare. We tested machine learning models to predict future incidence of AD using administrative EHR in individuals aged 65 or older. Methods We obtained de-identified EHR from Korean elders age above 65 years old (N=40,736) collected between 2002 and 2010 in the Korean National Health Insurance Service database system. Consisting of Participant Insurance Eligibility database, Healthcare Utilization database, and Health Screening database, our EHR contain 4,894 unique clinical features including ICD-10 codes, medication codes, laboratory values, history of personal and family illness, and socio-demographics. Our event of interest was new incidence of AD defined from the EHR based on both AD codes and prescription of anti-dementia medication. Two definitions were considered: a more stringent one requiring a diagnosis and dementia medication resulting in n=614 cases (“definite AD”) and a more liberal one requiring only diagnostic codes (n=2,026; “probable AD”). We trained and validated a random forest, support vector machine, and logistic regression to predict incident AD in 1,2,3, and 4 subsequent years using the EHR available since 2002. The length of the EHR used in the models ranged from 1,571 to 2,239 days. Model training, validation, and testing was done using iterative (5 times), nested, stratified 5-fold cross validation. Results Average duration of EHR was 1,936 days in AD and 2,694 days in controls. For predicting future incidence of AD using the “definite AD” outcome, the machine learning models showed the best performance in 1 year prediction with AUC of 0.781; in 2 year, 0.739; in 3 year, 0.686; in 4 year, 0.662. Using “probable AD” outcome, the machine learning models showed the best performance in 1 year prediction with AUC of 0.730; in 2 year, 0.645; in 3 year, 0.575; in 4 year, 0.602. Important clinical features selected in logistic regression included hemoglobin level (b=-0.902), age (b=0.689), urine protein level (b=0.303), prescription of Lodopin (antipsychotic drug) (b=0.303), and prescription of Nicametate Citrate (vasodilator) (b=-0.297). Conclusion This study demonstrates that EHR can detect risk for incident AD. This approach could enable risk-specific stratification of elders for better targeted clinical trials. Key Points Question Can machine learning be used to predict future incidence of Alzheimer’s disease using electronic health records? Findings We developed and validated supervised machine learning models using the HER data from 40,736 South Korean elders (age above 65 years old). Our model showed acceptable accuracy in predicting up to four year subsequent incidence of AD. Meaning This study shows the potential utility of the administrative EHR data in predicting risk for AD using data-driven machine learning to support physicians at the point of care.
0

Third-generation sequencing and the future of genomics

Hayan Lee et al.May 6, 2020
+5
S
J
H
Third-generation long-range DNA sequencing and mapping technologies are creating a renaissance in high-quality genome sequencing. Unlike second-generation sequencing, which produces short reads a few hundred base-pairs long, third-generation single-molecule technologies generate over 10,000 bp reads or map over 100,000 bp molecules. We analyze how increased read lengths can be used to address long-standing problems in de novo genome assembly, structural variation analysis and haplotype phasing.
0

Diagnosis and Prognosis Using Machine Learning Trained on Brain Morphometry and White Matter Connectomes

Yun Wang et al.Oct 24, 2023
+6
J
C
Y
Accurate, reliable prediction of risk for Alzheimers disease (AD) is essential for early, disease-modifying therapeutics. Multimodal MRI, such as structural and diffusion MRI, is likely to contain complementary information of neurodegenerative processes in AD. Here we tested the utility of commonly available multimodal MRI (T1-weighted structure and diffusion MRI), combined with high-throughput brain phenotyping-morphometry and connectomics-and machine learning, as a diagnostic tool for AD. We used, firstly, a clinical cohort at a dementia clinic (study 1: Ilsan Dementia Cohort; N=211; 110 AD, 64 mild cognitive impairment [MCI], and 37 subjective memory complaints [SMC]) to test and validate the diagnostic models; and, secondly, Alzheimers Disease Neuroimaging Initiative (ADNI)-2 (study 2) to test the generalizability of the approach and the prognostic models with longitudinal follow up data. Our machine learning models trained on the morphometric and connectome estimates (number of features=34,646) showed optimal classification accuracy (AD/SMC: 97% accuracy, MCI/SMC: 83% accuracy; AD/MCI: 97% accuracy) with iterative nested cross-validation in a single-site study, outperforming the benchmark model (FLAIR-based white matter hyperintensity volumes). In a generalizability study using ADNI-2, the combined connectome and morphometry model showed similar or superior accuracies (AD/HC: 96%; MCI/HC: 70%; AD/MCI: 75% accuracy) as CSF biomarker model (t-tau, p-tau, and Amyloid beta;, and ratios). We also predicted MCI to AD progression with 69% accuracy, compared with the 70% accuracy using CSF biomarker model. The optimal classification accuracy in a single-site dataset and the reproduced results in multi-site dataset show the feasibility of the high-throughput imaging analysis of multimodal MRI and data-driven machine learning for predictive modeling in AD.
0

Diagnosis and Prognosis of Alzheimer’s Disease Using Brain Morphometry and White Matter Connectomes

Yun Wang et al.May 7, 2020
+6
J
C
Y
Accurate, reliable prediction of risk for Alzheimer’s disease (AD) is essential for early, disease-modifying therapeutics. Multimodal MRI, such as structural and diffusion MRI, is likely to contain complementary information of neurodegenerative processes in AD. Here we tested the utility of the multimodal MRI (T1-weighted structure and diffusion MRI), combined with high-throughput brain phenotyping—morphometry and structural connectomics—and machine learning, as a diagnostic tool for AD. We used, firstly, a clinical cohort at a dementia clinic (National Health Insurance Service-Ilsan Hospital [NHIS-IH]; N=211; 110 AD, 64 mild cognitive impairment [MCI], and 37 cognitively normal with subjective memory complaints [SMC]) to test the diagnostic models; and, secondly, Alzheimer’s Disease Neuroimaging Initiative (ADNI)-2 to test the generalizability. Our machine learning models trained on the morphometric and connectome estimates (number of features=34,646) showed optimal classification accuracy (AD/SMC: 97% accuracy, MCI/SMC: 83% accuracy; AD/MCI: 97% accuracy) in NHIS-IH cohort, outperforming a benchmark model (FLAIR-based white matter hyperintensity volumes). In ADNI-2 data, the combined connectome and morphometry model showed similar or superior accuracies (AD/HC: 96%; MCI/HC: 70%; AD/MCI: 75% accuracy) compared with the CSF biomarker model (t-tau, p-tau, and Amyloid β, and ratios). In predicting MCI to AD progression in a smaller cohort of ADNI-2 (n=60), the morphometry model showed similar performance with 69% accuracy compared with CSF biomarker model with 70% accuracy. Our comparison of classifiers trained on structural MRI, diffusion MRI, FLAIR, and CSF biomarkers show the promising utility of the white matter structural connectomes in classifying AD and MCI in addition to the widely used structural MRI-based morphometry, when combined with machine learning.Highlights
0

Diagnosis and Prognosis Using Machine Learning Trained on Brain Morphometry and White Matter Connectomes

Yun Wang et al.May 6, 2020
+6
J
C
Y
Accurate, reliable prediction of risk for Alzheimer's disease (AD) is essential for early, disease-modifying therapeutics. Multimodal MRI, such as structural and diffusion MRI, may contain multi-dimensional information neurodegenerative processes in AD. Here we tested the utility of structural MRI and diffusion MRI as imaging markers of AD using high-throughput brain phenotyping including morphometry and white-matter structural connectome (whole-brain tractography), and machine learning analytics for classification. We used a retrospective cohort collected at a dementia clinic (Ilsan Dementia Cohort; N=211; 110 AD, 64 mild cognitive impairment [MCI], and 37 subjective memory complaints [SMC]). Multi-modal MRI was collected (T1, T2-FLAIR, and diffusion MRI) and was used for morphometry, structural connectome, and white matter hyperintensity (WHM) segmentation. Our machine learning model trained on the large-scale brain phenotypes (n=34,646) classified AD, MCI, and SMC with unprecedented accuracy (AD/SMC: 97% accuracy, MCI/SMC: 83% accuracy; AD/MCI: 98% accuracy) with strict iterative nested ten-fold cross-validation. Model comparison revealed that white-matter structural connectome was the primary contributor compared with conventional volumetric features (e.g., WHM or hippocampal volume). This study indicates promising utility of multimodal MRI, particularly structural connectome, combined with high-throughput brain phenotyping and machine learning analytics to extract salient features enabling accurate diagnostic prediction.
Load More