YS
Yong Song
Author with expertise in Global Health Biotechnology and Innovation
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(100% Open Access)
Cited by:
7
h-index:
21
/
i10-index:
26
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
17

Multi-Modality Machine Learning Predicting Parkinson’s Disease

Mary Makarious et al.Mar 7, 2021
+27
Y
J
M
SUMMARY Background Personalized medicine promises individualized disease prediction and treatment. The convergence of machine learning (ML) and available multi-modal data is key moving forward. We build upon previous work to deliver multi-modal predictions of Parkinson’s Disease (PD). Methods We performed automated ML on multi-modal data from the Parkinson’s Progression Marker Initiative (PPMI). After selecting the best performing algorithm, all PPMI data was used to tune the selected model. The model was validated in the Parkinson’s Disease Biomarker Program (PDBP) dataset. Finally, networks were built to identify gene communities specific to PD. Findings Our initial model showed an area under the curve (AUC) of 89.72% for the diagnosis of PD. The tuned model was then tested for validation on external data (PDBP, AUC 85.03%). Optimizing thresholds for classification, increased the diagnosis prediction accuracy (balanced accuracy) and other metrics. Combining data modalities outperforms the single biomarker paradigm. UPSIT was the largest contributing predictor for the classification of PD. The transcriptomic data was used to construct a network of disease-relevant transcripts. Interpretation We have built a model using an automated ML pipeline to make improved multi-omic predictions of PD. The model developed improves disease risk prediction, a critical step for better assessment of PD risk. We constructed gene expression networks for the next generation of genomics-derived interventions. Our automated ML approach allows complex predictive models to be reproducible and accessible to the community. Funding National Institute on Aging, National Institute of Neurological Disorders and Stroke, the Michael J. Fox Foundation, and the Global Parkinson’s Genetics Program. RESEARCH IN CONTEXT Evidence before this study Prior research into predictors of Parkinson’s disease (PD) has either used basic statistical methods to make predictions across data modalities, or they have focused on a single data type or biomarker model. We have done this using an open-source automated machine learning (ML) framework on extensive multi-modal data, which we believe yields robust and reproducible results. We consider this the first true multi-modality ML study of PD risk classification. Added value of this study We used a variety of linear, non-linear, kernel, neural networks, and ensemble ML algorithms to generate an accurate classification of both cases and controls in independent datasets using data that is not involved in PD diagnosis itself at study recruitment. The model built in this paper significantly improves upon our previous models that used the entire training dataset in previous work 1 . Building on this earlier work, we showed that the PD diagnosis can be refined using improved algorithmic classification tools that may yield potential biological insights. We have taken careful consideration to develop and validate this model using public controlled-access datasets and an open-source ML framework to allow for reproducible and transparent results. Implications of all available evidence Training, validating, and tuning a diagnostic algorithm for PD will allow us to augment clinical diagnoses or risk assessments with less need for complex and expensive exams. Going forward, these models can be built on remote or asynchronously collected data which may be important in a growing telemedicine paradigm. More refined diagnostics will also increase clinical trial efficiency by potentially refining phenotyping and predicting onset, allowing providers to identify potential cases earlier. Early detection could lead to improved treatment response and higher efficacy. Finally, as part of our workflow, we built new networks representing communities of genes correlated in PD cases in a hypothesis-free manner, showing how new and existing genes may be connected and highlighting therapeutic opportunities.
12

Microenvironment Impacts the Molecular Architecture and Interactivity of Resident Cells in Marmoset Brain

Jing‐Ping Lin et al.Jan 27, 2021
+5
Y
H
J
Abstract The microenvironments of the brain consist of specialized cell types that together influence physiological functions in health and pathological outcomes in disease. Despite apparent differences in the density of neurons and oligodendrocytes in various milieus, such as gray matter (GM) and white matter (WM), the extent of structural and functional heterogeneity of other resident cells remains unclear. We profiled RNA in ~500,000 nuclei from 19 tissue types across the central nervous system of the healthy adult common marmoset ( Callithrix jacchus ) and mapped 87 identified subclusters (including neurons, glia, and vasculature) spatially onto a 3D MRI atlas. We performed cross-species comparison, explored regulatory pathways, surveyed cellular determinants of neurological disorders, and modeled regional intercellular communication. We found spatially segregated microglia, oligodendrocyte lineage cells, and astrocytes in WM and GM. WM-glia are diverse, are enriched with genes involved in stimulus response and biomolecule modification, and interact with other resident cells more extensively than their GM counterparts. GM-glia preserve the expression of developmental morphogens into adulthood and share 6 differentially enriched transcription factors that restrict the transcriptome complexity. Our work in marmoset, an experimentally tractable animal model with >5 times more WM volume and complexity than mouse, identifies novel WM-glia subtypes and their contributions to different neurological disorders. A companion Callithrix jacchus Primate Cell Atlas (CjPCA) is available through an online portal https://cjpca.ninds.nih.gov to facilitate data exploration.
12
Citation1
0
Save
4

The IPDGC/GP2 Hackathon - an open science event for training in data science, genomics, and collaboration using Parkinson’s disease data

Hampton Leonard et al.May 10, 2022
+55
K
J
H
Abstract Background Open science and collaboration are necessary to facilitate the advancement of Parkinson’s disease (PD) research. Hackathons are collaborative events that bring together people with different skill sets and backgrounds to generate resources and creative solutions to problems. These events can be used as training and networking opportunities. Objective To coordinate a virtual hackathon to develop novel PD research tools. Methods 49 early career scientists from 12 countries collaborated in a virtual 3-day hackathon event in May 2021, during which they built tools and pipelines with a focus on PD. Resources were created with the goal of helping scientists accelerate their own research by having access to the necessary code and tools. Results Each team was allocated one of nine different projects, each with a different goal. These included developing post-genome-wide association studies (GWAS) analysis pipelines, downstream analysis of genetic variation pipelines, and various visualization tools. Conclusion Hackathons are a valuable approach to inspire creative thinking, supplement training in data science, and foster collaborative scientific relationships, which are foundational practices for early career researchers. The resources generated can be used to accelerate research on the genetics of PD.