YC
Yue Cao
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(67% Open Access)
Cited by:
267
h-index:
9
/
i10-index:
7
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Prediction of Prognosis and Survival of Patients with Gastric Cancer by Weighted Improved Random Forest Model

Cheng Xu et al.Apr 10, 2021
It is essential to predict the survival status of patients based on their prognosis. This can assist physicians in evaluating treatment decisions. Random forest is an excellent machine learning algorithm even without any modification. We propose a new random forest weighting method and apply it to the gastric cancer patient data from the Surveillance, Epidemiology, and End Results (SEER) program. We evaluated the generalization ability of this weighted random forest algorithm on 10 public medical datasets. Furthermore, for the same weighting mode, the difference between using out-of-bag (OOB) data and all training sets as the weighting basis is explored.110 697 cases of gastric cancer patients diagnosed between 1975 and 2016 obtained from the SEER database were included in the experiment. In addition, 10 public medical datasets were used for the generalization ability evaluation of this weighted random forest algorithm.Through experimental verification, on the SEER gastric cancer patient data, the weighted random forest algorithm improves the accuracy by 0.79% compared with the original random forest. In AUC, macro-averaging increased by 2.32% and micro-averaging increased by 0.51% on average. Among the 10 public datasets, the random forest weighted in accuracy has the best performance on 6 datasets, with an average increase of 1.44% in accuracy and an average increase of 1.2% in AUC.Compared with the original random forest, the weighted random forest model shows a significant improvement in performance, and the effect of using all training data as the weighting basis is better than using OOB data.
8

scFeatures: Multi-view representations of single-cell and spatial data for disease outcome prediction

Yue Cao et al.Jan 22, 2022
Abstract Recent advances in single-cell technologies enable scientists to measure molecular data at high-resolutions and hold the promise to substantially improve clinical outcomes through personalised medicine. However, due to a lack of tools specifically designed to represent each sample (e.g. patient) from the collection of cells sequenced, disease outcome prediction on the sample level remains a challenging task. Here, we present scFeatures, a tool that creates interpretable molecular representation of single-cell and spatial data using 17 types of features motivated by current literature. The feature types span across six distinct categories including cell type proportions, cell type specific gene expressions, cell type specific pathway scores, cell type specific cell–cell interaction scores, overall aggregated gene expressions and spatial metrics. By generating molecular representation using scFeatures for single-cell RNA-seq, spatial proteomic and spatial transcriptomic data, we demonstrate that different types of features are important for predicting different disease outcomes in different datasets and the downstream analysis of features uncover novel biological discoveries.
8
Citation2
0
Save
7

Benchmarking of analytical combinations for COVID-19 outcome prediction using single-cell RNA sequencing data

Yue Cao et al.Jan 18, 2023
Abstract The advances of single-cell transcriptomic technologies have led to increasing use of single-cell RNA sequencing (scRNA-seq) data in large-scale patient cohort studies. The resulting high-dimensional data can be summarised and incorporated into patient outcome prediction models in several ways, however, there is a pressing need to understand the impact of analytical decisions on such model quality. In this study, we evaluate the impact of analytical choices on model choices, ensemble learning strategies and integration approaches on patient outcome prediction using five scRNA-seq COVID-19 datasets. First, we examine the difference in performance between using each single-view feature space versus multi-view feature space. Next, we survey multiple learning platforms from classical machine learning to modern deep learning methods. Lastly, we compare different integration approaches when combining datasets is necessary. Through benchmarking such analytical combinations, our study highlights the power of ensemble learning, consistency among different learning methods and robustness to dataset normalisation when using multiple datasets as the model input. Summary key points This work assesses and compares the performance of three categories of workflow consisting of 350 analytical combinations for outcome prediction using multi-sample, multi-conditions single-cell studies. We observed that using ensemble of feature types performs better than using individual feature type We found that in the current data, all learning approaches including deep learning exhibit similar predictive performance. When combining multiple datasets as the input, our study found that integrating multiple datasets at the cell level performs similarly to simply concatenating the patient representation without modification.
Load More