BY
Bo Yuan
Author with expertise in Brown Adipose Tissue Function and Physiology
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
27
h-index:
4
/
i10-index:
0
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
21

Pancreatic cancer risk predicted from disease trajectories using deep learning

Bo Yuan et al.Jun 28, 2021
Abstract Pancreatic cancer is an aggressive disease that typically presents late with poor patient outcomes. There is a pronounced medical need for early detection of pancreatic cancer, which can be addressed by identifying high-risk populations. Here we apply artificial intelligence (AI) methods to a dataset of 6 million patient records with 24,000 pancreatic cancer cases in the Danish National Patient Registry (DNPR) and, for comparison, a dataset of three million records with 3,900 pancreatic cancer cases in the United States Department of Veterans Affairs (US-VA) healthcare system. In contrast to existing methods that do not use temporal information, we explicitly train machine learning models on the time sequence of diseases in patient clinical histories and test the ability to predict cancer occurrence in time intervals of 3 to 60 months after risk assessment. For cancer occurrence within 36 months, the performance of the best model (AUROC=0.88, DNPR), trained and tested on disease trajectories, exceeds that of a model without longitudinal information (AUROC=0.85, DNPR). Performance decreases when disease events within a 3 month window before cancer diagnosis are excluded from training (AUROC[3m]=0.83). Independent training and testing on the US-VA dataset reaches comparable performance (AUROC=0.78, AUROC[3m]=0.76). These results raise the state-of-the-art level of performance of cancer risk prediction on real-world data sets and provide support for the design of prediction-surveillance programs based on risk assessment in a large population followed by affordable surveillance of a relatively small number of patients at highest risk. Use of AI on real-world clinical records has the potential to shift focus from treatment of late-stage to early-stage cancer, benefiting patients by improving lifespan and quality of life.
43

scPerturb: Harmonized Single-Cell Perturbation Data

Stefan Peidli et al.Aug 22, 2022
Abstract Recent biotechnological advances led to growing numbers of single-cell perturbation studies, which reveal molecular and phenotypic responses to large numbers of perturbations. However, analysis across diverse datasets is typically hampered by differences in format, naming conventions, and data filtering. In order to facilitate development and benchmarking of computational methods in systems biology, we collect a set of 44 publicly available single-cell perturbation-response datasets with molecular readouts, including transcriptomics, proteomics and epigenomics. We apply uniform pre-processing and quality control pipelines and harmonize feature annotations. The resulting information resource enables efficient development and testing of computational analysis methods, and facilitates direct comparison and integration across datasets. In addition, we introduce E-statistics for perturbation effect quantification and significance testing, and demonstrate E-distance as a general distance measure for single cell data. Using these datasets, we illustrate the application of E-statistics for quantifying perturbation similarity and efficacy. The data and a package for computing E-statistics is publicly available at scperturb.org. This work provides an information resource and guide for researchers working with single-cell perturbation data, highlights conceptual considerations for new experiments, and makes concrete recommendations for optimal cell counts and read depth.
43
Citation11
0
Save
6

An Empirical Study of ML-based Phenotyping and Denoising for Improved Genomic Discovery

Bo Yuan et al.Nov 18, 2022
Abstract Genome-wide association studies (GWAS) are used to identify genetic variants significantly correlated with a target disease or phenotype as a first step to detect potentially causal genes. The availability of high-dimensional biomedical data in population-scale biobanks has enabled novel machine-learning-based phenotyping approaches in which machine learning (ML) algorithms rapidly and accurately phenotype large cohorts with both genomic and clinical data, increasing the statistical power to detect variants associated with a given phenotype. While recent work has demonstrated that these methods can be extended to diseases for which only low quality medical-record-based labels are available, it is not possible to quantify changes in statistical power since the underlying ground-truth liability scores for the complex, polygenic diseases represented by these medical-record-based phenotypes is unknown. In this work, we aim to empirically study the robustness of ML-based phenotyping procedures to label noise by applying varying levels of random noise to vertical cup-to-disc ratio (VCDR), a quantitative feature of the optic nerve that is predictable from color fundus imagery and strongly influences glaucoma referral risk. We show that the ML-based phenotyping procedure recovers the underlying liability score across noise levels, significantly improving genetic discovery and PRS predictive power relative to noisy equivalents. Furthermore, initial denoising experiments show promising preliminary results, suggesting that improving such methods will yield additional gains.
6
Citation2
0
Save
1

Mice lacking triglyceride synthesis enzymes in adipose tissue are resistant to diet-induced obesity

Chandramohan Chitraju et al.May 5, 2022
SUMMARY Triglycerides (TG) in adipocytes provide the major stores of metabolic energy in the body. Optimal amounts of TG stores are desirable as insufficient capacity to store TG, as in lipodystrophy, or exceeding the capacity for storage, as in obesity, results in metabolic disease. We hypothesized that mice lacking TG storage in adipocytes would result in excess TG storage in cell types other than adipocytes and severe lipotoxicity accompanied by metabolic disease. To test this hypothesis, we selectively deleted both TG-synthesis enzymes, DGAT1 and DGAT2, in adipocytes (ADGAT DKO mice). As expected with depleted energy stores, ADGAT DKO mice did not tolerate fasting well and, with prolonged fasting, entered torpor. However, ADGAT DKO mice were unexpectedly otherwise metabolically healthy and did not accumulate TGs ectopically or develop associated metabolic perturbations, even when fed a high-fat diet. The favorable metabolic phenotype resulted from activation of energy expenditure, in part via BAT activation and beiging of white adipose tissue. Thus, the ADGAT DKO mice provide a fascinating new model to study the coupling of metabolic energy storage to energy expenditure.
1
Citation1
0
Save
8

De novo generation of T-cell receptors with desired epitope-binding property by leveraging a pre-trained large language model

Jiannan Yang et al.Jan 1, 2023
Generating T-cell receptors (TCRs) with desired epitope-binding properties is a fundamental step in the development of immunotherapies, yet heavily relies on laborious and expensive wet experiments. Recent advancements in generative artificial intelligence have demonstrated promising power in protein design and engineering. In this regard, we propose a large language model, termed Epitope-Receptor-Transformer (ERTransformer), for the de novo generation of TCRs with the desired epitope-binding property. ERTransformer is built on EpitopeBERT and ReceptorBERT, which are trained using 1.9 million epitope sequences and 33.1 million TCR sequences, respectively. To demonstrate the model capability, we generate 1000 TCRs for each of the five epitopes with known natural TCRs. The artificial TCRs exhibit low sequence identity (average Bit-score 27.64 with a standard deviation of 1.50) but high biological function similarity (average BLOSUM62 score 32.32 with a standard deviation of 12.01) to natural TCRs. Furthermore, the artificial TCRs are not very structurally identical to natural ones (average RMSD 2.84 A with a standard deviation of 1.21 A) but exhibit a comparable binding affinity towards the corresponding epitopes. Our work highlights the tremendous potential of applying ERTransformer to generate novel TCRs with desired epitope-binding ability.
2

A liver-specific mitochondrial carrier that controls gluconeogenesis and energy expenditure

Jin-Seon Yook et al.Dec 9, 2022
ABSTRACT Mitochondria provide essential metabolites and ATP for the regulation of energy homeostasis. For instance, liver mitochondria are a vital source of gluconeogenic precursors under a fasted state. However, the regulatory mechanisms at the level of mitochondrial membrane transport are not fully understood. Here, we report a liver-specific mitochondrial inner-membrane carrier, SLC25A47, which is required for hepatic gluconeogenesis and energy homeostasis. Genome-wide association studies found significant associations between SLC25A47 and fasting glucose, HbA1c, and cholesterol levels in humans. In mice, we demonstrated that liver-specific deletion of Slc25a47 impaired hepatic gluconeogenesis selectively from lactate, while significantly enhancing whole-body energy expenditure and the hepatic expression of FGF21. These metabolic changes were not a consequence of general liver dysfunction because acute SLC25A47 deletion in adult mice was sufficient to enhance hepatic FGF21 production, pyruvate tolerance, and insulin tolerance independent of liver damage and mitochondrial dysfunction. Mechanistically, SLC25A47 loss leads to impaired hepatic pyruvate flux and malate accumulation in the mitochondria, thereby restricting hepatic gluconeogenesis. Together, the present study identified a crucial node in the mitochondrial inner-membrane that regulates fasting-induced gluconeogenesis and energy homeostasis. SIGNIFICANCE Given the impenetrable nature of the mitochondrial inner-membrane, most of the known metabolite carrier proteins, including SLC25A family members, are ubiquitously expressed in mammalian tissues. One exception is SLC25A47 which is selectively expressed in the liver. The present study showed that depletion of SLC25A47 reduced mitochondrial pyruvate flux and hepatic gluconeogenesis under a fasted state, while activating energy expenditure. The present work offers a liver-specific target through which we can restrict hepatic gluconeogenesis, which is often in excess under hyperglycemic and diabetic conditions.