WF
Weixuan Fu
Author with expertise in Learning with Noisy Labels in Machine Learning
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(70% Open Access)
Cited by:
806
h-index:
19
/
i10-index:
30
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Scaling tree-based automated machine learning to biomedical big data with a feature set selector

Trang Le et al.Jun 2, 2019
Abstract Motivation Automated machine learning (AutoML) systems are helpful data science assistants designed to scan data for novel features, select appropriate supervised learning models and optimize their parameters. For this purpose, Tree-based Pipeline Optimization Tool (TPOT) was developed using strongly typed genetic programing (GP) to recommend an optimized analysis pipeline for the data scientist’s prediction problem. However, like other AutoML systems, TPOT may reach computational resource limits when working on big data such as whole-genome expression data. Results We introduce two new features implemented in TPOT that helps increase the system’s scalability: Feature Set Selector (FSS) and Template. FSS provides the option to specify subsets of the features as separate datasets, assuming the signals come from one or more of these specific data subsets. FSS increases TPOT’s efficiency in application on big data by slicing the entire dataset into smaller sets of features and allowing GP to select the best subset in the final pipeline. Template enforces type constraints with strongly typed GP and enables the incorporation of FSS at the beginning of each pipeline. Consequently, FSS and Template help reduce TPOT computation time and may provide more interpretable results. Our simulations show TPOT-FSS significantly outperforms a tuned XGBoost model and standard TPOT implementation. We apply TPOT-FSS to real RNA-Seq data from a study of major depressive disorder. Independent of the previous study that identified significant association with depression severity of two modules, TPOT-FSS corroborates that one of the modules is largely predictive of the clinical diagnosis of each individual. Availability and implementation Detailed simulation and analysis code needed to reproduce the results in this study is available at https://github.com/lelaboratoire/tpot-fss. Implementation of the new TPOT operators is available at https://github.com/EpistasisLab/tpot. Supplementary information Supplementary data are available at Bioinformatics online.
0
Citation322
0
Save
0

Characterization of a novel chicken muscle disorder through differential gene expression and pathway analysis using RNA-sequencing

Marie Mutryn et al.May 20, 2015
Improvements in poultry production within the past 50 years have led to increased muscle yield and growth rate, which may be contributing to an increased rate and development of new muscle disorders in chickens. Previously reported muscle disorders and conditions are generally associated with poor meat quality traits and have a significant negative economic impact on the poultry industry. Recently, a novel myopathy phenotype has emerged which is characterized by palpably "hard" or tough breast muscle. The objective of this study is to identify the underlying biological mechanisms that contribute to this emerging muscle disorder colloquially referred to as "Wooden Breast", through the use of RNA-sequencing technology. We constructed cDNA libraries from five affected and six unaffected breast muscle samples from a line of commercial broiler chickens. After paired-end sequencing of samples using the Illumina Hiseq platform, we used Tophat to align the resulting sequence reads to the chicken reference genome and then used Cufflinks to find significant changes in gene transcript expression between each group. By comparing our gene list to previously published histology findings on this disorder and using Ingenuity Pathways Analysis (IPA®), we aim to develop a characteristic gene expression profile for this novel disorder through analyzing genes, gene families, and predicted biological pathways. Over 1500 genes were differentially expressed between affected and unaffected birds. There was an average of approximately 98 million reads per sample, across all samples. Results from the IPA analysis suggested "Diseases and Disorders" such as connective tissue disorders, "Molecular and Cellular Functions" such as cellular assembly and organization, cellular function and maintenance, and cellular movement, "Physiological System Development and Function" such as tissue development, and embryonic development, and "Top Canonical Pathways" such as, coagulation system, axonal guidance signaling, and acute phase response signaling, are associated with the Wooden Breast disease. There is convincing evidence by RNA-seq analysis to support localized hypoxia, oxidative stress, increased intracellular calcium, as well as the possible presence of muscle fiber-type switching, as key features of Wooden Breast Disease, which are supported by reported microscopic lesions of the disease.
0
Citation256
0
Save
1

Genetic analysis of coronary artery disease using tree-based automated machine learning informed by biology-based feature selection

Elisabetta Manduchi et al.Mar 23, 2021
Abstract Machine Learning (ML) approaches are increasingly being used in biomedical applications. Important challenges of ML include choosing the right algorithm and tuning the parameters for optimal performance. Automated ML (AutoML) methods, such as Tree-based Pipeline Optimization Tool (TPOT), have been developed to take some of the guesswork out of ML thus making this technology available to users from more diverse backgrounds. The goals of this study were to assess applicability of TPOT to genomics and to identify combinations of single nucleotide polymorphisms (SNPs) associated with coronary artery disease (CAD), with a focus on genes with high likelihood of being good CAD drug targets. We leveraged public functional genomic resources to group SNPs into biologically meaningful sets to be selected by TPOT. We applied this strategy to data from the UK Biobank, detecting a strikingly recurrent signal stemming from a group of 28 SNPs. Importance analysis of these uncovered functional relevance of the top SNPs to genes whose association with CAD is supported in the literature and other resources. Furthermore, we employed game-theory based metrics to study SNP contributions to individual level TPOT predictions and discover distinct clusters of well-predicted CAD cases. The latter indicates a promising approach towards precision medicine.
1
Citation1
0
Save
2

In vitro validation of neoantigen prediction algorithm for developing personalized cancer vaccine therapy

Yun-Jeong Choe et al.Dec 13, 2021
ABSTRACT Background The development of personalized neoantigen-based therapeutic cancer vaccines relies on computational algorithm-based pipelines. One of the critical issues in the pipeline is obtaining higher positive predictive value (PPV) performance, i.e., how many are immunogenic when selecting the top 5 to 20 candidate neoepitopes for the vaccination. We attempted to test the PPV of a neoepitope prediction algorithm Neopepsee. Methods Six breast cancer patients and patient-derived xenografts from three lung cancer patients and their paired peripheral blood samples were subjected to whole-exome and RNA sequencing. Neoantigen was predicted using two different algorithms (Neopepsee and pVACseq). Response of induced memory T cells to neopeptide candidates was evaluated by IFN-γ Enzyme-linked immune absorbent spot (ELISpot) assays of peripheral blood mononuclear cell (PBMC) from three HLA-matched donors. Positive ELISpot response to a candidate peptide in at least 2 of 3 donor PBMC was regarded as an immunogenic response. Results Neopepsee predicted 159 HLA-A matched neoepitope candidates out of 898 somatic mutations in nine patients (six breast and three lung cancer patients), whereas pVACseq predicted 84 HLA-A matched candidates. A total of 26 neopeptide candidates overlapped between the two predicted candidate pools. Among the candidates, 28 (20%, 28/ 137) and 15 (20%, 15/ 75) were positive by ELISpot assay, respectively. Among 26 overlapped candidates, 20 could be tested, and 7 of them (35%) were validated by ELISpot. Neopepsee identified at least one neoepitope in 7 of 9 patients (range 0-6), compared to 6 by pVACseq (range 0-5). Conclusion As suggested by Tumor Neoantigen Selection Alliance (TESLA), our results demonstrate low PPV of individual prediction models as well as the complementary nature of the Neopepsee and pVACseq and may help design neoepitope targeted cancer vaccines. Our data contribute a significant addition to the database of tested neoepitope candidates that can be utilized to further train and improve the prediction algorithms.
0

Scaling tree-based automated machine learning to biomedical big data with a dataset selector

Trang Le et al.Dec 20, 2018
Automated machine learning (AutoML) systems are helpful data science assistants designed to scan data for novel features, select appropriate supervised learning models and optimize their parameters. For this purpose, Tree-based Pipeline Optimization Tool (TPOT) was developed using strongly typed genetic programming to recommend an optimized analysis pipeline for the data scientist's prediction problem. However, TPOT may reach computational resource limits when working on big data such as whole-genome expression data. We introduce two new features implemented in TPOT that helps increase the system's scalability: Dataset selector and Template. Dataset selector (DS) provides the option to specify subsets of the features as separate datasets, assuming the signals come from one or more of these specific data subsets. Built in at the beginning of each pipeline structure, DS reduces the computational expense of TPOT to only evaluate on a smaller subset of data rather than the entire dataset. Consequently, DS increases TPOT's efficiency in application on big data by slicing the dataset into smaller sets of features and allowing genetic programming to select the best subset in the final pipeline. Template enforces type constraints with strongly typed genetic programming and enables the incorporation of DS at the beginning of each pipeline. We show that DS and Template help reduce TPOT computation time and may provide more interpretable results. Our simulations show TPOT-DS significantly outperforms a tuned XGBoost model and standard TPOT implementation. We apply TPOT-DS to real RNA-Seq data from a study of major depressive disorder. Independent of the previous study that identified significant association with depression severity of the enrichment scores of two modules, in an automated fashion, TPOT-DS corroborates that one of the modules is largely predictive of the clinical diagnosis of each individual.
1

Embedding covariate adjustments in tree-based automated machine learning for biomedical big data analyses

Elisabetta Manduchi et al.Aug 24, 2020
Abstract Background A typical task in bioinformatics consists of identifying which features are associated with a target outcome of interest and building a predictive model. Automated machine learning (AutoML) systems such as the Tree-based Pipeline Optimization Tool (TPOT) constitute an appealing approach to this end. However, in biomedical data, there are often baseline characteristics of the subjects in a study or batch effects that need to be adjusted for in order to better isolate the effects of the features of interest on the target. Thus, the ability to perform covariate adjustments becomes particularly important for applications of AutoML to biomedical big data analysis. Results We present an approach to adjust for covariates affecting features and/or target in TPOT. Our approach is based on regressing out the covariates in a manner that avoids ‘leakage’ during the cross-validation training procedure. We then describe applications of this approach to toxicogenomics and schizophrenia gene expression data sets. The TPOT extensions discussed in this work are available at https://github.com/EpistasisLab/tpot/tree/v0.11.1-resAdj . Conclusions In this work, we address an important need in the context of AutoML, which is particularly crucial for applications to bioinformatics and medical informatics, namely covariate adjustments. To this end we present a substantial extension of TPOT, a genetic programming based AutoML approach. We show the utility of this extension by applications to large toxicogenomics and differential gene expression data. The method is generally applicable in many other scenarios from the biomedical field.
0

The Bovine Genome Variation Database (BGVD): Integrated Web-database for Bovine Sequencing Variations and Selective Signatures

Ningbo Chen et al.Oct 13, 2019
Next-generation sequencing has yielded a vast amount of cattle genomic data for the global characterization of population genetic diversity and the identification of regions of the genome under natural and artificial selection. However, efficient storage, querying and visualization of such large datasets remain challenging. Here, we developed a comprehensive Bovine Genome Variation Database (BGVD, http://animal.nwsuaf.edu.cn/BosVar) that provides six main functionalities: Gene Search, Variation Search, Genomic Signature Search, Genome Browser, Alignment Search Tools and the Genome Coordinate Conversion Tool. The BGVD contains information on genomic variations comprising ~60.44 M SNPs, ~6.86 M indels, 76,634 CNV regions and signatures of selective sweeps in 432 samples from modern cattle worldwide. Users can quickly retrieve distribution patterns of these variations for 54 cattle breeds through an interactive source of breed origin map using a given gene symbol or genomic region for any of the three versions of the bovine reference genomes (ARS-UCD1.2, UMD3.1.1, and Btau 5.0.1). Signals of selection are displayed as Manhattan plots and Genome Browser tracks. To further investigate and visualize the relationships between variants and signatures of selection, the Genome Browser integrates all variations, selection data and resources from NCBI, the UCSC Genome Browser and AnimalQTLdb. Collectively, all these features make the BGVD a useful archive for in-depth data mining and analyses of cattle biology and cattle breeding on a global scale.