CN
Canh Nguyen
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(75% Open Access)
Cited by:
7
h-index:
13
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

XGSEA: CROSS-species Gene Set Enrichment Analysis via domain adaptation

Menglan Cai et al.Jul 21, 2020
Abstract Gene set enrichment analysis (GSEA) has been widely used to identify gene sets with statistically significant difference between cases and controls against a large gene set. GSEA needs both phenotype labels and expression of genes. However, gene expression are assessed more often for model organisms than minor species. More importantly, gene expression could not be measured under specific conditions for human, due to high healthy risk of direct experiments, such as non-approved treatment or gene knockout, and then often substituted by mouse. Thus predicting enrichment significance (on a phenotype) of a given gene set of a species (target, say human), by using gene expression measured under the same phenotype of the other species (source, say mouse) is a vital and challenging problem, which we call CROSS-species Gene Set Enrichment Problem (XGSEP). For XGSEP, we propose XGSEA (Cross-species Gene Set Enrichment Analysis), with three steps of: 1) running GSEA for a source species to obtain enrichment scores and p -values of source gene sets; 2) representing the relation between source and target gene sets by domain adaptation; and 3) using regression to predict p -values of target gene sets, based on the representation in 2). We extensively validated XGSEA by using four real data sets under various settings, proving that XGSEA significantly outperformed three baseline methods. A case study of identifying important human pathways for T cell dysfunction and reprogramming from mouse ATAC-Seq data further confirmed the reliability of XGSEA. Source code is available through https://github.com/LiminLi-xjtu/XGSEA Author summary Gene set enrichment analysis (GSEA) is a powerful tool in the gene sets differential analysis given a ranked gene list. GSEA requires complete data, gene expression with phenotype labels. However, gene expression could not be measured under specific conditions for human, due to high risk of direct experiments, such as non-approved treatment or gene knockout, and then often substituted by mouse. Thus no availability of gene expression leads to more challenging problem, CROSS-species Gene Set Enrichment Problem (XGSEP), in which enrichment significance (on a phenotype) of a given gene set of a species (target, say human) is predicted by using gene expression measured under the same phenotype of the other species (source, say mouse). In this work, we propose XGSEA (Cross-species Gene Set Enrichment Analysis) for XGSEP, with three steps of: 1) GSEA; 2) domain adaptation; and 3) regression. The results of four real data sets and a case study indicate that XGSEA significantly outperformed three baseline methods and confirmed the reliability of XGSEA.
3
Citation2
0
Save
11

PanTA: An ultra-fast method for constructing large and growing microbial pangenomes

Duc Le et al.Jul 3, 2023
Abstract Pangenome analysis has become indispensable in bacterial genomics due to the high variability of gene content between isolates within a clade. While many computational methods exist for constructing the pangenome from a bacterial genome collection, speed and scalability still remain an issue for the fast-growing genomic collections. Here, we present PanTA, a efficient method to build and analyze pangenomes of bacteria strains. We show that PanTA exhibits an unprecedented 10 times speed up and 2 times more memory efficient over the current state of the art methods. More importantly, PanTA enables the progressive pangenome construction where new samples are added into an existing pangenome without the need of rebuilding the accumulated collection from the scratch. The progressive building of pangenomes can further reduce the memory requirements by half. We demonstrate that PanTA can build the pangenome of the Escherichia coli species from the entire collection of over 28000 high quality genomes collected from the RefSeq database. Crucially, the whole analysis is performed on a modest laptop computer within two days, highlighting the scalability and practicality of PanTA.
11
0
Save
0

Viruses of the eukaryotic plankton are predicted to increase carbon export efficiency in the global sunlit ocean

Hiroto Kaneko et al.Jul 22, 2019
The biological carbon pump (BCP) is the process by which ocean organisms transfer carbon from surface waters to the ocean interior and seafloor sediments for sequestration. Viruses are thought to increase the efficiency of the BCP by fostering primary production and facilitating the export of carbon-enriched materials in the deep sea (the viral "shunt and pump"). A prior study using an oligotrophic ocean-dominated dataset from the Tara Oceans expedition revealed that bacterial dsDNA viruses are better associated with variation in carbon export than either prokaryotes or eukaryotes, but eukaryotic viruses were not examined. Because eukaryotes contribute significantly to ocean biomass and net production (> 40%), their viruses might also play a role in the BCP. Here, we leveraged deep-sequencing molecular data generated in the framework of Tara Oceans to identify and quantify diverse lineages of large dsDNA and smaller RNA viruses of eukaryotes. We found that the abundance of these viruses explained 49% of the variation in carbon export (compared with 89% by bacterial dsDNA viruses) and also substantially explained the variation in net primary production (76%) and carbon export efficiency (50%). Prasinoviruses infecting Mamiellales as well as Mimivirus relatives putatively infecting haptophytes are among the eukaryotic virus lineages predicted to be the best contributors to BCP efficiency. These findings collectively provide a first-level window into how eukaryotic viruses impact the BCP and suggest that the virus-mediated shunt and pump indeed plays a role.
0

Learning Low-Rank Tensor Cores with Probabilistic l0-Regularized Rank Selection for Model Compression

Tianxiao Cao et al.Aug 1, 2024
Compressing deep neural networks is of great importance for real-world applications on resource-constrained devices. Tensor decomposition is one promising answer that retains the functionality and most of the expressive power of the original deep models by replacing the weights with their decomposed cores. Decomposition with optimal ranks can achieve a good compression-accuracy trade-off, but it is expensive to optimize due to its discrete and combinatorial nature. A common practice is to set all ranks equal and tune one hyperparameter, but it may significantly harm the flexibility and generalization. In this paper, we propose a novel automatic rank selection method for deep model compression that allows learning model weights and decomposition ranks simultaneously. We propose to penalize the ℓ0 (quasi-)norm of the slices of decomposed tensor cores during model training. To avoid combinatorial optimization, we develop a probabilistic formulation and apply an approximate Bernoulli gate to each of the slices of tensor cores, which can be implemented in an end-to-end and scalable framework via gradient descent. It enables the automatic rank selection to be incorporated with arbitrary tensor decompositions and neural network layers such as linear layers, convolutional layers, and embedding layers. Comprehensive experiments on various tasks, including image classification, text sentiment classification, and neural machine translation, demonstrate the superior effectiveness of the proposed method over baselines.