XF
Xiaohui Fan
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
32
(81% Open Access)
Cited by:
5,021
h-index:
51
/
i10-index:
168
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The MicroArray Quality Control (MAQC)-II study of common practices for the development and validation of microarray-based predictive models

Leming Shi et al.Jul 30, 2010
The Microarray Quality Control consortium pitted 36 teams against each other to evaluate methods for creating genomic classifiers, computational tools for interpreting gene expression profiles. The performance of the classifiers on blinded validation data—and metadata on the analytic methods—reveal the challenges facing the field. Gene expression data from microarrays are being applied to predict preclinical and clinical endpoints, but the reliability of these predictions has not been established. In the MAQC-II project, 36 independent teams analyzed six microarray data sets to generate predictive models for classifying a sample with respect to one of 13 endpoints indicative of lung or liver toxicity in rodents, or of breast cancer, multiple myeloma or neuroblastoma in humans. In total, >30,000 models were built using many combinations of analytical methods. The teams generated predictive models without knowing the biological meaning of some of the endpoints and, to mimic clinical reality, tested the models on data that had not been used for training. We found that model performance depended largely on the endpoint and team proficiency and that different approaches generated models of similar performance. The conclusions and recommendations from MAQC-II should be useful for regulatory agencies, study committees and independent investigators that evaluate methods for global gene expression analysis.
0

Establishment of multiple sublineages of H5N1 influenza virus in Asia: Implications for pandemic control

Honglin Chen et al.Feb 10, 2006
Preparedness for a possible influenza pandemic caused by highly pathogenic avian influenza A subtype H5N1 has become a global priority. The spread of the virus to Europe and continued human infection in Southeast Asia have heightened pandemic concern. It remains unknown from where the pandemic strain may emerge; current attention is directed at Vietnam, Thailand, and, more recently, Indonesia and China. Here, we report that genetically and antigenically distinct sublineages of H5N1 virus have become established in poultry in different geographical regions of Southeast Asia, indicating the long-term endemicity of the virus, and the isolation of H5N1 virus from apparently healthy migratory birds in southern China. Our data show that H5N1 influenza virus, has continued to spread from its established source in southern China to other regions through transport of poultry and bird migration. The identification of regionally distinct sublineages contributes to the understanding of the mechanism for the perpetuation and spread of H5N1, providing information that is directly relevant to control of the source of infection in poultry. It points to the necessity of surveillance that is geographically broader than previously supposed and that includes H5N1 viruses of greater genetic and antigenic diversity.
0

The balance of reproducibility, sensitivity, and specificity of lists of differentially expressed genes in microarray studies

Leming Shi et al.Aug 1, 2008
Reproducibility is a fundamental requirement in scientific experiments. Some recent publications have claimed that microarrays are unreliable because lists of differentially expressed genes (DEGs) are not reproducible in similar experiments. Meanwhile, new statistical methods for identifying DEGs continue to appear in the scientific literature. The resultant variety of existing and emerging methods exacerbates confusion and continuing debate in the microarray community on the appropriate choice of methods for identifying reliable DEG lists. Using the data sets generated by the MicroArray Quality Control (MAQC) project, we investigated the impact on the reproducibility of DEG lists of a few widely used gene selection procedures. We present comprehensive results from inter-site comparisons using the same microarray platform, cross-platform comparisons using multiple microarray platforms, and comparisons between microarray results and those from TaqMan – the widely regarded "standard" gene expression platform. Our results demonstrate that (1) previously reported discordance between DEG lists could simply result from ranking and selecting DEGs solely by statistical significance (P) derived from widely used simple t-tests; (2) when fold change (FC) is used as the ranking criterion with a non-stringent P-value cutoff filtering, the DEG lists become much more reproducible, especially when fewer genes are selected as differentially expressed, as is the case in most microarray studies; and (3) the instability of short DEG lists solely based on P-value ranking is an expected mathematical consequence of the high variability of the t-values; the more stringent the P-value threshold, the less reproducible the DEG list is. These observations are also consistent with results from extensive simulation calculations. We recommend the use of FC-ranking plus a non-stringent P cutoff as a straightforward and baseline practice in order to generate more reproducible DEG lists. Specifically, the P-value cutoff should not be stringent (too small) and FC should be as large as possible. Our results provide practical guidance to choose the appropriate FC and P-value cutoffs when selecting a given number of DEGs. The FC criterion enhances reproducibility, whereas the P criterion balances sensitivity and specificity.
0
Citation391
0
Save
0

Emergence and predominance of an H5N1 influenza variant in China

Gavin Smith et al.Oct 31, 2006
The development of highly pathogenic avian H5N1 influenza viruses in poultry in Eurasia accompanied with the increase in human infection in 2006 suggests that the virus has not been effectively contained and that the pandemic threat persists. Updated virological and epidemiological findings from our market surveillance in southern China demonstrate that H5N1 influenza viruses continued to be panzootic in different types of poultry. Genetic and antigenic analyses revealed the emergence and predominance of a previously uncharacterized H5N1 virus sublineage (Fujian-like) in poultry since late 2005. Viruses from this sublineage gradually replaced those multiple regional distinct sublineages and caused recent human infection in China. These viruses have already transmitted to Hong Kong, Laos, Malaysia, and Thailand, resulting in a new transmission and outbreak wave in Southeast Asia. Serological studies suggest that H5N1 seroconversion in market poultry is low and that vaccination may have facilitated the selection of the Fujian-like sublineage. The predominance of this virus over a large geographical region within a short period directly challenges current disease control measures.
0

Copy number variation is highly correlated with differential gene expression: a pan-cancer study

Xin Shao et al.Nov 9, 2019
Cancer is a heterogeneous disease with many genetic variations. Lines of evidence have shown copy number variations (CNVs) of certain genes are involved in development and progression of many cancers through the alterations of their gene expression levels on individual or several cancer types. However, it is not quite clear whether the correlation will be a general phenomenon across multiple cancer types.In this study we applied a bioinformatics approach integrating CNV and differential gene expression mathematically across 1025 cell lines and 9159 patient samples to detect their potential relationship.Our results showed there is a close correlation between CNV and differential gene expression and the copy number displayed a positive linear influence on gene expression for the majority of genes, indicating that genetic variation generated a direct effect on gene transcriptional level. Another independent dataset is utilized to revalidate the relationship between copy number and expression level. Further analysis show genes with general positive linear influence on gene expression are clustered in certain disease-related pathways, which suggests the involvement of CNV in pathophysiology of diseases.This study shows the close correlation between CNV and differential gene expression revealing the qualitative relationship between genetic variation and its downstream effect, especially for oncogenes and tumor suppressor genes. It is of a critical importance to elucidate the relationship between copy number variation and gene expression for prevention, diagnosis and treatment of cancer.
0
Citation239
0
Save
0

scCATCH: Automatic Annotation on Cell Types of Clusters from Single-Cell RNA Sequencing Data

Xin Shao et al.Feb 14, 2020
Recent advancements in single-cell RNA sequencing (scRNA-seq) have facilitated the classification of thousands of cells through transcriptome profiling, wherein accurate cell type identification is critical for mechanistic studies. In most current analysis protocols, cell type-based cluster annotation is manually performed and heavily relies on prior knowledge, resulting in poor replicability of cell type annotation. This study aimed to introduce a single-cell Cluster-based Automatic Annotation Toolkit for Cellular Heterogeneity (scCATCH, https://github.com/ZJUFanLab/scCATCH). Using three benchmark datasets, the feasibility of evidence-based scoring and tissue-specific cellular annotation strategies were demonstrated by high concordance among cell types, and scCATCH outperformed Seurat, a popular method for marker genes identification, and cell-based annotation methods. Furthermore, scCATCH accurately annotated 67%–100% (average, 83%) clusters in six published scRNA-seq datasets originating from various tissues. The present results show that scCATCH accurately revealed cell identities with high reproducibility, thus potentially providing insights into mechanisms underlying disease pathogenesis and progression.
0
Citation235
0
Save
0

CellTalkDB: a manually curated database of ligand–receptor interactions in humans and mice

Xin Shao et al.Sep 18, 2020
Abstract Cell–cell communications in multicellular organisms generally involve secreted ligand–receptor (LR) interactions, which is vital for various biological phenomena. Recent advancements in single-cell RNA sequencing (scRNA-seq) have effectively resolved cellular phenotypic heterogeneity and the cell-type composition of complex tissues, facilitating the systematic investigation of cell–cell communications at single-cell resolution. However, assessment of chemical-signal-dependent cell–cell communication through scRNA-seq relies heavily on prior knowledge of LR interaction pairs. We constructed CellTalkDB (http://tcm.zju.edu.cn/celltalkdb), a manually curated comprehensive database of LR interaction pairs in humans and mice comprising 3398 human LR pairs and 2033 mouse LR pairs, through text mining and manual verification of known protein–protein interactions using the STRING database, with literature-supported evidence for each pair. Compared with SingleCellSignalR, the largest LR-pair resource, CellTalkDB includes not only 2033 mouse LR pairs but also 377 additional human LR pairs. In conclusion, the data on human and mouse LR pairs contained in CellTalkDB could help to further the inference and understanding of the LR-interaction-based cell–cell communications, which might provide new insights into the mechanism underlying biological processes.
0
Citation212
0
Save
7

A single-cell transcriptomic atlas characterizes liver non-parenchymal cells in healthy and diseased mice

Zheng Wang et al.Jul 7, 2021
ABSTRACT The heterogeneity of liver non-parenchymal cells (NPCs) is essential for liver structure and function. However, the current understanding of liver NPCs, especially in different liver diseases, remains incompletely elucidated. Here, a single-cell transcriptome atlas of 171,814 NPCs from healthy and 5 typical liver disease mouse models, including alcoholic liver disease, nonalcoholic steatohepatitis (NASH), drug-induced liver injury, cholestatic, and ischemia-reperfusion liver injury is constructed. The inter- and intra-group heterogeneity of 12 types (and numerous subtypes) of NPCs involving endothelial cells, hepatic stellate cells (HSCs), neutrophils, T cells, and mononuclear phagocytes (MPs) are summarized. A protective subtype of neutrophils characterized by Chil3 high is validated and found significantly increasing only in drug-induced and cholestatic liver injury models. Transcriptional regulatory network analysis reveals disease-specific transcriptional reprogramming. Metabolic activity analysis indicates that fibrosis is accompanied by increases in glycolysis and retinol metabolism in activated HSCs and MPs. Moreover, we found that cell-cell interactions between cholangiocytes and immune cells contribute more to cholestatic liver fibrosis compared with NASH, while HSCs are more important for NASH fibrosis. Our atlas, together with an interactive website provides a systematic view of highly heterogeneous NPCs and a valuable resource to better understand pathological mechanisms underlying liver diseases.
7
Citation8
0
Save
20

Reference-free Cell-type Annotation for Single-cell Transcriptomics using Deep Learning with a Weighted Graph Neural Network

Xin Shao et al.May 14, 2020
Abstract Advances in single-cell RNA sequencing (scRNA-seq) have furthered the simultaneous classification of thousands of cells in a single assay based on transcriptome profiling. In most analysis protocols, single-cell type annotation relies on marker genes or RNA-seq profiles, resulting in poor extrapolation. Here, we introduce scDeepSort ( https://github.com/ZJUFanLab/scDeepSort ), a reference-free cell-type annotation tool for single-cell transcriptomics that uses a deep learning model with a weighted graph neural network. Using human and mouse scRNA-seq data resources, we demonstrate the feasibility of scDeepSort and its high accuracy in labeling 764,741 cells involving 56 human and 32 mouse tissues. Significantly, scDeepSort outperformed reference-dependent methods in annotating 76 external testing scRNA-seq datasets, including 126,384 cells (85.79%) from ten human tissues and 134,604 cells from 12 mouse tissues (81.30%). scDeepSort accurately revealed cell identities without prior reference knowledge, thus potentially providing new insights into mechanisms underlying biological processes, disease pathogenesis, and disease progression at a single-cell resolution.
20
Citation4
0
Save
Load More