PH
Pingzhao Hu
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(80% Open Access)
Cited by:
2,164
h-index:
43
/
i10-index:
99
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Global Functional Atlas of Escherichia coli Encompassing Previously Uncharacterized Proteins

Pingzhao Hu et al.Apr 21, 2009
One-third of the 4,225 protein-coding genes of Escherichia coli K-12 remain functionally unannotated (orphans). Many map to distant clades such as Archaea, suggesting involvement in basic prokaryotic traits, whereas others appear restricted to E. coli, including pathogenic strains. To elucidate the orphans' biological roles, we performed an extensive proteomic survey using affinity-tagged E. coli strains and generated comprehensive genomic context inferences to derive a high-confidence compendium for virtually the entire proteome consisting of 5,993 putative physical interactions and 74,776 putative functional associations, most of which are novel. Clustering of the respective probabilistic networks revealed putative orphan membership in discrete multiprotein complexes and functional modules together with annotated gene products, whereas a machine-learning strategy based on network integration implicated the orphans in specific biological processes. We provide additional experimental evidence supporting orphan participation in protein synthesis, amino acid metabolism, biofilm formation, motility, and assembly of the bacterial cell envelope. This resource provides a "systems-wide" functional blueprint of a model microbe, with insights into the biological and evolutionary significance of previously uncharacterized proteins.
0
Citation386
0
Save
0

SNVer: a statistical tool for variant calling in analysis of pooled or individual next-generation sequencing data

Zhi Wei et al.Aug 3, 2011
We develop a statistical tool SNVer for calling common and rare variants in analysis of pooled or individual next-generation sequencing (NGS) data. We formulate variant calling as a hypothesis testing problem and employ a binomial–binomial model to test the significance of observed allele frequency against sequencing error. SNVer reports one single overall P-value for evaluating the significance of a candidate locus being a variant based on which multiplicity control can be obtained. This is particularly desirable because tens of thousands loci are simultaneously examined in typical NGS experiments. Each user can choose the false-positive error rate threshold he or she considers appropriate, instead of just the dichotomous decisions of whether to ‘accept or reject the candidates’ provided by most existing methods. We use both simulated data and real data to demonstrate the superior performance of our program in comparison with existing methods. SNVer runs very fast and can complete testing 300 K loci within an hour. This excellent scalability makes it feasible for analysis of whole-exome sequencing data, or even whole-genome sequencing data using high performance computing cluster. SNVer is freely available at http://snver.sourceforge.net/.
0
Citation256
0
Save
0

Role of socioeconomic factors and interkingdom crosstalk in the dental plaque microbiome in early childhood caries

Mohd Khan et al.Mar 18, 2024
SUMMARY Early childhood caries (ECC) is influenced by microbial and host factors, including social, behavioral, and oral health. In this cross-sectional study, we analyzed interkingdom dynamics in the dental plaque microbiome and its association with host variables. The samples collected from the preschool children underwent 16S rRNA and ITS1 rRNA gene sequencing. The questionnaire data were analyzed for social determinants of oral health. The results indicated a significant enrichment of Streptococcus mutans and Candida dubliniensis in ECC samples, in contrast to Neisseria oralis in caries-free children. Our interkingdom correlation analysis revealed that Candida dubliniensis was strongly correlated with both Neisseria bacilliformis and Prevotella veroralis in ECC. Additionally, ECC showed significant associations with host variables, including oral health status, age, place of residence, and mode of childbirth. This study provides empirical evidence associating the oral microbiome with socioeconomic and behavioral factors in relation to ECC, offering insights for developing targeted prevention strategies. HIGHLIGHTS Characterized interkingdom association between cariogenic species of genus Neisseria and Candida Both bacterial and fungal species are important for caries status prediction using artificial intelligence Socioeconomic index is associated with caries status and caries-associated microbial markers
0

ST-CellSeg: Cell segmentation for imaging-based spatial transcriptomics using multi-scale manifold learning

Y Li et al.Jun 27, 2024
Spatial transcriptomics has gained popularity over the past decade due to its ability to evaluate transcriptome data while preserving spatial information. Cell segmentation is a crucial step in spatial transcriptomic analysis, as it enables the avoidance of unpredictable tissue disentanglement steps. Although high-quality cell segmentation algorithms can aid in the extraction of valuable data, traditional methods are frequently non-spatial, do not account for spatial information efficiently, and perform poorly when confronted with the problem of spatial transcriptome cell segmentation with varying shapes. In this study, we propose ST-CellSeg, an image-based machine learning method for spatial transcriptomics that uses manifold for cell segmentation and is novel in its consideration of multi-scale information. We first construct a fully connected graph which acts as a spatial transcriptomic manifold. Using multi-scale data, we then determine the low-dimensional spatial probability distribution representation for cell segmentation. Using the adjusted Rand index (ARI), normalized mutual information (NMI), and Silhouette coefficient (SC) as model performance measures, the proposed algorithm significantly outperforms baseline models in selected datasets and is efficient in computational complexity.
0

NNICE: a deep quantile neural network algorithm for expression deconvolution

Yong Jin et al.Jun 18, 2024
Abstract The composition of cell-type is a key indicator of health. Advancements in bulk gene expression data curation, single cell RNA-sequencing technologies, and computational deconvolution approaches offer a new perspective to learn about the composition of different cell types in a quick and affordable way. In this study, we developed a quantile regression and deep learning-based method called Neural Network Immune Contexture Estimator (NNICE) to estimate the cell type abundance and its uncertainty by automatically deconvolving bulk RNA-seq data. The proposed NNICE model was able to successfully recover ground-truth cell type fraction values given unseen bulk mixture gene expression profiles from the same dataset it was trained on. Compared with baseline methods, NNICE achieved better performance on deconvolve both pseudo-bulk gene expressions (Pearson correlation R = 0.9) and real bulk gene expression data (Pearson correlation R = 0.9) across all cell types. In conclusion, NNICE combines statistic inference with deep learning to provide accurate and interpretable cell type deconvolution from bulk gene expression.