FB
Fengxiao Bu
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
46
h-index:
13
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

A pangenome reference of 36 Chinese populations

Yang Gao et al.Jun 14, 2023
+39
H
X
Y
Human genomics is witnessing an ongoing paradigm shift from a single reference sequence to a pangenome form, but populations of Asian ancestry are underrepresented. Here we present data from the first phase of the Chinese Pangenome Consortium, including a collection of 116 high-quality and haplotype-phased de novo assemblies based on 58 core samples representing 36 minority Chinese ethnic groups. With an average 30.65× high-fidelity long-read sequence coverage, an average contiguity N50 of more than 35.63 megabases and an average total size of 3.01 gigabases, the CPC core assemblies add 189 million base pairs of euchromatic polymorphic sequences and 1,367 protein-coding gene duplications to GRCh38. We identified 15.9 million small variants and 78,072 structural variants, of which 5.9 million small variants and 34,223 structural variants were not reported in a recently released pangenome reference1. The Chinese Pangenome Consortium data demonstrate a remarkable increase in the discovery of novel and missing sequences when individuals are included from underrepresented minority ethnic groups. The missing reference sequences were enriched with archaic-derived alleles and genes that confer essential functions related to keratinization, response to ultraviolet radiation, DNA repair, immunological responses and lifespan, implying great potential for shedding new light on human evolution and recovering missing heritability in complex disease mapping.
1
Citation36
1
Save
9

High performance of a GPU-accelerated variant calling tool in genome data analysis

Qian Zhang et al.Dec 13, 2021
F
H
H
Q
Abstract Rapid advances in next-generation sequencing (NGS) have facilitated ultralarge population and cohort studies that utilized whole-genome sequencing (WGS) to identify DNA variants that may impact gene function. Massive sequencing data require highly efficient bioinformatics tools to complete read alignment and variant calling as the fundamental analysis. Multiple software and hardware acceleration strategies have been developed to boost the analysis speed. This study comprehensively evaluated the germline variant calling of a GPU-based acceleration tool, BaseNumber, using WGS datasets from several sources, including gold-standard samples from the Genome in a Bottle (GIAB) project and the Golden Standard of China Genome (GSCG) project, resequenced GSCG samples, and 100 in-house samples from the China Deafness Genetics Consortium (CDGC) project. Sequencing data were analyzed on the GPU server using BaseNumber, the variant calling outputs of which were compared to the reference VCF or the results generated by the Burrows-Wheeler Aligner (BWA) + Genome Analysis Toolkit (GATK) pipeline on a generic CPU server. BaseNumber demonstrated high precision (99.32%) and recall (99.86%) rates in variant calls compared to the standard reference. The variant calling outputs of the BaseNumber and GATK pipelines were very similar, with a mean F1 of 99.69%. Additionally, BaseNumber took only 23 minutes on average to analyze a 48X WGS sample, which was 215.33 times shorter than the GATK workflow. The GPU-based BaseNumber provides a highly accurate and ultrafast variant calling capability, significantly improving the WGS analysis efficiency and facilitating time-sensitive tests, such as clinical WGS genetic diagnosis, and sheds light on the GPU-based acceleration of other omics data analyses.
9
Citation7
0
Save
0

A coordinative modular assembly-constructed self-reinforced nano-therapeutic agent for effective antitumor-immune activation

Yuzhao Zheng et al.Jun 14, 2024
+4
J
F
Y
Immunosuppressive microenvironment and poor immunogenicity are two stumbling blocks in anti-tumor immune activation. Tumor associated macrophages (TAMs) play crucial roles in immunosuppressive microenvironment, while immunogenic cell death (ICD) is a typical strategy to boost immunogenicity. Herein, we developed a coordinative modular assembly-based self-reinforced nanoparticle, (CaO
0
Citation2
0
Save
0

Population genomics of Central Asian peoples unveil ancient Trans-Eurasian genetic admixture and cultural exchanges

Guanglin He et al.Jun 1, 2024
+11
L
M
G
Central Asia, a crucible of prehistoric and historical Trans-Eurasian interactions, has been pivotal in shaping cultural exchanges, population dynamics, and genetic admixture. Recent insights from ancient DNA studies have shed light on the extensive population turnover within this region, encompassing a spectrum of groups from Paleolithic hunter-gatherers to Holocene herders and the nomadic pastoralist empires of historical times. The genomic analysis of ancient pathogens across the Eurasian steppe has further deepened our understanding of pathogen origins, clonal expansions, and the intricate processes of host-pathogen coevolution in relation to varying pathogen exposures and their spread. We consolidate the latest findings pertaining to the ancient human and pathogen genomes of Central Asia, elucidating their profound influence on the genomic tapestry of contemporary Central Asians. A notable gap in the current genomic databases for Central Asia is underscored, particularly within the scope of genomics-driven precision medicine. We stress the urgent need for the development of extensive, region-specific genomic resources that hold promise for revealing the genetic blueprints underlying human traits and diseases, refining polygenic scoring models for predictive medicine, and bolstering genomic research endeavors across Central Asia.
0
Citation1
0
Save
0

GDC: An Integrated Resource to Explore the Pathogenesis of Hearing Loss through Genetics and Genomics

Hui Cheng et al.Aug 20, 2024
+7
M
X
H
Abstract Effective research and clinical application in audiology and hearing loss (HL) often require the integration of diverse data. However, the absence of a dedicated database impeded understanding and insight extraction in HL. To address this, the Genetic Deafness Commons (GDC) was developed by consolidating extensive genetic and genomic data from 51 public databases and the Chinese Deafness Genetics Consortium, encompassing 5,983,613 variants across 201 HL genes. This comprehensive dataset detailed the genetic landscape of HL, identifying six novel mutational hotspots within DNA binding domains of transcription factor genes, which were eligible for evidence-based variant pathogenicity classification. Comparative phenotypic analyses highlighted considerable disparities between human and mouse models, with only 130 human HL genes exhibiting hearing abnormality in mice. Moreover, gene expression analyses in the cochleae of mice and rhesus macaques demonstrated a notable correlation (R 2 = 0.76). Utilizing gene expression, function, pathway, and phenotype data, a SMOTE-Random Forest model identified 18 candidate HL genes, including TBX2 and ERCC2 , newly confirmed as HL genes. The GDC, as a comprehensive and unified repository, significantly advances audiology research and clinical practice by enhancing data accessibility and usability, thereby facilitating deeper insights into hearing disorders.
23

Identification of mobile element insertion from whole genome sequencing data using deep neural network model

Fengxiao Bu et al.Mar 8, 2023
+4
X
Y
F
Mobile element insertions (MEIs) are a major contributor to genome evolution and play an essential role in the regulation of gene expression, as well as being implicated in various human diseases. This study introduces DeepMEI, a tool based on a convolutional neural network model that transforms the MEI identification process into an image recognition problem and automatically learns complex and abstract representations of MEI features in whole genome sequencing data. DeepMEI outperformed existing tools in the benchmark dataset from the Genome in a Bottle consortium, with a precision of 0.90 and recall of 0.70. Moreover, factors such as sequencing depth, ME integrity, and genome mappability can affect MEI identification accuracy. Using DeepMEI, we reanalyzed 3,202 high-coverage whole-genome sequencing samples from the 1000 Genome Project (1kGP) phase 4 release, discovering 1.71-fold more non-reference MEIs, totaling 6,218,088, with 92.2% of the increase coming from rare MEIs (allele frequency <1%). This enhances our understanding of MEIs role in human disease and evolution. The DeepMEI tool and the updated 1kGP MEI dataset can be accessed at https://github.com/xuxif/DeepMEI.
1

seGMM: a new tool to infer sex from massively parallel sequencing data

Sihan Liu et al.Dec 17, 2021
+6
C
Q
S
Abstract Inspecting concordance between self-reported sex and genotype-inferred sex from genomic data is a significant quality control measure in clinical genetic testing. Numerous tools have been developed to infer sex for genotyping array, whole-exome sequencing, and whole-genome sequencing data. However, improvements in sex inference from targeted gene sequencing panels are warranted. Here, we propose a new tool, seGMM, which applies unsupervised clustering (Gaussian Mixture Model) to determine the gender of a sample from the called genotype data integrated aligned reads. seGMM consistently demonstrated > 99% sex inference accuracy in publicly available (1000 Genomes) and our in-house panel dataset, which achieved obviously better sex classification than existing popular tools. Compared to including features only in the X chromosome, our results show that adding additional features from Y chromosomes (e.g. reads mapped to the Y chromosome) can increase sex classification accuracy. Notably, for WES and WGS data, seGMM also has an extremely high degree of accuracy. Finally, we proved the ability of seGMM to infer sex in single patient or trio samples by combining with reference data and pinpointing potential sex chromosome abnormality samples. In general, seGMM provides a reproducible framework to infer sex from massively parallel sequencing data and has great promise in clinical genetics.
0

Genotype-phenotype spectrum and correlation of PHARC Syndrome due to pathogenic ABHD12 variants

Xicui Long et al.Aug 9, 2024
+8
X
W
X
A comprehensive understanding of the genetic basis of rare diseases and their regulatory mechanisms is essential for human molecular genetics. However, the genetic mutant spectrum of pathogenic genes within the Chinese population remains underrepresented. Here, we reported previously unreported functional ABHD12 variants in two Chinese families and explored the correlation between genetic polymorphisms and phenotypes linked to PHARC syndrome.