WB
Wenjian Bi
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
390
h-index:
21
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Deep Multilayer Brain Proteomics Identifies Molecular Networks in Alzheimer’s Disease Progression

Bing Bai et al.Jan 8, 2020
Alzheimer's disease (AD) displays a long asymptomatic stage before dementia. We characterize AD stage-associated molecular networks by profiling 14,513 proteins and 34,173 phosphosites in the human brain with mass spectrometry, highlighting 173 protein changes in 17 pathways. The altered proteins are validated in two independent cohorts, showing partial RNA dependency. Comparisons of brain tissue and cerebrospinal fluid proteomes reveal biomarker candidates. Combining with 5xFAD mouse analysis, we determine 15 Aβ-correlated proteins (e.g., MDK, NTN1, SMOC1, SLIT2, and HTRA1). 5xFAD shows a proteomic signature similar to symptomatic AD but exhibits activation of autophagy and interferon response and lacks human-specific deleterious events, such as downregulation of neurotrophic factors and synaptic proteins. Multi-omics integration prioritizes AD-related molecules and pathways, including amyloid cascade, inflammation, complement, WNT signaling, TGF-β and BMP signaling, lipid metabolism, iron homeostasis, and membrane transport. Some Aβ-correlated proteins are colocalized with amyloid plaques. Thus, the multilayer omics approach identifies protein networks during AD progression.
0

UK-Biobank Whole Exome Sequence Binary Phenome Analysis with Robust Region-based Rare Variant Test

Zhangchen Zhao et al.Jul 11, 2019
In biobank data analysis, most binary phenotypes have unbalanced case-control ratios, which can cause inflation of type I error rates. Recently, a saddlepoint approximation (SPA) based single variant test has been developed to provide an accurate and scalable method to test for associations of such phenotypes. For gene- or region-based multiple variant tests, a few methods exist which adjust for unbalanced case-control ratios; however, these methods are either less accurate when case-control ratios are extremely unbalanced or not scalable for large data analyses. To address these problems, we propose SKAT/SKAT-O type region-based tests, where the single-variant score statistic is calibrated based on SPA and Efficient Resampling (ER). Through simulation studies, we show that the proposed method provides well-calibrated p-values. In contrast, the unadjusted approach has greatly inflated type I error rates (90 times of exome-wide α =2.5×10-6) when the case-control ratio is 1:99. Additionally, the proposed method has similar computation time as the unadjusted approaches and is scalable for large sample data. Our UK Biobank whole exome sequence data analysis of 45,596 unrelated European samples and 791 PheCode phenotypes identified 10 rare variant associations with p-value < 10-7, including the associations between JAK2 and myeloproliferative disease, TNC and large cell lymphoma and F11 and congenital coagulation defects. All analysis summary results are publicly available through a web-based visual server.
0

Scalable generalized linear mixed model for region-based association tests in large biobanks and cohorts

Wei Zhou et al.Mar 20, 2019
With very large sample sizes, population-based cohorts and biobanks provide an exciting opportunity to identify genetic components of complex traits. To analyze rare variants, gene or region-based multiple variant aggregate tests are commonly used to increase association test power. However, due to the substantial computation cost, existing region-based rare variant tests cannot analyze hundreds of thousands of samples while accounting for confounders, such as population stratification and sample relatedness. Here we propose a scalable generalized mixed model region-based association test that can handle large sample sizes and accounts for unbalanced case-control ratios for binary traits. This method, SAIGE-GENE, utilizes state-of-the-art optimization strategies to reduce computational and memory cost, and hence is applicable to exome-wide and genome-wide region-based analysis for hundreds of thousands of samples. Through the analysis of the HUNT study of 69,716 Norwegian samples and the UK Biobank data of 408,910 White British samples, we show that SAIGE-GENE can efficiently analyze large sample data (N > 400,000) with type I error rates well controlled.