XG
Xingyi Guo
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(78% Open Access)
Cited by:
1,591
h-index:
39
/
i10-index:
85
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Distinct Factors Control Histone Variant H3.3 Localization at Specific Genomic Regions

Aaron Goldberg et al.Mar 1, 2010
+26
K
L
A
The incorporation of histone H3 variants has been implicated in the epigenetic memory of cellular state. Using genome editing with zinc-finger nucleases to tag endogenous H3.3, we report genome-wide profiles of H3 variants in mammalian embryonic stem cells and neuronal precursor cells. Genome-wide patterns of H3.3 are dependent on amino acid sequence and change with cellular differentiation at developmentally regulated loci. The H3.3 chaperone Hira is required for H3.3 enrichment at active and repressed genes. Strikingly, Hira is not essential for localization of H3.3 at telomeres and many transcription factor binding sites. Immunoaffinity purification and mass spectrometry reveal that the proteins Atrx and Daxx associate with H3.3 in a Hira-independent manner. Atrx is required for Hira-independent localization of H3.3 at telomeres and for the repression of telomeric RNA. Our data demonstrate that multiple and distinct factors are responsible for H3.3 localization at specific genomic locations in mammalian cells.
0
Citation1,157
0
Save
0

Targeted Next Generation Sequencing Identifies Markers of Response to PD-1 Blockade

Douglas Johnson et al.Sep 27, 2016
+24
M
G
D
Abstract Therapeutic antibodies blocking programmed death-1 and its ligand (PD-1/PD-L1) induce durable responses in a substantial fraction of melanoma patients. We sought to determine whether the number and/or type of mutations identified using a next-generation sequencing (NGS) panel available in the clinic was correlated with response to anti–PD-1 in melanoma. Using archival melanoma samples from anti–PD-1/PD-L1-treated patients, we performed hybrid capture–based NGS on 236–315 genes and T-cell receptor (TCR) sequencing on initial and validation cohorts from two centers. Patients who responded to anti–PD-1/PD-L1 had higher mutational loads in an initial cohort (median, 45.6 vs. 3.9 mutations/MB; P = 0.003) and a validation cohort (37.1 vs. 12.8 mutations/MB; P = 0.002) compared with nonresponders. Response rate, progression-free survival, and overall survival were superior in the high, compared with intermediate and low, mutation load groups. Melanomas with NF1 mutations harbored high mutational loads (median, 62.7 mutations/MB) and high response rates (74%), whereas BRAF/NRAS/NF1 wild-type melanomas had a lower mutational load. In these archival samples, TCR clonality did not predict response. Mutation numbers in the 315 genes in the NGS platform strongly correlated with those detected by whole-exome sequencing in The Cancer Genome Atlas samples, but was not associated with survival. In conclusion, mutational load, as determined by an NGS platform available in the clinic, effectively stratified patients by likelihood of response. This approach may provide a clinically feasible predictor of response to anti–PD-1/PD-L1. Cancer Immunol Res; 4(11); 959–67. ©2016 AACR.
0
Citation433
0
Save
0

Integrating muti-omics data to identify tissue-specific DNA methylation biomarkers for cancer risk

Yaohua Yang et al.Jul 18, 2024
+20
Q
L
Y
Abstract The relationship between tissue-specific DNA methylation and cancer risk remains inadequately elucidated. Leveraging resources from the Genotype-Tissue Expression consortium, here we develop genetic models to predict DNA methylation at CpG sites across the genome for seven tissues and apply these models to genome-wide association study data of corresponding cancers, namely breast, colorectal, renal cell, lung, ovarian, prostate, and testicular germ cell cancers. At Bonferroni-corrected P < 0.05, we identify 4248 CpGs that are significantly associated with cancer risk, of which 95.4% (4052) are specific to a particular cancer type. Notably, 92 CpGs within 55 putative novel loci retain significant associations with cancer risk after conditioning on proximal signals identified by genome-wide association studies. Integrative multi-omics analyses reveal 854 CpG-gene-cancer trios, suggesting that DNA methylation at 309 distinct CpGs might influence cancer risk through regulating the expression of 205 unique cis -genes. These findings substantially advance our understanding of the interplay between genetics, epigenetics, and gene expression in cancer etiology.
0
Citation1
0
Save
0

ERBB2 amplification in gastric cancer: a genomic insight into ethnic disparities

Muhammad Mirza et al.Jul 11, 2024
+6
P
J
M
Abstract Overall, gastric adenocarcinoma (GC) incidence rates have declined in recent years, but racial and ethnic disparities persist. Individuals who identify as Hispanic/Spanish/Latino are diagnosed with GC at younger ages and have poorer outcomes than non-Hispanic individuals. However, our understanding of GC biology across racial/ethnic groups remains limited. We assessed tumor genomic patterns by race/ethnicity among 1019 patients with primary GC in the American Association for Cancer Research (AACR) Project GENIE Consortium. Hispanic individuals presented with significantly higher rates of ERBB2/HER2 amplification vs other racial/ethnic groups (Hispanic: 13.9% vs 9.8% non-Hispanic White, 8.1% non-Hispanic Asian, and 11.0% non-Hispanic Black; P &lt; .001, FDR adjusted q &lt; 0.001). Hispanic patients also had higher odds of an ERBB2 amplification vs non-Hispanic Whites in adjusted models (OR = 2.52, 95%CI = 1.20 to 5.33, P = .015). These findings underscore the important role of genomic factors in GC disparities. Ensuring equitable access to genomic profiling and targeted therapies, such as trastuzumab for HER2-overexpressing GC, is a promising avenue to mitigate GC disparities and improve outcomes.
1

An expression-directed linear mixed model (edLMM) discovering low-effect genetic variants

Qing Li et al.Jul 15, 2023
+7
P
P
Q
Abstract Detecting genetic variants with low effect sizes using a moderate sample size is difficult, hindering downstream efforts to learn pathology and estimating heritability. In this work, by utilizing informative weights learned from training genetically predicted gene expression models, we formed an alternative approach to estimate the polygenic term in a linear mixed model (LMM). Our LMM estimates the genetic background by incorporating their relevance to gene expression. Our protocol, expression-directed linear mixed model (edLMM), enables the discovery of subtle signals of low-effect variants using moderate sample size. By applying edLMM to cohorts of around 5,000 individuals with either binary (WTCCC) or quantitative (NFBC1966) traits, we demonstrated its power gain at the low-effect end of the genetic etiology spectrum. In aggregate, the additional low-effect variants detected by edLMM substantially improved estimation of missing heritability. edLMM moves precision medicine forward by accurately detecting the contribution of low-effect genetic variants to human diseases.
3

Disentangling genetic feature selection and aggregation in transcriptome-wide association studies

Chen Cao et al.Nov 20, 2020
+5
D
J
C
ABSTRACT The success of transcriptome-wide association studies (TWAS) has led to substantial research towards improving its core component of genetically regulated expression (GReX). GReX links expression information with phenotype by serving as both the outcome of genotype-based expression models and the predictor for downstream association testing. In this work, we demonstrate that current linear models of GReX inadvertently combine two separable steps of machine learning - feature selection and aggregation - which can be independently replaced to improve overall power. We show that the monolithic approach of GReX limits the adaptability of TWAS methodology and practice, especially given low expression heritability.
4

cLD: Rare-variant disequilibrium between genomic regions identifies novel genomic interactions

Dinghao Wang et al.Feb 19, 2022
+9
Q
C
D
ABSTRACT Linkage disequilibrium (LD) is a fundamental concept in genetics; critical for studying genetic associations and molecular evolution. However, LD measurements are only reliable for common genetic variants, leaving low-frequency variants unanalyzed. In this work, we introduce cumulative LD (cLD), a stable statistic that captures the rare-variant LD between genetic regions, which reflects more biological interactions between variants, in addition to lack of recombination. We derived the theoretical variance of cLD using delta methods to demonstrate its higher stability than LD for rare variants. This property is also verified by bootstrapped simulations using real data. In application, we find cLD reveals an increased genetic association between genes in 3D chromatin interactions, a phenomenon recently reported negatively by calculating standard LD between common variants. Additionally, we show that cLD is higher between gene pairs reported in interaction databases, identifies unreported protein-protein interactions, and reveals interacting genes distinguishing case/control samples in association studies.
1

Tissue-specific transfer-learning enables retasking of a general comprehensive model to a specific domain

Qing Li et al.Sep 15, 2023
+8
W
Z
Q
Abstract Machine learning (ML) has proven successful in biological data analysis. However, may require massive training data. To allow broader use of ML in the full spectrum of biology and medicine, including sample-sparse domains, re-directing established models to specific tasks by add-on training via a moderate sample may be promising. Transfer learning (TL), a technique migrating pre-trained models to new tasks, fits in this requirement. Here, by TL, we retasked Enformer, a comprehensive model trained by massive data, tailored to breast cancers using breast-specific data. Its performance has been validated through statistical accuracy of predictions, annotation of genetic variants, and mapping of variants associated with breast cancer. By allowing the flexibility of adding dedicated training data, our TL protocol unlocks future discovery within specific domains with moderate add-on samples by standing on the shoulders of giant models.
0

Case-Case Genome-Wide Analyses Identify Subtype-Informative Variants that Confer Risk for Breast Cancer

Xiaohui Sun et al.Jun 4, 2024
+43
G
S
X
Abstract Breast cancer includes several subtypes with distinct characteristic biological, pathologic, and clinical features. Elucidating subtype-specific genetic etiology could provide insights into the heterogeneity of breast cancer to facilitate the development of improved prevention and treatment approaches. In this study, we conducted pairwise case–case comparisons among five breast cancer subtypes by applying a case–case genome-wide association study (CC-GWAS) approach to summary statistics data of the Breast Cancer Association Consortium. The approach identified 13 statistically significant loci and eight suggestive loci, the majority of which were identified from comparisons between triple-negative breast cancer (TNBC) and luminal A breast cancer. Associations of lead variants in 12 loci remained statistically significant after accounting for previously reported breast cancer susceptibility variants, among which, two were genome-wide significant. Fine mapping implicated putative functional/causal variants and risk genes at several loci, e.g., 3q26.31/TNFSF10, 8q22.3/NACAP1/GRHL2, and 8q23.3/LINC00536/TRPS1, for TNBC as compared with luminal cancer. Functional investigation further identified rs16867605 at 8q22.3 as a SNP that modulates the enhancer activity of GRHL2. Subtype-informative polygenic risk scores (PRS) were derived, and patients with a high subtype-informative PRS had an up to two-fold increased risk of being diagnosed with TNBC instead of luminal cancers. The CC-GWAS PRS remained statistically significant after adjusting for TNBC PRS derived from traditional case–control GWAS in The Cancer Genome Atlas and the African Ancestry Breast Cancer Genetic Consortium. The CC-GWAS PRS was also associated with overall survival and disease-specific survival among patients with breast cancer. Overall, these findings have advanced our understanding of the genetic etiology of breast cancer subtypes, particularly for TNBC. Significance: The discovery of subtype-informative genetic risk variants for breast cancer advances our understanding of the etiologic heterogeneity of breast cancer, which could accelerate the identification of targets and personalized strategies for prevention and treatment.