AG
Alexander Gusev
Author with expertise in Genomic Studies and Association Analyses
Dana-Farber Cancer Institute, Harvard University, Brigham and Women's Hospital
+ 8 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
54
(43% Open Access)
Cited by:
80
h-index:
44
/
i10-index:
103
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Tumor mutational landscape is a record of the pre-malignant state

Kirsten Kübler et al.May 6, 2020
+37
N
R
K
ABSTRACT Chromatin structure has a major influence on the cell-specific density of somatic mutations along the cancer genome. Here, we present a pan-cancer study in which we searched for the putative cancer cell-of-origin of 2,550 whole genomes, representing 32 cancer types by matching their mutational landscape to the regional patterns of chromatin modifications ascertained in 104 normal tissue types. We found that, in almost all cancer types, the cell-of-origin can be predicted solely from their DNA sequences. Our analysis validated the hypothesis that high-grade serous ovarian cancer originates in the fallopian tube and identified distinct origins of breast cancer subtypes. We also demonstrated that the technique is equally capable of identifying the cell-of-origin for a series of 2,044 metastatic samples from 22 of the tumor types available as primaries. Moreover, cancer drivers, whether inherited or acquired, reside in active chromatin regions in the respective cell-of-origin. Taken together, our findings highlight that many somatic mutations accumulate while the chromatin structure of the cell-of-origin is maintained and that this historical record, captured in the DNA, can be used to identify the often elusive cancer cell-of-origin.
0
Citation20
0
Save
5

Prediction of early-stage melanoma recurrence using clinical and histopathologic features

Guihong Wan et al.Nov 2, 2022
+25
F
N
G
Abstract Prognostic analysis for early-stage (stage I/II) melanomas is of paramount importance for customized surveillance and treatment plans. Since immune checkpoint inhibitors have recently been approved for stage IIB and IIC melanomas, prognostic tools to identify patients at high risk of recurrence have become even more critical. This study aims to assess the effectiveness of machine-learning algorithms in predicting melanoma recurrence using clinical and histopathologic features from Electronic Health Records (EHRs). We collected 1720 early-stage melanomas: 1172 from the Mass General Brigham healthcare system (MGB) and 548 from the Dana-Farber Cancer Institute (DFCI). We extracted 36 clinicopathologic features and used them to predict the recurrence risk with supervised machine-learning algorithms. Models were evaluated internally and externally: (1) five-fold cross-validation of the MGB cohort; (2) the MGB cohort for training and the DFCI cohort for testing independently. In the internal and external validations, respectively, we achieved a recurrence classification performance of AUC: 0.845 and 0.812, and a time-to-event prediction performance of time-dependent AUC: 0.853 and 0.820. Breslow tumor thickness and mitotic rate were identified as the most predictive features. Our results suggest that machine-learning algorithms can extract predictive signals from clinicopathologic features for early-stage melanoma recurrence prediction, which will enable the identification of patients that may benefit from adjuvant immunotherapy.
5
Citation17
7
Save
0

Linkage disequilibrium dependent architecture of human complex traits reveals action of negative selection

Steven Gazal et al.May 6, 2020
+8
N
H
S
Abstract Recent work has hinted at the linkage disequilibrium (LD) dependent architecture of human complex traits, where SNPs with low levels of LD (LLD) have larger per-SNP heritability after conditioning on their minor allele frequency (MAF). However, this has not been formally assessed, quantified or biologically interpreted. Here, we analyzed summary statistics from 56 complex diseases and traits (average N = 101,401) by extending stratified LD score regression to continuous annotations. We determined that SNPs with low LLD have significantly larger per-SNP heritability. Roughly half of the LLD signal can be explained by functional annotations that are negatively correlated with LLD, such as DNase I hypersensitivity sites (DHS). The remaining signal is largely driven by our finding that common variants that are more recent tend to have lower LLD and to explain more heritability ( P = 2.38 × 10 −104 ); the youngest 20% of common SNPs explain 3.9x more heritability than the oldest 20%, consistent with the action of negative selection. We also inferred jointly significant effects of other LD-related annotations and confirmed via forward simulations that these annotations jointly predict deleterious effects. Our results are consistent with the action of negative selection on deleterious variants that affect complex traits, complementing efforts to learn about negative selection by analyzing much smaller rare variant data sets.
0
Citation11
0
Save
0

DNA methylation is a key mechanism for maintaining monoallelic expression on autosomes

Saumya Gupta et al.May 7, 2020
+12
S
D
S
Abstract In diploid cells, maternal and paternal copies of genes usually have similar transcriptional activity. Mammalian allele-specific epigenetic mechanisms such as X-chromosome inactivation (XCI) and imprinting were historically viewed as rare exceptions to this rule. The discovery of mitotically stable monoallelic autosomal expression (MAE) a decade ago revealed an additional allele-specific mode regulating thousands of mammalian genes. However, despite its prevalence, the mechanistic basis of MAE remains unknown. To uncover the mechanism of MAE maintenance, we devised a small-molecule screen for reactivation of silenced alleles across multiple loci using targeted RNA sequencing. Contrary to previous reports, we identified DNA methylation as a key mechanism of MAE mitotic maintenance. In contrast with the binary choice of the active allele in XCI, stringent transcriptome-wide analysis revealed MAE as a regulatory mode with tunable control of allele-specific expression, dependent on the extent of DNA methylation. In a subset of MAE genes, allelic imbalance was insensitive to changes in DNA methylation, implicating additional mechanisms in MAE maintenance in these loci. Our findings identify a key mechanism of MAE maintenance, reveal tunability of this mode of gene regulation, and provide the essential platform for probing the biological role of MAE in development and disease.
0

Non-coding Somatic Mutations Converge on the PAX8 Pathway in Epithelial Ovarian Cancer

Rosario Fuente et al.May 7, 2020
+14
X
J
R
ABSTRACT Transcriptional regulation is highly disease and cell-type specific. We performed H3K27ac chromatin immunoprecipitation and transcriptomic sequencing in primary tumors for the four different subtypes of invasive epithelial ovarian cancer (OC). Histotype-specific regulatory elements (REs) were enriched in enhancers (P<0.001). In silico prediction of putative target genes for histotype-specific REs identified genes ( WFDC2 , P=5.5×10 -5 ) and pathways (PI3K-Akt signaling, P<0.002) known to be involved in OC development. Some genes (e.g. PAX8 and CA125 ) are associated with super-enhancers (SEs) in all OCs, while others are histotype-specific, including PPP1R3B which is associated with SEs specific to clear cell OC. Integrated analysis of active chromatin landscapes with somatic single nucleotide variants (SNVs) from whole genome sequencing (WGS) of 232 primary OCs identified frequently mutated REs, including the KLF6 promoter (P=8.2×10 -8 ) and a putative enhancer at chromosome 6p22.1 (P<0.05). In high-grade serous OCs, somatic SNVs clustered in binding sites for the PAX8 binding partner TEAD4 (P=6×10 -11 ), while the collection of cis regulatory elements associated with PAX8 was the most frequently mutated set of enhancers in OC (P=0.003). Functional analyses supported our findings: Knockdown of PPP1R3B in clear cell OC cells significantly reduced intracellular glycogen content, a signature feature of this histotype; and stable knockout of a 635 bp region in the 6p22.1 enhancer induced downregulation of two predicted target genes, ZSCAN16 and ZSCAN12 (P=6.6 x 10 -4 and P=0.02). In summary, we have characterized histotype-specific epigenomic and transcriptomic landscapes in OC and defined likely functional REs based on somatic mutation analysis of ovarian tumors.
0
Paper
Citation6
0
Save
23

H3k27ac-HiChIP in prostate cell lines identifies risk genes for prostate cancer susceptibility

Claudia Giambartolomei et al.Oct 24, 2023
+8
T
J
C
Abstract Genome-wide association studies (GWAS) have identified more than 140 prostate cancer (PrCa) risk regions which provide potential insights into causal mechanisms. Multiple lines of evidence show that a significant proportion of PrCa risk can be explained by germline causal variants that dysregulate nearby target genes in prostate-relevant tissues thus altering disease risk. The traditional approach to explore this hypothesis has been correlating GWAS variants with steady-state transcript levels, referred to as expression quantitative trait loci (eQTLs). In this work, we assess the utility of chromosome conformation capture (3C) coupled with immunoprecipitation (HiChIP) to identify target genes for PrCa GWAS risk loci. We find that interactome data confirms previously reported PrCa target genes identified through GWAS/eQTL overlap (e.g., MLPH ). Interestingly, HiChIP identified links between PrCa GWAS variants and genes well-known to play a role in prostate cancer biology (e.g., AR ) that are not detected by eQTL-based methods. We validate these findings through CRISPR interference (CRISPRi) perturbation of the variant-containing regulatory elements for NKX3-1 and AR in the LNCaP cell line. Our results demonstrate that looping data harbor additional information beyond eQTLs and expand the number of PrCa GWAS loci that can be linked to candidate susceptibility genes.
1

Seeing beyond the target: Leveraging off-target reads in targeted clinical tumor sequencing to identify prognostic biomarkers

Serghei Mangul et al.Oct 24, 2023
+2
S
J
S
Abstract Clinical tumor sequencing is rapidly becoming a standard component of clinical care, providing essential information for selecting amongst treatment options and providing prognostic value. Here we develop a robust and scalable software platform (SBT: Seeing Beyond the Target) that mines discarded components of clinical sequences to produce estimates of a rich set of omics features including rDNA and mtDNA copy number, microbial species abundance, and T and B cell receptor sequences. We validate the accuracy of SBT via comparison to multimodal data from the TCGA and apply SBT to a tumor panel cohort of 2,920 lung adenocarcinomas to identify associations of clinical value. We replicated known associations of somatic events in TP53 with changes in rDNA (p=0.012); as well as diversity of BCR and TCR repertoires with the biopsy site (p=2.5×10 −6 , p<10 −20 ). We observed striking differences in EGFR mutant lung cancers versus wild-type, including higher rDNA copy number and lower immune repertoire diversity. Integrating clinical outcomes, we identified significant prognostic associations with overall survival, including SBT estimates of 5S rDNA (p=1.9×10 −4 , hazard ratio = 1.22) and TCR diversity (p=2.7×10 −3 , hazard ratio=1.77). Both novel survival associations replicated in 1,302 breast carcinoma and 1,651 colorectal cancer tumors. We anticipate that feature estimates derived by SBT will yield novel biomarker hypotheses and open research opportunities in existing and emerging clinical tumor sequencing cohorts.
1
Paper
Citation3
0
Save
1

Multi-context genetic modeling of transcriptional regulation resolves novel disease loci

Michael Thompson et al.Oct 24, 2023
+6
A
M
M
Abstract A majority of the variants identified in genome-wide association studies fall in non-coding regions of the genome, indicating their mechanism of impact is mediated via gene expression. Leveraging this hypothesis, transcriptome-wide association studies (TWAS) have assisted in both the interpretation and discovery of additional genes associated with complex traits. However, existing methods for conducting TWAS do not take full advantage of the intra-individual correlation inherently present in multi-context expression studies and do not properly adjust for multiple testing across contexts. We developed CONTENT— a computationally efficient method with proper cross-context false discovery correction that leverages correlation structure across contexts to improve power and generate context-specific and context-shared components of expression. We applied CONTENT to bulk multi-tissue and single-cell RNA-seq data sets and show that CONTENT leads to a 42% (bulk) and 110% (single cell) increase in the number of genetically predicted genes relative to previous approaches. Interestingly, we find the context-specific component of expression comprises 30% of heritability in tissue-level bulk data and 75% in single-cell data, consistent with cell type heterogeneity in bulk tissue. In the context of TWAS, CONTENT increased the number of gene-phenotype associations discovered by over 47% relative to previous methods across 22 complex traits.
0

Germline testing data validate inferences of mutational status for variants detected from tumor-only sequencing

Nahed Jalloul et al.Jun 4, 2024
+7
S
I
N
Structured Abstract Background Pathogenic germline variants (PGV) in cancer susceptibility genes are usually identified in cancer patients through germline testing of DNA from blood or saliva: their detection can impact patient treatment options and potential risk reduction strategies for relatives. PGV can also be identified, in tumor sequencing assays, often performed without matched normal specimens. It is then critical to determine whether detected variants are somatic or germline. Here, we evaluate the clinical utility of computational inference of mutational status in tumor-only sequencing compared to germline testing results. Patients and Methods Tumor-only sequencing data from 1,608 patients were retrospectively analyzed to infer germline-versus-somatic status of variants using an information-theoretic, gene-independent approach. Loss of heterozygosity (LOH) was also determined. The predicted mutational models were compared to clinical germline testing results. Statistical measures were computed to evaluate performance. Results Tumor-only sequencing detected 3,988 variants across 70 cancer susceptibility genes for which germline testing data were available. Our analysis imputed germline-versus-somatic status for >75% of all detected variants, with a sensitivity of 65%, specificity of 88%, and overall accuracy of 86% for pathogenic variants. False omission rate was 3%, signifying minimal error in misclassifying true PGV. A higher portion of PGV in known hereditary tumor suppressors were found to be retained with LOH in the tumor specimens (72%) compared to variants of uncertain significance (58%). Conclusions Tumor-only sequencing provides sufficient power to distinguish germline and somatic variants and infer LOH. Although accurate detection of PGV from tumor-only data is possible, analyzing sequencing data in the context of specimens’ tumor cell content allows systematic exclusion of somatic variants, and suggests a balance between type 1 and 2 errors for identification of patients with candidate PGV for standard germline testing. Our approach, implemented in a user-friendly bioinformatics application, facilities objective analysis of tumor-only data in clinical settings. Highlights Most pathogenic germline variants in cancer predisposition genes can be identified by analyzing tumor-only sequencing data. Information-theoretic gene-independent analysis of common sequencing data accurately infers germline vs. somatic status. A reasonable statistical balance can be established between sensitivity and specificity demonstrating clinical utility. Pathogenic germline variants are more often detected with loss of heterozygosity vs. germline variants of uncertain significance.
0
Citation2
0
Save
8

Leveraging expression from multiple tissues using sparse canonical correlation analysis and aggregate tests improve the power of transcriptome-wide association studies

Helian Feng et al.Oct 24, 2023
+4
A
N
H
Abstract Transcriptome-wide association studies (TWAS) test the association between traits and genetically predicted gene expression levels. The power of a TWAS depends in part on the strength of the correlation between a genetic predictor of gene expression and the causally relevant gene expression values. Consequently, TWAS power can be low when expression quantitative trait locus (eQTL) data used to train the genetic predictors have small sample sizes, or when data from causally relevant tissues are not available. Here, we propose to address these issues by integrating multiple tissues in the TWAS using sparse canonical correlation analysis (sCCA). We show that sCCA-TWAS combined with single-tissue TWAS using an aggregate Cauchy association test (ACAT) outperforms traditional single-tissue TWAS. In empirically motivated simulations, the sCCA+ACAT approach yielded the highest power to detect a gene associated with phenotype, even when expression in the causal tissue was not directly measured, while controlling the Type I error when there is no association between gene expression and phenotype. For example, when gene expression explains 2% of the variability in outcome, and the GWAS sample size is 20,000, the average power difference between the ACAT combined test of sCCA features and single-tissue, versus single-tissue combined with Generalized Berk-Jones (GBJ) method, single-tissue combined with S-MultiXcan or summarizing cross-tissue expression patterns using Principal Component Analysis (PCA) approaches was 5%, 8%, and 38%, respectively. The gain in power is likely due to sCCA cross-tissue features being more likely to be detectably heritable. When applied to publicly available summary statistics from 10 complex traits, the sCCA+ACAT test was able to increase the number of testable genes and identify on average an additional 400 additional gene-trait associations that single-trait TWAS missed. Our results suggest that aggregating eQTL data across multiple tissues using sCCA can improve the sensitivity of TWAS while controlling for the false positive rate. Author summary Transcriptome-wide association studies (TWAS) can improve the statistical power of genetic association studies by leveraging the relationship between genetically predicted transcript expression levels and an outcome. We propose a new TWAS pipeline that integrates data on the genetic regulation of expression levels across multiple tissues. We generate cross-tissue expression features using sparse canonical correlation analysis and then combine evidence for expression-outcome association across cross- and single-tissue features using the aggregate Cauchy association test. We show that this approach has substantially higher power than traditional single-tissue TWAS methods. Application of these methods to publicly available summary statistics for ten complex traits also identifies associations missed by single-tissue methods.
Load More