JJ
Joseph Janizek
Author with expertise in Analysis of Gene Interaction Networks
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(71% Open Access)
Cited by:
653
h-index:
14
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Accurate classification of BRCA1 variants with saturation genome editing

Gregory Findlay et al.Sep 11, 2018
+7
B
R
G
Variants of uncertain significance fundamentally limit the clinical utility of genetic information. The challenge they pose is epitomized by BRCA1, a tumour suppressor gene in which germline loss-of-function variants predispose women to breast and ovarian cancer. Although BRCA1 has been sequenced in millions of women, the risk associated with most newly observed variants cannot be definitively assigned. Here we use saturation genome editing to assay 96.5% of all possible single-nucleotide variants (SNVs) in 13 exons that encode functionally critical domains of BRCA1. Functional effects for nearly 4,000 SNVs are bimodally distributed and almost perfectly concordant with established assessments of pathogenicity. Over 400 non-functional missense SNVs are identified, as well as around 300 SNVs that disrupt expression. We predict that these results will be immediately useful for the clinical interpretation of BRCA1 variants, and that this approach can be extended to overcome the challenge of variants of uncertain significance in additional clinically actionable genes. Germline BRCA1 loss-of-function variants are associated with predisposition to early-onset breast and ovarian cancer; here the authors use CRISPR/Cas9 genome editing to functionally assess thousands of BRCA1 variants in order to facilitate the clinical interpretation of these variants.
0
Citation644
0
Save
0

Adversarial Deconfounding Autoencoder for Learning Robust Gene Expression Embeddings

Ayse Dincer et al.Apr 29, 2020
S
J
A
Abstract Motivation Increasing number of gene expression profiles has enabled the use of complex models, such as deep unsupervised neural networks, to extract a latent space from these profiles. However, expression profiles, especially when collected in large numbers, inherently contain variations introduced by technical artifacts (e.g., batch effects) and uninteresting biological variables (e.g., age) in addition to the true signals of interest. These sources of variations, called confounders, produce embeddings that fail to transfer to different domains, i.e., an embedding learned from one dataset with a specific confounder distribution does not generalize to different distributions. To remedy this problem, we attempt to disentangle confounders from true signals to generate biologically informative embeddings. Results In this paper, we introduce the AD-AE ( A dversarial D econfounding A uto E ncoder) approach to deconfounding gene expression latent spaces. The AD-AE model consists of two neural networks: (i) an autoencoder to generate an embedding that can reconstruct original measurements, and (ii) an adversary trained to predict the confounder from that embedding. We jointly train the networks to generate embeddings that can encode as much information as possible without encoding any confounding signal. By applying AD-AE to two distinct gene expression datasets, we show that our model can (1) generate embeddings that do not encode confounder information, (2) conserve the biological signals present in the original space, and (3) generalize successfully across different confounder domains. We demonstrate that AD-AE outperforms standard autoencoder and other deconfounding approaches. Availability Our code and data are available at https://gitlab.cs.washington.edu/abdincer/ad-ae . Contact abdincer@cs.washington.edu ; suinlee@cs.washington.edu
0
Citation6
0
Save
23

Principled feature attribution for unsupervised gene expression analysis

Joseph Janizek et al.May 4, 2022
+5
S
A
J
Abstract As interest in unsupervised deep learning models for the analysis of gene expression data has grown, an increasing number of methods have been developed to make these deep learning models more interpretable. These methods can be separated into two groups: (1) post hoc analyses of black box models through feature attribution methods and (2) approaches to build inherently interpretable models through biologically-constrained architectures. In this work, we argue that these approaches are not mutually exclusive, but can in fact be usefully combined. We propose a novel unsupervised pathway attribution method, which better identifies major sources of transcriptomic variation than prior methods when combined with biologically-constrained neural network models. We demonstrate how principled feature attributions aid in the analysis of a variety of single cell datasets. Finally, we apply our approach to a large dataset of post-mortem brain samples from patients with Alzheimer’s disease, and show that it identifies Mitochondrial Respiratory Complex I as an important factor in this disease.
23
Citation2
0
Save
25

Uncovering expression signatures of synergistic drug response using an ensemble of explainable AI models

Joseph Janizek et al.Oct 7, 2021
+4
S
A
J
Abstract Complex machine learning models are poised to revolutionize the treatment of diseases like acute myeloid leukemia (AML) by helping physicians choose optimal combinations of anti-cancer drugs based on molecular features. While accurate predictions are important, it is equally important to be able to learn about the underlying molecular basis of anti-cancer drug synergy. Explainable AI (XAI) offers a promising new route for data-driven cancer pharmacology, combining highly accurate models with interpretable insights into model decisions. Due to the highly correlated, high-dimensional nature of cancer transcriptomic data, however, we find that existing XAI approaches are suboptimal when applied naively to large transcriptomic datasets. We show how a novel approach based on model ensembling helps to increase the quality of explanations. We then use our method to demonstrate that a hematopoietic differentiation signature underlies synergy for a variety of anti-AML drug combinations.
25
Citation1
0
Save
0

Explainable machine learning prediction of synergistic drug combinations for precision cancer medicine

Joseph Janizek et al.May 27, 2018
S
S
J
Although combination therapy has been a mainstay of cancer treatment for decades, it remains challenging, both to identify novel effective combinations of drugs and to determine the optimal combination for a particular patient's tumor. While there have been several recent efforts to test drug combinations in vitro, examining the immense space of possible combinations is far from being feasible. Thus, it is crucial to develop data-driven techniques to computationally identify the optimal drug combination for a patient. We introduce TreeCombo, an extreme gradient boosted tree-based approach to predict synergy of novel drug combinations, using chemical and physical properties of drugs and gene expression levels of cell lines as features. We find that TreeCombo significantly outperforms three other state-of-the-art approaches, including the recently developed DeepSynergy, which uses the same set of features to predict synergy using deep neural networks. Moreover, we found that the predictions from our approach were interpretable, with genes having well-established links to cancer serving as important features for prediction of drug synergy.
0

Accurate functional classification of thousands of BRCA1 variants with saturation genome editing

Gregory Findlay et al.Apr 5, 2018
+7
X
L
G
Variants of uncertain significance (VUS) fundamentally limit the utility of genetic information in a clinical setting. The challenge of VUS is epitomized by BRCA1, a tumor suppressor gene integral to DNA repair and genomic stability. Germline BRCA1 loss-of-function (LOF) variants predispose women to early-onset breast and ovarian cancers. Although BRCA1 has been sequenced in millions of women, the risk associated with most newly observed variants cannot be definitively assigned. Data sharing attenuates this problem but it is unlikely to solve it, as most newly observed variants are exceedingly rare. In lieu of genetic evidence, experimental approaches can be used to functionally characterize VUS. However, to date, functional studies of BRCA1 VUS have been conducted in a post hoc, piecemeal fashion. Here we employ saturation genome editing to assay 96.5% of all possible single nucleotide variants (SNVs) in 13 exons that encode functionally critical domains of BRCA1. Our assay measures cellular fitness in a haploid human cell line whose survival is dependent on intact BRCA1 function. The resulting function scores for nearly 4,000 SNVs are bimodally distributed and almost perfectly concordant with established assessments of pathogenicity. Sequence-function maps enhanced by parallel measurements of variant effects on mRNA levels reveal mechanisms by which loss-of-function SNVs arise. Hundreds of missense SNVs critical for protein function are identified, as well as dozens of exonic and intronic SNVs that compromise BRCA1 function by disrupting splicing or transcript stability. We predict that these function scores will be directly useful for the clinical interpretation of cancer risk based on BRCA1 sequencing. Furthermore, we propose that this paradigm can be extended to overcome the challenge of VUS in other genes in which genetic variation is clinically actionable.
0

A deep profile of gene expression across 18 human cancers

Qiu Wei et al.Mar 17, 2024
+4
J
A
Q
Abstract Clinically and biologically valuable information may reside untapped in large cancer gene expression data sets. Deep unsupervised learning has the potential to extract this information with unprecedented efficacy but has thus far been hampered by a lack of biological interpretability and robustness. Here, we present DeepProfile, a comprehensive framework that addresses current challenges in applying unsupervised deep learning to gene expression profiles. We use DeepProfile to learn low-dimensional latent spaces for 18 human cancers from 50,211 transcriptomes. DeepProfile outperforms existing dimensionality reduction methods with respect to biological interpretability. Using DeepProfile interpretability methods, we show that genes that are universally important in defining the latent spaces across all cancer types control immune cell activation, while cancer type-specific genes and pathways define molecular disease subtypes. By linking DeepProfile latent variables to secondary tumor characteristics, we discover that tumor mutation burden is closely associated with the expression of cell cycle-related genes. DNA mismatch repair and MHC class II antigen presentation pathway expression, on the other hand, are consistently associated with patient survival. We validate these results through Kaplan-Meier analyses and nominate tumor-associated macrophages as an important source of survival-correlated MHC class II transcripts. Our results illustrate the power of unsupervised deep learning for discovery of novel cancer biology from existing gene expression data.