AG
Ariel Gewirtz
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(67% Open Access)
Cited by:
1,331
h-index:
6
/
i10-index:
6
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
32

Expression QTLs in single-cell sequencing data

Ariel Gewirtz et al.Aug 15, 2022
A bstract Single nucleotide polymorphisms (SNPs) are important drivers of gene expression variation and downstream phenotypes including disease risk. Single-cell RNA-sequencing (scRNA-seq) allows an unprecedented exploration of cell-type specific associations between gene expression levels and genotypes, but current methods rely on pseudobulk approaches that use composite expression values across cells and often use summary statistics within cell types, ignoring information across cell types and assuming cell type labels are accurate. Here, we extend our method, telescoping bimodal latent Dirichlet allocation (TBLDA), that identifies covarying genotypes and gene expression values when the matching from samples to cells is not one-to-one in order to allow cell-type label agnostic discovery of eQTLs in noncomposite scRNA-seq data. In particular, we add GPU-compatibility, sparse priors, and amortization to enable fast inference on large-scale scRNA-seq data. We apply single-cell TBLDA (scTBLDA) to 400K cells from 119 individuals with systemic lupus erythematosus and examine properties of features from each modality across the estimated latent factors. We use linked genes and SNPs to identify 205 cis-eQTLS, 66 trans-eQTLs, and 53 cell type proportion QTLs, which we then compare against prior studies of immune-cell eQTLs. Our results demonstrate the ability of scTBLDA to identify genes involved in cell-type specific regulatory processes associated with SNPs in single-cell data.
32
Citation4
0
Save
24

Telescoping bimodal latent Dirichlet allocation to identify expression QTLs across tissues

Ariel Gewirtz et al.Oct 28, 2021
Abstract Expression quantitative trait loci (eQTLs), or single nucleotide polymorphisms (SNPs) that affect average gene expression levels, provide important insights into context-specific gene regulation. Classic eQTL analyses use one-to-one association tests, which test gene-variant pairs individually and ignore correlations induced by gene regulatory networks and linkage disequilibrium. Probabilistic topic models, such as latent Dirichlet allocation, estimate latent topics for a collection of count observations. Prior multi-modal frameworks that bridge genotype and expression data assume matched sample numbers between modalities. However, many data sets have a nested structure where one individual has several associated gene expression samples and a single germline genotype vector. Here, we build a telescoping bimodal latent Dirichlet allocation (TBLDA) framework to learn shared topics across gene expression and genotype data that allows multiple RNA-sequencing samples to correspond to a single individual’s genotype. By using raw count data, our model avoids possible adulteration via normalization procedures. Ancestral structure is captured in a genotype-specific latent space, effectively removing it from shared components. Using GTEx v8 expression data across ten tissues and genotype data, we show that the estimated topics capture meaningful and robust biological signal in both modalities, and identify associations within and across tissue types. We identify 53,358 cis-eQTLs and 1,173 trans-eQTLs by conducting eQTL mapping between the most informative features in each topic. Our TBLDA model is able to identify associations using raw sequencing count data when the samples in two separate data modalities are matched one-to-many, as is often the case in biological data.
24
Citation2
0
Save
0

Co-expression networks reveal the tissue-specific regulation of transcription and splicing

Ashis Saha et al.Oct 2, 2016
Gene co-expression networks capture biologically important patterns in gene expression data, enabling functional analyses of genes, discovery of biomarkers, and interpretation of regulatory genetic variants. Most network analyses to date have been limited to assessing correlation between total gene expression levels in a single or small sets of tissues. Here, we have reconstructed networks that capture a much more complete set of regulatory relationships, specifically including regulation of relative isoform abundance and splicing, and tissue-specific connections unique to each of a diverse set of tissues. Using the Genotype-Tissue Expression (GTEx) project v6 RNA-sequencing data across 44 tissues in 449 individuals, we evaluated shared and tissue-specific network relationships. First, we developed a framework called Transcriptome Wide Networks (TWNs) for combining total expression and relative isoform levels into a single sparse network, capturing the complex interplay between the regulation of splicing and transcription. We built TWNs for sixteen tissues, and found that hubs with isoform node neighbors in these networks were strongly enriched for splicing and RNA binding genes, demonstrating their utility in unraveling regulation of splicing in the human transcriptome, and providing a set of candidate shared and tissue-specific regulatory hub genes. Next, we used a Bayesian biclustering model that identifies network edges between genes with co-expression in a single tissue to reconstruct tissue-specific networks (TSNs) for 27 distinct GTEx tissues and for four subsets of related tissues. Using both TWNs and TSNs, we characterized gene co-expression patterns shared across tissues. Finally, we found genetic variants associated with multiple neighboring nodes in our networks, supporting the estimated network structures and identifying 33 genetic variants with distant regulatory impact on transcription and splicing. Our networks provide an improved understanding of the complex relationships between genes in the human transcriptome, including tissue-specificity of gene co-expression, regulation of splicing, and the coordinated impact of genetic variation on transcription.
0

Distant regulatory effects of genetic variation in multiple human tissues

Brian Jo et al.Sep 9, 2016
Understanding the genetics of gene regulation provides information on the cellular mechanisms through which genetic variation influences complex traits. Expression quantitative trait loci, or eQTLs, are enriched for polymorphisms that have been found to be associated with disease risk. While most analyses of human data has focused on regulation of expression by nearby variants (cis-eQTLs), distal or trans-eQTLs may have broader effects on the transcriptome and important phenotypic consequences, necessitating a comprehensive study of the effects of genetic variants on distal gene transcription levels. In this work, we identify trans-eQTLs in the Genotype Tissue Expression (GTEx) project data, consisting of 449 individuals with RNA-sequencing data across 44 tissue types. We find 81 genes with a trans-eQTL in at least one tissue, and we demonstrate that trans-eQTLs are more likely than cis-eQTLs to have effects specific to a single tissue. We evaluate the genomic and functional properties of trans-eQTL variants, identifying strong enrichment in enhancer elements and Piwi-interacting RNA clusters. Finally, we describe three tissue-specific regulatory loci underlying relevant disease associations: 9q22 in thyroid that has a role in thyroid cancer, 5q31 in skeletal muscle, and a previously reported master regulator near KLF14 in adipose. These analyses provide a comprehensive characterization of trans-eQTLs across human tissues, which contribute to an improved understanding of the tissue-specific cellular mechanisms of regulatory genetic variation.