SK
Subra Kugathasan
Author with expertise in Genomic Studies and Association Analyses
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(83% Open Access)
Cited by:
12
h-index:
49
/
i10-index:
96
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Leif Groop et al.Feb 7, 2019
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Citation8
0
Save
0

Pitfalls in performing genome-wide association studies on ratio traits

Zachary McCaw et al.Nov 1, 2023
Abstract Genome-wide association studies (GWAS) are often performed on ratios composed of a numerator trait divided by a denominator trait. Examples include body mass index (BMI) and the waist-to-hip ratio, among many others. Explicitly or implicitly, the goal of forming the ratio is typically to adjust the numerator for the denominator. While forming ratios may be clinically expedient, there are several important issues with performing GWAS on ratios. Forming a ratio does not “adjust” for the denominator in the sense of holding it constant, and it is unclear whether associations with ratios are attributable to the numerator, the denominator, or both. Here we demonstrate that associations arising in ratio GWAS can be entirely denominator-driven, implying that at least some associations uncovered by ratio GWAS may be due solely to a putative adjustment variable. In a survey of 10 exemplar ratios, we find that the ratio model disagrees with the adjusted model (performing GWAS on the numerator while conditioning on the denominator) at around 1/3 of loci. Using BMI as an example, we show that variants detected by only the ratio model are more strongly associated with the denominator (height), while variants detected by only the adjusted model are more strongly associated with the numerator (weight). Although the adjusted model provides effect sizes with a clearer interpretation, it is susceptible to collider bias. We propose and validate a simple method of correcting for the genetic collider bias via leave-one-chromosome-out polygenic scoring.
0
Citation1
0
Save
16

An allelic series rare variant association test for candidate gene discovery

Zachary McCaw et al.Dec 24, 2022
Abstract Allelic series are of candidate therapeutic interest due to the existence of a dose-response relationship between the functionality of a gene and the degree or severity of a phenotype. We define an allelic series as a gene in which increasingly deleterious mutations lead to increasingly large phenotypic effects, and develop a gene-based rare variant association test specifically targeted for the identification of allelic series. Building on the well-known burden and sequence kernel association (SKAT) tests, we specify a variety of association models, covering different genetic architectures, and integrate these into a COding-variant Allelic Series Test (COAST). Through extensive simulations, we confirm that COAST maintains the type I error and improves power when the pattern of coding-variant effect sizes increases monotonically with mutational severity. We applied COAST to identify allelic series for 4 circulating lipid traits and 5 cell count traits among 145,735 subjects with available whole exome sequencing data from the UK Biobank. Compared with optimal SKAT (SKAT-O), COAST identified 29% more Bonferroni significant associations with circulating lipid traits, on average, and 82% more with cell count traits. All of the gene-trait associations identified by COAST have corroborating evidence either from rare-variant associations in the full cohort (Genebass, N = 400K), or from common variant associations in the GWAS catalog. In addition to detecting many gene-trait associations present in Genebass using only a fraction (36.9%) of the sample, COAST detects associations, such as ANGPTL4 with triglycerides, that are absent from Genebass but which have clear common variant support.
16
Citation1
0
Save
0

EmbedGEM: A framework to evaluate the utility of embeddings for genetic discovery

Sumit Mukherjee et al.Nov 25, 2023
Abstract Machine learning derived embeddings are a compressed representation of high content data modalities obtained through deep learning models[1]. Embeddings have been hypothesized to capture detailed information about disease states and have been qualitatively shown to be useful in genetic discovery. Despite their promise, embeddings have some drawbacks: i) they are often confounded by covariates, and ii) their disease relevance is hard to ascertain. In this work we describe a framework to systematically evaluate the utility of embeddings in genetic discovery called EmbedGEM ( Embed ding G enetic E valuation M ethods). Although, motivated by applications to embeddings, EmbedGEM is equally applicable for other multivariate traits as well. EmbedGEM focuses on comparing embeddings along two axes: i) heritability of the embeddings, and ii) ability to identify ‘disease relevant’ variants. We use the number of genome-wide significant signals and mean/median chi-square statistic as a proxy for the heritability of multivariate traits. To evaluate disease relevance, we compute polygenic risk scores for each orthogonalized component of the embedding (or multivariate comparators) and evaluate their association with a held-out set of patients with high-confidence disease traits. While we introduce some relatively straightforward ways to evaluate heritability and disease relevance, we foresee that our framework can be easily extended by adding more metrics. We demonstrate the utility of EmbedGEM by using it to evaluate embedding and non-embedding traits in two separate datasets: i) a synthetic dataset simulated to demonstrate the ability of the framework to correctly rank traits based on their heritability and disease relevance, ii) data from the UK Biobank focused on NAFLD relevant traits. EmbedGEM is implemented in the form of an easy to use Python-based workflow ( https://github.com/insitro/EmbedGEM ).
0

Systems-level analysis of monocyte responses in inflammatory bowel disease identifies IL-10 and IL-1 cytokine networks that regulate IL-23

Dominik Aschenbrenner et al.Jul 31, 2019
BACKGROUND & AIMS Dysregulated immune responses are the cause of inflammatory bowel diseases. Studies in both mice and humans suggest a central role of IL-23 producing mononuclear phagocytes in disease pathogenesis. Mechanistic insights into the regulation of IL-23 are prerequisite for select IL-23 targeting therapies as part of personalized medicine.METHODS We performed transcriptomic analysis to investigate IL-23 expression in human mononuclear phagocytes and peripheral blood mononuclear cells. We investigated the regulation of IL-23 expression and used single-cell RNA-sequencing to derive a transcriptomic signature of hyper-inflammatory monocytes. Using gene network correlation analysis, we deconvolve this signature into components associated with homeostasis and inflammation in patient biopsy samples.RESULTS We characterized monocyte subsets of healthy individuals and patients with inflammatory bowel disease that express IL-23. We identified auto- and paracrine sensing of IL-1α/IL-1β and IL-10 as key cytokines that control IL-23-producing monocytes. Whereas Mendelian genetic defects in IL-10 receptor signalling induced IL-23 secretion, uptake of whole bacteria induced IL-23 production via acquired IL-10 signalling resistance. We found a transcriptional signature of IL-23-producing inflammatory monocytes that predicted both disease and resistance to anti-TNF therapy and differentiated that from an IL-23-associated lymphocyte differentiation signature that was present in homeostasis and in disease.CONCLUSION Our work identifies IL-10 and IL-1 as critical regulators of monocyte IL-23 production. We differentiate homeostatic IL-23 production from hyper-inflammation-associated IL-23 production in patients with severe ulcerating active Crohn’s disease and anti-TNF treatment non-responsiveness. Altogether, we identify subgroups of patients with inflammatory bowel disease that might benefit from IL-23p19 and/or IL-1α/IL-1β-targeting therapies upstream of IL-23.![Figure][1] * Abbreviations : BH : Benjamini & Hochberg CD : Crohn’s disease CD : Cluster of differentiation FACS : Fluorescence assisted cell sorting GFP : Green fluorescent protein IBD : Inflammatory bowel disease IBDu : IBD unclassified IL : Interleukin LPS : Lipopolysaccharide MACS : Magnet-assisted cell sorting MDP : Muramyl-dipeptide OSM : Oncostatin M PBMC : Peripheral blood mononuclear cells scRNA-seq : single cell RNA-sequencing STAT : Signal transducer and activator of transcription Th : Thelper TNF : Tumour necrosis factor UC : Ulcerative colitis. [1]: pending:yes