TK
Theofanis Karaletsos
Author with expertise in Genomic Studies and Association Analyses
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(67% Open Access)
Cited by:
2
h-index:
12
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Pitfalls in performing genome-wide association studies on ratio traits

Zachary McCaw et al.Nov 1, 2023
Abstract Genome-wide association studies (GWAS) are often performed on ratios composed of a numerator trait divided by a denominator trait. Examples include body mass index (BMI) and the waist-to-hip ratio, among many others. Explicitly or implicitly, the goal of forming the ratio is typically to adjust the numerator for the denominator. While forming ratios may be clinically expedient, there are several important issues with performing GWAS on ratios. Forming a ratio does not “adjust” for the denominator in the sense of holding it constant, and it is unclear whether associations with ratios are attributable to the numerator, the denominator, or both. Here we demonstrate that associations arising in ratio GWAS can be entirely denominator-driven, implying that at least some associations uncovered by ratio GWAS may be due solely to a putative adjustment variable. In a survey of 10 exemplar ratios, we find that the ratio model disagrees with the adjusted model (performing GWAS on the numerator while conditioning on the denominator) at around 1/3 of loci. Using BMI as an example, we show that variants detected by only the ratio model are more strongly associated with the denominator (height), while variants detected by only the adjusted model are more strongly associated with the numerator (weight). Although the adjusted model provides effect sizes with a clearer interpretation, it is susceptible to collider bias. We propose and validate a simple method of correcting for the genetic collider bias via leave-one-chromosome-out polygenic scoring.
0
Citation1
0
Save
16

An allelic series rare variant association test for candidate gene discovery

Zachary McCaw et al.Dec 24, 2022
Abstract Allelic series are of candidate therapeutic interest due to the existence of a dose-response relationship between the functionality of a gene and the degree or severity of a phenotype. We define an allelic series as a gene in which increasingly deleterious mutations lead to increasingly large phenotypic effects, and develop a gene-based rare variant association test specifically targeted for the identification of allelic series. Building on the well-known burden and sequence kernel association (SKAT) tests, we specify a variety of association models, covering different genetic architectures, and integrate these into a COding-variant Allelic Series Test (COAST). Through extensive simulations, we confirm that COAST maintains the type I error and improves power when the pattern of coding-variant effect sizes increases monotonically with mutational severity. We applied COAST to identify allelic series for 4 circulating lipid traits and 5 cell count traits among 145,735 subjects with available whole exome sequencing data from the UK Biobank. Compared with optimal SKAT (SKAT-O), COAST identified 29% more Bonferroni significant associations with circulating lipid traits, on average, and 82% more with cell count traits. All of the gene-trait associations identified by COAST have corroborating evidence either from rare-variant associations in the full cohort (Genebass, N = 400K), or from common variant associations in the GWAS catalog. In addition to detecting many gene-trait associations present in Genebass using only a fraction (36.9%) of the sample, COAST detects associations, such as ANGPTL4 with triglycerides, that are absent from Genebass but which have clear common variant support.
16
Citation1
0
Save
0

EmbedGEM: A framework to evaluate the utility of embeddings for genetic discovery

Sumit Mukherjee et al.Nov 25, 2023
Abstract Machine learning derived embeddings are a compressed representation of high content data modalities obtained through deep learning models[1]. Embeddings have been hypothesized to capture detailed information about disease states and have been qualitatively shown to be useful in genetic discovery. Despite their promise, embeddings have some drawbacks: i) they are often confounded by covariates, and ii) their disease relevance is hard to ascertain. In this work we describe a framework to systematically evaluate the utility of embeddings in genetic discovery called EmbedGEM ( Embed ding G enetic E valuation M ethods). Although, motivated by applications to embeddings, EmbedGEM is equally applicable for other multivariate traits as well. EmbedGEM focuses on comparing embeddings along two axes: i) heritability of the embeddings, and ii) ability to identify ‘disease relevant’ variants. We use the number of genome-wide significant signals and mean/median chi-square statistic as a proxy for the heritability of multivariate traits. To evaluate disease relevance, we compute polygenic risk scores for each orthogonalized component of the embedding (or multivariate comparators) and evaluate their association with a held-out set of patients with high-confidence disease traits. While we introduce some relatively straightforward ways to evaluate heritability and disease relevance, we foresee that our framework can be easily extended by adding more metrics. We demonstrate the utility of EmbedGEM by using it to evaluate embedding and non-embedding traits in two separate datasets: i) a synthetic dataset simulated to demonstrate the ability of the framework to correctly rank traits based on their heritability and disease relevance, ii) data from the UK Biobank focused on NAFLD relevant traits. EmbedGEM is implemented in the form of an easy to use Python-based workflow ( https://github.com/insitro/EmbedGEM ).
0

Deep Learning Analysis on Images of iPSC-derived Motor Neurons Carrying fALS-genetics Reveals Disease-Relevant Phenotypes

Rahul Atmaramani et al.Jan 5, 2024
Summary Amyotrophic lateral sclerosis (ALS) is a devastating condition with very limited treatment options. It is a heterogeneous disease with complex genetics and unclear etiology, making the discovery of disease-modifying interventions very challenging. To discover novel mechanisms underlying ALS, we leverage a unique platform that combines isogenic, induced pluripotent stem cell (iPSC)-derived models of disease-causing mutations with rich phenotyping via high-content imaging and deep learning models. We introduced eight mutations that cause familial ALS (fALS) into multiple donor iPSC lines, and differentiated them into motor neurons to create multiple isogenic pairs of healthy (wild-type) and sick (mutant) motor neurons. We collected extensive high-content imaging data and used machine learning (ML) to process the images, segment the cells, and learn phenotypes. Self-supervised ML was used to create a concise embedding that captured significant, ALS-relevant biological information in these images. We demonstrate that ML models trained on core cell morphology alone can accurately predict TDP-43 mislocalization, a known phenotypic feature related to ALS. In addition, we were able to impute RNA expression from these image embeddings, in a way that elucidates molecular differences between mutants and wild-type cells. Finally, predictors leveraging these embeddings are able to distinguish between mutant and wild-type both within and across donors, defining cellular, ML-derived disease models for diverse fALS mutations. These disease models are the foundation for a novel screening approach to discover disease-modifying targets for familial ALS.