MT
Michael Thompson
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(46% Open Access)
Cited by:
3,362
h-index:
18
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
32

Fast and powerful statistical method for context-specific QTL mapping in multi-context genomic studies

Andrew Lu et al.Jun 18, 2021
Abstract Recent studies suggest that context-specific eQTLs underlie genetic risk factors for complex diseases. However, methods for identifying them are still nascent, limiting their comprehensive characterization and downstream interpretation of disease-associated variants. Here, we introduce FastGxC, a method to efficiently and powerfully map context-specific eQTLs by leveraging the correlation structure of multi-context studies. We first show via simulations that FastGxC is orders of magnitude more powerful and computationally efficient than previous approaches, making previously year-long computations possible in minutes. We next apply FastGxC to bulk multi-tissue and single-cell RNA-seq data sets to produce the most comprehensive tissue- and cell-type-specific eQTL maps to date. We then validate these maps by establishing that context-specific eQTLs are enriched in corresponding functional genomic annotations. Finally, we examine the relationship between context-specific eQTLs and human disease and show that FastGxC context-specific eQTLs provide a three-fold increase in precision to identify relevant tissues and cell types for GWAS variants than standard eQTLs. In summary, FastGxC enables the construction of context-specific eQTL maps that can be used to understand the context-specific gene regulatory mechanisms underlying complex human diseases.
32
Citation9
0
Save
78

Phenotype integration improves power and preserves specificity in biobank-based genetic studies of MDD

Andy Dahl et al.Aug 15, 2022
Abstract Biobanks often contain several phenotypes relevant to a given disorder, and researchers face complex tradeoffs between shallow phenotypes (high sample size, low specificity and sensitivity) and deep phenotypes (low sample size, high specificity and sensitivity). Here, we study an extreme case: Major Depressive Disorder (MDD) in UK Biobank. Previous studies found that shallow and deep MDD phenotypes have qualitatively distinct genetic architectures, but it remains unclear which are optimal for scientific study or clinical prediction. We propose a new framework to get the best of both worlds by integrating together information across hundreds of MDD-relevant phenotypes. First, we use phenotype imputation to increase sample size for the deepest available MDD phenotype, which dramatically improves GWAS power (increases #loci ~10 fold) and PRS accuracy (increases R2 ~2 fold). Further, we show the genetic architecture of the imputed phenotype remains specific to MDD using genetic correlation, PRS prediction in external clinical cohorts, and a novel PRS-based pleiotropy metric. We also develop a complementary approach to improve specificity of GWAS on shallow MDD phenotypes by adjusting for phenome-wide PCs. Finally, we study phenotype integration at the level of GWAS summary statistics, which can increase GWAS and PRS power but introduces non-MDD-specific signals. Our work provides a simple and scalable recipe to improve genetic studies in large biobanks by combining the sample size of shallow phenotypes with the sensitivity and specificity of deep phenotypes.
78
Citation5
0
Save
1

Multi-context genetic modeling of transcriptional regulation resolves novel disease loci

Michael Thompson et al.Sep 23, 2021
Abstract A majority of the variants identified in genome-wide association studies fall in non-coding regions of the genome, indicating their mechanism of impact is mediated via gene expression. Leveraging this hypothesis, transcriptome-wide association studies (TWAS) have assisted in both the interpretation and discovery of additional genes associated with complex traits. However, existing methods for conducting TWAS do not take full advantage of the intra-individual correlation inherently present in multi-context expression studies and do not properly adjust for multiple testing across contexts. We developed CONTENT— a computationally efficient method with proper cross-context false discovery correction that leverages correlation structure across contexts to improve power and generate context-specific and context-shared components of expression. We applied CONTENT to bulk multi-tissue and single-cell RNA-seq data sets and show that CONTENT leads to a 42% (bulk) and 110% (single cell) increase in the number of genetically predicted genes relative to previous approaches. Interestingly, we find the context-specific component of expression comprises 30% of heritability in tissue-level bulk data and 75% in single-cell data, consistent with cell type heterogeneity in bulk tissue. In the context of TWAS, CONTENT increased the number of gene-phenotype associations discovered by over 47% relative to previous methods across 22 complex traits.
1
Citation3
0
Save
0

Interpretably deep learning amyloid nucleation by massive experimental quantification of random sequences

Michael Thompson et al.Jul 17, 2024
Abstract Insoluble amyloid aggregates are the hallmarks of more than fifty human diseases, including the most common neurodegenerative disorders. The process by which soluble proteins nucleate to form amyloid fibrils is, however, quite poorly characterized. Relatively few sequences are known that form amyloids with high propensity and this data shortage likely limits our capacity to understand, predict, engineer, and prevent the formation of amyloid fibrils. Here we quantify the nucleation of amyloids at an unprecedented scale and use the data to train a deep learning model of amyloid nucleation. In total, we quantify the nucleation rates of >100,000 20-amino-acid-long peptides. This large and diverse dataset allows us to train CANYA, a convolution-attention hybrid neural network. CANYA is fast and outperforms existing methods with stable performance across diverse prediction tasks. Interpretability analyses reveal CANYA’s decision-making process and learned grammar, providing mechanistic insights into amyloid nucleation. Our results illustrate the power of massive experimental analysis of random sequence-spaces and provide an interpretable and robust neural network model to predict amyloid nucleation.
Load More