FA
François Aguet
Author with expertise in Genomic Studies and Association Analyses
Broad Institute, Illumina (United States), Massachusetts Institute of Technology
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
41
(46% Open Access)
Cited by:
69
h-index:
56
/
i10-index:
105
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
47

Single-nucleus cross-tissue molecular reference maps to decipher disease gene function

Gökçen Eraslan et al.Oct 13, 2023
+21
S
E
G
Abstract Understanding the function of genes and their regulation in tissue homeostasis and disease requires knowing the cellular context in which genes are expressed in tissues across the body. Single cell genomics allows the generation of detailed cellular atlases in human tissues, but most efforts are focused on single tissue types. Here, we establish a framework for profiling multiple tissues across the human body at single-cell resolution using single nucleus RNA-Seq (snRNA-seq), and apply it to 8 diverse, archived, frozen tissue types (three donors per tissue). We apply four snRNA-seq methods to each of 25 samples from 16 donors, generating a cross-tissue atlas of 209,126 nuclei profiles, and benchmark them vs . scRNA-seq of comparable fresh tissues. We use a conditional variational autoencoder (cVAE) to integrate an atlas across tissues, donors, and laboratory methods. We highlight shared and tissue-specific features of tissue-resident immune cells, identifying tissue-restricted and non-restricted resident myeloid populations. These include a cross-tissue conserved dichotomy between LYVE1- and HLA class II-expressing macrophages, and the broad presence of LAM-like macrophages across healthy tissues that is also observed in disease. For rare, monogenic muscle diseases, we identify cell types that likely underlie the neuromuscular, metabolic, and immune components of these diseases, and biological processes involved in their pathology. For common complex diseases and traits analyzed by GWAS, we identify the cell types and gene modules that potentially underlie disease mechanisms. The experimental and analytical frameworks we describe will enable the generation of large-scale studies of how cellular and molecular processes vary across individuals and populations.
47
Paper
Citation25
0
Save
1

Transcriptome variation in human tissues revealed by long-read sequencing

Dafni Glinos et al.Jan 25, 2021
+21
P
G
D
Summary Regulation of transcript structure generates transcript diversity and plays an important role in human disease. The advent of long-read sequencing technologies offers the opportunity to study the role of genetic variation in transcript structure. In this paper, we present a large human long-read RNA-seq dataset using the Oxford Nanopore Technologies platform from 88 samples from GTEx tissues and cell lines, complementing the GTEx resource. We identified just under 100,000 new transcripts for annotated genes, and validated the protein expression of a similar proportion of novel and annotated transcripts. We developed a new computational package, LORALS, to analyze genetic effects of rare and common variants on the transcriptome via allele-specific analysis of long reads. We called allele-specific expression and transcript structure events, providing novel insights into the specific transcript alterations caused by common and rare genetic variants and highlighting the resolution gained from long-read data. We were able to perturb transcript structure upon knockdown of PTBP1, an RNA binding protein that mediates splicing, thereby finding genetic regulatory effects that are modified by the cellular environment. Finally, we use this dataset to enhance variant interpretation and study rare variants leading to aberrant splicing patterns.
1
Citation15
0
Save
19

The EN-TEx resource of multi-tissue personal epigenomes & variant-impact models

Joel Rozowsky et al.Oct 24, 2023
+96
Y
J
J
ABSTRACT Understanding how genetic variants impact molecular phenotypes is a key goal of functional genomics, currently hindered by reliance on a single haploid reference genome. Here, we present the EN-TEx resource of personal epigenomes, for ∼25 tissues and >10 assays in four donors (>1500 open-access functional genomic and proteomic datasets, in total). Each dataset is mapped to a matched, diploid personal genome, which has long-read phasing and structural variants. The mappings enable us to identify >1 million loci with allele-specific behavior. These loci exhibit coordinated epigenetic activity along haplotypes and less conservation than matched, non-allele-specific loci, in a fashion broadly paralleling tissue-specificity. Surprisingly, they can be accurately modelled just based on local nucleotide-sequence context. Combining EN-TEx with existing genome annotations reveals strong associations between allele-specific and GWAS loci and enables models for transferring known eQTLs to difficult-to-profile tissues. Overall, EN-TEx provides rich data and generalizable models for more accurate personal functional genomics.
19
Citation9
0
Save
28

Multiset correlation and factor analysis enables exploration of multi-omic data

Brielin Brown et al.Oct 24, 2023
+21
S
C
B
Abstract Multi-omics datasets are becoming more common, necessitating better integration methods to realize their revolutionary potential. Here, we introduce Multi-set Correlation and Factor Analysis, an unsupervised integration method that enables fast inference of shared and private factors in multi-modal data. Applied to 614 ancestry-diverse participant samples across five ‘omics types, MCFA infers a shared space that captures clinically relevant molecular processes.
28
Citation5
0
Save
7

ECLIPSER: identifying causal cell types and genes for complex traits through single cell enrichment of e/sQTL-mapped genes in GWAS loci

John Rouhana et al.Oct 24, 2023
+7
G
J
J
Abstract Summary ECLIPSER was developed to identify pathogenic cell types and cell type-specific genes that may affect complex disease susceptibility and trait variation by integrating single cell data with known GWAS loci. ECLIPSER maps genes to GWAS loci for a given complex trait based on expression and splicing quantitative trait loci (e/sQTLs) and other functional data, and tests whether the mapped genes are enriched for cell type-specific expression in particular cell types using single-cell/nucleus RNA-seq data from one or more tissues of interest. A Bayesian Fisher’s exact test is used to compute fold-enrichment significance. We demonstrate the application of ECLIPSER on various skin diseases and traits using snRNA-seq of healthy human skin samples. Availability and Implementation The source code and documentation for ECLIPSER and a Jupyter notebook for generating output tables and figures are available at https://github.com/segrelabgenomics/ECLIPSER . The source code for GWASvar2gene that maps genes to GWAS loci based on e/sQTLs is available at https://github.com/segrelabgenomics/GWASvar2gene . The analysis presented here used data from GTEx ( https://gtexportal.org/home/datasets ) and Open Targets Genetics ( https://genetics-docs.opentargets.org/data-access/graphql-api ), but can also be applied to other GWAS variant lists and QTL studies. Data used to reproduce the results of the paper are available in Supplementary data.
1

Genetic interactions drive heterogeneity in causal variant effect sizes for gene expression and complex traits

Roshni Patel et al.Oct 24, 2023
+21
J
S
R
Abstract Despite the growing number of genome-wide association studies (GWAS), it remains unclear to what extent gene-by-gene and gene-by-environment interactions influence complex traits in humans. The magnitude of genetic interactions in complex traits has been difficult to quantify because GWAS are generally underpowered to detect individual interactions of small effect. Here, we develop a method to test for genetic interactions that aggregates information across all trait-associated loci. Specifically, we test whether SNPs in regions of European ancestry shared between European American and admixed African American individuals have the same causal effect sizes. We hypothesize that in African Americans, the presence of genetic interactions will drive the causal effect sizes of SNPs in regions of European ancestry to be more similar to those of SNPs in regions of African ancestry. We apply our method to two traits: gene expression in 296 African Americans and 482 European Americans in the Multi-Ethnic Study of Atherosclerosis (MESA) and low-density lipoprotein cholesterol (LDL-C) in 74K African Americans and 296K European Americans in the Million Veteran Program (MVP). We find significant evidence for genetic interactions in our analysis of gene expression; for LDL-C, we observe a similar point estimate although this is not significant, likely due to lower statistical power. These results suggest that gene-by-gene or gene-by-environment interactions modify the effect sizes of causal variants in human complex traits.
1

Transcription factor regulation of eQTL activity across individuals and tissues

Elise Flynn et al.Oct 24, 2023
+6
S
A
E
Abstract Tens of thousands of genetic variants associated with gene expression ( cis -eQTLs) have been discovered in the human population. These eQTLs are active in various tissues and contexts, but the molecular mechanisms of eQTL variability are poorly understood, hindering our understanding of genetic regulation across biological contexts. Since many eQTLs are believed to act by altering transcription factor (TF) binding affinity, we hypothesized that analyzing eQTL effect size as a function of TF level may allow discovery of mechanisms of eQTL variability. Using GTEx Consortium eQTL data from 49 tissues, we analyzed the interaction between eQTL effect size and TF level across tissues and across individuals within specific tissues and generated a list of 6,262 TF-eQTL interactions across 1,598 genes that are supported by at least two lines of evidence. These TF-eQTLs were enriched for various TF binding measures, supporting with orthogonal evidence that these eQTLs are regulated by the implicated TFs. We also found that our TF-eQTLs tend to overlap genes with gene-by-environment regulatory effects and to colocalize with GWAS loci, implying that our approach can help to elucidate mechanisms of context-specificity and trait associations. Finally, we highlight an interesting example of IKZF1 TF regulation of an APBB1IP gene eQTL that colocalizes with a GWAS signal for blood cell traits. Together, our findings provide candidate TF mechanisms for a large number of eQTLs and offer a generalizable approach for researchers to discover TF regulators of genetic variant effects in additional QTL datasets. Author Summary Gene expression is regulated by local genomic sequence and can be affected by genetic variants. In the human population, tens of thousands of cis -regulatory variants have been discovered that are associated with altered gene expression across tissues, cell types, or environmental conditions. Understanding the molecular mechanisms of how these small changes in the genome sequence affect genome function would offer insight to the genetic regulatory code and how gene expression is controlled across tissues and environments. Current research efforts suggest that many regulatory variants’ effects on gene expression are mediated by them altering the binding of transcription factors, which are proteins that bind to DNA to regulate gene expression. Here, we exploit the natural variation of TF activity among 49 tissues and between 838 individuals to elucidate which TFs regulate which regulatory variants. We find 6,262 TF-eQTL interactions across 1,598 genes that are supported by at least two lines of evidence. We validate these interactions using functional genomic and experimental approaches, and we find indication that they may pinpoint mechanisms of environment-specific genetic regulatory effects and genetic variants associated to diseases and traits.
7

Combined tumor and immune signals from genomes or transcriptomes predict outcomes of checkpoint inhibition in melanoma

Samuel Freeman et al.Oct 24, 2023
+36
J
M
S
Cancer immunotherapy with checkpoint blockade (CPB) leads to improved outcomes in melanoma and other tumor types, but a majority of patients do not respond. High tumor mutation burden (TMB) and high levels of tumor-infiltrating T cells have been associated with response to immunotherapy, but integrative models to predict clinical benefit using DNA or RNA alone have not been comprehensively explored. We sequenced DNA and RNA from melanoma patients receiving CPB, and aggregated previously published data, yielding whole exome sequencing data for 189 patients and bulk RNA sequencing data for 178 patients. Using these datasets, we derived genomic and transcriptomic factors that predict overall survival (OS) and response to immunotherapy. Using whole-exome DNA data alone, we calculated T cell burden (TCB) and B cell burden (BCB) based on rearranged TCR/Ig DNA sequences and found that patients whose melanomas have high TMB together with either high TCB or high BCB survived longer and had higher response rates as compared to patients with either low TMB or TCB/BCB. Next, using bulk RNA-Seq data, differential expression analysis identified 83 genes associated with high or low OS. By combining pairs of immune-expressed genes with tumor-expressed genes, we identified three gene pairs associated with response and survival (Bonferroni P <0.05). All three gene pair models were validated in an independent cohort (n=180) (Bonferroni P <0.05). The best performing gene pair model included the lymphocyte-expressed MAP4K1 (Mitogen- Activated Protein Kinase Kinase Kinase Kinase 1) combined with the transcription factor TBX3 (T-Box Transcription Factor 3) which is overexpressed in poorly differentiated melanomas. We conclude that RNA-based ( MAP4K1 & TBX3 ) or DNA-based (TCB&TMB) models combining immune and tumor measures improve predictions of outcome after checkpoint blockade in melanoma.
7
Citation2
0
Save
38

Leveraging supervised learning for functionally-informed fine-mapping of cis-eQTLs identifies an additional 20,913 putative causal eQTLs

Qingbo Wang et al.Oct 24, 2023
+10
J
D
Q
Abstract The large majority of variants identified by GWAS are non-coding, motivating detailed characterization of the function of non-coding variants. Experimental methods to assess variants’ effect on gene expressions in native chromatin context via direct perturbation are low-throughput. Existing high-throughput computational predictors thus have lacked large gold standard sets of regulatory variants for training and validation. Here, we leverage a set of 14,807 putative causal eQTLs in humans obtained through statistical fine-mapping, and we use 6,121 features to directly train a predictor of whether a variant modifies nearby gene expression. We call the resulting prediction the expression modifier score (EMS). We validate EMS by comparing its ability to prioritize functional variants with other major scores. We then use EMS as a prior for statistical fine-mapping of eQTLs to identify an additional 20,913 putatively causal eQTLs, and we incorporate EMS into co-localization analysis to identify 310 additional candidate genes across UK Biobank phenotypes.
8

Protein prediction for trait mapping in diverse populations

Ryan Schubert et al.Oct 24, 2023
+29
I
E
R
Abstract Genetically regulated gene expression has helped elucidate the biological mechanisms underlying complex traits. Improved high-throughput technology allows similar interrogation of the genetically regulated proteome for understanding complex trait mechanisms. Here, we used the Trans-omics for Precision Medicine (TOPMed) Multi-omics pilot study, which comprises data from Multi-Ethnic Study of Atherosclerosis (MESA), to optimize genetic predictors of the plasma proteome for genetically regulated proteome-wide association studies (PWAS) in diverse populations. We built predictive models for protein abundances using data collected in TOPMed MESA, for which we have measured 1,305 proteins by a SOMAscan assay. We compared predictive models built via elastic net regression to models integrating posterior inclusion probabilities estimated by fine-mapping SNPs prior to elastic net. In order to investigate the transferability of predictive models across ancestries, we built protein prediction models in all four of the TOPMed MESA populations, African American (n=183), Chinese (n=71), European (n=416), and Hispanic/Latino (n=301), as well as in all populations combined. As expected, fine-mapping produced more significant protein prediction models, especially in African ancestries populations, potentially increasing opportunity for discovery. When we tested our TOPMed MESA models in the independent European INTERVAL study, fine-mapping improved cross-ancestries prediction for some proteins. Using GWAS summary statistics from the Population Architecture using Genomics and Epidemiology (PAGE) study, which comprises ~50,000 Hispanic/Latinos, African Americans, Asians, Native Hawaiians, and Native Americans, we applied S-PrediXcan to perform PWAS for 28 complex traits. The most protein-trait associations were discovered, colocalized, and replicated in large independent GWAS using proteome prediction model training populations with similar ancestries to PAGE. At current training population sample sizes, performance between baseline and fine-mapped protein prediction models in PWAS was similar, highlighting the utility of elastic net. Our predictive models in diverse populations are publicly available for use in proteome mapping methods at https://doi.org/10.5281/zenodo.4837328 . Author summary Gene regulation is a critical mechanism underlying complex traits. Transcriptome-wide association studies (TWAS) have helped elucidate potential mechanisms because each association connects a gene rather than a variant to the complex trait. Like genome-wide association studies (GWAS), most TWAS are still conducted exclusively in populations of European ancestry, which misses the opportunity to test the full spectrum of human genetic variation for associations with complex traits. Here, move beyond the transcriptome and because protein measurement assays are growing to allow interrogation of the proteome, we use data from TOPMed MESA to develop genetic predictors of protein abundance in diverse ancestry populations. We compare model-building strategies with the goal of providing the best resource for protein association discovery with available data. We demonstrate how these prediction models can be used to perform proteome-wide association studies (PWAS) in diverse populations. We show the most protein-trait associations were discovered, colocalized, and replicated in independent cohorts using proteome prediction model training populations with similar ancestries to individuals in the GWAS. We shared our protein prediction models and performance statistics publicly to facilitate future proteome mapping studies in diverse populations.
8
Paper
Citation1
0
Save
Load More