PP
Päivi Pajukanta
Author with expertise in Genomic Studies and Association Analyses
University of California, Los Angeles, University of California System, Instituto Nacional de Ciencias Médicas y Nutrición Salvador Zubirán
+ 8 more
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
13
(38% Open Access)
Cited by:
8
h-index:
44
/
i10-index:
110
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Enhancing droplet-based single-nucleus RNA-seq resolution using the semi-supervised machine learning classifier DIEM

Marcus Alvarez et al.May 7, 2020
+8
B
E
M
Abstract Single-nucleus RNA sequencing (snRNA-seq) measures gene expression in individual nuclei instead of cells, allowing for unbiased cell type characterization in solid tissues. Contrary to single-cell RNA seq (scRNA-seq), we observe that snRNA-seq is commonly subject to contamination by high amounts of extranuclear background RNA, which can lead to identification of spurious cell types in downstream clustering analyses if overlooked. We present a novel approach to remove debris-contaminated droplets in snRNA-seq experiments, called Debris Identification using Expectation Maximization (DIEM). Our likelihood-based approach models the gene expression distribution of debris and cell types, which are estimated using EM. We evaluated DIEM using three snRNA-seq data sets: 1) human differentiating preadipocytes in vitro , 2) fresh mouse brain tissue, and 3) human frozen adipose tissue (AT) from six individuals. All three data sets showed various degrees of extranuclear RNA contamination. We observed that existing methods fail to account for contaminated droplets and led to spurious cell types. When compared to filtering using these state of the art methods, DIEM better removed droplets containing high levels of extranuclear RNA and led to higher quality clusters. Although DIEM was designed for snRNA-seq data, we also successfully applied DIEM to single-cell data. To conclude, our novel method DIEM removes debris-contaminated droplets from single-cell-based data fast and effectively, leading to cleaner downstream analysis. Our code is freely available for use at https://github.com/marcalva/diem .
0
Paper
Citation5
0
Save
0

Adipose tissue eQTL meta-analysis reveals the contribution of allelic heterogeneity to gene expression regulation and cardiometabolic traits

Sarah Brotman et al.May 27, 2024
+31
L
J
S
Abstract Complete characterization of the genetic effects on gene expression is needed to elucidate tissue biology and the etiology of complex traits. Here, we analyzed 2,344 subcutaneous adipose tissue samples and identified 34K conditionally distinct expression quantitative trait locus (eQTL) signals in 18K genes. Over half of eQTL genes exhibited at least two eQTL signals. Compared to primary signals, non-primary signals had lower effect sizes, lower minor allele frequencies, and less promoter enrichment; they corresponded to genes with higher heritability and higher tolerance for loss of function. Colocalization of eQTL with conditionally distinct genome-wide association study signals for 28 cardiometabolic traits identified 3,605 eQTL signals for 1,861 genes. Inclusion of non-primary eQTL signals increased colocalized signals by 46%. Among 30 genes with ≥2 pairs of colocalized signals, 21 showed a mediating gene dosage effect on the trait. Thus, expanded eQTL identification reveals more mechanisms underlying complex traits and improves understanding of the complexity of gene expression regulation.
57

A multi-layer functional genomic analysis to understand noncoding genetic variation in lipids

Shweta Ramdas et al.Oct 24, 2023
+532
S
J
S
Abstract A major challenge of genome-wide association studies (GWAS) is to translate phenotypic associations into biological insights. Here, we integrate a large GWAS on blood lipids involving 1.6 million individuals from five ancestries with a wide array of functional genomic datasets to discover regulatory mechanisms underlying lipid associations. We first prioritize lipid-associated genes with expression quantitative trait locus (eQTL) colocalizations, and then add chromatin interaction data to narrow the search for functional genes. Polygenic enrichment analysis across 697 annotations from a host of tissues and cell types confirms the central role of the liver in lipid levels, and highlights the selective enrichment of adipose-specific chromatin marks in high-density lipoprotein cholesterol and triglycerides. Overlapping transcription factor (TF) binding sites with lipid-associated loci identifies TFs relevant in lipid biology. In addition, we present an integrative framework to prioritize causal variants at GWAS loci, producing a comprehensive list of candidate causal genes and variants with multiple layers of functional evidence. Two prioritized genes, CREBRF and RRBP1 , show convergent evidence across functional datasets supporting their roles in lipid biology.
0

Fast estimation of genetic correlation for Biobank-scale data

Yue Wu et al.May 7, 2020
+3
A
K
Y
Genetic correlation, i.e., the proportion of phenotypic correlation across a pair of traits that can be explained by genetic variation, is an important parameter in efforts to understand the relationships among complex traits. The observation of substantial genetic correlation across a pair of traits, can provide insights into shared genetic pathways as well as providing a starting point to investigate causal relationships. Attempts to estimate genetic correlations among complex phenotypes attributable to genome-wide SNP variation data have motivated the analysis of large datasets as well as the development of sophisticated methods. Bi-variate Linear Mixed Models (LMMs) have emerged as a key tool to estimate genetic correlation from datasets where individual genotypes and traits are measured. The bi-variate LMM jointly models the effect sizes of a given SNP on each of the pairs of traits being analyzed. The parameters of the bi-variate LMM, i.e., the variance components, are related to the heritability of each trait as well as correlation across traits attributable to genotyped SNPs. However, inference in bi-variate LMMs, typically achieved by maximizing the likelihood, poses serious computational challenges. We propose, RG-Cor, a scalable randomized Method-of-Moments (MoM) estimator of genetic correlations in bi-variate LMMs. RG-Cor leverages the structure of genotype data to obtain runtimes that scale sub-linearly with the number of individuals in the input dataset (assuming the number of SNPs is held constant). We perform extensive simulations to validate the accuracy and scalability of RG-Cor. RG-Cor can compute the genetic correlations on the UK biobank dataset consisting of 430, 000 individuals and 460, 000 SNPs in 3 hours on a stand-alone compute machine.
0

Reverse GWAS: Using Genetics to Identify and Model Phenotypic Subtypes

Andy Dahl et al.May 6, 2020
+4
A
N
A
Recent and classical work has revealed biologically and medically significant subtypes in complex diseases and traits. However, relevant subtypes are often unknown, unmeasured, or actively debated, making automatic statistical approaches to subtype definition particularly valuable. We propose reverse GWAS (RGWAS) to identify and validate subtypes using genetics and multiple traits: while GWAS seeks the genetic basis of a given trait, RGWAS seeks to define trait subtypes with distinct genetic bases. Unlike existing approaches relying on off-the-shelf clustering methods, RGWAS uses a bespoke decomposition, MFMR, to model covariates, binary traits, and population structure. We use extensive simulations to show these features can be crucial for power and calibration. We validate RGWAS in practice by recovering known stress subtypes in major depressive disorder. We then show the utility of RGWAS by identifying three novel subtypes of metabolic traits. We biologically validate these metabolic subtypes with SNP-level tests and a novel polygenic test: the former recover known metabolic GxE SNPs; the latter suggests genetic heterogeneity may explain substantial missing heritability. Crucially, statins, which are widely prescribed and theorized to increase diabetes risk, have opposing effects on blood glucose across metabolic subtypes, suggesting potential have potential translational value.
0

Efficient estimation and applications of cross-validated genetic predictions

Joel Mefford et al.May 7, 2020
+7
Z
D
J
Large-scale cohorts with combined genetic and phenotypic data, coupled with methodological advances, have produced increasingly accurate genetic predictors of complex human phenotypes called polygenic risk scores (PRS). In addition to the potential translational impacts of identifying at-risk individuals, PRS are being utilized for a growing list of scientific applications including causal inference, identifying pleiotropy and genetic correlation, and powerful gene-based and mixed model association tests. Existing PRS approaches rely on external large-scale genetic cohorts that have also measured the phenotype of interest. They further require matching on ancestry and genotyping platform or imputation quality. In this work we present a novel reference-free method to produce PRS that does not rely on an external cohort. We show that naive implementations of reference-free PRS either result in substantial over-fitting or prohibitive increases in computational time. We show that our algorithm avoids both of these issues, and can produce informative in-sample PRS over any existing cohort without over-fitting. We then demonstrate several novel applications of reference-free PRS including detection of pleiotropy across 246 metabolic traits and efficient mixed-model association testing.
0

Genetic and environmental perturbations lead to regulatory decoherence

Amanda Lea et al.May 7, 2020
+10
A
M
A
Correlation among traits is a fundamental feature of biological systems. From morphological characters, to transcriptional or metabolic networks, the correlations we routinely observe between traits reflect a shared regulation that remains poorly understood and difficult to study. To address this problem, we developed a new and flexible approach that allows us to identify factors associated with variation in correlation between individuals. Here, we use data from three large human cohorts to study the effects of genetic variation and environmental perturbation on correlations among mRNA transcripts and among NMR metabolites. We first show that environmental exposures (namely, infection and disease) lead to a systematic loss of correlation, which we define as 'decoherence'. Using longitudinal data, we show that decoherent metabolites are better predictors of whether someone will develop metabolic syndrome than metabolites commonly used as biomarkers of this disease. Finally, we show that correlation itself is a trait under genetic control: specifically, we mapped and replicated hundreds of 'correlation QTLs', which often involve transcription factors or their known target genes. Together, this work furthers our understanding of how and why coordinated biological processes break down, and highlights the role of decoherence in disease emergence.
0

A comprehensive study of metabolite genetics reveals strong pleiotropy and heterogeneity across time and context

Apolline Gallois et al.May 7, 2020
+5
A
J
A
Genetic studies of metabolites have identified thousands of variants many of which are associated with downstream metabolic and obesogenic disorders. However, these studies have relied on univariate analyses, reducing power and limiting context specific understanding. Here we aim to provide an integrated perspective of the genetic basis of metabolites by leveraging the Finnish Metabolic Syndrome In Men (METSIM) cohort, a unique genetic resource which contains metabolic measurements across distinct timepoints as well as detailed information on statin usage. We increase effective sample size by an average of two-fold by applying the Covariates for Multi-phenotype Studies (CMS) approach, identifying 588 significant SNP-metabolite associations, including 248 novel associations. We further show that many of these SNPs are master metabolic regulators, balancing the relative proportion of dozens of metabolite levels. We then identify the first associations to changes in metabolic levels across time as well as evidence of genetic interaction with statin use. Finally, we show an overall decrease in genetic control of metabolic processes with age.
0

Phenotype-specific enrichment of Mendelian disorder genes near GWAS regions across 62 complex traits

Malika Freund et al.May 7, 2020
+7
H
K
M
Although recent studies provide evidence for a common genetic basis between complex traits and Mendelian disorders, a thorough quantification of their overlap in a phenotype-specific manner remains elusive. Here, we quantify the overlap of genes identified through large-scale genome-wide association studies (GWAS) for 62 complex traits and diseases with genes known to cause 20 broad categories of Mendelian disorders. We identify a significant enrichment of phenotypically-matched Mendelian disorder genes in GWAS gene sets. Further, we observe elevated GWAS effect sizes near phenotypically-matched Mendelian disorder genes. Finally, we report examples of GWAS variants localized at the transcription start site or physically interacting with the promoters of phenotypically-matched Mendelian disorder genes. Our results are consistent with the hypothesis that genes that are disrupted in Mendelian disorders are dysregulated by noncoding variants in complex traits, and demonstrate how leveraging findings from related Mendelian disorders and functional genomic datasets can prioritize genes that are putatively dysregulated by local and distal non-coding GWAS variants.
7

Deep Learning-based Phenotype Imputation on Population-scale Biobank Data Increases Genetic Discoveries

Ulzee An et al.Oct 24, 2023
+10
M
A
U
Abstract Biobanks that collect deep phenotypic and genomic data across large numbers of individuals have emerged as a key resource for human genetic research. However, phenotypes acquired as part of Biobanks are often missing across many individuals, limiting the utility of these datasets. The ability to accurately impute or “fill-in” missing phenotypes is critical to harness the power of population-scale Biobank datasets. We propose AutoComplete, a deep learning-based imputation method which can accurately impute missing phenotypes in population-scale Biobank datasets. When applied to collections of phenotypes measured across ≈ 300K individuals from the UK Biobank, AutoComplete improved imputation accuracy over existing 2 methods (average improvement in r 2 of 18% for all phenotypes and 42% for binary phenotypes). We explored the utility of phenotype imputation for improving the power of genome-wide association studies (GWAS) by applying our method to a group of five clinically relevant traits with an average missigness rate of 83% (67% to 94%) leading to an an increase in effective sample size of ≈2-fold on average (0.5 to 3.3-fold across the phenotypes). GWAS on the resulting imputed phenotypes led to an increase in the total number of loci significantly associated to the traits from four to 129. Our results demonstrate the utility of deep-learning based imputation to increase power for genetic discoveries in existing biobank data sets.
Load More