PP
Päivi Pajukanta
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(63% Open Access)
Cited by:
2,780
h-index:
47
/
i10-index:
114
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Integrative approaches for large-scale transcriptome-wide association studies

Alexander Gusev et al.Feb 8, 2016
Alexander Gusev, Bogdan Pasaniuc and colleagues present a strategy that integrates gene expression measurements with summary statistics from large-scale genome-wide association studies to identify genes whose cis-regulated expression is associated with complex traits. They identify 69 new genes significantly associated with obesity-related traits and illustrate how this approach can provide insights into the genetic basis of complex traits. Many genetic variants influence complex traits by modulating gene expression, thus altering the abundance of one or multiple proteins. Here we introduce a powerful strategy that integrates gene expression measurements with summary association statistics from large-scale genome-wide association studies (GWAS) to identify genes whose cis-regulated expression is associated with complex traits. We leverage expression imputation from genetic data to perform a transcriptome-wide association study (TWAS) to identify significant expression-trait associations. We applied our approaches to expression data from blood and adipose tissue measured in ∼3,000 individuals overall. We imputed gene expression into GWAS data from over 900,000 phenotype measurements to identify 69 new genes significantly associated with obesity-related traits (BMI, lipids and height). Many of these genes are associated with relevant phenotypes in the Hybrid Mouse Diversity Panel. Our results showcase the power of integrating genotype, gene expression and phenotype to gain insights into the genetic basis of complex traits.
1
Citation1,875
0
Save
0

Familial combined hyperlipidemia is associated with upstream transcription factor 1 (USF1)

Päivi Pajukanta et al.Feb 29, 2004
Familial combined hyperlipidemia (FCHL), characterized by elevated levels of serum total cholesterol, triglycerides or both, is observed in about 20% of individuals with premature coronary heart disease. We previously identified a locus linked to FCHL on 1q21-q23 in Finnish families with the disease. This region has also been linked to FCHL in families from other populations as well as to type 2 diabetes mellitus. These clinical entities have several overlapping phenotypic features, raising the possibility that the same gene may underlie the obtained linkage results. Here, we show that the human gene encoding thioredoxin interacting protein (TXNIP) on 1q, which underlies combined hyperlipidemia in mice, is not associated with FCHL. We show that FCHL is linked and associated with the gene encoding upstream transcription factor 1 (USF1) in 60 extended families with FCHL, including 721 genotyped individuals (P = 0.00002), especially in males with high triglycerides (P = 0.0000009). Expression profiles in fat biopsy samples from individuals with FCHL seemed to differ depending on their carrier status for the associated USF1 haplotype. USF1 encodes a transcription factor known to regulate several genes of glucose and lipid metabolism.
0
Citation346
0
Save
0

Hyperglycemia and a Common Variant of GCKR Are Associated With the Levels of Eight Amino Acids in 9,369 Finnish Men

Alena Stančáková et al.May 3, 2012
We investigated the association of glycemia and 43 genetic risk variants for hyperglycemia/type 2 diabetes with amino acid levels in the population-based Metabolic Syndrome in Men (METSIM) Study, including 9,369 nondiabetic or newly diagnosed type 2 diabetic Finnish men. Plasma levels of eight amino acids were measured with proton nuclear magnetic resonance spectroscopy. Increasing fasting and 2-h plasma glucose levels were associated with increasing levels of several amino acids and decreasing levels of histidine and glutamine. Alanine, leucine, isoleucine, tyrosine, and glutamine predicted incident type 2 diabetes in a 4.7-year follow-up of the METSIM Study, and their effects were largely mediated by insulin resistance (except for glutamine). We also found significant correlations between insulin sensitivity (Matsuda insulin sensitivity index) and mRNA expression of genes regulating amino acid degradation in 200 subcutaneous adipose tissue samples. Only 1 of 43 risk single nucleotide polymorphisms for type 2 diabetes or hyperglycemia, the glucose-increasing major C allele of rs780094 of GCKR, was significantly associated with decreased levels of alanine and isoleucine and elevated levels of glutamine. In conclusion, the levels of branched-chain, aromatic amino acids and alanine increased and the levels of glutamine and histidine decreased with increasing glycemia, reflecting, at least in part, insulin resistance. Only one single nucleotide polymorphism regulating hyperglycemia was significantly associated with amino acid levels.
0
Citation246
0
Save
0

Accurate estimation of cell composition in bulk expression through robust integration of single-cell information

Brandon Jew et al.Jun 15, 2019
Abstract We present Bisque, a tool for estimating cell type proportions in bulk expression. Bisque implements a regression-based approach that utilizes single-cell RNA-seq (scRNA-seq) data to generate a reference expression profile and learn gene-specific bulk expression transformations to robustly decompose RNA-seq data. These transformations significantly improve decomposition performance compared to existing methods when there is significant technical variation in the generation of the reference profile and observed bulk expression. Importantly, compared to existing methods, our approach is extremely efficient, making it suitable for the analysis of large genomic datasets that are becoming ubiquitous. When applied to subcutaneous adipose and dorsolateral prefrontal cortex expression datasets with both bulk RNA-seq and single-nucleus RNA-seq (snRNA-seq) data, Bisque was able to replicate previously reported associations between cell type proportions and measured phenotypes across abundant and rare cell types. Bisque requires a single-cell reference dataset that reflects physiological cell type composition and can further leverage datasets that includes both bulk and single cell measurements over the same samples for improved accuracy. We further propose an additional mode of operation that merely requires a set of known marker genes. Bisque is available as an R package at: https://github.com/cozygene/bisque .
0
Citation20
0
Save
0

Enhancing droplet-based single-nucleus RNA-seq resolution using the semi-supervised machine learning classifier DIEM

Marcus Alvarez et al.Sep 30, 2019
Abstract Single-nucleus RNA sequencing (snRNA-seq) measures gene expression in individual nuclei instead of cells, allowing for unbiased cell type characterization in solid tissues. Contrary to single-cell RNA seq (scRNA-seq), we observe that snRNA-seq is commonly subject to contamination by high amounts of extranuclear background RNA, which can lead to identification of spurious cell types in downstream clustering analyses if overlooked. We present a novel approach to remove debris-contaminated droplets in snRNA-seq experiments, called Debris Identification using Expectation Maximization (DIEM). Our likelihood-based approach models the gene expression distribution of debris and cell types, which are estimated using EM. We evaluated DIEM using three snRNA-seq data sets: 1) human differentiating preadipocytes in vitro , 2) fresh mouse brain tissue, and 3) human frozen adipose tissue (AT) from six individuals. All three data sets showed various degrees of extranuclear RNA contamination. We observed that existing methods fail to account for contaminated droplets and led to spurious cell types. When compared to filtering using these state of the art methods, DIEM better removed droplets containing high levels of extranuclear RNA and led to higher quality clusters. Although DIEM was designed for snRNA-seq data, we also successfully applied DIEM to single-cell data. To conclude, our novel method DIEM removes debris-contaminated droplets from single-cell-based data fast and effectively, leading to cleaner downstream analysis. Our code is freely available for use at https://github.com/marcalva/diem .
0
Citation5
0
Save
0

Adipose tissue eQTL meta-analysis reveals the contribution of allelic heterogeneity to gene expression regulation and cardiometabolic traits

Sarah Brotman et al.Oct 27, 2023
Abstract Complete characterization of the genetic effects on gene expression is needed to elucidate tissue biology and the etiology of complex traits. Here, we analyzed 2,344 subcutaneous adipose tissue samples and identified 34K conditionally distinct expression quantitative trait locus (eQTL) signals in 18K genes. Over half of eQTL genes exhibited at least two eQTL signals. Compared to primary signals, non-primary signals had lower effect sizes, lower minor allele frequencies, and less promoter enrichment; they corresponded to genes with higher heritability and higher tolerance for loss of function. Colocalization of eQTL with conditionally distinct genome-wide association study signals for 28 cardiometabolic traits identified 3,605 eQTL signals for 1,861 genes. Inclusion of non-primary eQTL signals increased colocalized signals by 46%. Among 30 genes with ≥2 pairs of colocalized signals, 21 showed a mediating gene dosage effect on the trait. Thus, expanded eQTL identification reveals more mechanisms underlying complex traits and improves understanding of the complexity of gene expression regulation.
0
Citation2
0
Save
57

A multi-layer functional genomic analysis to understand noncoding genetic variation in lipids

Shweta Ramdas et al.Dec 8, 2021
Abstract A major challenge of genome-wide association studies (GWAS) is to translate phenotypic associations into biological insights. Here, we integrate a large GWAS on blood lipids involving 1.6 million individuals from five ancestries with a wide array of functional genomic datasets to discover regulatory mechanisms underlying lipid associations. We first prioritize lipid-associated genes with expression quantitative trait locus (eQTL) colocalizations, and then add chromatin interaction data to narrow the search for functional genes. Polygenic enrichment analysis across 697 annotations from a host of tissues and cell types confirms the central role of the liver in lipid levels, and highlights the selective enrichment of adipose-specific chromatin marks in high-density lipoprotein cholesterol and triglycerides. Overlapping transcription factor (TF) binding sites with lipid-associated loci identifies TFs relevant in lipid biology. In addition, we present an integrative framework to prioritize causal variants at GWAS loci, producing a comprehensive list of candidate causal genes and variants with multiple layers of functional evidence. Two prioritized genes, CREBRF and RRBP1 , show convergent evidence across functional datasets supporting their roles in lipid biology.
57
Citation1
0
Save
7

Deep Learning-based Phenotype Imputation on Population-scale Biobank Data Increases Genetic Discoveries

Ulzee An et al.Aug 15, 2022
Abstract Biobanks that collect deep phenotypic and genomic data across large numbers of individuals have emerged as a key resource for human genetic research. However, phenotypes acquired as part of Biobanks are often missing across many individuals, limiting the utility of these datasets. The ability to accurately impute or “fill-in” missing phenotypes is critical to harness the power of population-scale Biobank datasets. We propose AutoComplete, a deep learning-based imputation method which can accurately impute missing phenotypes in population-scale Biobank datasets. When applied to collections of phenotypes measured across ≈ 300K individuals from the UK Biobank, AutoComplete improved imputation accuracy over existing 2 methods (average improvement in r 2 of 18% for all phenotypes and 42% for binary phenotypes). We explored the utility of phenotype imputation for improving the power of genome-wide association studies (GWAS) by applying our method to a group of five clinically relevant traits with an average missigness rate of 83% (67% to 94%) leading to an an increase in effective sample size of ≈2-fold on average (0.5 to 3.3-fold across the phenotypes). GWAS on the resulting imputed phenotypes led to an increase in the total number of loci significantly associated to the traits from four to 129. Our results demonstrate the utility of deep-learning based imputation to increase power for genetic discoveries in existing biobank data sets.
Load More