YT
Yakov Tsepilov
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
18
(44% Open Access)
Cited by:
17
h-index:
17
/
i10-index:
33
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Beyond power: Multivariate discovery, replication, and interpretation of pleiotropic loci using summary association statistics

Ning Zheng et al.Jul 8, 2015
Abstract The ever-growing genome-wide association studies (GWAS) have revealed widespread pleiotropy. To exploit this, various methods which consider variant association with multiple traits jointly have been developed. However, most effort has been put on improving discovery power: how to replicate and interpret these discovered pleiotropic loci using multivariate methods has yet to be discussed fully. Using only multiple publicly available single-trait GWAS summary statistics, we develop a fast and flexible multi-trait framework that contains modules for (i) multi-trait genetic discovery, (ii) replication of locus pleiotropic profile, and (iii) multi-trait conditional analysis. The procedure is able to handle any level of sample overlap. As an empirical example, we discovered and replicated 23 novel pleiotropic loci for human anthropometry and evaluated their pleiotropic effects on other traits. By applying conditional multivariate analysis on the 23 loci, we discovered and replicated two additional multi-trait associated SNPs. Our results provide empirical evidence that multi-trait analysis allows detection of additional, replicable, highly pleiotropic genetic associations without genotyping additional individuals. The methods are implemented in a free and open source R package MultiABEL. Author summary By analyzing large-scale genomic data, geneticists have revealed widespread pleiotropy, i.e. single genetic variation can affect a wide range of complex traits. Methods have been developed to discover such genetic variants. However, we still lack insights into the relevant genetic architecture - What more can we learn from knowing the effects of these genetic variants? Here, we develop a fast and flexible statistical analysis procedure that includes discovery, replication, and interpretation of pleiotropic effects. The whole analysis pipeline only requires established genetic association study results. We also provide the mathematical theory behind the pleiotropic genetic effects testing. Most importantly, we show how a replication study can be essential to reveal new biology rather than solely increasing sample size in current genomic studies. For instance, we show that, using our proposed replication strategy, we can detect the difference in genetic effects between studies of different geographical origins. We applied the method to the GIANT consortium anthropometric traits to discover new genetic associations, replicated in the UK Biobank, and provided important new insights into growth and obesity. Our pipeline is implemented in an open-source R package MultiABEL, sufficiently efficient that allows researchers to immediately apply on personal computers in minutes.
0
Citation9
0
Save
1

sumSTAAR: a flexible framework for gene-based association studies using GWAS summary statistics

Nadezhda Belonogova et al.Oct 26, 2021
ABSTRACT Gene-based association analysis is an effective gene mapping tool. Many gene-based methods have been proposed recently. However, their power depends on the underlying genetic architecture, which is rarely known in complex traits, and so it is likely that a combination of such methods could serve as a universal approach. Several frameworks combining different gene-based methods have been developed. However, they all imply a fixed set of methods, weights and functional annotations. Moreover, most of them use individual phenotypes and genotypes as input data. Here, we introduce sumSTAAR, a framework for gene-based association analysis using summary statistics obtained from genome-wide association studies (GWAS). It is an extended and modified version of STAAR framework proposed by Li and colleagues in 2020. The sumSTAAR framework offers a wider range of gene-based methods to combine. It allows the user to arbitrarily define a set of these methods, weighting functions and probabilities of genetic variants being causal. The methods used in the framework were adapted to analyse genes with large number of SNPs to decrease the running time. The framework includes the polygene pruning procedure to guard against the influence of the strong GWAS signals outside the gene. We also present new improved matrices of correlations between the genotypes of variants within genes. These matrices estimated on a sample of 265,000 individuals are a state-of-the-art replacement of widely used matrices based on the 1000 Genomes Project data. AUTHOR SUMMARY Gene-based association analysis is an effective gene mapping tool. Quite a few frameworks have been proposed recently for gene-based association analysis using a combination of different methods. However, all of these frameworks have at least one of the disadvantages: they use a fixed set of methods, they cannot use functional annotations, or they use individual phenotypes and genotypes as input data. To overcome these limitations, we propose sumSTAAR, a framework for gene-based association analysis using GWAS summary statistics. Our framework allows the user to arbitrarily define a set of the methods and functional annotations. Moreover, we adopted the methods for the analysis of genes with a large number of SNPs to decrease the running time. The framework includes the polygene pruning procedure to guard against the influence of the strong GWAS signals outside the gene. We also present new improved matrices of correlations between the genotypes of variants within genes, which now allows to include ultra-rare variants in analysis.
1
Citation1
0
Save
2

Gene-based association analysis identified 190 genes with polymorphisms affecting neuroticism

Nadezhda Belonogova et al.Aug 7, 2020
Abstract Recent genome-wide studies have reported about 600 genes potentially influencing neuroticism. Little is known about the mechanisms of their action. Here, we aimed to conduct a more detailed analysis of genes whose polymorphisms can regulate the level of neuroticism. Using UK Biobank-based GWAS summary statistics, we performed a gene-based association analysis using four sets of genetic variants within a gene differing in their protein coding properties. To guard against the influence of strong GWAS signals outside the gene, we used the specially designed procedure. As a result, we identified 190 genes associated with neuroticism due to their polymorphisms. Thirty eight of these genes were novel. Within all genes identified, we distinguished two slightly overlapping groups comprising genes that demonstrated association when using protein-coding and non-coding SNPs. Many genes from the first group included potentially pathogenic variants. For some genes from the second group, we found evidence of pleiotropy with gene expression. We demonstrated that the association of almost two hundred known genes could be inflated by the GWAS signals outside the gene. Using bioinformatics analysis, we prioritized the neuroticism genes and showed that the genes influencing the trait by their polymorphisms are the most appropriate candidate genes.
2
Citation1
0
Save
1

Genetically independent phenotype analysis identifies LPA and VCAM1 as drug targets for human ageing

Paul Timmers et al.Jan 23, 2021
Abstract The length and quality of life is important to us all, yet identification of promising drug targets for human ageing using genetics has had limited success. Here, we combine six large European-ancestry genome-wide association studies (GWAS) of human ageing traits—healthspan, father and mother lifespan, exceptional longevity, frailty index, and self-rated health—in a principal component framework that maximises their shared genetic architecture. The first principal component (GIP1) is more heritable than the original studies and shows strong genetic correlations with length of life as well as multiple indices of mental and physical wellbeing. We identify 27 genomic regions associated with GIP1, and provide additional, independent evidence for an effect on human ageing for loci near HTT and MAML3 using a study of Finnish and Japanese subject survival. Across the genome, GIP1 associations are enriched in genes involved in haem metabolism and pathways related to transcription, neurogenesis, homeostasis, proteolysis, intracellular signalling, immunity, and the muscle system. Finally, using proteome-wide two-sample Mendelian randomisation and colocalisation, we provide robust evidence for a detrimental effect of blood levels of apolipoprotein(a) (LPA) and vascular cell adhesion molecule 1 (VCAM1) on GIP1. Together, our results demonstrate that combining multiple ageing traits using genetic principal components enhances power to detect biological targets for human ageing.
1
Citation1
0
Save
0

The BLUP method in evaluation of breeding values of Russian spring wheat lines using micro- and macroelements in seeds

D. Afonnikov et al.Jul 11, 2024
Genomic selection is a technology that allows for the determination of the genetic value of varieties of agricultural plants and animal breeds, based on information about genotypes and phenotypes. The measured breeding value (BV) for varieties and breeds in relation to the target trait allows breeding stages to be thoroughly planned and the parent forms suitable for crossing to be chosen. In this work, the BLUP method was used to assess the breeding value of 149 Russian varieties and introgression lines (4 measurements for each variety or line, 596 phenotypic points) of spring wheat according to the content of seven chemical elements in the grain – K, Ca, Mg, Mn, Fe, Zn, Cu. The quality of the evaluation of breeding values was assessed using cross-validation, when the sample was randomly divided into five parts, one of which was chosen as a test population. The following average values of the Pearson correlation were obtained for predicting the concentration of trace elements: K – 0.67, Ca – 0.61, Mg – 0.4, Mn – 0.5, Fe – 0.38, Zn – 0.46, Cu – 0.48. Out of the 35 models studied, the p-value was below the nominal significant threshold (p-value < 0.05) for 28 models. For 11 models, the p-value was significant after correction for multiple testing (p-value < 0.001). For Ca and K, four out of five models and for Mn two out of five models had a p-value below the threshold adjusted for multiple testing. For 30 varieties that showed the best varietal values for Ca, K and Mn, the average breeding value was 296.43, 785.11 and 4.87 mg/kg higher, respectively, than the average breeding value of the population. The results obtained show the relevance of the application of genomic selection models even in such limited-size samples. The models for K, Ca and Mn are suitable for assessing the breeding value of Russian wheat varieties based on these characteristics.
0

Identification of 12 genetic loci associated with human healthspan

Aleksandr Zenin et al.Apr 16, 2018
The mounting challenge of preserving the quality of life in an aging population directs the focus of longevity science to the regulatory pathways controlling healthspan. To understand the nature of the relationship between the healthspan and lifespan and uncover the genetic architecture of the two phenotypes, we studied the incidence of major age-related diseases in the UK Biobank (UKB) cohort. We observed that the incidence rates of major chronic diseases increase exponentially. The risk of disease acquisition doubled approximately every eight years, i.e., at a rate compatible with the doubling time of the Gompertz mortality law. Assuming that aging is the single underlying factor behind the morbidity rates dynamics, we built a proportional hazards model to predict the risks of the diseases and therefore the age corresponding to the end of healthspan of an individual depending on their age, gender, and the genetic background. We suggested a computationally efficient procedure for the determination of the effect size and statistical significance of individual gene variants associations with healthspan in a form suitable for a Genome-Wide Association Studies (GWAS). Using the UKB sub-population of 300,447 genetically Caucasian, British individuals as a discovery cohort, we identified 12 loci associated with healthspan and reaching the whole-genome level of significance. We observed strong (|ρg| > 0.3) genetic correlations between healthspan and the incidence of specific age-related disease present in our healthspan definition (with the notable exception of dementia). Other examples included all-cause mortality (as derived from parental survival, with ρg = −0.76), life-history traits (metrics of obesity, age at first birth), levels of different metabolites (lipids, amino acids, glycemic traits), and psychological traits (smoking behaviour, cognitive performance, depressive symptoms, insomnia). We conclude by noting that the healthspan phenotype, suggested and characterized here, offers a promising new way to investigate human longevity by exploiting the data from genetic and clinical data on living individuals.
0

Genome-wide Meta-analysis of 158,000 Individuals of European Ancestry Identifies Three Loci Associated with Chronic Back Pain

Pradeep Suri et al.Jan 8, 2018
OBJECTIVES: To conduct a genome-wide association study (GWAS) meta-analysis of chronic back pain (CBP). METHODS: Adults of European ancestry were included from 16 cohorts in Europe and North America. CBP cases were defined as those reporting back pain present for >3-6 months; non-cases were included as comparisons ('controls'). Each cohort conducted genotyping using commercially available arrays followed by imputation. GWAS used logistic regression models with additive genetic effects, adjusting for age, sex, study-specific covariates, and population substructure. The threshold for genome-wide significance in the fixed-effect inverse-variance weighted meta-analysis was p<5x10-8. Suggestive (p<5x10-7) and genome-wide significant (p<5x10-8) variants were carried forward for replication or further investigation in an independent sample. RESULTS: The discovery sample was comprised of 158,025 individuals, including 29,531 CBP cases. A genome-wide significant association was found for the intronic variant rs12310519 in SOX5 (OR 1.08, p=7.2x10-10). This was subsequently replicated in an independent sample of 283,752 subjects, including 50,915 cases (OR 1.06, p=5.3x10-11), and exceeded genome-wide significance in joint meta-analysis (OR=1.07, p=4.5x10-19). We found suggestive associations at three other loci in the discovery sample, two of which exceeded genome-wide significance in joint meta-analysis: an intergenic variant, rs7833174, located between CCDC26 and GSDMC (OR 1.05, p=4.4x10-13), and an intronic variant, rs4384683, in DCC (OR 0.97, p=2.4x10-10). DISCUSSION: In this first reported meta-analysis of GWAS for CBP, we identified and replicated a genetic locus associated with CBP (SOX5). We also identified 2 other loci that reached genome-wide significance in a 2-stage joint meta-analysis (CCDC26/GSDMC and DCC).
0

Network based conditional genome wide association analysis of human metabolomics

Yakov Tsepilov et al.Dec 27, 2016
Background: Genome-wide association studies (GWAS) have identified hundreds of loci influencing complex human traits, however, their biological mechanism of action remains mostly unknown. Recent accumulation of functional genomics (‘omics’) including metabolomics data opens up opportunities to provide a new insight into the functional role of specific changes in the genome. Functional genomic data are characterized by high dimensionality, presence of (strong) statistical dependencies between traits, and, potentially, complex genetic control. Therefore, analysis of such data asks for development of specific statistical genetic methods. Results: We propose a network-based, conditional approach to evaluate the impact of genetic variants on omics phenotypes (conditional GWAS, cGWAS). For each trait of interest, based on biological network, we select a set of other traits to be used as covariates in GWAS. The network could be reconstructed either from biological pathway databases or directly from the data. We evaluated our approach using data from a population-based KORA study (n=1,784, 1.7 M SNPs) with measured metabolomics data (151 metabolites) and demonstrated that our approach allows for identification of up to five additional loci not detected by conventional GWAS. We show that this gain in power is achieved through increased precision of genetic effect estimates, and in presence of specific ‘contra-intuitive’ pleiotropic scenarios (when genetic and environmental sources of covariance are acting in opposite manner). We justify existence of such scenarios, and discuss possible applications of our method beyond metabolomics. Conclusions: We demonstrate that in context of metabolomics network-based, conditional genome-wide association analysis is able to dramatically increase power of identification of loci with specific ‘contra-intuitive’ pleiotropic architecture. Our method has modest computational costs, can utilize summary level GWAS data, and is applicable to other omics data types. We anticipate that application of our method to new and existing data sets will facilitate progress in understanding genetic bases of control of molecular and complex phenotypes.
Load More