DP
Dmitry Prokopenko
Author with expertise in Genomic Studies and Association Analyses
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
17
(65% Open Access)
Cited by:
21
h-index:
24
/
i10-index:
43
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

New genetic signals for lung function highlight pathways and pleiotropy, and chronic obstructive pulmonary disease associations across multiple ancestries

Nick Shrine et al.Jun 12, 2018
+110
Z
J
N
Abstract Reduced lung function predicts mortality and is key to the diagnosis of COPD. In a genome-wide association study in 400,102 individuals of European ancestry, we define 279 lung function signals, one-half of which are new. In combination these variants strongly predict COPD in deeply-phenotyped patient populations. Furthermore, the combined effect of these variants showed generalisability across smokers and never-smokers, and across ancestral groups. We highlight biological pathways, known and potential drug targets for COPD and, in phenome-wide association studies, autoimmune-related and other pleiotropic effects of lung function associated variants. This new genetic evidence has potential to improve future preventive and therapeutic strategies for COPD.
0
Citation9
0
Save
1

Single-cell multiregion dissection of Alzheimer’s disease

Hansruedi Mathys et al.Jul 24, 2024
+17
L
C
H
Abstract Alzheimer’s disease is the leading cause of dementia worldwide, but the cellular pathways that underlie its pathological progression across brain regions remain poorly understood 1–3 . Here we report a single-cell transcriptomic atlas of six different brain regions in the aged human brain, covering 1.3 million cells from 283 post-mortem human brain samples across 48 individuals with and without Alzheimer’s disease. We identify 76 cell types, including region-specific subtypes of astrocytes and excitatory neurons and an inhibitory interneuron population unique to the thalamus and distinct from canonical inhibitory subclasses. We identify vulnerable populations of excitatory and inhibitory neurons that are depleted in specific brain regions in Alzheimer’s disease, and provide evidence that the Reelin signalling pathway is involved in modulating the vulnerability of these neurons. We develop a scalable method for discovering gene modules, which we use to identify cell-type-specific and region-specific modules that are altered in Alzheimer’s disease and to annotate transcriptomic differences associated with diverse pathological variables. We identify an astrocyte program that is associated with cognitive resilience to Alzheimer’s disease pathology, tying choline metabolism and polyamine biosynthesis in astrocytes to preserved cognitive function late in life. Together, our study develops a regional atlas of the ageing human brain and provides insights into cellular vulnerability, response and resilience to Alzheimer’s disease pathology.
1
Citation7
0
Save
4

TMEM106B and CPOX are genetic determinants of cerebrospinal fluid Alzheimer’s disease biomarker levels

Shengjun Hong et al.Jun 1, 2020
+35
I
V
S
Abstract Background Neurofilament light (NF-L), chitinase-3-like protein 1 (YKL-40), and neurogranin (Ng) are utilized as biomarkers for Alzheimer’s disease (AD), to monitor axonal damage, astroglial activation, and synaptic degeneration, respectively. Here we performed genome-wide association study (GWAS) analyses using all three biomarkers as outcome. Methods DNA and cerebrospinal fluid (CSF) samples originated from the European Medical Information Framework AD Multimodal Biomarker Discovery (EMIF-AD MBD) study. Overlapping genotype/phenotype data were available for n=671 (NF-L), 677 (YKL-40), and 672 (Ng) individuals. GWAS analyses applied linear regression models adjusting for relevant covariates. Findings We identify novel genome-wide significant associations with markers in TMEM106B and CSF levels of NF-L. Additional novel signals were observed with DNA variants in CPOX and CSF levels of YKL-40. Lastly, we confirmed previous work suggesting that YKL-40 levels are regulated by cis protein quantitative trait loci (pQTL) in CHI3L1 . Interpretation Our study provides important new insights into the genetic architecture underlying inter-individual variation in all three tested AD-related CSF biomarkers. In particular, our data shed light on the sequence of events regarding the initiation and progression of neuropathological processes relevant in AD.
4
Citation2
0
Save
0

Reporting correct p-values in VEGAS analyses

Julian Hecker et al.Jan 17, 2017
+2
D
A
J
Abstract VEGAS (versatile gene-based association study) is a popular methodological framework to perform gene-based tests based on summary statistics from single-variant analyses. The approach incorporates linkage disequilibrium information from reference panels to account for the correlation of test statistics. The gene-based test can utilize three different types of tests. In 2015, the improved framework VEGAS2, using more detailed reference panels, was published. Both versions provide user-friendly web- and offline-based tools for the analysis. However, the implementation of the popular top-percentage test is erroneous in both versions. The p-values provided by VEGAS2 are deflated/anti-conservative. Based on real data examples, we demonstrate that this can increase substantially the rate of false positive findings and can lead to inconsistencies between different test options. We also provide code that allows the user of VEGAS to compute correct p-values.
0
Citation1
0
Save
0

Chronic Obstructive Pulmonary Disease Exacerbations Increase the Risk of Subsequent Cardiovascular Events: A Longitudinal Analysis of the COPDGene Study

Han‐Mo Yang et al.May 31, 2024
+83
V
M
H
Background Cardiovascular disease (CVD) is the most important comorbidity in patients with chronic obstructive pulmonary disease (COPD). COPD exacerbations not only contribute to COPD progression but may also elevate the risk of CVD. This study aimed to determine whether COPD exacerbations increase the risk of subsequent CVD events using up to 15 years of prospective longitudinal follow‐up data from the COPDGene (Genetic Epidemiology of Chronic Obstructive Pulmonary Disease) study. Methods and Results The COPDGene study is a large, multicenter, longitudinal investigation of COPD, including subjects at enrollment aged 45 to 80 years with a minimum of 10 pack‐years of smoking history. Cox proportional hazards models and Kaplan‐Meier survival curves were used to assess the risk of a composite end point of CVD based on the COPD exacerbation rate. Frequent exacerbators exhibited a higher cumulative incidence of composite CVD end points than infrequent exacerbators, irrespective of the presence of CVD at baseline. After adjusting for covariates, frequent exacerbators still maintained higher hazard ratios (HRs) than the infrequent exacerbator group (without CVD: HR, 1.81 [95% CI, 1.47–2.22]; with CVD: HR, 1.92 [95% CI, 1.51–2.44]). This observation remained consistently significant in moderate to severe COPD subjects and the preserved ratio impaired spirometry population. In the mild COPD population, frequent exacerbators showed a trend toward more CVD events. Conclusions COPD exacerbations are associated with an increased risk of subsequent cardiovascular events in subjects with and without preexisting CVD. Patients with COPD experiencing frequent exacerbations may necessitate careful monitoring and additional management for subsequent potential CVD. Registration URL: https://www.clinicaltrials.gov ; Unique identifier: NCT00608764.
0
Citation1
0
Save
0

Polygenic hazard score models for the prediction of Alzheimer’s free survival using the lasso for Cox’s proportional hazards model

Georg Hahn et al.Apr 22, 2024
+5
J
D
G
Abstract The prediction of the susceptibility of an individual to a certain disease is an important and timely research area. An established technique is to estimate the risk of an individual with the help of an integrated risk model, that is a polygenic risk score with added epidemiological covariates. However, integrated risk models do not capture any time dependence, and may provide a point estimate of the relative risk with respect to a reference population. The aim of this work is twofold. First, we explore and advocate the idea of predicting the time dependent hazard and survival (defined as disease free time) of an individual for the onset of a disease. This provides a practitioner with a much more differentiated view of the absolute survival as a function of time. Second, to compute the time dependent risk of an individual, we use published methodology to fit a Cox’s proportional hazard model to data from a genetic SNP study of time to Alzheimer’s disease (AD) onset, using the lasso to incorporate further epidemiological variables such as sex, APOE (apolipoprotein E, a genetic risk factor for AD) status, ten leading principal components, and selected genomic loci. We apply the lasso for Cox’s proportional hazards to a dataset of 6792 AD patients (composed of 4102 cases and 2690 controls) and 87 covariates. We demonstrate that fitting a lasso model for Cox’s proportional hazards allows one to obtain more accurate survival curves than with state-of-the-art (likelihood-based) methods. Moreover, the methodology allows one to obtain personalized survival curves for a patient, thus giving a much more differentiated view of the expected progression of a disease than the view offered by integrated risk models. The runtime to compute personalized survival curves is under a minute for the entire dataset of AD patients, thus enabling it to handle datasets with 60, 000 to 100, 000 subjects in less than one hour.
0
Paper
Citation1
0
Save
0

Estimating the effective sample size in association studies of quantitative traits

Andrey Ziyatdinov et al.Dec 16, 2019
+5
D
J
A
The effective sample size (ESS) is a quantity estimated in genome-wide association studies (GWAS) with related individuals and/or linear mixed models used in analysis. ESS originally measured relative power in family-based GWAS and has recently become important for correcting GWAS summary statistics in post-GWAS analyses. However, existing ESS approaches have been overlooked and based on empirical estimation. This work presents an analytical form of ESS in mixed-model GWAS of quantitative traits, which is derived using the expectation of quadratic form and validated in extensive simulations. We illustrate the performance and relevance of our ESS estimator in common GWAS scenarios and analytically show that (i) family-based studies are consistently underpowered compared to studies of unrelated individuals of the same sample size; (ii) conditioning on polygenic genetic effect by linear mixed models boosts power; and (iii) power of detecting gene-environment interaction can be substantially gained or lost in family-based designs depending on exposure distribution. We further analyze UK Biobank dataset in two samples of 336,347 unrelated and 68,910 related individuals. Analysis in unrelated individuals reveals a high accuracy of our ESS estimator compared to the existing empirical approach; and analysis of related individuals suggests that the loss in effective sample size due to relatedness is at most 0.94x. Overall, we provide an analytical form of ESS for guiding GWAS designs and processing summary statistics in post-GWAS analyses.
6

Unsupervised outlier detection applied to SARS-CoV-2 nucleotide sequences can identify sequences of common variants and other variants of interest

Georg Hahn et al.May 17, 2022
+10
D
S
G
Abstract As of June 2022, the GISAID database contains more than one million SARS-CoV-2 genomes, including several thousand nucleotide sequences for the most common variants such as delta or omicron. These SARS-CoV-2 strains have been collected from patients around the world since the beginning of the pandemic. We start by assessing the similarity of all pairs of nucleotide sequences using the Jaccard index and principal component analysis. As shown previously in the literature, an unsupervised cluster analysis applied to the SARS-CoV-2 genomes results in clusters of sequences according to certain characteristics such as their strain or their clade. Importantly, we observe that nucleotide sequences of common variants are often outliers in clusters of sequences stemming from variants identified earlier on during the pandemic. Motivated by this finding, we are interested in applying outlier detection to nucleotide sequences. We demonstrate that nucleotide sequences of common variants (such as alpha, delta, or omicron) can be identified solely based on a statistical outlier criterion. We argue that outlier detection might be a useful surveillance tool to identify emerging variants in real time as the pandemic progresses.
0

Genome-wide association study of Alzheimer's disease CSF biomarkers in the EMIF-AD Multimodal Biomarker Discovery dataset

Shengjun Hong et al.Sep 23, 2019
+43
O
G
S
Alzheimer's disease (AD) is the most prevalent neurodegenerative disorder and the most common form of dementia in the elderly. Susceptibility to AD is considerably determined by genetic factors which hitherto were primarily identified using case-control designs. Elucidating the genetic architecture of additional AD-related phenotypic traits, ideally those linked to the underlying disease process, holds great promise in gaining deeper insights into the genetic basis of AD and in developing better clinical prediction models. To this end, we generated genome-wide single-nucleotide polymorphism (SNP) genotyping data in 931 participants of the European Medical Information Framework Alzheimer's Disease Multimodal Biomarker Discovery (EMIF-AD MBD) sample to search for novel genetic determinants of AD biomarker variability. Specifically, we performed genome-wide association study (GWAS) analyses on 16 traits, including 14 measures of amyloid-beta (Aβ) and tau-protein species in the cerebrospinal fluid (CSF). In addition to confirming the well-established effects of apolipoprotein E (APOE) on diagnostic outcome and phenotypes related to Aβ42, we detected novel potential signals in the zinc finger homeobox 3 (ZFHX3) for CSF-Aβ38 and CSF-Aβ40 levels, and confirmed the previously described sex-specific association between SNPs in geminin coiled-coil domain containing (GMNC) and CSF-tau. Utilizing the results from independent case-control AD GWAS to construct polygenic risk scores (PRS) revealed that AD risk variants only explain a small fraction of CSF biomarker variability. In conclusion, our study represents a detailed first account of GWAS analyses on CSF-Aβ and -tau related traits in the EMIF-AD MBD dataset. In subsequent work, we will utilize the genomics data generated here in GWAS of other AD-relevant clinical outcomes ascertained in this unique dataset.
31

Fast computation of principal components of genomic similarity matrices

Georg Hahn et al.Oct 8, 2022
+5
J
S
G
Abstract The computation of a similarity measure for genomic data, for instance using the (genomic) covariance matrix, the Jaccard matrix, or the genomic relationship matrix (GRM), is a standard tool in computational genetics. The principal components of such matrices are routinely used to correct for biases in, for instance, linear regressions. However, the calculation of both a similarity matrix and its singular value decomposition (SVD) are computationally intensive. The contribution of this article is threefold. First, we demonstrate that the calculation of three matrices (the genomic covariance matrix, the weighted Jaccard matrix, and the genomic relationship matrix) can be reformulated in a unified way which allows for an exact, faster SVD computation. An exception is the Jaccard matrix, which does not have a structure applicable for the fast SVD computation. An exact algorithm is proposed to compute the principal components of the genomic covariance, weighted Jaccard, and genomic relationship matrices. The algorithm is adapted from an existing randomized SVD algorithm and ensures that all computations are carried out in sparse matrix algebra. Second, an approximate Jaccard matrix is introduced to which the fast SVD computation is applicable. Third, we establish guaranteed theoretical bounds on the distance (in L 2 norm and angle) between the principal components of the Jaccard matrix and the ones of our proposed approximation, thus putting the proposed Jaccard approximation on a solid mathematical foundation. We illustrate all computations on both simulated data and data of the 1000 Genome Project, showing that the approximation error is very low in practice.
Load More