SL
Sharon Lutz
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(69% Open Access)
Cited by:
244
h-index:
39
/
i10-index:
90
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
6

A framework to efficiently smooth L1 penalties for linear regression

Georg Hahn et al.Sep 19, 2020
Abstract Penalized linear regression approaches that include an L 1 term have become an important tool in statistical data analysis. One prominent example is the least absolute shrinkage and selection operator (Lasso), though the class of L 1 penalized regression operators also includes the fused and graphical Lasso, the elastic net, etc. Although the L 1 penalty makes their objective function convex, it is not differentiable everywhere, motivating the development of proximal gradient algorithms such as Fista, the current gold standard in the literature. In this work, we take a different approach based on smoothing in a fixed parameter setting (the problem size n and number of parameters p are fixed). The methodological contribution of our article is threefold: (1) We introduce a unified framework to compute closed-form smooth surrogates of a whole class of L 1 penalized regression problems using Nesterov smoothing. The surrogates preserve the convexity of the original (unsmoothed) objective functions, are uniformly close to them, and have closed-form derivatives everywhere for efficient minimization via gradient descent; (2) We prove that the estimates obtained with the smooth surrogates can be made arbitrarily close to the ones of the original (unsmoothed) objective functions, and provide explicitly computable a priori error bounds on the accuracy of our estimates; (3) We propose an iterative algorithm to progressively smooth the L 1 penalty which increases accuracy and is virtually free of tuning parameters. The proposed methodology is applicable to a large class of L 1 penalized regression operators, including all the operators mentioned above. Although the resulting estimates are typically dense, sparseness can be enforced again via thresholding. Using simulation studies, we compare our framework to current gold standards such as Fista, glmnet, gLasso, etc. Our results suggest that our proposed smoothing framework provides predictions of equal or higher accuracy than the gold standards while keeping the aforementioned theoretical guarantees and having roughly the same asymptotic runtime scaling.
6
Citation5
0
Save
1

The influence of unmeasured confounding on the MR Steiger approach

Sharon Lutz et al.Nov 2, 2021
Abstract The Mendelian Randomization (MR) Steiger approach is used to determine the direction of a possible causal effect between two phenotypes [1]. For two phenotypes, denoted phenotype 1 and 2, the MR Steiger approach is composed of two parts: (1) MR is performed for a set of single nucleotide polymorphisms (SNPs) that serve as instrumental variables for phenotype 1 and (2) the difference of two correlations, the correlation between the SNPs and phenotype 1 and the correlation between the SNPs and phenotype 2, is calculated. These two parts are then used to determine the direction of a possible causal effect between the two phenotypes. The original MR Steiger paper [1] shows that unmeasured confounding of the two phenotypes affects the validity of the MR Steiger approach, but does not elucidate as to how this occurs. In particular, it was argued that if the magnitude of the observational variance explained between the two phenotypes is above 0.2, the MR Steiger method may return the incorrect causal direction due to unmeasured confounding. This may initially seem surprising since unmeasured confounding does not induce spurious associations between the SNP and phenotype 2, as we demonstrate using directed acyclic graphs. In this note, we show that this is because unmeasured confounding may rescale the magnitude of a non-zero association, and thereby distort the comparison of the correlation between the SNP and phenotype 2 and the correlation between the SNP and phenotype 1. We will end with a number of cautionary remarks on the MR Steiger method, which are partly motivated by this and mentioned in the original MR Steiger paper [1].
1
Citation1
0
Save
0

Polygenic hazard score models for the prediction of Alzheimer’s free survival using the lasso for Cox’s proportional hazards model

Georg Hahn et al.Apr 22, 2024
Abstract The prediction of the susceptibility of an individual to a certain disease is an important and timely research area. An established technique is to estimate the risk of an individual with the help of an integrated risk model, that is a polygenic risk score with added epidemiological covariates. However, integrated risk models do not capture any time dependence, and may provide a point estimate of the relative risk with respect to a reference population. The aim of this work is twofold. First, we explore and advocate the idea of predicting the time dependent hazard and survival (defined as disease free time) of an individual for the onset of a disease. This provides a practitioner with a much more differentiated view of the absolute survival as a function of time. Second, to compute the time dependent risk of an individual, we use published methodology to fit a Cox’s proportional hazard model to data from a genetic SNP study of time to Alzheimer’s disease (AD) onset, using the lasso to incorporate further epidemiological variables such as sex, APOE (apolipoprotein E, a genetic risk factor for AD) status, ten leading principal components, and selected genomic loci. We apply the lasso for Cox’s proportional hazards to a dataset of 6792 AD patients (composed of 4102 cases and 2690 controls) and 87 covariates. We demonstrate that fitting a lasso model for Cox’s proportional hazards allows one to obtain more accurate survival curves than with state-of-the-art (likelihood-based) methods. Moreover, the methodology allows one to obtain personalized survival curves for a patient, thus giving a much more differentiated view of the expected progression of a disease than the view offered by integrated risk models. The runtime to compute personalized survival curves is under a minute for the entire dataset of AD patients, thus enabling it to handle datasets with 60, 000 to 100, 000 subjects in less than one hour.
0
Paper
Citation1
0
Save
0

Chronic Obstructive Pulmonary Disease Exacerbations Increase the Risk of Subsequent Cardiovascular Events: A Longitudinal Analysis of the COPDGene Study

Han‐Mo Yang et al.May 31, 2024
Background Cardiovascular disease (CVD) is the most important comorbidity in patients with chronic obstructive pulmonary disease (COPD). COPD exacerbations not only contribute to COPD progression but may also elevate the risk of CVD. This study aimed to determine whether COPD exacerbations increase the risk of subsequent CVD events using up to 15 years of prospective longitudinal follow‐up data from the COPDGene (Genetic Epidemiology of Chronic Obstructive Pulmonary Disease) study. Methods and Results The COPDGene study is a large, multicenter, longitudinal investigation of COPD, including subjects at enrollment aged 45 to 80 years with a minimum of 10 pack‐years of smoking history. Cox proportional hazards models and Kaplan‐Meier survival curves were used to assess the risk of a composite end point of CVD based on the COPD exacerbation rate. Frequent exacerbators exhibited a higher cumulative incidence of composite CVD end points than infrequent exacerbators, irrespective of the presence of CVD at baseline. After adjusting for covariates, frequent exacerbators still maintained higher hazard ratios (HRs) than the infrequent exacerbator group (without CVD: HR, 1.81 [95% CI, 1.47–2.22]; with CVD: HR, 1.92 [95% CI, 1.51–2.44]). This observation remained consistently significant in moderate to severe COPD subjects and the preserved ratio impaired spirometry population. In the mild COPD population, frequent exacerbators showed a trend toward more CVD events. Conclusions COPD exacerbations are associated with an increased risk of subsequent cardiovascular events in subjects with and without preexisting CVD. Patients with COPD experiencing frequent exacerbations may necessitate careful monitoring and additional management for subsequent potential CVD. Registration URL: https://www.clinicaltrials.gov ; Unique identifier: NCT00608764.
0
Citation1
0
Save
0

Proper Conditional Analysis in the Presence of Missing Data Identified Novel Independently Associated Low Frequency Variants in Nicotine Dependence Genes

Bibo Jiang et al.Nov 21, 2017
Meta-analysis of genetic association studies increases sample size and the power for mapping complex traits. Existing methods are mostly developed for datasets without missing values. In practice, genotype imputation is not always effective, e.g. when targeted genotyping/sequencing assays are used or when the un-typed genetic variant is rare. Therefore, contributed summary statistics often contain missing values. Naive extensions of existing methods either replace missing summary statistics with 0 or discard studies with missing data. These approaches can bias genetic effect estimates and lead to seriously inflated type-I or II errors in conditional analysis, which is a critical tool for identifying independently associated variants. To address this challenge and complement imputation methods, we developed a method to combine summary statistics across participating studies and consistently estimate joint effects, even when the contributed summary statistics contain large amount of missing values. Based on this estimator, we propose a score statistic we call PCBS (partial correlation based score statistic) for conditional analysis of single-variant and gene-level associations. Through extensive analysis of simulated and real data, we showed that the new method produces well-calibrated type-I errors and is substantially more powerful than existing approaches. We applied the proposed approach to analyze the CHRNA5-CHRNB4-CHRNA3 locus in a large-scale meta-analysis for cigarettes-per-day. Using the new method, we identified three novel variants, independent of known association signals, which were otherwise missed by alternative methods. Together, the phenotypic variance explained by these variants is .46%, improving that of previously reported associations by 17%. These findings illustrate the extent of locus allelic heterogeneity and can help pinpoint causal variants.
21

Two mutations in the SARS-CoV-2 spike protein and RNA polymerase complex are associated with COVID-19 mortality risk

Georg Hahn et al.Nov 24, 2020
Abstract Background SARS-CoV-2 mortality has been extensively studied in relation to host susceptibility. How sequence variations in the SARS-CoV-2 genome affect pathogenicity is poorly understood. Whole-genome sequencing (WGS) of the virus with death in SARS-CoV-2 patients is one potential method of early identification of highly pathogenic strains to target for containment. Methods We analyzed 7,548 single stranded RNA-genomes of SARS-CoV-2 patients in the GISAID database (Elbe and Buckland-Merrett, 2017; Shu and McCauley, 2017) and associated variants with reported patient’s health status from COVID-19, i.e. deceased versus non-deceased. We probed each locus of the single stranded RNA of the SARS-CoV-2 virus for direct association with host/patient mortality using a logistic regression. Results In total, evaluating 29,891 loci of the viral genome for association with patient/host mortality, two loci, at 12,053bp and 25,088bp, achieved genome-wide significance (p-values of 4.09e-09 and 4.41e-23, respectively). Conclusions Mutations at 25,088bp occur in the S2 subunit of the SARS-CoV-2 spike protein, which plays a key role in viral entry of target host cells. Additionally, mutations at 12,053bp are within the ORF1ab gene, in a region encoding for the protein nsp7, which is necessary to form the RNA polymerase complex responsible for viral replication and transcription. Both mutations altered amino acid coding sequences, potentially imposing structural changes that could enhance viral infectivity and symptom severity, and may be important to consider as targets for therapeutic development. Identification of these highly significant associations, unlikely to occur by chance, may assist with COVID-19 early containment of strains that are potentially highly pathogenic.
31

Fast computation of principal components of genomic similarity matrices

Georg Hahn et al.Oct 8, 2022
Abstract The computation of a similarity measure for genomic data, for instance using the (genomic) covariance matrix, the Jaccard matrix, or the genomic relationship matrix (GRM), is a standard tool in computational genetics. The principal components of such matrices are routinely used to correct for biases in, for instance, linear regressions. However, the calculation of both a similarity matrix and its singular value decomposition (SVD) are computationally intensive. The contribution of this article is threefold. First, we demonstrate that the calculation of three matrices (the genomic covariance matrix, the weighted Jaccard matrix, and the genomic relationship matrix) can be reformulated in a unified way which allows for an exact, faster SVD computation. An exception is the Jaccard matrix, which does not have a structure applicable for the fast SVD computation. An exact algorithm is proposed to compute the principal components of the genomic covariance, weighted Jaccard, and genomic relationship matrices. The algorithm is adapted from an existing randomized SVD algorithm and ensures that all computations are carried out in sparse matrix algebra. Second, an approximate Jaccard matrix is introduced to which the fast SVD computation is applicable. Third, we establish guaranteed theoretical bounds on the distance (in L 2 norm and angle) between the principal components of the Jaccard matrix and the ones of our proposed approximation, thus putting the proposed Jaccard approximation on a solid mathematical foundation. We illustrate all computations on both simulated data and data of the 1000 Genome Project, showing that the approximation error is very low in practice.
1

A robust and adaptive framework for interaction testing in quantitative traits between multiple genetic loci and exposure variables

Julian Hecker et al.Dec 3, 2021
Abstract The identification and understanding of gene-environment interactions can provide insights into the pathways and mechanisms underlying complex diseases. However, testing for gene-environment interaction remains a challenge since statistical power is often limited, the specification of environmental effects is nontrivial, and such misspecifications can lead to false positive findings. To address the lack of statistical power, recent methods aim to identify interactions on an aggregated level using, for example, polygenic risk scores. While this strategy increases power to detect interactions, identifying contributing key genes and pathways is difficult based on these global results. Here, we propose RITSS (Robust Interaction Testing using Sample Splitting), a gene-environment interaction testing framework for quantitative traits that is based on sample splitting and robust test statistics. RITSS can incorporate multiple genetic variants and/or multiple environmental factors. Using sample splitting, a screening step enables the selection and combination of potential interactions into scores with improved interpretability, based on the user’s unrestricted choices for statistical/machine learning approaches. In the testing step, the application of robust test statistics minimizes the susceptibility of the results to main effect misspecifications. Using extensive simulation studies, we demonstrate that RITSS controls the type 1 error rate in a wide range of scenarios. In an application to lung function phenotypes and human height in the UK Biobank, RITSS identified genome-wide significant interactions with subcomponents of genetic risk scores. While the contributing single variant interactions are moderate, our analysis results indicate interesting interaction patterns that result in strong aggregated signals that provide further insights into gene-environment interaction mechanisms.
Load More