NS
Noah Simon
Author with expertise in Regularization and Variable Selection Methods
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(56% Open Access)
Cited by:
4,632
h-index:
31
/
i10-index:
55
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Strong Rules for Discarding Predictors in Lasso-Type Problems

Robert Tibshirani et al.Nov 3, 2011
We consider rules for discarding predictors in lasso regression and related problems, for computational efficiency. El Ghaoui and his colleagues have propose 'SAFE' rules, based on univariate inner products between each predictor and the outcome, which guarantee that a coefficient will be 0 in the solution vector. This provides a reduction in the number of variables that need to be entered into the optimization. We propose strong rules that are very simple and yet screen out far more predictors than the SAFE rules. This great practical improvement comes at a price: the strong rules are not foolproof and can mistakenly discard active predictors, i.e. predictors that have non-zero coefficients in the solution. We therefore combine them with simple checks of the Karush-Kuhn-Tucker conditions to ensure that the exact solution to the convex problem is delivered. Of course, any (approximate) screening method can be combined with the Karush-Kuhn-Tucker, conditions to ensure the exact solution; the strength of the strong rules lies in the fact that, in practice, they discard a very large number of the inactive predictors and almost never commit mistakes. We also derive conditions under which they are foolproof. Strong rules provide substantial savings in computational time for a variety of statistical optimization problems.
0
Paper
Citation596
0
Save
0

Combining genotypes and T cell receptor distributions to infer genetic loci determining V(D)J recombination probabilities

Magdalena Russell et al.Sep 20, 2021
Abstract Every T cell receptor (TCR) repertoire is shaped by a complex probabilistic tangle of genetically determined biases and immune exposures. T cells combine a random V(D)J recombination process with a selection process to generate highly diverse and functional TCRs. The extent to which an individual’s genetic background is associated with their resulting TCR repertoire diversity has yet to be fully explored. Using a previously published repertoire sequencing dataset paired with high-resolution genome-wide genotyping from a large human cohort, we infer specific genetic loci associated with V(D)J recombination probabilities using genome-wide association inference. We show that V(D)J gene usage profiles are associated with variation in the TCRB locus and, specifically for the functional TCR repertoire, variation in the major histocompatibility complex locus. Further, we identify specific variations in the genes encoding the Artemis protein and the TdT protein to be associated with biasing junctional nucleotide deletion and N-insertion, respectively. These results refine our understanding of genetically-determined TCR repertoire biases by confirming and extending previous studies on the genetic determinants of V(D)J gene usage and providing the first examples of trans genetic variants which are associated with modifying junctional diversity. Together, these insights lay the groundwork for further explorations into how immune responses vary between individuals.
0
Citation1
0
Save
0

Multidimensional analysis and detection of informative features in diffusion MRI measurements of human white matter

Adam Richie-Halford et al.Dec 20, 2019
The white matter contains long-range connections between different brain regions and the organization of these connections holds important implications for brain function in health and disease. Tractometry uses diffusion-weighted magnetic resonance imaging (dMRI) data to quantify tissue properties (e.g. fractional anisotropy (FA), mean diffusivity (MD), etc.), along the trajectories of these connections. Statistical inference from tractometry usually either (a) averages these quantities along the length of each bundle in each individual, or (b) performs analysis point-by-point along each bundle, with group comparisons or regression models computed separately for each point along every one of the bundles. These approaches are limited in their sensitivity, in the former case, or in their statistical power, in the latter. In the present work, we developed a method based on the sparse group lasso (SGL) that takes into account tissue properties measured along all of the bundles, and selects informative features by enforcing sparsity, not only at the level of individual bundles, but also across the entire set of bundles and all of the measured tissue properties. The sparsity penalties for each of these constraints is identified using a nested cross-validation scheme that guards against over-fitting and simultaneously identifies the correct level of sparsity. We demonstrate the accuracy of the method in two settings: i) In a classification setting, patients with amyotrophic lateral sclerosis (ALS) are accurately distinguished from matched controls. Furthermore, SGL automatically identifies FA in the corticospinal tract as important for this classification -- correctly finding the parts of the white matter known to be affected by the disease. ii) In a regression setting, dMRI is used to accurately predict "brain age." In this case, the weights are distributed throughout the white matter indicating that many different regions of the white matter change with development and contribute to the prediction of age. Thus, SGL makes it possible to leverage the multivariate relationship between diffusion properties measured along multiple bundles to make accurate predictions of subject characteristics while simultaneously discovering the most relevant features of the white matter for the characteristic of interest.
0

Predicting Out-of-Hospital Cardiac Arrest in the General Population Using Electronic Health Records

Jessica Perry et al.Jun 11, 2024
BACKGROUND: The majority of out-of-hospital cardiac arrests (OHCAs) occur among individuals in the general population, for whom there is no established strategy to identify risk. In this study, we assess the use of electronic health record (EHR) data to identify OHCA in the general population and define salient factors contributing to OHCA risk. METHODS: The analytical cohort included 2366 individuals with OHCA and 23 660 age- and sex-matched controls receiving health care at the University of Washington. Comorbidities, electrocardiographic measures, vital signs, and medication prescription were abstracted from the EHR. The primary outcome was OHCA. Secondary outcomes included shockable and nonshockable OHCA. Model performance including area under the receiver operating characteristic curve and positive predictive value were assessed and adjusted for observed rate of OHCA across the health system. RESULTS: There were significant differences in demographic characteristics, vital signs, electrocardiographic measures, comorbidities, and medication distribution between individuals with OHCA and controls. In external validation, discrimination in machine learning models (area under the receiver operating characteristic curve 0.80–0.85) was superior to a baseline model with conventional cardiovascular risk factors (area under the receiver operating characteristic curve 0.66). At a specificity threshold of 99%, correcting for baseline OHCA incidence across the health system, positive predictive value was 2.5% to 3.1% in machine learning models compared with 0.8% for the baseline model. Longer corrected QT interval, substance abuse disorder, fluid and electrolyte disorder, alcohol abuse, and higher heart rate were identified as salient predictors of OHCA risk across all machine learning models. Established cardiovascular risk factors retained predictive importance for shockable OHCA, but demographic characteristics (minority race, single marital status) and noncardiovascular comorbidities (substance abuse disorder) also contributed to risk prediction. For nonshockable OHCA, a range of salient predictors, including comorbidities, habits, vital signs, demographic characteristics, and electrocardiographic measures, were identified. CONCLUSIONS: In a population-based case–control study, machine learning models incorporating readily available EHR data showed reasonable discrimination and risk enrichment for OHCA in the general population. Salient factors associated with OCHA risk were myriad across the cardiovascular and noncardiovascular spectrum. Public health and tailored strategies for OHCA prediction and prevention will require incorporation of this complexity.
1

In VitroModulator Responsiveness of 655CFTRVariants Found in People With CF

Hermann Bihler et al.Jul 11, 2023
Abstract Background In 2017, the US Food and Drug Administration initiated expansion of drug labels for the treatment of cystic fibrosis (CF) to include CF transmembrane conductance regulator (CFTR) gene variants based on in vitro functional studies. This study aims to identify CFTR variants that result in increased chloride (Cl - ) transport function by the CFTR protein after treatment with the CFTR-modulator combination elexacaftor/tezacaftor/ivacaftor (ELX/TEZ/IVA). These data may benefit people with CF (pwCF) who are not currently eligible for modulator therapies. Methods Plasmid DNA encoding 655 CFTR variants and wild-type (WT) CFTR were transfected into Fisher Rat Thyroid cells that do not natively express CFTR. After 24 hours of incubation with control or TEZ and ELX, and acute addition of IVA, CFTR function was assessed using the transepithelial current clamp conductance assay. Each variant’s baseline activity, responsiveness to IVA alone, and responsiveness to the TEZ/ELX/IVA combination were measured in three different laboratories. Western blots were conducted to evaluate CFTR protein maturation and complement the functional data. Results and Conclusions 253 variants not currently approved for CFTR modulator therapy showed low baseline activity (<10% of normal CFTR Cl - transport activity). For 152 of these variants, treatment with ELX/TEZ/IVA improved the Cl - transport activity by ≥10% of normal CFTR function, which is suggestive of clinical benefit. ELX/TEZ/IVA increased CFTR function by ≥10 percentage points for an additional 140 unapproved variants with ≥10% but <50% of normal CFTR function at baseline. These findings significantly expand the number of rare CFTR variants for which ELX/TEZ/IVA treatment should result in clinical benefit.
Load More