MR
Manuel Rivas
Author with expertise in Genomic Studies and Association Analyses
Stanford University, Cornell University, Stanford Medicine
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
42
(26% Open Access)
Cited by:
33
h-index:
54
/
i10-index:
117
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

GWAS of three molecular traits highlights core genes and pathways alongside a highly polygenic background

Nasa Sinnott-Armstrong et al.May 6, 2020
J
M
S
N
Summary Genome-wide association studies (GWAS) have been used to study the genetic basis of a wide variety of complex diseases and other traits. We describe UK Biobank GWAS results for three molecular traits—urate, IGF-1, and testosterone—with better-understood biology than most other complex traits. We find that many of the most significant hits are readily and surprisingly interpretable. We observe huge enrichment of associations near genes involved in the relevant biosynthesis, transport, or signaling pathways. We show how GWAS data illuminate the biology of each trait, including differences in testosterone regulation between females and males. At the same time, even these molecular traits are highly polygenic, with many thousands of variants spread across the genome contributing to trait variance. In summary, for these three molecular traits we identify strong enrichment of signal in putative core gene sets, even while most of the SNP-based heritability is driven by a massively polygenic background.
0

Pervasive additive and non-additive effects within the HLA region contribute to disease risk in the UK Biobank

Guhan Venkataraman et al.May 28, 2024
+4
C
J
G
Abstract The human leukocyte antigen (HLA) region is one of the most disease-associated regions of the human genome, yet even well-studied alleles in the HLA region have unknown impact on disease. Here, we study the effect of 156 HLA alleles on 677 binary phenotypes for 337,138 individuals in the UK Biobank. We assess HLA allele associations and subsequently use Bayesian Model Averaging for conditional analysis, a) replicating 88 known associations between HLA alleles and binary disease phenotypes such as cancer, and b) discovering 90 novel associations to phenotypes such as skin and reproductive tract cancers and to other phenotypes not previously associated with the HLA region (e.g. anemias and acne). We find several non-additive effects, suggesting a more complex landscape of disease-modifying effects throughout the region. Finally, we discover associations between homozygous HLA allele burden and several cancer and other phenotypes, suggesting that peptide presentation spectra as coded for by the HLA region are important in determining disease risk. Our results demonstrate the HLA region’s complexity and richness while underscoring its clinical relevance.
20

Large-Scale Sparse Regression for Multiple Responses with Applications to UK Biobank

Junyang Qian et al.Oct 24, 2023
+3
R
Y
J
Abstract In high-dimensional regression problems, often a relatively small subset of the features are relevant for predicting the outcome, and methods that impose sparsity on the solution are popular. When multiple correlated outcomes are available (multitask), reduced rank regression is an effective way to borrow strength and capture latent structures that underlie the data. Our proposal is motivated by the UK Biobank population-based cohort study, where we are faced with large-scale, ultrahigh-dimensional features, and have access to a large number of outcomes (phenotypes): lifestyle measures, biomarkers, and disease outcomes. We are hence led to fit sparse reduced-rank regression models, using computational strategies that allow us to scale to problems of this size. We use an iterative algorithm that alternates between solving the sparse regression problem and solving the reduced rank decomposition. For the sparse regression component, we propose a scalable iterative algorithm based on adaptive screening that leverages the sparsity assumption and enables us to focus on solving much smaller sub-problems. The full solution is reconstructed and tested via an optimality condition to make sure it is a valid solution for the original problem. We further extend the method to cope with practical issues such as the inclusion of confounding variables and imputation of missing values among the phenotypes. Experiments on both synthetic data and the UK Biobank data demonstrate the effectiveness of the method and the algorithm. We present multiSnpnet package, available at http://github.com/junyangq/multiSnpnet that works on top of PLINK2 files, which we anticipate to be a valuable tool for generating polygenic risk scores from human genetic studies.
20
Paper
Citation4
0
Save
23

LPAandAPOEare associated with statin selection in the UK Biobank

Adam Lavertu et al.Oct 24, 2023
+2
Y
G
A
Abstract Genetics plays a key role in drug response, affecting efficacy and toxicity. Pharmacogenomics aims to understand how genetic variation influences drug response and develop clinical guidelines to aid clinicians in personalized treatment decisions informed by genetics. Although pharmacogenomics has not been broadly adopted into clinical practice, genetics influences treatment decisions regardless. Physicians adjust patient care based on observed response to medication, which may occur as a result of genetic variants harbored by the patient. Here we seek to understand the genetics of drug selection in statin therapy, a class of drugs widely used for high cholesterol treatment. Genetics are known to play an important role in statin efficacy and toxicity, leading to significant changes in patient outcome. We performed genome-wide association studies (GWAS) on statin selection among 59,198 participants in the UK Biobank and found that variants known to influence statin efficacy are significantly associated with statin selection. Specifically, we find that carriers of variants in APOE and LPA that are known to decrease efficacy of treatment are more likely to be on atorvastatin, a stronger statin. Additionally, carriers of the APOE and LPA variants are more likely to be on a higher intensity dose (a dose that reduces low-density lipoprotein cholesterol by greater than 40%) of atorvastatin than non-carriers ( APOE : p(high intensity) = 0.16, OR = 1.7, P = 1.64 × 10 −4 , LPA : p(high intensity) = 0.17, OR = 1.4, P = 1.14 × 10 −2 ). These findings represent the largest genetic association study of statin selection and statin dose association to date and provide evidence for the role of LPA and APOE in statin response, furthering the possibility of personalized statin therapy.
0

Survival Analysis on Rare Events Using Group-Regularized Multi-Response Cox Regression

Ruilin Li et al.Jun 6, 2024
+4
J
Y
R
Abstract We propose a Sparse-Group regularized Cox regression method to improve the prediction performance of large-scale and high-dimensional survival data with few observed events. Our approach is applicable when there is one or more other survival responses that 1. has a large number of observed events; 2. share a common set of associated predictors with the rare event response. This scenario is common in the UK Biobank (Sudlow et al. 2015) dataset where records for a large number of common and rare diseases of the same set of individuals are available. By analyzing these responses together, we hope to achieve higher prediction performance than when they are analyzed individually. To make this approach practical for large-scale data, we developed an accelerated proximal gradient optimization algorithm as well as a screening procedure inspired by Qian et al. (2019). We provide a software implementation of the proposed method and demonstrate its efficacy through simulations and applications to UK Biobank data.
0
Paper
Citation1
0
Save
23

Fast Numerical Optimization for Genome Sequencing Data in Population Biobanks

Ruilin Li et al.Oct 24, 2023
+4
Y
C
R
Abstract We develop two efficient solvers for optimization problems arising from large-scale regularized regressions on millions of genetic variants sequenced from hundreds of thousands of individuals. These genetic variants are encoded by the values in the set {0, 1, 2, NA }. We take advantage of this fact and use two bits to represent each entry in a genetic matrix, which reduces memory requirement by a factor of 32 compared to a double precision floating point representation. Using this representation, we implemented an iteratively reweighted least square algorithm to solve Lasso regressions on genetic matrices, which we name snpnet-2.0 . When the dataset contains many rare variants, the predictors can be encoded in a sparse matrix. We utilize the sparsity in the predictor matrix to further reduce memory requirement and computational speed. Our sparse genetic matrix implementation uses both the compact 2-bit representation and a simplified version of compressed sparse block format so that matrix-vector multiplications can be effectively parallelized on multiple CPU cores. To demonstrate the effectiveness of this representation, we implement an accelerated proximal gradient method to solve group Lasso on these sparse genetic matrices. This solver is named sparse-snpnet , and will also be included as part of snpnet R package. Our implementation is able to solve group Lasso problems on sparse genetic matrices with more than 1, 000, 000 columns and almost 100, 000 rows within 10 minutes and using less than 32GB of memory.
0

Landscape of X chromosome inactivation across human tissues

Taru Tukiainen et al.May 6, 2020
+17
A
A
T
X chromosome inactivation (XCI) silences the transcription from one of the two X chromosomes in mammalian female cells to balance expression dosage between XX females and XY males. XCI is, however, characteristically incomplete in humans: up to one third of X-chromosomal genes are expressed from both the active and inactive X chromosomes (Xa and Xi, respectively) in female cells, with the degree of "escape" from inactivation varying between genes and individuals1,2 (Fig. 1). However, the extent to which XCI is shared between cells and tissues remains poorly characterized3,4, as does the degree to which incomplete XCI manifests as detectable sex differences in gene expression5 and phenotypic traits6. Here we report a systematic survey of XCI using a combination of over 5,500 transcriptomes from 449 individuals spanning 29 tissues, and 940 single-cell transcriptomes, integrated with genomic sequence data (Fig. 1). By combining information across these data types we show that XCI at the 683 X-chromosomal genes assessed is generally uniform across human tissues, but identify examples of heterogeneity between tissues, individuals and cells. We show that incomplete XCI affects at least 23% of X-chromosomal genes, identify seven new escape genes supported by multiple lines of evidence, and demonstrate that escape from XCI results in sex biases in gene expression, thus establishing incomplete XCI as a likely mechanism introducing phenotypic diversity6,7. Overall, this updated catalogue of XCI across human tissues informs our understanding of the extent and impact of the incompleteness in the maintenance of XCI.
0

A Fast and Flexible Algorithm for Solving the Lasso in Large-scale and Ultrahigh-dimensional Problems

Junyang Qian et al.May 6, 2020
+5
W
Y
J
Since its first proposal in statistics, the lasso has been an effective method for simultaneous variable selection and estimation. A number of packages have been developed to solve the lasso efficiently. However as large datasets become more prevalent, many algorithms are constrained by efficiency or memory bounds. In this paper, we propose a meta algorithm batch screening iterative lasso (BASIL) that can take advantage of any existing lasso solver and build a scalable lasso solution for large datasets. We also introduce snpnet, an R package that implements the proposed algorithm on top of glmnet for large-scale single nucleotide polymorphism (SNP) datasets that are widely studied in genetics. We demonstrate results on a large genotype-phenotype dataset from the UK Biobank, where we achieve state-of-the-art heritability estimation on quantitative and qualitative traits including height, body mass index, asthma and high cholesterol.
0

Fast Lasso method for Large-scale and Ultrahigh-dimensional Cox Model with applications to UK Biobank

Ruilin Li et al.May 7, 2020
+5
J
C
R
We develop a scalable and highly efficient algorithm to fit a Cox proportional hazard model by maximizing the L1-regularized (Lasso) partial likelihood function, based on the Batch Screening Iterative Lasso (BASIL) method developed in (Qian et al. 2019). The output of our algorithm is the full Lasso path, the parameter estimates at all predefined regularization parameters, as well as their validation accuracy measured using the concordance index (C-index) or the validation deviance. To demonstrate the effectiveness of our algorithm, we analyze a large genotype-survival time dataset across 306 disease outcomes from the UK Biobank (Sudlow et al. 2015). Our approach, which we refer to as snpnet-Cox, is implemented in a publicly available package.
0

Significant shared heritability underlies suicide attempt and clinically predicted probability of attempting suicide

Douglas Ruderfer et al.May 7, 2020
+4
M
C
D
Suicide accounts for nearly 800,000 deaths per year worldwide with rates of both deaths and attempts rising. Family studies have estimated substantial heritability of suicidal behavior; however, collecting the sample sizes necessary for successful genetic studies has remained a challenge. We utilized two different approaches in independent datasets to characterize the contribution of common genetic variation to suicide attempt. The first is a patient reported suicide attempt phenotype from genotyped samples in the UK Biobank (337,199 participants, 2,433 cases). The second leveraged electronic health record (EHR) data from the Vanderbilt University Medical Center (VUMC, 2.8 million patients, 3,250 cases) and machine learning to derive probabilities of attempting suicide in 24,546 genotyped patients. We identified significant and comparable heritability estimates of suicide attempt from both the patient reported phenotype in the UK Biobank (h2SNP = 0.035, p = 7.12x10-4) and the clinically predicted phenotype from VUMC (h2SNP = 0.046, p = 1.51x10-2). A significant genetic overlap was demonstrated between the two measures of suicide attempt in these independent samples through polygenic risk score analysis (t = 4.02, p = 5.75x10-5) and genetic correlation (rg = 1.073, SE = 0.36, p = 0.003). Finally, we show significant but incomplete genetic correlation of suicide attempt with insomnia (rg = 0.34 - 0.81) as well as several psychiatric disorders (rg = 0.26 - 0.79). This work demonstrates the contribution of common genetic variation to suicide attempt. It points to a genetic underpinning to clinically predicted risk of attempting suicide that is similar to the genetic profile from a patient reported outcome. Lastly, it presents an approach for using EHR data and clinical prediction to generate quantitative measures from binary phenotypes that improved power for our genetic study.
Load More