TL
Thomas Lumley
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
11
(64% Open Access)
Cited by:
5,404
h-index:
46
/
i10-index:
105
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Time‐Dependent ROC Curves for Censored Survival Data and a Diagnostic Marker

Patrick Heagerty et al.Jun 1, 2000
ROC curves are a popular method for displaying sensitivity and specificity of a continuous diagnostic marker, X, for a binary disease variable, D. However, many disease outcomes are time dependent, D(t), and ROC curves that vary as a function of time may be more appropriate. A common example of a time-dependent variable is vital status, where D(t) = 1 if a patient has died prior to time t and zero otherwise. We propose summarizing the discrimination potential of a marker X, measured at baseline (t = 0), by calculating ROC curves for cumulative disease or death incidence by time t, which we denote as ROC(t). A typical complexity with survival data is that observations may be censored. Two ROC curve estimators are proposed that can accommodate censored data. A simple estimator is based on using the Kaplan-Meier estimator for each possible subset X > c. However, this estimator does not guarantee the necessary condition that sensitivity and specificity are monotone in X. An alternative estimator that does guarantee monotonicity is based on a nearest neighbor estimator for the bivariate distribution function of (X, T), where T represents survival time (Akritas, M. J., 1994, Annals of Statistics 22, 1299-1327). We present an example where ROC(t) is used to compare a standard and a modified flow cytometry measurement for predicting survival after detection of breast cancer and an example where the ROC(t) curve displays the impact of modifying eligibility criteria for sample size and power in HIV prevention trials.
0

Referent Selection in Case-Crossover Analyses of Acute Health Effects of Air Pollution

Drew Levy et al.Mar 1, 2001
The case-crossover design was proposed for the study of a transient effect of an intermittent exposure on the subsequent occurrence of a rare acute-onset disease. This design can be an alternative to Poisson time series regression for studying the health effects of fine particulate matter air pollution. Characteristics of time-series of particulate matter, including long-term time trends, seasonal trends, and short-term autocorrelations, require that referent selection in the case-crossover design be considered carefully and adapted to minimize bias. We performed simulations to evaluate the bias associated with various referent selection strategies for a proposed case-crossover study of associations between particulate matter and primary cardiac arrest. Some a priori reasonable strategies were associated with a relative bias as large as 10%, but for most strategies the relative bias was less than 2% with confidence interval coverage within 1% of the nominal level. We show that referent selection for case–crossover designs raises the same issues as selection of smoothing method for time series analyses. In addition, conditional logistic regression analysis is not strictly valid for some case–crossover designs, introducing further bias.
0
Citation454
0
Save
0

A Bayesian approach to multivariate and multilevel modelling with non-random missingness for hierarchical clinical proteomics data

Irene Zeng et al.Jun 21, 2017
Abstract High throughput mass-spectrometry-based proteomics data from clinical studies brings challenges to statistical analysis. The challenges originate from the hierarchical levels of protein abundance data and interactions between clinical study design and experimental design. The non-random missingness of the measurements from a vast amount of information also adds complexity in data analysis. We propose multivariate multilevel models to analyse protein abundances and to handle abundance-dependent missingness within a Bayesian framework. The proposed model enables the variance decomposition at different levels of the data hierarchy and provides shrinkage of protein-level estimates for a group of proteins. A logistic missingness and censored model with informative prior is used to handle incomplete data. Hamiltonian MC/No-U-Turn Sampling and Gibb MCMC algorithms are created to derive the posterior distribution of study parameters; Hamiltonian MC is demonstrated to gain more efficiency for these high-dimensional correlated data. Improvements of the proposed missing data model is compared to the univariate mixed effect model and the multivariate-multilevel model using complete data in a simulated study and a clinical proteomics study. The proposed model framework can be used in other types of data with similar structure and Non Random Missingness mechanism (MNAR).
30

Beyond consensus sequence: a quantitative scheme for inferring transmission using deep sequencing in a bacterial transmission model

Madikay Senghore et al.Oct 20, 2022
Abstract Genomic surveillance provides a data source complementary to contact tracing to resolve putative transmission chains. However, the role of within-host diversity in transmission is understudied due to a lack of experimental and clinical datasets that capture within-host diversity in both donors and recipients. Here, we assess the utility of deep-sequenced genomic surveillance within a mouse transmission model where the gastrointestinal pathogen Citrobacter rodentium was controllably spread during co-housing of infected and naïve animals. We observed that within-host variants were maintained over multiple transmission steps until fixation or elimination. We present a model for inferring the likelihood that a given pair of samples are linked by transmission, by comparing the allelic frequency at variant genomic loci . Our data affirm that within-host single nucleotide variants (iSNVs) can repeatedly pass from donor to recipient along the transmission chain, and the mere sharing of iSNVs between different transmission pairs offers limited confidence in identifying a transmission pair. Beyond the presence and absence of within-host variants, we show that differences arising in the relative abundance of iSNVs can infer transmission pairs with high precision. An important component of our approach is that the inference is based solely on sequence data, without incorporating epidemiological or demographic data for context. Our model, which substantially reduces the number of comparisons a contact tracer needs to consider, may enhance the accuracy of contact tracing and other epidemiological processes, including early detection of emerging transmission clusters.
0

FastSKAT: Sequence kernel association tests for very large sets of markers

Thomas Lumley et al.Nov 4, 2016
The Sequence Kernel Association Test (SKAT) is widely used to test for associations between a phenotype and a set of genetic variants, that are usually rare. Evaluating tail probabilities or quantiles of the null distribution for SKAT requires computing the eigenvalues of a matrix related to the genotype covariance between markers. Extracting the full set of eigenvalues of this matrix (an n x n matrix, for n subjects) has computational complexity proportional to n^3. As SKAT is often used when n>10^4, this step becomes a major bottleneck in its use in practice. We therefore propose fastSKAT, a new computationally-inexpensive but accurate approximations to the tail probabilities, in which the k largest eigenvalues of a weighted genotype covariance matrix or the largest singular values of a weighted genotype matrix are extracted, and a single term based on the Satterthwaite approximation is used for the remaining eigenvalues. While the method is not particularly sensitive to the choice of k, we also describe how to choose its value, and show how fastSKAT can automatically alert users to the rare cases where the choice may affect results. As well as providing faster implementation of SKAT, the new method also enables entirely new applications of SKAT, that were not possible before; we give examples grouping variants by topologically assisted domains, and comparing chromosome-wide association by class of histone marker.
0

A Comprehensive Evaluation of the Genetic Architecture of Sudden Cardiac Arrest

Foram Ashar et al.Dec 16, 2017
Background: Sudden cardiac arrest (SCA) accounts for 10% of adult mortality in Western populations. While several risk factors are observationally associated with SCA, the genetic architecture of SCA in the general population remains unknown. Furthermore, understanding which risk factors are causal may help target prevention strategies. Methods: We carried out a large genome-wide association study (GWAS) for SCA (n=3,939 cases, 25,989 non-cases) to examine common variation genome-wide and in candidate arrhythmia genes. We also exploited Mendelian randomization methods using cross-trait multi-variant genetic risk score associations (GRSA) to assess causal relationships of 18 risk factors with SCA. Results: No variants were associated with SCA at genome-wide significance, nor were common variants in candidate arrhythmia genes associated with SCA at nominal significance. Using cross-trait GRSA, we established genetic correlation between SCA and (1) coronary artery disease (CAD) and traditional CAD risk factors (blood pressure, lipids, and diabetes), (2) height and BMI, and (3) electrical instability traits (QT and atrial fibrillation), suggesting etiologic roles for these traits in SCA risk. Conclusions: Our findings show that a comprehensive approach to the genetic architecture of SCA can shed light on the determinants of a complex life-threatening condition with multiple influencing factors in the general population. The results of this genetic analysis, both positive and negative findings, have implications for evaluating the genetic architecture of patients with a family history of SCA, and for efforts to prevent SCA in high-risk populations and the general community.
Load More