NO
Nancy Obuchowski
Author with expertise in Radiomics in Medical Imaging Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(50% Open Access)
Cited by:
7,692
h-index:
76
/
i10-index:
266
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Assessing the Performance of Prediction Models

Ewout Steyerberg et al.Dec 9, 2009
The performance of prediction models can be assessed using a variety of methods and metrics. Traditional measures for binary and survival outcomes include the Brier score to indicate overall model performance, the concordance (or c) statistic for discriminative ability (or area under the receiver operating characteristic [ROC] curve), and goodness-of-fit statistics for calibration. Several new measures have recently been proposed that can be seen as refinements of discrimination measures, including variants of the c statistic for survival, reclassification tables, net reclassification improvement (NRI), and integrated discrimination improvement (IDI). Moreover, decision–analytic measures have been proposed, including decision curves to plot the net benefit achieved by making decisions based on model predictions. We aimed to define the role of these relatively novel approaches in the evaluation of the performance of prediction models. For illustration, we present a case study of predicting the presence of residual tumor versus benign tissue in patients with testicular cancer (n = 544 for model development, n = 273 for external validation). We suggest that reporting discrimination and calibration will always be important for a prediction model. Decision-analytic measures should be reported if the predictive model is to be used for clinical decisions. Other measures of performance may be warranted in specific applications, such as reclassification metrics to gain insight into the value of adding a novel predictor to an established model.
0

Nonparametric Analysis of Clustered ROC Curve Data

Nancy ObuchowskiJun 1, 1997
Current methods for estimating the accuracy of diagnostic tests require independence of the test results in the sample. However, cases in which there are multiple test results from the same patient are quite common. In such cases, estimation and inference of the accuracy of diagnostic tests must account for intracluster correlation. In the present paper, the structural components method of DeLong, DeLong, and Clarke-Pearson (1988, Biometrics 44, 837-844) is extended to the estimation of the Receiver Operating Characteristics (ROC) curve area for clustered data, incorporating the concepts of design effect and effective sample size used by Rao and Scott (1992, Biometrics 48, 577-585) for clustered binary data. Results of a Monte Carlo simulation study indicate that the size of statistical tests that assume independence is inflated in the presence of intracluster correlation. The proposed method, on the other hand, appropriately handles a wide variety of intracluster correlations, e.g., correlations between true disease statuses and between test results. In addition, the method can be applied to both continuous and ordinal test results. A strategy for estimating sample size requirements for future studies using clustered data is discussed.
0

Comparing Quantitative Imaging Biomarker Alliance Volumetric CT classifications with RECIST response categories

Binsheng Zhao et al.Jan 1, 2025
To assess agreement between CT volumetry change classifications derived from Quantitative Imaging Biomarker Alliance Profile cut-points (ie, QIBA CTvol classifications) and the Response Evaluation Criteria in Solid Tumors (RECIST) categories. Target lesions in lung, liver, and lymph nodes were randomly chosen from patients in 10 historical clinical trials for various cancers, ensuring a balanced representation of lesion types, diameter ranges described in the QIBA Profile, and variations in change magnitudes. Three radiologists independently segmented these lesions at baseline and follow-up scans using 2 software tools. Two types of predefined disagreements were assessed: Type I: substantive disagreement, where the disagreement between QIBA CTvol classifications and RECIST categories could not be attributed to the improved sensitivity of volumetry in detecting changes; and Type II: disagreement potentially arising from the improved sensitivity of volumetry in detecting changes. The proportion of lesions with disagreements between QIBA CTvol and RECIST, as well as the type of disagreements, was reported along with 95% CIs, both overall and within subgroups representing various factors. A total of 2390 measurements from 478 lesions (158 lungs, 170 livers, 150 lymph nodes) in 281 patients were included. QIBA CTvol agreed with RECIST in 66.6% of interpretations. Of the 33.4% of interpretations with discrepancies, substantive disagreement (Type I) occurred in only 1.5% (95% CI: [0.8%, 2.1%]). Factors such as scanner vendor (P = .584), segmentation tool (P = .331), and lesion type (P = .492) were not significant predictors of disagreement. Significantly more disagreements were observed for larger lesions (≥50 mm, as defined in the QIBA Profile). We conclude that QIBA CTvol classifications agree with RECIST categories.
0

Reproducible Intramuscular Fat Quantification using Vendor-Independent Processing in a Multi-Site, Multi-Vendor Setting

Brendan Eck et al.Nov 26, 2024
Motivation: Intramuscular fat is associated with muscle degeneration. Chemical shift-encoded MRI quantifies proton density fat fraction (PDFF), but multi-site, multi-vendor reproducibility for intramuscular assessment is scarcely reported. Goal(s): To evaluate the reproducibility of a vendor-independent thigh muscle PDFF quantification approach using multi-site, multi-vendor data and then assess PDFF in patients 10 years post-anterior cruciate ligament reconstruction (ACLR). Approach: Phantoms, traveling controls, and ACLR patients were scanned using five scanners (three sites, two vendors). A correction was developed to address image scaling variations. Results: Average absolute PDFF standard deviation was below 1% after correction. The ACLR patient cohort had elevated PDFF in operated leg hamstrings. Impact: Harmonized acquisition and vendor-independent processing with the proposed image scaling correction can provide reproducible thigh intramuscular proton density fat fraction across sites and vendors. This approach may characterize within-patient muscle changes, such as bilateral differences or potentially longitudinal assessment.