VH
Virginia Hill
Author with expertise in Radiomics in Medical Imaging Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
1
h-index:
13
/
i10-index:
15
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Performance of GPT-4 on the American College of Radiology In-Service Examination

D. Payne et al.Feb 20, 2024
ABSTRACT Objectives No study has evaluated the ability of ChatGPT-4 to answer image-rich diagnostic radiology board exam questions or assessed for model drift in GPT-4’s image interpretation abilities. In our study we evaluate GPT-4’s performance on the American College of Radiology (ACR) 2022 Diagnostic Radiology In-Training Examination (DXIT). Methods Questions were sequentially input into GPT-4 with a standardized prompt. Each answer was recorded and overall accuracy was calculated, as was logic-adjusted accuracy, and accuracy on image-based questions. This experiment was repeated several months later to assess for model drift. Results GPT-4 achieved 58.5% overall accuracy, lower than the PGY-3 average (61.9%) but higher than the PGY-2 average (52.8%). Adjusted accuracy was 52.8%. GPT-4 showed significantly higher (p = 0.012) confidence for correct answers (87.1%) compared to incorrect (84.0%). Performance on image-based questions was notably poorer (p < 0.001) at 45.4% compared to text-only questions (80.0%), with adjusted accuracy for image questions of 36.4%. When the questions were repeated, GPT-4 chose a different answer 25.5% of the time and there was a small but insignificant decrease in accuracy. Discussion GPT-4 performed between PGY-2 and PGY-3 levels on the 2022 DXIT, but significantly poorer on image-based questions, and with large variability in answer choices across time points. This study underscores the potential and risks of using minimally-prompted general AI models in interpreting radiologic images as a diagnostic tool. Implementers of general AI radiology systems should exercise caution given the possibility of spurious yet confident responses.
0

DSAI-04 AI-DRIVEN MR IMAGE FEATURES VERSUS RANO-BM CRITERIA IN DISTINGUISHING RECURRENT BRAIN METASTASES FROM RADIATION TREATMENT EFFECT: A COMPARATIVE, MULTI-INSTITUTIONAL STUDY

Hyemin Um et al.Aug 1, 2024
Abstract A significant challenge in brain metastases (BM) management is distinguishing radiation-induced treatment effect (TE) from tumor recurrence (TR). TE mimics the appearance of TR on follow-up MRI, making radiographic diagnosis unreliable. The standardized Response Assessment in Neuro-Oncology for brain metastases (RANO-BM) is suboptimal due to high inter-reader variability. We compared the performance of artificial intelligence (AI)-driven MRI features with that of RANO-BM criteria in differentiating TE from TR. We hypothesize AI-features from routine MRI can capture the pathophysiologic differences between TE and TR, occult on structural MRI and hence overlooked in standard-of-care evaluation. A total of 261 lesions with pathologically-confirmed diagnoses in 189 patients were retrospectively analyzed. 201 lesions (111 TR,90 TE) from Cleveland Clinic and University Hospitals, Cleveland were used for training a machine learning model. 60 lesions (33 TR,27 TE) from University of Wisconsin–Madison were used for model testing. MRI (Gd-T1w, T2w, FLAIR) were preprocessed, and lesions were expertly segmented into enhancing lesion, edema, and necrosis. 856 texture features were extracted from each sub-compartment, and a random forest classifier was employed for 3-fold cross-validation. Top-performing features and RANO-BM criteria were evaluated on the test set. Results show T1 features from edema were most discriminatory in differentiating TR from TE (training-AUC=0.86, test-accuracy=71.7%, test-sensitivity=78.8%). Using RANO-BM, 9 cases were excluded due to lack of longitudinal imaging to estimate lesion growth. Additionally, since no lesions decreased in sum of longest diameter, none were classified as partial response while the remaining 51 cases were classified as stable disease (n=14, (8 TR,6 TE)) or TR (n=37, accuracy=54.1%). Interestingly, 78.6% of the stable lesions were accurately classified using our AI-model as TE or TR, missing only 3 cases (2 TR,1 TE). Our results suggest AI-driven models on clinical MRI scans may reliably distinguish TR from TE, demonstrating potential utility in clinical practice.
0

BIOM-54. AI-DRIVEN RISK-OF-PROGRESSION (AIRIP) CLASSIFIER FOR DISTINGUISHING RECURRENT BRAIN METASTASES FROM RADIATION TREATMENT EFFECT: A MULTI-INSTITUTIONAL COMPARATIVE STUDY WITH ADVANCED MULTIMODAL IMAGING

Hyemin Um et al.Nov 1, 2024
Abstract Following radiation therapy, a significant challenge in brain metastases (BM) management is differentiating radiation-induced-treatment effect (TrE) from tumor recurrence (TuR). TrE can be indistinguishable from TuR using conventional MRI. Advanced imaging techniques (e.g., perfusion MRI, PET/MRI) are not consistently used, and the standardized Response Assessment in Neuro-Oncology for brain metastases (RANO-BM) is sensitive to inter-reader variability. The performance of an artificial intelligence (AI)-driven risk-of-progression (AiRiP) classifier, which has been shown to capture pathophysiologic differences between TrE and TuR on routine MRI, was compared to that of clinical assessments and advanced imaging methods, in a multi-institutional setting. A total of n=261 lesions with pathologically-confirmed diagnoses in n=189 patients were analyzed. 115 lesions (73 TuR, 42 TrE) from site 1, 86 lesions (38 TuR, 48 TrE) from site 2, and 60 lesions (33 TuR, 27 TrE) from site 3 were used for training and testing the AiRiP-model. Gd-T1w, T2w, FLAIR MRI were preprocessed, and lesions were segmented by experts. Texture features (n=856) were extracted from each lesion. Random-forest classifier was employed for 3-fold cross-validation. Top-performing AiRiP-features, RANO-BM criteria, perfusion MRI and PET/MRI were evaluated in a sub-group analysis. For n=51 lesions on the test-set (site 3), 14 were classified as stable disease and 37 as TuR using RANO-BM (accuracy=54.1%). AiRiP-model achieved an accuracy of 76.5% on the same test-set and accurately classified 78.6% of the stable lesions as TrE or TuR. For another subset of lesions (n=27) on the same test-set, perfusion MRI and AiRiP-model achieved an accuracy of 59.3% and 70.4%, respectively. Lastly, for a subset of lesions (n=35) on the test-set (site 2), multimodal (perfusion, PET) imaging and AiRiP-model accurately classified 60% and 74.3% of lesions, respectively. 15 lesions were considered indeterminate via multimodal imaging, 73.3% of which AiRiP-model accurately classified as TrE or TuR. Our results suggest AI-driven models on conventional MRI may reliably distinguish TuR from TrE.