SW
Sophie Williams
Author with expertise in Diagnosis and Treatment of Lung Cancer
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
3
(67% Open Access)
Cited by:
2
h-index:
9
/
i10-index:
8
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

AI-based approach to enable proactive identification of early lung cancer: A retrospective population health study and economic model.

William Ricketts et al.Jun 1, 2024
10536 Background: Approximately 48,500 new cases of lung cancer are diagnosed each year in the UK with a five-year survival rate which lags behind other European countries. Most patients are diagnosed at stage III or IV disease, which has a significantly worse prognosis. The integration of real-world data and AI techniques presents a promising avenue for improvement, using novel solutions not achievable through traditional care models. This study explores proactive patient identification at scale, aligning with the "left shift" paradigm in population health. The approach uses innovative technologies and novel data sources to identify patients with early-stage disease, enhancing both clinical and economic outcomes. Importantly, these interventions should be feasible on a large scale without overburdening already stretched clinical services. Methods: A retrospective study of real-world data for an urban population with high socioeconomic disadvantage and health needs was undertaken. Two endpoints were determined: detection potential and health economic impact. For detection potential (DP), patients aged 40 and above who underwent chest X-rays (CXR) at a large academic medical centre between 2016-2022 were included. Natural Language Processing (NLP) analysed unstructured free-text data from Electronic Health Records, combined with ICD-10 codes, for predictive model (PM) development using Machine Learning (ML) classification techniques. The PM's performance was assessed using the area under the receiver operating characteristic curve (AUCROC). Health economic impact was evaluated through a theoretical extrapolation of DP. Assuming a 9% left shift from late (stage III or IV) to early (stage I or II) disease, a health economic model (HEM) compared the impact of the current care model to a potential future state facilitated by the digital medicine care model (DMCM). Results: 75,342 patients were included, with 755 lung cancer diagnoses occurring within 6 months of CXR. The PM achieved a peak AUROC of 0.75, exceeding the performance of currently used risk prediction models (Q Cancer Risk, Risk Assessment Tools). A 9% left shift equated to 4.5 years mean increase in survival. The DMCM was associated with a net healthcare cost benefit of £6k per patient diagnosed with lung cancer, improved quality-adjusted life years of £21M for the year 1 cohort over 10 years and increased economic productivity (from additional years in workforce) of £2.4M. Conclusions: The study demonstrates the practical utility of AI-supported early lung cancer detection at population scale. Real-world evidence is needed to prospectively validate the model as cost-effective, scalable, and efficient. Future work will seek to improve the model's performance against a broader at-risk patient population and explore its applicability to other late-presenting tumours.
0
Citation1
0
Save
0

Automated derivation of diagnostic criteria for lung cancer using natural language processing on electronic health records: a pilot study

Andrew Houston et al.Dec 4, 2024
The digitisation of healthcare records has generated vast amounts of unstructured data, presenting opportunities for improvements in disease diagnosis when clinical coding falls short, such as in the recording of patient symptoms. This study presents an approach using natural language processing to extract clinical concepts from free-text which are used to automatically form diagnostic criteria for lung cancer from unstructured secondary-care data. Patients aged 40 and above who underwent a chest x-ray (CXR) between 2016 and 2022 were included. ICD-10 and unstructured data were pulled from their electronic health records (EHRs) over the preceding 12 months to the CXR. The unstructured data were processed using named entity recognition to extract symptoms, which were mapped to SNOMED-CT codes. Subsumption of features up the SNOMED-CT hierarchy was used to mitigate against sparse features and a frequency-based criteria, combined with univariate logarithmic probabilities, was applied to select candidate features to take forward to the model development phase. A genetic algorithm was employed to identify the most discriminating features to form the diagnostic criteria. 75002 patients were included, with 1012 lung cancer diagnoses made within 12 months of the CXR. The best-performing model achieved an AUROC of 0.72. Results showed that an existing 'disorder of the lung', such as pneumonia, and a 'cough' increased the probability of a lung cancer diagnosis. 'Anomalies of great vessel', 'disorder of the retroperitoneal compartment' and 'context-dependent findings', such as pain, statistically reduced the risk of lung cancer, making other diagnoses more likely. The performance of the developed model was compared to the existing cancer risk scores, demonstrating superior performance. The proposed methods demonstrated success in leveraging unstructured secondary-care data to derive diagnostic criteria for lung cancer, outperforming existing risk tools. These advancements show potential for enhancing patient care and results. However, it is essential to tackle specific limitations by integrating primary care data to ensure a more thorough and unbiased development of diagnostic criteria. Moreover, the study highlights the importance of contextualising SNOMED-CT concepts into meaningful terminology that resonates with clinicians, facilitating a clearer and more tangible understanding of the criteria applied.