LL
L. Lilli
Author with expertise in Biomedical Ontologies and Text Mining
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
3
(0% Open Access)
Cited by:
0
h-index:
4
/
i10-index:
3
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

AB1067 VALIDATION OF MACHINE LEARNING ALGORITHM TO CHARACTERIZE DISEASE COMPLEXITY AND FLARES IN SYSTEMIC LUPUS ERYTHEMATOSUS

Silvia Bosello et al.Jun 1, 2024

Background:

 Systemic Lupus Erythematosus (SLE) is a complex, relapsing-remitting disease, posing challenges in diagnosis and management. Traditional disease activity indices often fail to capture its dynamic nature, hindering effective therapy guidance. Leveraging Electronic Health Records (EHR) through data mining and machine learning offers a promising approach to understanding disease complexity and prognostic trajectories, specifically disease flares. 

Objectives:

 To validate a machine-learning methodology for identifying SLE phenotypes and flare trajectories in an outpatient setting. 

Methods:

 An observational retrospective monocenter study was performed using EHR of our Tertiary Care University Hospital. First, we developed a SLE Data Mart combining all HER sources. Then a machine learning algorithm, based on Natural Language Processing (NLP), was created to characterize disease complexity and flares of SLE pts in a primary cohort of adult SLE pts with at least one hospitalization. Further, we validated this algorithm in a second cohort of SLE pts followed only in outpatient setting (internal validation cohort). The inclusion criteria of the validation cohort were: 1) SLE diagnosis (according to ACR/EULAR 2019 criteria); 2) Age > 18; 3) No hospitalizations for SLE disease 4) at least 1 year follow-up, 5) at least 1.5 contacts/year in the period between January 2012 and December 2020; 6) at least one laboratory value available for the patient during follow-up. For each patient, clinical reports including demographics, anamnesis, clinical symptoms, laboratory values, medication orders and therapy, were extracted from the Data Mart, through the NLP pipeline: 1) presence of 8 different SLE clinical domains (hematological, muco-cutaneous, articular, renal, systemic, neurologic, vascular involvement and serositis); 2) disease complexity based on the combination of the involvement of single or multiple organ domains, as well as therapy escalation (low, medium, high); 3) disease flares. Baseline and longitudinal descriptive analyses were performed using median and interquartile values for numerical values and percentage for categorical ones. A p-value<0.05 was considered as significant 

Results:

 A total of 255 SLE pts with at least one hospitalization were identified in our EHR and considered as primary cohort, while 91 SLE pts were included in the internal validation cohort. The 2 cohorts were comparable for age, sex and disease duration. The median number of clinical domains involved at baseline was higher in the primary cohort [4 (2.5-5)] than in the validation cohort [2 (1, 2.5)], (<0.01); Differences in clinical phenotype were confirmed in the longitudinal analysis, in which the median number of clinical domains involved was higher in the primary cohort [5 (4-6)] compared to the validation cohort [4 (3-4)],(p<0.01). At baseline, SLE complexity was categorized as low, medium and high (13.7%, 34.5% and 51.8% in the primary cohort and 47.3%, 35.2% and 17.6% in the validation cohort, respectively, p_low < 0.01, pmedium > 0.01, p_high < 0.01). The more complex SLE phenotype (i.e. higher number of domains involved) observed in the primary cohort was also confirmed by the higher number of flares [5.0 (2.0-9.0 vs 3 (1-5)], and therefore the higher number of clinical contacts (17.0 (11.0-25.5) vs 12 [6-19.5]), respectively (p<0.01 for both comparisons). Median number of flares significantly increased with disease complexity in the primary cohort [(3.5 (2.0-6.0), 4.0 (2.0-8.0), 6 (3.0-9.2), p<0.05], while they were comparable in the validation cohort [3 (1.0-5.0), 3 (1.0-5.0), 3 (1.0-6.0)]. In addition, the use of steroids was higher in the primary cohort (78.6%), as compared to the validation cohort (52.7%), as well as conventional immunosuppressive treatment intake (73.2% vs 45%) and biologic treatment (29.0% vs 9.8%) (p<0.00001 for all comparisons). The percentage of pts treated with antimalarial was comparable (79.8 vs 87.5%, p=ns). 

Conclusion:

 The machine learning algorithm effectively describes SLE heterogeneity, enabling the characterization of clinical phenotypes and longitudinal trajectories based on clinical complexity. 

REFERENCES:

 NIL. 

Acknowledgements:

 This project received financial support from AstraZeneca. 

Disclosure of Interests:

 Silvia Laura Bosello: None declared, Livia Lilli: None declared, Carlotta Masciocchi: None declared, Laura Antenucci: None declared, Jacopo Lenkowicz: None declared, Augusta Ortolan: None declared, Pier Giacomo Cerasuolo: None declared, Lucia Lanzo: None declared, Silvia Piunno: None declared, Gabriella Castellino Astrazeneca, Marco Gorini Astrazeneca, Stefano Patarnello: None declared, Maria Antonietta D'Agostino: None declared.
0

POS1142 DEVELOPMENT AND VALIDATION OF A RULE-BASED FRAMEWORK FOR AUTOMATED IDENTIFICATION OF LONGITUDINAL CLINICAL FEATURES ABOUT SYSTEMIC LUPUS ERYTHEMATOSUS PATIENTS FROM ELECTRONIC HEALTH RECORDS

Augusta Ortolan et al.Jun 1, 2024

Background:

 Electronic Health Records (EHRs) contain a wealth of patient data, but they are often unstructured and difficult to analyze. Artificial Intelligence (AI) and its application Natural Language Processing (NLP, which is able to interpret and generate human language) can be helpful to extract longitudinal information on the disease course, especially in complex chronic diseases such as Systemic Lupus Erythematosus (SLE). 

Objectives:

 Our aim was to develop an integrated approach that combines clinical knowledge and advanced data science techniques (specifically, automated rule-based system and NLP) to characterize SLE patients in terms of involved disease domains, current symptoms, therapies and disease activity 

Methods:

 A standardized, replicable methodology was created, using data from a training set (development cohort) to extract relevant SLE features. The framework combined both AI-based steps with human intelligence (HI). A stepwise sequence was followed (1 and 4 HI-based; 2,3, and 5 AI-based): 1) ontology definition, that specifies relevant SLE attributes that characterize patient status at time of visit. Namely, we decided to extract: a) disease domains (hematological, cutaneous, articular, kidney, serositic, systemic, neurological, vascular involvement); b) current symptoms; c) therapies; d) disease activity expressed as SLEDAI-2K. 2) creation of a structured body of knowledge, where EHRs are selected and preprocessed using segmentation and tagging techniques 3) extraction of information specified in step 1 by an automated NLP algorithm, able to identify from EHRs, for each patient's contact, the lupic attributes previously defined 4) development of a rule-based framework determining how the SLE attributes, biomarkers and patient's history are combined to characterize the disease domains (Figure 1) and disease activity 5) implementation of the rule based-framework to classify for each patient's contact in terms of lupic attributes Finally, the clinical records of 56 patients (excluded from HERs used to develop the algorithm, validation cohort) were examined by a group of physicians who manually extracted SLE attributes. Thereafter, the information was compared with the one extracted by the NLP algorithm: accuracy of algorithm was tested against the gold standard (manual extraction further revised by a second team of expert clinicians). Furthermore, distribution of SLEDAI-2K extracted with the algorithm (proxy SLEDAI) was compared to the SLEDAI-2K manually annotated by physicians (manual SLEDAI). 

Results:

 The framework was applied to a cohort of 262 SLE patients, with a median of 18 (11- 28) contacts, in a temporal window of 7 (4-10) years, for a total of 4567 EHRs. In the 56 patients of the validation cohort (n contacts 12.5, 10-17), the most frequently reported involved disease domains were articular (59%), cutaneous (62%), hematological (60%), neurological (20%), kidney (34%), serositic (20%), systemic (16%) and vascular (30%) involvement. Among symptoms, the most frequent were arthromyalgia (78%) and erythema (64%). Antimalarials, traditional immunosuppressant and biologics were used by 79%, 75% and 27% of the patients. These percentages reflected plausible values for an SLE population and this was considered as proof of face validity. Accuracy [n of true positives and negatives/all observations] for the NLP algorithm to extract data was in the range of 99-100% for disease domains, 97-99 % for symptoms, and 93-98% for therapies. Variance distribution of SLEDAI and proxy SLEDAI was not significantly different (Levene's test 1.58, p=0.21) (Figure 2). When looking at the effort required to extract data from EHRs, the mean time to extract the lupic features from EHRs through the framework was in the range of 10 mins for a cohort of 262 patients, to be compared with an effort of 2 hours per patients through HI. 

Conclusion:

 The proposed framework integrates domain expertise and AI-based techniques to deliver a validated longitudinal phenotype characterization for each SLE patients. The application of this technique to elaborate real-life SLE data seems promising and feasible, with a relevant spare of human effort. 

REFERENCES:

 NIL. 

Acknowledgements:

 This work was funded by AstraZeneca 

Disclosure of Interests:

 Augusta Ortolan Janssen, Novartis, Abbvie, UCB Pharma, Livia Lilli: None declared, Silvia Laura Bosello: None declared, Laura Antenucci: None declared, Carlotta Masciocchi: None declared, Jacopo Lenkowicz: None declared, Piergiacomo Cerasuolo: None declared, Lucia Lanzo: None declared, Silvia Piunno: None declared, Gabriella Castellino AstraZeneca, Marco Gorini Astrazeneca, Stefano Patarnello: None declared, Maria Antonietta D' Agostino Novartis, BMS, Janssen,Pfizer, Amgen, Galapagos, AbbVie, UCB, and Eli Lilly