VC
Víctor Castro
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(22% Open Access)
Cited by:
576
h-index:
46
/
i10-index:
95
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Predicting Suicidal Behavior From Longitudinal Electronic Health Records

Yuval Barak–Corren et al.Sep 9, 2016
Objective: The purpose of this article was to determine whether longitudinal historical data, commonly available in electronic health record (EHR) systems, can be used to predict patients’ future risk of suicidal behavior. Method: Bayesian models were developed using a retrospective cohort approach. EHR data from a large health care database spanning 15 years (1998–2012) of inpatient and outpatient visits were used to predict future documented suicidal behavior (i.e., suicide attempt or death). Patients with three or more visits (N=1,728,549) were included. ICD-9-based case definition for suicidal behavior was derived by expert clinician consensus review of 2,700 narrative EHR notes (from 520 patients), supplemented by state death certificates. Model performance was evaluated retrospectively using an independent testing set. Results: Among the study population, 1.2% (N=20,246) met the case definition for suicidal behavior. The model achieved sensitive (33%–45% sensitivity), specific (90%−95% specificity), and early (3–4 years in advance on average) prediction of patients’ future suicidal behavior. The strongest predictors identified by the model included both well-known (e.g., substance abuse and psychiatric disorders) and less conventional (e.g., certain injuries and chronic conditions) risk factors, indicating that a data-driven approach can yield more comprehensive risk profiles. Conclusions: Longitudinal EHR data, commonly available in clinical settings, can be useful for predicting future risk of suicidal behavior. This modeling approach could serve as an early warning system to help clinicians identify high-risk patients for further screening. By analyzing the full phenotypic breadth of the EHR, computerized risk screening approaches may enhance prediction beyond what is feasible for individual clinicians.
0

QT interval and antidepressant use: a cross sectional study of electronic health records

Víctor Castro et al.Jan 29, 2013
Objective To quantify the impact of citalopram and other selective serotonin reuptake inhibitors on corrected QT interval (QTc), a marker of risk for ventricular arrhythmia, in a large and diverse clinical population. Design A cross sectional study using electrocardiographic, prescribing, and clinical data from electronic health records to explore the relation between antidepressant dose and QTc. Methadone, an opioid known to prolong QT, was included to demonstrate assay sensitivity. Setting A large New England healthcare system comprising two academic medical centres and outpatient clinics. Participants 38 397 adult patients with an electrocardiogram recorded after prescription of antidepressant or methadone between February 1990 and August 2011. Main outcome measures Relation between antidepressant dose and QTc interval in linear regression, adjusting for potential clinical and demographic confounding variables. For a subset of patients, change in QTc after drug dose was also examined. Results Dose-response association with QTc prolongation was identified for citalopram (adjusted beta 0.10 (SE 0.04), P<0.01), escitalopram (adjusted beta 0.58 (0.15), P<0.001), and amitriptyline (adjusted beta 0.11 (0.03), P<0.001), but not for other antidepressants examined. An association with QTc shortening was identified for bupropion (adjusted beta 0.02 (0.01) P<0.05). Within-subject paired observations supported the QTc prolonging effect of citalopram (10 mg to 20 mg, mean QTc increase 7.8 (SE 3.6) ms, adjusted P<0.05; and 20 mg to 40 mg, mean QTc increase 10.3 (4.0) ms, adjusted P<0.01). Conclusions This study confirmed a modest prolongation of QT interval with citalopram, and identified additional antidepressants with similar observed risk. Pharmacovigilance studies using electronic health record data may be a useful method of identifying potential risk associated with treatments.
0

Characterizing Long COVID in Children and Adolescents

Li Wang et al.Aug 21, 2024
Importance Most research to understand postacute sequelae of SARS-CoV-2 infection (PASC), or long COVID, has focused on adults, with less known about this complex condition in children. Research is needed to characterize pediatric PASC to enable studies of underlying mechanisms that will guide future treatment. Objective To identify the most common prolonged symptoms experienced by children (aged 6 to 17 years) after SARS-CoV-2 infection, how these symptoms differ by age (school-age [6-11 years] vs adolescents [12-17 years]), how they cluster into distinct phenotypes, and what symptoms in combination could be used as an empirically derived index to assist researchers to study the likely presence of PASC. Design, Setting, and Participants Multicenter longitudinal observational cohort study with participants recruited from more than 60 US health care and community settings between March 2022 and December 2023, including school-age children and adolescents with and without SARS-CoV-2 infection history. Exposure SARS-CoV-2 infection. Main Outcomes and Measures PASC and 89 prolonged symptoms across 9 symptom domains. Results A total of 898 school-age children (751 with previous SARS-CoV-2 infection [referred to as infected ] and 147 without [referred to as uninfected ]; mean age, 8.6 years; 49% female; 11% were Black or African American, 34% were Hispanic, Latino, or Spanish, and 60% were White) and 4469 adolescents (3109 infected and 1360 uninfected; mean age, 14.8 years; 48% female; 13% were Black or African American, 21% were Hispanic, Latino, or Spanish, and 73% were White) were included. Median time between first infection and symptom survey was 506 days for school-age children and 556 days for adolescents. In models adjusted for sex and race and ethnicity, 14 symptoms in both school-age children and adolescents were more common in those with SARS-CoV-2 infection history compared with those without infection history, with 4 additional symptoms in school-age children only and 3 in adolescents only. These symptoms affected almost every organ system. Combinations of symptoms most associated with infection history were identified to form a PASC research index for each age group; these indices correlated with poorer overall health and quality of life. The index emphasizes neurocognitive, pain, and gastrointestinal symptoms in school-age children but change or loss in smell or taste, pain, and fatigue/malaise–related symptoms in adolescents. Clustering analyses identified 4 PASC symptom phenotypes in school-age children and 3 in adolescents. Conclusions and Relevance This study developed research indices for characterizing PASC in children and adolescents. Symptom patterns were similar but distinguishable between the 2 groups, highlighting the importance of characterizing PASC separately for these age ranges.
0

sureLDA: A Multi-Disease Automated Phenotyping Method for the Electronic Health Record

Yuri Ahuja et al.Apr 14, 2020
Objective: A major bottleneck hindering utilization of electronic health record (EHR) data for translational research is the lack of precise phenotype labels. Chart review as well as rule-based and supervised phenotyping approaches require laborious expert input, hampering applicability to studies that require many phenotypes to be defined and labeled de novo. Though ICD codes are often used as surrogates for true labels in this setting, these sometimes suffer from poor specificity. We propose a fully automated topic modeling algorithm to simultaneously annotate multiple phenotypes. Methods: sureLDA is a label-free multidimensional phenotyping method. It first uses the PheNorm algorithm to initialize probabilities based on two surrogate features for each target phenotype, and then leverages these probabilities to constrain the Latent Dirichlet Allocation (LDA) topic model to generate phenotype-specific topics. Finally, it combines phenotype-feature counts with surrogates via clustering ensemble to yield final phenotype probabilities. Results: sureLDA achieves reliably high accuracy and precision across a range of simulated and real-world phenotypes. Its performance is robust to phenotype prevalence and relative informativeness of surogate versus non-surrogate features. It also exhibits powerful feature selection properties. Discussion: sureLDA combines attractive properties of PheNorm and LDA to achieve high accuracy and precision robust to diverse phenotype characteristics. It offers particular improvement for phenotypes insufficiently captured by a few surrogate features. Moreover, sureLDAs feature selection ability enables it to handle high feature dimensions and produce interpretable computational phenotypes. Conclusion: sureLDA is well suited toward large-scale EHR phenotyping for highly multi-phenotype applications such as PheWAS.### Competing Interest StatementThe authors have declared no competing interest.
0

High-throughput Multimodal Automated Phenotyping (MAP) with Application to PheWAS

Katherine Liao et al.Mar 23, 2019
Objective: Electronic health records (EHR) linked with biorepositories are a powerful platform for translational studies. A major bottleneck exists in the ability to phenotype patients accurately and efficiently. The objective of this study was to develop an automated high-throughput phenotyping method integrating International Classification of Diseases (ICD) codes and narrative data extracted using natural language processing (NLP). Method: We developed a mapping method for automatically identifying relevant ICD and NLP concepts for a specific phenotype leveraging the UMLS. Aggregated ICD and NLP counts along with healthcare utilization were jointly analyzed by fitting an ensemble of latent mixture models. The MAP algorithm yields a predicted probability of phenotype for each patient and a threshold for classifying subjects with phenotype yes/no. The algorithm was validated using labeled data for 16 phenotypes from a biorepository and further tested in an independent cohort PheWAS for two SNPs with known associations. Results: The MAP algorithm achieved higher or similar AUC and F-scores compared to the ICD code across all 16 phenotypes. The features assembled via the automated approach had comparable accuracy to those assembled via manual curation (AUCMAP 0.943, AUCmanual 0.941). The PheWAS results suggest that the MAP approach detected previously validated associations with higher power when compared to the standard PheWAS method based on ICD codes. Conclusion: The MAP approach increased the accuracy of phenotype definition while maintaining scalability, facilitating use in studies requiring large scale phenotyping, such as PheWAS.
0

Penetrance and pleiotropy of polygenic risk scores for schizophrenia in 106,160 patients across four healthcare systems

Amanda Zheutlin et al.Sep 18, 2018
OBJECTIVE: Individuals at high risk for schizophrenia may benefit from early intervention but few validated risk predictors are available. Genetic profiling is one approach to risk stratification that has been extensively validated in research cohorts, but its utility in clinical settings remains largely unexplored. Moreover, the broad health consequences of a high genetic risk of schizophrenia are poorly understood, despite being relevant to treatment decisions. METHOD: We used electronic health records for 106,160 patients from four healthcare systems to evaluate the penetrance and pleiotropy of genetic risk for schizophrenia. Polygenic risk scores (PRSs) for schizophrenia were calculated from summary statistics and tested for association with 1359 disease categories, including schizophrenia and psychosis, in phenome-wide association studies. Effects were combined through meta-analysis across sites. RESULTS: PRSs were robustly associated with schizophrenia (odds ratio per standard deviation increase in PRS=1.55 [95% confidence interval (CI), 1.4-1.7], p=4.48 x 10-16) and patients in the highest risk decile of the PRS distribution had up to 4.6-fold increased odds of schizophrenia compared to those in the bottom decile (95% CI, 2.9-7.3, p=1.37 x 10-10). PRSs were also positively associated with a range of other phenotypes, including anxiety, mood, substance use, neurological, and personality disorders, as well as suicidal behavior, memory loss, and urinary syndromes; they were inversely related to obesity. CONCLUSIONS: We demonstrate that an available measure of genetic risk for schizophrenia is robustly associated with schizophrenia in healthcare settings and has pleiotropic effects on related psychiatric disorders as well as other medical syndromes. Our results provide an initial indication of the opportunities and limitations that may arise with the future application of PRS testing in healthcare systems.
0

Genetic validation of bipolar disorder identified by automated phenotyping using electronic health records

Chia‐Yen Chen et al.Sep 23, 2017
Bipolar disorder (BD) is a heritable mood disorder characterized by episodes of mania and depression. Although genomewide association studies (GWAS) have successfully identified genetic loci contributing to BD risk, sample size has become a rate-limiting obstacle to genetic discovery. Electronic health records (EHRs) represent a vast but relatively untapped resource for high-throughput phenotyping. As part of the International Cohort Collection for Bipolar Disorder (ICCBD), we previously validated automated EHR-based phenotyping algorithms for BD against in-person diagnostic interviews (Castro et al. 2015). Here, we establish the genetic validity of these phenotypes by determining their genetic correlation with traditionally-ascertained samples. Case and control algorithms were derived from structured and narrative text in the Partners Healthcare system comprising more than 4.6 million patients over 20 years. Genomewide genotype data for 3,330 BD cases and 3,952 controls of European ancestry were used to estimate SNP-based heritability (h2g) and genetic correlation (rg) between EHR-based phenotype definitions and traditionally-ascertained BD cases in GWAS by the ICCBD and Psychiatric Genomics Consortium (PGC) using LD score regression. We evaluated BD cases identified using 4 EHR-based algorithms: an NLP-based algorithm (95-NLP) and 3 rule-based algorithms using codified EHR with decreasing levels of stringency -"coded-strict", "coded-broad", and "coded-broad based on a single clinical encounter" (coded-broad-SV). The analytic sample comprised 862 95-NLP, 1,968 coded-strict, 2,581 coded-broad, 408 coded-broad-SV BD cases, and 3,952 controls. The estimated h2g were 0.24 (p=0.015), 0.09 (p=0.064), 0.13 (p=0.003), 0.00 (p=0.591) for 95-NLP, coded-strict, coded-broad and coded-broad-SV BD, respectively. The h2g for all EHR-based cases combined except coded-broad-SV (excluded due to 0 h2g) was 0.12 (p=0.004). These h2g were lower or similar to the h2g observed by the ICCBD+PGCBD (0.23, p=3.17E-80, total N=33,181). However, the rg between ICCBD+PGCBD and the EHR-based cases were high for 95-NLP (0.66, p=3.69x10-5), coded-strict (1.00, p=2.40x10-4), and coded-broad (0.74, p=8.11x10-7). The rg between EHR-based BDs ranged from 0.90 to 0.98. These results provide the first genetic validation of automated EHR-based phenotyping for BD and suggest that this approach identifies cases that are highly genetically correlated with those ascertained through conventional methods. High throughput phenotyping using the large data resources available in EHRs represents a viable method for accelerating psychiatric genetic research.