YE
Yasha Ektefaie
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(60% Open Access)
Cited by:
6
h-index:
4
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Evaluating generalizability of artificial intelligence models for molecular datasets

Yasha Ektefaie et al.Feb 28, 2024
Deep learning has made rapid advances in modeling molecular sequencing data. Despite achieving high performance on benchmarks, it remains unclear to what extent deep learning models learn general principles and generalize to previously unseen sequences. Benchmarks traditionally interrogate model generalizability by generating metadata based (MB) or sequence-similarity based (SB) train and test splits of input data before assessing model performance. Here, we show that this approach mischaracterizes model generalizability by failing to consider the full spectrum of cross-split overlap, i.e. , similarity between train and test splits. We introduce SPECTRA, a spectral framework for comprehensive model evaluation. For a given model and input data, SPECTRA plots model performance as a function of decreasing cross-split overlap and reports the area under this curve as a measure of generalizability. We apply SPECTRA to 18 sequencing datasets with associated phenotypes ranging from antibiotic resistance in tuberculosis to protein-ligand binding to evaluate the generalizability of 19 state-of-the-art deep learning models, including large language models, graph neural networks, diffusion models, and convolutional neural networks. We show that SB and MB splits provide an incomplete assessment of model generalizability. With SPECTRA, we find as cross-split overlap decreases, deep learning models consistently exhibit a reduction in performance in a task- and model-dependent manner. Although no model consistently achieved the highest performance across all tasks, we show that deep learning models can generalize to previously unseen sequences on specific tasks. SPECTRA paves the way toward a better understanding of how foundation models generalize in biology.
0

Tuberculosis resistance acquisition in space and time: an analysis of globally diverse M. tuberculosis whole genome sequences

Yasha Ektefaie et al.Nov 11, 2019
Background: Mycobacterium tuberculosis (MTB) whole genome sequencing data can provide insights into temporal and geographic trends in resistance acquisition and inform public health interventions. Methods: We curated a set of clinical MTB isolates with high quality sequencing and culture-based drug susceptibility data spanning four lineages and more than 20 countries. We constructed geographic and lineage specific MTB phylogenies and used Bayesian molecular dating to infer the most-recent-common-susceptible-ancestor age for 4,869 instances of resistance to 10 drugs. Findings: Of 8,550 isolates curated, 6,099 from 15 countries met criteria for molecular dating. The number of independent resistance acquisition events was lower than the number of resistant isolates across all countries, suggesting ongoing transmission of drug resistance. Ancestral age distributions supported the presence of old resistance, >20 years prior, in the majority of countries. A consistent order of resistance acquisition was observed globally starting with resistance to isoniazid, but resistance ancestral age varied by country. We found a direct correlation between country wealth and resistance age (R2= 0.47, P-value= 0.014). Amplification of fluoroquinolone and second-line injectable resistance among multidrug-resistant isolates is estimated to have occurred very recently (median ancestral age 4.7 years IQR 1.9-9.8 prior to sample collection). We found the sensitivity of commercial molecular diagnostics for second-line resistance to vary significantly by country (P-value <0.0003). Interpretation: Our results highlight that both resistance transmission and amplification are contributing to disease burden globally but are variable by country. The observation that wealthier nations are more likely to have old resistance suggests that programmatic improvements can reduce resistance amplification, but that fit resistant strains can circulate for decades subsequently. Funding: This work was supported by the NIH BD2K grant K01 ES026835, a Harvard Institute of Global Health Burke Fellowship (MF), Boston Children's Hospital OFD/BTREC/CTREC Faculty Career Development Fellowship and Bushrod H. Campbell and Adah F. Hall Charity Fund/Charles A. King Trust Postdoctoral Fellowship (AD). Keywords: tuberculosis, drug resistance, whole genome sequencing
0

Drug resistance and epidemiological success of modern Mycobacterium tuberculosis lineages in western India

Avika Dixit et al.May 31, 2024
Abstract Background Drivers of tuberculosis (TB) transmission in India, the country estimated to carry a quarter of the world's burden, are not well studied. We conducted a genomic epidemiology study to compare epidemiological success, host factors, and drug resistance among the 4 major Mycobacterium tuberculosis (Mtb) lineages (L1–L4) circulating in Pune, India. Methods We performed whole-genome sequencing (WGS) of Mtb sputum culture–positive isolates from participants in two prospective cohort studies and predicted genotypic susceptibility using a validated random forest model. We compared lineage-specific phylogenetic and time-scaled metrics to assess epidemiological success. Results Of the 612 isolates that met sequence quality criteria, Most were L3 (44.6%). The majority (61.1%) of multidrug-resistant isolates were L2 (P &lt; .001) and L2 demonstrated a higher rate and more recent resistance acquisition. L4 and/or L2 demonstrated higher clustering and time-scaled haplotypic density (THD) compared to L3 and/or L1, suggesting higher epidemiological success. L4 demonstrated higher THD and clustering (odds ratio, 5.1 [95% confidence interval, 2.3–12.3]) in multivariate models controlling for host factors and resistance. Conclusions L2 shows a higher frequency of resistance, and both L2 and L4 demonstrate evidence of higher epidemiological success than L3 or L1 in Pune. Contact tracing around TB cases and heightened surveillance of TB DR in India is a public health priority.