BS
Bahrad Sokhansanj
Author with expertise in Prediction of Peptide-MHC Binding Affinity
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
11
h-index:
16
/
i10-index:
23
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genetic Grouping of SARS-CoV-2 Coronavirus Sequences using Informative Subtype Markers for Pandemic Spread Visualization

Zhengqiao Zhao et al.Apr 9, 2020
+2
C
B
Z
Abstract We propose an efficient framework for genetic subtyping of SARS-CoV-2, the novel coronavirus that causes the COVID-19 pandemic. Efficient viral subtyping enables visualization and modeling of the geographic distribution and temporal dynamics of disease spread. Subtyping thereby advances the development of effective containment strategies and, potentially, therapeutic and vaccine strategies. However, identifying viral subtypes in real-time is challenging: SARS-CoV-2 is a novel virus, and the pandemic is rapidly expanding. Viral subtypes may be difficult to detect due to rapid evolution; founder effects are more significant than selection pressure; and the clustering threshold for subtyping is not standardized. We propose to identify mutational signatures of available SARS-CoV-2 sequences using a population-based approach: an entropy measure followed by frequency analysis. These signatures, Informative Subtype Markers (ISMs), define a compact set of nucleotide sites that characterize the most variable (and thus most informative) positions in the viral genomes sequenced from different individuals. Through ISM compression, we find that certain distant nucleotide variants covary, including non-coding and ORF1ab sites covarying with the D614G spike protein mutation which has become increasingly prevalent as the pandemic has spread. ISMs are also useful for downstream analyses, such as spatiotemporal visualization of viral dynamics. By analyzing sequence data available in the GISAID database, we validate the utility of ISM-based subtyping by comparing spatiotemporal analyses using ISMs to epidemiological studies of viral transmission in Asia, Europe, and the United States. In addition, we show the relationship of ISMs to phylogenetic reconstructions of SARS-CoV-2 evolution, and therefore, ISMs can play an important complementary role to phylogenetic tree-based analysis, such as is done in the Nextstrain [1] project. The developed pipeline dynamically generates ISMs for newly added SARS-CoV-2 sequences and updates the visualization of pandemic spatiotemporal dynamics, and is available on Github at https://github.com/EESI/ISM and via an interactive website at https://covid19-ism.coe.drexel.edu/ . Author Summary The novel coronavirus responsible for COVID-19, SARS-CoV-2, expanded to reportedly 8.7 million confirmed cases worldwide by June 21, 2020. The global SARS-CoV-2 pandemic highlights the importance of tracking viral transmission dynamics in real-time. Through June 2020, researchers have obtained genetic sequences of SARS-CoV-2 from over 47,000 samples from infected individuals worldwide. Since the virus readily mutates, each sequence of an infected individual contains useful information linked to the individual’s exposure location and sample date. But, there are over 30,000 bases in the full SARS-CoV-2 genome—so tracking genetic variants on a whole-sequence basis becomes unwieldy. We describe a method to instead efficiently identify and label genetic variants, or “subtypes” of SARS-CoV-2. Applying this method results in a compact, 11 base-long compressed label, called an Informative Subtype Marker or “ISM”. We define viral subtypes for each ISM, and show how regional distribution of subtypes track the progress of the pandemic. Major findings include (1) covarying nucleotides with the spike protein which has spread rapidly and (2) tracking emergence of a local subtype across the United States connected to Asia and distinct from the outbreak in New York, which is found to be connected to Europe.
0
Citation8
0
Save
0

Learning, Visualizing and Exploring 16S rRNA Structure Using an Attention-based Deep Neural Network

Zhengqiao Zhao et al.Oct 12, 2020
+3
F
S
Z
Abstract Recurrent neural networks (RNNs) with memory (e.g. LSTMs) and attention mechanisms are widely used in natural language processing because they can capture short and long term sequential information for diverse tasks. We propose an integrated deep learning model for microbial DNA sequence data, which exploits convolutional networks, recurrent neural networks, and attention mechanisms to perform sample-associated attribute prediction— phenotype prediction —and extract interesting features, such as informative taxa and predictive k -mer context. In this paper, we develop this novel deep learning approach and evaluate its application to amplicon sequences. We focus on typically short DNA reads of 16s ribosomal RNA (rRNA) marker genes, which identify the heterogeneity of a microbial community sample. Our deep learning approach enables sample-level attribute and taxonomic prediction, with the aim of aiding biological research and supporting medical diagnosis. We demonstrate that our implementation of a novel attention-based deep network architecture, Read2Pheno , achieves read-level phenotypic prediction and, in turn, that aggregating read-level information can robustly predict microbial community properties, host phenotype, and taxonomic classification, with performance comparable to conventional approaches. Most importantly, as a further result of the training process, the network architecture will encode sequences (reads) into dense, meaningful representations: learned embedded vectors output on the intermediate layer of the network model, which can provide biological insight when visualized. Finally, we demonstrate that a model with an attention layer can automatically identify informative regions in sequences/reads which are particularly informative for classification tasks. An implementation of the attention-based deep learning network is available at https://github.com/EESI/sequence_attention .
0

Streamlining Computational Fragment-Based Drug Discovery through Evolutionary Optimization Informed by Ligand-Based Virtual Prescreening

Rohan Chandraghatgi et al.Jan 1, 2023
B
G
H
R
Recent advancements in computational methods provide the promise of dramatically accelerating drug discovery. While mathematical modeling and machine learning have become vital in predicting drug-target interactions and properties, there is untapped potential in computational drug discovery due to the vast and complex chemical space. This paper advances a novel computational fragment-based drug discovery (FBDD) method called Fragments from Ligands Drug Discovery (FDSL-DD), which aims to streamline drug design by applying a two-stage optimization process informed by machine learning and evolutionary principles. In this approach, in silico screening identifies ligands from a vast library, which are then fragmentized while attaching specific attributes based on predicted binding affinity and interaction with the target sub-domain. This process both shrinks the search space and focuses on promising regions within it. The first optimization stage assembles these fragments into larger compounds using evolutionary strategies, and the second stage iteratively refines resulting compounds for enhanced bioactivity. The methodology is validated across three diverse protein targets involved in human solid cancers, bacterial antimicrobial resistance, and SARS-CoV-2 viral entry, demonstrating the approach9s broad applicability. Using the proposed FDSL-DD and two-stage optimization approach yields high-affinity ligand candidates more efficiently than other state-of-the-art computational methods. Furthermore, a multiobjective optimization is presented that accounts for druglikeness while still producing potential candidate ligands with high binding affinity. In conclustion, the results demonstrate that integrating detailed chemical information with a constrained search framework can markedly optimize the initial drug discovery process, offering a more precise and efficient route to developing new therapeutics.
0

Scorpio : Enhancing Embeddings to Improve Downstream Analysis of DNA sequences

Mohammad Refahi et al.Jul 23, 2024
+4
J
B
M
Analyzing genomic and genetic sequences on the DNA level can be challenging due to the limited alphabet and sequence similarity varies depending on the labeling task, which makes tasks dependent on different evolutionary rates. In addition, metagenomic data poses significant challenges due to the vast diversity of taxa and genes within a microbiome. Here, we present Scorpio, a novel framework that employs triplet networks with contrastive learning, utilizing both pre-trained language models and k-mer frequency embeddings, to effectively a) discern taxonomic and gene information in metagenomic data and can be fine-tuned to b) identify drug resistance, etc. from AMR genes and c) identify promoters. Our approach demonstrates robust performance across a variety of tasks. It has notable performance in generalizing to novel taxonomic and gene classification (e.g. identifying known gene labels of sequences from novel taxa).The versatility of our triplet network framework for multitask classification highlights its potential for advancing health and environmental diagnostics. This method enhances our ability to process and interpret complex microbiome metagenomic data, offering significant implications for biomarker identification and the monitoring of disease and environmental health.