SW
Sheng Wang
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
42
(62% Open Access)
Cited by:
128
h-index:
110
/
i10-index:
1307
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Accurate De Novo Prediction of Protein Contact Map by Ultra-Deep Learning Model

Sheng Wang et al.Sep 3, 2016
Abstract Motivation Protein contacts contain key information for the understanding of protein structure and function and thus, contact prediction from sequence is an important problem. Recently exciting progress has been made on this problem, but the predicted contacts for proteins without many sequence homologs is still of low quality and not extremely useful for de novo structure prediction. Method This paper presents a new deep learning method that predicts contacts by integrating both evolutionary coupling (EC) and sequence conservation information through an ultra-deep neural network formed by two deep residual neural networks. The first residual network conducts a series of 1-dimensional convolutional transformation of sequential features; the second residual network conducts a series of 2-dimensional convolutional transformation of pairwise information including output of the first residual network, EC information and pairwise potential. By using very deep residual networks, we can model contact occurring patterns and very complex sequence-structure relationship and thus, obtain high-quality contact prediction regardless of how many sequence homologs are available for proteins in question. Results Our method greatly outperforms existing methods and leads to much more accurate contact-assisted folding. Tested on 105 CASP11 targets, 76 past CAMEO hard targets, and 398 membrane proteins, the average top L long-range prediction accuracy obtained our method, one representative EC method CCMpred and the CASP11 winner MetaPSICOV is 0.47, 0.21 and 0.30, respectively; the average top L/10 long-range accuracy of our method, CCMpred and MetaPSICOV is 0.77, 0.47 and 0.59, respectively. Ab initio folding using our predicted contacts as restraints but without any force fields can yield correct folds (i.e., TMscore>0.6) for 203 of the 579 test proteins, while that using MetaPSICOV- and CCMpred-predicted contacts can do so for only 79 and 62 of them, respectively. Our contact-assisted models also have much better quality than template-based models especially for membrane proteins. The 3D models built from our contact prediction have TMscore>0.5 for 208 of the 398 membrane proteins, while those from homology modeling have TMscore>0.5 for only 10 of them. Further, even if trained by only non-membrane proteins, our deep learning method works very well on membrane protein contact prediction. In the recent blind CAMEO benchmark, our fully-automated web server implementing this method successfully folded 5 targets with a new fold and only 0.3L-2.3L effective sequence homologs, including one β protein of 182 residues, one α+β protein of 125 residues, one α protein of 140 residues and one α protein of 217 residues and one α/β of 260 residues. Availability: http://raptorx.uchicago.edu/ContactMap/ Author Summary Protein contact prediction and contact-assisted folding has made good progress due to direct evolutionary coupling analysis (DCA). However, DCA is effective on only some proteins with a very large number of sequence homologs. To further improve contact prediction, we borrow ideas from deep learning, which has recently revolutionized object recognition, speech recognition and the GO game. Our deep learning method can model complex sequence-structure relationship and high-order correlation (i.e., contact occurring patterns) and thus, improve contact prediction accuracy greatly. Our test results show that our method greatly outperforms the state-of-the-art methods regardless how many sequence homologs are available for a protein in question. Ab initio folding guided by our predicted contacts may fold many more test proteins than the other contact predictors. Our contact-assisted 3D models also have much better quality than homology models built from the training proteins, especially for membrane proteins. One interesting finding is that even trained with only soluble proteins, our method performs very well on membrane proteins. Recent blind test in CAMEO confirms that our method can fold large proteins with a new fold and only a small number of sequence homologs.
1

Single-cell identity definition using random forests and recursive feature elimination

Madeline Park et al.Aug 4, 2020
Abstract Single-cell RNA sequencing (scRNA-seq) enables the detailed examination of a cell’s underlying regulatory networks and the molecular factors contributing to its identity. We developed scRFE with the goal of generating interpretable gene lists that can accurately distinguish observations (single-cells) by their features (genes) given a metadata category of the dataset. scRFE is an algorithm that combines the classical random forest classifier with recursive feature elimination and cross validation to find the features necessary and sufficient to classify cells in a single-cell RNA-seq dataset by ranking feature importance. It is implemented as a Python package compatible with Scanpy, enabling its seamless integration into any single-cell data analysis workflow that aims at identifying minimal transcriptional programs relevant to describing metadata features of the dataset. We applied scRFE to the Tabula Muris Senis and reproduced established aging patterns and transcription factor reprogramming protocols, highlighting the biological value of scRFE’s learned features. Author summary scRFE is a Python package that combines a random forest classifier with recursive feature elimination and cross validation to find the features necessary and sufficient to classify cells in a single-cell RNA-seq dataset by ranking feature importance. scRFE was designed to enable straightforward integration as part of any single-cell data analysis workflow that aims at identifying minimal transcriptional programs relevant to describing metadata features of the dataset.
1
Citation5
0
Save
1

Incomplete transcripts dominate the Mycobacterium tuberculosis transcriptome

Xiangwu Ju et al.Feb 28, 2024
Mycobacterium tuberculosis (Mtb) is a bacterial pathogen that causes tuberculosis (TB), an infectious disease that is responsible for major health and economic costs worldwide1. Mtb encounters diverse environments during its life cycle and responds to these changes largely by reprogramming its transcriptional output2. However, the mechanisms of Mtb transcription and how they are regulated remain poorly understood. Here we use a sequencing method that simultaneously determines both termini of individual RNA molecules in bacterial cells3 to profile the Mtb transcriptome at high resolution. Unexpectedly, we find that most Mtb transcripts are incomplete, with their 5' ends aligned at transcription start sites and 3' ends located 200-500 nucleotides downstream. We show that these short RNAs are mainly associated with paused RNA polymerases (RNAPs) rather than being products of premature termination. We further show that the high propensity of Mtb RNAP to pause early in transcription relies on the binding of the σ-factor. Finally, we show that a translating ribosome promotes transcription elongation, revealing a potential role for transcription-translation coupling in controlling Mtb gene expression. In sum, our findings depict a mycobacterial transcriptome that prominently features incomplete transcripts resulting from RNAP pausing. We propose that the pausing phase constitutes an important transcriptional checkpoint in Mtb that allows the bacterium to adapt to environmental changes and could be exploited for TB therapeutics.
1
Citation4
0
Save
1

Extrapolating Heterogeneous Time-Series Gene Expression Data using Sagittarius

Addie Woicik et al.Dec 25, 2022
Abstract Understanding the temporal dynamics of gene expression is crucial for developmental biology, tumor biology, and biogerontology. However, some timepoints remain challenging to measure in the lab, particularly during very early or very late stages of a biological process. Here we propose Sagittarius, a transformer-based model that can accurately simulate gene expression profiles at timepoints outside of the range of times measured in the lab. The key idea behind Sagittarius is to learn a shared reference space for time series measurements, thereby explicitly modeling unaligned timepoints and conditional batch effects between time series, and making the model widely applicable to diverse biological settings. We show Sagittarius’s promising performance when extrapolating mammalian developmental gene expression, simulating drug-induced expression at unmeasured dose and treatment times, and augmenting datasets to accurately predict drug sensitivity. We also used Sagittarius to extrapolate mutation profiles for early-stage cancer patients, which enabled us to discover a gene set connected to the Hedgehog signaling pathway that may be related to tumorigenesis in sarcoma patients, including PTCH1 , ARID2 , and MYCBP2 . By augmenting experimental temporal datasets with crucial but difficult-to-measure extrapolated datapoints, Sagittarius enables deeper insights into the temporal dynamics of heterogeneous transcriptomic processes and can be broadly applied to biological time series extrapolation.
2

Pisces: A multi-modal data augmentation approach for drug combination synergy prediction

Hanwen Xu et al.Nov 22, 2022
Abstract Drug combination therapy is promising for cancer treatment through simultaneously reducing resistance and improving efficacy. Machine learning approaches to drug combination response prediction can prioritize experiments and discover new combinations, but require lots of training data in order to fit the nonlinearity of synergistic effect. Here, we propose Pisces, a novel machine learning approach for drug combination synergy prediction. The key idea of Pisces is to augment the sparse drug combination dataset by creating multiple views for each drug combination based on its different modalities. We combined eight different modalities of a single drug to create 64 augmented views for a pair of drugs, effectively expanding the size of the original data 64 times. Pisces obtained state-of-the-art results on cell-line-based drug synergy prediction, xenograft-based drug synergy prediction, and drug-drug interaction prediction. By interpreting Pisces’s predictions using a genetic interaction network, we further identified a breast cancer drug-sensitive pathway from BRCA cell lines in GDSC. We validated this pathway on an independent TCGA-BRCA tumor dataset and found that patients with this pathway activated had substantially longer survival time. Collectively, Pisces effectively predicts drug synergy and drug-drug interactions through augmenting the original dataset 64 times, and can be broadly applied to various biological applications that involve a pair of drugs.
26

AnglesRefine: refinement of 3D protein structures using Transformer based on torsion angles

Lei Zhang et al.Jul 28, 2023
ABSTRACT Motivation The goal of protein structure refinement is to enhance the precision of predicted protein models, particularly at the residue level of the local structure. Existing refinement approaches primarily rely on physics, whereas molecular simulation methods are resource-intensive and time-consuming. In this study, we employ deep learning methods to extract structural constraints from protein structure residues to assist in protein structure refinement. We introduce a novel method, AnglesRefine, which focuses on a protein’s secondary structure and employs a transformer model to refine various protein structure angles (psi, phi, omega, CA_C_N_angle, C_N_CA_angle, N_CA_C_angle), ultimately generating a superior protein model based on the refined angles. Results We evaluate our approach against other cutting-edge protein structure refinement methods using the CASP11-14 and CASP15 datasets. Experimental outcomes indicate that our method generally surpasses other techniques on the CASP11-14 test dataset, while performing comparably or marginally better on the CASP15 test dataset. Our method consistently demonstrates the least likelihood of model quality degradation, e.g., the degradation percentage of our method is less than 10%, while other methods are about 50%. Furthermore, as our approach eliminates the need for conformational search and sampling, it significantly reduces computational time compared to existing protein structure refinement methods. Availability https://github.com/Cao-Labs/AnglesRefine.git Contact caora@plu.edu CCS CONCEPTS *Computing methodologies → Machine learning . ACM Reference Format Lei Zhang, Junyong Zhu, Sheng Wang, Jie Hou, Dong Si, and Renzhi Cao. 2023. AnglesRefine: refinement of 3D protein structures using Transformer based on torsion angles. In Proceedings of 22nd International Workshop on Data Mining in Bioinformatics (BIOKDD 2023) (BIOKDD ‘2023) . ACM, New York, NY, USA, 10 pages. https://doi.org/XXXXXXX.XXXXXXX
Load More