TL
Thomas Litfin
Author with expertise in Prediction of Protein Subcellular Localization
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(80% Open Access)
Cited by:
461
h-index:
19
/
i10-index:
22
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Accurate prediction of protein contact maps by coupling residual two-dimensional bidirectional long short-term memory with convolutional neural networks

Jack Hanson et al.Jun 13, 2018
Abstract Motivation Accurate prediction of a protein contact map depends greatly on capturing as much contextual information as possible from surrounding residues for a target residue pair. Recently, ultra-deep residual convolutional networks were found to be state-of-the-art in the latest Critical Assessment of Structure Prediction techniques (CASP12) for protein contact map prediction by attempting to provide a protein-wide context at each residue pair. Recurrent neural networks have seen great success in recent protein residue classification problems due to their ability to propagate information through long protein sequences, especially Long Short-Term Memory (LSTM) cells. Here, we propose a novel protein contact map prediction method by stacking residual convolutional networks with two-dimensional residual bidirectional recurrent LSTM networks, and using both one-dimensional sequence-based and two-dimensional evolutionary coupling-based information. Results We show that the proposed method achieves a robust performance over validation and independent test sets with the Area Under the receiver operating characteristic Curve (AUC) &gt; 0.95 in all tests. When compared to several state-of-the-art methods for independent testing of 228 proteins, the method yields an AUC value of 0.958, whereas the next-best method obtains an AUC of 0.909. More importantly, the improvement is over contacts at all sequence-position separations. Specifically, a 8.95%, 5.65% and 2.84% increase in precision were observed for the top L∕10 predictions over the next best for short, medium and long-range contacts, respectively. This confirms the usefulness of ResNets to congregate the short-range relations and 2D-BRLSTM to propagate the long-range dependencies throughout the entire protein contact map ‘image’. Availability and implementation SPOT-Contact server url: http://sparks-lab.org/jack/server/SPOT-Contact/. Supplementary information Supplementary data are available at Bioinformatics online.
3

SPOT-Contact-Single: Improving Single-Sequence-Based Prediction of Protein Contact Map using a Transformer Language Model

Jaya Singh et al.Jun 20, 2021
Abstract Motivation Accurate prediction of protein contact-map is essential for accurate protein structure and function prediction. As a result, many methods have been developed for protein contact map prediction. However, most methods rely on protein-sequence-evolutionary information, which may not exist for many proteins due to lack of naturally occurring homologous sequences. Moreover, generating evolutionary profiles is computationally intensive. Here, we developed a contact-map predictor utilizing the output of a pre-trained language model ESM-1b as an input along with a large training set and an ensemble of residual neural networks. Results We showed that the proposed method makes a significant improvement over a single-sequence-based predictor SSCpred with 15% improvement in the F1-score for the independent CASP14-FM test set. It also outperforms evolutionary-profile-based methods TrRosetta and SPOT-Contact with 48.7% and 48.5% respective improvement in the F1-score on the proteins without homologs (Neff=1) in the independent SPOT-2018 set. The new method provides a much faster and reasonably accurate alternative to evolution-based methods, useful for large-scale prediction. Availability Stand-alone-version of SPOT-Contact-Single is available at https://github.com/jas-preet/SPOT-Contact-Single . Direct prediction can also be made at https://sparks-lab.org/server/spot-contact-single . The datasets used in this research can also be downloaded from the GitHub. Contact jaspreetsingh2@griffithuni.edu.au , k.paliwal@griffith.edu.au , and zhouyq@szbl.ac.cn Supplementary information Supplementary data are available at Bioinformatics online.
3
Citation3
0
Save
5

RNAcmap: A Fully Automatic Method for Predicting Contact Maps of RNAs by Evolutionary Coupling Analysis

Tongchuan Zhang et al.Aug 10, 2020
Abstract Motivation The accuracy of RNA secondary and tertiary structure prediction can be significantly improved by using structural restraints derived from evolutionary or direct coupling analysis. Currently, these coupling analyses relied on manually curated multiple sequence alignments collected in the Rfam database, which contains 3016 families. By comparison, millions of non-coding RNA sequences are known. Here, we established RNAcmap, a fully automatic method that enables evolutionary coupling analysis for any RNA sequences. The homology search was based on the covariance model built by Infernal according to two secondary structure predictors: a folding-based algorithm RNAfold and the latest deep-learning method SPOT-RNA. Results We show that the performance of RNAcmap is less dependent on the specific evolutionary coupling tool but is more dependent on the accuracy of secondary structure predictor with the best performance given by RNAcmap (SPOT-RNA). The performance of RNAcmap (SPOT-RNA) is comparable to that based on Rfam-supplied alignment and consistent for those sequences that are not in Rfam collections. Further improvement can be made with a simple meta predictor RNAcmap (SPOT-RNA/RNAfold) depending on which secondary structure predictor can find more homologous sequences. Reliable base-pairing information generated from RNAcmap, for RNAs with high effective homologous sequences, in particular, will be useful for aiding RNA structure prediction. Availability and implementation RNAcmap is available as a web server at https://sparks-lab.org/server/rnacmap/ ) and as a standalone application along with the datasets at https://github.com/sparks-lab-org/RNAcmap .
5
Citation2
0
Save
0

Highly Sensitive Spatial Glycomics at Near-Cellular Resolution by On-Slide Derivatization and Mass Spectrometry Imaging

Cécile Cumin et al.Jul 2, 2024
Glycans on proteins and lipids play important roles in maturation and cellular interactions, contributing to a variety of biological processes. Aberrant glycosylation has been associated with various human diseases including cancer; however, elucidating the distribution and heterogeneity of glycans in complex tissue samples remains a major challenge. Matrix-assisted laser desorption/ionization (MALDI) mass spectrometry imaging (MSI) is routinely used to analyze the spatial distribution of a variety of molecules including N-glycans directly from tissue surfaces. Sialic acids are nine carbon acidic sugars that often exist as the terminal sugars of glycans and are inherently difficult to analyze using MALDI-MSI due to their instability prone to in- and postsource decay. Here, we report on a rapid and robust method for stabilizing sialic acid on N-glycans in FFPE tissue sections. The established method derivatizes and identifies the spatial distribution of α2,3- and α2,6-linked sialic acids through complete methylamidation using methylamine and PyAOP ((7-azabenzotriazol-1-yloxy)tripyrrolidinophosphonium hexafluorophosphate). Our in situ approach increases the glycans detected and enhances the coverage of sialylated species. Using this streamlined, sensitive, and robust workflow, we rapidly characterize and spatially localize N-glycans in human tumor tissue sections. Additionally, we demonstrate this method's applicability in imaging mammalian cell suspensions directly on slides, achieving cellular resolution with minimal sample processing and cell numbers. This workflow reveals the cellular locations of distinct N-glycan species, shedding light on the biological and clinical significance of these biomolecules in human diseases.
0

Systematic analysis of REBASE identifies numerous Type I restriction-modification systems that contain duplicated, variable hsdS specificity genes that randomly switch methyltransferase specificity by recombination

John Atack et al.Jun 18, 2020
Abstract N 6 -adenine DNA methyltransferases associated with some Type I and Type III restriction-modification (R-M) systems are able to randomly switch expression by variation in the length of locus-encoded simple sequence repeats (SSRs). SSR tract-length variation causes ON/OFF switching of methyltransferase expression, resulting in genome-wide methylation differences, and global changes in gene expression. These epigenetic regulatory systems are called phasevarions, phase-variable regulons, and are widespread in bacteria. A distinct switching system has also been described in Type I R-M systems, based on recombination-driven changes in hsdS genes, which dictate the DNA target site. In order to determine the prevalence of recombination-driven phasevarions, we generated a program called RecombinationRepeatSearch to interrogate REBASE and identify the presence and number of inverted repeats of hsdS downstream of Type I R-M loci. We report that 5.9% of Type I R-M systems have duplicated variable hsdS genes containing inverted repeats capable of phase-variation. We report the presence of these systems in the major pathogens Enterococcus faecalis and Listeria monocytogenes , which will have important implications for pathogenesis and vaccine development. These data suggest that in addition to SSR-driven phasevarions, many bacteria have independently evolved phase-variable Type I R-M systems via recombination between multiple, variable hsdS genes. Importance Many bacterial species contain DNA methyltransferases that have random on/off switching of expression. These systems called phasevarions (phase-variable regulons) control the expression of multiple genes by global methylation changes. In every previously characterised phasevarion, genes involved in pathobiology, antibiotic resistance, and potential vaccine candidates are randomly varied in their expression, commensurate with methyltransferase switching. A systematic study to determine the extent of phasevarions controlled by invertible Type I R-M systems has never before been performed. Understanding how bacteria regulate genes is key to the study of physiology, virulence, and vaccine development; therefore it is critical to identify and characterize phase-variable methyltransferases controlling phasevarions.
6

The Master Database of All Possible RNA Sequences and Its Integration with RNAcmap for RNA Homology Search

Ke Chen et al.Feb 3, 2023
ABSTRACT Recent success of AlphaFold2 in protein structure prediction relied heavily on co-evolutionary information derived from homologous protein sequences found in the huge, integrated database of protein sequences (Big Fantastic Database). In contrast, the existing nucleotide databases were not consolidated to facilitate wider and deeper homology search. Here, we built a comprehensive database by including the noncoding RNA sequences from RNAcentral, the transcriptome assembly and metagenome assembly from MG-RAST, the genomic sequences from Genome Warehouse (GWH), and the genomic sequences from MGnify, in addition to NCBI’s nucleotide database (nt) and its subsets. The resulting MARS database (Master database of All possible RNA sequences) is 20-fold larger than NCBI’s nt database or 60-fold larger than RNAcentral. The new dataset along with a new split-search strategy allows a substantial improvement in homology search over existing state-of-the-art techniques. It also yields more accurate and more sensitive multiple sequence alignments (MSA) than manually curated MSAs from Rfam for the majority of structured RNAs mapped to Rfam. The results indicate that MARS coupled with the fully automatic homology search tool RNAcmap will be useful for improved structural and functional inference of noncoding RNAs.
22

Deep learning models of RNA base-pairing structures generalize to unseen folds and make accurate zero-shot predictions of base-base interactions of RNA complexes

Mei Lang et al.Jan 1, 2023
The intricate network of RNA-RNA interactions, crucial for orchestrating essential cellular processes like transcriptional and translational regulation, has been unveiling through high-throughput techniques and computational predictions. With the emergence of deep learning methodologies, the question arises: how do these cutting-edge techniques for base-pairing prediction compare to traditional free-energy-based approaches, particularly when applied to the challenging domain of interaction prediction via chain concatenation? In this study, we employ base pairs derived from three-dimensional RNA complex structures as the gold standard benchmark to assess the performance of 22 different methods, including recently developed deep learning models. Our results demonstrate that the deep-learning-based methods, SPOT-RNA and coevolution-information-powered SPOT-RNA2, can be generalized to previously unseen RNA structures and are capable of making accurate zero-shot predictions of RNA-RNA interactions. The finding underscores the potential of deep learning as a robust tool for advancing our understanding of these complex molecular interactions.