SZ
Sai Zhang
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
15
(73% Open Access)
Cited by:
14
h-index:
68
/
i10-index:
390
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

TITER: predicting translation initiation sites by deep learning

Sai Zhang et al.Jan 26, 2017
Abstract Motivation Translation initiation is a key step in the regulation of gene expression. In addition to the annotated translation initiation sites (TISs), the translation process may also start at multiple alternative TISs (including both AUG and non-AUG codons), which makes it challenging to predict TISs and study the underlying regulatory mechanisms. Meanwhile, the advent of several high-throughput sequencing techniques for profiling initiating ribosomes at single-nucleotide resolution, e.g., GTI-seq and QTI-seq, provides abundant data for systematically studying the general principles of translation initiation and the development of computational method for TIS identification. Methods We have developed a deep learning based framework, named TITER, for accurately predicting TISs on a genome-wide scale based on QTI-seq data. TITER extracts the sequence features of translation initiation from the surrounding sequence contexts of TISs using a hybrid neural network and further integrates the prior preference of TIS codon composition into a unified prediction framework. Results Extensive tests demonstrated that TITER can greatly outperform the state-of-the-art prediction methods in identifying TISs. In addition, TITER was able to identify important sequence signatures for individual types of TIS codons, including a Kozak-sequence-like motif for AUG start codon. Furthermore, the TITER prediction score can be related to the strength of translation initiation in various biological scenarios, including the repressive effect of the upstream open reading frames (uORFs) on gene expression and the mutational effects influencing translation initiation efficiency. Availability TITER is available as an open-source software and can be downloaded from https://github.com/zhangsaithu/titer Contact lzhang20@mail.tsinghua.edu.cn and zengjy321@tsinghua.edu.cn
0
Citation5
0
Save
1

Genome-wide Identification of the Genetic Basis of Amyotrophic Lateral Sclerosis

Sai Zhang et al.Nov 15, 2020
ABSTRACT Amyotrophic lateral sclerosis (ALS) is an archetypal complex disease centered on progressive death of motor neurons. Despite heritability estimates of 52%, GWAS studies have discovered only seven genome-wide significant hits, which are relevant to <10% of ALS patients. To increase the power of gene discovery, we integrated motor neuron functional genomics with ALS genetics in a hierarchical Bayesian model called RefMap. Comprehensive transcriptomic and epigenetic profiling of iPSC-derived motor neurons enabled RefMap to systematically fine-map genes and pathways associated with ALS. As a significant extension of the known genetic architecture of ALS, we identified a group of 690 candidate ALS genes, which is enriched with previously discovered risk genes. Extensive conservation, transcriptome and network analyses demonstrated the functional significance of these candidate genes in motor neurons and disease progression. In particular, we observed a genetic convergence on the distal axon, which supports the prevailing view of ALS as a distal axonopathy. Of the new ALS genes we discovered, we further characterized KANK1 that is enriched with coding and noncoding, common and rare ALS-associated genetic variation. Modelling patient mutations in human neurons reduced KANK1 expression and produced neurotoxicity with disruption of the distal axon. RefMap can be applied broadly to increase the discovery power in genetic association studies of human complex traits and diseases.
1
Citation3
0
Save
9

Precision environmental health monitoring by longitudinal exposome and multi-omics profiling

Peng Gao et al.May 6, 2021
Abstract Conventional environmental health studies primarily focused on limited environmental stressors at the population level, which lacks the power to dissect the complexity and heterogeneity of individualized environmental exposures. Here we integrated deep-profiled longitudinal personal exposome and internal multi-omics to systematically investigate how the exposome shapes an individual’s phenome. We annotated thousands of chemical and biological components in the personal exposome cloud and found they were significantly correlated with thousands of internal biomolecules, which was further cross validated using corresponding clinical data. In particular, our results showed that agrochemicals (e.g., carcinogenic pesticides, fungicides, and herbicides) and fungi predominated in the highly diverse and dynamic personal exposome, and the biomolecules and pathways related to the individual’s immune system, kidneys, and liver were highly correlated with the personal external exposome. Overall, our findings demonstrate dynamic interactions between the personal exposome and internal multi-omics and provide important insights into the impact of the environmental exposome on precision health.
9
Citation3
0
Save
1

Low expression of EXOSC2 protects against clinical COVID-19 and impedes SARS-CoV-2 replication

Tobias Moll et al.Mar 7, 2022
Abstract New therapeutic targets are a valuable resource in the struggle to reduce the morbidity and mortality associated with the COVID-19 pandemic, caused by the SARS-CoV-2 virus. Genome-wide association studies (GWAS) have identified risk loci, but some loci are associated with co-morbidities and are not specific to host-virus interactions. Here, we identify and experimentally validate a link between reduced expression of EXOSC2 and reduced SARS-CoV-2 replication. EXOSC2 was one of 332 host proteins examined, all of which interact directly with SARS-CoV-2 proteins; EXOSC2 interacts with Nsp8 which forms part of the viral RNA polymerase. Lung-specific eQTLs were identified from GTEx (v7) for each of the 332 host proteins. Aggregating COVID-19 GWAS statistics for gene-specific eQTLs revealed an association between increased expression of EXOSC2 and higher risk of clinical COVID-19 which survived stringent multiple testing correction. EXOSC2 is a component of the RNA exosome and indeed, LC-MS/MS analysis of protein pulldowns demonstrated an interaction between the SARS-CoV-2 RNA polymerase and the majority of human RNA exosome components. CRISPR/Cas9 introduction of nonsense mutations within EXOSC2 in Calu-3 cells reduced EXOSC2 protein expression, impeded SARS-CoV-2 replication and upregulated oligoadenylate synthase ( OAS) genes, which have been linked to a successful immune response against SARS-CoV-2. Reduced EXOSC2 expression did not reduce cellular viability. OAS gene expression changes occurred independent of infection and in the absence of significant upregulation of other interferon-stimulated genes (ISGs). Targeted depletion or functional inhibition of EXOSC2 may be a safe and effective strategy to protect at-risk individuals against clinical COVID-19.
1
Citation2
0
Save
0

A Deep Boosting Based Approach for Capturing the Sequence Binding Preferences of RNA-Binding Proteins from High-Throughput CLIP-Seq Data

Shuya Li et al.Nov 8, 2016
Characterizing the binding behaviors of RNA-binding proteins (RBPs) is important for understanding their functional roles in gene expression regulation. However, current high-throughput experimental methods for identifying RBP targets, such as CLIP-seq and RNAcompete, usually suffer from the false positive and false negative issues. Here, we develop a deep boosting based machine learning approach, called DeBooster, to accurately model the binding sequence preferences and identify the corresponding binding targets of RBPs from CLIP-seq data. Comprehensive validation tests have shown that DeBooster can outperform other state-of-the-art approaches in predicting RBP targets and recover false negatives that are common in current CLIP-seq data. In addition, we have demonstrated several new potential applications of DeBooster in understanding the regulatory functions of RBPs, including the binding effects of the RNA helicase MOV10 on mRNA degradation, the influence of different binding behaviors of the ADAR proteins on RNA editing, as well as the antagonizing effect of RBP binding on miRNA repression. Moreover, DeBooster may provide an effective index to investigate the effect of pathogenic mutations in RBP binding sites, especially those related to splicing events. We expect that DeBooster will be widely applied to analyze large-scale CLIP-seq experimental data and can provide a practically useful tool for novel biological discoveries in understanding the regulatory mechanisms of RBPs.
0

Characterizing RNA Pseudouridylation by Convolutional Neural Networks

Xuan He et al.Apr 12, 2017
Abstract The most prevalent post-transcriptional RNA modification, pseudouridine (Ψ), also known as the fifth ribonucleoside, is widespread in rRNAs, tRNAs, snRNAs, snoRNAs and mRNAs. Pseudouridines in RNAs are implicated in many aspects of post-transcriptional regulation, such as the maintenance of translation fidelity, control of RNA stability and stabilization of RNA structure. However, our understanding of the functions, mechanisms as well as precise distribution of pseudourdines (especially in mRNAs) still remains largely unclear. Though thousands of RNA pseudouridylation sites have been identified by high-throughput experimental techniques recently, the landscape of pseudouridines across the whole transcriptome has not yet been fully delineated. In this study, we present a highly effective model, called PULSE ( P seudo U ridy L ation S ites E stimator), to predict novel Ψ sites from large-scale profiling data of pseudouridines and characterize the contextual sequence features of pseudouridylation. PULSE employs a deep learning framework, called convolutional neural network (CNN), which has been successfully and widely used for sequence pattern discovery in the literature. Our extensive validation tests demonstrated that PULSE can outperform conventional learning models and achieve high prediction accuracy, thus enabling us to further characterize the transcriptome-wide landscape of pseudouridine sites. Overall, PULSE can provide a useful tool to further investigate the functional roles of pseudouridylation in post-transcriptional regulation.
0

GEM: A manifold learning based framework for reconstructing spatial organizations of chromosomes

Guangxiang Zhu et al.Jul 9, 2017
Decoding the spatial organizations of chromosomes has crucial implications for studying eukaryotic gene regulation. Recently, Chromosomal conformation capture based technologies, such as Hi-C, have been widely used to uncover the interaction frequencies of genomic loci in high-throughput and genome-wide manner and provide new insights into the folding of three-dimensional (3D) genome structure. In this paper, we develop a novel manifold learning framework, called GEM (Genomic organization reconstructor based on conformational Energy and Manifold learning), to elucidate the underlying 3D spatial organizations of chromosomes from Hi-C data. Unlike previous chromatin structure reconstruction methods, which explicitly assume specific relationships between Hi-C interaction frequencies and spatial distances between distal genomic loci, GEM is able to reconstruct an ensemble of chromatin conformations by directly embedding the neighboring affinities from Hi-C space into 3D Euclidean space based on a manifold learning strategy that considers both the fitness of Hi-C data and the biophysical feasibility of the modeled structures, which are measured by the conformational energy derived from our current biophysical knowledge about the 3D polymer model. Extensive validation tests on both simulated interaction frequency data and experimental Hi-C data of yeast and human demonstrated that GEM not only greatly outperformed other state-of-art modeling methods but also reconstructed accurate chromatin structures that agreed well with the hold-out or independent Hi-C data and sparse geometric restraints derived from the previous fluorescence in situ hybridization (FISH) studies. In addition, as GEM can generate accurate spatial organizations of chromosomes by integrating both experimentally-derived spatial contacts and conformational energy, we for the first time extended our modeling method to recover long-range genomic interactions that are missing from the original Hi-C data. All these results indicated that GEM can provide a physically and physiologically valid 3D representations of the organizations of chromosomes and thus serve as an effective and useful genome structure reconstructor.
0

PRS-Net: Interpretable polygenic risk scores via geometric learning

Han Li et al.Feb 15, 2024
Abstract Polygenic risk score (PRS) serves as a valuable tool for predicting the genetic risk of complex human diseases for individuals, playing a pivotal role in advancing precision medicine. Traditional PRS methods, predominantly following a linear structure, often fall short in capturing the intricate relationships between genotype and phenotype. We present PRS-Net, an interpretable deep learning-based framework designed to effectively model the nonlinearity of biological systems for enhanced disease prediction and biological discovery. PRS-Net begins by deconvoluting the genomewide PRS at the single-gene resolution, and then it encapsulates gene-gene interactions for genetic risk prediction leveraging a graph neural network, thereby enabling the characterization of biological nonlinearity underlying complex diseases. An attentive readout module is specifically introduced into the framework to facilitate model interpretation and biological discovery. Through extensive tests across multiple complex diseases, PRS-Net consistently outperforms baseline PRS methods, showcasing its superior performance on disease prediction. Moreover, the interpretability of PRS-Net has been demonstrated by the identification of genes and gene-gene interactions that significantly influence the risk of Alzheimer’s disease and multiple sclerosis. In summary, PRS-Net provides a potent tool for parallel genetic risk prediction and biological discovery for complex diseases.
Load More