GC
Guohui Chuai
Author with expertise in Clustered Regularly Interspaced Short Palindromic Repeats and CRISPR-associated proteins
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
395
h-index:
15
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

DeepCRISPR: optimized CRISPR guide RNA design by deep learning

Guohui Chuai et al.Jun 26, 2018
+12
J
H
G
A major challenge for effective application of CRISPR systems is to accurately predict the single guide RNA (sgRNA) on-target knockout efficacy and off-target profile, which would facilitate the optimized design of sgRNAs with high sensitivity and specificity. Here we present DeepCRISPR, a comprehensive computational platform to unify sgRNA on-target and off-target site prediction into one framework with deep learning, surpassing available state-of-the-art in silico tools. In addition, DeepCRISPR fully automates the identification of sequence and epigenetic features that may affect sgRNA knockout efficacy in a data-driven manner. DeepCRISPR is available at http://www.deepcrispr.net/ .
0
Citation369
0
Save
11

X-MOL: large-scale pre-training for molecular understanding and diverse molecular analysis

Dongyu Xue et al.Dec 26, 2020
+8
Y
D
D
Abstract In silico modelling and analysis of small molecules substantially accelerates the process of drug development. Representing and understanding molecules is the fundamental step for various in silico molecular analysis tasks. Traditionally, these molecular analysis tasks have been investigated individually and separately. In this study, we presented X-MOL, which applies large-scale pre-training technology on 1.1 billion molecules for molecular understanding and representation, and then, carefully designed fine-tuning was performed to accommodate diverse downstream molecular analysis tasks, including molecular property prediction, chemical reaction analysis, drug-drug interaction prediction, de novo generation of molecules and molecule optimization. As a result, X-MOL was proven to achieve state-of-the-art results on all these molecular analysis tasks with good model interpretation ability. Collectively, taking advantage of super large-scale pre-training data and super-computing power, our study practically demonstrated the utility of the idea of “mass makes miracles” in molecular representation learning and downstream in silico molecular analysis, indicating the great potential of using large-scale unlabelled data with carefully designed pre-training and fine-tuning strategies to unify existing molecular analysis tasks and substantially enhance the performance of each task.
11
Citation22
0
Save
5

Neo-epitope identification by weakly-supervised peptide-TCR binding prediction

Yixiao Gao et al.Aug 3, 2023
+9
H
Y
Y
Abstract The identification of T cell neo-epitopes is fundamental and computational challenging in tumor immunotherapy study. As the binding of pMHC - T cell receptor (TCR) is the essential condition for neo-epitopes to trigger the cytotoxic T cell reactivity, several computational studies have been proposed to predict neo-epitopes from the perspective of pMHC-TCR binding recognition. However, they often failed with the inaccurate binding prediction for a single pMHC -TCR pair due to the highly diverse TCR space. In this study, we proposed a novel weakly-supervised learning framework, i . e ., TCRBagger , to facilitate the personalized neo-epitope identification with weakly-supervised peptide-TCR binding prediction by bagging a sample-specific TCR profile. TCRBagger integrates three carefully designed learning strategies, i . e . a self-supervised learning strategy, a denoising learning strategy and a Multi-Instance Learning (MIL) strategy in the modeling of peptide-TCR binding. Our comprehensive tests revealed that TCRBagger exhibited great advances over existing tools by modeling interactions between peptide and TCR profiles. We further applied TCRBagger in different clinical settings, including (1) facilitating the peptide-TCR binding prediction under MIL using single-cell TCR-seq data. (2) improving the patient-specific neoantigen prioritization compared to the existing neoantigen identification tools. Collectively, TCRBagger provides novel perspectives and contributions for identifying neo-epitopes as well as discovering potential pMHC-TCR interactions in personalized tumor immunotherapy.
0

Unexpected CRISPR off-target mutation pattern in vivo are not typically germline-like

Zhiting Wei et al.Sep 28, 2017
+3
G
F
Z
To the Editor Schaefer et al. 1 (referred to as Study_1 ) recently presented the provocative conclusion that CRISPR-Cas9 nuclease can induce many unexpected off-target mutations across the genome that arise from the sites with poor homology to the gRNA. As Wilson et al. 2 pointed out, however, the selection of a co-housed mouse as the control is insufficient to attribute the observed mutation differences between the CRISPR-treated mice and control mice. Therefore, the causes of these mutations need to be further investigated. In 2015, Iyer et al. 3 (referred to as Study_2 ) used Cas9 and a pair of sgRNAs to mutate the Ar gene in vivo and off-target mutations were investigated by comparison the control mice and the offspring of the modified mice. After analyzing the whole genome sequencing (WGS) of the offspring and the control mice, they claimed that off-target mutations are rare from CRISPR-Cas9 engineering. Notably, their study only focused on indel off-target mutations. We re-analyzed the WGS data of these two studies and detected both single nucleotide variants (SNVs) and indel mutations.
0
Citation1
0
Save
0

FL-QSAR: a federated learning based QSAR prototype for collaborative drug discovery

Shaoqi Chen et al.Feb 28, 2020
+2
D
Q
S
Motivation: Quantitative structure-activity relationship (QSAR) analysis is commonly used in drug discovery. Collaborations among pharmaceutical institutions can lead to a better performance in QSAR prediction, however, intellectual property and related financial interests remain substantially hindering inter-institutional collaborations in QSAR modeling for drug discovery. Results: For the first time, we verified the feasibility of applying the horizontal federated learning (HFL), which is a recently developed collaborative and privacy-preserving learning framework to perform QSAR analysis. A prototype platform of federated-learning-based QSAR modeling for collaborative drug discovery, i.e, FL-QSAR, is presented accordingly. We first compared the HFL framework with a classic privacy-preserving computation framework, i.e., secure multiparty computation (MPC) to indicate its difference from various perspective. Then we compared FL-QSAR with the public collaboration in terms of QSAR modeling. Our extensive experiments demonstrated that (1) collaboration by FL-QSAR outperforms a single client using only its private data, and (2) collaboration by FL-QSAR achieves almost the same performance as that of collaboration via cleartext learning algorithms using all shared information. Taking together, our results indicate that FL-QSAR under the HFL framework provides an efficient solution to break the barriers between pharmaceutical institutions in QSAR modeling, therefore promote the development of collaborative and privacy-preserving drug discovery with extendable ability to other privacy-related biomedical areas. Availability and implementation: The source codes of the federated learning simulation and FL-QSAR are available on the GitHub: https://github.com/bm2-lab/FL-QSAR
0

Toward subtask decomposition-based learning and benchmarking for genetic perturbation outcome prediction and beyond

Yicheng Gao et al.Jan 20, 2024
+3
K
Z
Y
Deciphering cellular responses to genetic perturbations is fundamental for a wide array of biomedical applications, ranging from uncovering gene roles and interactions to unraveling effective therapeutics. Accurately predicting the transcriptional outcomes of genetic perturbations is indispensable for optimizing experimental perturbations and deciphering cellular response mechanisms; however, three scenarios present principal challenges, i.e., predicting single genetic perturbation outcomes, predicting multiple genetic perturbation outcomes and predicting genetic outcomes across cell lines. In this study, we introduce SubTAsk decomposition Modeling for genetic Perturbation prediction (STAMP), a conceptually novel computational strategy for genetic perturbation outcome prediction and downstream applications. STAMP innovatively formulates genetic perturbation prediction as a subtask decomposition (STD) problem by resolving three progressive subtasks in a divide-and-conquer manner, i.e., identifying differentially expressed gene (DEG) postperturbations, determining the regulatory directions of DEGs and finally estimating the magnitudes of gene expression changes. In addition to facilitating perturbation prediction, STAMP also serves as a robust and generalizable benchmark guide for evaluating various genetic perturbation prediction models. As a result, STAMP exhibits a substantial improvement in terms of its genetic perturbation prediction ability over the existing approaches on three subtasks and beyond, including revealing the ability to identify key regulatory genes and pathways on small samples and to reveal precise genetic interactions. Overall, STAMP serves as a fundamentally novel and effective prediction and generalizable benchmarking strategy that can facilitate genetic perturbation prediction, guide the design of perturbation experiments, and broaden the understanding of perturbation mechanisms.
0

Discovering CRISPR-Cas system with self-processing pre-crRNA capability by foundation models

W Li et al.Mar 11, 2024
+15
Q
Q
W
Abstract The discovery and functional annotation of CRISPR-Cas systems laid the groundwork for the development of novel CRISPR-based gene editing tools. Traditional similarity- search-based Cas discovery strategies, which rely heavily on local sequence alignment and reference Cas homologs, may overlook a significant number of remote homologs with limited sequence similarity; and it can not be applied directly for functional recognition. With the rapid development of protein large language models (LLMs), protein foundation models are expected to help model Cas systems with limited Cas homologs without extensive task-specific training data; however, the full potential of these models for Cas discovery and functional annotation has yet to be determined. To this end, we present a novel, effective and unified AI framework, CHOOSER ( C as HO mlog O bserving and SE lf-processing sc R eening), for alignment-free discovery of novel CRISPR-Cas systems with self-processing precursor CRISPR RNA (pre-crRNA) capability utilizing protein foundation models. CHOOSER successfully retrieved 11 novel homologs of Casλ, the majority of which are predicted to be able to self-process pre-crRNA, nearly doubling the current catalog. One of the candidates, EphcCasλ, was subsequently experimentally validated for its ability to self-process pre-crRNA, target DNA cleavage, and trans-cleavage and was shown to be a promising candidate for use as a CRISPR-Cas-based pathogen detection system. Overall, our study provides an unprecedented perspective and methodology for discovering novel CRISPR-Cas systems with specific functions using foundation models, underscoring the potential for transforming newly identified Cas homologs into genetic editing tools.
0
0
Save