BL
Ben Liu
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(56% Open Access)
Cited by:
0
h-index:
61
/
i10-index:
285
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
21

An extension of the Walsh-Hadamard transform to calculate and model epistasis in genetic landscapes of arbitrary shape and complexity

Aline Faure et al.Mar 8, 2023
Accurate models describing the relationship between genotype and phenotype are necessary in order to understand and predict how mutations to biological sequences affect the fitness and evolution of living organisms. The apparent abundance of epistasis (genetic interactions), both between and within genes, complicates this task and how to build mechanistic models that incorporate epistatic coefficients (genetic interaction terms) is an open question. The Walsh-Hadamard transform represents a rigorous computational framework for calculating and modeling epistatic interactions at the level of individual genotypic values (known as genetical, biological or physiological epistasis), and can therefore be used to address fundamental questions related to sequence-to-function encodings. However, one of its main limitations is that it can only accommodate two alleles (amino acid or nucleotide states) per sequence position. In this paper we provide an extension of the Walsh-Hadamard transform that allows the calculation and modeling of background-averaged epistasis (also known as ensemble epistasis) in genetic landscapes with an arbitrary number of states per position (20 for amino acids, 4 for nucleotides, etc.). We also provide a recursive formula for the inverse matrix and then derive formulae to directly extract any element of either matrix without having to rely on the computationally intensive task of constructing or inverting large matrices. Finally, we demonstrate the utility of our theory by using it to model epistasis within a combinatorially complete multiallelic genetic landscape of a tRNA, revealing that both pairwise and higher-order genetic interactions are enriched between physically interacting positions.
0

Deep indel mutagenesis reveals the regulatory and modulatory architecture of alternative exon splicing

Pablo Baeza-Centurion et al.Apr 23, 2024
Altered splicing is a frequent mechanism by which genetic variants cause disease and antisense oligonucleotides (AONs) that target pre-mRNA splicing have been approved as therapeutics for multiple pathologies including patient-customized treatments for rare diseases. However, the regulatory architecture of human exons remains poorly understood and AON discovery is currently slow and expensive, limiting the wider adoption of the approach. Here we show that that systematic deletion scans (which can be made experimentally at very low cost) provide an efficient strategy to chart the regulatory landscape of human exons and to rapidly identify effective splicing-modulating oligonucleotides in a fully quantitative manner. Our results suggest a mechanism for the evolutionary origins of unusually short microexons and the repression of transmembrane domain-encoding exons, and reveal a checkerboard architecture of sequential enhancers and silencers in a model alternative exon. Accurate prediction of the effects of deletions using deep learning provides a resource, DANGO, that maps the splicing regulatory landscape of all human exons and predicts effective splicing-altering antisense oligonucleotides genome-wide.
0

The mutational landscape of a prion-like domain

Benedetta Bolognesi et al.Mar 31, 2019
Specific insoluble protein aggregates are the hallmarks of many neurodegenerative diseases [1-5]. For example, cytoplasmic aggregates of the RNA-binding protein TDP-43 are observed in 97% of cases of Amyotrophic Lateral Sclerosis (ALS) [6,7]. However, it is still unclear for ALS and other diseases whether it is the insoluble aggregates or other forms of the mutated proteins that cause these diseases that are actually toxic to cells [8-13]. Here we address this question for TDP-43 by systematically mutating [14] the protein and quantifying the effects on cellular toxicity. We generated >50,000 mutations in the intrinsically disordered prion-like domain (PRD) and observed that changes in hydrophobicity and aggregation potential are highly predictive of changes in toxicity. Surprisingly, however, increased hydrophobicity and cytoplasmic aggregation actually reduce cellular toxicity. Mutations have their strongest effects in a central region of the PRD, with variants that increase toxicity promoting the formation of more dynamic liquid-like condensates. The genetic interactions in double mutants reveal that specific structures exist in this 'unstructured' region in vivo. Our results demonstrate that deep mutagenesis is a powerful approach for probing the sequence-function relationships of intrinsically disordered proteins as well as their in vivo structural conformations. Moreover, we show that aggregation of TDP-43 is not harmful but actually protects cells, most likely by titrating the protein away from a toxic liquid-like phase.
5

BioKG: a comprehensive, high-quality biomedical knowledge graph for AI-powered, data-driven biomedical research

Yuan Zhang et al.Jan 1, 2023
To cope with the rapid growth of scientific publications and data in biomedical research, knowledge graphs (KGs) have emerged as a powerful data structure for integrating large volumes of heterogeneous data to facilitate accurate and efficient information retrieval and automated knowledge discovery (AKD). However, transforming unstructured content from scientific literature into KGs has remained a significant challenge, with previous methods unable to achieve human-level accuracy. In this study, we utilized an information extraction pipeline that won first-place in the LitCoin NLP Challenge to construct a large-scale KG using all PubMed abstracts. The quality of the large-scale information extraction rivals that of human expert annotations, signaling a new era of automatic, high-quality database construction from literature. Our extracted information markedly surpasses the amount of content in manually curated public databases. To enhance the KG9s comprehensiveness, we integrated relation data from 40 public databases and relation information inferred from high-throughput genomics data. The comprehensive KG enabled rigorous performance evaluation of AKD, infeasible in previous studies. We designed an interpretable, probabilistic-based inference method to identify indirect causal relations and achieved unprecedented results for drug target identification and drug repurposing. Taking lung cancer as an example, we found that 40% of drug targets reported in literature could have been predicted by our algorithm about 15 years ago in a retrospective study, demonstrating that substantial acceleration in scientific discovery could be achieved through automated hypotheses generation and timely dissemination. A cloud-based platform was developed for academic users to freely access this rich structured data and associated tools.
0

Single cell expression analysis uncouples transdifferentiation and reprogramming

Mirko Francesconi et al.Jun 20, 2018
Many somatic cell types are plastic, having the capacity to convert into other specialized cells (transdifferentiation)(1) or into induced pluripotent stem cells (iPSCs, reprogramming)(2) in response to transcription factor over-expression. To explore what makes a cell plastic and whether these different cell conversion processes are coupled, we exposed bone marrow derived pre-B cells to two different transcription factor overexpression protocols that efficiently convert them either into macrophages or iPSCs and monitored the two processes over time using single cell gene expression analysis. We found that even in these highly efficient cell fate conversion systems, cells differ in both their speed and path of transdifferentiation and reprogramming. This heterogeneity originates in two starting pre-B cell subpopulations, large pre-BII and the small pre-BII cells they normally differentiate into. The large cells transdifferentiate slowly but exhibit a high efficiency of iPSC reprogramming. In contrast, the small cells transdifferentiate rapidly but are highly resistant to reprogramming. Moreover, the large B cells induce a stronger transient granulocyte/macrophage progenitor (GMP)-like state, while the small B cells undergo a more direct conversion to the macrophage fate. The large cells are cycling and exhibit high Myc activity whereas the small cells are Myc low and mostly quiescent. The observed heterogeneity of the two cell conversion processes can therefore be traced to two closely related cell types in the starting population that exhibit different types of plasticity. These data show that a somatic cell's propensity for either transdifferentiation and reprogramming can be uncoupled.
0

The long non-coding RNA lnc-HLX-2-7 is oncogenic in group 3 medulloblastomas

Keisuke Katsushima et al.Jun 9, 2020
Abstract Background Medulloblastoma (MB) is an aggressive brain tumor that predominantly affects children. Recent high-throughput sequencing studies suggest that the non-coding RNA genome, in particular long non-coding RNAs (lncRNAs), contributes to MB sub-grouping. Here we report the identification of a novel lncRNA, lnc-HLX-2-7 , as a potential molecular marker and therapeutic target in group 3 MBs. Methods Publicly available RNA sequencing (RNA-seq) data from 175 MB patients were interrogated to identify lncRNAs that differentiate between MB subgroups. After characterizing a subset of differentially expressed lncRNAs in vitro and in vivo , the group 3-enriched lncRNA lnc-HLX2-7 was deleted by CRISPR/Cas9 in the MB cell line D425 Med. Intracranially injected tumors were further characterized by bulk and single-cell RNA-sequencing. Results lnc-HLX-2-7 is highly upregulated in group 3 MB cell lines, patient-derived xenografts, and primary MBs compared to other MB sub-groups as assessed by qRT-PCR, RNA-seq, and RNA fluorescence in situ hybridization (FISH). Depletion of lnc-HLX-2-7 with antisense oligonucleotides or CRISPR/Cas9 significantly reduced cell proliferation and 3D colony formation and induced apoptosis. lnc-HLX-2-7-deleted D425 Med cells injected into mouse cerebella produced smaller tumors than those derived from parental cells. Pathway analysis revealed that lnc-HLX2-7 modulated oxidative phosphorylation, mitochondrial dysfunction, and sirtuin signaling pathways. The MYC oncogene regulated lnc-HLX-2-7 , and the small molecule BET-bromodomain (BRD4) inhibitor JQ1 reduced lnc-HLX2-7 expression. Conclusions lnc-HLX-2-7 is oncogenic in MB and represents a promising novel molecular marker and a potential therapeutic target in group 3 MBs in children. Key points lnc-HLX-2-7 is highly upregulated in group 3 medulloblastomas compared to other sub-groups. In vitro and in vivo studies strongly support an oncogenic role for lnc-HLX2-7 in group 3 medulloblastoma. lnc-HLX-2-7 may be a novel biomarker and a potential therapeutic target in group 3 medulloblastoma. Importance of the study Group 3 medulloblastomas are associated with poor clinical outcomes, are difficult to subtype clinically, and their biology is poorly understood. In an effort to address these problems, we identified a group 3-specific long non-coding RNA, lnc-HLX-2-7 , in an in silico analysis of 175 medulloblastomas and confirmed its expression in group 3 medulloblastoma cell lines, patient-derived xenografts, and FFPE samples. CRISPR/Cas9 deletion and antisense oligonucleotide knockdown of lnc-HLX-2-7 significantly reduced cell growth and 3D colony formation and induced apoptosis. Deletion of lnc-HLX-2-7 in cells injected into mouse cerebellums reduced tumor growth compared to parental cells, and RNA sequencing of these tumors revealed lnc-HLX-2-7 -associated modulation of cell viability and cell death signaling pathways. The oncogene MYC regulates lnc-HLX-2-7 , and its expression can be controlled by the BET-bromodomain (BRD4) inhibitor JQ1. lnc-HLX-2-7 is a candidate biomarker and a potential therapeutic target in group 3 medulloblastomas in children.
0

Metagenomic Noncoding RNA Profiling and Biomarker Discovery

Ben Liu et al.Sep 28, 2020
Abstract Noncoding RNA plays important regulatory and functional roles in microorganisms, such as gene expression regulation, signaling, protein synthesis, and RNA processing. Given its essential role in microbial physiology, it is natural to question whether we can use noncoding RNAs as biomarkers to distinguish among environments under different biological conditions, such as those between healthy versus disease status. The current metagenomic sequencing technology primarily generates short reads, which contain incomplete structural information that may complicate noncoding RNA homology detection. On the other hand, de novo assembly of the metagenomics sequencing data remains fragmentary and has a risk of missing low-abundant noncoding RNAs. To tackle these challenges, we have developed DRAGoM ( D etection of R NA using A ssembly G raph fr o m M etagenomics data), a novel noncoding RNA homology search algorithm. DRAGoM operates on a metagenome assembly graph, rather than on unassembled reads or assembled contigs. Our benchmark experiments show DRAGoM’s improved performance and robustness over the traditional approaches. We have further demonstrated DRAGoM’s real-world applications in disease characterization via analyzing a real case-control gut microbiome dataset for Type-2 diabetes (T2D). DRAGoM revealed potential ncRNA biomarkers that can clearly separate the T2D gut microbiome from those of healthy controls. DRAGoM is freely available from https://github.com/benliu5085/DRAGoM .
7

Integrated de novo Gene Prediction and Peptide Assembly of Metagenomic Sequencing Data

Sirisha Thippabhotla et al.Sep 23, 2021
ABSTRACT Metagenomics is the study of all genomic content presented in given microbial communities. Metagenomic functional analysis aims to quantify protein families and reconstruct metabolic pathways from the metagenome. It plays a central role in understanding the interaction between the microbial community and its host or environment. De novo functional analysis, which allows the discovery of novel protein families, remains challenging for high-complexity communities. There are currently three main approaches for recovering novel genes or proteins: de novo nucleotide assembly, gene calling, and peptide assembly. Unfortunately, their informational connection and dependency have been overlooked, and each has been formulated as an independent problem. In this work, we develop a sophisticated workflow called integrated Metagenomic Protein Predictor (iMPP), which leverages the informational dependencies for better de novo functional analysis. iMPP contains three novel modules: a hybrid assembly graph generation module, a graph-based gene calling module, and a peptide assembly-based refinement module. iMPP significantly improved the existing gene calling sensitivity on unassembled fragmented reads, achieving a 92% - 97% recall rate at a high precision level (>90%). iMPP further allowed for more sensitive and accurate peptide assembly, recovering more reference proteins and delivering more hypothetical protein sequences. The high performance of iMPP can provide a more comprehensive and unbiased view of the microbial communities under investigation. iMPP is freely available from https://github.com/Sirisha-t/iMPP .