HL
Haoyang Li
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(86% Open Access)
Cited by:
17
h-index:
36
/
i10-index:
120
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
5

PPML-Omics: a Privacy-Preserving federated Machine Learning method protects patients’ privacy in omic data

Juexiao Zhou et al.Mar 27, 2022
Abstract Modern machine learning models towards various tasks with omic data analysis give rise to threats of privacy leakage of patients involved in those datasets. Despite the advances in different privacy technologies, existing methods tend to introduce too much computational cost (e.g. cryptographic methods) or noise (e.g. differential privacy), which hampers either model usefulness or accuracy in protecting privacy in biological data. Here, we proposed a secure and privacy-preserving machine learning method (PPML-Omics) by designing a decentralized version of the differential private federated learning algorithm. We applied PPML-Omics to analyze data from three sequencing technologies, and addressed the privacy concern in three major tasks of omic data, namely cancer classification with bulk RNA-seq, clustering with single-cell RNA-seq, and the integration of spatial gene expression and tumour morphology with spatial transcriptomics, under three representative deep learning models. We also examined privacy breaches in depth through privacy attack experiments and demonstrated that PPML-Omics could protect patients’ privacy. In each of these applications, PPML-Omics was able to outperform methods of comparison under the same level of privacy guarantee, demonstrating the versatility of the method in simultaneously balancing the privacy-preserving capability and utility in practical omic data analysis. Furthermore, we gave the theoretical proof of the privacy-preserving capability of PPML-Omics, suggesting the first mathematically guaranteed method with robust and generalizable empirical performance in protecting patients’ privacy in omic data.
4

Audit to Forget: A Unified Method to Revoke Patients’ Private Data in Intelligent Healthcare

Juexiao Zhou et al.Feb 21, 2023
Abstract Revoking personal private data is one of the basic human rights, which has already been sheltered by several privacy-preserving laws in many countries. However, with the development of data science, machine learning and deep learning techniques, this right is usually neglected or violated as more and more patients’ data are being collected and used for model training, especially in intelligent healthcare, thus making intelligent healthcare a sector where technology must meet the law, regulations, and privacy principles to ensure that the innovation is for the common good. In order to secure patients’ right to be forgotten, we proposed a novel solution by using auditing to guide the forgetting process, where auditing means determining whether a dataset has been used to train the model and forgetting requires the information of a query dataset to be forgotten from the target model. We unified these two tasks by introducing a new approach called knowledge purification. To implement our solution, we developed AFS, a unified open-source software, which is able to evaluate and revoke patients’ private data from pre-trained deep learning models. We demonstrated the generality of AFS by applying it to four tasks on different datasets with various data sizes and architectures of deep learning networks. The software is publicly available at https://github.com/JoshuaChou2018/AFS .
4
Citation5
0
Save
5

DeeReCT-TSS: A novel meta-learning-based method annotates TSS in multiple cell types based on DNA sequences and RNA-seq data

Juexiao Zhou et al.Jul 14, 2021
Abstract The accurate annotation of transcription start sites (TSSs) and their usage is critical for the mechanistic understanding of gene regulation under different biological contexts. To fulfill this, on one hand, specific high-throughput experimental technologies have been developed to capture TSSs in a genome-wide manner. On the other hand, various computational tools have also been developed for in silico prediction of TSSs solely based on genomic sequences. Most of these computational tools cast the problem as a binary classification task on a balanced dataset and thus result in drastic false positive predictions when applied on the genome-scale. To address these issues, we present DeeReCT-TSS, a deep-learning-based method that is capable of TSSs identification across the whole genome based on both DNA sequences and conventional RNA-seq data. We show that by effectively incorporating these two sources of information, DeeReCT-TSS significantly outperforms other solely sequence-based methods on the precise annotation of TSSs used in different cell types. Furthermore, we develop a meta-learning-based extension for simultaneous transcription start site (TSS) annotation on 10 cell types, which enables the identification of cell-type-specific TSS. Finally, we demonstrate the high precision of DeeReCT-TSS on two independent datasets from the ENCODE project by correlating our predicted TSSs with experimentally defined TSS chromatin states. Our application, pre-trained models and data are available at https://github.com/JoshuaChou2018/DeeReCT-TSS_release .
5
Citation2
0
Save
3

Nucleic acid sensing by STING induces an interferon-like antiviral response in a marine invertebrate

Haoyang Li et al.Dec 19, 2022
ABSTRACT The cytosolic detection of pathogen derived nucleic acids has evolved as an essential strategy for host innate immune defense in mammals. The stimulator of interferon genes (STING) functions as a crucial signaling adaptor, linking the cytosolic detection of DNA by cyclic GMP-AMP (cGAMP) synthase (cGAS) to the downstream Type I interferon (IFN) signaling axis. However, this process remains elusive in invertebrates. Herein, we demonstrated that a STING ortholog from a marine invertebrate (shrimp) Litopenaeus vannamei can directly sense DNA to activate an interferon-like antiviral response. Unlike STING homologs exclusively functioning as a sensor for cyclic dinucleotides (CDNs) in other eukaryotic organisms, shrimp STING can bind to double-stranded DNA (dsDNA) in addition to CDNs, including 2′3′-cGAMP. In vivo , shrimp STING can directly sense DNA nucleic acids from an infected virus, accelerate IRF dimerization, nuclear translocation and induce the expression of an interferon functional analog protein (Vago4), and finally establish an antiviral state. Surprisingly, the shrimp cGAS-like homolog is not involved in dsDNA-intrigued and STING-dependent IRF–Vago axis activation. Taken together, our results uncovered a novel dsDNA–STING–IKKε–IRF–Vago antiviral axis in an arthropod, and provided some novel insights into the functional origin of a DNA-sensing pathway in evolution.
1

Deep learning-enhanced single-molecule spectrum imaging

Sha Hao et al.May 9, 2023
Fluorescence is widely used in biological imaging and biosensing. Rich information can be revealed from the fluorescence spectrum of fluorescent molecules, such as pH, viscosity and polarity of the molecule’s environment, and distance between two FRET molecules. However, constructing the fluorescence spectrum of a single fluorescent molecule typically requires a significant number of photons, which can suffer from photobleaching and therefore limit its potential applications. Here we propose a deep learning-enhanced single-molecule spectrum imaging method (SpecGAN) for improving the single-molecule spectrum imaging efficiency. In SpecGAN, the photon flux required to extract a single-molecule fluorescence spectrum can be reduced by 100 times, which enables it two orders of magnitude higher temporal resolution compared to the conventional single-molecule spectrometer. The concept of SpecGAN was validated through numerical simulation and single Nile Red molecule spectrum imaging on support lipid bilayers (SLBs). With SpecGAN, the super-resolution spectrum image of the COS-7 membrane can be reconstructed with merely 12,000 frames of single-molecule localization images, which is almost half of the previously reported frame count for spectrally resolved super-resolution imaging. The low photon flux requirement and high temporal resolution of SpecGAN make it a promising tool for investigating the molecular spectrum dynamics related to biological functions or biomolecule interactions.
0

Automated Bioinformatics Analysis via AutoBA

Juexiao Zhou et al.Jan 1, 2023
With the fast-growing and evolving omics data, the demand for streamlined and adaptable tools to handle the analysis continues to grow. In response to this need, we introduce Auto Bioinformatics Analysis (AutoBA), an autonomous AI agent based on a large language model designed explicitly for conventional omics data analysis. AutoBA simplifies the analytical process by requiring minimal user input while delivering detailed step-by-step plans for various bioinformatics tasks. Through rigorous validation by expert bioinformaticians, AutoBA9s robustness and adaptability are affirmed across a diverse range of omics analysis cases, including whole genome sequencing (WGS), RNA sequencing (RNA-seq), single-cell RNA-seq, ChIP-seq, and spatial transcriptomics. AutoBA9s unique capacity to self-design analysis processes based on input data variations further underscores its versatility. Compared with online bioinformatic services, AutoBA deploys the analysis locally, preserving data privacy. Moreover, different from the predefined pipeline, AutoBA has adaptability in sync with emerging bioinformatics tools. Overall, AutoBA represents a convenient tool, offering robustness and adaptability for complex omics data analysis.
22

Deep Learning Enhanced Tandem Repeat Variation Identification via Multi-Modal Conversion of Nanopore Reads Alignment

Xingyu Liao et al.Aug 19, 2023
Abstract Identification of tandem repeat (TR) variations plays a crucial role in advancing our understanding of genetic diseases, forensic analysis, evolutionary studies, and crop improvement, thereby contributing to various fields of research and practical applications. However, traditional TR identification methods are often limited to processing genomes obtained through sequence assembly and cannot directly start detection from sequencing reads. Furthermore, the inflexibility of detection mode and parameters hinders the accuracy and completeness of the identification, rendering the results unsatisfactory. These shortcomings result in existing TR variation identification methods being associated with high computational cost, limited detection sensitivity, precision and comprehensiveness. Here, we propose DeepTRs, a novel method for identifying TR variations, which enables direct TR variation identification from raw Nanopore sequencing reads and achieves high sensitivity, accuracy, and completeness results through the multi-modal conversion of Nanopore reads alignment and deep learning. Comprehensive evaluations demonstrate that DeepTRs outperform existing methods.