JS
Junhao Su
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
36
h-index:
7
/
i10-index:
5
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
30

Symphonizing pileup and full-alignment for deep learning-based long-read variant calling

Zhenxian Zheng et al.Dec 30, 2021
+3
J
S
Z
Abstract Deep learning-based variant callers are becoming the standard and have achieved superior SNP calling performance using long reads. In this paper, we present Clair3, which leveraged the best of two major method categories: pile-up calling handles most variant candidates with speed, and full-alignment tackles complicated candidates to maximize precision and recall. Clair3 ran faster than any of the other state-of-the-art variant callers and performed the best, especially at lower coverage.
1

RENET2: High-Performance Full-text Gene-Disease Relation Extraction with Iterative Training Data Expansion

Junhao Su et al.Mar 19, 2021
+2
H
Y
J
Abstract Background Relation extraction is a fundamental task for extracting gene-disease associations from biomedical text. Existing tools have limited capacity, as they can extract gene-disease associations only from single sentences or abstract texts. Results In this work, we propose RENET2, a deep learning-based relation extraction method, which implements section filtering and ambiguous relations modeling to extract gene-disease associations from full-text articles. We designed a novel iterative training data expansion strategy to build an annotated full-text dataset to resolve the scarcity of labels on full-text articles. In our experiments, RENET2 achieved an F1-score of 72.13% for extracting gene-disease associations from an annotated full-text dataset, which was 27.22%, 30.30% and 29.24% higher than the best existing tools BeFree, DTMiner and BioBERT, respectively. We applied RENET2 to (1) ~1.89M full-text articles from PMC and found ~3.72M gene-disease associations; and (2) the LitCovid articles set and ranked the top 15 proteins associated with COVID-19, supported by recent articles. Conclusion RENET2 is an efficient and accurate method for full-text gene-disease association extraction. The source-code, manually curated abstract/full-text training data, and results of RENET2 are available at https://github.com/sujunhao/RENET2 .
1

ClairS: a deep-learning method for long-read somatic small variant calling

Zhenxian Zheng et al.Aug 21, 2023
+3
L
J
Z
Abstract Identifying somatic variants in tumor samples is a crucial task, which is often performed using statistical methods and heuristic filters applied to short-read data. However, with the increasing demand for long-read somatic variant calling, existing methods have fallen short. To address this gap, we present ClairS, the first deep-learning-based, long-read somatic small variant caller. ClairS was trained on massive synthetic somatic variants with diverse coverages and variant allele frequencies (VAF), enabling it to accurately detect a wide range of somatic variants from paired tumor and normal samples. We evaluated ClairS using the latest Nanopore Q20+ HCC1395-HCC1395BL dataset. With 50-fold/25-fold tumor/normal, ClairS achieved a 93.01%/86.86% precision/recall rate for Single Nucleotide Variation (SNVs), and 66.54%/66.89% for somatic insertions and deletions (Indels). Applying ClairS to short-read datasets from multiple sources showed comparable or better performance than Strelka2 and Mutect2. Our findings suggest that improved read phasing enabled by long-read sequencing is key to accurate long-read SNV calling, especially for variants with low VAF. Through experiments across various coverage, purity, and contamination settings, we demonstrated that ClairS is a reliable somatic variant caller. ClairS is open-source at https://github.com/HKU-BAL/ClairS .
1
Citation3
0
Save
14

Clair3-Trio: high-performance Nanopore long-read variant calling in family trios with Trio-to-Trio deep neural networks

Junhao Su et al.May 4, 2022
+2
S
Z
J
Abstract Accurate identification of genetic variants from family child-mother-father trio sequencing data is important in genomics. However, state-of-the-art approaches treat variant calling from trios as three independent tasks, which limits their calling accuracy for Nanopore long-read sequencing data. For better trio variant calling, we introduce Clair3-Trio, the first variant caller tailored for family trio data from Nanopore long-reads. Clair3-Trio employs a Trio-to-Trio deep neural network model, which allows it to input the trio sequencing information and output all of the trio’s predicted variants within a single model to improve variant calling. We also present MCVLoss, a novel loss function tailor-made for variant calling in trios, leveraging the explicit encoding of the Mendelian inheritance. Clair3-Trio showed comprehensive improvement in experiments. It predicted far fewer Mendelian inheritance violation variations than current state-of-the-art methods. We also demonstrated that our Trio-to-Trio model is more accurate than competing architectures. Clair3-Trio is accessible as a free, open-source project at https://github.com/HKU-BAL/Clair3-Trio .
14
Citation2
0
Save
11

Evaluation ofMycobacterium Tuberculosisenrichment in metagenomic samples using ONT adaptive sequencing and amplicon sequencing for identification and variant calling

Junhao Su et al.Dec 17, 2022
+12
Y
W
J
Abstract Sensitive detection of Mycobacterium Tuberculosis (TB) in small percentages in metagenomic samples is essential for microbial classification and drug resistance prediction, and assisting in diagnosis and treatment planning. However, traditional methods, such as bacterial culture and microscopy, are time-consuming and sometimes have limited TB detection sensitivity. Oxford Nanopore Technologies’ MinION sequencing allows rapid and simple sample preparation for whole genome and amplicon sequencing. Its recently developed adaptive sequencing selects reads from targets, while allowing real-time base-calling during sequencing to achieve sequence enrichment or depletion. Another common enrichment method is PCR amplification of the target TB genes. In this study, we compared both methods with MinION sequencing for TB detection and variant calling in metagenomic samples using both simulation runs and those with synthetic and patient samples. We found that both methods effectively enrich TB reads from a high percentage of human and other microbial DNA. We provide a simple automatic analysis framework, including quality filtering, taxonomic classification, variant calling, and antimicrobial resistance prediction, to support these detection workflows for clinical use, openly available at https://github.com/HKU-BAL/ONT-TB-NF . Depending on the patient’s medical condition and sample type (commonly including bronchoalveolar lavage fluid, blood samples, sputum, and tissues), we discuss the findings and recommend that users optimize their workflow to improve the detection limit.
11
Citation1
0
Save
0

Towards a new standard in genomic data privacy: a realization of owner-governance

Jingcheng Zhang et al.Jul 24, 2024
+6
M
Y
J
Abstract With the rapid developments in sequencing technologies, individuals now have unprecedented access to their genomic data. However, existing data management systems or protocols are inadequate for protecting privacy, limiting individuals’ control over their genomic information, hindering data sharing, and posing a challenge for biomedical research. To fill the gap, an owner-governed system that fulfills owner authority, lifecycle data encryption, and verifiability at the same time is prompted. In this paper, we realized Governome, an owner-governed data management system designed to empower individuals with absolute control over their genomic data during data sharing. Governome uses a blockchain to manage all transactions and permissions, enabling data owners with dynamic permission management and to be fully informed about every data usage. It uses homomorphic encryption and zero-knowledge proofs to enable genomic data storage and computation in an encrypted and verifiable form for its whole lifecycle. Governome supports genomic analysis tasks, including individual variant query, cohort study, GWAS analysis, and forensics. Query of a variant’s genotype distribution among 2,504 1kGP individuals in Governome can be efficiently completed in under 18 hours on an ordinary server. Governome is an open-source project available at https://github.com/HKU-BAL/Governome .
6

ClusterV-Web: A User-Friendly Tool for Profiling HIV Quasispecies and Generating Drug Resistance Reports from Nanopore Long-Read Data

Junhao Su et al.Jan 1, 2023
+2
Z
S
J
Summary: Third-generation long-read sequencing is an increasingly utilized technique for profiling HIV quasispecies and detecting drug resistance mutations due to its ability to cover the entire viral genome in individual reads. Recently, the ClusterV tool has demonstrated accurate detection of HIV quasispecies from Nanopore long-read sequencing data. However, the need for scripting skills and a computational environment may act as a barrier for many potential users. To address this issue, we have introduced ClusterV-Web, a user-friendly web-based application that enables easy configuration and execution of ClusterV, both remotely and locally. Our tool provides interactive tables and data visualizations to aid in the interpretation of results. This development is expected to democratize access to long-read sequencing data analysis, enabling a wider range of researchers and clinicians to efficiently profile HIV quasispecies and detect drug resistance mutations. Availability and implementation: ClusterV-Web is freely available and open source, with detailed documentation accessible at http://www.bio8.cs.hku.hk/ClusterVW/. The standalone Docker image and source code are also available at https://github.com/HKU-BAL/ClusterV-Web.
1

Boosting variant-calling performance with multi-platform sequencing data using Clair3-MP

Huijing Yu et al.Jun 6, 2023
+2
J
Z
H
Abstract Background With the continuous advances in third-generation sequencing technology and the increasing affordability of next-generation sequencing technology, sequencing data from different sequencing technology platforms is becoming more common. While numerous benchmarking studies have been conducted to compare variant-calling performance across different platforms and approaches, little attention has been paid to the potential of leveraging the strengths of different platforms to optimize overall performance, especially integrating Oxford Nanopore and Illumina sequencing data. Results We investigated the impact of multi-platform data on the performance of variant calling through carefully designed experiments with a deep learning-based variant caller named Clair3-MP (Multi-Platform). Through our research, we not only demonstrated the capability of ONT-Illumina data for improved variant calling, but also identified the optimal scenarios for utilizing ONT-Illumina data. In addition, we revealed that the improvement in variant calling using ONT-Illumina data comes from an improvement in difficult genomic regions, such as the large low-complexity regions and segmental and collapse duplication regions. Moreover, Clair3-MP can incorporate reference genome stratification information to achieve a small but measurable improvement in variant calling. Clair3-MP is accessible as an open-source project at: https://github.com/HKU-BAL/Clair3-MP . Conclusions These insights have important implications for researchers and practitioners alike, providing valuable guidance for improving the reliability and efficiency of genomic analysis in diverse applications.