CC
Chin-Yi Cheng
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
5
(60% Open Access)
Cited by:
412
h-index:
13
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Somatic mutation detection workflow validity distinctly influences clinical decision

Pei-Miao Chien et al.Oct 30, 2023
Abstract Identifying somatic mutations from tumor tissues holds substantial clinical consequences for making informed medical decisions. Evaluating the accuracy and robustness of somatic mutation analysis workflows has become essential when employing whole exome sequencing (WES) analysis in clinical settings. In the study, we utilized a set of tumor WES data the Sequencing and Quality Control Phase 2 (SEQC2) project to systematically benchmark the workflow analytical validity, including various combinations of read aligners and mutation callers. The read aligners included BWA; Bowtie2; built-in DRAGEN-Aligner; DRAGMAP; and HISAT2 as well as the callers Mutect2; TNscope; built-in DRAGEN-Caller; and DeepVariant. Among all combinations, DRAGEN showed the best performance with mean F1-score of 0.9659 in SNV detection, while the combination of BWA and Mutect2 showed the second highest mean F1-score of 0.9485. Notably, our results suggested that the mutation callers had a significantly higher impact on the overall sensitivity than the aligners. For drug-related biomarkers, Sentieon TNscope tended to underestimate tumor mutation burden and missed many drug-resistance mutations such as FLT3(c.G1879A:p.A627T) and MAP2K1(c.G199A:p.D67N). Our investigation provides a valuable guide for cancer genomic researchers on tumor mutation identification, accomplished through an in-depth performance comparison among diverse tool combinations.
3

Evaluating the analytical validity of mutation calling pipeline for tumor whole exome sequencing

Chin-Yi Cheng et al.Nov 18, 2022
Abstract Detecting somatic mutations from the patients’ tumor tissues has the clinical impacts in medical decision making. Library preparation methods, sequencing platforms, read alignment tools and variant calling algorithms are the major factors to influence the data analysis results. Understanding the performance of the tool combinations of the somatic variant calling pipelines has become an important issue in the use of the whole exome sequences (WES) analysis in clinical actions. In this study, we selected four state-of-the-art sequence aligners including BWA, Bowtie2, DRAGMAP, DRAGEN aligner (DragenA) and HISAT2. For the variant callers, we chose GATK Mutect2, Sentieon TNscope, DRAGEN caller (DragenC) and DeepVariant. The benchmarking tumor whole exome sequencing data released from the FDA-led Sequencing and Quality Control Phase 2 (SEQC2) consortium was applied as the true positive variants to evaluate the overall performance. Multiple combinations of the aligners and variant callers were used to assess the variation detection capability. We measured the recall, precision and F1-score for each combination in both single nucleotide variants (SNVs) and short insertions and deletions (InDels) variant detections. We also evaluated their performances in different variant allele frequencies (VAFs) and the base pair length. The results showed that the top recall, precision and F1-score in the SNVs detection were generated by the combinations of BWA+DragenC(0.9629), Bowtie2+TNscope(0.9957) and DRAGMAP+DragenC(0.9646), respectively. In the InDels detection, BWA+DragenC(0.9546), Hisat2+TNscope(0.7519) and DragenA+DragenC(0.8081) outperformed the other combinations in the recall, precision and F1-Score, respectively. In addition, we found that the variant callers could bias the variant calling results. Finally, although some combinations yielded high accuracies of variant detection, but some variants still could not be detected by these outperformed combinations. The results of this study provided the vital information that no single combination could achieve superior results in detecting all the variants of the benchmarking dataset. In conclusion, applying both merged-based and ensemble-based variants detection approaches is encouraged to further detect variants comprehensively.
0

Representation Learning for Sequential Volumetric Design Tasks

Md Alam et al.Sep 25, 2024
Abstract Volumetric design, also called massing design, is the first and critical step in professional building design which is sequential in nature. As the volumetric design process is complex, the underlying sequential design process en- codes valuable information for designers. Many efforts have been made to automatically generate reasonable volumetric designs, but the quality of the generated design solutions varies, and evaluating a design solution requires either a prohibitively comprehensive set of metrics or expensive human expertise. While previous approaches focused on learning only the final design instead of sequential design tasks, we propose to encode the design knowledge from a collection of expert or high-performing design sequences and extract useful representations using transformer-based models. Later we propose to utilize the learned representations for crucial downstream applications such as design preference evaluation and procedural design generation. We develop the preference model by estimating the density of the learned representations whereas we train an autoregressive transformer model for sequential design generation. We demonstrate our ideas by leveraging a novel dataset of thousands of sequential volumetric designs. Our preference model can compare two arbitrarily given design sequences and is almost 90% accurate in evaluation against random design sequences. Our autoregressive model is also capable of autocompleting a volumetric design sequence from a partial design sequence.