XM
Xian Mallory
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
7
(100% Open Access)
Cited by:
54
h-index:
6
/
i10-index:
8
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Multi-platform discovery of haplotype-resolved structural variation in human genomes

Mark Chaisson et al.Sep 23, 2017
ABSTRACT The incomplete identification of structural variants (SVs) from whole-genome sequencing data limits studies of human genetic diversity and disease association. Here, we apply a suite of long-read, short-read, and strand-specific sequencing technologies, optical mapping, and variant discovery algorithms to comprehensively analyze three human parent–child trios to define the full spectrum of human genetic variation in a haplotype-resolved manner. We identify 818,054 indel variants (<50 bp) and 27,622 SVs (≥50 bp) per human genome. We also discover 156 inversions per genome—most of which previously escaped detection. Fifty-eight of the inversions we discovered intersect with the critical regions of recurrent microdeletion and microduplication syndromes. Taken together, our SV callsets represent a sevenfold increase in SV detection compared to most standard high-throughput sequencing studies, including those from the 1000 Genomes Project. The method and the dataset serve as a gold standard for the scientific community and we make specific recommendations for maximizing structural variation sensitivity for future large-scale genome sequencing studies.
0
Citation54
0
Save
0

CNVeil enables accurate and robust tumor subclone identification and copy number estimation from single-cell DNA sequencing data

Weimin Yuan et al.Feb 23, 2024
Abstract Single-cell DNA sequencing (scDNA-seq) has significantly advanced cancer research by enabling precise detection of chromosomal aberrations, such as copy number variations (CNVs), at a single-cell level. These variations are crucial for understanding tumor progression and heterogeneity among tumor subclones. However, accurate CNV inference in scDNA-seq has been constrained by several factors, including low coverage, sequencing errors, and data variability. To address these challenges, we introduce CNVeil, a robust quantitative algorithm designed to accurately reveal CNV profiles while overcoming the inherent noise and bias in scDNA-seq data. CNVeil incorporates a unique bias correction method using normal cell profiles identified by a PCA-based Gini coefficient, effectively mitigating sequencing bias. Subsequently, a multi-level hierarchical clustering, based on selected highly variable bins, is employed to initially identify coarse subclones for robust ploidy estimation and further identify fine subclones for segmentation. To infer the CNV segmentation landscape, a novel change rate-based across-cell breakpoint identification approach is specifically designed to diminish the effects of low coverage and data variability on a per-cell basis. Finally, a consensus segmentation is utilized to further standardize read depth for the inference of the final CNV profile. In comprehensive benchmarking experiments, where we compared CNVeil with seven state-of-the-art CNV detection tools, CNVeil exhibited exceptional performance across a diverse set of simulated and real scDNA-seq data in cancer genomics. CNVeil excelled in subclone identification, segmentation, and CNV profiling. In light of these results, we anticipate that CNVeil will significantly contribute to single-cell CNV analysis, offering enhanced insights into chromosomal aberrations and genomic complexity.
6

Genomic heterogeneity in pancreatic cancer organoids and its stability with culture

Olalekan Usman et al.Jul 3, 2022
Abstract The establishment of patient-derived pancreatic cancer organoid culture in recent years creates an exciting opportunity for researchers to perform a wide range of in vitro studies on a model that closely recapitulates the tumor. Among the outstanding questions in pancreatic cancer biology are the causes and consequences of genomic heterogeneity observed in the disease. However, to use pancreatic cancer organoids as a model to study genomic variations, we need to first understand the degree of genomic heterogeneity and its stability within organoids. Here, we used single-cell whole-genome sequencing to investigate the genomic heterogeneity of two independent pancreatic cancer organoids, as well as their genomic stability with extended culture. Clonal populations with similar copy number profiles were observed within the organoids, and the proportion of these clones was shifted with extended culture, suggesting the growth advantage of some clones. However, sub-clonal genomic heterogeneity was also observed within each clonal population, indicating the genomic instability of the pancreatic cancer cells themselves. Furthermore, our transcriptomic analysis also revealed a positive correlation between copy number alterations and gene expression regulation, suggesting the functionality of these copy number alterations.
5

Assessing the Performance of Methods for Cell Clustering from Single-cell DNA Sequencing Data

Rituparna Khan et al.Aug 15, 2022
Abstract Background: Many cancer genomes have been known to contain more than one subclone inside one tumor, the phenomenon of which is called intra-tumor heterogeneity (ITH). Characterizing ITH is essential in designing treatment plans, prognosis as well as the study of cancer progression. Single-cell DNA sequencing (scDNAseq) has been proven effective in deciphering ITH. Cells corresponding to each subclone are supposed to carry a unique set of mutations such as single nucleotide variations (SNV). While there have been many studies on the cancer evolutionary tree reconstruction, not many have been proposed that simply characterize the subclonality without tree reconstruction. While tree reconstruction is important in the study of cancer evolutionary history, typically they are computationally expensive in terms of running time and memory consumption due to the huge search space of the tree structure. On the other hand, subclonality characterization of single cells can be converted into a cell clustering problem, the dimension of which is much smaller, and the turnaround time is much shorter. Despite the existence of a few state-of-the-art cell clustering computational tools for scDNAseq, there lacks a comprehensive and objective comparison under different settings. Results: In this paper, we evaluated six state-of-the-art cell clustering tools–SCG, BnpC, SCClone, RobustClone, SCITE and SBMClone–on simulated data sets given a variety of parameter settings and a real data set. We designed a simulator specifically for cell clustering, and compared these methods’ performances in terms of their clustering accuracy, specificity and sensitivity and running time. For SBMClone, we specifically designed an ultra-low coverage large data set to evaluate its performance in the face of an extremely high missing rate. Conclusion: From the benchmark study, we conclude that BnpC and SCG’s clustering accuracy are the highest and comparable to each other. However, BnpC is more advantageous in terms of running time when cell number is high ( > 1500). It also has a higher clustering accuracy than SCG when cluster number is high ( > 16). SCClone’s accuracy in estimating the number of clusters is the highest. RobustClone and SCITE’s clustering accuracy are the lowest for all experiments. SCITE tends to over-estimate the cluster number and has a low specificity, whereas RobustClone tends to under-estimate the cluster number and has a much lower sensitivity than other methods. SBMClone produced reasonably good clustering (V-measure > 0.9) when coverage is > = 0 . 03 and thus is highly recommended for ultra-low coverage large scDNAseq data sets. Author summary Cancer cells evolve by gaining new mutations. Different cancer cells may gain different mutations. Thus even inside the tumor of one cancer patient, there could be multiple clones of cancer cells, each having its unique set of mutations. Characterization of the clonality of a tumor can improve cancer treatment and prognosis. Single-cell DNA sequencing, or scDNAseq, refers to the DNA sequencing technology that can sequence each cell separately. ScDNAseq has been widely used to characterize the clonality of a tumor. In this study, we benchmarked six existing computational tools that characterize the clonality of the cancer cells, which are SCG, SCClone, BnpC, RobustClone, SCITE and SBMClone. To accomplish this study, we modified our simulator and simulated eight sets of simulation data for testing the first five methods, and one set of simulation data for testing SBMClone considering that SBMClone was specifically designed for highly sparse data set. We also tested SCG, SCClone, BnpC and RobubstClone on a real data set CRC2. We recommend SCG and BnpC due to their high accuracy and low running time. In the face of highly sparse data, we highly recommend SBMClone, the only method that can deal with such type of data.
9

SCsnvcna: Integrating SNVs and CNAs on a phylogenetic tree from single-cell DNA sequencing data

Liting Zhang et al.Aug 29, 2022
Abstract Single-cell DNA sequencing enables the construction of evolutionary trees that can reveal how tumors gain mutations and grow. Different whole genome amplification (WGA) procedures render genomic materials of different characteristics, often suitable for the detection of either single nucleotide variation (SNV) or for copy number aberration (CNA), but not for both, hindering the placement of both SNVs and CNAs on the same phylogenetic tree for the study of interplay of SNVs and CNAs. SCARLET places SNVs on a CNA tree, a tree derived based on the copy number profiles, while considering SNV loss due to copy number losses. However, SCARLET requires that the SNVs and CNAs are detected from the same sets of cells, which is technically challenging due to the sequencing errors or the low sequencing coverage associated with a particular WGA procedure. Here we presented a novel computational tool, SCsnvcna, that aims at placing SNVs on a CNA tree whereas the sets of cells rendering the SNVs and CNAs are independent, thus is more practical in terms of the technical challenge from single cell WGA process. SCsnvcna is a Bayesian probabilistic model that utilizes both the genotype constraints on the tree and the cellular prevalence (CP) to search the solution that has the highest joint probability. Both simulated and real datasets show that SCsnvcna is highly accurate in predicting the placement of SNVs and SNV cells. In addition, SCsnvcna has a precise prediction of SNV losses due to copy number loss.
1

Phenotypic, genomic, and transcriptomic heterogeneity in a pancreatic cancer cell line

Gengqiang Xie et al.Nov 13, 2022
Objectives: To evaluate the suitability of the MIA PaCa-2 cell line for studying pancreatic cancer intratumor heterogeneity, we aim to further characterize the nature of MIA PaCa-2 cells phenotypic, genomic, and transcriptomic heterogeneity. Methods: MIA PaCa-2 single-cell clones were established through flow cytometry. For the phenotypic study, we quantified the cellular morphology, proliferation rate, migration potential, and drug sensitivity of the clones. The chromosome copy number and transcriptomic profiles were quantified using SNPa and RNA-seq, respectively. Results: Four MIA PaCa-2 clones showed distinctive phenotypes, with differences in cellular morphology, proliferation rate, migration potential, and drug sensitivity. We also observed a degree of genomic variations between these clones in form of chromosome copy number alterations and single nucleotide variations, suggesting the genomic heterogeneity of the population, and the intrinsic genomic instability of MIA PaCa-2 cells. Lastly, transcriptomic analysis of the clones also revealed gene expression profile differences between the clones, including the uniquely regulated ITGAV, which dictates the morphology of MIA PaCa-2 clones. Conclusions: MIA PaCa-2 is comprised of cells with distinctive phenotypes, heterogeneous genomes, and differential transcriptomic profiles, suggesting its suitability as a model to study the underlying mechanisms behind pancreatic cancer heterogeneity.