VK
Vijay Kumar
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(50% Open Access)
Cited by:
79
h-index:
24
/
i10-index:
44
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Direct determination of diploid genome sequences

Neil Weisenfeld et al.Aug 19, 2016
+2
P
V
N
ABSTRACT Determining the genome sequence of an organism is challenging, yet fundamental to understanding its biology. Over the past decade, thousands of human genomes have been sequenced, contributing deeply to biomedical research. In the vast majority of cases, these have been analyzed by aligning sequence reads to a single reference genome, biasing the resulting analyses and, in general, failing to capture sequences novel to a given genome. Some de novo assemblies have been constructed, free of reference bias, but nearly all were constructed by merging homologous loci into single ‘consensus’ sequences, generally absent from nature. These assemblies do not correctly represent the diploid biology of an individual. In exactly two cases, true diploid de novo assemblies have been made, at great expense. One was generated using Sanger sequencing and one using thousands of clone pools. Here we demonstrate a straightforward and low-cost method for creating true diploid de novo assemblies. We make a single library from ~1 ng of high molecular weight DNA, using the 10x Genomics microfluidic platform to partition the genome. We applied this technique to seven human samples, generating low-cost HiSeq X data, then assembled these using a new ‘pushbutton’ algorithm, Supernova. Each computation took two days on a single server. Each yielded contigs longer than 100 kb, phase blocks longer than 2.5 Mb, and scaffolds longer than 15 Mb. Our method provides a scalable capability for determining the actual diploid genome sequence in a sample, opening the door to new approaches in genomic biology and medicine.
0
Citation54
0
Save
0

Joint single cell DNA-Seq and RNA-Seq of cancer reveals subclonal signatures of genomic instability and gene expression

Noemi Andor et al.Oct 17, 2018
+32
C
B
N
ABSTRACT Sequencing the genomes of individual cancer cells provides the highest resolution of intratumoral heterogeneity. To enable high throughput single cell DNA-Seq across thousands of individual cells per sample, we developed a droplet-based, automated partitioning technology for whole genome sequencing. We applied this approach on a set of gastric cancer cell lines and a primary gastric tumor. In parallel, we conducted a separate single cell RNA-Seq analysis on these same cancers and used copy number to compare results. This joint study, covering thousands of single cell genomes and transcriptomes, revealed extensive cellular diversity based on distinct copy number changes, numerous subclonal populations and in the case of the primary tumor, subclonal gene expression signatures. We found genomic evidence of positive selection – where the percentage of replicating cells per clone is higher than expected – indicating ongoing tumor evolution. Our study demonstrates that joining single cell genomic DNA and transcriptomic features provides novel insights into cancer heterogeneity and biology. SIGNIFICANCE We conducted a massively parallel DNA sequencing analysis on a set of gastric cancer cell lines and a primary gastric tumor in combination with a joint single cell RNA-Seq analysis. This joint study, covering thousands of single cell genomes and transcriptomes, revealed extensive cellular diversity based on distinct copy number changes, numerous subclonal populations and in the case of the primary tumor, subclonal gene expression signatures. We found genomic evidence of positive selection where the percentage of replicating cells per clone is higher than expected indicating ongoing tumor evolution. Our study demonstrates that combining single cell genomic DNA and transcriptomic features provides novel insights into cancer heterogeneity and biology.
0
Citation20
0
Save
0

Structural and functional impact of non- synonymous SNPs in the CST complex subunit TEN1: Structural genomics approach

Mohd. Amir et al.Dec 27, 2018
+6
T
V
M
TEN1 protein is a key component of CST complex, implicated in maintaining the telomere homeostasis, and provide stability to the eukaryotic genome. Mutations in TEN1 gene have higher chances of deleterious impact; thus, interpreting the number of mutations and their consequential impact on the structure, stability and function is essentially important. Here, we have investigated the structural and functional consequences of nsSNPs in the TEN1 gene. A wide array of sequence- and structure-based computational prediction tools were employed to identify the effects of 78 nsSNPs on the structure and function of TEN1 protein and deleterious nsSNPs were identified. These deleterious or destabilizing nsSNPs are scattered throughout the structure of TEN1. However, major mutations were observed in the α1-helix (12-16) and β5-strand (88-96). We further observed that mutations at C-terminal region were have higher tendency to form aggregate. In-depth structural analysis of these mutations reveals that the pathogenecity of these mutations are driven mainly through larger structural changes because of alterations in non-covalent interactions. This work provides a blue print to pinpoint the possible consequences of pathogenic mutations in the CST complex subunit TEN1.
0
Citation3
0
Save
0

Reference Quality Assembly of the 3.5 Gb genome of Capsicum annuum from a Single Linked-Read Library

Amanda Hulse‐Kemp et al.Jun 20, 2017
+10
K
S
A
Abstract Background Linked-Read sequencing technology has recently been employed successfully for de novo assembly of multiple human genomes, however the utility of this technology for complex plant genomes is unproven. We evaluated the technology for this purpose by sequencing the 3.5 gigabase (Gb) diploid pepper (Capsicum annuum) genome with a single Linked-Read library. Plant genomes, including pepper, are characterized by long, highly similar repetitive sequences. Accordingly, significant effort is used to ensure the sequenced plant is highly homozygous and the resulting assembly is a haploid consensus. With a phased assembly approach, we targeted a heterozygous F 1 derived from a wide cross to assess the ability to derive both haplotypes for a pungency gene characterized by a large insertion/deletion. Results The Supernova software generated a highly ordered, more contiguous sequence assembly than all currently available C. annuum reference genomes. Eighty-four percent of the final assembly was anchored and oriented using four de novo linkage maps. A comparison of the annotation of conserved eukaryotic genes indicated the completeness of assembly. The validity of the phased assembly is further demonstrated with the complete recovery of both 2.5 kb insertion/deletion haplotypes of the PUN1 locus in the F 1 sample that represents pungent and non-pungent peppers. Conclusions The most contiguous pepper genome assembly to date has been generated through this work which demonstrates that Linked-Read library technology provides a rapid tool to assemble de novo complex highly repetitive heterozygous plant genomes. This technology can provide an opportunity to cost-effectively develop high-quality reference genome assemblies for other complex plants and compare structural and gene differences through accurate haplotype reconstruction.
0
Citation2
0
Save
0

Resolving sub-clonal heterogeneity within cell-line growths by single cell sequencing genomic DNA

Enrique Velazquez-Villarreal et al.Sep 5, 2019
+9
P
M
E
We performed shallow single-cell sequencing of genomic DNA across 1,475 cells from a well-studied cell-line, COLO829, to resolve overall tumor complexity and clonality. This melanoma tumor-line has been previously characterized by multiple technologies and provides a benchmark for evaluating somatic alterations, though has exhibited conflicting and indeterminate copy number states. We identified at least four major sub-clones by discriminant analysis of principal components (DAPC) of single cell copy number data. Break-point and loss of heterozygosity (LOH) analysis of aggregated data from sub-clones revealed a complex rearrangement of chromosomes 1, 10 and 18 that was maintained in all but two sub-clones. Likewise, two of the sub-clones were distinguished by loss of 1 copy of chromosome 8. Re-analysis of previous spectral karyotyping data and bulk sequencing data recapitulated these sub-clone hallmark features and explains why the original bulk sequencing experiments generated conflicting copy number results. Overall, our results demonstrate how shallow copy number profiling together with clustering analysis of single cell sequencing can uncover significant hidden insights even in well studied cell-lines.
0

Improved de novo Genome Assembly: Linked-Read Sequencing Combined with Optical Mapping Produce a High Quality Mammalian Genome at Relatively Low Cost

David Mohr et al.Apr 18, 2017
+6
N
A
D
Current short-read methods have come to dominate genome sequencing because they are cost-effective, rapid, and accurate. However, short reads are most applicable when data can be aligned to a known reference. Two new methods for de novo assembly are linked-reads and restriction-site labeled optical maps. We combined commercial applications of these technologies for genome assembly of an endangered mammal, the Hawaiian Monk seal. We show that the linked-reads produced with 10X Genomics Chromium chemistry and assembled with Supernova v1.1 software produced scaffolds with an N50 of 22.23 Mbp with the longest individual scaffold of 84.06 Mbp. When combined with Bionano Genomics optical maps using Bionano RefAligner, the scaffold N50 increased to 29.65 Mbp for a total of 170 hybrid scaffolds, the longest of which was 84.78 Mbp. These results were 161X and 215X, respectively, improved over DISCOVAR de novo assemblies. The quality of the scaffolds was assessed using conserved synteny analysis of both the DNA sequence and predicted seal proteins relative to the genomes of humans and other species. We found large blocks of conserved synteny suggesting that the hybrid scaffolds were high quality. An inversion in one scaffold complementary to human chromosome 6 was found and confirmed by optical maps. The complementarity of linked-reads and optical maps is likely to make the production of high quality genomes more routine and economical and, by doing so, significantly improve our understanding of comparative genome biology.
0

Mutational sequencing for accurate count and long-range assembly

Vijay Kumar et al.Jun 13, 2017
+4
T
Z
V
We introduce a new protocol, mutational sequencing or muSeq, which randomly deaminates unmethylated cytosines at a fixed and tunable rate. The muSeq protocol marks each initial template molecule with a unique mutation signature that is present in every copy of the template, and in every fragmented copy of a copy. In the sequenced read data, this signature is observed as a unique pattern of C-to-T or G-to-A nucleotide conversions. Clustering reads with the same conversion pattern enables accurate count and long-range assembly of initial template molecules from short-read sequence data. We explore count and low-error sequencing by profiling a 135,000 fragment PstI representation, demonstrating that muSeq improves copy number inference and significantly reduces sporadic sequencer error. We explore long-range assembly in the context of cDNA, generating contiguous transcript clusters greater than 3,000 bp in length. The muSeq assemblies reveal transcriptional diversity not observable from short-read data alone.
0

Rare variants in the genetic background modulate the expressivity of neurodevelopmental disorders

Lucilla Pizzo et al.Feb 1, 2018
+58
A
M
L
Purpose: To assess the contribution of rare variants in the genetic background towards variability of neurodevelopmental phenotypes in individuals with rare copy-number variants (CNVs) and gene-disruptive mutations. Methods: We analyzed quantitative clinical information, exome-sequencing, and microarray data from 757 probands and 233 parents and siblings who carry disease-associated mutations. Results: The number of rare secondary mutations in functionally intolerant genes (second-hits) correlated with the expressivity of neurodevelopmental phenotypes in probands with 16p12.1 deletion (n=23, p=0.004) and in probands with autism carrying gene-disruptive mutations (n=184, p=0.03) compared to their carrier family members. Probands with 16p12.1 deletion and a strong family history presented more severe clinical features (p=0.04) and higher burden of second-hits compared to those with mild/no family history (p=0.001). The number of secondary variants also correlated with the severity of cognitive impairment in probands carrying pathogenic rare CNVs (n=53) or de novo mutations in disease genes (n=290), and negatively correlated with head size among 80 probands with 16p11.2 deletion. These second-hits involved known disease-associated genes such as SETD5, AUTS2, and NRXN1, and were enriched for genes affecting cellular and developmental processes. Conclusion: Accurate genetic diagnosis of complex disorders will require complete evaluation of the genetic background even after a candidate gene mutation is identified.