AS
Andrey Sivachenko
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
28
(96% Open Access)
Cited by:
88,309
h-index:
42
/
i10-index:
62
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data

Aaron McKenna et al.Jul 19, 2010
+8
E
M
A
Next-generation DNA sequencing (NGS) projects, such as the 1000 Genomes Project, are already revolutionizing our understanding of genetic variation among individuals. However, the massive data sets generated by NGS—the 1000 Genome pilot alone includes nearly five terabases—make writing feature-rich, efficient, and robust analysis tools difficult for even computationally sophisticated individuals. Indeed, many professionals are limited in the scope and the ease with which they can answer scientific questions by the complexity of accessing and manipulating the data produced by these machines. Here, we discuss our Genome Analysis Toolkit (GATK), a structured programming framework designed to ease the development of efficient and robust analysis tools for next-generation DNA sequencers using the functional programming philosophy of MapReduce. The GATK provides a small but rich set of data access patterns that encompass the majority of analysis tool needs. Separating specific analysis calculations from common data management infrastructure enables us to optimize the GATK framework for correctness, stability, and CPU and memory efficiency and to enable distributed and shared memory parallelization. We highlight the capabilities of the GATK by describing the implementation and application of robust, scale-tolerant tools like coverage calculators and single nucleotide polymorphism (SNP) calling. We conclude that the GATK programming framework enables developers and analysts to quickly and easily write efficient and robust NGS tools, many of which have already been incorporated into large-scale sequencing projects like the 1000 Genomes Project and The Cancer Genome Atlas.
0
3

Comprehensive molecular portraits of human breast tumours

Daniel Koboldt et al.Sep 21, 2012
+97
Y
M
D
We analysed primary breast cancers by genomic DNA copy number arrays, DNA methylation, exome sequencing, messenger RNA arrays, microRNA sequencing and reverse-phase protein arrays. Our ability to integrate information across platforms provided key insights into previously defined gene expression subtypes and demonstrated the existence of four main breast cancer classes when combining data from five platforms, each of which shows significant molecular heterogeneity. Somatic mutations in only three genes (TP53, PIK3CA and GATA3) occurred at >10% incidence across all breast cancers; however, there were numerous subtype-associated and novel gene mutations including the enrichment of specific mutations in GATA3, PIK3CA and MAP3K1 with the luminal A subtype. We identified two novel protein-expression-defined subgroups, possibly produced by stromal/microenvironmental elements, and integrated analyses identified specific signalling pathways dominant in each molecular subtype including a HER2/phosphorylated HER2/EGFR/phosphorylated EGFR signature within the HER2-enriched expression subtype. Comparison of basal-like breast tumours with high-grade serous ovarian tumours showed many molecular commonalities, indicating a related aetiology and similar therapeutic opportunities. The biological finding of the four main breast cancer subtypes caused by different subsets of genetic and epigenetic abnormalities raises the hypothesis that much of the clinically observable plasticity and heterogeneity occurs within, and not across, these major biological subtypes of breast cancer. The Cancer Genome Atlas Network describe their multifaceted analyses of primary breast cancers, shedding light on breast cancer heterogeneity; although only three genes (TP53, PIK3CA and GATA3) are mutated at a frequency greater than 10% across all breast cancers, numerous subtype-associated and novel mutations were identified. This Article from the Cancer Genome Atlas consortium describes a multifaceted analysis of primary breast cancers in 825 people. Exome sequencing, copy number variation, DNA methylation, messenger RNA arrays, microRNA sequencing and proteomic analyses were performed and integrated to shed light on breast-cancer heterogeneity. Just three genes — TP53, PIK3CA and GATA3 — are mutated at greater than 10% frequency across all breast cancers. Many subtype-associated and novel mutations were identified, as well as two breast-cancer subgroups with specific signalling-pathway signatures. The analyses also suggest that much of the clinically observable plasticity and heterogeneity occurs within, and not across, the major subtypes of breast cancer.
3
0

A framework for variation discovery and genotyping using next-generation DNA sequencing data

Mark DePristo et al.Apr 10, 2011
+15
R
E
M
Mark DePristo and colleagues report an analytical framework to discover and genotype variation using whole exome and genome resequencing data from next-generation sequencing technologies. They apply these methods to low-pass population sequencing data from the 1000 Genomes Project. Recent advances in sequencing technology make it possible to comprehensively catalog genetic variation in population samples, creating a foundation for understanding human disease, ancestry and evolution. The amounts of raw data produced are prodigious, and many computational steps are required to translate this output into high-quality variant calls. We present a unified analytic framework to discover and genotype variation among multiple samples simultaneously that achieves sensitive and specific results across five sequencing technologies and three distinct, canonical experimental designs. Our process includes (i) initial read mapping; (ii) local realignment around indels; (iii) base quality score recalibration; (iv) SNP discovery and genotyping to find all potential variants; and (v) machine learning to separate true segregating variation from machine artifacts common to next-generation sequencing technologies. We here discuss the application of these tools, instantiated in the Genome Analysis Toolkit, to deep whole-genome, whole-exome capture and multi-sample low-pass (∼4×) 1000 Genomes Project datasets.
0
0

Integrated genomic analyses of ovarian carcinoma

Abel González-Pérez et al.Jun 28, 2011
+100
B
N
A
A catalogue of molecular aberrations that cause ovarian cancer is critical for developing and deploying therapies that will improve patients’ lives. The Cancer Genome Atlas project has analysed messenger RNA expression, microRNA expression, promoter methylation and DNA copy number in 489 high-grade serous ovarian adenocarcinomas and the DNA sequences of exons from coding genes in 316 of these tumours. Here we report that high-grade serous ovarian cancer is characterized by TP53 mutations in almost all tumours (96%); low prevalence but statistically recurrent somatic mutations in nine further genes including NF1, BRCA1, BRCA2, RB1 and CDK12; 113 significant focal DNA copy number aberrations; and promoter methylation events involving 168 genes. Analyses delineated four ovarian cancer transcriptional subtypes, three microRNA subtypes, four promoter methylation subtypes and a transcriptional signature associated with survival duration, and shed new light on the impact that tumours with BRCA1/2 (BRCA1 or BRCA2) and CCNE1 aberrations have on survival. Pathway analyses suggested that homologous recombination is defective in about half of the tumours analysed, and that NOTCH and FOXM1 signalling are involved in serous ovarian cancer pathophysiology. The Cancer Genome Atlas (TCGA) project reports here its analysis of messenger RNA and microRNA expression, promoter methylation, DNA copy number and exome sequences in 489 high-grade serous ovarian adenocarcinomas. The analyses help establish new tumour subtypes. Among other insights is the finding that while the gene encoding p53 tumour suppressor is mutated in almost all tumours, nine other loci including NF1, BRCA1, BRCA2, RB1 and CDK12 carry recurrent albeit low-prevalence mutations. Homologous recombination is defective in about half of the tumours studied, and Notch and FOXM1 signalling are involved in the pathophysiology.
0
Citation7,053
0
Save
0

Mutational heterogeneity in cancer and the search for new cancer-associated genes

Michael Lawrence et al.Jun 16, 2013
+62
P
P
M
As the sample size in cancer genome studies increases, the list of genes identified as significantly mutated is likely to include more false positives; here, this problem is identified as stemming largely from mutation heterogeneity, and a new analytical methodology designed to overcome this problem is described. Cancer genomic approaches have identified scores of genes responsible for the initiation and progression of cancer. But as the sample sizes increase, the list of putatively significant genes identified by current analytical methods continues to grow and is likely to include many false positives. This study shows that this situation stems largely from mutational heterogeneity and presents a novel methodology, MutSigCV, that overcomes the problem by incorporating mutational heterogeneity into the analysis. Application of MutSigCV to more than 3,000 tumour samples from 27 different tumour types shows that mutation frequencies vary more than 1,000-fold between extreme samples both between and within tumour types. And when applied to a data set on lung cancer, MutSigCV reduced the list of significantly mutated genes from 450 to a more manageable 11, most of them previously reported to be mutated in squamous cell lung cancer. Major international projects are underway that are aimed at creating a comprehensive catalogue of all the genes responsible for the initiation and progression of cancer1,2,3,4,5,6,7,8,9. These studies involve the sequencing of matched tumour–normal samples followed by mathematical analysis to identify those genes in which mutations occur more frequently than expected by random chance. Here we describe a fundamental problem with cancer genome studies: as the sample size increases, the list of putatively significant genes produced by current analytical methods burgeons into the hundreds. The list includes many implausible genes (such as those encoding olfactory receptors and the muscle protein titin), suggesting extensive false-positive findings that overshadow true driver events. We show that this problem stems largely from mutational heterogeneity and provide a novel analytical methodology, MutSigCV, for resolving the problem. We apply MutSigCV to exome sequences from 3,083 tumour–normal pairs and discover extraordinary variation in mutation frequency and spectrum within cancer types, which sheds light on mutational processes and disease aetiology, and in mutation frequency across the genome, which is strongly correlated with DNA replication timing and also with transcriptional activity. By incorporating mutational heterogeneity into the analyses, MutSigCV is able to eliminate most of the apparent artefactual findings and enable the identification of genes truly associated with cancer.
0
Citation5,086
0
Save
2

Integrated genomic characterization of endometrial carcinoma

David Berg et al.Apr 30, 2013
+95
K
S
D
We performed an integrated genomic, transcriptomic and proteomic characterization of 373 endometrial carcinomas using array- and sequencing-based technologies. Uterine serous tumours and ∼25% of high-grade endometrioid tumours had extensive copy number alterations, few DNA methylation changes, low oestrogen receptor/progesterone receptor levels, and frequent TP53 mutations. Most endometrioid tumours had few copy number alterations or TP53 mutations, but frequent mutations in PTEN, CTNNB1, PIK3CA, ARID1A and KRAS and novel mutations in the SWI/SNF chromatin remodelling complex gene ARID5B. A subset of endometrioid tumours that we identified had a markedly increased transversion mutation frequency and newly identified hotspot mutations in POLE. Our results classified endometrial cancers into four categories: POLE ultramutated, microsatellite instability hypermutated, copy-number low, and copy-number high. Uterine serous carcinomas share genomic features with ovarian serous and basal-like breast carcinomas. We demonstrated that the genomic features of endometrial carcinomas permit a reclassification that may affect post-surgical adjuvant treatment for women with aggressive tumours. An integrative genomic analysis of several hundred endometrial carcinomas shows that a minority of tumour samples carry copy number alterations or TP53 mutations and many contain key cancer-related gene mutations, such as those involved in canonical pathways and chromatin remodelling; a reclassification of endometrial tumours into four distinct types is proposed, which may have an effect on patient treatment regimes. This paper from The Cancer Genome Atlas Research Network presents an in-depth genome-wide analysis of endometrial (uterine) carcinomas from more than 350 patients. Based on a series of genomic features including newly identified hotspot mutations in the DNA polymerase gene POLE, and novel mutations in the ARID5B DNA-binding protein, the authors propose a reclassification of endometrial tumours into four distinct types. This might have clinical relevance for post-surgical adjuvant treatment of women with aggressive tumours.
2
Citation4,568
0
Save
0

Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples

Kristian Cibulskis et al.Feb 10, 2013
+7
S
M
K
Detection of somatic point substitutions is a key step in characterizing the cancer genome. However, existing methods typically miss low-allelic-fraction mutations that occur in only a subset of the sequenced cells owing to either tumor heterogeneity or contamination by normal cells. Here we present MuTect, a method that applies a Bayesian classifier to detect somatic mutations with very low allele fractions, requiring only a few supporting reads, followed by carefully tuned filters that ensure high specificity. We also describe benchmarking approaches that use real, rather than simulated, sequencing data to evaluate the sensitivity and specificity as a function of sequencing depth, base quality and allelic fraction. Compared with other methods, MuTect has higher sensitivity with similar specificity, especially for mutations with allelic fractions as low as 0.1 and below, making MuTect particularly useful for studying cancer subclones and their evolution in standard exome and genome sequencing data.
0
Citation4,383
0
Save
0

Comprehensive molecular characterization of urothelial bladder carcinoma

John Weinstein et al.Jan 28, 2014
+115
L
C
J
Urothelial carcinoma of the bladder is a common malignancy that causes approximately 150,000 deaths per year worldwide. So far, no molecularly targeted agents have been approved for treatment of the disease. As part of The Cancer Genome Atlas project, we report here an integrated analysis of 131 urothelial carcinomas to provide a comprehensive landscape of molecular alterations. There were statistically significant recurrent mutations in 32 genes, including multiple genes involved in cell-cycle regulation, chromatin regulation, and kinase signalling pathways, as well as 9 genes not previously reported as significantly mutated in any cancer. RNA sequencing revealed four expression subtypes, two of which (papillary-like and basal/squamous-like) were also evident in microRNA sequencing and protein data. Whole-genome and RNA sequencing identified recurrent in-frame activating FGFR3–TACC3 fusions and expression or integration of several viruses (including HPV16) that are associated with gene inactivation. Our analyses identified potential therapeutic targets in 69% of the tumours, including 42% with targets in the phosphatidylinositol-3-OH kinase/AKT/mTOR pathway and 45% with targets (including ERBB2) in the RTK/MAPK pathway. Chromatin regulatory genes were more frequently mutated in urothelial carcinoma than in any other common cancer studied so far, indicating the future possibility of targeted therapy for chromatin abnormalities. This paper reports integrative molecular analyses of urothelial bladder carcinoma at the DNA, RNA, and protein levels performed as part of The Cancer Genome Atlas project; recurrent mutations were found in 32 genes, including those involved in cell-cycle regulation, chromatin regulation and kinase signalling pathways; chromatin regulatory genes were more frequently mutated in urothelial carcinoma than in any other common cancer studied so far. This study of 131 high-grade muscle-invasive urothelial bladder carcinomas, part of The Cancer Genome Atlas (TCGA) project, reports recurrent mutations in 32 genes, including those involved in cell-cycle regulation, chromatin regulation and kinase signalling pathways. Chromatin regulatory genes were more frequently mutated in urothelial carcinoma than in any common cancer studied to date. Recurrent in-frame activating FGFR3–TACC3 fusions and expression or integration of viruses associated with gene inactivation are also identified. Importantly, potential therapeutic targets are identified in 69% of the tumours.
0
Citation2,662
0
Save
0

A Landscape of Driver Mutations in Melanoma

Eran Hodis et al.Jul 1, 2012
+37
G
I
E
Despite recent insights into melanoma genetics, systematic surveys for driver mutations are challenged by an abundance of passenger mutations caused by carcinogenic UV light exposure. We developed a permutation-based framework to address this challenge, employing mutation data from intronic sequences to control for passenger mutational load on a per gene basis. Analysis of large-scale melanoma exome data by this approach discovered six novel melanoma genes (PPP6C, RAC1, SNX31, TACC1, STK19, and ARID2), three of which—RAC1, PPP6C, and STK19—harbored recurrent and potentially targetable mutations. Integration with chromosomal copy number data contextualized the landscape of driver mutations, providing oncogenic insights in BRAF- and NRAS-driven melanoma as well as those without known NRAS/BRAF mutations. The landscape also clarified a mutational basis for RB and p53 pathway deregulation in this malignancy. Finally, the spectrum of driver mutations provided unequivocal genomic evidence for a direct mutagenic role of UV light in melanoma pathogenesis.
0
Citation2,409
0
Save
0

Genome-scale DNA methylation maps of pluripotent and differentiated cells

Alexander Meissner et al.Jul 3, 2008
+10
H
T
A
DNA methylation is essential for normal development and has been implicated in many pathologies including cancer. Our knowledge about the genome-wide distribution of DNA methylation, how it changes during cellular differentiation and how it relates to histone methylation and other chromatin modifications in mammals remains limited. Here we report the generation and analysis of genome-scale DNA methylation profiles at nucleotide resolution in mammalian cells. Using high-throughput reduced representation bisulphite sequencing and single-molecule-based sequencing, we generated DNA methylation maps covering most CpG islands, and a representative sampling of conserved non-coding elements, transposons and other genomic features, for mouse embryonic stem cells, embryonic-stem-cell-derived and primary neural cells, and eight other primary tissues. Several key findings emerge from the data. First, DNA methylation patterns are better correlated with histone methylation patterns than with the underlying genome sequence context. Second, methylation of CpGs are dynamic epigenetic marks that undergo extensive changes during cellular differentiation, particularly in regulatory regions outside of core promoters. Third, analysis of embryonic-stem-cell-derived and primary cells reveals that 'weak' CpG islands associated with a specific set of developmentally regulated genes undergo aberrant hypermethylation during extended proliferation in vitro, in a pattern reminiscent of that reported in some primary tumours. More generally, the results establish reduced representation bisulphite sequencing as a powerful technology for epigenetic profiling of cell populations relevant to developmental biology, cancer and regenerative medicine.
0
Citation2,405
0
Save
Load More