CM
Cory McLean
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(79% Open Access)
Cited by:
7,867
h-index:
25
/
i10-index:
32
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

GREAT improves functional interpretation of cis-regulatory regions

Cory McLean et al.May 1, 2010
+5
M
D
C
ChIP-Seq data are usually analyzed with approaches developed for microarrays, which only consider binding events within a few kilobases of a gene. McLean et al. present an algorithm that takes into account more distant events, thereby improving functional annotation of regulatory regions. We developed the Genomic Regions Enrichment of Annotations Tool (GREAT) to analyze the functional significance of cis-regulatory regions identified by localized measurements of DNA binding events across an entire genome. Whereas previous methods took into account only binding proximal to genes, GREAT is able to properly incorporate distal binding sites and control for false positives using a binomial test over the input genomic regions. GREAT incorporates annotations from 20 ontologies and is available as a web application. Applying GREAT to data sets from chromatin immunoprecipitation coupled with massively parallel sequencing (ChIP-seq) of multiple transcription-associated factors, including SRF, NRSF, GABP, Stat3 and p300 in different developmental contexts, we recover many functions of these factors that are missed by existing gene-based tools, and we generate testable hypotheses. The utility of GREAT is not limited to ChIP-seq, as it could also be applied to open chromatin, localized epigenomic markers and similar functional data sets, as well as comparative genomics sets.
0
Citation4,127
0
Save
0

Mutational Analysis Reveals the Origin and Therapy-Driven Evolution of Recurrent Glioma

Brett Johnson et al.Dec 13, 2013
+31
C
T
B
Back with a Vengeance After surgery, gliomas (a type of brain tumor) recur in nearly all patients and often in a more aggressive form. Johnson et al. (p. 189 , published online 12 December 2013) used exome sequencing to explore whether recurrent tumors harbor different mutations than the primary tumors and whether the mutational profile in the recurrences is influenced by postsurgical treatment of patients with temozolomide (TMZ), a chemotherapeutic drug known to damage DNA. In more than 40% of cases, at least half of the mutations in the initial glioma were undetected at recurrence. The recurrent tumors in many of the TMZ-treated patients bore the signature of TMZ-induced mutagenesis and appeared to follow an evolutionary path to high-grade glioma distinct from that in untreated patients.
0
Citation1,238
0
Save
0

A universal SNP and small-indel variant caller using deep neural networks

Ryan Poplin et al.Sep 24, 2018
+11
D
P
R
DeepVariant uses convolutional neural networks to improve the accuracy of variant calling. Despite rapid advances in sequencing technologies, accurately calling genetic variants present in an individual genome from billions of short, errorful sequence reads remains challenging. Here we show that a deep convolutional neural network can call genetic variation in aligned next-generation sequencing read data by learning statistical relationships between images of read pileups around putative variant and true genotype calls. The approach, called DeepVariant, outperforms existing state-of-the-art tools. The learned model generalizes across genome builds and mammalian species, allowing nonhuman sequencing projects to benefit from the wealth of human ground-truth data. We further show that DeepVariant can learn to call variants in a variety of sequencing technologies and experimental designs, including deep whole genomes from 10X Genomics and Ion Ampliseq exomes, highlighting the benefits of using more automated and generalizable techniques for variant calling.
0
Citation1,088
0
Save
0

Human-specific loss of regulatory DNA and the evolution of human-specific traits

Cory McLean et al.Mar 1, 2011
+10
A
P
C
A computational survey of the human genome has identified more than 500 human-specific genomic deletions that remove sequences that are highly conserved between chimpanzees and other animals. These are genomic changes that are likely to have contributed to unique features of human biology. Most of the deleted sequences are located in the non-coding regions of the genome. The human deletions are enriched near genes involved in neural development and steroid hormone signalling, consistent with previous suggestions that regulatory changes near key developmental control genes may have important roles in human evolution. Specific examples of human-specific deletions include one that affects penile anatomy and another relating to brain size. This study searched for putative regulatory mutations specific to the human lineage by looking for sequences that are highly conserved between chimpanzees and other species, but are not present in the human genome. The 500-odd human-specific deletions tend to lie in non-coding DNA stretches and near genes involved in steroid hormone signalling and neural function. This is illustrated with two examples, one of which affects penile anatomy whereas the other affects brain size. Humans differ from other animals in many aspects of anatomy, physiology, and behaviour; however, the genotypic basis of most human-specific traits remains unknown1. Recent whole-genome comparisons have made it possible to identify genes with elevated rates of amino acid change or divergent expression in humans, and non-coding sequences with accelerated base pair changes2,3,4,5. Regulatory alterations may be particularly likely to produce phenotypic effects while preserving viability, and are known to underlie interesting evolutionary differences in other species6,7,8. Here we identify molecular events particularly likely to produce significant regulatory changes in humans: complete deletion of sequences otherwise highly conserved between chimpanzees and other mammals. We confirm 510 such deletions in humans, which fall almost exclusively in non-coding regions and are enriched near genes involved in steroid hormone signalling and neural function. One deletion removes a sensory vibrissae and penile spine enhancer from the human androgen receptor (AR) gene, a molecular change correlated with anatomical loss of androgen-dependent sensory vibrissae and penile spines in the human lineage9,10. Another deletion removes a forebrain subventricular zone enhancer near the tumour suppressor gene growth arrest and DNA-damage-inducible, gamma (GADD45G)11,12, a loss correlated with expansion of specific brain regions in humans. Deletions of tissue-specific enhancers may thus accompany both loss and gain traits in the human lineage, and provide specific examples of the kinds of regulatory alterations6,7,8 and inactivation events13 long proposed to have an important role in human evolutionary divergence.
0
Citation494
0
Save
0

Quantifying prion disease penetrance using large population control cohorts

Eric Minikel et al.Jan 20, 2016
+60
M
S
E
Large genomic reference data sets reveal a spectrum of pathogenicity in the prion protein gene and provide genetic validation for a therapeutic strategy in prion disease.
0
Citation404
0
Save
1

Sequential regulatory activity prediction across chromosomes with convolutional neural networks

David Kelley et al.Mar 27, 2018
+3
M
Y
D
Models for predicting phenotypic outcomes from genotypes have important applications to understanding genomic function and improving human health. Here, we develop a machine-learning system to predict cell-type–specific epigenetic and transcriptional profiles in large mammalian genomes from DNA sequence alone. By use of convolutional neural networks, this system identifies promoters and distal regulatory elements and synthesizes their content to make effective gene expression predictions. We show that model predictions for the influence of genomic variants on gene expression align well to causal variants underlying eQTLs in human populations and can be useful for generating mechanistic hypotheses to enable fine mapping of disease loci.
1
Citation397
0
Save
0

A deep learning approach to pattern recognition for short DNA sequences

Akosua Busia et al.Jun 22, 2018
+6
C
G
A
Abstract Motivation Inferring properties of biological sequences--such as determining the species-of-origin of a DNA sequence or the function of an amino-acid sequence--is a core task in many bioinformatics applications. These tasks are often solved using string-matching to map query sequences to labeled database sequences or via Hidden Markov Model-like pattern matching. In the current work we describe and assess an deep learning approach which trains a deep neural network (DNN) to predict database-derived labels directly from query sequences. Results We demonstrate this DNN performs at state-of-the-art or above levels on a difficult, practically important problem: predicting species-of-origin from short reads of 16S ribosomal DNA. When trained on 16S sequences of over 13,000 distinct species, our DNN achieves read-level species classification accuracy within 2.0% of perfect memorization of training data, and produces more accurate genus-level assignments for reads from held-out species than k -mer, alignment, and taxonomic binning baselines. Moreover, our models exhibit greater robustness than these existing approaches to increasing noise in the query sequences. Finally, we show that these DNNs perform well on experimental 16S mock community dataset. Overall, our results constitute a first step towards our long-term goal of developing a general-purpose deep learning approach to predicting meaningful labels from short biological sequences. Availability TensorFlow training code is available through GitHub ( https://github.com/tensorflow/models/tree/master/research ). Data in TensorFlow TFRecord format is available on Google Cloud Storage ( gs://brain-genomics-public/research/seq2species/ ). Contact seq2species-interest@google.com Supplementary information Supplementary data are available in a separate document.
0
Citation53
0
Save
102

DeepTrio: Variant Calling in Families Using Deep Learning

Alexey Kolesnikov et al.Apr 6, 2021
+6
M
S
A
Abstract Every human inherits one copy of the genome from their mother and another from their father. Parental inheritance helps us understand the transmission of traits and genetic diseases, which often involve de novo variants and rare recessive alleles. Here we present DeepTrio, which learns to analyze child-mother-father trios from the joint sequence information, without explicit encoding of inheritance priors. DeepTrio learns how to weigh sequencing error, mapping error, and de novo rates and genome context directly from the sequence data. DeepTrio has higher accuracy on both Illumina and PacBio HiFi data when compared to DeepVariant. Improvements are especially pronounced at lower coverages (with 20x DeepTrio roughly equivalent to 30x DeepVariant). As DeepTrio learns directly from data, we also demonstrate extensions to exome calling solely by changing the training data. DeepTrio includes pre-trained models for Illumina WGS, Illumina exome, and PacBio HiFi.
102
Citation24
0
Save
45

Accurate, scalable cohort variant calls using DeepVariant and GLnexus

Taedong Yun et al.Feb 11, 2020
+4
P
H
T
Abstract Population-scale sequenced cohorts are foundational resources for genetic analyses, but processing raw reads into analysis-ready variants remains challenging. Here we introduce an open-source cohort variant-calling method using the highly-accurate caller DeepVariant and scalable merging tool GLnexus. We optimized callset quality based on benchmark samples and Mendelian consistency across many sample sizes and sequencing specifications, resulting in substantial quality improvements and cost savings over existing best practices. We further evaluated our pipeline in the 1000 Genomes Project (1KGP) samples, showing superior quality metrics and imputation performance. We publicly release the 1KGP callset to foster development of broad studies of genetic variation.
45
Citation24
0
Save
1

DeepConsensus: Gap-Aware Sequence Transformers for Sequence Correction

Gunjan Baid et al.Aug 31, 2021
+15
K
D
G
Abstract Pacific BioScience (PacBio) circular consensus sequencing (CCS) generates long (10-25 kb), accurate “HiFi” reads by combining serial observations of a DNA molecule into a consensus sequence. The standard approach to consensus generation uses a hidden Markov model (pbccs). Here, we introduce DeepConsensus, which uses a unique alignment-based loss to train a gap-aware transformer-encoder (GATE) for sequence correction. Compared to pbccs, DeepConsensus reduces read errors in the same dataset by 42%. This increases the yield of PacBio HiFi reads at Q20 by 9%, at Q30 by 27%, and at Q40 by 90%. With two SMRT Cells of HG003, reads from DeepConsensus improve hifiasm assembly contiguity (NG50 4.9Mb to 17.2Mb), increase gene completeness (94% to 97%), reduce false gene duplication rate (1.1% to 0.5%), improve assembly base accuracy (Q43 to Q45), and also reduce variant calling errors by 24%.
1
Citation10
0
Save
Load More