CT
Charlotte Tolonen
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(75% Open Access)
Cited by:
8,883
h-index:
15
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.May 27, 2020
Abstract Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes that are crucial for the function of an organism will be depleted of such variants in natural populations, whereas non-essential genes will tolerate their accumulation. However, predicted loss-of-function variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes 1 . Here we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence predicted loss-of-function variants in this cohort after filtering for artefacts caused by sequencing and annotation errors. Using an improved model of human mutation rates, we classify human protein-coding genes along a spectrum that represents tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve the power of gene discovery for both common and rare diseases.
0
Citation7,204
0
Save
0

A structural variation reference for medical and population genetics

Ryan Collins et al.May 27, 2020
Structural variants (SVs) rearrange large segments of DNA1 and can have profound consequences in evolution and human disease2,3. As national biobanks, disease-association studies, and clinical genetic testing have grown increasingly reliant on genome sequencing, population references such as the Genome Aggregation Database (gnomAD)4 have become integral in the interpretation of single-nucleotide variants (SNVs)5. However, there are no reference maps of SVs from high-coverage genome sequencing comparable to those for SNVs. Here we present a reference of sequence-resolved SVs constructed from 14,891 genomes across diverse global populations (54% non-European) in gnomAD. We discovered a rich and complex landscape of 433,371 SVs, from which we estimate that SVs are responsible for 25-29% of all rare protein-truncating events per genome. We found strong correlations between natural selection against damaging SNVs and rare SVs that disrupt or duplicate protein-coding sequence, which suggests that genes that are highly intolerant to loss-of-function are also sensitive to increased dosage6. We also uncovered modest selection against noncoding SVs in cis-regulatory elements, although selection against protein-truncating SVs was stronger than all noncoding effects. Finally, we identified very large (over one megabase), rare SVs in 3.9% of samples, and estimate that 0.13% of individuals may carry an SV that meets the existing criteria for clinically important incidental findings7. This SV resource is freely distributed via the gnomAD browser8 and will have broad utility in population genetics, disease-association studies, and diagnostic screening.
0
Citation722
0
Save
0

The long tail of oncogenic drivers in prostate cancer

Joshua Armenia et al.Mar 23, 2018
Comprehensive genomic characterization of prostate cancer has identified recurrent alterations in genes involved in androgen signaling, DNA repair, and PI3K signaling, among others. However, larger and uniform genomic analysis may identify additional recurrently mutated genes at lower frequencies. Here we aggregate and uniformly analyze exome sequencing data from 1,013 prostate cancers. We identify and validate a new class of E26 transformation-specific (ETS)-fusion-negative tumors defined by mutations in epigenetic regulators, as well as alterations in pathways not previously implicated in prostate cancer, such as the spliceosome pathway. We find that the incidence of significantly mutated genes (SMGs) follows a long-tail distribution, with many genes mutated in less than 3% of cases. We identify a total of 97 SMGs, including 70 not previously implicated in prostate cancer, such as the ubiquitin ligase CUL3 and the transcription factor SPEN. Finally, comparing primary and metastatic prostate cancer identifies a set of genomic markers that may inform risk stratification. Meta-analysis of exome sequencing data identifies new recurrently mutated driver genes for prostate cancer. Comparison of primary and metastatic tumors further identifies genomic markers for advanced prostate cancer that may inform risk stratification.
0
Citation681
0
Save
40

Systematic evaluation of genome sequencing for the assessment of fetal structural anomalies

Chelsea Lowther et al.Aug 13, 2020
ABSTRACT Current clinical guidelines recommend three genetic tests for the assessment of fetal structural anomalies: karyotype to detect microscopically-visible balanced and unbalanced chromosomal rearrangements, chromosomal microarray (CMA) to detect sub-microscopic copy number variants (CNVs), and exome sequencing (ES) to identify individual nucleotide changes in coding sequence. Advances in genome sequencing (GS) analysis suggest that it is poised to displace the sequential application of all three conventional tests to become a single diagnostic approach for the assessment of fetal structural anomalies. However, systematic benchmarking is required to assure that GS can capture the full mutational spectrum associated with fetal structural anomalies and to accurately quantify the added diagnostic yield of GS. We applied a novel GS analytic framework that included the discovery, filtration, and interpretation of nine classes of genomic variation to 7,195 individuals. We assessed the sensitivity of GS to detect diagnostic variants (pathogenic or likely pathogenic) from three standard-of-care tests using 1,612 autism spectrum disorder quartet families (ASD; n=6,448) with matched GS, ES, and CMA data, and validated these findings in 46 fetuses with a clinically reportable variant originally identified by karyotype, CMA, or ES. We then assessed the added diagnostic yield of GS in 249 trios (n=747) comprising a fetus with a structural anomaly detected by ultrasound and two unaffected parents that were pre-screened with a combination of all three standard-of-care tests. Across both cohorts, our GS analytic framework identified 98.2% of all diagnostic variants detected by standard-of-care tests, including 100% of those originally detected by CMA (n=88) and ES (n=61), as well as 78.6% (n=11/14) of the chromosomal rearrangements identified by karyotype. The diagnostic yield from GS was 7.8% across all 1,612 ASD probands, almost two-fold more than CMA (4.4%) and three-fold more than ES (3.0%). We also demonstrated that the yield of ES can approach that of GS when CNVs are captured with high sensitivity from exome data (7.4% vs. 7.8%, respectively). In 249 pre-screened fetuses with structural anomalies, GS provided an additional diagnostic yield of 0.4% beyond the combination of all three tests (karyotype, CMA, and ES). Applying our benchmarking results to existing data indicates that GS can achieve an overall diagnostic yield of 46.1% in unselected fetuses with fetal structural anomalies, providing an estimated 17.2% increase in diagnostic yield over karyotype, 14.1% over CMA, and 36.1% over ES when sequence variants are assessed, and 4.1% when CNVs are also identified from exome data. In this study we demonstrate that GS is sensitive to the detection of almost all pathogenic variation captured by karyotype, CMA, and ES, provides a superior diagnostic yield than any individual test by a wide margin, and contributes a modest increase in diagnostic yield beyond the combination of all three tests. We also outline several strategies to aid the interpretation of GS variants that are cryptic to conventional technologies, which we anticipate will be increasingly encountered as comprehensive variant identification from GS is performed. Taken together, these data suggest GS warrants consideration as a first-tier diagnostic approach for fetal structural anomalies.
40
Citation13
0
Save
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Leif Groop et al.Feb 7, 2019
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Citation8
0
Save
290

A genome-wide mutational constraint map quantified from variation in 76,156 human genomes

Siwei Chen et al.Mar 21, 2022
Abstract The depletion of disruptive variation caused by purifying natural selection (constraint) has been widely used to investigate protein-coding genes underlying human disorders, but attempts to assess constraint for non-protein-coding regions have proven more difficult. Here we aggregate, process, and release a dataset of 76,156 human genomes from the Genome Aggregation Database (gnomAD), the largest public open-access human genome reference dataset, and use this dataset to build a mutational constraint map for the whole genome. We present a refined mutational model that incorporates local sequence context and regional genomic features to detect depletions of variation across the genome. As expected, proteincoding sequences overall are under stronger constraint than non-coding regions. Within the non-coding genome, constrained regions are enriched for known regulatory elements and variants implicated in complex human diseases and traits, facilitating the triangulation of biological annotation, disease association, and natural selection to non-coding DNA analysis. More constrained regulatory elements tend to regulate more constrained protein-coding genes, while non-coding constraint captures additional functional information underrecognized by gene constraint metrics. We demonstrate that this genome-wide constraint map provides an effective approach for characterizing the non-coding genome and improving the identification and interpretation of functional human genetic variation.
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.Jan 28, 2019
Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes critical for an organism’s function will be depleted for such variants in natural populations, while non-essential genes will tolerate their accumulation. However, predicted loss-of-function (pLoF) variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes[1][1]. Here, we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence pLoF variants in this cohort after filtering for sequencing and annotation artifacts. Using an improved human mutation rate model, we classify human protein-coding genes along a spectrum representing tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve gene discovery power for both common and rare diseases.### Competing Interest Statement [1]: #ref-1