JS
José Soto
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
11
(55% Open Access)
Cited by:
7,941
h-index:
13
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.May 27, 2020
Abstract Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes that are crucial for the function of an organism will be depleted of such variants in natural populations, whereas non-essential genes will tolerate their accumulation. However, predicted loss-of-function variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes 1 . Here we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence predicted loss-of-function variants in this cohort after filtering for artefacts caused by sequencing and annotation errors. Using an improved model of human mutation rates, we classify human protein-coding genes along a spectrum that represents tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve the power of gene discovery for both common and rare diseases.
0
Citation7,204
0
Save
0

A structural variation reference for medical and population genetics

Ryan Collins et al.May 27, 2020
Structural variants (SVs) rearrange large segments of DNA1 and can have profound consequences in evolution and human disease2,3. As national biobanks, disease-association studies, and clinical genetic testing have grown increasingly reliant on genome sequencing, population references such as the Genome Aggregation Database (gnomAD)4 have become integral in the interpretation of single-nucleotide variants (SNVs)5. However, there are no reference maps of SVs from high-coverage genome sequencing comparable to those for SNVs. Here we present a reference of sequence-resolved SVs constructed from 14,891 genomes across diverse global populations (54% non-European) in gnomAD. We discovered a rich and complex landscape of 433,371 SVs, from which we estimate that SVs are responsible for 25-29% of all rare protein-truncating events per genome. We found strong correlations between natural selection against damaging SNVs and rare SVs that disrupt or duplicate protein-coding sequence, which suggests that genes that are highly intolerant to loss-of-function are also sensitive to increased dosage6. We also uncovered modest selection against noncoding SVs in cis-regulatory elements, although selection against protein-truncating SVs was stronger than all noncoding effects. Finally, we identified very large (over one megabase), rare SVs in 3.9% of samples, and estimate that 0.13% of individuals may carry an SV that meets the existing criteria for clinically important incidental findings7. This SV resource is freely distributed via the gnomAD browser8 and will have broad utility in population genetics, disease-association studies, and diagnostic screening.
0
Citation722
0
Save
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Leif Groop et al.Feb 7, 2019
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Citation8
0
Save
72

Mitochondrial DNA variation across 56,434 individuals in gnomAD

Kristen Laricchia et al.Jul 23, 2021
ABSTRACT Databases of allele frequency are extremely helpful for evaluating clinical variants of unknown significance; however, until now, genetic databases such as the Genome Aggregation Database (gnomAD) have ignored the mitochondrial genome (mtDNA). Here we present a pipeline to call mtDNA variants that addresses three technical challenges: (i) detecting homoplasmic and heteroplasmic variants, present respectively in all or a fraction of mtDNA molecules, (ii) circular mtDNA genome, and (iii) misalignment of nuclear sequences of mitochondrial origin (NUMTs). We observed that mtDNA copy number per cell varied across gnomAD cohorts and influenced the fraction of NUMT-derived false-positive variant calls, which can account for the majority of putative heteroplasmies. To avoid false positives, we excluded samples prone to NUMT misalignment (few mtDNA copies per cell), cell line artifacts (many mtDNA copies per cell), or with contamination and we reported variants with heteroplasmy greater than 10%. We applied this pipeline to 56,434 whole genome sequences in the gnomAD v3.1 database that includes individuals of European (58%), African (25%), Latino (10%), and Asian (5%) ancestry. Our gnomAD v3.1 release contains population frequencies for 10,850 unique mtDNA variants at more than half of all mtDNA bases. Importantly, we report frequencies within each nuclear ancestral population and mitochondrial haplogroup. Homoplasmic variants account for most variant calls (98%) and unique variants (85%). We observed that 1/250 individuals carry a pathogenic mtDNA variant with heteroplasmy above 10%. These mitochondrial population allele frequencies are publicly available at gnomad.broadinstitute.org and will aid in diagnostic interpretation and research studies.
72
Citation6
0
Save
0

Genomic variants associated with inborn errors in carbohydrate metabolism in southwestern Colombia

Jaime Belalcazar et al.Aug 31, 2024
Introduction: Carbohydrate Inborn Errors of Metabolism (IEMs) result from disruption of the catabolic or anabolic pathways of different carbohydrates, fructose, galactose and glycogen being the most common and belong to a heterogeneous group of disorders that may be inherited or may occur as a result of spontaneous genetic variants. In IEM, there are altered carbohydrate pathways, both catabolic and anabolic pathways, including fructose, galactose and glycogen metabolism, resulting in a heterogeneous group of disorders. However, data on these pathologies in Colombia are scarce. The aim of our study was to identify genomic variants associated with carbohydrate IEM in the southwestern Colombian population lacking clinical diagnosis. Results: We performed a cross-sectional study, sequencing 320 exomes and classifying variants according to standard guidelines. We identified 286 variants, including 206 new variants and 73 benign or probably benign variants. Notably, six variants in genes such as GALT, GAK1, ALDOB, GAA and SLC2A1 were of uncertain significance, and one pathogenic variant in the GALT gene was associated with classic galactosemia. Interestingly, 18% were intronic, 5% missense, 10% synonymous, and 67% unreported variants. Conclusions: These findings highlight the need for early diagnostic programs to implement targeted treatments, including transdisciplinary management to minimize morbidity and mortality. Genetic counseling and risk education are crucial, facilitating anticipatory and preventive medicine approaches, thus advancing precision medicine.
0
Citation1
0
Save
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.Jan 28, 2019
Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes critical for an organism’s function will be depleted for such variants in natural populations, while non-essential genes will tolerate their accumulation. However, predicted loss-of-function (pLoF) variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes[1][1]. Here, we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence pLoF variants in this cohort after filtering for sequencing and annotation artifacts. Using an improved human mutation rate model, we classify human protein-coding genes along a spectrum representing tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve gene discovery power for both common and rare diseases.### Competing Interest Statement [1]: #ref-1
0

Fine mapping using whole-genome sequencing confirms anti Mullerian hormone as a major gene for sex determination in farmed Nile tilapia (Oreochromis niloticus L.)

Giovanna Cáceres et al.Mar 9, 2019
Nile tilapia (Oreochromis niloticus) is one of the most cultivated and economically important species in world aquaculture. Faster male development during grow-out phase is considered a major problem that generate heterogeneous sizes of fish at harvest. Identifying genomic regions associated with sex determination in Nile tilapia is a research topic of great interest. The objective of this study was to identify genomic variants associated with sex determination in three commercial populations of Nile tilapia. Whole-genome sequencing of 326 individuals was performed, and a total of 2.4 million high-quality bi-allelic single nucleotide polymorphisms (SNPs) were identified. A genome-wide association study (GWAS) was conducted to identify markers associated with the binary sexual trait (males = 0; females = 1). A mixed logistic regression GWAS model was fitted and a genome-wide significant signal comprising 36 SNPs, located on chromosome 23 spanning a genomic region of 536 kb, was identified. Ten out of these 36 genetic variants, intercept the anti-Mullerian hormone gene. Other significant SNPs were located in the neighboring Amh gene region. This gene has been strongly associated with sex determination in several vertebrate species, playing an essential role in the differentiation of male and female reproductive tissue in early stages of development. This finding provides useful information to better understand the genetic mechanisms underlying sex determination in Nile tilapia.
0

High-throughput single nucleotide polymorphism (SNP) discovery and validation through whole-genome resequencing of hundreds of individuals in Nile tilapia (Oreochromis niloticus)

José Yáñez et al.Mar 31, 2019
Nile Tilapia (Oreochromis niloticus) is the second most important farmed fish in the world and a sustainable source of protein for human consumption. Several genetic improvement programs have been established for this species in the world and so far, they are mainly based on conventional selection using genealogical and phenotypic information to estimate the genetic merit of breeders and make selection decisions. Genome-wide information can be exploited to efficiently incorporate traits that are difficult to measure in the breeding goal. Thus, SNPs are required to investigate phenotype–genotype associations and determine the genomic basis of economically important traits. We performed de novo SNP discovery in three different populations of farmed tilapias. A total of 29.9 million non-redundant SNPs were identified through Illumina (HiSeq 2500) whole-genome resequencing of 326 individual samples. After applying several filtering steps including removing SNP based on genotype and site quality, presence of Mendelian errors, and non unique position in the genome, a total of high quality 50,000 SNP were selected for validation purposes. These SNPs were highly informative in the three populations analyzed showing between 43,869 (94%) and 46,139 (99%) SNP in HWE; 37,843 (76%) and 45,171(90%) SNP with a MAF higher than 0.05 and; 43,450 (87%) and 46,570 (93%) SNPs with a MAF higher than 0.01. The final list of 50K SNPs will be very useful for the dissection of economically relevant traits, enhancing breeding programs through genomic selection as well as supporting genetic studies in farmed populations Nile tilapia using dense genome-wide information.
0

Genome-wide association study and low-cost genomic predictions for growth and fillet yield in Nile tilapia (Oreochromis niloticus)

Grazyella Yoshida et al.Mar 9, 2019
Fillet yield (FY) and harvest weight (HW) are economically important traits in Nile tilapia production. Genetic improvement of these traits, especially for FY, are lacking, due to the absence of efficient methods to measure the traits without sacrificing fish and the use of information from relatives to selection. However, genomic information could be used by genomic selection to improve traits that are difficult to measure directly in selection candidates, as in the case of FY. The objectives of this study were: (i) to perform genome-wide association studies (GWAS) to dissect the genetic architecture of FY and HW, (ii) to evaluate the accuracy of genotype imputation and (iii) to assess the accuracy of genomic selection using true and imputed low-density (LD) single nucleotide polymorphism (SNP) panels to determine a cost-effective strategy for practical implementation of genomic information in tilapia breeding programs. The data set consisted of 5,866 phenotyped animals and 1,238 genotyped animals (108 parents and 1,130 offspring) using a 50K SNP panel. The GWAS were performed using all genotyped and phenotyped animals. The genotyped imputation was performed from LD panels (LD0.5K, LD1K and LD3K) to high-density panel (HD), using information from parents and 20% of offspring in the reference set and the remaining 80% in the validation set. In addition, we tested the accuracy of genomic selection using true and imputed genotypes comparing the accuracy obtained from pedigree-based best linear unbiased prediction (PBLUP) and genomic predictions. The results from GWAS supports evidence of the polygenic nature of FY and HW. The accuracy of imputation ranged from 0.90 to 0.98 for LD0.5K and LD3K, respectively. The accuracy of genomic prediction outperformed the estimated breeding value from PBLUP. The use of imputation for genomic selection resulted in an increased relative accuracy independent of the trait and LD panel analyzed. The present results suggest that genotype imputation could be a cost-effective strategy for genomic selection in tilapia breeding programs.
Load More