JS
José Soto
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
14
(50% Open Access)
Cited by:
8,329
h-index:
14
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The mutational constraint spectrum quantified from variation in 141,456 humans

Konrad Karczewski et al.May 27, 2020
Abstract Genetic variants that inactivate protein-coding genes are a powerful source of information about the phenotypic consequences of gene disruption: genes that are crucial for the function of an organism will be depleted of such variants in natural populations, whereas non-essential genes will tolerate their accumulation. However, predicted loss-of-function variants are enriched for annotation errors, and tend to be found at extremely low frequencies, so their analysis requires careful variant annotation and very large sample sizes 1 . Here we describe the aggregation of 125,748 exomes and 15,708 genomes from human sequencing studies into the Genome Aggregation Database (gnomAD). We identify 443,769 high-confidence predicted loss-of-function variants in this cohort after filtering for artefacts caused by sequencing and annotation errors. Using an improved model of human mutation rates, we classify human protein-coding genes along a spectrum that represents tolerance to inactivation, validate this classification using data from model organisms and engineered human cells, and show that it can be used to improve the power of gene discovery for both common and rare diseases.
0
Citation7,592
0
Save
0

A structural variation reference for medical and population genetics

Ryan Collins et al.May 27, 2020
Structural variants (SVs) rearrange large segments of DNA1 and can have profound consequences in evolution and human disease2,3. As national biobanks, disease-association studies, and clinical genetic testing have grown increasingly reliant on genome sequencing, population references such as the Genome Aggregation Database (gnomAD)4 have become integral in the interpretation of single-nucleotide variants (SNVs)5. However, there are no reference maps of SVs from high-coverage genome sequencing comparable to those for SNVs. Here we present a reference of sequence-resolved SVs constructed from 14,891 genomes across diverse global populations (54% non-European) in gnomAD. We discovered a rich and complex landscape of 433,371 SVs, from which we estimate that SVs are responsible for 25-29% of all rare protein-truncating events per genome. We found strong correlations between natural selection against damaging SNVs and rare SVs that disrupt or duplicate protein-coding sequence, which suggests that genes that are highly intolerant to loss-of-function are also sensitive to increased dosage6. We also uncovered modest selection against noncoding SVs in cis-regulatory elements, although selection against protein-truncating SVs was stronger than all noncoding effects. Finally, we identified very large (over one megabase), rare SVs in 3.9% of samples, and estimate that 0.13% of individuals may carry an SV that meets the existing criteria for clinically important incidental findings7. This SV resource is freely distributed via the gnomAD browser8 and will have broad utility in population genetics, disease-association studies, and diagnostic screening.
0
Citation722
0
Save
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Leif Groop et al.Feb 7, 2019
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Citation8
0
Save
72

Mitochondrial DNA variation across 56,434 individuals in gnomAD

Kristen Laricchia et al.Jul 23, 2021
ABSTRACT Databases of allele frequency are extremely helpful for evaluating clinical variants of unknown significance; however, until now, genetic databases such as the Genome Aggregation Database (gnomAD) have ignored the mitochondrial genome (mtDNA). Here we present a pipeline to call mtDNA variants that addresses three technical challenges: (i) detecting homoplasmic and heteroplasmic variants, present respectively in all or a fraction of mtDNA molecules, (ii) circular mtDNA genome, and (iii) misalignment of nuclear sequences of mitochondrial origin (NUMTs). We observed that mtDNA copy number per cell varied across gnomAD cohorts and influenced the fraction of NUMT-derived false-positive variant calls, which can account for the majority of putative heteroplasmies. To avoid false positives, we excluded samples prone to NUMT misalignment (few mtDNA copies per cell), cell line artifacts (many mtDNA copies per cell), or with contamination and we reported variants with heteroplasmy greater than 10%. We applied this pipeline to 56,434 whole genome sequences in the gnomAD v3.1 database that includes individuals of European (58%), African (25%), Latino (10%), and Asian (5%) ancestry. Our gnomAD v3.1 release contains population frequencies for 10,850 unique mtDNA variants at more than half of all mtDNA bases. Importantly, we report frequencies within each nuclear ancestral population and mitochondrial haplogroup. Homoplasmic variants account for most variant calls (98%) and unique variants (85%). We observed that 1/250 individuals carry a pathogenic mtDNA variant with heteroplasmy above 10%. These mitochondrial population allele frequencies are publicly available at gnomad.broadinstitute.org and will aid in diagnostic interpretation and research studies.
72
Citation6
0
Save
0

Genomic variants associated with inborn errors in carbohydrate metabolism in southwestern Colombia

Jaime Belalcazar et al.Aug 31, 2024
Introduction: Carbohydrate Inborn Errors of Metabolism (IEMs) result from disruption of the catabolic or anabolic pathways of different carbohydrates, fructose, galactose and glycogen being the most common and belong to a heterogeneous group of disorders that may be inherited or may occur as a result of spontaneous genetic variants. In IEM, there are altered carbohydrate pathways, both catabolic and anabolic pathways, including fructose, galactose and glycogen metabolism, resulting in a heterogeneous group of disorders. However, data on these pathologies in Colombia are scarce. The aim of our study was to identify genomic variants associated with carbohydrate IEM in the southwestern Colombian population lacking clinical diagnosis. Results: We performed a cross-sectional study, sequencing 320 exomes and classifying variants according to standard guidelines. We identified 286 variants, including 206 new variants and 73 benign or probably benign variants. Notably, six variants in genes such as GALT, GAK1, ALDOB, GAA and SLC2A1 were of uncertain significance, and one pathogenic variant in the GALT gene was associated with classic galactosemia. Interestingly, 18% were intronic, 5% missense, 10% synonymous, and 67% unreported variants. Conclusions: These findings highlight the need for early diagnostic programs to implement targeted treatments, including transdisciplinary management to minimize morbidity and mortality. Genetic counseling and risk education are crucial, facilitating anticipatory and preventive medicine approaches, thus advancing precision medicine.
0
Citation1
0
Save
0

High-throughput single nucleotide polymorphism (SNP) discovery and validation through whole-genome resequencing of hundreds of individuals in Nile tilapia (Oreochromis niloticus)

José Yáñez et al.Mar 31, 2019
Nile Tilapia (Oreochromis niloticus) is the second most important farmed fish in the world and a sustainable source of protein for human consumption. Several genetic improvement programs have been established for this species in the world and so far, they are mainly based on conventional selection using genealogical and phenotypic information to estimate the genetic merit of breeders and make selection decisions. Genome-wide information can be exploited to efficiently incorporate traits that are difficult to measure in the breeding goal. Thus, SNPs are required to investigate phenotype–genotype associations and determine the genomic basis of economically important traits. We performed de novo SNP discovery in three different populations of farmed tilapias. A total of 29.9 million non-redundant SNPs were identified through Illumina (HiSeq 2500) whole-genome resequencing of 326 individual samples. After applying several filtering steps including removing SNP based on genotype and site quality, presence of Mendelian errors, and non unique position in the genome, a total of high quality 50,000 SNP were selected for validation purposes. These SNPs were highly informative in the three populations analyzed showing between 43,869 (94%) and 46,139 (99%) SNP in HWE; 37,843 (76%) and 45,171(90%) SNP with a MAF higher than 0.05 and; 43,450 (87%) and 46,570 (93%) SNPs with a MAF higher than 0.01. The final list of 50K SNPs will be very useful for the dissection of economically relevant traits, enhancing breeding programs through genomic selection as well as supporting genetic studies in farmed populations Nile tilapia using dense genome-wide information.
0

Genome-wide association study and low-cost genomic predictions for growth and fillet yield in Nile tilapia (Oreochromis niloticus)

Grazyella Yoshida et al.Mar 9, 2019
Fillet yield (FY) and harvest weight (HW) are economically important traits in Nile tilapia production. Genetic improvement of these traits, especially for FY, are lacking, due to the absence of efficient methods to measure the traits without sacrificing fish and the use of information from relatives to selection. However, genomic information could be used by genomic selection to improve traits that are difficult to measure directly in selection candidates, as in the case of FY. The objectives of this study were: (i) to perform genome-wide association studies (GWAS) to dissect the genetic architecture of FY and HW, (ii) to evaluate the accuracy of genotype imputation and (iii) to assess the accuracy of genomic selection using true and imputed low-density (LD) single nucleotide polymorphism (SNP) panels to determine a cost-effective strategy for practical implementation of genomic information in tilapia breeding programs. The data set consisted of 5,866 phenotyped animals and 1,238 genotyped animals (108 parents and 1,130 offspring) using a 50K SNP panel. The GWAS were performed using all genotyped and phenotyped animals. The genotyped imputation was performed from LD panels (LD0.5K, LD1K and LD3K) to high-density panel (HD), using information from parents and 20% of offspring in the reference set and the remaining 80% in the validation set. In addition, we tested the accuracy of genomic selection using true and imputed genotypes comparing the accuracy obtained from pedigree-based best linear unbiased prediction (PBLUP) and genomic predictions. The results from GWAS supports evidence of the polygenic nature of FY and HW. The accuracy of imputation ranged from 0.90 to 0.98 for LD0.5K and LD3K, respectively. The accuracy of genomic prediction outperformed the estimated breeding value from PBLUP. The use of imputation for genomic selection resulted in an increased relative accuracy independent of the trait and LD panel analyzed. The present results suggest that genotype imputation could be a cost-effective strategy for genomic selection in tilapia breeding programs.
0

Variantes genómicas asociadas a errores congénitos en el metabolismo de los carbohidratos en el suroccidente colombiano

Jaime Belalcazar et al.Aug 31, 2024
Introducción: Los Errores Innatos del Metabolismo (EIM) de carbohidratos son el resultado de la interrupción de las vías catabólicas o anabólicas de diferentes carbohidratos, siendo la fructosa, la galactosa y el glucógeno los más comunes y pertenecen a un grupo heterogéneo de trastornos que pueden ser hereditarios o pueden ocurrir como resultado de variantes genéticas espontáneas. En los EIM, están las vías de los carbohidratos alteradas, tanto las vías catabólicas como las anabólicas, incluyendo el metabolismo de la fructosa, galactosa y glucógeno, dando lugar a un grupo heterogéneo de trastornos. Sin embargo, los datos sobre estas patologías en Colombia son escasos. Nuestro estudio tuvo como objetivo identificar variantes genómicas asociadas a EIM por carbohidratos en población del suroccidente colombiano carente de diagnóstico clínico. Resultados: Realizamos un estudio transversal, secuenciando 320 exomas y clasificando las variantes de acuerdo a guías estándar. Identificamos 286 variantes, incluyendo 206 nuevas y 73 variantes benignas o probablemente benignas. En particular, seis variantes en genes como GALT, GAK1, ALDOB, GAA y SLC2A1 tenían un significado incierto, y una variante patogénica en el gen GALT se asoció con la galactosemia clásica. Curiosamente, el 18% eran intrónicas, el 5% con sentido erroneo, el 10% sinónimas y el 67% variantes no notificadas. Conclusiones: Estos hallazgos ponen de relieve la necesidad de programas de diagnóstico precoz para aplicar tratamientos específicos, incluido el manejo transdisciplinar para minimizar la morbilidad y la mortalidad. El consejo genético y la educación sobre el riesgo son cruciales, facilitando enfoques de medicina anticipatoria y preventiva, avanzando así en la medicina de precisión.
0

Nuevas variantes en el gen TMEM126B asociadas a la deficiencia del complejo I deshidrogenasa identificadas en paciente pediátrico del Suroccidente Colombiano

Mariana Ardila-Marín et al.Dec 9, 2024
Introducción: La deficiencia del complejo I es el defecto bioquímico más común del sistema de fosforilación oxidativa, se ha asociado con variantes patogénicas en el gen TMEM126B que codifica para el factor de ensamblaje TMEM126B a nivel mitocondrial y que da lugar a una presentación fenotípica diversa como intolerancia al ejercicio, debilidad muscular, acidemia hiperláctica, miocardiopatía hipertrófica y acidosis tubular renal. Objetivo: Reportar nuevas variantes en el gen TMEM126B identificadas en un paciente pediátrico masculino con deficiencia del complejo I. Materiales y Métodos: Paciente masculino de 11 meses con antecedente de hipotonía congénita. Se le realizó la secuenciación del exoma completo + CNV por NGS; las variantes reportadas fueron analizadas por softwares bioinformáticos como Mutation Taster, UMD-Predictor, POLYPHEN, SIFT, DANN, Human Splicing Finder y Varsome. Finalmente, se construyó una red de interacción génica por el programa GeneMania para identificar asociaciones génicas cercanas. Resultados: Se identificaron las variantes c.222_223del (p.Gln74HisfsTer26) y c.509+61del (p?) en el gen TMEM126B. Estas variantes no están reportadas en bases de datos poblaciones y tampoco descritas en la literatura mundial. A partir del análisis en softwares bioinformáticos se concluyó que tienen significancia probablemente patogénica e incierta, respectivamente. La red de interacción mostró que TMEM126B está directamente relacionado con la familia de genes TMEM126, DYNC12 y NDUFAF1. Conclusión: El reporte de nuevas variantes en el gen TMEM126B mediante el uso de técnicas genómicas-bioinformáticas permiten ampliar el espectro de variantes genéticas, especialmente las intrónicas, contribuir al diagnóstico dirigido de pacientes con enfermedades mitocondriales y brindar una atención individualizada y hacer un acercamiento a la medicina de precisión.
0

Caracterización demográfica, clínica, paraclínica y molecular de pacientes con enfermedad de Gaucher tipo 1 en el Suroccidente Colombiano

Daniela Arturo-Terranova et al.Nov 14, 2024
Introducción: La enfermedad de Gaucher tipo 1 (EG1) es una enfermedad genética causada por la deficiencia enzimática de β-glucocerebrosidasa, lo que conduce a la acumulación de esfingolípidos en el organismo. La afectación ósea es frecuente en la EG, provocando dolor, necrosis e incluso fracturas o déficit de crecimiento, con cirugías dolorosas y disminución progresiva de la calidad de vida. Metodología: estudio observacional retrospectivo con 30 pacientes diagnosticados con EG1 del suroccidente colombiano, recopilando datos demográficos, clínicos, paraclínicos y moleculares. Resultados y discusión: La edad media de los pacientes fue de 35 años, el 23% con antecedentes familiares de EG1. El síntoma inicial en el 87% de los pacientes fue visceromegalia y citopenias. El tiempo promedio desde el inicio de los síntomas hasta el diagnóstico fue de 7 años. Los pacientes presentaron enfermedades hematológicas (37%), renales (3%), neurológicas (7%) y óseas (33%). La actividad media de β-glucosidasa fue de 2.33 μmol/hr/ml, y el tiempo promedio entre diagnóstico y tratamiento fue de 1.33 años. Todos los pacientes mostraron actividad enzimática reducida al diagnóstico. El 76.6% recibió terapia específica, incluyendo Terapia de Reemplazo Enzimático (TRE) y Terapia de Reducción de Sustrato (TRS). El análisis genético reveló homocigosis en 4%, heterocigotos compuestos en 52% y heterocigotos simples en 40%. Se identificaron 13 variantes patogénicas, siendo la más frecuente p.Asn409Ser (42%). Conclusión: Este es el primer estudio colombiano que correlaciona variables demográficas, clínicas, paraclínicas y moleculares en pacientes con EG1, proporcionando una base de datos que permite un abordaje multimodal para mejorar el diagnóstico y tratamiento de la EG1 en Colombia, acordándonos a la medicina de precisión
Load More