SI
Sumaiya Iqbal
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(75% Open Access)
Cited by:
19
h-index:
17
/
i10-index:
24
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

MAVISp: A Modular Structure-Based Framework for Genomic Variant Interpretation

Matteo Arnaudi et al.Oct 24, 2022
+24
K
L
M
The role of genomic variants in disease, including cancer, continues to expand thanks to the advent of advanced sequencing techniques integrated into clinical practice. The rapid growth in the identification of genomic variants has led to the classification of many variants as Variants of Uncertain Significance (VUS) or with conflicting evidence, posing challenges in their interpretation and application. Here we introduce MAVISp ( M ulti-layered A ssessment of V arIants by S tructure for p roteins), a modular structural framework for variant interpretation. We also provide a web server ( https://services.healthtech.dtu.dk/services/MAVISp-1.0/ ), to enhance data accessibility, consultation, and re-usability. Currently, MAVISp offers analyses for more than 200 different proteins, encompassing approximately 85000 variants. A dedicated team of biocurators and reviewers continuously analyze and update protein targets using standardized workflows, incorporating high-throughput free energy calculations or biomolecular simulations. Here, we illustrate the potential of the MAVISp approach through a selection of case studies. Our framework aids in the interpretation of genomic variants, particularly those categorized as VUS, and holds great potential for advancing the understanding and application of genomics in disease research.
1
Citation10
0
Save
0

Burden analysis of missense variants in 1,330 disease-associated genes on 3D provides insights into the mutation effects

Sumaiya Iqbal et al.Jul 4, 2019
+13
E
J
S
Abstract Interpretation of the colossal number of genetic variants identified from sequencing applications is one of the major bottlenecks in clinical genetics, with the inference of the effect of amino acid-substituting missense variants on protein structure and function being especially challenging. Here we evaluated the burden of amino acids affected in pathogenic variants (n=32,923) compared to the variants (n=164,915) from the general population in 1,330 disease-associated genes on forty protein features using over 14,000 experimentally-solved 3D structures. By analyzing the whole gene/variant set jointly, we identified 18 features associated with 3D mutational hotspots that are generally important for protein fitness and stability. Individual analyses performed for twenty-four protein functional classes further revealed 240 characteristics of mutational hotspots in total, including new associations recapitulating the sheer diversity across proteins essential structural regions. We demonstrated that the function-specific features of variants correspond to the readouts of mutagenesis experiments and positively correlate with clinically-interpreted pathogenic and benign missense variants. Finally, we made our results available through a web server to foster accessibility and downstream research. Our findings represent a crucial step towards translational genetics, from highlighting the impact of mutations on protein structure to rationalizing the pathogenicity of variants in terms of the perturbed molecular mechanisms.
0
Citation4
0
Save
0

Identification of pathogenic variant enriched regions across genes and gene families

Eduardo Pérez‐Palma et al.May 17, 2019
+10
J
J
E
Abstract Missense variant interpretation is challenging. Essential regions for protein function are conserved among gene family members, and genetic variants within these regions are potentially more likely to confer risk to disease. Here, we generated 2,871 gene family protein sequence alignments involving 9,990 genes and performed missense variant burden analyses to identify novel essential protein regions. We mapped 2,219,811 variants from the general population into these alignments and compared their distribution with 65,034 missense variants from patients. With this gene family approach, we identified 398 regions enriched for patient variants spanning 33,887 amino acids in 1,058 genes. As a comparison, testing the same genes individually we identified less patient variant enriched regions involving only 2,167 amino acids and 180 genes. Next, we selected de novo variants from 6,753 patients with neurodevelopmental disorders and 1,911 unaffected siblings, and observed a 5.56-fold enrichment of patient variants in our identified regions (95% C.I. =2.76-Inf, p-value = 6.66×10 −8 ). Using an independent ClinVar variant set, we found missense variants inside the identified regions are 111-fold more likely to be classified as pathogenic in comparison to benign classification (OR = 111.48, 95% C.I = 68.09-195.58, p-value < 2.2e −16 ). All patient variant enriched regions identified (PERs) are available online through a user-friendly platform for interactive data mining, visualization and download at http://per.broadinstitute.org . In summary, our gene family burden analysis approach identified novel patient variant enriched regions in protein sequences. This annotation can empower variant interpretation.
0
Citation2
0
Save
1

Differential Functional Consequences ofGRIN2AMutations Associated with Schizophrenia and Neurodevelopmental Disorders

Nate Shepard et al.Aug 3, 2023
+6
S
D
N
Abstract Human genetic studies have revealed rare missense and protein-truncating variants in GRIN2A , encoding for the GluN2A subunit of the NMDA receptors, that confer significant risk for schizophrenia (SCZ). Mutations in GRIN2A are also associated with epilepsy and developmental delay/intellectual disability (DD/ID). However, it remains enigmatic how alterations to the same protein can result in diverse clinical phenotypes. Here, we performed functional characterization of human GluN1/GluN2A heteromeric NMDA receptors that contain SCZ-linked GluN2A variants, and compared them to NMDA receptors with GluN2A variants associated with epilepsy or DD/ID. Our findings demonstrate that SCZ-associated GRIN2A variants were predominantly loss-of-function (LoF), whereas epilepsy and DD/ID-associated variants resulted in both gain- and loss-of-function phenotypes. We additionally show that M653I and S809R, LoF GRIN2A variants associated with DD/ID, exert a dominant-negative effect when co-expressed with a wild-type GluN2A, whereas E58Ter and Y698C, SCZ-linked LoF variants, and A727T, an epilepsy-linked LoF variant, do not. These data offer a potential mechanism by which SCZ/epilepsy and DD/ID-linked variants can cause different effects on receptor function and therefore result in divergent pathological outcomes.
1
Citation1
0
Save
0

Genomics 2 Proteins portal: A resource and discovery tool for linking genetic screening outputs to protein sequences and structures

Soo Kwon et al.Jan 2, 2024
+7
D
J
S
Recent advances in AI-based methods have revolutionized the field of structural biology. Concomitantly, high-throughput sequencing and functional genomics technologies have enabled the detection and generation of variants at an unprecedented scale. However, efficient tools and resources are needed to link these two disparate data types - to "map" variants onto protein structures, to better understand how the variation causes disease and thereby design therapeutics. Here we present the Genomics 2 Proteins Portal (G2P; g2p.broadinstitute.org/): a human proteome-wide resource that maps 19,996,443 genetic variants onto 42,413 protein sequences and 77,923 structures, with a comprehensive set of structural and functional features. Additionally, the G2P portal generalizes the capability of linking genomics to proteins beyond databases by allowing users to interactively upload protein residue-wise annotations (variants, scores, etc.) as well as the protein structure to establish the connection. The portal serves as an easy-to-use discovery tool for researchers and scientists to hypothesize the structure-function relationship between natural or synthetic variations and their molecular phenotype.
0
Citation1
0
Save
1

Mapping MAVE data for use in human genomics applications

Jeremy Arbesfeld et al.Jun 23, 2023
+17
K
E
J
The large-scale experimental measures of variant functional assays submitted to MaveDB have the potential to provide key information for resolving variants of uncertain significance, but the reporting of results relative to assayed sequence hinders their downstream utility. The Atlas of Variant Effects Alliance mapped multiplexed assays of variant effect data to human reference sequences, creating a robust set of machine-readable homology mappings. This method processed approximately 2.5 million protein and genomic variants in MaveDB, successfully mapping 98.61% of examined variants and disseminating data to resources such as the UCSC Genome Browser and Ensembl Variant Effect Predictor.
1
Citation1
0
Save
0

Predicting Functional Effects of Missense Variants in Voltage-Gated Sodium and Calcium Channels

Henrike Heyne et al.Jun 14, 2019
+16
S
D
H
Malfunctions of voltage-gated sodium and calcium channels (SCN and CACNA1 genes) have been associated with severe neurologic, psychiatric, cardiac and other diseases. Altered channel activity is frequently grouped into gain or loss of ion channel function (GOF or LOF, respectively) which is not only corresponding to clinical disease manifestations, but also to differences in drug response. Experimental studies of channel function are therefore important, but laborious and usually focus only on a few variants at a time. Based on known genedisease-mechanisms, we here infer LOF (518 variants) and GOF (309 variants) of likely pathogenic variants from disease phenotypes of variant carriers. We show regional clustering of inferred GOF and LOF variants, respectively, across the alignment of the entire gene family, suggesting shared pathomechanisms in the SCN/CACNA1 genes. By training a machine learning model on sequence- and structure-based features we predict LOF- or GOF-associated disease phenotypes (ROC = 0.85) of likely pathogenic missense variants. We then successfully validate the GOF versus LOF prediction on 87 functionally tested variants in SCN1/2/8A and CACNA1I (ROC = 0.73) and in exome-wide data from > 100.000 cases and controls. Ultimately, functional prediction of missense variants in clinically relevant genes will facilitate precision medicine in clinical practice.
0

ema-tool: a Python Library for the Comparative Analysis of Embeddings from Biomedical Foundation Models

Pia Rissom et al.Jun 27, 2024
+4
J
P
P
The increasing use of foundation models in biomedical applications raises opportunities and challenges to analyze the information captured in the high-dimensional embedding spaces of different models. Existing tools offer limited capabilities for comparing information represented in the embedding spaces of different models. We introduce ema-tool, a Python library designed to analyze and compare embeddings from different models for a set of samples, focusing on the representation of groups known to share similarities. ema-tool examines pairwise distances to uncover local and global patterns and tracks the representations and relationships of these groups across different embedding spaces. We demonstrate the use of ema-tool through two examples. In the first example, we analyze the representation of ion channel proteins across versions of the ESM protein language models. In the second example, we analyze the representation of genetic variants within the HCN1 gene across these models. The source code is available at https://github.com/broadinstitute/ema.