SI
Sumaiya Iqbal
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Broad Institute, Massachusetts General Hospital, Dana-Farber/Harvard Cancer Center
+ 7 more
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(57% Open Access)
Cited by:
2
h-index:
16
/
i10-index:
22
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genomics 2 Proteins portal: A resource and discovery tool for linking genetic screening outputs to protein sequences and structures

Soo Kwon et al.May 26, 2024
+7
D
J
S
Recent advances in AI-based methods have revolutionized the field of structural biology. Concomitantly, high-throughput sequencing and functional genomics technologies have enabled the detection and generation of variants at an unprecedented scale. However, efficient tools and resources are needed to link these two disparate data types - to "map" variants onto protein structures, to better understand how the variation causes disease and thereby design therapeutics. Here we present the Genomics 2 Proteins Portal (G2P; g2p.broadinstitute.org/): a human proteome-wide resource that maps 19,996,443 genetic variants onto 42,413 protein sequences and 77,923 structures, with a comprehensive set of structural and functional features. Additionally, the G2P portal generalizes the capability of linking genomics to proteins beyond databases by allowing users to interactively upload protein residue-wise annotations (variants, scores, etc.) as well as the protein structure to establish the connection. The portal serves as an easy-to-use discovery tool for researchers and scientists to hypothesize the structure-function relationship between natural or synthetic variations and their molecular phenotype.
1

Mapping MAVE data for use in human genomics applications

Jeremy Arbesfeld et al.Oct 24, 2023
+13
K
E
J
Abstract The Data Coordination and Dissemination Workstream of the Atlas of Variant Effects Alliance developed a novel method to map multiplexed assays of variant effect data to human reference sequences. This method was applied to 209 human score sets in MaveDB, across approximately 2.5 million protein and genomic variants, and successfully mapped 99.00% of examined variants. This effort enables the standardization and dissemination of MAVE data to precision medicine resources including the UCSC Genome Browser, ultimately assisting downstream users in the clinical assessment of variant pathogenicity.
0

Burden analysis of missense variants in 1,330 disease-associated genes on 3D provides insights into the mutation effects

Sumaiya Iqbal et al.May 7, 2020
+13
E
J
S
Interpretation of the colossal number of genetic variants identified from sequencing applications is one of the major bottlenecks in clinical genetics, with the inference of the effect of amino acid-substituting missense variants on protein structure and function being especially challenging. Here we evaluated the burden of amino acids affected in pathogenic variants (n=32,923) compared to the variants (n=164,915) from the general population in 1,330 disease-associated genes on forty protein features using over 14,000 experimentally-solved 3D structures. By analyzing the whole gene/variant set jointly, we identified 18 features associated with 3D mutational hotspots that are generally important for protein fitness and stability. Individual analyses performed for twenty-four protein functional classes further revealed 240 characteristics of mutational hotspots in total, including new associations recapitulating the sheer diversity across proteins essential structural regions. We demonstrated that the function-specific features of variants correspond to the readouts of mutagenesis experiments and positively correlate with clinically-interpreted pathogenic and benign missense variants. Finally, we made our results available through a web server to foster accessibility and downstream research. Our findings represent a crucial step towards translational genetics, from highlighting the impact of mutations on protein structure to rationalizing the pathogenicity of variants in terms of the perturbed molecular mechanisms.
0

Identification of pathogenic variant enriched regions across genes and gene families

Eduardo Pérez‐Palma et al.May 7, 2020
+9
S
P
E
Missense variant interpretation is challenging. Essential regions for protein function are conserved among gene family members, and genetic variants within these regions are potentially more likely to confer risk to disease. Here, we generated 2,871 gene family protein sequence alignments involving 9,990 genes and performed missense variant burden analyses to identify novel essential protein regions. We mapped 2,219,811 variants from the general population into these alignments and compared their distribution with 65,034 missense variants from patients. With this gene family approach, we identified 398 regions enriched for patient variants spanning 33,887 amino acids in 1,058 genes. As a comparison, testing the same genes individually we identified less patient variant enriched regions involving only 2,167 amino acids and 180 genes. Next, we selected de novo variants from 6,753 patients with neurodevelopmental disorders and 1,911 unaffected siblings and observed a 5.56-fold enrichment of patient variants in our identified regions (95% C.I. =2.76-Inf, p-value = 6.66x10-8). Using an independent ClinVar variant set, we found missense variants inside the identified regions are 111-fold more likely to be classified as pathogenic in comparison to benign classification (OR = 111.48, 95% C.I = 68.09-195.58, p-value < 2.2e-16). All patient variant enriched regions identified (PERs) are available online through a user-friendly platform for interactive data mining, visualization, and download at http://per.broadinstitute.org. In summary, our gene family burden analysis approach identified novel patient variant enriched regions in protein sequences. This annotation can empower variant interpretation.
1

Differential Functional Consequences ofGRIN2AMutations Associated with Schizophrenia and Neurodevelopmental Disorders

Nate Shepard et al.Oct 24, 2023
+6
S
D
N
Abstract Human genetic studies have revealed rare missense and protein-truncating variants in GRIN2A , encoding for the GluN2A subunit of the NMDA receptors, that confer significant risk for schizophrenia (SCZ). Mutations in GRIN2A are also associated with epilepsy and developmental delay/intellectual disability (DD/ID). However, it remains enigmatic how alterations to the same protein can result in diverse clinical phenotypes. Here, we performed functional characterization of human GluN1/GluN2A heteromeric NMDA receptors that contain SCZ-linked GluN2A variants, and compared them to NMDA receptors with GluN2A variants associated with epilepsy or DD/ID. Our findings demonstrate that SCZ-associated GRIN2A variants were predominantly loss-of-function (LoF), whereas epilepsy and DD/ID-associated variants resulted in both gain- and loss-of-function phenotypes. We additionally show that M653I and S809R, LoF GRIN2A variants associated with DD/ID, exert a dominant-negative effect when co-expressed with a wild-type GluN2A, whereas E58Ter and Y698C, SCZ-linked LoF variants, and A727T, an epilepsy-linked LoF variant, do not. These data offer a potential mechanism by which SCZ/epilepsy and DD/ID-linked variants can cause different effects on receptor function and therefore result in divergent pathological outcomes.
0

Predicting Functional Effects of Missense Variants in Voltage-Gated Sodium and Calcium Channels

Henrike Heyne et al.May 7, 2020
+16
S
D
H
Malfunctions of voltage-gated sodium and calcium channels (SCN and CACNA1 genes) have been associated with severe neurologic, psychiatric, cardiac and other diseases. Altered channel activity is frequently grouped into gain or loss of ion channel function (GOF or LOF, respectively) which is not only corresponding to clinical disease manifestations, but also to differences in drug response. Experimental studies of channel function are therefore important, but laborious and usually focus only on a few variants at a time. Based on known genedisease-mechanisms, we here infer LOF (518 variants) and GOF (309 variants) of likely pathogenic variants from disease phenotypes of variant carriers. We show regional clustering of inferred GOF and LOF variants, respectively, across the alignment of the entire gene family, suggesting shared pathomechanisms in the SCN/CACNA1 genes. By training a machine learning model on sequence- and structure-based features we predict LOF- or GOF-associated disease phenotypes (ROC = 0.85) of likely pathogenic missense variants. We then successfully validate the GOF versus LOF prediction on 87 functionally tested variants in SCN1/2/8A and CACNA1I (ROC = 0.73) and in exome-wide data from > 100.000 cases and controls. Ultimately, functional prediction of missense variants in clinically relevant genes will facilitate precision medicine in clinical practice.
1

MAVISp: Multi-layered Assessment of VarIants by Structure for proteins

Matteo Arnaudi et al.Oct 24, 2023
+23
K
L
M
Cancer is a complex group of diseases due to the accumulation of mutations in tumor suppressors or oncogenes in the genome. Cancer alterations can be very heterogeneous, even in tumors from the same tissue, affecting the response to treatment and risks of relapse in different patients. The role of genomics variants on cancer predisposition, progression, and response to treatment continues to be realized. Thanks to advances in sequencing techniques and their introduction in a clinical setting, the number of genomic variants discovered is growing exponentially. Many of these variants are classified as Variants of Uncertain Significance (VUS), while other variants have been reported with conflicting evidence. Applications of bioinformatic-based approaches to characterize the effects of these variants demonstrated their full potential thanks to advances in machine learning, comparisons between predicted effects and cellular readouts, and advances in the field of structural biology and biomolecular simulations. We here introduce a modular structure-based framework for the annotations and classification of the impact of variants affecting the coding region of genes and impacting on the corresponding protein product (MAVISp, M ulti-layered A ssessment of V ar I ants by S tructure for p roteins) together with a Streamlit-based web application ( https://github.com/ELELAB/MAVISp ) where the variants and the data generated by the assessment are made available to the community for consultation or further studies. Currently, MAVISp includes information for ten different proteins and more than 4000 variants. New protein targets are routinely analyzed in batches through standardized Python-based workflows and high-throughput free energy and biomolecular simulations. We also illustrate the potential of the approach for each protein included in the database. New variants will be deposited on a regular base or in connection with future publications where the approach will be applied. Finally, we provide guidelines for new contributors who are interested in contributing to the collection in relation to their research.