SP
Sameer Phalke
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(33% Open Access)
Cited by:
314
h-index:
15
/
i10-index:
19
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The GenomeAsia 100K Project enables genetic discoveries across Asia

Jeffrey Wall et al.Dec 4, 2019
+66
A
E
J
Abstract The underrepresentation of non-Europeans in human genetic studies so far has limited the diversity of individuals in genomic datasets and led to reduced medical relevance for a large proportion of the world’s population. Population-specific reference genome datasets as well as genome-wide association studies in diverse populations are needed to address this issue. Here we describe the pilot phase of the GenomeAsia 100K Project. This includes a whole-genome sequencing reference dataset from 1,739 individuals of 219 population groups and 64 countries across Asia. We catalogue genetic variation, population structure, disease associations and founder effects. We also explore the use of this dataset in imputation, to facilitate genetic studies in populations across Asia and worldwide.
0
Citation310
0
Save
43

South Asian Patient Population Genetics Reveal Strong Founder Effects and High Rates of Homozygosity – New Resources for Precision Medicine

Jeffrey Wall et al.Oct 2, 2020
+36
V
A
J
Abstract Population-scale genetic studies can identify drug targets and allow disease risk to be predicted with resulting benefit for management of individual health risks and system-wide allocation of health care delivery resources. Although population-scale projects are underway in many parts of the world, genetic variation between population groups means that additional projects are warranted. South Asia has a population whose genetics is the least characterized of any of the world’s major populations. Here we describe GenomeAsia studies that characterize population structure in South Asia and that create tools for economical and accurate genotyping at population-scale. Prior work on population structure characterized isolated population groups, the relevance of which to large-scale studies of disease genetics is unclear. For our studies we used whole genome sequence information from 4,807 individuals recruited in the health care delivery systems of Pakistan, India and Bangladesh to ensure relevance to population-scale studies of disease genetics. We combined this with WGS data from 927 individuals from isolated South Asian population groups, and developed a custom SNP array (called SARGAM) that is optimized for future human genetic studies in South Asia. We find evidence for high rates of reproductive isolation, endogamy and consanguinity that vary across the subcontinent and that lead to levels of homozygosity that approach 100 times that seen in outbred populations. We describe founder effects that increase the power to associate functional variants with disease processes and that make South Asia a uniquely powerful place for population-scale genetic studies.
43
Citation4
0
Save
0

Recent evolutionary history of tigers highlights contrasting roles of genetic drift and selection

Ellie Armstrong et al.Jul 9, 2019
+22
R
A
E
Tigers are among the most charismatic of endangered species, yet little is known about their evolutionary history. We sequenced 65 individual genomes representing extant tiger geographic range. We found strong genetic differentiation between putative tiger subspecies, divergence within the last 10,000 years, and demographic histories dominated by population bottlenecks. Indian tigers have substantial genetic variation and substructure stemming from population isolation and intense recent bottlenecks here. Despite high genetic diversity across India, individual tigers host longer runs of homozygosity, potentially suggesting recent inbreeding here. Amur tiger genomes revealed the strongest signals of selection and over-representation of gene ontology categories potentially involved in metabolic adaptation to cold. Novel insights highlight the antiquity of northeast Indian tigers. Our results demonstrate recent evolution, with differential isolation, selection and drift in extant tiger populations, providing insights for conservation and future survival.
0

An analysis of likely germline events by tumor tissue testing on large somatic panels.

Urvashi Bahadur et al.Jun 1, 2024
+16
S
A
U
e22524 Background: The increase in large panel testing has facilitated the detection of numerous events, including those in genes associated with inherited cancer. Further, large panel sequencing may uncover variants in these genes in non-inherited cancers. Hence the frequency of pathogenic/likely pathogenic (P/LP) events in some common germline genes was studied across cancers in the Indian population. Methods: A statistical model was used to derive a method to label variants as likely germline. Variants in hereditary breast and ovarian cancer (HBOC) and mismatch repair (MMR) genes from 1553 cases sequenced at our referral laboratory on the TruSight Oncology 500 panel (TSO500) were analyzed for their variant allele frequency (VAF) distribution. A 3 component Gaussian mixture model (intended to separate somatic, germline heterozygous, homozygous variants) was fit to this VAF distribution and a cutoff was determined such that the area under the curve of the somatic component above the cutoff was below 0.01. This gave a threshold value of 40% VAF for determining likely germline variants (LGVs). Data from 1713 TSO500 cases was then analyzed to identify LGVs. Results: The dataset of 1713 cases comprised 20.67% NSCLC, 12.61% breast, 12.49% ovarian and 10.5% colorectal cancer and < 10% of other cancer types including 2.39% pancreatic and 2.04% prostate cancer. 23.8% of ovarian, 17.14% of prostate, 12.5% of breast and 12.2% of pancreatic cancer cases had variants in BRCA1/BRCA2. Among these, 18.69% of ovarian, 17.14% of prostate, 8.33% of breast and 7.32% of pancreatic cancers had LGVs. LGVs in BRCA1/2 were also found in 3.33% of colorectal and 1.13% of NSCLC. The BRCA1/BRCA2 LGV ratio was found to be 3.0 in ovarian, 1.0 in breast and 2.0 in pancreatic but 0.2 in prostate and colorectal and 0.33 in NSCLC cancer. Adding other HBOC genes (ATM, BRCA1/2, BRIP1, CHEK2, PALB2, RAD51C, RAD51D) increased the LGV frequency to 22.43% of ovarian, 22.86% of prostate, 11.11% of breast, 9.76% of pancreatic, 4.44% of colorectal and 2.26% of NSCLC. MMR gene LGVs were seen in 1.23% of all cancers mainly in 10.71% of endometrial and 4.44% of colorectal cancers. Unlike the HBOC genes, MMR gene variants were not observed across multiple cancers and did not show a predominantly germline distribution (somatic/LGV 1:1). In contrast, the background P/LP frequency calculated from gnomAD v4 South Asian data (excluding those with conflicting labels) was 0.74% for BRCA1/2, 1.82% for the extended HBOC list and 0.5% for the MMR genes. Conclusions: Somatic testing was used to identify LGVs and determine the frequencies of HBOC and MMR genes in cancers in the Indian population. Somatic testing also identified LGVs in multiple tissues at frequencies above the background P/LP frequency for this population, suggesting a possible role for these genes in other cancers. This information underscores the need for further study and may be useful to define a clinically relevant subset of patients.
0

A blood-based screening test for colorectal cancer (CRC) using methylation sequencing.

Urvashi Bahadur et al.Jun 1, 2024
+14
N
S
U
e15089 Background: Diagnosis of CRC is biased towards later stages in India (3.8% Stage I, 16.7% Stage II, 50.7% Stage III, 28.8% Stage IV), and five-year survival at < 40% is one of the lowest in the world. A blood-based non-invasive screening test for CRC using cell-free DNA (cfDNA) methylation sequencing is developed here from the blood of 212 controls and 67 treatment naive CRC patients from 21 sites across India and processed in Strand’s reference lab in Bangalore. Methods: Steps involved cfDNA extraction, NEB Enzymatic Methyl-Seq library preparation, Twist Human Methylome hybridisation capture, 2x150bp sequencing on NovaSeq 6000/X. Methylation + fragmentomic features were calculated for each target region. Samples were split randomly into a leave-in set of 170 controls + 53 cancers (I: 8, II 16, III: 23, IV: 6) and a leave-out set of 42 controls + 14 cancers, (I: 5, II: 4, III: 2, IV: 3) with 20 rounds of 4-fold cross-validation done on the leave-in set (random splits). Feature selection per fold was performed using the KS test without access to ¼ of the leave-in set and to the entire leave-out set. Gradient boosted trees with monotonic constraints reflecting the expected association of the scores with cancer were used to build “explainable” models. Test robustness was assessed using differentially methylated regions (DMRs) from other studies, and by assessing predictability using sample metadata alone. Results: At a 91% specificity level, the ensemble model had a median sensitivity of 62.5% for Stage I (95%CI 38%-86%), 87% for Stage II (95% CI 75%-95%), 87% for Stage III (95% CI 75%-95%) and 83.4% for Stage IV (95% CI 84%-100%) in cross-validation, and 60% for Stage I (95%CI 60%-80%), 100% for Stage II (95% CI 80%-100%), 100% for Stage III (95% CI 100%-100%) and 100% for Stage IV (95% CI 100%-100%) on the leave-out set. At a ~98% specificity level, the model had a median sensitivity of 37.5% for Stage I (95%CI 37%-50%), 69% for Stage II (95% CI 56%-75%), 69% for Stage III (95% CI 60%-84%) and 67% for Stage IV (95% CI 50%-84%) in cross-validation, and 40% for Stage I (95%CI 20%-60%), 75% for Stage II (95% CI 75%-100%), 100% for Stage III (95% CI 100%-100%) and 100% for Stage IV (95% CI 66%-100%) with a slight decrease in specificity to 95.2% on the leave-out set. Using DMRs derived from TCGA data and other publications, yielded a comparable (to our models) cross-validation area under the curve (AUC: 0.93-0.95). Cross-validation performance using only the sample metadata in table 1 and without access to the data was significantly poorer (AUC 0.75-0.81). Conclusions: cfDNA-based methylation profiles are consistent across studies and ethnicities, leading to robust and “explainable” CRC screening predictions. [Table: see text]
0

Human ACE2 receptor polymorphisms predict SARS-CoV-2 susceptibility

Eric Stawiski et al.Apr 10, 2020
+18
K
D
E
Severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is the cause of coronavirus disease (COVID-19) that has resulted in a global pandemic. It is a highly contagious positive strand RNA virus and its clinical presentation includes severe to critical respiratory disease that appears to be fatal in ~3-5% of the cases. The viral spike (S) coat protein engages the human angiotensin-converting enzyme2 (ACE2) cell surface protein to invade the host cell. The SARS-CoV-2 S-protein has acquired mutations that increase its affinity to human ACE2 by ~10-15-fold compared to SARS-CoV S-protein, making it highly infectious. In this study, we assessed if ACE2 polymorphisms might alter host susceptibility to SARS-CoV-2 by affecting the ACE2 S-protein interaction. Our comprehensive analysis of several large genomic datasets that included over 290,000 samples representing >400 population groups identified multiple ACE2 protein-altering variants, some of which mapped to the S-protein-interacting ACE2 surface. Using recently reported structural data and a recent S-protein-interacting synthetic mutant map of ACE2, we have identified natural ACE2 variants that are predicted to alter the virus-host interaction and thereby potentially alter host susceptibility. In particular, human ACE2 variants S19P, I21V, E23K, K26R, T27A, N64K, T92I, Q102P and H378R are predicted to increase susceptibility. The T92I variant, part of a consensus NxS/T N-glycosylation motif, confirmed the role of N90 glycosylation in immunity from non-human CoVs. Other ACE2 variants K31R, N33I, H34R, E35K, E37K, D38V, Y50F, N51S, M62V, K68E, F72V, Y83H, G326E, G352V, D355N, Q388L and D509Y are putative protective variants predicted to show decreased binding to SARS-CoV-2 S-protein. Overall, ACE2 variants are rare, consistent with the lack of selection pressure given the recent history of SARS-CoV epidemics, however, are likely to play an important role in altering susceptibility to CoVs.### Competing Interest Statement