MS
Mashaal Sohail
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(70% Open Access)
Cited by:
1,047
h-index:
12
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Whole-genome sequence variation, population structure and demographic history of the Dutch population

Laurent Beaugerie et al.Jun 29, 2014
Paul de Bakker, Cisca Wijmenga and colleagues report on The Genome of the Netherlands Project, including whole-genome sequencing of 769 individuals of Dutch ancestry from 250 parent-offspring families and construction of a phased haplotype map. Their intermediate-coverage population sequencing data set provides a complementary resource to other publicly available data sets, including the 1000 Genomes Project. Whole-genome sequencing enables complete characterization of genetic variation, but geographic clustering of rare alleles demands many diverse populations be studied. Here we describe the Genome of the Netherlands (GoNL) Project, in which we sequenced the whole genomes of 250 Dutch parent-offspring families and constructed a haplotype map of 20.4 million single-nucleotide variants and 1.2 million insertions and deletions. The intermediate coverage (∼13×) and trio design enabled extensive characterization of structural variation, including midsize events (30–500 bp) previously poorly catalogued and de novo mutations. We demonstrate that the quality of the haplotypes boosts imputation accuracy in independent samples, especially for lower frequency alleles. Population genetic analyses demonstrate fine-scale structure across the country and support multiple ancient migrations, consistent with historical changes in sea level and flooding. The GoNL Project illustrates how single-population whole-genome sequencing can provide detailed characterization of genetic variation and may guide the design of future population studies.
0
Citation672
0
Save
0

Polygenic adaptation on height is overestimated due to uncorrected stratification in genome-wide association studies

Mashaal Sohail et al.Mar 21, 2019
Genetic predictions of height differ among human populations and these differences have been interpreted as evidence of polygenic adaptation. These differences were first detected using SNPs genome-wide significantly associated with height, and shown to grow stronger when large numbers of sub-significant SNPs were included, leading to excitement about the prospect of analyzing large fractions of the genome to detect polygenic adaptation for multiple traits. Previous studies of height have been based on SNP effect size measurements in the GIANT Consortium meta-analysis. Here we repeat the analyses in the UK Biobank, a much more homogeneously designed study. We show that polygenic adaptation signals based on large numbers of SNPs below genome-wide significance are extremely sensitive to biases due to uncorrected population stratification. More generally, our results imply that typical constructions of polygenic scores are sensitive to population stratification and that population-level differences should be interpreted with caution.This article has been through an editorial process in which the authors decide how to respond to the issues raised during peer review. The Reviewing Editor's assessment is that all the issues have been addressed (see decision letter).
0
Citation345
0
Save
0

Mexican Biobank advances population and medical genomics of diverse ancestries

Mashaal Sohail et al.Oct 11, 2023
Latin America continues to be severely underrepresented in genomics research, and fine-scale genetic histories and complex trait architectures remain hidden owing to insufficient data1. To fill this gap, the Mexican Biobank project genotyped 6,057 individuals from 898 rural and urban localities across all 32 states in Mexico at a resolution of 1.8 million genome-wide markers with linked complex trait and disease information creating a valuable nationwide genotype-phenotype database. Here, using ancestry deconvolution and inference of identity-by-descent segments, we inferred ancestral population sizes across Mesoamerican regions over time, unravelling Indigenous, colonial and postcolonial demographic dynamics2-6. We observed variation in runs of homozygosity among genomic regions with different ancestries reflecting distinct demographic histories and, in turn, different distributions of rare deleterious variants. We conducted genome-wide association studies (GWAS) for 22 complex traits and found that several traits are better predicted using the Mexican Biobank GWAS compared to the UK Biobank GWAS7,8. We identified genetic and environmental factors associating with trait variation, such as the length of the genome in runs of homozygosity as a predictor for body mass index, triglycerides, glucose and height. This study provides insights into the genetic histories of individuals in Mexico and dissects their complex trait architectures, both crucial for making precision and preventive medicine initiatives accessible worldwide.
0
Citation18
0
Save
44

Nationwide genomic biobank in Mexico unravels demographic history and complex trait architecture from 6,057 individuals

Mashaal Sohail et al.Jul 13, 2022
Abstract Latin America continues to be severely underrepresented in genomics research, and fine-scale genetic histories as well as complex trait architectures remain hidden due to the lack of Big Data. To fill this gap, the Mexican Biobank project genotyped 1.8 million markers in 6,057 individuals from 32 states and 898 sampling localities across Mexico with linked complex trait and disease information creating a valuable nationwide genotype-phenotype database. Through a suite of state-of-the-art methods for ancestry deconvolution and inference of identity-by-descent (IBD) segments, we inferred detailed ancestral histories for the last 200 generations in different Mesoamerican regions, unraveling native and colonial/post-colonial demographic dynamics. We observed large variations in runs of homozygosity (ROH) among genomic regions with different ancestral origins reflecting their demographic histories, which also affect the distribution of rare deleterious variants across Mexico. We analyzed a range of biomedical complex traits and identified significant genetic and environmental factors explaining their variation, such as ROH found to be significant predictors for trait variation in BMI and triglycerides.
44
Citation5
0
Save
10

Investigating relative contributions to psychiatric disease architecture from sequence elements originating across multiple evolutionary time-scales

Eucharist Kun et al.Mar 1, 2022
Summary Humans exhibit distinct characteristics compared to our primate and ancient hominin ancestors including bipedal locomotion and enhanced neurocognitive ability, but the timing of accelerated changes in these traits is uncertain. To investigate if specific trait-associated variation show enrichment during particular periods of human evolution, we combine genome wide association study (GWAS) data from 70 traits, spanning multiple categories including AI-based image-derived morphological phenotypes of the brain, heart, and skeletal tissues with data from 12 different evolutionary regions obtained from comparative functional genomics, multi-species alignments from long read sequencing, and ancient DNA reflecting 4 different major evolutionary divergence points. These regions cover epigenetic differences in the brain between humans and rhesus macaques, various human accelerated regions (HARs) including regions from the Zoonomia Project, ancient selective sweeps, and Neanderthal introgressed alleles. Using two complementary approaches to examine enrichment between GWAS loci and genomic regions, we show that more phenotypes are enriched in earlier periods of divergence of humans with macaques and chimps, and less so during the divergence with Neanderthals. These traits span respiratory, dermatological, reproductive, metabolic, and psychiatric domains along with skeletal and brain imaging traits, consistent with striking morphological changes between humans and other primates. Among brain imaging traits, we observe an enrichment of SNPs associated with the longitudinal fasciculus in human-gained epigenetic elements since macaques, the visual cortex in HARs, and the thalamus proper in Neanderthal introgressed alleles, implying associated functions such as language processing, decision making, relay of sensory signals, and motor control are enriched at different evolutionary depths.
10
Citation4
0
Save
96

The genetic architecture of the human skeletal form

Eucharist Kun et al.Jan 3, 2023
The human skeletal form underlies our ability to walk on two legs, but unlike standing height, the genetic basis of limb lengths and skeletal proportions is less well understood. Here we applied a deep learning model to 31,221 whole body dual-energy X-ray absorptiometry (DXA) images from the UK Biobank (UKB) to extract 23 different image-derived phenotypes (IDPs) that include all long bone lengths as well as hip and shoulder width, which we analyzed while controlling for height. All skeletal proportions are highly heritable (∼40-50%), and genome-wide association studies (GWAS) of these traits identified 179 independent loci, of which 102 loci were not associated with height. These loci are enriched in genes regulating skeletal development as well as associated with rare human skeletal diseases and abnormal mouse skeletal phenotypes. Genetic correlation and genomic structural equation modeling indicated that limb proportions exhibited strong genetic sharing but were genetically independent of width and torso proportions. Phenotypic and polygenic risk score analyses identified specific associations between osteoarthritis (OA) of the hip and knee, the leading causes of adult disability in the United States, and skeletal proportions of the corresponding regions. We also found genomic evidence of evolutionary change in arm-to-leg and hip-width proportions in humans consistent with striking anatomical changes in these skeletal proportions in the hominin fossil record. In contrast to cardiovascular, auto-immune, metabolic, and other categories of traits, loci associated with these skeletal proportions are significantly enriched in human accelerated regions (HARs), and regulatory elements of genes differentially expressed through development between humans and the great apes. Taken together, our work validates the use of deep learning models on DXA images to identify novel and specific genetic variants affecting the human skeletal form and ties a major evolutionary facet of human anatomical change to pathogenesis.
96
Citation3
0
Save
0

Fine-scale haplotype structure reveals strong signatures of positive selection in a recombining bacterial pathogen

Brian Arnold et al.May 10, 2019
Identifying the forces that create and shape ecologically meaningful variation in bacteria remains an important challenge. For recombining bacteria, the sign and strength of linkage provide a unique lens into ongoing selection. We show derived alleles less than 300bp apart in Neisseria gonorrhoeae exhibit more coupling linkage than repulsion linkage, a pattern that cannot be explained by limited recombination or neutrality as these couplings are significantly stronger for nonsynonymous alleles compared to synonymous alleles. While linkage is shaped by many evolutionary processes, extensive simulations show only two distinct forms of positive selection can drive an excess of coupling linkage between neighboring nonsynonymous alleles: directional selection on introgressed alleles or selection that maintains distinct haplotypes in the presence of recombination. Our results establish a framework for identifying patterns of selection in fine-scale haplotype structure that indicate specific ecological processes in species that recombine with distantly related lineages or possess coexisting adaptive haplotypes.
0

Negative selection in humans and fruit flies involves synergistic epistasis

Mashaal Sohail et al.Jul 29, 2016
Negative selection against deleterious alleles produced by mutation is the most common form of natural selection, which strongly influences within-population variation and interspecific divergence. However, some fundamental properties of negative selection remain obscure. In particular, it is still not known whether deleterious alleles affect fitness independently, so that cumulative fitness loss depends exponentially on the number of deleterious alleles, or synergistically, so that each additional deleterious allele results in a larger decrease in relative fitness. Negative selection with synergistic epistasis must produce negative linkage disequilibrium between deleterious alleles, and therefore, underdispersed distribution of the number of deleterious alleles in the genome. Indeed, we detected underdispersion of the number of rare loss-of-function (LoF) alleles in eight independent datasets from modern human and Drosophila melanogaster populations. Thus, ongoing selection against deleterious alleles is characterized by synergistic epistasis, which can explain how human and fly populations persist despite very high genomic deleterious mutation rates.
0

Natural selection acting on complex traits hampers the predictive accuracy of polygenic scores in ancient samples

Valeria Añorve-Garibay et al.Sep 11, 2024
The prediction of phenotypes from ancient humans has gained interest due to its potential to investigate the evolution of complex traits. These predictions are commonly performed using polygenic scores computed with DNA information from ancient humans along with genome-wide association studies (GWAS) data from present-day humans. However, numerous evolutionary processes could impact the prediction of phenotypes from ancient humans based on polygenic scores. In this work we investigate how natural selection impacts phenotypic predictions on ancient individuals using polygenic scores. We use simulations of an additive trait to analyze how natural selection impacts phenotypic predictions with polygenic scores. We simulate a trait evolving under neutrality, stabilizing selection and directional selection. We find that stabilizing and directional selection have contrasting effects on ancient phenotypic predictions. Stabilizing selection accelerates the loss of large-effect alleles contributing to trait variation. Conversely, directional selection accelerates the loss of small and large-effect alleles that drive individuals farther away from the optimal phenotypic value. These effects result in specific shared genetic variation patterns between ancient and modern populations which hamper the accuracy of polygenic scores to predict phenotypes. Furthermore, we conducted simulations that include realistic strengths of stabilizing selection and heritability estimates to show how natural selection could impact the predictive accuracy of ancient polygenic scores for two widely studied traits: height and body mass index. We emphasize the importance of considering how natural selection can decrease the reliability of ancient polygenic scores to perform phenotypic predictions on an ancient population.