MP
Michael Preuss
Author with expertise in Genomic Studies and Association Analyses
Icahn School of Medicine at Mount Sinai, Child Health and Development Institute, University of North Carolina Health Care
+ 7 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
16
(63% Open Access)
Cited by:
31
h-index:
38
/
i10-index:
72
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
3

A Saturated Map of Common Genetic Variants Associated with Human Height from 5.4 Million Individuals of Diverse Ancestries

Loïc Yengo et al.Jan 12, 2022
+554
E
S
L
ABSTRACT Common SNPs are predicted to collectively explain 40-50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes. Here we show, using GWAS data from 5.4 million individuals of diverse ancestries, that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a median size of ~90 kb, covering ~21% of the genome. The density of independent associations varies across the genome and the regions of elevated density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs account for 40% of phenotypic variance in European ancestry populations but only ~10%-20% in other ancestries. Effect sizes, associated regions, and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely explained by linkage disequilibrium and allele frequency differences within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than needed to implicate causal genes and variants. Overall, this study, the largest GWAS to date, provides an unprecedented saturated map of specific genomic regions containing the vast majority of common height-associated variants.
0

The Trans-Ancestral Genomic Architecture of Glycaemic Traits

Ji Chen et al.May 30, 2024
+405
G
C
J
Abstract Glycaemic traits are used to diagnose and monitor type 2 diabetes, and cardiometabolic health. To date, most genetic studies of glycaemic traits have focused on individuals of European ancestry. Here, we aggregated genome-wide association studies in up to 281,416 individuals without diabetes (30% non-European ancestry) with fasting glucose, 2h-glucose post-challenge, glycated haemoglobin, and fasting insulin data. Trans-ancestry and single-ancestry meta-analyses identified 242 loci (99 novel; P <5×10 -8 ), 80% with no significant evidence of between-ancestry heterogeneity. Analyses restricted to European ancestry individuals with equivalent sample size would have led to 24 fewer new loci. Compared to single-ancestry, equivalent sized trans-ancestry fine-mapping reduced the number of estimated variants in 99% credible sets by a median of 37.5%. Genomic feature, gene-expression and gene-set analyses revealed distinct biological signatures for each trait, highlighting different underlying biological pathways. Our results increase understanding of diabetes pathophysiology by use of trans-ancestry studies for improved power and resolution.
1

Rare coding variants in 35 genes associate with circulating lipid levels – a multi-ancestry analysis of 170,000 exomes

George Hindy et al.Dec 24, 2020
+179
M
P
G
Abstract Large-scale gene sequencing studies for complex traits have the potential to identify causal genes with therapeutic implications. We performed gene-based association testing of blood lipid levels with rare (minor allele frequency<1%) predicted damaging coding variation using sequence data from >170,000 individuals from multiple ancestries: 97,493 European, 30,025 South Asian, 16,507 African, 16,440 Hispanic/Latino, 10,420 East Asian, and 1,182 Samoan. We identified 35 genes associated with circulating lipid levels. Ten of these: ALB , SRSF2 , JAK2, CREB3L3 , TMEM136 , VARS , NR1H3 , PLA2G12A , PPARG and STAB1 have not been implicated for lipid levels using rare coding variation in population-based samples. We prioritize 32 genes identified in array-based genome-wide association study (GWAS) loci based on gene-based associations, of which three: EVI5, SH2B3 , and PLIN1 , had no prior evidence of rare coding variant associations. Most of the associated genes showed evidence of association in multiple ancestries. Also, we observed an enrichment of gene-based associations for low-density lipoprotein cholesterol drug target genes, and for genes closest to GWAS index single nucleotide polymorphisms (SNP). Our results demonstrate that gene-based associations can be beneficial for drug target development and provide evidence that the gene closest to the array-based GWAS index SNP is often the functional gene for blood lipid levels.
1

Multi-ancestry GWAS of major depression aids locus discovery, fine-mapping, gene prioritisation, and causal inference

Xiangrui Meng et al.Oct 24, 2023
+71
O
G
X
Abstract Most genome-wide association studies (GWAS) of major depression (MD) have been conducted in samples of European ancestry. Here we report a multi-ancestry GWAS of MD, adding data from 21 studies with 88,316 MD cases and 902,757 controls to previously reported data from individuals of European ancestry. This includes samples of African (36% of effective sample size), East Asian (26%) and South Asian (6%) ancestry and Hispanic/Latinx participants (32%). The multi-ancestry GWAS identified 190 significantly associated loci, 53 of them novel. For previously reported loci from GWAS in European ancestry the power-adjusted transferability ratio was 0.6 in the Hispanic/Latinx group and 0.3 in each of the other groups. Fine-mapping benefited from additional sample diversity: the number of credible sets with ≤5 variants increased from 3 to 12. A transcriptome-wide association study identified 354 significantly associated genes, 205 of them novel. Mendelian Randomisation showed a bidirectional relationship with BMI exclusively in samples of European ancestry. This first multi-ancestry GWAS of MD demonstrates the importance of large diverse samples for the identification of target genes and putative mechanisms.
50

Whole genome sequence analysis of blood lipid levels in >66,000 individuals

Margaret Selvaraj et al.Oct 24, 2023
+82
Z
X
M
Abstract Plasma lipids are heritable modifiable causal factors for coronary artery disease, the leading cause of death globally. Despite the well-described monogenic and polygenic bases of dyslipidemia, limitations remain in discovery of lipid-associated alleles using whole genome sequencing, partly due to limited sample sizes, ancestral diversity, and interpretation of potential clinical significance. Increasingly larger whole genome sequence datasets with plasma lipids coupled with methodologic advances enable us to more fully catalog the allelic spectrum for lipids. Here, among 66,329 ancestrally diverse (56% non-European ancestry) participants, we associate 428M variants from deep-coverage whole genome sequences with plasma lipids. Approximately 400M of these variants were not studied in prior lipids genetic analyses. We find multiple lipid-related genes strongly associated with plasma lipids through analysis of common and rare coding variants. We additionally discover several significantly associated rare non-coding variants largely at Mendelian lipid genes. Notably, we detect rare LDLR intronic variants associated with markedly increased LDL-C, similar to rare LDLR exonic variants. In conclusion, we conducted a systematic whole genome scan for plasma lipids expanding the alleles linked to lipids for multiple ancestries and characterize a clinically-relevant rare non-coding variant model for lipids.
50
Paper
Citation2
0
Save
9

Mosaic chromosomal alterations in blood across ancestries via whole-genome sequencing

Yasminka Jakubek et al.Oct 24, 2023
+43
A
Y
Y
ABSTRACT Mosaic mutations in blood are common with increasing age and are prognostic markers for cancer, cardiovascular dysfunction and other diseases. This group of acquired mutations include megabase-scale mosaic chromosomal alterations (mCAs). These large mutations have mainly been surveyed using SNP array data from individuals of European (EA) or Japanese genetic ancestry. To gain a better understanding of mCA rates and associated risk factors in genetically diverse populations, we surveyed whole genome sequencing data from 67,390 individuals, including 20,132 individuals of African ancestry (AA), and 7,608 of Hispanic ancestry (HA) with deep (30X) whole genome sequencing data from the NHLBI Trans Omics for Precision Medicine (TOPMed) program. We adapted an existing mCA calling algorithm for application to WGS data, and observed higher sensitivity with WGS data, compared with array-based data, in uncovering mCAs at low mutant cell fractions. As in previous reports, we observed a strong association with age and a non-uniform distribution of mCAs across the genome. The presence of autosomal (but not chromosome X) mCAs was associated with an increased risk of both lymphoid and myeloid malignancies. After adjusting for age, we found that individuals of European ancestry have the highest rates of autosomal mCAs, mirroring the higher rate of leukemia in this group. Our analysis also uncovered higher rates of chromosome X mCAs in AA and HA compared to EA, again after adjusting for age. Germline variants in ATM and MPL showed strong associations with mCAs in cis , including ancestry specific variants. And rare variant gene-burden analysis confirmed the association of putatively protein altering variants in ATM and MPL with mCAs in cis . Individual rare variants in DCPS, ADM17, PPP1R16B , and TET2 were all associated with autosomal mCAs and rare variants in OR4C16 were associated with chromosome X mCAs in females. There was significant enrichment of co-occurrence of CHIP mutations and mCAs both altering cancer associated genes TET2, DNMT3A, JAK2, CUX1 , and TP53 . Overall, our study demonstrates that rates of mCAs differ across populations and that rare inherited germline variants are strongly associated with mCAs across genetically diverse populations. These results strongly motivate further studies of mCAs in under-represented populations to better understand the causes and consequences of this class of somatic variation.
9
Paper
Citation2
0
Save
3

A large-scale transcriptome-wide association study (TWAS) of ten blood cell phenotypes reveals complexities of TWAS fine-mapping

Amanda Tapia et al.Oct 24, 2023
+16
J
B
A
Abstract Hematological measures are important intermediate clinical phenotypes for many acute and chronic diseases. Hematological measures are highly heritable, and although genome-wide association studies (GWAS) have identified thousands of loci containing trait-associated variants, the causal genes underlying these associations are often uncertain. To better understand the underlying genetic regulatory mechanisms, we performed a transcriptome-wide association study (TWAS) using PrediXcan to systematically investigate the association between genetically-predicted gene expression and hematological measures in 54,542 individuals of European ancestry from the Genetic Epidemiology Research on Adult Health and Aging (GERA) cohort. We found 239 significant gene-trait associations with hematological measures. Among this set of 239 associations, we replicated 71 at p < 0.05 with same direction of effect for the blood cell trait in a meta-analysis of TWAS results consisting of up to 35,900 European ancestry individuals from the Women’s Health Initiative (WHI), the Atherosclerosis Risk in Communities Study (ARIC), and BioMe Biobank. We further attempted to refine this list of candidate genes by performing conditional analyses, adjusting for individual variants previously associated with these hematological measures, and performed further fine-mapping of TWAS loci. To assist with the interpretation of TWAS findings, we designed an R Shiny application to interactively visualize TWAS results, one genomic locus at a time, by integrating our TWAS results with additional genetic data sources (GWAS, TWAS from other gene expression reference panels, conditional analyses, known GWAS variants, etc.). Our results and R Shiny application highlight frequently overlooked challenges with TWAS and illustrate the complexity of TWAS fine-mapping efforts. Author Summary Transcriptome-wide association studies (TWAS) have shown great promise in furthering our understanding of the genetic regulatory mechanisms underlying complex trait variation. However, interpreting TWAS results can be incredibly complex, especially in large-scale analyses where hundreds of signals appear throughout the genome, with multiple genes often identified in a single chromosomal region. Our research demonstrates this complexity through real data examples from our analysis of hematological traits, and we provide a useful web application to visualize TWAS results in a broadly approachable format. Together, our results and web application illustrate the importance of interpreting TWAS studies in context and highlight the need to carefully examine results in a region-wide context to draw reasonable conclusions and formulate mechanistic hypotheses.
57

A multi-layer functional genomic analysis to understand noncoding genetic variation in lipids

Shweta Ramdas et al.Oct 24, 2023
+532
S
J
S
Abstract A major challenge of genome-wide association studies (GWAS) is to translate phenotypic associations into biological insights. Here, we integrate a large GWAS on blood lipids involving 1.6 million individuals from five ancestries with a wide array of functional genomic datasets to discover regulatory mechanisms underlying lipid associations. We first prioritize lipid-associated genes with expression quantitative trait locus (eQTL) colocalizations, and then add chromatin interaction data to narrow the search for functional genes. Polygenic enrichment analysis across 697 annotations from a host of tissues and cell types confirms the central role of the liver in lipid levels, and highlights the selective enrichment of adipose-specific chromatin marks in high-density lipoprotein cholesterol and triglycerides. Overlapping transcription factor (TF) binding sites with lipid-associated loci identifies TFs relevant in lipid biology. In addition, we present an integrative framework to prioritize causal variants at GWAS loci, producing a comprehensive list of candidate causal genes and variants with multiple layers of functional evidence. Two prioritized genes, CREBRF and RRBP1 , show convergent evidence across functional datasets supporting their roles in lipid biology.
1

Ancestral diversity improves discovery and fine-mapping of genetic loci for anthropometric traits - the Hispanic/Latino Anthropometry Consortium

Lindsay Fernández‐Rhodes et al.Oct 24, 2023
+113
V
M
L
ABSTRACT Hispanic/Latinos have been underrepresented in genome-wide association studies (GWAS) for anthropometric traits despite notable anthropometric variability with ancestry proportions, and a high burden of growth stunting and overweight/obesity in Hispanic/Latino populations. This address this knowledge gap, we analyzed densely-imputed genetic data in a sample of Hispanic/Latino adults, to identify and fine-map common genetic variants associated with body mass index (BMI), height, and BMI-adjusted waist-to-hip ratio (WHRadjBMI). We conducted a GWAS of 18 studies/consortia as part of the Hispanic/Latino Anthropometry (HISLA) Consortium (Stage 1, n=59,769) and validated our findings in 9 additional studies (HISLA Stage 2, n=9,336). We conducted a trans-ethnic GWAS with summary statistics from HISLA Stage 1 and existing consortia of European and African ancestries. In our HISLA Stage 1+2 analyses, we discovered one novel BMI locus, as well two novel BMI signals and another novel height signal, each within established anthropometric loci. In our trans-ethnic meta- analysis, we identified three additional novel BMI loci, one novel height locus, and one novel WHRadjBMI locus. We also identified three secondary signals for BMI, 28 for height, and two for WHRadjBMI. We replicated >60 established anthropometric loci in Hispanic/Latino populations at genome-wide significance—representing up to 30% of previously-reported index SNP anthropometric associations. Trans-ethnic meta-analysis of the three ancestries showed a small-to-moderate impact of uncorrected population stratification on the resulting effect size estimates. Our novel findings demonstrate that future studies may also benefit from leveraging differences in linkage disequilibrium patterns to discover novel loci and additional signals with less residual population stratification.
20

BridgePRS: A powerful trans-ancestry Polygenic Risk Score method

Clive Hoggart et al.Oct 24, 2023
+3
J
S
C
Abstract Polygenic Risk Scores (PRS) have huge potential to contribute to biomedical research and to a future of precision medicine, but to date their calculation relies largely on Europeanancestry GWAS data. This global bias makes most PRS substantially less accurate in individuals of non-European ancestry. Here we present BridgePRS , a novel Bayesian PRS method that leverages shared genetic effects across ancestries to increase the accuracy of PRS in non-European populations. The performance of BridgePRS is evaluated in simulated data and real UK Biobank (UKB) data across 19 traits in African, South Asian and East Asian ancestry individuals, using both UKB and Biobank Japan GWAS summary statistics. BridgePRS is compared to the leading alternative, PRS-CSx , and two single-ancestry PRS methods adapted for trans-ancestry prediction. PRS trained in the UK Biobank are then validated out-of-cohort in the independent Mount Sinai (New York) Bio Me Biobank. Simulations reveal that BridgePRS performance, relative to PRS-CSx , increases as uncertainty increases: with lower heritability, higher polygenicity, greater between-population genetic diversity, and when causal variants are not present in the data. Our simulation results are consistent with real data analyses in which BridgePRS has better predictive accuracy in African ancestry samples, especially in out-of-cohort prediction (into Bio Me ), which shows a 60% boost in mean R 2 compared to PRS-CSx ( P = 2 × 10 −6 ). BridgePRS performs the full PRS analysis pipeline, is computationally efficient, and is a powerful method for deriving PRS in diverse and under-represented ancestry populations.
Load More