ML
Miaoxin Li
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
15
(67% Open Access)
Cited by:
1,339
h-index:
36
/
i10-index:
81
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Evaluating the effective numbers of independent tests and significant p-value thresholds in commercial genotyping arrays and public imputation reference datasets

Miaoxin Li et al.Dec 5, 2011
Current genome-wide association studies (GWAS) use commercial genotyping microarrays that can assay over a million single nucleotide polymorphisms (SNPs). The number of SNPs is further boosted by advanced statistical genotype-imputation algorithms and large SNP databases for reference human populations. The testing of a huge number of SNPs needs to be taken into account in the interpretation of statistical significance in such genome-wide studies, but this is complicated by the non-independence of SNPs because of linkage disequilibrium (LD). Several previous groups have proposed the use of the effective number of independent markers (M e) for the adjustment of multiple testing, but current methods of calculation for M e are limited in accuracy or computational speed. Here, we report a more robust and fast method to calculate M e. Applying this efficient method [implemented in a free software tool named Genetic type 1 error calculator (GEC)], we systematically examined the M e, and the corresponding p-value thresholds required to control the genome-wide type 1 error rate at 0.05, for 13 Illumina or Affymetrix genotyping arrays, as well as for HapMap Project and 1000 Genomes Project datasets which are widely used in genotype imputation as reference panels. Our results suggested the use of a p-value threshold of ~10−7 as the criterion for genome-wide significance for early commercial genotyping arrays, but slightly more stringent p-value thresholds ~5 × 10−8 for current or merged commercial genotyping arrays, ~10−8 for all common SNPs in the 1000 Genomes Project dataset and ~5 × 10−8 for the common SNPs only within genes.
0
Citation711
0
Save
0

GATES: A Rapid and Powerful Gene-Based Association Test Using Extended Simes Procedure

Miaoxin Li et al.Mar 1, 2011
The gene has been proposed as an attractive unit of analysis for association studies, but a simple yet valid, powerful, and sufficiently fast method of evaluating the statistical significance of all genes in large, genome-wide datasets has been lacking. Here we propose the use of an extended Simes test that integrates functional information and association evidence to combine the p values of the single nucleotide polymorphisms within a gene to obtain an overall p value for the association of the entire gene. Our computer simulations demonstrate that this test is more powerful than the SNP-based test, offers effective control of the type 1 error rate regardless of gene size and linkage-disequilibrium pattern among markers, and does not need permutation or simulation to evaluate empirical significance. Its statistical power in simulated data is at least comparable, and often superior, to that of several alternative gene-based tests. When applied to real genome-wide association study (GWAS) datasets on Crohn disease, the test detected more significant genes than SNP-based tests and alternative gene-based tests. The proposed test, implemented in an open-source package, has the potential to identify additional novel disease-susceptibility genes for complex diseases from large GWAS datasets. The gene has been proposed as an attractive unit of analysis for association studies, but a simple yet valid, powerful, and sufficiently fast method of evaluating the statistical significance of all genes in large, genome-wide datasets has been lacking. Here we propose the use of an extended Simes test that integrates functional information and association evidence to combine the p values of the single nucleotide polymorphisms within a gene to obtain an overall p value for the association of the entire gene. Our computer simulations demonstrate that this test is more powerful than the SNP-based test, offers effective control of the type 1 error rate regardless of gene size and linkage-disequilibrium pattern among markers, and does not need permutation or simulation to evaluate empirical significance. Its statistical power in simulated data is at least comparable, and often superior, to that of several alternative gene-based tests. When applied to real genome-wide association study (GWAS) datasets on Crohn disease, the test detected more significant genes than SNP-based tests and alternative gene-based tests. The proposed test, implemented in an open-source package, has the potential to identify additional novel disease-susceptibility genes for complex diseases from large GWAS datasets.
0
Citation375
0
Save
4

Endogenous fine-mapping of functional regulatory elements in complex genetic loci

Ke Zhao et al.May 8, 2023
Abstract The vast majority of genetic loci associated with polygenic complex traits are located in non-coding regions of the human genome. However, many of these regions exhibit high- order gene regulatory relationships and complicated linkage disequilibrium (LD) configurations, which bring challenges to accurately identify causal variants and their target genes controlling specific molecular processes or traits. We employed multiplexed single-cell CRISPR interference and activation perturbations to explore the links between cis -regulatory element (CRE) and target gene expression within tight LD in the endogenous chromatin context. We validated the prevalence of multiple causality in perfect LD (pLD) for independent expression quantitative trait locus (eQTL), and revealed fine-grained genetic effects on gene expression within pLD. These effects are difficult to decipher using conventional eQTL fine-mapping or to predict via existing computational methods. We found that nearly half of the casual CREs lack classical epigenetic markers, potentially affecting gene expression through hidden regulatory mechanisms. Integrative analysis on different types of perturbation effects suggested a high regulatory plasticity of the human genome. These findings will propel further in-depth exploration of functional genomic elements, facilitating a more comprehensive understanding of gene expression regulatory patterns and the development of complex traits.
4
Citation1
0
Save
0

Genomic dissection of bipolar disorder and schizophrenia including 28 subphenotypes

Douglas Ruderfer et al.Aug 8, 2017
Schizophrenia (SCZ) and bipolar disorder (BD) are highly heritable disorders that share a significant proportion of common risk variation. Understanding the genetic factors underlying the specific symptoms of these disorders will be crucial for improving diagnosis, intervention and treatment. In case-control data consisting of 53,555 cases (20,129 BD, 33,426 SCZ) and 54,065 controls, we identified 114 genome-wide significant loci (GWS) when comparing all cases to controls, of which 41 represented novel findings. Two genome-wide significant loci were identified when comparing SCZ to BD and a third was found when directly incorporating functional information. Regional joint association identified a genomic region of overlapping association in BD and SCZ with disease-independent causal variants indicating a fourth region contributing to differences between these disorders. Regional SNP-heritability analyses demonstrated that the estimated heritability of BD based on the SCZ GWS regions was significantly higher than that based on the average genomic region (91 regions, p = 1.2x10-6) while the inverse was not significant (19 regions, p=0.89). Using our BD and SCZ GWAS we calculated polygenic risk scores and identified several significant correlations with: 1) SCZ subphenotypes: negative symptoms (SCZ, p=3.6x10-6) and manic symptoms (BD, p=2x10-5), 2) BD subphenotypes: psychotic features (SCZ p=1.2x10-10, BD p=5.3x10-5) and age of onset (SCZ p=7.9x10-4). Finally, we show that psychotic features in BD has significant SNP-heritability (h2snp=0.15, SE=0.06), and a significant genetic correlation with SCZ (rg=0.34) in addition there is a significant sign test result between SCZ GWAS and a GWAS of BD cases contrasting those with and without psychotic features (p=0.0038, one-side binomial test). For the first time, we have identified specific loci pointing to a potential role of 4 genes (DARS2, ARFGEF2, DCAKD and GATAD2A) that distinguish between BD and SCZ, providing an opportunity to understand the biology contributing to clinical differences of these disorders. Our results provide the best evidence so far of genomic components distinguishing between BD and SCZ that contribute directly to specific symptom dimensions.
0

Stratifying variant deleteriousness and trait-modulating effect under human recent adaptation

Xutong Fan et al.Jul 17, 2024
Despite advances in annotating and interpreting human genetic variants, existing methods to distinguish deleterious/pathogenic from neutral variants still inadequately capture the nuanced impact of genetic variants on fitness and disease susceptibility. In this study, we introduced a new deep learning framework, the FIND model, by stratifying genetic variants into refined categories based on selection pressures and derived allele frequency. FIND demonstrated superior performance over existing genome-wide methods, delivering enhanced resolution in differentiating trait-modulating alleles from those that are pathogenic or neutral. Access to base-wise informative annotations has unveiled novel features that significantly enhance the model interpretability, and FIND has adeptly delineated evolutionary trends in human accelerated regions. Furthermore, applying FIND to the interpretation of clinical variants demonstrates its substantial potential in reclassifying variants of unknown significance. This work advances our understanding of the genetic underpinnings of human adaptation and disease, providing a new tool to explore the complexities of genetic contributions to health.
3

Systematic comparative analysis of Mendelian randomization methods for inferring causal genes of complex phenotypes and the application to psychiatric diseases

Lin Jiang et al.Nov 10, 2020
Abstract Isolating causal genes from enormous genome-wide association signals of complex phenotypes remains an open and challenging question. SMR (Summary-based Mendelian Randomization) is a widely used Mendelian randomization (MR) method for inferring causal genes by using a single expression quantitative trait locus (eQTL). In the present study, we explored more powerful MR methods based on multiple eQTLs. Among six representative multiple instrumental variable (IVs) based MR methods, original used in the epidemiological field, not all MR methods worked for the causal gene estimation. But we found the maximum-likelihood based MR method and weighted median-based MR method were preferable to the other four MR methods in terms of valid type 1 errors, acceptable statistical powers and robustness to linkage disequilibrium (LD) in eQTLs. Both of the MR methods were also much more powerful than the SMR. We recalibrated key parameters of the two MR methods in practices and developed a multiple IVs based MR analysis framework for causal gene estimation, named MACG and available at http://pmglab.top/kggsee . In the applications, MACG not only rediscovered many known causal genes of the schizophrenia and bipolar disorder, but also reported plenty of promising candidate causal genes. In conclusion, this study provided a powerful tool and encouraging exemplars of mining potential causal genes from huge amounts of GWAS signals with eQTLs.
6

Phenome-wide analysis identifies parent-of-origin effects on the human methylome associated with changes in the rate of aging

Chenhao Gao et al.Jan 21, 2023
Variation in the rate at which humans age may be rooted in early life events acting through genomic regions that are influenced by such events and subsequently are related to health phenotypes in later life. The parent-of-origin-effect (POE)-regulated methylome includes regions either enriched for genetically controlled imprinting effects (the typical type of POE) or atypical POE introduced by environmental effects associated with parents. This part of the methylome is heavily influenced by early life events, making it a potential route connecting early environmental exposures, the epigenome and the rate of aging. Here, we aim to test the association of POE-influenced methylation of CpG dinucleotides (POE-CpG sites) with early and later environmental exposures and subsequently with health-related phenotypes and adult aging phenotypes. We do this by performing phenome-wide association analyses of the POE-influenced methylome using a large family-based population cohort (GS:SFHS, Ndiscovery=5,087, Nreplication=4,450). At the single CpG level, 92 associations of POE-CpGs with phenotypic variation were identified and replicated. Most of the associations were contributed by POE-CpGs belonging to the atypical class and the most strongly enriched associations were with aging (DNAmTL acceleration), intelligence and parental (maternal) smoking exposure phenotypes. We further found that a proportion of the atypical-POE-CpGs formed co-methylation networks (modules) which are associated with these phenotypes, with one of the aging-associated modules displaying increased internal module connectivity (strength of methylation correlation across constituent CpGs) with age. Atypical POE-CpGs also displayed high levels of methylation heterogeneity and epigenetic drift (i.e. information loss with age) and a strong correlation with CpGs contained within epigenetic clocks. These results identified associations between the atypical-POE-influenced methylome and aging and provided new evidence for the "early development of origin" hypothesis for aging in humans.
Load More