SM
Shihong Mao
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(17% Open Access)
Cited by:
300
h-index:
15
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Stability, delivery and functions of human sperm RNAs at fertilization

Edward Sendler et al.Mar 6, 2013
Increasing attention has focused on the significance of RNA in sperm, in light of its contribution to the birth and long-term health of a child, role in sperm function and diagnostic potential. As the composition of sperm RNA is in flux, assigning specific roles to individual RNAs presents a significant challenge. For the first time RNA-seq was used to characterize the population of coding and non-coding transcripts in human sperm. Examining RNA representation as a function of multiple methods of library preparation revealed unique features indicative of very specific and stage-dependent maturation and regulation of sperm RNA, illuminating their various transitional roles. Correlation of sperm transcript abundance with epigenetic marks suggested roles for these elements in the pre- and post-fertilization genome. Several classes of non-coding RNAs including lncRNAs, CARs, pri-miRNAs, novel elements and mRNAs have been identified which, based on factors including relative abundance, integrity in sperm, available knockout data of embryonic effect and presence or absence in the unfertilized human oocyte, are likely to be essential male factors critical to early post-fertilization development. The diverse and unique attributes of sperm transcripts that were revealed provides the first detailed analysis of the biology and anticipated clinical significance of spermatozoal RNAs.
0
Citation300
0
Save
0

Genome-Wide Polygenic Risk Scores and Prediction of Gestational Diabetes in South Asian Women

Amel Lamri et al.Mar 15, 2019
Gestational diabetes Mellitus (GDM) affects 1 in 7 births and is associated with numerous adverse health outcomes for both mother and child. GDM is suspected to share a large common genetic background with type 2 diabetes (T2D). The first aim of this study, was to characterize different GDM polygenic risk scores (PRSs) using data from the South Asian Birth Cohort (START). The second aim of this study was to estimate the heritability of GDM.PRSs were derived for 832 South Asian women from START using the pruning and thresholding (P+T), LDpred, and GraBLD methods. Weights were derived from multi-ethnic (Mahajan et al ., 2014) and white Caucasian (Scott et al ., 2017) studies of the DIAGRAM consortium. Association with GDM was tested using logistic regression. Heritability of GDM was estimated using the GRMEL approach. Results were replicated in samples from the UK Biobank (UKB) study.The top P+T, LDpred and GraBLD PRSs were all based on Mahajan et al . The best PRS was highly associated with GDM in START (AUC=0.62, OR=1.60 [95% CI=1.44–1.69]), and in South Asian (AUC=0.65) and white British (AUC=0.58) women from UKB. Heritability of GDM approximated 0.55±0.83 in START and 0.18±0.22 in white British women from UKB.Our results highlight the importance of combining genome-wide genotypes and summary statistics from large multi-ethnic studies to optimize PRSs in South Asians.* 1KG : 1000 Genomes AUC : Area Under the Curve BMI : Body Mass Index CI : Confidence Interval DIAGRAM : DIAbetes Genetics Replication and Meta-analysis GDM : Gestational Diabetes PRS : Polygenic Risk Score GraBLD : Gradient Boosted and LD adjusted GRM : Genomic Relationship Matrix GREML : Genomic relatedness matrix residual maximum likelihood GRS : Genetic Risk Score GWAMA : Genome-Wide Association Meta-Analysis GWAS : Genome-Wide Association Study LD : Linkage Disequilibrium LDMS : LD and MAF stratified MAF : Minor Allele frequency MAGIC : Meta-Analyses of Glucose and Insulin-related traits Consortium MS : MAF stratified OR : Odds Ratio PCA : Principal Component analysis P+T : Pruning and Thresholding ROC : Receiver Operating Characteristic SC : Single component SE : Standard Error SNP : Single Nucleotide polymorphism START : South Asian Birth Cohort T2D : Type 2 Diabetes
0

Analytical strategies to include the X-chromosome in variance heterogeneity analyses: evidence for trait-specific polygenic variance structure

Wei Deng et al.Apr 23, 2018
Genotype-stratified variance of a quantitative trait could differ in the presence of gene-gene or gene-environment interactions. Genetic markers associated with phenotypic variance are thus considered promising candidates for follow-up interaction or joint location-scale analyses. However, as in studies of main effects, the X-chromosome is routinely excluded from ‘whole-genome’ scans due to analytical challenges. Specifically, as males carry only one copy of the X-chromosome, the inherent sex-genotype dependency could bias the trait-genotype association, through sexual dimorphism in quantitative traits with sex-specific means or variances. Here we investigate phenotypic variance heterogeneity associated with X-chromosome SNPs and propose valid and powerful strategies. Among those, a generalized Levene’s test has adequate power and remains robust to sexual dimorphism. An alternative approach is sex-stratified analysis but at the cost of slightly reduced power and modeling flexibility. We applied both methods to an Estonian study of gene expression quantitative trait loci (eQTL; n =841), and two complex trait studies of height, hip and waist circumferences, and body mass index from multi-ethnic study of atherosclerosis (MESA; n =2,073) and UK Biobank (UKB; n =327,393). Consistent with previous eQTL findings on mean, we found some but no conclusive evidence for cis regulators being enriched for variance association. SNP rs2681646 is associated with variance of waist circumference ( p =9.5E-07) at X-chromosome-wide significance in UKB, with a suggestive female-specific effect in MESA ( p =0.048). Collectively, an enrichment analysis using permutated UKB ( p <1/10) and MESA ( p <1/100) datasets, suggests a possible polygenic structure for the variance of human height.
0

A machine-learning heuristic to improve gene score prediction of polygenic traits Short title: Machine-learning boosted gene scores

Guillaume Paré et al.Feb 9, 2017
Machine-learning techniques have helped solve a broad range of prediction problems, yet are not widely used to build polygenic risk scores for the prediction of complex traits. We propose a novel heuristic based on machine-learning techniques (GraBLD) to boost the predictive performance of polygenic risk scores. Gradient boosted regression trees were first used to optimize the weights of SNPs included in the score, followed by a novel regional adjustment for linkage disequilibrium. A calibration set with sample size of ~200 individuals was sufficient for optimal performance. GraBLD yielded prediction R2 of 0.239 and 0.082 using GIANT summary association statistics for height and BMI in the UK Biobank study (N=130K; 1.98M SNPs), explaining 46.9% and 32.7% of the overall polygenic variance, respectively. For diabetes status, the area under the receiver operating characteristic curve was 0.602 in the UK Biobank study using summary-level association statistics from the DIAGRAM consortium. GraBLD outperformed other polygenic score heuristics for the prediction of height (p<2.2x10-16) and BMI (p<1.57x10-4), and was equivalent to LDpred for diabetes. Results were independently validated in the Health and Retirement Study (N=8,292; 688,398 SNPs). Our report demonstrates the use of machine-learning techniques, coupled with summary-level data from large genome-wide meta-analyses to improve the prediction of polygenic traits.
0

A robust method to estimate regional polygenic correlation identifies heterogeneity in the shared heritability between complex traits

Guillaume Paré et al.May 29, 2017
Complex traits can share a substantial proportion of their polygenic heritability. However, genome-wide polygenic correlations between pairs of traits can mask heterogeneity in their shared polygenic effects across loci. We propose a novel method (WML-RPC) to evaluate polygenic correlation between two complex traits in small genomic regions using summary association statistics. Our method tests for evidence that the polygenic effect at a given region affects two traits concurrently. Results: We show through simulations that our method is well calibrated, powerful and more robust to misspecification of linkage disequilibrium than other methods under a polygenic model. As small genomic regions are more likely to harbour specific genetic effects, our method is ideal to identify heterogeneity in shared polygenic correlation across regions. We illustrate the usefulness of our method by addressing two questions related to cardio-metabolic traits. First, we explored how regional polygenic correlation can inform on the strong epidemiological association between HDL cholesterol and coronary artery disease (CAD), suggesting a key role for triglycerides metabolism. Second, we investigated the potential role of PPARγ activators in the prevention of CAD. Conclusions: Our results provide a compelling argument that shared heritability between complex traits is highly heterogeneous across loci.