JL
Jing Lei
Author with expertise in Regularization and Variable Selection Methods
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
16
(75% Open Access)
Cited by:
5,448
h-index:
43
/
i10-index:
117
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Synaptic, transcriptional and chromatin genes disrupted in autism

Silvia Rubeis et al.Oct 29, 2014
The genetic architecture of autism spectrum disorder involves the interplay of common and rare variants and their impact on hundreds of genes. Using exome sequencing, here we show that analysis of rare coding variation in 3,871 autism cases and 9,937 ancestry-matched or parental controls implicates 22 autosomal genes at a false discovery rate (FDR) < 0.05, plus a set of 107 autosomal genes strongly enriched for those likely to affect risk (FDR < 0.30). These 107 genes, which show unusual evolutionary constraint against mutations, incur de novo loss-of-function mutations in over 5% of autistic subjects. Many of the genes implicated encode proteins for synaptic formation, transcriptional regulation and chromatin-remodelling pathways. These include voltage-gated ion channels regulating the propagation of action potentials, pacemaking and excitability–transcription coupling, as well as histone-modifying enzymes and chromatin remodellers—most prominently those that mediate post-translational lysine methylation/demethylation modifications of histones. Whole-exome sequencing in a large autism study identifies over 100 autosomal genes that are likely to affect risk for the disorder; these genes, which show unusual evolutionary constraint against mutations, carry de novo loss-of-function mutations in over 5% of autistic subjects and many function in synaptic, transcriptional and chromatin-remodelling pathways. Autism spectrum disorder (ASD) is a broad group of brain development disorders, including autism, childhood disintegrative disorder and Asperger's syndrome, characterized by impaired social interaction and communication, repetitive behaviour and restricted interests. Two groups reporting in this issue of Nature have used large-scale whole-exome sequencing to examine the contribution of inherited and germline de novo mutations to ASD risk. Silvia De Rubeis et al. analysed DNA samples from 3,871 autism cases and 9,937 ancestry-matched or parental controls and identify more than 100 autosomal genes that are likely to affect risk for the disease. De novo loss-of-function mutations were detected in more than 5% of autistic subjects. Many of the associated gene products appear to function in synaptic, transcriptional, and chromatin remodelling pathways. Ivan Iossifov et al. sequenced exomes from more than 2,500 families, each with one child with ASD. They identify 27 high-confidence gene targets and estimate that 13% of de novo missense mutations and 43% of de novo 'likely gene-disrupting' (LGD) mutations contribute to 12% and 9% of diagnoses, respectively.
0
Citation2,476
0
Save
0

Distribution-Free Predictive Inference for Regression

Jing Lei et al.Apr 3, 2017
We develop a general framework for distribution-free predictive inference in regression, using conformal inference. The proposed methodology allows for the construction of a prediction band for the response variable using any estimator of the regression function. The resulting prediction band preserves the consistency properties of the original estimator under standard assumptions, while guaranteeing finite-sample marginal coverage even when these assumptions do not hold. We analyze and compare, both empirically and theoretically, the two major variants of our conformal framework: full conformal inference and split conformal inference, along with a related jackknife method. These methods offer different tradeoffs between statistical accuracy (length of resulting prediction intervals) and computational efficiency. As extensions, we develop a method for constructing valid in-sample prediction intervals called rank-one-out conformal inference, which has essentially the same computational efficiency as split conformal inference. We also describe an extension of our procedures for producing prediction bands with locally varying length, to adapt to heteroscedasticity in the data. Finally, we propose a model-free notion of variable importance, called leave-one-covariate-out or LOCO inference. Accompanying this article is an R package conformalInference that implements all of the proposals we have introduced. In the spirit of reproducibility, all of our empirical results can also be easily (re)generated using this package.
0

Semi-soft Clustering of Single Cell Data

Lingxue Zhu et al.Mar 19, 2018
Motivated by the dynamics of development, in which cells of recognizable types, or pure cell types, transition into other types over time, we propose a method of semi-soft clustering that can classify both pure and intermediate cell types from data on gene expression or protein abundance from individual cells. Called SOUP, for Semi-sOft clUstering with Pure cells, this novel algorithm reveals the clustering structure for both pure cells, which belong to one single cluster, as well as transitional cells with soft memberships. SOUP involves a two-step process: identify the set of pure cells and then estimate a membership matrix. To find pure cells, SOUP uses the special block structure the K cell types form in a similarity matrix, devised by pairwise comparison of the gene expression profiles of individual cells. Once pure cells are identified, they provide the key information from which the membership matrix can be computed. SOUP is applicable to general clustering problems as well, as long as the unrestrictive modeling assumptions hold. The performance of SOUP is documented via extensive simulation studies. Using SOUP to analyze two single cell data sets from brain shows it produce sensible and interpretable results.
Load More