JL
Jingyi Li
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
52
(73% Open Access)
Cited by:
1,804
h-index:
36
/
i10-index:
62
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Developmental roles of 21 Drosophila transcription factors are determined by quantitative differences in binding to an overlapping set of thousands of genomic regions

Stewart MacArthur et al.Jan 1, 2009
We previously established that six sequence-specific transcription factors that initiate anterior/posterior patterning in Drosophila bind to overlapping sets of thousands of genomic regions in blastoderm embryos. While regions bound at high levels include known and probable functional targets, more poorly bound regions are preferentially associated with housekeeping genes and/or genes not transcribed in the blastoderm, and are frequently found in protein coding sequences or in less conserved non-coding DNA, suggesting that many are likely non-functional. Here we show that an additional 15 transcription factors that regulate other aspects of embryo patterning show a similar quantitative continuum of function and binding to thousands of genomic regions in vivo. Collectively, the 21 regulators show a surprisingly high overlap in the regions they bind given that they belong to 11 DNA binding domain families, specify distinct developmental fates, and can act via different cis-regulatory modules. We demonstrate, however, that quantitative differences in relative levels of binding to shared targets correlate with the known biological and transcriptional regulatory specificities of these factors. It is likely that the overlap in binding of biochemically and functionally unrelated transcription factors arises from the high concentrations of these proteins in nuclei, which, coupled with their broad DNA binding specificities, directs them to regions of open chromatin. We suggest that most animal transcription factors will be found to show a similar broad overlapping pattern of binding in vivo, with specificity achieved by modulating the amount, rather than the identity, of bound factor.
0
Citation348
0
Save
0

Comparative analysis of the transcriptome across distant species

Mark Gerstein et al.Aug 26, 2014
Uniform processing and detailed annotation of human, worm and fly RNA-sequencing data reveal ancient, conserved features of the transcriptome, shared co-expression modules (many enriched in developmental genes), matched expression patterns across development and similar extent of non-canonical, non-coding transcription; furthermore, the data are used to create a single, universal model to predict gene-expression levels for all three organisms from chromatin features at the promoter. In this paper the modENCODE consortium reports on a comparative analysis of transcriptome data for human, worm and fly, revealing ancient, conserved features such as shared co-expression modules enriched in developmental genes. Expression patterns are used to align the stages in worm and fly development. Gene expression levels, both coding and non-coding, in all three organisms can be quantitatively predicted from chromatin features at the promoter using a model based on a single set of organism-independent parameters. The transcriptome is the readout of the genome. Identifying common features in it across distant species can reveal fundamental principles. To this end, the ENCODE and modENCODE consortia have generated large amounts of matched RNA-sequencing data for human, worm and fly. Uniform processing and comprehensive annotation of these data allow comparison across metazoan phyla, extending beyond earlier within-phylum transcriptome comparisons and revealing ancient, conserved features1,2,3,4,5,6. Specifically, we discover co-expression modules shared across animals, many of which are enriched in developmental genes. Moreover, we use expression patterns to align the stages in worm and fly development and find a novel pairing between worm embryo and fly pupae, in addition to the embryo-to-embryo and larvae-to-larvae pairings. Furthermore, we find that the extent of non-canonical, non-coding transcription is similar in each organism, per base pair. Finally, we find in all three organisms that the gene-expression levels, both coding and non-coding, can be quantitatively predicted from chromatin features at the promoter using a ‘universal model’ based on a single set of organism-independent parameters.
0
Citation301
0
Save
0

System wide analyses have underestimated protein abundances and the importance of transcription in mammals

Jingyi Li et al.Feb 26, 2014
Large scale surveys in mammalian tissue culture cells suggest that the protein expressed at the median abundance is present at 8,000 - 16,000 molecules per cell and that differences in mRNA expression between genes explain only 10-40% of the differences in protein levels. We find, however, that these surveys have significantly underestimated protein abundances and the relative importance of transcription. Using individual measurements for 61 housekeeping proteins to rescale whole proteome data from Schwanhausser et al., we find that the median protein detected is expressed at 170,000 molecules per cell and that our corrected protein abundance estimates show a higher correlation with mRNA abundances than do the uncorrected protein data. In addition, we estimated the impact of further errors in mRNA and protein abundances, showing that mRNA levels explain at least 56% of the differences in protein abundance for the genes detected by Schwanhausser et al., though because one major source of error could not be estimated the true percent contribution could be higher. We also employed a second, independent strategy to determine the contribution of mRNA levels to protein expression. We show that the variance in translation rates directly measured by ribosome profiling is only 12% of that inferred by Schwanhausser et al. and that the measured and inferred translation rates correlate only poorly (R2=0.13). Based on this, our second strategy suggests that mRNA levels explain ~81% of the variance in protein levels. We also determined the percent contributions of transcription, RNA degradation, translation and protein degradation to the variance in protein abundances using both of our strategies. While the magnitudes of the two estimates vary, they both suggest that transcription plays a more important role than the earlier studies implied and translation a much smaller role.
0
Citation285
0
Save
0

Comparative analysis of regulatory information and circuits across distant species

Alan Boyle et al.Aug 26, 2014
A map of genome-wide binding locations of 165 human, 93 worm and 52 fly transcription-regulatory factors (almost 50% presented for the first time) from diverse cell types, developmental stages, or conditions reveals that gene-regulatory properties previously observed for individual factors may be general principles of metazoan regulation that are well preserved. Fly and worm have long been studied as key models of human biology. Conservation of gene regulation has until now been studied mainly by focusing on individual elements and factors. It has been the goal of the modENCODE consortium to perform a large-scale comparative analysis of basic principles of transcriptional regulatory features. Here the authors map the genome-wide binding locations of 165 human, 93 worm and 52 fly transcription regulatory factors in diverse cell types, developmental stages, or conditions. They find that overall, gene-regulatory properties previously observed for individual factors are general principles of metazoan regulation that are remarkably well preserved despite extensive functional divergence of individual network connections. The comparative maps of regulatory circuitry will help us understand how the regulatory underpinnings of model organism biology relate to human biology, development and disease. Despite the large evolutionary distances between metazoan species, they can show remarkable commonalities in their biology, and this has helped to establish fly and worm as model organisms for human biology1,2. Although studies of individual elements and factors have explored similarities in gene regulation, a large-scale comparative analysis of basic principles of transcriptional regulatory features is lacking. Here we map the genome-wide binding locations of 165 human, 93 worm and 52 fly transcription regulatory factors, generating a total of 1,019 data sets from diverse cell types, developmental stages, or conditions in the three species, of which 498 (48.9%) are presented here for the first time. We find that structural properties of regulatory networks are remarkably conserved and that orthologous regulatory factor families recognize similar binding motifs in vivo and show some similar co-associations. Our results suggest that gene-regulatory properties previously observed for individual factors are general principles of metazoan regulation that are remarkably well-preserved despite extensive functional divergence of individual network connections. The comparative maps of regulatory circuitry provided here will drive an improved understanding of the regulatory underpinnings of model organism biology and how these relate to human biology, development and disease.
0
Citation212
0
Save
1

scDesign2: a transparent simulator that generates high-fidelity single-cell gene expression count data with gene correlations captured

Tianyi Sun et al.Nov 20, 2020
Abstract In the burgeoning field of single-cell transcriptomics, a pressing challenge is to benchmark various experimental protocols and numerous computational methods in an unbiased manner. Although dozens of simulators have been developed for single-cell RNA-seq (scRNA-seq) data, they lack the capacity to simultaneously achieve all the three goals: preserving genes, capturing gene correlations, and generating any number of cells with varying sequencing depths. To fill in this gap, here we propose scDesign2, a transparent simulator that achieves all the three goals and generates high-fidelity synthetic data for multiple scRNA-seq protocols and other single-cell gene expression count-based technologies. Compared with existing simulators, scDesign2 is advantageous in its transparent use of probabilistic models and is unique in its ability to capture gene correlations via copula. We verify that scDesign2 generates more realistic synthetic data for four scRNA-seq protocols (10x Genomics, CEL-Seq2, Fluidigm C1, and Smart-Seq2) and two single-cell spatial transcriptomics protocols (MERFISH and pciSeq) than existing simulators do. Under two typical computational tasks, cell clustering and rare cell type detection, we demonstrate that scDesign2 provides informative guidance on deciding the optimal sequencing depth and cell number in single-cell RNA-seq experimental design, and that scDesign2 can effectively benchmark computational methods under varying sequencing depths and cell numbers. With these advantages, scDesign2 is a powerful tool for single-cell researchers to design experiments, develop computational methods, and choose appropriate methods for specific data analysis needs.
1
Citation7
0
Save
Load More