SF
Sylvain Foissac
Author with expertise in Regulation of RNA Processing and Function
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
14
(86% Open Access)
Cited by:
23,547
h-index:
24
/
i10-index:
30
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

An integrated encyclopedia of DNA elements in the human genome

Sylvain FoissacSep 1, 2012
The human genome encodes the blueprint of life, but the function of the vast majority of its nearly three billion bases is unknown. The Encyclopedia of DNA Elements (ENCODE) project has systematically mapped regions of transcription, transcription factor association, chromatin structure and histone modification. These data enabled us to assign biochemical functions for 80% of the genome, in particular outside of the well-studied protein-coding regions. Many discovered candidate regulatory elements are physically associated with one another and with expressed genes, providing new insights into the mechanisms of gene regulation. The newly identified elements also show a statistical correspondence to sequence variants linked to human disease, and can thereby guide interpretation of this variation. Overall, the project provides new insights into the organization and regulation of our genes and genome, and is an expansive resource of functional annotations for biomedical research. This overview of the ENCODE project outlines the data accumulated so far, revealing that 80% of the human genome now has at least one biochemical function assigned to it; the newly identified functional elements should aid the interpretation of results of genome-wide association studies, as many correspond to sites of association with human disease. The Encyclopedia of DNA Elements (ENCODE) project has systematically mapped regions of transcription, transcription-factor association, chromatin structure and histone modification. In this overview, the Consortium guides the readers through the project itself, the data and their integrated analyses. Eighty per cent of the human genome now has at least one biochemical function assigned to it. In addition to expanding our understanding of how gene expression is regulated on a genome-wide scale, the newly identified functional elements should help researchers to interpret the results of genome-wide associated studies because many correspond to sites associated with human disease.
0
0

Post-transcriptional processing generates a diversity of 5′-modified long and short RNAs

Kata Fejes-Toth et al.Jan 25, 2009
The transcriptomes of eukaryotic cells are unexpectedly complex, with virtually the entire non-repeat portions of many genomes being transcribed. This paper from the Affymetrix/Cold Spring Harbor Laboratory ENCODE Transcriptome Project reports a deep sequencing study revealing that a remarkable breadth of RNA species is produced both from within annotated genes and from unannotated intergenic regions in human cells. Importantly, many of these small RNAs possess cap structures and appear to be processed from mature mRNAs resulting in populations of long and short RNAs with capped 5 ends that coincide. Transfecting synthetic PASRs (promoter-associated short RNAs) corresponding to the c-MYC transcriptional start site reduced MYC mRNA abundance, demonstrating a biological impact for at least one class of these small RNAs. The transcriptomes of eukaryotic cells are unexpectedly complex, with virtually the entire non-repeat portions of many genomes being transcribed. Using deep sequencing, this study reveals that a remarkable breadth of RNA species that come from both within annotated genes and from unannotated intergenic regions in human cells. Many of these small RNAs possess cap structures and seem to be processed from mature mRNAs resulting in populations of long and short RNAs with capped 5' ends that coincide. The transcriptomes of eukaryotic cells are incredibly complex. Individual non-coding RNAs dwarf the number of protein-coding genes, and include classes that are well understood as well as classes for which the nature, extent and functional roles are obscure1. Deep sequencing of small RNAs (<200 nucleotides) from human HeLa and HepG2 cells revealed a remarkable breadth of species. These arose both from within annotated genes and from unannotated intergenic regions. Overall, small RNAs tended to align with CAGE (cap-analysis of gene expression) tags2, which mark the 5′ ends of capped, long RNA transcripts. Many small RNAs, including the previously described promoter-associated small RNAs3, appeared to possess cap structures. Members of an extensive class of both small RNAs and CAGE tags were distributed across internal exons of annotated protein coding and non-coding genes, sometimes crossing exon–exon junctions. Here we show that processing of mature mRNAs through an as yet unknown mechanism may generate complex populations of both long and short RNAs whose apparently capped 5′ ends coincide. Supplying synthetic promoter-associated small RNAs corresponding to the c-MYC transcriptional start site reduced MYC messenger RNA abundance. The studies presented here expand the catalogue of cellular small RNAs and demonstrate a biological impact for at least one class of non-canonical small RNAs.
0
Citation418
0
Save
0

Evidence for Transcript Networks Composed of Chimeric RNAs in Human Cells

Sarah Djebali et al.Jan 4, 2012
The classic organization of a gene structure has followed the Jacob and Monod bacterial gene model proposed more than 50 years ago. Since then, empirical determinations of the complexity of the transcriptomes found in yeast to human has blurred the definition and physical boundaries of genes. Using multiple analysis approaches we have characterized individual gene boundaries mapping on human chromosomes 21 and 22. Analyses of the locations of the 5′ and 3′ transcriptional termini of 492 protein coding genes revealed that for 85% of these genes the boundaries extend beyond the current annotated termini, most often connecting with exons of transcripts from other well annotated genes. The biological and evolutionary importance of these chimeric transcripts is underscored by (1) the non-random interconnections of genes involved, (2) the greater phylogenetic depth of the genes involved in many chimeric interactions, (3) the coordination of the expression of connected genes and (4) the close in vivo and three dimensional proximity of the genomic regions being transcribed and contributing to parts of the chimeric RNAs. The non-random nature of the connection of the genes involved suggest that chimeric transcripts should not be studied in isolation, but together, as an RNA network.
0
Citation232
0
Save
1

Enriched atlas of lncRNA and protein-coding genes for the GRCg7b chicken assembly and its functional annotation across 47 tissues

Fabien Degalez et al.Aug 19, 2023
ABSTRACT Gene atlases for livestock are steadily improving thanks to new genome assemblies and new expression data improving the gene annotation. However, gene content varies across databases due to differences in RNA sequencing data and bioinformatics pipelines, especially for long non-coding RNAs (lncRNAs) which have higher tissue and developmental specificity and are harder to consistently identify compared to protein coding genes (PCGs). As done previously in 2020 for chicken assemblies galgal5 and GRCg6a, we provide a new gene atlas, lncRNA-enriched, for the latest GRCg7b chicken assembly, integrating “NCBI RefSeq”, “EMBL-EBI Ensembl/GENCODE” reference annotations and other resources such as FAANG and NONCODE. As a result, the number of PCGs increases from 18,022 (RefSeq) and 17,007 (Ensembl) to 24,102, and that of lncRNAs from 5,789 (RefSeq) and 11,944 (Ensembl) to 44,428. Using 1,400 public RNA-seq transcriptome representing 47 tissues, we provided expression evidence for 35,257 (79%) lncRNAs and 22,468 (93%) PCGs, supporting the relevance of this atlas. Further characterization including tissue-specificity, sex-differential expression and gene configurations are provided. We also identifiend conserved miRNA-hosting genes with human counterparts, suggesting common function. The annotated atlas is available at www.fragencode.org/lnchickenatlas.html .
1
Citation3
0
Save
14

Enhancer/gene relationships: need for more reliable genome-wide reference sets

Tristan Hoellinger et al.Oct 14, 2022
Abstract Differences in cells’ functions arise from differential action of regulatory elements, in particular enhancers. Like promoters, enhancers are genomic regions bound by transcription factors (TF) that activate the expression of one or several genes by getting physically close to them in the 3D space of the nucleus. As there is increasing evidence that variants associated with common diseases are located in enhancers active in cell types relevant to these diseases, knowing the set of enhancers and more importantly the sets of genes activated by each enhancer (the so-called enhancer/gene or E/G relationships) in a cell type, will certainly help understanding these diseases. There are three broad approaches for the genome-wide identification of E/G relationships in a cell type: (1) genetic link methods or eQTL, (2) functional link methods based on 1D functional data such as open chromatin, histone mark and gene expression and (3) spatial link methods based on 3D data such as HiC. Since (1) and (3) are costly, there has been a focus on developing functional link methods and using data from (1) and (3) to evaluate them, however there is still no consensus on the best functional link method to date. For this reason we decided to start from the two latest benchmarks of the field, namely from the CRISPRi-FlowFISH ( CRiFF ) technique and from 3D and eQTL data in BENGI , and to evaluate the two methods claimed to be the best one on each of these benchmark studies, namely the ABC model and the Average-Rank method respectively, on the other method’s reference data. Not only did we manage to reproduce the results of the two benchmarks but we also saw that none of the two methods performed best on the two reference data. While CRiFF reference data are very reliable, it is not genome-wide and is mostly available on a cancer cell type. On the other hand BENGI is genome-wide but may contain many false positives. This study therefore calls for new reliable and genome-wide E/G reference data rather than new functional link E/G identification methods.
Load More