CL
Chiao‐Feng Lin
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
24
(67% Open Access)
Cited by:
21,865
h-index:
27
/
i10-index:
61
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Chromatin signature reveals over a thousand highly conserved large non-coding RNAs in mammals

Mitchell Guttman et al.Feb 1, 2009
Mammalian genomes are transcribed to produce numerous large non-coding RNAs, but their function is unclear, primarily because these transcripts show little or no evidence of evolutionary conservation. A new approach to characterizing these mysterious molecules has now moved the field on. Rather than targeting the RNA molecules themselves, their existence was revealed as chromatin modifications or epigenomic marks in the DNA of four mouse cell types. The search yielded over a thousand large multi-exonic transcriptional units that do not overlap known protein-coding loci and are highly conserved. Possible functions could be assigned to each of these large intervening non-coding RNAs (or lincRNAs), ranging from embryonic stem cell pluripotency to cell proliferation. Specific lincRNAs turn out to be regulated by transcription factors that are key in these processes including p53, NFκB, Sox2, Oct4, and Nanog — and most of these lincRNAs are conserved across mammals. This study uses chromatin marks in four mouse cell types to identify ∼1,600 large multi-exonic transcriptional units that do not overlap known protein-coding loci and are highly conserved. Putative functions are assigned to each of these large intervening non-coding RNAs, which range from ES pluripotency to cell proliferation. There is growing recognition that mammalian cells produce many thousands of large intergenic transcripts1,2,3,4. However, the functional significance of these transcripts has been particularly controversial. Although there are some well-characterized examples, most (>95%) show little evidence of evolutionary conservation and have been suggested to represent transcriptional noise5,6. Here we report a new approach to identifying large non-coding RNAs using chromatin-state maps to discover discrete transcriptional units intervening known protein-coding loci. Our approach identified ∼1,600 large multi-exonic RNAs across four mouse cell types. In sharp contrast to previous collections, these large intervening non-coding RNAs (lincRNAs) show strong purifying selection in their genomic loci, exonic sequences and promoter regions, with greater than 95% showing clear evolutionary conservation. We also developed a functional genomics approach that assigns putative functions to each lincRNA, demonstrating a diverse range of roles for lincRNAs in processes from embryonic stem cell pluripotency to cell proliferation. We obtained independent functional validation for the predictions for over 100 lincRNAs, using cell-based assays. In particular, we demonstrate that specific lincRNAs are transcriptionally regulated by key transcription factors in these processes such as p53, NFκB, Sox2, Oct4 (also known as Pou5f1) and Nanog. Together, these results define a unique collection of functional lincRNAs that are highly conserved and implicated in diverse biological processes.
0
Citation3,930
0
Save
0

Synaptic, transcriptional and chromatin genes disrupted in autism

Silvia Rubeis et al.Oct 29, 2014
The genetic architecture of autism spectrum disorder involves the interplay of common and rare variants and their impact on hundreds of genes. Using exome sequencing, here we show that analysis of rare coding variation in 3,871 autism cases and 9,937 ancestry-matched or parental controls implicates 22 autosomal genes at a false discovery rate (FDR) < 0.05, plus a set of 107 autosomal genes strongly enriched for those likely to affect risk (FDR < 0.30). These 107 genes, which show unusual evolutionary constraint against mutations, incur de novo loss-of-function mutations in over 5% of autistic subjects. Many of the genes implicated encode proteins for synaptic formation, transcriptional regulation and chromatin-remodelling pathways. These include voltage-gated ion channels regulating the propagation of action potentials, pacemaking and excitability–transcription coupling, as well as histone-modifying enzymes and chromatin remodellers—most prominently those that mediate post-translational lysine methylation/demethylation modifications of histones. Whole-exome sequencing in a large autism study identifies over 100 autosomal genes that are likely to affect risk for the disorder; these genes, which show unusual evolutionary constraint against mutations, carry de novo loss-of-function mutations in over 5% of autistic subjects and many function in synaptic, transcriptional and chromatin-remodelling pathways. Autism spectrum disorder (ASD) is a broad group of brain development disorders, including autism, childhood disintegrative disorder and Asperger's syndrome, characterized by impaired social interaction and communication, repetitive behaviour and restricted interests. Two groups reporting in this issue of Nature have used large-scale whole-exome sequencing to examine the contribution of inherited and germline de novo mutations to ASD risk. Silvia De Rubeis et al. analysed DNA samples from 3,871 autism cases and 9,937 ancestry-matched or parental controls and identify more than 100 autosomal genes that are likely to affect risk for the disease. De novo loss-of-function mutations were detected in more than 5% of autistic subjects. Many of the associated gene products appear to function in synaptic, transcriptional, and chromatin remodelling pathways. Ivan Iossifov et al. sequenced exomes from more than 2,500 families, each with one child with ASD. They identify 27 high-confidence gene targets and estimate that 13% of de novo missense mutations and 43% of de novo 'likely gene-disrupting' (LGD) mutations contribute to 12% and 9% of diagnoses, respectively.
0
Citation2,476
0
Save
0

Patterns and rates of exonic de novo mutations in autism spectrum disorders

Benjamin Neale et al.Apr 3, 2012
Exome sequencing of 175 autism spectrum disorder parent–child trios reveals that few de novo point mutations have a role in autism spectrum disorder and those that do are distributed across many genes and are incompletely penetrant, further supporting extreme genetic heterogeneity of this spectrum disorder. Although it is well accepted that genetics makes a strong contribution to autism spectrum disorder, most of the underlying causes of the condition remain unknown. Three groups present large-scale exome-sequencing studies of individuals with sporadic autism spectrum disorder, including many parent–child trios and unaffected siblings. The overall message from the three papers is that there is extreme locus heterogeneity among autistic individuals, with hundreds of genes involved in the condition, and with no single gene contributing to more than a small fraction of cases. Sanders et al. report the association of the gene SCN2A, previously identified in epilepsy syndromes, with the risk of autism. Neale et al. find strong evidence that CHD8 and KATNAL2 are autism risk factors. O'Roak et al. observe that a large proportion of the mutated proteins have crucial roles in fundamental developmental pathways, including β-catenin and p53 signalling. Autism spectrum disorders (ASD) are believed to have genetic and environmental origins, yet in only a modest fraction of individuals can specific causes be identified1,2. To identify further genetic risk factors, here we assess the role of de novo mutations in ASD by sequencing the exomes of ASD cases and their parents (n = 175 trios). Fewer than half of the cases (46.3%) carry a missense or nonsense de novo variant, and the overall rate of mutation is only modestly higher than the expected rate. In contrast, the proteins encoded by genes that harboured de novo missense or nonsense mutations showed a higher degree of connectivity among themselves and to previous ASD genes3 as indexed by protein-protein interaction screens. The small increase in the rate of de novo events, when taken together with the protein interaction results, are consistent with an important but limited role for de novo point mutations in ASD, similar to that documented for de novo copy number variants. Genetic models incorporating these data indicate that most of the observed de novo events are unconnected to ASD; those that do confer risk are distributed across many genes and are incompletely penetrant (that is, not necessarily sufficient for disease). Our results support polygenic models in which spontaneous coding mutations in any of a large number of genes increases risk by 5- to 20-fold. Despite the challenge posed by such models, results from de novo events and a large parallel case–control study provide strong evidence in favour of CHD8 and KATNAL2 as genuine autism risk factors.
0
Citation1,708
0
Save
0

A high-resolution map of human evolutionary constraint using 29 mammals

Kerstin Lindblad‐Toh et al.Oct 1, 2011
The comparison of related genomes has emerged as a powerful lens for genome interpretation. Here we report the sequencing and comparative analysis of 29 eutherian genomes. We confirm that at least 5.5% of the human genome has undergone purifying selection, and locate constrained elements covering ∼4.2% of the genome. We use evolutionary signatures and comparisons with experimental data sets to suggest candidate functions for ∼60% of constrained bases. These elements reveal a small number of new coding exons, candidate stop codon readthrough events and over 10,000 regions of overlapping synonymous constraint within protein-coding exons. We find 220 candidate RNA structural families, and nearly a million elements overlapping potential promoter, enhancer and insulator regions. We report specific amino acid residues that have undergone positive selection, 280,000 non-coding elements exapted from mobile elements and more than 1,000 primate- and human-accelerated elements. Overlap with disease-associated variants indicates that our findings will be relevant for studies of human biology, health and disease. This comparative genomics study, comparing the complete human genome sequence with those of 29 placental mammals, including chimpanzees, mice and dogs, identifies 4.2% of the human genome as constrained by evolutionary selection, and ascribes a potential function to about 60% of these constrained bases. A series of evolutionary signatures emerges, providing insights into coding and non-coding functional genomic elements, candidate RNA structural families and aspects of genome organization and evolution. Overlap with disease-associated variants indicates that the findings will be relevant for studies of human disease.
0
Citation1,129
0
Save
0

Extensive and coordinated transcription of noncoding RNAs within cell-cycle promoters

Tiffany Hung et al.Jun 5, 2011
David Wong, Howard Chang and colleagues report the identification of long noncoding RNAs transcribed from the promoters of cell cycle genes. Many of these RNAs have periodic expression during the cell cycle and are regulated by oncogenic stimuli, stem cell differentiation or DNA damage. Transcription of long noncoding RNAs (lncRNAs) within gene regulatory elements can modulate gene activity in response to external stimuli, but the scope and functions of such activity are not known. Here we use an ultrahigh-density array that tiles the promoters of 56 cell-cycle genes to interrogate 108 samples representing diverse perturbations. We identify 216 transcribed regions that encode putative lncRNAs, many with RT-PCR–validated periodic expression during the cell cycle, show altered expression in human cancers and are regulated in expression by specific oncogenic stimuli, stem cell differentiation or DNA damage. DNA damage induces five lncRNAs from the CDKN1A promoter, and one such lncRNA, named PANDA, is induced in a p53-dependent manner. PANDA interacts with the transcription factor NF-YA to limit expression of pro-apoptotic genes; PANDA depletion markedly sensitized human fibroblasts to apoptosis by doxorubicin. These findings suggest potentially widespread roles for promoter lncRNAs in cell-growth control.
0
Citation1,107
0
Save
0

PhyloCSF: a comparative genomics method to distinguish protein coding and non-coding regions

Chiao‐Feng Lin et al.Jun 14, 2011
Abstract Motivation: As high-throughput transcriptome sequencing provides evidence for novel transcripts in many species, there is a renewed need for accurate methods to classify small genomic regions as protein coding or non-coding. We present PhyloCSF, a novel comparative genomics method that analyzes a multispecies nucleotide sequence alignment to determine whether it is likely to represent a conserved protein-coding region, based on a formal statistical comparison of phylogenetic codon models. Results: We show that PhyloCSF's classification performance in 12-species Drosophila genome alignments exceeds all other methods we compared in a previous study. We anticipate that this method will be widely applicable as the transcriptomes of many additional species, tissues and subcellular compartments are sequenced, particularly in the context of ENCODE and modENCODE, and as interest grows in long non-coding RNAs, often initially recognized by their lack of protein coding potential rather than conserved RNA secondary structures. Availability and Implementation: The Objective Caml source code and executables for GNU/Linux and Mac OS X are freely available at http://compbio.mit.edu/PhyloCSF Contact: mlin@mit.edu; manoli@mit.edu
0
Citation923
0
Save
Load More