AB
Ariel Bazzini
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
13
(100% Open Access)
Cited by:
2,605
h-index:
21
/
i10-index:
27
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation

Ariel Bazzini et al.Apr 4, 2014
Article4 April 2014free access Identification of small ORFs in vertebrates using ribosome footprinting and evolutionary conservation Ariel A Bazzini Corresponding Author Ariel A Bazzini Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Timothy G Johnstone Timothy G Johnstone Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Romain Christiano Romain Christiano Department of Cell Biology, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Sebastian D Mackowiak Sebastian D Mackowiak Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Benedikt Obermayer Benedikt Obermayer Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Elizabeth S Fleming Elizabeth S Fleming Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Charles E Vejnar Charles E Vejnar Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Miler T Lee Miler T Lee Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Nikolaus Rajewsky Corresponding Author Nikolaus Rajewsky Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Tobias C Walther Tobias C Walther Department of Cell Biology, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Antonio J Giraldez Corresponding Author Antonio J Giraldez Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Yale Stem Cell Center, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Ariel A Bazzini Corresponding Author Ariel A Bazzini Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Timothy G Johnstone Timothy G Johnstone Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Romain Christiano Romain Christiano Department of Cell Biology, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Sebastian D Mackowiak Sebastian D Mackowiak Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Benedikt Obermayer Benedikt Obermayer Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Elizabeth S Fleming Elizabeth S Fleming Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Charles E Vejnar Charles E Vejnar Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Miler T Lee Miler T Lee Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Nikolaus Rajewsky Corresponding Author Nikolaus Rajewsky Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany Search for more papers by this author Tobias C Walther Tobias C Walther Department of Cell Biology, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Antonio J Giraldez Corresponding Author Antonio J Giraldez Department of Genetics, Yale University School of Medicine, New Haven, CT, USA Yale Stem Cell Center, Yale University School of Medicine, New Haven, CT, USA Search for more papers by this author Author Information Ariel A Bazzini 1,‡, Timothy G Johnstone1,‡, Romain Christiano2, Sebastian D Mackowiak3, Benedikt Obermayer3, Elizabeth S Fleming1, Charles E Vejnar1, Miler T Lee1, Nikolaus Rajewsky 3, Tobias C Walther2 and Antonio J Giraldez 1,4 1Department of Genetics, Yale University School of Medicine, New Haven, CT, USA 2Department of Cell Biology, Yale University School of Medicine, New Haven, CT, USA 3Systems Biology of Gene Regulatory Elements, Max-Delbrück-Center for Molecular Medicine, Berlin, Germany 4Yale Stem Cell Center, Yale University School of Medicine, New Haven, CT, USA ‡Co-first authors. *Corresponding author. Tel: +1 203 785 5450; Fax: +1 203 785 4415; E-mail: [email protected] *Corresponding author. Tel: +49 30 9406 2999; Fax: +49 30 9406 3068; E-mail: [email protected] *Corresponding author. Tel: +1 203 785 5423; Fax: +1 203 785 4415; E-mail: [email protected] The EMBO Journal (2014)33:981-993https://doi.org/10.1002/embj.201488411 See also: SM Cohen (May 2014) PDFDownload PDF of article text and main figures. Peer ReviewDownload a summary of the editorial decision process including editorial decision letters, reviewer comments and author responses to feedback. ToolsAdd to favoritesDownload CitationsTrack CitationsPermissions ShareFacebookTwitterLinked InMendeleyWechatReddit Figures & Info Abstract Identification of the coding elements in the genome is a fundamental step to understanding the building blocks of living systems. Short peptides (< 100 aa) have emerged as important regulators of development and physiology, but their identification has been limited by their size. We have leveraged the periodicity of ribosome movement on the mRNA to define actively translated ORFs by ribosome footprinting. This approach identifies several hundred translated small ORFs in zebrafish and human. Computational prediction of small ORFs from codon conservation patterns corroborates and extends these findings and identifies conserved sequences in zebrafish and human, suggesting functional peptide products (micropeptides). These results identify micropeptide-encoding genes in vertebrates, providing an entry point to define their function in vivo. Synopsis The combination of ORFscore and micPDP enable high confidence prediction of many, small translated ORFs that were functionally not appreciated or previously annotated as lincRNAs. “ORFScore” explores high-resolution footprinting with ribosome phasing to identify novel, translated micropeptides in genes previously thought to lack coding potential. “micPDP” is a new computational pipeline that identifies micropeptides under negative selection across species. The combination of these techniques enabled high confidence prediction of numerous small translated ORFs suitable for functional characterization. Introduction Analysis of the genome has identified many putative transcripts that lack the classical hallmark of eukaryotic protein-coding genes: a single, long, conserved coding sequence (CDS) encoding a protein of more than 100 amino acids (Carninci et al, 2005; Birney et al, 2007; Tautz, 2009; Ulitsky et al, 2011; Derrien et al, 2012; Pauli et al, 2012). However, many of these transcripts (including lincRNAs) (Khalil et al, 2009; Guttman et al, 2010; Ingolia et al, 2011) contain multiple putative small open reading frames (smORFs, ≤ 100 aa) that can potentially be translated and thus might have a coding function (Ingolia et al, 2011; Chew et al, 2013; Slavoff et al, 2013). Recent examples have revealed functional, protein-coding smORFs across various genomes in RNAs previously thought to be non-coding (Savard et al, 2006; Galindo et al, 2007; Kondo et al, 2007, 2010; Pueyo & Couso, 2008; Magny et al, 2013). mille-pattes and tarsal-less/polished-rice were found to encode several micropeptides required during development in Tribolium and Drosophila, respectively (Savard et al, 2006; Kondo et al, 2007; Pueyo & Couso, 2008). Similarly, the predicted non-coding pncr003:2L gene encodes two micropeptides, each smaller than 30 aa, that regulate cardiac contraction in Drosophila (Magny et al, 2013). Comprehensive identification of smORFs has been challenging and has mainly relied on evolutionary conservation (Stark et al, 2007; Lin et al, 2011), known patterns of codon occurrence and mass spectrometry (Schwaid et al, 2013; Slavoff et al, 2013). However, these approaches can be limited by the size, abundance and amino acid composition of the polypeptide. Ribosome footprinting measures translation by direct quantification of mRNA fragments protected by the 80S ribosome (ribosome-protected fragments, RPFs) after nuclease digestion (Fig 1A) (Wolin & Walter, 1988; Ingolia et al, 2009). Recent studies have used ribosome footprinting (Ingolia et al, 2009; Bazzini et al, 2012) to characterize the coding potential of different transcripts (Chew et al, 2013; Guttman et al, 2013) and identify translated protein-coding sequences (Ingolia et al, 2011; Brar et al, 2012; Michel et al, 2012; Stern-Ginossar et al, 2012; Chew et al, 2013; Crappe et al, 2013; Menschaert et al, 2013; Pauli et al, 2014). However, it has been questioned whether fragments recovered from ribosome profiling libraries always reflect a translating ribosome as opposed to regions protected by other RNA-binding proteins, or spurious binding to the ribosome (Guttman et al, 2013), and therefore, it is unclear how well these methods perform to identify individual smORFs. Unlike other interactions between mRNA, proteins, or scanning ribosomes, actively translating ribosomes have a unique property: the discrete movement along the message in three-nucleotide steps (phasing) (Ingolia et al, 2009; Guo et al, 2010; Michel et al, 2012), a feature that has been used to identify frame shifts and dually decoded regions in the genome (Michel et al, 2012). Since phased ribosome binding is a direct consequence of active translation, we reasoned that using phased binding as a criterion would reduce the noise in conventional ribosome profiling analyses and would allow us to identify smORFs undergoing translation in vivo. Figure 1. Ribosome profiling in zebrafish Schematic representation of ribosome profiling: 28 to 29-nt-long ribosome-protected fragments (RPFs) are generated from nuclease digestion, where the P-site of the ribosome is in position 13. Developmental stages at which ribosome profiling was performed. Subcodon position of the ribosome footprints (position 13) for the RPF and input reads. Plot shows the proportion of RPFs or input reads aligned to the coding sequence of RefSeq genes at each position relative to the codon. Input reads were obtained after poly-(A) fractionation and random fragmentation of the naked RNA. RPFs and input reads mapped to a composite RefSeq transcript. RPFs mainly map to the CDS with a 3-nucleotide periodicity. RPF reads are colored as in (C) based on the position with respect to the frame of the CDS. Input reads map to both the UTRs and CDS (gray). Subcodon profile plot showing RPF and input reads aligned to actinb1. Reads are colored based on the frame (1, 2 or 3) position relative to the transcript (Michel et al, 2012). All putative ORFs (distal AUG-Stop) were also colored for each respective frame (blue, pink and green boxes). Note that most of the RPFs from the annotated ORF match the color of the box, consistent with a strong in-frame distribution of reads within individual transcripts. Download figure Download PowerPoint Results Ribosome footprinting in zebrafish with subcodon resolution To define the coding potential of the transcriptome and identify translated smORFs, we analyzed the positional distribution of active ribosomes during zebrafish development. To this end, we generated high-depth ribosome footprinting with subcodon resolution across embryogenesis (at 2, 5, 12, 24 and 48 h post-fertilization, hpf) (Fig 1B). This resulted in approximately 200 million mapped reads after filtering for ribosomal RNAs, tRNAs and snoRNAs (Supplementary Table S1). 95% of reads within RefSeq protein-coding genes overlapped the CDS. Because phasing of the ribosome footprints can vary with fragment size, we first analyzed the distribution of RPFs within a composite RefSeq transcript (Supplementary Fig S1). Metagene analysis of the reads mapping to the annotated CDS revealed that 84.6% of the 28 and 29 nt RPFs were in-frame relative to their 5′ ends (position 1 in the codon of the P-site, offset +12 nt), whereas the RNA input fragments did not present any bias in their distribution (Fig 1C). The periodic distribution of RPFs observed along the CDS within each codon (Fig 1D, Supplementary Fig S1) reflects the stepwise translocation of active ribosomes (Ingolia et al, 2009). We reasoned that this pattern should derive from a biased in-frame distribution of RPFs within each individual CDS (Fig 1E). Thus, we hypothesized that this pattern could be used to define actively translated regions and distinguish them from background signal. ORFscore, a method to identify actively translated smORFs Guided by this hypothesis, we developed a method (ORFscore) that quantifies the biased distribution of RPFs toward the first frame of a given CDS (Fig 2). Given a putative ORF in the transcriptome (AUG to stop), we quantified the number of RPFs in each frame and determined whether RPFs were uniformly distributed or preferentially accumulated in one frame. We assigned a negative value to RPF distributions inconsistent with the frame of the ORF (Fig 2A). To filter ORFs with single or few codons covered by reads, we calculated the proportion of codons with in-frame reads (coverage) (Fig 2B). Next, we tested the predictive value of our methodology. Several lines of evidence suggest that our method identifies individual ORFs with coding potential. First, we analyzed all possible ORFs in annotated coding RefSeq transcripts. ORFscore was generally high across RefSeq CDS regions, with 85% of the expressed genes (> 1RPKM) having ORFscore ≥ 6.044 and coverage ≥ 10% (Fig 3A, C). In contrast, scores for most ORFs in the 5′UTR, the 3′UTR or overlapping the annotated CDS out of frame fell below these levels, reflecting their lack of coding potential (Fig 3A). Selecting the ORF with the highest ORFscore per transcript correctly identified the annotated CDS in 99% of the expressed coding transcripts, clearly distinguishing them from other possible ORFs in each transcript (P < 2.2e-16, Chi-squared test) (Fig 3B). Figure 2. Defining actively translated regions by ribosome profiling Workflow to define the ORFscore: Top diagram represents a transcript, below solid bars represent all possible ORFs (Distal AUG-Stop) identified in each frame (+1, +2, +3). The RPF distribution in each frame is compared to an equally sized uniform distribution using a modified chi-squared statistic (see Materials and Methods). The resulting ORFscore is assigned a negative value when the distribution of RPFs is inconsistent with the frame of the CDS. Coverage is determined by measuring the proportion of in-frame CDS positions with ≥ 1 reads. Download figure Download PowerPoint Figure 3. ORFscore discriminates translated from non-translated regions A–D. Scatterplot of the ORFscore and coverage for all ORFs (A), the subset of ORFs with the highest ORFscore per transcript (B) and short (20–100 aa) annotated CDS (D). Relative density plots (scaled to the maximum value for each group) of the ORFscore and coverage are shown for each ORF type. Note the separation between annotated ORFs from the rest of the ORFs, even for short (20–100 aa) annotated CDSs. (C) Color code used to label different ORF types found in RefSeq protein-coding transcripts: annotated CDS (green), 5′UTR ORFs (purple), 3′UTR ORFs (red) and ORFs overlapping the annotated CDS (orange). E. Bar plots representing the number of ORFs identified on the basis of their ORFscore and coverage and defined as translated for each ORF type as in (C). Among all putative ORFs, the distribution of annotated ORFs was significantly different from the overall set (P = 2.2e-16, chi-squared test) with long and short CDS showing the highest fold-change enrichment in translated ORFs compared to other ORF types. Download figure Download PowerPoint Annotated CDSs are usually longer than ORFs in the 5′- and 3′-UTRs (Supplementary Fig S2). To ensure that the correct identification of annotated CDSs is not simply due to this bias in size, we restricted the analysis to transcripts containing known coding regions ≤ 100 aa, using the same parameters (Fig 3D). This analysis identified 86% (208 out of 241) of short annotated CDSs, distinguishing them from 74,669 other putative short ORFs in expressed RefSeq coding transcripts (20-to-100 aa, P < 2.2e-16, Chi-squared test) (Fig 3E). Thus, combining frame bias and coverage provides a measure of coding potential that can be used to confidently identify small translated ORFs. Identification of novel smORFs by ORFscore To identify novel translated ORFs, we applied the ORFscore method to transcripts without defined coding sequences, including previously annotated long non-coding RNAs (Ulitsky et al, 2011; Pauli et al, 2012; Howe et al, 2013) and uncharacterized processed transcripts from Ensembl (Howe et al, 2013) (Fig 4A). In this analysis, Ensembl-annotated smORFs were used as a positive control (Fig 4A). Out of 2450 genes without previously defined coding sequences, many of which are thought to be non-coding, our analysis found experimentally supported coding ORFs in 303 genes. Of these, 214 (71%) encode smORFs between 20 and 100 aa long corresponding to 190 non-redundant smORF loci (Fig 4C and E, Supplementary Fig S3, Supplementary Table S2 and Supplementary File S1) and 89 (29%) encode for proteins longer than 100 aa. The majority of defined smORFs do not share significant amino acid sequence homology with known proteins in zebrafish (Fig 4D). An additional set of 53 non-redundant smORFs (Fig 4E) was identified after relaxing the coverage requirements while maintaining requirement for phasing of the ribosomes through the ORFscore. In contrast, 959 expression-matched transcripts lacked evidence for coding ORFs, including the known non-coding RNAs cyrano and megamind (Ulitsky et al, 2011; Chew et al, 2013) (Fig 4B, Supplementary Fig S4). Our analysis also provided experimental support for translation of 302 (52%) of the smORFs that were previously predicted by Ensembl and RefSeq (Howe et al, 2013) (Fig 4E) and distinguished them from size-matched ORFs in the 3′UTR that were used as control for non-coding regions (Fig 4A). Gene expression analysis revealed developmental regulation of mRNA levels for both smORF-containing and non-coding RNAs during embryogenesis (Fig 4K, Supplementary Fig S4). As an independent analysis, we determined whether the polypeptide products from translated smORFs are detected by mass spectrometry (MS) (Supplementary Fig S5). We identified peptides for 98 annotated smORFs (~32% out of 302) and 6 novel smORFs (~3% out of 190) (Fig 4F), including those encoded by ENSDART00000145781 and linc-brsk1 (Fig 4I and J, Supplementary Fig S3). Identification of proteins by shotgun proteomics depends, among other factors, on protein and peptide lengths and abundances (Slavoff et al, 2013), which may explain why novel smORFs appear to be underrepresented in our recovered set, since they are shorter than previously annotated peptides (P = 1.6e-43, Wilcoxon test) (Fig 4G). Translated smORFs are also present in canonical protein-coding transcripts. Using ORFscore, we identify 311 (5′UTR) and 93 (3′UTR) translated ORFs, of which 17 and 10, respectively, were also identified by mass spectrometry (Fig 4H, Supplementary Fig S3). Future studies will be needed to further characterize the function of this large set of upstream and downstream ORFs, as they may regulate mRNA stability or translation of the main CDS (Barbosa et al, 2013). Taken together, these results reveal expression of several hundred smORFs present in transcripts with previously undefined coding sequences. Figure 4. Identification of small coding ORFs (smORFs) in non-coding RNAs A. Scatterplot of ORFscore and coverage for the ORF with highest ORFscore per transcript. Shown are annotated short ORF (20–100 aa) (green), annotated lincRNA and “processed transcripts” from Ensembl (orange), non-coding RNAs described by Ulitsky et al (2011) (set 1, dark blue) and by Pauli et al (2012) (set 2, light blue) and ORFs in annotated 3′UTR used as negative control (red). Note that several ORFs in non-coding annotated transcripts score at comparable levels to annotated CDSs. Inset shows the scatter plot for annotated smORFs and 3′UTR ORFs. Relative density plots (scaled to the maximum value for each group) of the ORFscore and coverage are shown for each ORF type. B. Subcodon profile plot showing a known non-coding RNA, cyrano, depleted of ribosome footprints. C. Stacked plot showing the proportion of genes in which a translated ORF was defined by ORFscore and 10% coverage (*, stringent) or only ORFscore (**, permissive) and transcripts with low ORFscore (undetermined). The number of transcripts in each fraction is indicated. D. Pie chart of BLASTp results against several organisms for the 241 newly defined translated regions, collapsed on amino acid sequence. E. Bar plot showing the number of unique novel smORFs and Ensembl-predicted smORFs (≤ 100 aa), defined by ORFscore and 10% coverage (*, stringent and predicted) or only ORFscore (**, permissive). F. Bar plot displaying the number of novel and Ensembl-predicted smORFs identified by tandem mass spectrometry (MS-MS). G. Box plot representing the size distribution of the ORFs defined by ORFscore and MS-MS. H. Bar plot showing the number of genes with translated ORFs in the 5′ or 3′ UTR defined by ORFscore or detected by MS-MS. I, J. Subcodon profile plots showing individual examples of identified smORFs: Ribosome profiling data show the translated ORF and fragmentation spectra identifying the encoded peptides. K. Heat-map showing dynamic expression of novel smORF-containing genes during zebrafish embryogenesis (n = 190). Download figure Download PowerPoint Computational prediction of smORFs from codon conservation patterns Translation by ribosomes per se does not imply that a smORF encodes a functional peptide. For example, the peptide could be unstable or translation could function to regulate transcript stability. Moreover, a fraction of smORFs may have been missed using ribosome footprinting if they were not sufficiently expressed in the stages analyzed. Alternatively, conservation analysis can reveal evolutionary pressure to maintain the amino acid sequence of functional peptides. Thus, as an independent and complementary approach, we developed a computational pipeline (micropeptide detection pipeline, micPDP) to search for smORFs and evaluate the evidence for negative selection on the encoded amino acid sequence from codon substitutions observed in whole-genome alignments. We filtered candidate alignments by coverage and reading frame conservation and then used phyloCSF (Lin et al, 2011) to score the coding potential from codon substitutions observed in whole-genome multiple alignments. We also used a simple parameter-free method (Ka/Ks) as control, which yields comparable results (Supplementary Fig S6). From published catalogs of zebrafish transcripts without annotated coding sequences, including lincRNAs (Ulitsky et al, 2011; Pauli et al, 2012; Howe et al, 2013), we evaluated 15,743 ORFs and from these predicted 63 conserved smORFs on 60 different transcripts (Fig 5A). 23 of these were also found by ORFscore (P < 2e-22, Fisher's exact test) (Fig 5B). Note that only 45 of the experimentally detected smORFs in zebrafish had sufficient sequence alignment and could be scored by phyloCSF. Experimental and computational scores are correlated in zebrafish (Fig 5B and C), and smORFs score better by one method if they were detected by the other than if they were not (P < 3e-15, Mann–Whitney U-test, for both cases). Analysis of 33,961 human lincRNAs from Ensembl and RefSeq (Cabili et al, 2011; Derrien et al, 2012) yields comparable results, predicting 173 smORFs on 160 different transcripts (Fig 5A and C). Using ORFscore to analyze previously published ribosome footprinting data in HeLa cells (Guo et al, 2010) (Supplementary Fig S6) defines 135 translated smORFs (118 unique loci) in human lincRNAs (Fig 5D, Supplementary Table S2 and Supplementary File S2) and a small overlap of seven candidates out of 95,780 smORFs with the computational results (P < 6.3e-9, Fisher's exact test) (Fig 5C and E). Taken together, we identify hundreds of translated smORFs in human and fish and define an overlapping set of smORFs encoding evolutionarily conserved peptides. Figure 5. Computational identification of evolutionarily conserved smORFs (MicPDP) A. Number of smORFs detected within putative non-coding RNA transcripts in zebrafish and human. B,C. Scatterplot of ORFscore and phyloCSF score for 686 zebrafish and 45,079 human smORFs with sufficient alignment coverage. The predictions of the two methods have small but significant overlap (light blue dots; P < 2e-22 and P < 6.3e-9 respectively, Fisher's exact test), and zebrafish experimental and computational results are correlated (Spearman's ρ = 0.49, P < 4e-42). D. Scatterplot of ORFscore and coverage for 2,000 randomly selected human Ensembl-annotated coding ORFs (green), 2,000 ORFs in the 3′UTR and the set of coding ORFs from human lincRNAs as defined by ORFscore (blue, best ORFscore per unique genomic locus). E. Subcodon profile plot, showing a smORF in the human predicted non-coding RNA ENST00000426713 (LINC00116-002) that presented high phyloCSF score and ORFscore. Download figure Download PowerPoint Discussion Our analysis of the zebrafish transcriptome using ribosome profiling provides two key insights into the genome-wide expression of smORFs in vertebrates. First, smORFs are widely distributed and are translated from a large body of transcripts, many of which were thought to lack coding potential. We experimentally identified hundreds of translated smORF regions that encode small proteins (micropeptides), defining 190 smORFs, 311 ORFs in the 5′UTR and 93 in the 3′UTR, and validated a portion of these by mass spectrometry. Previous studies have used ribosome footprinting to define classes of transcripts within non-coding RNAs based on the pattern of ribosome footprints when compared to known coding genes (Chew et al, 2013; Guttman et al, 2013), but in most cases this classification does not define the translated ORF. In contrast to existing methods (Supplementary Fig S7) (Ingolia et al, 2011; Michel et al, 2012; Chew et al, 2013; Guttman et al, 2013), the ORFscore leverages the periodicity of high-quality ribosome-protected fragments to define small translated ORFs (Supplementary Fig S7) independent of the surrounding sequence context in zebrafish and humans (Supplementary Fig S7) (Guttman et al, 2013). While our method provides strong support for translation of individual ORFs using the parameters defined, we observe that relaxing the coverage cutoff recovers an additional set of ORFs that are defined with lower confidence but maintain strong phasing of the ribosome, suggesting active translation (Fig 4E; Supplementary Fig S6). Indeed, the Translated ORF Classifier designed by Chew et al (2013) identifies a fraction of these transcripts as coding, providing a complementary method to define the coding potential of RNA (Supplementary Fig S6). The ORFscore strongly depends on the phasing of the ribosomes, therefore overlapping ORFs that are translated on different reading frames (Michel et al, 2012) can be missed by this method depending on the region of overlap for these ORFs; thus, future refinement will be necessary to define overlapping translated ORFs in zebrafish (Supplementary Fig S3). Applying the ORFscore analysis to previously published ribosome footprinting data in human cell lines (Guo et al, 2010) provides evidence for translation of smORFs present in human RNAs previously classified as non-coding (Supplementary Table S2). The presence of these small translated regions does not rule out a direct function of the mRNA transcript independent of the encoded peptide. Translation of small regions in these transcripts may be necessary for RNA function through localization, folding or triggering non-sense-mediated decay (Medenbach et al, 2011; Chew et al, 2013; Guttman et al, 2013; Somers et al, 2013). Indeed, we have observed in lincRNAs a class of tiny ORFs (< 20 aa) supported by in-frame RPFs: For example, cyrano contains a 2aa ORF in zebrafish that displays high in-frame translation (Fig 4B). Due to the small size of these ORFs, further work will be needed to characterize their functions in vivo. Our method also defines a subset of transcripts with no evidence of translation, supporting a non-coding function for these transcripts. Second, independent of the ribosomal footprint analyses, we developed a computational pipeline (micPDP) that identified a set of micropeptides which are likely under natural selection by computationally analyzing codon conservation patterns in multiple species alignments of annotated human lincRNAs and fish transcripts without previously defined coding sequences, including lincRNAs. Half of the translated micropeptides analyzed by ribosome footprinting with sequence alignment across species (23 out of 45) present strong patterns of evolutionary conservation (Fig 5B and C), supporting a functional role of these coding sequences. A small group of the identified smORFs (25%) have predicted homologs (e.g. RPL41) (Fig 4D), complementing current genome
0
Citation613
0
Save
0

Nanog, Pou5f1 and SoxB1 activate zygotic gene expression during the maternal-to-zygotic transition

Miler Lee et al.Sep 20, 2013
After fertilization, maternal factors direct development and trigger zygotic genome activation (ZGA) at the maternal-to-zygotic transition (MZT). In zebrafish, ZGA is required for gastrulation and clearance of maternal messenger RNAs, which is in part regulated by the conserved microRNA miR-430. However, the factors that activate the zygotic program in vertebrates are unknown. Here we show that Nanog, Pou5f1 (also called Oct4) and SoxB1 regulate zygotic gene activation in zebrafish. We identified several hundred genes directly activated by maternal factors, constituting the first wave of zygotic transcription. Ribosome profiling revealed that nanog, sox19b and pou5f1 are the most highly translated transcription factors pre-MZT. Combined loss of these factors resulted in developmental arrest before gastrulation and a failure to activate >75% of zygotic genes, including miR-430. Our results demonstrate that maternal Nanog, Pou5f1 and SoxB1 are required to initiate the zygotic developmental program and induce clearance of the maternal program by activating miR-430 expression. This study investigates how zygotic transcription is initiated and the maternal transcripts cleared in the zebrafish embryo: using loss-of-function analyses, high-throughput transcriptome sequencing and ribosome footprinting, the important roles of pluripotency factors Nanog, Pou5f1 and SoxB1 during these processes are identified. This paper identifies key factors responsible for the initiation of the zygotic program of development during embryogenesis. Following fertilization, maternal factors direct development and trigger zygotic genome activation at the maternal-to-zygotic transition. Antonio Giraldez and colleagues use loss-of-function analyses, high-throughput transcriptome sequencing and ribosome footprinting to identify the important roles of pluripotency factors Nanog, Pou5f1 and SoxB1 in the initiation of zygotic transcription and the clearance of maternal transcripts in the zebrafish embryo. These findings point to possible linkage between mechanisms of embryonic development, induction of pluripotency and reprogramming.
0
Citation450
0
Save
0

Upstream ORFs are prevalent translational repressors in vertebrates

Timothy Johnstone et al.Feb 19, 2016
Abstract Regulation of gene expression is fundamental in establishing cellular diversity and a target of natural selection. Untranslated mRNA regions ( UTR s) are key mediators of post‐transcriptional regulation. Previous studies have predicted thousands of ORF s in 5′ UTR s, the vast majority of which have unknown function. Here, we present a systematic analysis of the translation and function of upstream open reading frames ( uORF s) across vertebrates. Using high‐resolution ribosome footprinting, we find that (i) uORF s are prevalent within vertebrate transcriptomes, (ii) the majority show signatures of active translation, and (iii) uORF s act as potent regulators of translation and RNA levels, with a similar magnitude to mi RNA s. Reporter experiments reveal clear repression of downstream translation by uORF s/ oORF s. uORF number, intercistronic distance, overlap with the CDS , and initiation context most strongly influence translation. Evolution has targeted these features to favor uORF s amenable to regulation over constitutively repressive uORF s/ oORF s. Finally, we observe that the regulatory potential of uORF s on individual genes is conserved across species. These results provide insight into the regulatory code within mRNA leader sequences and their capacity to modulate translation across vertebrates.
0
Citation314
0
Save
56

linc-mipep and linc-wrb encode micropeptides that regulate chromatin accessibility in vertebrate-specific neural cells

Valerie Tornini et al.Jul 22, 2022
Abstract Thousands of long intergenic non-coding RNAs (lincRNAs) are transcribed throughout the vertebrate genome. A subset of lincRNAs enriched in developing brains has recently been found to contain cryptic open reading frames and are speculated to encode micropeptides. However, systematic identification and functional assessment of these transcripts have been hindered by technical challenges caused by their small size. Here we show that two putative lincRNAs ( linc-mipep and linc-wrb ) encode micropeptides with homology to the vertebrate-specific chromatin architectural protein, Hmgn1, and demonstrate that they are required for development of vertebrate-specific brain cell types. Specifically, we show that NMDA receptor-mediated pathways are dysregulated in zebrafish lacking these micropeptides and that their loss preferentially alters the gene regulatory networks that establish cerebellar cells and oligodendrocytes – evolutionarily newer cell types that develop postnatally in humans. These findings highlight the power of screening for unexplored micropeptide functions by revealing a key missing link in the evolution of vertebrate brain cell development and illustrating a genetic basis for how some neural cell types are more susceptible to chromatin disruptions, with implications for neurodevelopmental disorders and disease.
Load More