EL
Erez Levanon
Author with expertise in Functions and Regulation of RNA Editing by ADARs
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
23
(74% Open Access)
Cited by:
8,220
h-index:
51
/
i10-index:
98
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Human housekeeping genes, revisited

Eli Eisenberg et al.Jun 27, 2013
•Most human genes are expressed in all tissues to some extent•Housekeeping genes may be defined by constant level of expression across tissues•We use RNA-seq data to provide a list of 3804 human housekeeping genes•Several exceptionally uniform genes are suggested as control genes for RT-PCR. Housekeeping genes are involved in basic cell maintenance and, therefore, are expected to maintain constant expression levels in all cells and conditions. Identification of these genes facilitates exposure of the underlying cellular infrastructure and increases understanding of various structural genomic features. In addition, housekeeping genes are instrumental for calibration in many biotechnological applications and genomic studies. Advances in our ability to measure RNA expression have resulted in a gradual increase in the number of identified housekeeping genes. Here, we describe housekeeping gene detection in the era of massive parallel sequencing and RNA-seq. We emphasize the importance of expression at a constant level and provide a list of 3804 human genes that are expressed uniformly across a panel of tissues. Several exceptionally uniform genes are singled out for future experimental use, such as RT-PCR control genes. Finally, we discuss both ways in which current technology can meet some of past obstacles encountered, and several as yet unmet challenges. Housekeeping genes are involved in basic cell maintenance and, therefore, are expected to maintain constant expression levels in all cells and conditions. Identification of these genes facilitates exposure of the underlying cellular infrastructure and increases understanding of various structural genomic features. In addition, housekeeping genes are instrumental for calibration in many biotechnological applications and genomic studies. Advances in our ability to measure RNA expression have resulted in a gradual increase in the number of identified housekeeping genes. Here, we describe housekeeping gene detection in the era of massive parallel sequencing and RNA-seq. We emphasize the importance of expression at a constant level and provide a list of 3804 human genes that are expressed uniformly across a panel of tissues. Several exceptionally uniform genes are singled out for future experimental use, such as RT-PCR control genes. Finally, we discuss both ways in which current technology can meet some of past obstacles encountered, and several as yet unmet challenges. Housekeeping genes are genes that are required for the maintenance of basal cellular functions that are essential for the existence of a cell, regardless of its specific role in the tissue or organism. Thus, they are expected to be expressed in all cells of an organism under normal conditions, irrespective of tissue type, developmental stage, cell cycle state, or external signal. From a fundamental point of view, full characterization of the minimal set of genes required to sustain life is of special interest [1Fraser C.M. et al.The minimal gene complement of Mycoplasma genitalium.Science. 1995; 270: 397-403Crossref PubMed Scopus (2151) Google Scholar, 2Koonin E.V. How many genes can make a cell: the minimal-gene-set concept.Annu. Rev. Genomics Hum. Genet. 2000; 1: 99-116Crossref PubMed Scopus (258) Google Scholar]. In addition, housekeeping genes are widely used as internal controls for experimental as well as computational studies [3Thellin O. et al.Housekeeping genes as internal standards: use and limits.J. Biotechnol. 1999; 75: 291-295Crossref PubMed Scopus (1292) Google Scholar, 4Robinson M.D. Oshlack A. A scaling normalization method for differential expression analysis of RNA-seq data.Genome Biol. 2010; 11: R25Crossref PubMed Scopus (4539) Google Scholar, 5Dheda K. et al.Validation of housekeeping genes for normalizing RNA expression in real-time PCR.Biotechniques. 2004; 37 (116, 118–119): 112-114Crossref PubMed Google Scholar, 6Rubie C. et al.Housekeeping gene variability in normal and cancerous colorectal, pancreatic, esophageal, gastric and hepatic tissues.Mol. Cell. Probes. 2005; 19: 101-109Crossref PubMed Scopus (242) Google Scholar, 7Vandesompele J. et al.Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes.Genome Biol. 2002; 3 (RESEARCH0034)Crossref PubMed Google Scholar]. Furthermore, many studies have highlighted unique genomic and evolutionary features of this special group of genes. For example, housekeeping genes were shown to have shorter introns and exons [8Eisenberg E. Levanon E.Y. Human housekeeping genes are compact.Trends Genet. 2003; 19: 362-365Abstract Full Text Full Text PDF PubMed Scopus (542) Google Scholar, 9Vinogradov A.E. Compactness of human housekeeping genes: selection for economy or genomic design?.Trends Genet. 2004; 20: 248-253Abstract Full Text Full Text PDF PubMed Scopus (131) Google Scholar, 10Carmel L. Koonin E.V. A universal nonmonotonic relationship between gene compactness and expression levels in multicellular eukaryotes.Genome Biol. Evol. 2009; 1: 382-390Crossref PubMed Google Scholar, 11Castillo-Davis C.I. et al.Selection for short introns in highly expressed genes.Nat. Genet. 2002; 31: 415-418Crossref PubMed Scopus (417) Google Scholar], a different repetitive sequence environment [enriched in short interspersed elements (SINEs) and depleted in long interspersed elements (LINEs)] [12Eller C.D. et al.Repetitive sequence environment distinguishes housekeeping genes.Gene. 2007; 390: 153-165Crossref PubMed Scopus (44) Google Scholar, 13Versteeg R. et al.The human transcriptome map reveals extremes in gene density, intron length, GC content, and repeat pattern for domains of highly and weakly expressed genes.Genome Res. 2003; 13: 1998-2004Crossref PubMed Scopus (278) Google Scholar], more simple sequence repeats in the 5′ untranslated region (UTR) [14Farré D. et al.Housekeeping genes tend to show reduced upstream sequence conservation.Genome Biol. 2007; 8: R140Crossref PubMed Scopus (60) Google Scholar], lower conservation of the promoter sequence [15Lawson M.J. Zhang L. Housekeeping and tissue-specific genes differ in simple sequence repeats in the 5′-UTR region.Gene. 2008; 407: 54-62Crossref PubMed Scopus (46) Google Scholar], and lower potential for nucleosome formation in the 5′ region of these genes [16Ganapathi M. et al.Comparative analysis of chromatin landscape in regulatory regions of human housekeeping and tissue specific genes.BMC Bioinformatics. 2005; 6: 126Crossref PubMed Scopus (49) Google Scholar]. Protein products of housekeeping genes are enriched in some domain families [17Lehner B. Fraser A.G. Protein domains enriched in mammalian tissue-specific or widely expressed genes.Trends Genet. 2004; 20: 468-472Abstract Full Text Full Text PDF PubMed Scopus (28) Google Scholar]. These studies shed light on general aspects of gene structure and evolution. The notion of housekeeping genes has been in use in the literature for nearly 40 years. In particular, several mammalian genes have been used widely as internal controls in experimental expression studies, such as glyceraldehyde-3-phosphate dehydrogenase (GAPDH), tubulins, cyclophilin, albumin, actins, 18S rRNA or 28S rRNA. Yet, only at the turn of the 21st century, with the advancement of transcriptome profiling technology, did it become possible to identify, systematically, a set of housekeeping genes. These first attempts used large-scale expression data [18Velculescu V.E. et al.Analysis of human transcriptomes.Nat. Genet. 1999; 23: 387-388Crossref PubMed Scopus (625) Google Scholar, 19Zhu J. et al.How many human genes can be defined as housekeeping with current expression data?.BMC Genomics. 2008; 9: 172Crossref PubMed Scopus (115) Google Scholar, 20Zhu J. et al.On the nature of human housekeeping genes.Trends Genet. 2008; 24: 481-484Abstract Full Text Full Text PDF PubMed Scopus (199) Google Scholar] or, more often, microarray profiling to look at the expression levels of many genes across a panel of tissue samples. Typically, they resulted in lists of hundreds to thousands of genes [8Eisenberg E. Levanon E.Y. Human housekeeping genes are compact.Trends Genet. 2003; 19: 362-365Abstract Full Text Full Text PDF PubMed Scopus (542) Google Scholar, 19Zhu J. et al.How many human genes can be defined as housekeeping with current expression data?.BMC Genomics. 2008; 9: 172Crossref PubMed Scopus (115) Google Scholar, 20Zhu J. et al.On the nature of human housekeeping genes.Trends Genet. 2008; 24: 481-484Abstract Full Text Full Text PDF PubMed Scopus (199) Google Scholar, 21Chang C-W. et al.Identification of human housekeeping genes and tissue-selective genes by microarray meta-analysis.PLoS ONE. 2011; 6: e22859Crossref PubMed Scopus (114) Google Scholar, 22Hsiao L.L. et al.A compendium of gene expression in normal human tissues.Physiol. Genomics. 2001; 7: 97-104Crossref PubMed Scopus (166) Google Scholar, 23Lee S. et al.Identification of novel universal housekeeping genes by statistical analysis of microarray data.J. Biochem. Mol. Biol. 2007; 40: 226-231Crossref PubMed Google Scholar, 24She X. et al.Definition, conservation and epigenetics of housekeeping and tissue-enriched genes.BMC Genomics. 2009; 10: 269Crossref PubMed Scopus (117) Google Scholar, 25Warrington J.A. et al.Comparison of human adult and fetal expression and identification of 535 housekeeping/maintenance genes.Physiol. Genomics. 2000; 2: 143-147PubMed Google Scholar], many more than the dozen or so commonly used control genes. Generally, the many lists produced show a considerable level of consistency. Typically, the intersection of any two of them yields approximately 50% coverage [8Eisenberg E. Levanon E.Y. Human housekeeping genes are compact.Trends Genet. 2003; 19: 362-365Abstract Full Text Full Text PDF PubMed Scopus (542) Google Scholar, 24She X. et al.Definition, conservation and epigenetics of housekeeping and tissue-enriched genes.BMC Genomics. 2009; 10: 269Crossref PubMed Scopus (117) Google Scholar, 26Butte A.J. et al.Further defining housekeeping, or ‘maintenance’, genes Focus on ‘A compendium of gene expression in normal human tissues’.Physiol. Genomics. 2001; 7: 95-96PubMed Google Scholar], suggesting that the sets are enriched in housekeeping genes but still lacking in specificity and selectivity. This could be partly attributed to the limited number of tissues examined in each separate analysis and the differences between the tissues across analyses. However, it is likely that technological limitations affecting the underlying data have contributed much to the quality and reproducibility of the results. In particular, first-generation microarray technology is known to have had many problematic nonspecific probes [27Irizarry R.A. et al.Summaries of Affymetrix GeneChip probe level data.Nucleic Acids Res. 2003; 31: e15Crossref PubMed Scopus (4072) Google Scholar]. Even the improved versions of microarrays are typically assumed to achieve only an approximately twofold accuracy in expression level measurement, and they are limited in their dynamical range. These inaccuracies could have large effects on deciding whether a gene is expressed (regardless of the rather arbitrary expression cutoff used to determine which probe set is ‘expressed’). A second, more fundamental, issue relates to the very definition of housekeeping genes. Should one look for genes merely being expressed in all tissues, or should the gene also be expressed at a constant level across tissues? Early studies generally adopted the first definition and, in fact, GAPDH and other popular housekeeping genes for experimental controls have been found to vary considerably across tissues [3Thellin O. et al.Housekeeping genes as internal standards: use and limits.J. Biotechnol. 1999; 75: 291-295Crossref PubMed Scopus (1292) Google Scholar, 28Barber R.D. et al.GAPDH as a housekeeping gene: analysis of GAPDH mRNA expression in a panel of 72 human tissues.Physiol. Genomics. 2005; 21: 389-395Crossref PubMed Scopus (583) Google Scholar, 29Lee P.D. et al.Control genes and variability: absence of ubiquitous reference transcripts in diverse mammalian expression studies.Genome Res. 2002; 12: 292-297Crossref PubMed Scopus (318) Google Scholar, 30De Jonge H.J.M. et al.Evidence based selection of housekeeping genes.PLoS ONE. 2007; 2: e898Crossref PubMed Scopus (575) Google Scholar]. This choice was the pragmatic one to make, because it enabled the use of the binary present or absent calls of the microarray and rendered normalization issues unnecessary. However, this approach has two shortcomings. First, measurement errors and stochastic noise make it difficult to distinguish genes absent from the sample from those weakly expressed. Second, and more importantly, it was later appreciated that a large part of the genome is expressed at a low basal level in all tissues [31Kapranov P. et al.Genome-wide transcription and the implications for genomic organization.Nat. Rev. Genet. 2007; 8: 413-423Crossref PubMed Scopus (587) Google Scholar]. Thus, most genes are expressed at some background level in all tissues. In light of this observation, and to make the concept of housekeeping genes more useful, one should either modify the definition of housekeeping genes to ‘genes that are expressed above some cutoff level’, which necessarily introduces an arbitrary parameter explicitly, or rather adopt the second option above and look for genes that are expressed at a constant level across all normal tissues. Introducing an expression cutoff requires a quantitative comparison of expression levels of different genes in the same sample. This is known to be a complex problem, due to questions of bias in PCR amplification, different probe affinities, and so on. Furthermore, normalizing the values obtained from different experiments is also a nontrivial challenge. Early microarrays studies generally used linear normalization, setting the mean expression level, or the trimmed mean, constant. Later, the more sophisticated quantile normalization was introduced [32Bolstad B.M. et al.A comparison of normalization methods for high density oligonucleotide array data based on variance and bias.Bioinformatics. 2003; 19: 185-193Crossref PubMed Scopus (6557) Google Scholar]. These and other normalization procedures generally assume similar expression-value distributions for all samples studied. This could be justified for samples coming from identical or highly similar biological conditions, perhaps even for healthy and diseases samples of the same tissue. However, it is not yet clear how accurate this assumption is for cross-tissue comparisons, and how much it skews the results [33Ramsköld D. et al.An abundance of ubiquitously expressed genes revealed by tissue transcriptome sequence data.PLoS Comput. Biol. 2009; 5: e1000598Crossref PubMed Scopus (658) Google Scholar]. A third issue that was not fully addressed in previous studies of housekeeping genes is alternative splicing. It has been appreciated for more than a decade that most human genes have more than one isoform [34Modrek B. Lee C. A genomic view of alternative splicing.Nat. Genet. 2002; 30: 13-19Crossref PubMed Scopus (1067) Google Scholar, 35Johnson J.M. et al.Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays.Science. 2003; 302: 2141-2144Crossref PubMed Scopus (1204) Google Scholar]. Thus, one could envision a situation in which one splice variant is constitutively expressed, making it a housekeeping transcript, whereas another transcript from the same gene exhibits a more complex expression profile (Figure 1A) . Moreover, it is possible that a single gene expresses one transcript in one set of tissues and another transcript in other tissues, such that the gene, as such, is always expressed, but each transcript is specific to a subset of tissues. In principle, then, one would like to define the set of housekeeping transcripts. Early microarray technology did rather poorly in distinguishing between transcripts and, thus, some studies deliberately ‘zoomed out’ to the gene level. New horizons are opening as deep-sequencing technology takes over microarrays as the method of choice for transcriptome profiling [36Wang Z. et al.RNA-Seq: a revolutionary tool for transcriptomics.Nat. Rev. Genet. 2009; 10: 57-63Crossref PubMed Scopus (9092) Google Scholar]. RNA-seq was found to be preferable to microarrays as a tool for expression measurement. Unlike microarrays, RNA-seq does not require pre-knowledge of the genomic sequence (although it is helpful for analysis), and requires smaller amounts of RNA. It provides information at the single-base level, enabling better assessment of alternative splicing and even allelic variation. Background levels in RNA-seq are lower, due to the better specificity and improved control of in silico sequence alignment compared with probe hybridization. Consequently, a wider dynamic range is accessible. Importantly, RNA-Seq is also more accurate in quantifying spike-in RNA controls of known concentration, and produces expression values that correlate better with quantitative PCR (qPCR) results [36Wang Z. et al.RNA-Seq: a revolutionary tool for transcriptomics.Nat. Rev. Genet. 2009; 10: 57-63Crossref PubMed Scopus (9092) Google Scholar] and protein levels [37Fu X. et al.Estimating accuracy of RNA-Seq and microarrays with proteomics.BMC Genomics. 2009; 10: 161Crossref PubMed Scopus (223) Google Scholar]. This new and improved platform enables some of the challenges to be met that have been standing for many years, but it also opens up new questions. In terms of normalization, read coverage generally provides a rather robust measure for comparing different genomic regions within the same sample. Exceptions to this are generally a result of alignment problems in repetitive or duplicative regions (Figure 1B). For the task of housekeeping gene identification, these can be partly avoided by limiting analysis to the nonrepetitive coding regions of the exons [33Ramsköld D. et al.An abundance of ubiquitously expressed genes revealed by tissue transcriptome sequence data.PLoS Comput. Biol. 2009; 5: e1000598Crossref PubMed Scopus (658) Google Scholar] and using long reads. Note, however, that highly expressed coding exons (e.g., GAPDH) are prone to having more duplications [38Zhang Z. et al.Millions of years of evolution preserved: a comprehensive catalog of the processed pseudogenes in the human genome.Genome Res. 2003; 13: 2541-2558Crossref PubMed Scopus (334) Google Scholar], resulting in alignment problems. Small-scale PCR biases are expected to be washed out when looking at the averaged expression level over whole exons. By contrast, the issue of cross-tissue normalization is still open. The popular reads per kilobase per million mapped reads (RPKM) measure takes care of normalizing for the two most obvious factors affecting the raw number of reads per gene, transcript, or exon: the total number of reads produced and their length [39Mortazavi A. et al.Mapping and quantifying mammalian transcriptomes by RNA-Seq.Nat. Methods. 2008; 5: 621-628Crossref PubMed Scopus (10341) Google Scholar]. The RPKM measure is simple and straightforward, but does not fully solve the between-sample normalization issue. More subtle biases, resulting from variations in transcript length distribution in the sample, coverage dependence on local sequence due to GC content, priming and other biases, and variability in mappability of different regions were detected [40Wagner G.P. et al.Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples.Theory Biosci. 2012; 131: 281-285Crossref PubMed Scopus (1235) Google Scholar, 41Dillies M-A. et al.A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis.Brief. Bioinform. 2012; https://doi.org/10.1093/bib/bbs046Crossref PubMed Scopus (818) Google Scholar, 42Dohm J.C. et al.Substantial biases in ultra-short read data sets from high-throughput DNA sequencing.Nucleic Acids Res. 2008; 36: e105Crossref PubMed Scopus (816) Google Scholar, 43Schwartz S. et al.Detection and removal of biases in the analysis of next-generation sequencing reads.PLoS ONE. 2011; 6: e16685Crossref PubMed Scopus (73) Google Scholar, 44Li J. et al.Modeling non-uniformity in short-read rates in RNA-Seq data.Genome Biol. 2010; 11: R50Crossref PubMed Scopus (150) Google Scholar, 45Jones D.C. et al.Compression of next-generation sequencing reads aided by highly efficient de novo assembly.Nucleic Acids Res. 2012; 40: e171Crossref PubMed Scopus (136) Google Scholar]. There is still no consensus as to the best way to account for all of these in a standard and consistent way. In terms of housekeeping gene identification, RNA-seq data indeed show explicitly that basal (leaky) low expression levels can be found throughout the genome. Therefore, any definition of housekeeping genes should refer to the quantitative expression level. This can be done using a cutoff, or by adding the requirement of low variability in expression across tissues. Here, we promote the latter course of action. Setting a cutoff value as the main criteria for defining the housekeeping genes is undesirable for three reasons. First, there seems to be no natural cutoff value, thus forcing one to make an arbitrary choice. Second, due to the lack of a proper intergene normalization scheme, the same RPKM values for different genes could indicate different expression levels [4Robinson M.D. Oshlack A. A scaling normalization method for differential expression analysis of RNA-seq data.Genome Biol. 2010; 11: R25Crossref PubMed Scopus (4539) Google Scholar, 46Roberts A. et al.Improving RNA-Seq expression estimates by correcting for fragment bias.Genome Biol. 2011; 12: R22Crossref PubMed Scopus (955) Google Scholar]. Third, using the expression level as a measure of importance for cell function is also questionable: cells are likely to require different gene products at different concentrations. There is no good reason to exclude genes that are constantly expressed at a mid rather than a high level. Thus, we feel that low variability should be used as the main criteria for selecting housekeeping genes. Another advantage of RNA-seq data is that they measure the expression along the gene (similar to the older exon arrays) and can thereby provide expression at the exon level. Some software tools try to extract transcript expression levels from RNA-seq data (e.g., [47Trapnell C. et al.Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation.Nat. Biotechnol. 2010; 28: 511-515Crossref PubMed Scopus (11320) Google Scholar]). However, there is still much to be desired in terms of reliability within the limits of current technology [43Schwartz S. et al.Detection and removal of biases in the analysis of next-generation sequencing reads.PLoS ONE. 2011; 6: e16685Crossref PubMed Scopus (73) Google Scholar]. This is expected to improve significantly, as read length increases. Note that recent findings [48Pelechano V. et al.Extensive transcriptional heterogeneity revealed by isoform profiling.Nature. 2013; 497: 127-131Crossref PubMed Scopus (301) Google Scholar] show significant variability in exon boundaries, making even the comparison of exon expression imperfect. An interim partial solution, which we adopt below, is to measure expression at the more basic exon level and aim to define a set of housekeeping exons. Here, we demonstrate the power of the new technology for identifying housekeeping genes by analyzing expression data from the Human BodyMap (HBM) 2.0 Project. This includes publicly available RNA-Seq data (GEO accession number GSE30611, HBM), generated on HiSeq 2000 instruments, providing expression profiling in 16 normal human tissue types: adrenal, adipose, brain, breast, colon, heart, kidney, liver, lung, lymph, ovary, prostate, skeletal muscle, testes, thyroid, and white blood cells. Two different read lengths were used for each tissue (2 × 50-bp paired-end and 1 × 75-bp single-read data), each of which was sequenced in a separate HiSeq 2000 lane. We aligned the reads to the genome using the Bowtie2 aligner [49Langmead B. Salzberg S.L. Fast gapped-read alignment with Bowtie 2.Nat. Methods. 2012; 9: 357-359Crossref PubMed Scopus (30152) Google Scholar] and measured the read coverage of each of the coding exons of the (uniquely aligned) RefSeq sequences [50Pruitt K.D. et al.NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy.Nucleic Acids Res. 2012; 40: D130-D135Crossref PubMed Scopus (900) Google Scholar], in normalized RPKM units. For exons that were partly coding, only the coding part was considered. Short exons (<50 bp) are prone to alignment problems and were discarded. We compared the RPKM values obtained from the paired-end data and the single-read data to assess the technical reproducibility of the RPKM measure, and found that the typical fold-ratio between the two was 1.5 (Figure 2A) . We observed a bias against the upstream exons of transcripts, which tended to have a lower expression levels. This effect might result from imperfect reverse transcription resulting in cDNA missing the upstream part of the transcript (Figure 1C). Figure 2B presents the fraction of exons being expressed above a certain cutoff RPKM value in all tissues. Note that approximately 55% of all exons are expressed at a detectable level in all HBM tissues, demonstrating why the old definition of housekeeping genes is not useful. In addition, it is hard to detect a natural expression cutoff value. The variation in expression level is estimated by the standard deviation of log2(RPKM) over samples. Figure 2C shows the cumulative distribution of these standard deviation values for the different exons. To define housekeeping exons, the exon must be expressed in all tissues at any nonzero level, and must exhibit a uniform expression level across tissues. Thus, we adopted the following criteria: (i) expression observed in all tissues; (ii) low variance over tissues: standard-deviation [log2(RPKM)]<1; and (iii) no exceptional expression in any single tissue; that is, no log-expression value differed from the averaged log2(RPKM) by two (fourfold) or more. These criteria resulted in a list of 37 363 unique exons (20% of studied exons), belonging to 11 648 RefSeq transcripts and 6289 genes. These included most of the stable housekeeping genes reported based on microarray data [30De Jonge H.J.M. et al.Evidence based selection of housekeeping genes.PLoS ONE. 2007; 2: e898Crossref PubMed Scopus (575) Google Scholar]. We define a housekeeping gene as a gene for which at least one RefSeq transcript has more than half of its exons meeting the previous criteria (thus being housekeeping exons). Altogether, we found 3804 such human housekeeping genes. The lists of housekeeping exons and housekeeping genes are available at http://www.tau.ac.il/∼elieis/HKG/. In addition, we propose a short list of highly uniform and strongly expressed genes that may be used for calibration in future experimental settings (Table 1).Table 1Genes proposed for calibrationaGenes chosen have most of their exons showing geometrical mean expression exceeding RPKM=50, standard deviation of log2(RPKM) <0.5, and no single tissue showing an expression level different from the geometrical mean by twofold or more. Genes with pseudogenes were excluded.Gene symbolRefSeq accession numberGene nameGenomic coordinates (hg19) of exons passing the filtersC1orf43NM_015449Chromosome 1 open reading frame 43chr1154192817154192883chr1154186932154187050chr1154186368154186422chr1154184933154185100chr1154184795154184854CHMP2ANM_014453Charged multivesicular body protein 2Achr195906541159065579chr195906362559063805chr195906342159063552EMC7NM_020154ER membrane protein complex subunit 7chr153438251734382656chr153438025334380334chr153437653734376687GPINM_000175Glucose-6-phosphate isomerasechr193485768734857756chr193485948734859607chr193486863934868786chr193486983834869910chr193487237034872424chr193488415234884213chr193488481834884971chr193488720534887335chr193488748534887562chr193489011134890240chr193489046034890536chr193489062334890690PSMB2NM_002794Proteasome subunit, beta type, 2chr13610191036102033chr13609687436096945chr13607083336070883PSMB4NM_002796Proteasome subunit, beta type, 4chr1151372456151372663chr1151372917151373064chr1151373239151373321chr1151373714151373831RAB7ANM_004637Member RAS oncogene familychr3128525214128525433chr3128526385128526514chr3128532169128532262REEP5NM_005669Receptor accessory protein 5chr5112256859112256953chr5112238076112238215chr5112222711112222880SNRPD3NM_004175Small nuclear ribonucleoprotein D3chr222495364224953768chr222496395124964144VCPNM_007126Valosin containing proteinchr93506788735068060chr93506667135066814chr93506415035064282chr93506221335062347chr93506199935062135chr93506157335061686chr93506101135061176chr93506079735060920chr93506030935060522chr93505948935059798chr93505906035059216chr93505737235057527chr93505711635057219chr12110930800110931036VPS29NM_016226Vacuolar protein sorting 29 homologchr12110929812110929927chr12110929812110929927a Genes chosen have most of their exons showing geometrical mean expression exceeding RPKM = 50, standard deviation of log2(RPKM) <0.5, and no single tissue showing an expression level different from the geometrical mean by twofold or more. Genes with pseudogenes were excluded. Open table in a new tab As expected, the housekeeping genes are enriched in gene ontology (GO) categories associated with basic cellular activity, such as gene expression and biogenesis of nucleotides and amino acids, catabolic processes, protein localization, and so on [51Huang D.W. et al.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources.Nat. Protoc. 2009; 4: 44-57Crossref PubMed Scopus (26846) Google Scholar]. The overlap with previous lists is partial, due to the different definition of housekeeping genes used. In particular, GAPDH and actin beta (ACTB) do not appear in our new list, because these genes vary across tissues [3Thellin O. et al.Housekeeping genes as internal standards: use and limits.J. Biotechnol. 1999; 75: 291-295Crossref PubMed Scopus (1292) Google Scholar, 28Barber R.D. et al.GAPDH as a housekeeping gene: analysis of GAPDH mRNA expression in a panel of 72 human tissues.Physiol. Genomics. 2005; 21: 389-395Crossref PubMed Scopus (583) Google Scholar, 29Lee P.D. et al.Control genes and variability: absence of ubiquitous reference transcripts in diverse mammalian expression studies.Genome Res. 2002; 12: 292-297Crossref PubMed Scopus (318) Google Scholar, 30De Jonge H.J.M. et al.Evidence based selection of housekeeping genes.PLoS ONE. 2007; 2: e898Crossref PubMed Scopus (575) Google Scholar]. Nevertheless, some of the most pronounced features previously reported for housekeeping genes, such as the much shorter introns [8Eisenberg E. Levanon E.Y. Human housekeeping genes are compact.Trends Genet. 2003; 19: 362-365Abstract Full Text Full Text PDF PubMed Scopus (542) Google Scholar, 9Vinogradov A.E. Compactness of human housekeeping genes: selection for economy or genomic design?.Trends Genet. 2004; 20: 248-253Abstract Full Text Full Text PDF PubMed Scopus (131) Google Scholar, 10Carmel L. Koonin E.V. A universal nonmonotonic relationship between gene compactness and expression levels in multicellular eukaryotes.Genome Biol. Evol. 2009; 1: 382-390Crossref PubMed Google Scholar, 11Castillo-Davis C.I. et al.Selection for short introns in highly expressed genes.Nat. Genet. 2002; 31: 415-418Crossref PubMed Scopus (417) Google Scholar] and more duplications [52Zhang Z. et al.Comparative analysis of processed pseudogenes in the mouse and human genomes.Trends Genet. 2004; 20: 62-67Abstract Full Text Full Text PDF PubMed Scopus (176) Google Scholar], also characterize the new set. Current technology enables global measurement of expression levels with unprecedented accuracy. This advancement has revealed that large parts of the genome are normally expressed at a low level. Accordingly, we found that most human exons are expressed at some level in all the human tissues studied. This new technological era calls the community to reevaluate the concept of a housekeeping gene. Here, we have presented our own perspective, suggesting the use of low expression variation as the main criteria for defining housekeeping genes. We also provide sets of exons and genes that are ubiquitously and uniformly expressed, as well as a short list of genes suitable for experimental calibration. More high-quality deep-sequencing transcriptome profiling data are expected to emerge in the near future, enabling improvements of the analysis described here using better statistics for the tissues studied and adding more tissue types. Furthermore, including extreme pathological conditions relevant for various tissues could further purify the housekeeping genes list [53Chen M. et al.Identification of human HK genes and gene expression regulation study in cancer from transcriptomics data analysis.PLoS ONE. 2013; 8: e54082Crossref PubMed Scopus (20) Google Scholar]. A significant advance should come from new experiments currently being done on single-cell transcriptome profiling [54Tang F. et al.mRNA-Seq whole-transcriptome analysis of a single cell.Nat. Methods. 2009; 6: 377-382Crossref PubMed Scopus (2201) Google Scholar]. This could improve the specificity in detecting housekeeping genes, narrowing the list to genes that are expressed in each and every single cell. In addition, accumulation of tissue-specific epigenetic data, such as histone marks and nucleotide methylations, could be used in the future to better distinguish regulated expression from low-level noise. As discussed above, normalization (within a sample and across samples) is still an unresolved issue. Advancement in this direction could greatly improve housekeeping gene detection. In addition, usage of longer reads is expected to decrease alignment errors and reduce bias. Longer reads (and improved analysis tools) are expected to raise considerably the sensitivity of expression level measurement at the transcript level, enabling direct evaluation of the housekeeping splice-variants list. In conclusion, the dramatic advancement of sequencing technologies calls for a reassessment of the notion of housekeeping genes, and allows for improving quantitatively and qualitatively the resolution. We thus provide updated lists of housekeeping exons and genes for public use, available at http://www.tau.ac.il/∼elieis/HKG/. It is expected that emerging technologies could very soon facilitate meeting the yet open challenges, allowing for better and more accurate housekeeping gene profiling. We thank Ami Haviv and Gilad Finkelstein for help with reads’ alignments, and Lily Bazak for help in gene lengths’ analysis. This work was supported by Israel Science Foundation 379/12 (EE), by the I-CORE Program of the Planning and Budgeting Committee and the Israel Science Foundation (grant No 41/11) and by the Marie Curie Integration Grant 256593(EYL). Corrigendum to: Human housekeeping genes, revisited: [ ]Eisenberg et al.Trends in GeneticsFebruary 18, 2014In BriefIn Table 1, an error was made in the last two rows. The two sets of genomic coordinates listed for the gene VPS29 were erroneously duplicated. The last genomic coordinates listed for the gene VCP (chr12 110930800 110931036) should be listed as the first set of coordinates for the gene VPS29. The complete, correct Table 1 is shown below. The typesetters apologize for this error. Full-Text PDF
0
Citation1,199
0
Save
0

A-to-I RNA editing occurs at over a hundred million genomic sites, located in a majority of human genes

Lily Bazak et al.Dec 17, 2013
RNA molecules transmit the information encoded in the genome and generally reflect its content. Adenosine-to-inosine (A-to-I) RNA editing by ADAR proteins converts a genomically encoded adenosine into inosine. It is known that most RNA editing in human takes place in the primate-specific Alu sequences, but the extent of this phenomenon and its effect on transcriptome diversity are not yet clear. Here, we analyzed large-scale RNA-seq data and detected ∼1.6 million editing sites. As detection sensitivity increases with sequencing coverage, we performed ultradeep sequencing of selected Alu sequences and showed that the scope of editing is much larger than anticipated. We found that virtually all adenosines within Alu repeats that form double-stranded RNA undergo A-to-I editing, although most sites exhibit editing at only low levels (<1%). Moreover, using high coverage sequencing, we observed editing of transcripts resulting from residual antisense expression, doubling the number of edited sites in the human genome. Based on bioinformatic analyses and deep targeted sequencing, we estimate that there are over 100 million human Alu RNA editing sites, located in the majority of human genes. These findings set the stage for exploring how this primate-specific massive diversification of the transcriptome is utilized.
0
Citation540
0
Save
0

Loss of ADAR1 in tumours overcomes resistance to immune checkpoint blockade

Jeffrey Ishizuka et al.Dec 13, 2018
Most patients with cancer either do not respond to immune checkpoint blockade or develop resistance to it, often because of acquired mutations that impair antigen presentation. Here we show that loss of function of the RNA-editing enzyme ADAR1 in tumour cells profoundly sensitizes tumours to immunotherapy and overcomes resistance to checkpoint blockade. In the absence of ADAR1, A-to-I editing of interferon-inducible RNA species is reduced, leading to double-stranded RNA ligand sensing by PKR and MDA5; this results in growth inhibition and tumour inflammation, respectively. Loss of ADAR1 overcomes resistance to PD-1 checkpoint blockade caused by inactivation of antigen presentation by tumour cells. Thus, effective anti-tumour immunity is constrained by inhibitory checkpoints such as ADAR1 that limit the sensing of innate ligands. The induction of sufficient inflammation in tumours that are sensitized to interferon can bypass the therapeutic requirement for CD8+ T cell recognition of cancer cells and may provide a general strategy to overcome immunotherapy resistance. Deletion of the A-to-I double-stranded RNA-editing enzyme ADAR1 sensitizes tumour cells to immunotherapy.
0

Altered adenosine-to-inosine RNA editing in human cancer

Nurit Paz et al.Oct 1, 2007
Adenosine-to-inosine (A-to-I) RNA editing was recently shown to be abundant in the human transcriptome, affecting thousands of genes. Employing a bioinformatic approach, we identified significant global hypoediting of Alu repetitive elements in brain, prostate, lung, kidney, and testis tumors. Experimental validation confirmed this finding, showing significantly reduced editing in Alu sequences within MED13 transcripts in brain tissues. Looking at editing of specific recoding and noncoding sites, including in cancer-related genes, a more complex picture emerged, with a gene-specific editing pattern in tumors vs. normal tissues. Additionally, we found reduced RNA levels of all three editing mediating enzymes, ADAR, ADARB1 , and ADARB2 , in brain tumors. The reduction of ADARB2 correlated with the grade of malignancy of glioblastoma multiforme, the most aggressive of brain tumors, displaying a 99% decrease in ADARB2 RNA levels. Consistently, overexpression of ADAR and ADARB1 in the U87 glioblastoma multiforme cell line resulted in decreased proliferation rate, suggesting that reduced A-to-I editing in brain tumors is involved in the pathogenesis of cancer. Altered epigenetic control was recently shown to play a central role in oncogenesis. We suggest that A-to-I RNA editing may serve as an additional epigenetic mechanism relevant to cancer development and progression.
0
Citation319
0
Save
Load More