JG
Julien Gagneur
Author with expertise in Ribosome Structure and Translation Mechanisms
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
47
(55% Open Access)
Cited by:
6,575
h-index:
47
/
i10-index:
84
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Bidirectional promoters generate pervasive transcription in yeast

Zhenyu Xu et al.Jan 25, 2009
Genome-wide pervasive transcription has been reported in many eukaryotic organisms, revealing a highly interleaved transcriptome organization that involves hundreds of previously unknown non-coding RNAs. These recently identified transcripts either exist stably in cells (stable unannotated transcripts, SUTs) or are rapidly degraded by the RNA surveillance pathway (cryptic unstable transcripts, CUTs). One characteristic of pervasive transcription is the extensive overlap of SUTs and CUTs with previously annotated features, which prompts questions regarding how these transcripts are generated, and whether they exert function. Single-gene studies have shown that transcription of SUTs and CUTs can be functional, through mechanisms involving the generated RNAs or their generation itself. So far, a complete transcriptome architecture including SUTs and CUTs has not been described in any organism. Knowledge about the position and genome-wide arrangement of these transcripts will be instrumental in understanding their function. Here we provide a comprehensive analysis of these transcripts in the context of multiple conditions, a mutant of the exosome machinery and different strain backgrounds of Saccharomyces cerevisiae. We show that both SUTs and CUTs display distinct patterns of distribution at specific locations. Most of the newly identified transcripts initiate from nucleosome-free regions (NFRs) associated with the promoters of other transcripts (mostly protein-coding genes), or from NFRs at the 3' ends of protein-coding genes. Likewise, about half of all coding transcripts initiate from NFRs associated with promoters of other transcripts. These data change our view of how a genome is transcribed, indicating that bidirectionality is an inherent feature of promoters. Such an arrangement of divergent and overlapping transcripts may provide a mechanism for local spreading of regulatory signals-that is, coupling the transcriptional regulation of neighbouring genes by means of transcriptional interference or histone modification.
0
Citation945
0
Save
1

A deep proteome and transcriptome abundance atlas of 29 healthy human tissues

Dongxue Wang et al.Feb 1, 2019
Article18 February 2019Open Access Transparent process A deep proteome and transcriptome abundance atlas of 29 healthy human tissues Dongxue Wang Dongxue Wang orcid.org/0000-0002-4402-0690 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Basak Eraslan Basak Eraslan Computational Biology, Department of Informatics, Technical University of Munich, Garching bei München, Germany Department of Biochemistry, Quantitative Biosciences Munich, Gene Center, Ludwig Maximilian Universität, München, Germany Search for more papers by this author Thomas Wieland Thomas Wieland OmicScouts GmbH, Freising, Germany Search for more papers by this author Björn Hallström Björn Hallström Science for Life Laboratory, KTH - Royal Institute of Technology, Stockholm, Sweden Search for more papers by this author Thomas Hopf Thomas Hopf OmicScouts GmbH, Freising, Germany Search for more papers by this author Daniel Paul Zolg Daniel Paul Zolg Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Jana Zecha Jana Zecha Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Anna Asplund Anna Asplund Science for Life Laboratory, Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden Search for more papers by this author Li-hua Li Li-hua Li Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Chen Meng Chen Meng Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Martin Frejno Martin Frejno orcid.org/0000-0002-6651-1773 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Tobias Schmidt Tobias Schmidt Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Karsten Schnatbaum Karsten Schnatbaum JPT Peptide Technologies GmbH, Berlin, Germany Search for more papers by this author Mathias Wilhelm Mathias Wilhelm Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Frederik Ponten Frederik Ponten orcid.org/0000-0003-0703-3940 Science for Life Laboratory, Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden Search for more papers by this author Mathias Uhlen Mathias Uhlen Science for Life Laboratory, KTH - Royal Institute of Technology, Stockholm, Sweden Search for more papers by this author Julien Gagneur Corresponding Author Julien Gagneur [email protected] orcid.org/0000-0002-8924-8365 Computational Biology, Department of Informatics, Technical University of Munich, Garching bei München, Germany Search for more papers by this author Hannes Hahne Corresponding Author Hannes Hahne [email protected] orcid.org/0000-0003-3601-0051 OmicScouts GmbH, Freising, Germany Search for more papers by this author Bernhard Kuster Corresponding Author Bernhard Kuster [email protected] orcid.org/0000-0002-9094-1677 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Center for Integrated Protein Science Munich (CIPSM), Munich, Germany Search for more papers by this author Dongxue Wang Dongxue Wang orcid.org/0000-0002-4402-0690 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Basak Eraslan Basak Eraslan Computational Biology, Department of Informatics, Technical University of Munich, Garching bei München, Germany Department of Biochemistry, Quantitative Biosciences Munich, Gene Center, Ludwig Maximilian Universität, München, Germany Search for more papers by this author Thomas Wieland Thomas Wieland OmicScouts GmbH, Freising, Germany Search for more papers by this author Björn Hallström Björn Hallström Science for Life Laboratory, KTH - Royal Institute of Technology, Stockholm, Sweden Search for more papers by this author Thomas Hopf Thomas Hopf OmicScouts GmbH, Freising, Germany Search for more papers by this author Daniel Paul Zolg Daniel Paul Zolg Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Jana Zecha Jana Zecha Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Anna Asplund Anna Asplund Science for Life Laboratory, Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden Search for more papers by this author Li-hua Li Li-hua Li Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Chen Meng Chen Meng Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Martin Frejno Martin Frejno orcid.org/0000-0002-6651-1773 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Tobias Schmidt Tobias Schmidt Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Karsten Schnatbaum Karsten Schnatbaum JPT Peptide Technologies GmbH, Berlin, Germany Search for more papers by this author Mathias Wilhelm Mathias Wilhelm Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Search for more papers by this author Frederik Ponten Frederik Ponten orcid.org/0000-0003-0703-3940 Science for Life Laboratory, Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden Search for more papers by this author Mathias Uhlen Mathias Uhlen Science for Life Laboratory, KTH - Royal Institute of Technology, Stockholm, Sweden Search for more papers by this author Julien Gagneur Corresponding Author Julien Gagneur [email protected] orcid.org/0000-0002-8924-8365 Computational Biology, Department of Informatics, Technical University of Munich, Garching bei München, Germany Search for more papers by this author Hannes Hahne Corresponding Author Hannes Hahne [email protected] orcid.org/0000-0003-3601-0051 OmicScouts GmbH, Freising, Germany Search for more papers by this author Bernhard Kuster Corresponding Author Bernhard Kuster [email protected] orcid.org/0000-0002-9094-1677 Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany Center for Integrated Protein Science Munich (CIPSM), Munich, Germany Search for more papers by this author Author Information Dongxue Wang1,‡, Basak Eraslan2,3,‡, Thomas Wieland4, Björn Hallström5, Thomas Hopf4, Daniel Paul Zolg1, Jana Zecha1, Anna Asplund6, Li-hua Li1, Chen Meng1, Martin Frejno1, Tobias Schmidt1, Karsten Schnatbaum7, Mathias Wilhelm1, Frederik Ponten6, Mathias Uhlen5, Julien Gagneur *,2, Hannes Hahne *,4 and Bernhard Kuster *,1,8 1Chair of Proteomics and Bioanalytics, Technische Universität München, Freising, Germany 2Computational Biology, Department of Informatics, Technical University of Munich, Garching bei München, Germany 3Department of Biochemistry, Quantitative Biosciences Munich, Gene Center, Ludwig Maximilian Universität, München, Germany 4OmicScouts GmbH, Freising, Germany 5Science for Life Laboratory, KTH - Royal Institute of Technology, Stockholm, Sweden 6Science for Life Laboratory, Department of Immunology, Genetics and Pathology, Uppsala University, Uppsala, Sweden 7JPT Peptide Technologies GmbH, Berlin, Germany 8Center for Integrated Protein Science Munich (CIPSM), Munich, Germany ‡These authors contributed equally to this work *Corresponding author. Tel: +49 89 289 19411; E-mail: [email protected] *Corresponding author. Tel: +49 8161 976289 0; Fax: +49 8161 976289 1; E-mail: [email protected] *Corresponding author. Tel: +49 8161 71 5696; Fax: +49 8161 71 5931; E-mail: [email protected] Molecular Systems Biology (2019)15:e8503https://doi.org/10.15252/msb.20188503 See also: B Eraslan et al (February 2019) PDFDownload PDF of article text and main figures. Peer ReviewDownload a summary of the editorial decision process including editorial decision letters, reviewer comments and author responses to feedback. ToolsAdd to favoritesDownload CitationsTrack CitationsPermissions ShareFacebookTwitterLinked InMendeleyWechatReddit Figures & Info Abstract Genome-, transcriptome- and proteome-wide measurements provide insights into how biological systems are regulated. However, fundamental aspects relating to which human proteins exist, where they are expressed and in which quantities are not fully understood. Therefore, we generated a quantitative proteome and transcriptome abundance atlas of 29 paired healthy human tissues from the Human Protein Atlas project representing human genes by 18,072 transcripts and 13,640 proteins including 37 without prior protein-level evidence. The analysis revealed that hundreds of proteins, particularly in testis, could not be detected even for highly expressed mRNAs, that few proteins show tissue-specific expression, that strong differences between mRNA and protein quantities within and across tissues exist and that protein expression is often more stable across tissues than that of transcripts. Only 238 of 9,848 amino acid variants found by exome sequencing could be confidently detected at the protein level showing that proteogenomics remains challenging, needs better computational methods and requires rigorous validation. Many uses of this resource can be envisaged including the study of gene/protein expression regulation and biomarker specificity evaluation. Synopsis Proteome and transcriptome quantification across tissues reveals which human genes exist as transcripts and proteins, where they are expressed and in which approximate quantities. Tissue-specific protein expression is found to be a rare and quantitative rather than qualitative characteristic. The study presents the most comprehensive atlas of protein expression to date, across 29 healthy human tissues. Protein level evidence is provided for 13,640 genes and 15,257 isoforms, including 37 missing proteins. Tissue-specific protein expression is rare and quantitative rather than qualitative characteristic. Proteogenomics is still challenging and needs rigorous validation by synthetic peptides. Introduction Delineating the factors that govern protein expression and activity in cells is among the most fundamental research topics in biology. Although the number of potential protein-coding genes in the human genome is stabilizing at about 20,000, high-quality evidence for their physical existence has not yet been found for all and intense efforts are ongoing to identify these currently ~13% “missing proteins” (Omenn et al, 2017). While it is also generally accepted that the quantities of proteins vary greatly within and across different cell types, tissues and body fluids (Kim et al, 2014; Wilhelm et al, 2014), this has not been analysed systematically for many human tissues. Furthermore, it is not very clear yet how the many anabolic and catabolic processes are coordinated to give rise to the often vast differences in the levels of proteins. Messenger RNA levels are important determinants for protein abundance (Vogel et al, 2010; Schwanhäusser et al, 2011), and extensive mRNA expression maps of human cell types and tissues have been generated as proxies for estimating protein abundance (GTEx Consortium, 2013; Uhlén et al, 2015; Thul et al, 2017). However, other studies have also highlighted the much higher dynamic range of protein than transcript abundance as well as a rather poor correlation of mRNA and protein levels suggesting that further and possibly diverse regulatory elements play important roles (Schwanhäusser et al, 2011; Liu et al, 2016; Franks et al, 2017). Decades of careful research revealed numerous mRNA elements affecting translation or mRNA stability such as codon usage, start codon context or secondary structure to name a few. However, most of these studies focussed on single or few genes or single cell types or were performed in model organisms distinct from human systems and often did not cover a lot of proteins. Broader scale analyses have more recently become possible owing to advances in proteome and transcriptome profiling technologies, but these have mostly focussed on a single (disease) tissue or the cell-type resolved analysis of protein expression in single tissues (Zhang et al, 2014; Mertins et al, 2016). To the best of our knowledge, no broad-scale quantitative and integrative analysis of transcriptomes and proteomes across many healthy human tissues has been performed yet that would enable a comprehensive analysis of factors explaining the experimentally observed differences between mRNA and protein expression. Therefore, the purpose of this study was to generate a resource of molecular profiling data at the mRNA and protein level to facilitate the study of protein expression control and proteogenomics in humans. To this end, we analysed 29 major histologically healthy human tissues from the Human Protein Atlas (HPA) project (Uhlén et al, 2015) to provide a comprehensive baseline map of protein expression across the human body. As we show below as well as in Eraslan et al, 2019, these data can be used in many ways to explore protein expression and its regulation in humans. To facilitate further research on this fundamentally important topic and the many further uses that can be envisaged, all data are available in ArrayExpress (Kolesnikov et al, 2015) and proteomeXchange (Vizcaíno et al, 2014). Results and Discussion Comprehensive transcriptomic and proteomic analysis of 29 human tissues We analysed 29 histologically healthy tissue specimen representing major human organs by label-free quantitative proteomics and RNA-Seq (Fig 1A; see Appendix Figs S1–S6 for the assessment of data quality). Tissues were collected by the HPA project (Fagerberg et al, 2014), and adjacent cryosections were used for paired (allele-specific) transcriptome and proteome analysis. RNA-Seq profiling detected and quantified in total 18,072 protein-coding genes with an average of 12,262 (± 1,007 standard deviation, SD) genes per tissue (Fig 1B) when using a cut-off of 1 fragment per kilobase million (FPKM; Uhlén et al, 2015). Proteomic profiling by mass spectrometry resulted in the identification and intensity-based absolute quantification (iBAQ; Schwanhäusser et al, 2011) of a total of 15,210 protein groups with an average of 11,005 (± 680 SD) protein groups per tissue at a false discovery rate (FDR) of < 1% at the protein, peptide and peptide-spectrum match (PSM) level (Fig EV1A). Protein identification was based on 277,698 non-redundant tryptic peptides, representing a total of 13,640 genes and, on average, 10,541 (± 512 SD) genes per tissue covering, on average, 86% of the expressed genome in every tissue. While the total number of confidently identified proteins in this study is smaller than that of other (community-based) resources such as ProteomicsDB (Schmidt et al, 2018) and neXtProt (Gaudet et al, 2017; coverage of 15,721 and 17,470 protein-coding genes, respectively), it provides a highly consistent collection of tissue proteomes including the deepest proteomes to date for many of the tissues analysed. It also provides protein-level evidence for 37 proteins (represented by at least one unique peptide) that are not yet covered by neXtProt (release 2018-01-17; Table EV1). These proteins were validated by synthetic peptides (see PRIDE submission for mirror spectra). Eighteen of these 37 have antibody staining in the current release of the HPA project and all of them show signal in the same tissue they were detected in by MS. This corroborates the detection of these new proteins by an independent method. Eight of these proteins also meet the guidelines of the Human Proteome Project that require ≥ 2 peptides for a new protein each with ≥ 9 amino acids in length (Deutsch et al, 2016). We note that the HPP guidelines use reasonable but ad hoc criteria which are likely too conservative and therefore likely discriminate against further genuine cases. Comparing spectra of endogenous to synthetic peptides is likely the more objective criterion which is why we added mirror plots of all evaluated cases to PRIDE (Zolg et al, 2017). The expression levels of the “new” proteins were about a factor 10 below median (iBAQ at log10 scale, 7.4 versus 8.3) which explains why they may have been missed before. Interestingly, 15 of these proteins were detected in the fallopian tube, an organ that has not yet been extensively profiled by proteomics. Figure 1. Comprehensive proteomic and transcriptomic analysis of 29 human tissues from healthy donors Body map of analysed tissues. Number of genes detected on protein and mRNA level in each tissue. The colouring of the bars indicates the fractions of transcripts and proteins that are expressed everywhere or enriched in certain tissues. The full classification is provided in the text. Abundance distribution of all transcripts detected in all tissues (grey); the fraction of detected proteins is shown in blue and the fraction of transcripts for which no protein was detected is shown in orange. Relative distribution and absolute numbers of transcripts and proteins in selected functional classes across the expression categories shown in panel (B). Colours are the same as in panel (B). Download figure Download PowerPoint Click here to expand this figure. Figure EV1. Further characterization of human proteomes and transcriptomes Number of identified protein groups for each of the 29 tissues. Number of genes in all tissues that were detected at the transcript with higher than average expression but not detected at the protein level. Note the very high number of such cases in testis. Abundance distribution of all proteins detected in human brain (grey). Proteins in blue are expressed in all 29 tissues, and proteins in orange show elevated expression in brain. Clustering of gene ontology terms (biological process) for proteins and transcripts that show the most divergent expression across all tissue. Boxes give examples of GO terms for four different tissues (Appendix, brain, heart and testis). Download figure Download PowerPoint Overall, 13,413 protein-coding genes were detected on both transcript and protein levels, and the detected proteins spanned almost the entire range of mRNA expression again indicating very substantial coverage of the expressed proteome (Fig 1C). However, some proteins could not be detected even for highly expressed mRNAs (i.e. higher than the mean mRNA abundance). About 1/3 of these mRNAs were found in testis (478 of 1,408) and no other tissue contained nearly as many highly expressed mRNAs without protein evidence (Fig EV1B). The “missing” proteins in the testis were statistically significantly enriched for processes related to spermatogenesis by gene ontology analysis (clusterProfiler; n = 82 genes; BH-adjusted P = 8 × 10−14). Although the rich expression of mRNAs in testis has been known for a long time and exploited for, e.g., the cloning of many genes from cDNAs, the apparent absence of so many testis proteins with high mRNA expression is surprising. This was not due to, e.g., poor coverage of the testis proteome (11,024 detected protein-coding genes) or other obvious technical factors (such as inefficient extraction of membrane proteins or difficulties with identifying small proteins) that would prevent detection of these proteins. Interestingly, almost 300 of these “missing” proteins have also not been detected by antibodies in testis (according to HPA) and nearly 200 have no ascribed molecular function. The inability to detect these proteins by mass spectrometry or antibodies despite high levels of mRNA poses a number of questions. For example, are these proteins rapidly degraded implying specialized (and perhaps transient) functions in testis or sperm functionality? Are they perhaps stabilized in response to egg fertilization? Proteins missing at the lower end of the mRNA expression range (less than mean mRNA abundance) are overrepresented in G-protein-coupled receptor activity (n = 173; BH-adjusted P = 8.3 × 10−50), ion channels (n = 109; BH-adjusted P = 7 × 10−10) and cytokine-related biology (n = 76; BH-adjusted P = 6 × 10−9). The abundance of these proteins may simply have been below the mass spectrometric detection limit or, as described many times, can be difficult to extract from cells owing to the presence of multi-pass transmembrane domains giving rise to few if any MS-compatible tryptic peptides after digestion. To explore which and how many proteins show a tissue-specific expression profile, we applied the classification scheme of Uhlén et al (2015, 2016) previously developed for mRNA profiling and which stratifies genes into the five classes “tissue-enriched” (fivefold above any other tissue), “group enriched” (fivefold above any group of 2–7 tissues), “enhanced” (fivefold above the average of all other tissues), “expressed in all” (expressed in all tissues) as well as “mixed” genes (which do not match the other categories). Overall, a large fraction of all represented genes was expressed in all tissues: 37% (6,725) at the transcript level and 39% (5,400) at the protein level. However, 43% (7,866) of all transcripts and 53% (7,244) of all proteins showed elevated expression in one or more tissues (“tissue-enriched”, “group-enriched” or “tissue-enhanced”). Only 0.73% (on average) of all transcripts and 0.65% of all proteins showed a tissue-enriched profile. Two notable exceptions are brain and testis which exhibit a higher percentage of tissue-enriched proteins and transcripts in line with a recent analysis of RNA-Seq data from the HPA and GTEx projects (GTEx Consortium, 2013). Proteins with more tissue-restricted expression tended to be of slightly lower abundance (Fig EV1C). For 1,270 of the total 1,998 tissue-enriched proteins detected in our study, antibody staining was available in the HPA. In the 29 tissues that are common between HPA and the current study, 775 proteins were detected in the same tissue lending support to the mass spectrometry-based data presented here. In addition, we compared our tissue-enriched expression data to the targeted MS (PRM) data acquired for about 52 proteins by Edfors et al (2016) and 10 tissues that overlapped with our tissue panel (see Appendix Figs S7–S9). Incidentally, the Edfors’ study had data on three tissue-enriched proteins. First, myoglobin (MB) was highly tissue-enriched in our data in the heart which was confirmed by the PRM analysis as well as antibody staining in HPA. Second, the protein PDK1 (3-phosphoinositide-dependent protein kinase-1) was also found to be a heart-enriched protein and the PRM data confirmed this. This protein was detected in all tissues by antibody staining but we note that immunohistochemistry (IHC) stains are not quantitative so it is difficult to conclude if broad detection of this protein was due to overstaining or poor antibody specificity. The third example is the protein CANT1 (soluble calcium-activated nucleotidase 1) which we detected as a prostate-enriched protein. Again, this was confirmed by the PRM measurement but was again detected in most tissues by IHC. The above global trends in transcript and protein tissue expression distributions were also mirrored by functional categories of genes but with some interesting detail (Fig 1D, Table EV4). For example, while the tissue distribution of expression of disease-associated genes followed that of all genes, the expression of drug targets in general and GPCRs in particular was much more tissue-restricted speaking to the notion that proteins may make for better drug targets if they are not ubiquitously expressed (Hao & Tatonetti, 2016). In this context, we point out that our baseline map of protein expression across the human body may be of general value for drug discovery as one can, e.g., quickly examine the expression profile of a particular target of interest, to help better understand adverse clinical effects and off-target mechanisms of action of drugs. For instance, a recent study revealed phenylalanine hydroxylase (PAH) as an off-target of the pan-HDAC inhibitor panobinostat (Becher et al, 2016). Our map of protein expression shows that PAH is abundantly expressed in liver (and kidney) which is also the major site of hydroxylation in the human body (Matthews, 2007), indicating that the liver is the major site where panobinostat exerts its detrimental effects, i.e. leading to decreased tyrosine levels, and eventually hypothyroidism in affected patients. In contrast, essential genes (Blomen et al, 2015; Hart et al, 2015; Wang et al, 2015) as well as mitochondrial genes were found in the vast majority of all tissues in line with their central roles for maintaining cellular homeostasis. Despite the differences in detail, our dataset confirms, at the protein level, that there is a core set of ubiquitously expressed genes/proteins and that individual tissues are not strongly characterized by the categorical presence or absence of mRNAs or proteins but rather by quantitative differences (Geiger et al, 2013). This is also evident from an analysis of the most divergently expressed proteins or transcripts that shows enrichment of proteins related to the functional specialization of the respective tissue (Fig EV1D, Table EV3). mRNA and protein expression The relationship between mRNA and protein expression has been studied extensively over the past years and there continues to be debate in terms of how the various correlations that can be computed may be interpreted in terms of technical artefacts or biological meaning (Liu et al, 2016; Fortelny et al, 2017; Franks et al, 2017; Wilhelm et al, 2017). While it is beyond the scope of the current study to attempt to reconcile the different views, the extensive data on both mRNA and protein expression provided in this resource should help to eventually bring clarity. Therefore, in the following, we confine our analysis of the expression data to a few basic points we nonetheless deem important. The dynamic range of transcripts detected by RNA-Seq spanned about four orders of magnitude and that of proteins detected by mass spectrometry spanned eight orders of magnitude (Fig 2A; see Appendix Fig 10 for the corresponding plot using copy numbers that show essentially the same characteristics; Table EV5). This difference alone explains (at least in part) the overall higher coverage of the expressed proteome by RNA-Seq compared to that of LC-MS/MS. This is because there is limited “sequencing capacity” particularly in mass spectrometry. Thus, detecting very low-abundance molecules will be harder, the wider the dynamic range of expression and the lower the sampling depth is. For example, the (paired-end) RNA data provided (on average) 18 M reads per tissue. Those 18 M reads are distributed across 4 orders of magnitude of abundance with an inevitable bias to the higher abundant transcripts. The MS data only provided (on average) ~76,000 peptides and ~284,000 identified tandem mass spectra (peptide to spectrum matches; PSMs) per tissue and these are distributed over eight orders of magnitude also with a bias for the more abundant proteins. As a result, it is currently much easier to cover many genes by RNA-Seq than it is to cover the same number by LC-MS/MS. Figure 2. Analysis of protein and transcript expression levels within and across tissues Distribution of global transcript and protein abundance in all tissues. It is apparent that the dynamic range of protein expression (iBAQ scale) exceeds that of mRNA expression (FPKM scale; see Appendix Fig S10 for the corresponding plot for RNA and protein copy numbers). Protein-to-mRNA abundance plot for brain tissue. The slope of the regression line indicates that high-abundance mRNAs give rise to more protein copies per mRNA than low-abundance mRNAs. Ranked abundance plot of proteins and transcripts in human heart. While the 10 most abundant transcripts cover almost 70% of all transcripts in this tissue, the corresponding proteins only represent about 20% of the total protein. Analysis of the number of genes that are shared among the 100 most abundant transcripts and proteins. Regardless of the tissue, the fraction of shared genes rarely exceeds 20%. Correlation analysis of protein-to-RNA abundance (in log10 scale) across tissues, resulting in almost 90% positive correlations. The proteins highlighted in the next panel are marked. Examples for proteins that show high (SYK, left panel) or no (EIF4A3, right panel) correlation of protein/RNA ratios across tissues. While the former indicates that different tissues express different quantities of SYK, EIF4A3 expression appears to be similar in all tissues. Download figure Download PowerPoint As noted before, the much wider dynamic range at the protein level implies that protein synthesis and protein stability play an important role in determining protein levels beyond mRNA levels (Schwanhäusser et al, 2011; Vogel & Marcotte, 2012). Similarly, the number of protein molecules produced per molecule of mRNA appears to be much larger for high- than for low-abundance transcripts, leading to a nearly quadratic relationship between mRNA levels and protein levels in every tissue (slope of 2.6 in Fig 2B for brain and between 1.8 and 2.7 for all 29 tissues, Fig EV2A; Appendix Fig S11). While this obs
1
Citation605
0
Save
64

Swarm Learning for decentralized and confidential clinical machine learning

Stefanie Warnat-Herresthal et al.May 26, 2021
Abstract Fast and reliable detection of patients with severe and heterogeneous illnesses is a major goal of precision medicine 1,2 . Patients with leukaemia can be identified using machine learning on the basis of their blood transcriptomes 3 . However, there is an increasing divide between what is technically possible and what is allowed, because of privacy legislation 4,5 . Here, to facilitate the integration of any medical data from any data owner worldwide without violating privacy laws, we introduce Swarm Learning—a decentralized machine-learning approach that unites edge computing, blockchain-based peer-to-peer networking and coordination while maintaining confidentiality without the need for a central coordinator, thereby going beyond federated learning. To illustrate the feasibility of using Swarm Learning to develop disease classifiers using distributed data, we chose four use cases of heterogeneous diseases (COVID-19, tuberculosis, leukaemia and lung pathologies). With more than 16,400 blood transcriptomes derived from 127 clinical studies with non-uniform distributions of cases and controls and substantial study biases, as well as more than 95,000 chest X-ray images, we show that Swarm Learning classifiers outperform those developed at individual sites. In addition, Swarm Learning completely fulfils local confidentiality regulations by design. We believe that this approach will notably accelerate the introduction of precision medicine.
0

The Genomic and Transcriptomic Landscape of a HeLa Cell Line

Jonathan Landry et al.Mar 28, 2013
Abstract HeLa is the most widely used model cell line for studying human cellular and molecular biology. To date, no genomic reference for this cell line has been released, and experiments have relied on the human reference genome. Effective design and interpretation of molecular genetic studies performed using HeLa cells require accurate genomic information. Here we present a detailed genomic and transcriptomic characterization of a HeLa cell line. We performed DNA and RNA sequencing of a HeLa Kyoto cell line and analyzed its mutational portfolio and gene expression profile. Segmentation of the genome according to copy number revealed a remarkably high level of aneuploidy and numerous large structural variants at unprecedented resolution. Some of the extensive genomic rearrangements are indicative of catastrophic chromosome shattering, known as chromothripsis. Our analysis of the HeLa gene expression profile revealed that several pathways, including cell cycle and DNA repair, exhibit significantly different expression patterns from those in normal human tissues. Our results provide the first detailed account of genomic variants in the HeLa genome, yielding insight into their impact on gene expression and cellular function as well as their origins. This study underscores the importance of accounting for the strikingly aberrant characteristics of HeLa cells when designing and interpreting experiments, and has implications for the use of HeLa as a model of human biology.
0
Citation418
0
Save
Load More