HB
Harm Bakel
Author with expertise in Coronavirus Disease 2019 Research
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
33
(85% Open Access)
Cited by:
6,161
h-index:
59
/
i10-index:
140
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Transcriptome-wide isoform-level dysregulation in ASD, schizophrenia, and bipolar disorder

Michael Gandal et al.Dec 13, 2018
+86
E
P
M
INTRODUCTION Our understanding of the pathophysiology of psychiatric disorders, including autism spectrum disorder (ASD), schizophrenia (SCZ), and bipolar disorder (BD), lags behind other fields of medicine. The diagnosis and study of these disorders currently depend on behavioral, symptomatic characterization. Defining genetic contributions to disease risk allows for biological, mechanistic understanding but is challenged by genetic complexity, polygenicity, and the lack of a cohesive neurobiological model to interpret findings. RATIONALE The transcriptome represents a quantitative phenotype that provides biological context for understanding the molecular pathways disrupted in major psychiatric disorders. RNA sequencing (RNA-seq) in a large cohort of cases and controls can advance our knowledge of the biology disrupted in each disorder and provide a foundational resource for integration with genomic and genetic data. RESULTS Analysis across multiple levels of transcriptomic organization—gene expression, local splicing, transcript isoform expression, and coexpression networks for both protein-coding and noncoding genes—provides an in-depth view of ASD, SCZ, and BD molecular pathology. More than 25% of the transcriptome exhibits differential splicing or expression in at least one disorder, including hundreds of noncoding RNAs (ncRNAs), most of which have unexplored functions but collectively exhibit patterns of selective constraint. Changes at the isoform level, as opposed to the gene level, show the largest effect sizes and genetic enrichment and the greatest disease specificity. We identified coexpression modules associated with each disorder, many with enrichment for cell type–specific markers, and several modules significantly dysregulated across all three disorders. These enabled parsing of down-regulated neuronal and synaptic components into a variety of cell type– and disease-specific signals, including multiple excitatory neuron and distinct interneuron modules with differential patterns of disease association, as well as common and rare genetic risk variant enrichment. The glial-immune signal demonstrates shared disruption of the blood-brain barrier and up-regulation of NFkB-associated genes, as well as disease-specific alterations in microglial-, astrocyte-, and interferon-response modules. A coexpression module associated with psychiatric medication exposure in SCZ and BD was enriched for activity-dependent immediate early gene pathways. To identify causal drivers, we integrated polygenic risk scores and performed a transcriptome-wide association study and summary-data–based Mendelian randomization. Candidate risk genes—5 in ASD, 11 in BD, and 64 in SCZ, including shared genes between SCZ and BD—are supported by multiple methods. These analyses begin to define a mechanistic basis for the composite activity of genetic risk variants. CONCLUSION Integration of RNA-seq and genetic data from ASD, SCZ, and BD provides a quantitative, genome-wide resource for mechanistic insight and therapeutic development at Resource.PsychENCODE.org. These data inform the molecular pathways and cell types involved, emphasizing the importance of splicing and isoform-level gene regulatory mechanisms in defining cell type and disease specificity, and, when integrated with genome-wide association studies, permit the discovery of candidate risk genes. The PsychENCODE cross-disorder transcriptomic resource. Human brain RNA-seq was integrated with genotypes across individuals with ASD, SCZ, BD, and controls, identifying pervasive dysregulation, including protein-coding, noncoding, splicing, and isoform-level changes. Systems-level and integrative genomic analyses prioritize previously unknown neurogenetic mechanisms and provide insight into the molecular neuropathology of these disorders.
0
Citation985
0
Save
0

Comprehensive functional genomic resource and integrative model for the human brain

Daifeng Wang et al.Dec 13, 2018
+89
J
S
D
Despite progress in defining genetic risk for psychiatric disorders, their molecular mechanisms remain elusive. Addressing this, the PsychENCODE Consortium has generated a comprehensive online resource for the adult brain across 1866 individuals. The PsychENCODE resource contains ~79,000 brain-active enhancers, sets of Hi-C linkages, and topologically associating domains; single-cell expression profiles for many cell types; expression quantitative-trait loci (QTLs); and further QTLs associated with chromatin, splicing, and cell-type proportions. Integration shows that varying cell-type proportions largely account for the cross-population variation in expression (with >88% reconstruction accuracy). It also allows building of a gene regulatory network, linking genome-wide association study variants to genes (e.g., 321 for schizophrenia). We embed this network into an interpretable deep-learning model, which improves disease prediction by ~6-fold versus polygenic risk scores and identifies key genes and pathways in psychiatric disorders.
0
Citation802
0
Save
0

SARS-CoV-2 Omicron virus causes attenuated disease in mice and hamsters

Peter Halfmann et al.Jan 21, 2022
+79
K
S
P
Abstract The recent emergence of B.1.1.529, the Omicron variant 1,2 , has raised concerns of escape from protection by vaccines and therapeutic antibodies. A key test for potential countermeasures against B.1.1.529 is their activity in preclinical rodent models of respiratory tract disease. Here, using the collaborative network of the SARS-CoV-2 Assessment of Viral Evolution (SAVE) programme of the National Institute of Allergy and Infectious Diseases (NIAID), we evaluated the ability of several B.1.1.529 isolates to cause infection and disease in immunocompetent and human ACE2 (hACE2)-expressing mice and hamsters. Despite modelling data indicating that B.1.1.529 spike can bind more avidly to mouse ACE2 (refs. 3,4 ), we observed less infection by B.1.1.529 in 129, C57BL/6, BALB/c and K18-hACE2 transgenic mice than by previous SARS-CoV-2 variants, with limited weight loss and lower viral burden in the upper and lower respiratory tracts. In wild-type and hACE2 transgenic hamsters, lung infection, clinical disease and pathology with B.1.1.529 were also milder than with historical isolates or other SARS-CoV-2 variants of concern. Overall, experiments from the SAVE/NIAID network with several B.1.1.529 isolates demonstrate attenuated lung disease in rodents, which parallels preliminary human clinical data.
0
Citation560
0
Save
0

The draft genome and transcriptome of Cannabis sativa

Harm Bakel et al.Jan 1, 2011
+4
A
J
H
Cannabis sativa has been cultivated throughout human history as a source of fiber, oil and food, and for its medicinal and intoxicating properties. Selective breeding has produced cannabis plants for specific uses, including high-potency marijuana strains and hemp cultivars for fiber and seed production. The molecular biology underlying cannabinoid biosynthesis and other traits of interest is largely unexplored. We sequenced genomic DNA and RNA from the marijuana strain Purple Kush using shortread approaches. We report a draft haploid genome sequence of 534 Mb and a transcriptome of 30,000 genes. Comparison of the transcriptome of Purple Kush with that of the hemp cultivar 'Finola' revealed that many genes encoding proteins involved in cannabinoid and precursor pathways are more highly expressed in Purple Kush than in 'Finola'. The exclusive occurrence of Δ9-tetrahydrocannabinolic acid synthase in the Purple Kush transcriptome, and its replacement by cannabidiolic acid synthase in 'Finola', may explain why the psychoactive cannabinoid Δ9-tetrahydrocannabinol (THC) is produced in marijuana but not in hemp. Resequencing the hemp cultivars 'Finola' and 'USO-31' showed little difference in gene copy numbers of cannabinoid pathway enzymes. However, single nucleotide variant analysis uncovered a relatively high level of variation among four cannabis types, and supported a separation of marijuana and hemp. The availability of the Cannabis sativa genome enables the study of a multifunctional plant that occupies a unique role in human culture. Its availability will aid the development of therapeutic marijuana strains with tailored cannabinoid profiles and provide a basis for the breeding of hemp with improved agronomic characteristics.
0
Citation515
0
Save
0

Reconstruction of a Functional Human Gene Network, with an Application for Prioritizing Positional Candidate Genes

Lude Franke et al.May 10, 2006
+3
L
H
L
Most common genetic disorders have a complex inheritance and may result from variants in many genes, each contributing only weak effects to the disease. Pinpointing these disease genes within the myriad of susceptibility loci identified in linkage studies is difficult because these loci may contain hundreds of genes. However, in any disorder, most of the disease genes will be involved in only a few different molecular pathways. If we know something about the relationships between the genes, we can assess whether some genes (which may reside in different loci) functionally interact with each other, indicating a joint basis for the disease etiology. There are various repositories of information on pathway relationships. To consolidate this information, we developed a functional human gene network that integrates information on genes and the functional relationships between genes, based on data from the Kyoto Encyclopedia of Genes and Genomes, the Biomolecular Interaction Network Database, Reactome, the Human Protein Reference Database, the Gene Ontology database, predicted protein-protein interactions, human yeast two-hybrid interactions, and microarray coexpressions. We applied this network to interrelate positional candidate genes from different disease loci and then tested 96 heritable disorders for which the Online Mendelian Inheritance in Man database reported at least three disease genes. Artificial susceptibility loci, each containing 100 genes, were constructed around each disease gene, and we used the network to rank these genes on the basis of their functional interactions. By following up the top five genes per artificial locus, we were able to detect at least one known disease gene in 54% of the loci studied, representing a 2.8-fold increase over random selection. This suggests that our method can significantly reduce the cost and effort of pinpointing true disease genes in analyses of disorders for which numerous loci have been reported but for which most of the genes are unknown. Most common genetic disorders have a complex inheritance and may result from variants in many genes, each contributing only weak effects to the disease. Pinpointing these disease genes within the myriad of susceptibility loci identified in linkage studies is difficult because these loci may contain hundreds of genes. However, in any disorder, most of the disease genes will be involved in only a few different molecular pathways. If we know something about the relationships between the genes, we can assess whether some genes (which may reside in different loci) functionally interact with each other, indicating a joint basis for the disease etiology. There are various repositories of information on pathway relationships. To consolidate this information, we developed a functional human gene network that integrates information on genes and the functional relationships between genes, based on data from the Kyoto Encyclopedia of Genes and Genomes, the Biomolecular Interaction Network Database, Reactome, the Human Protein Reference Database, the Gene Ontology database, predicted protein-protein interactions, human yeast two-hybrid interactions, and microarray coexpressions. We applied this network to interrelate positional candidate genes from different disease loci and then tested 96 heritable disorders for which the Online Mendelian Inheritance in Man database reported at least three disease genes. Artificial susceptibility loci, each containing 100 genes, were constructed around each disease gene, and we used the network to rank these genes on the basis of their functional interactions. By following up the top five genes per artificial locus, we were able to detect at least one known disease gene in 54% of the loci studied, representing a 2.8-fold increase over random selection. This suggests that our method can significantly reduce the cost and effort of pinpointing true disease genes in analyses of disorders for which numerous loci have been reported but for which most of the genes are unknown. The completion of various genome-sequencing projects and large-scale genomic studies has led to a wealth of available biological data. It is anticipated that this information will revolutionize our insight into the molecular basis of most common diseases by making it easier and quicker to identify genes with variants that predispose to disease (i.e., disease genes). At the moment, we are faced with many disease susceptibility loci, resulting from linkage or cytogenetic analyses, that cover extensive genomic regions. Usually, when the genes in these loci are assessed, positional candidate genes become apparent that can be linked to the phenotype being studied on the basis of their biological function. However, the most obvious functional candidate gene from a disease locus does not always prove to be involved in the disease.e.g.,1Jacobi FK Broghammer M Pesch K Zrenner E Berger W Meindl A Pusch CM Physical mapping and exclusion of GPR34 as the causative gene for congenital stationary night blindness type 1.Hum Genet. 2000; 107: 89-91Crossref PubMed Scopus (6) Google Scholar, 2Seri M Martucciello G Paleari L Bolino A Priolo M Salemi G Forabosco P Caroli F Cusano R Tocco T Lerone M Cama A Torre M Guys JM Romeo G Jasonni V Exclusion of the Sonic Hedgehog gene as responsible for Currarino syndrome and anorectal malformations with sacral hypodevelopment.Hum Genet. 1999; 104: 108-110Crossref PubMed Scopus (24) Google Scholar, 3Simard J Feunteun J Lenoir G Tonin P Normand T Luu The V Vivier A et al.Genetic mapping of the breast-ovarian cancer syndrome to a small interval on chromosome 17q12-21: exclusion of candidate genes EDH17B2 and RARA.Hum Mol Genet. 1993; 2: 1193-1199Crossref PubMed Scopus (66) Google Scholar, 4Tumer Z Croucher PJ Jensen LR Hampe J Hansen C Kalscheuer V Ropers HH Tommerup N Schreiber S Genomic structure, chromosome mapping and expression analysis of the human AVIL gene, and its exclusion as a candidate for locus for inflammatory bowel disease at 12q13-14 (IBD2).Gene. 2002; 288: 179-185Crossref PubMed Scopus (13) Google Scholar, 5Walpole SM Ronce N Grayson C Dessay B Yates JR Trump D Toutain A Exclusion of RAI2 as the causative gene for Nance-Horan syndrome.Hum Genet. 1999; 104: 410-411Crossref PubMed Scopus (10) Google Scholar Often, genes that would not have been predicted to be disease causing prove to be the true disease gene—for example, the BRCA1 gene in early-onset breast cancer.6Miki Y Swensen J Shattuck-Eidens D Futreal PA Harshman K Tavtigian S Liu Q et al.A strong candidate for the breast and ovarian cancer susceptibility gene BRCA1.Science. 1994; 266: 66-71Crossref PubMed Scopus (5048) Google Scholar Moreover, although these disease genes might have been assigned biological functions, it is not always evident how these functions relate to disease. Finally, genes with unknown functions are often overlooked, as attention is paid only to well-studied genes for which functions and interactions have been identified or implicated, some of which can be related to the disease pathogenesis. For example, in Fanconi anemia, at least 10 disease genes were identified,7Joenje H Patel KJ The emerging genetic and molecular basis of Fanconi anaemia.Nat Rev Genet. 2001; 2: 446-457Crossref PubMed Scopus (493) Google Scholar but only a few had a known function. However, follow-up research8D'Andrea AD Grompe M The Fanconi anaemia/BRCA pathway.Nat Rev Cancer. 2003; 3: 23-34Crossref PubMed Scopus (643) Google Scholar, 9de Winter JP van der Weel L de Groot J Stone S Waisfisz Q Arwert F Scheper RJ Kruyt FA Hoatlin ME Joenje H The Fanconi anemia protein FANCF forms a nuclear complex with FANCA, FANCC and FANCG.Hum Mol Genet. 2000; 9: 2665-2674Crossref PubMed Scopus (172) Google Scholar, 10Yamashita T Kupfer GM Naf D Suliman A Joenje H Asano S D'Andrea AD The Fanconi anemia pathway requires FAA phosphorylation and FAA/FAC nuclear accumulation.Proc Natl Acad Sci USA. 1998; 95: 13085-13090Crossref PubMed Scopus (106) Google Scholar revealed that five of those genes function in the same protein complex. Another example is limb-girdle muscular dystrophy, in which many of the disease genes encode for proteins that are part of the dystrophin complex.11Zatz M de Paula F Starling A Vainzof M The 10 autosomal recessive limb-girdle muscular dystrophies.Neuromuscul Disord. 2003; 13: 532-544Abstract Full Text Full Text PDF PubMed Scopus (121) Google Scholar This emphasizes the importance of taking an unbiased approach to assessing positional candidate genes. Faced with the absence of complete functional information for the majority of genes in susceptibility loci, it is difficult to prioritize the positional candidate genes correctly for further sequence or association analysis. However, high-throughput genomic work has now yielded relatively unbiased genomewide data sets12Alfarano C Andrade CE Anthony K Bahroos N Bajec M Bantoft K Betel D et al.The Biomolecular Interaction Network Database and related tools 2005 update.Nucleic Acids Res Database Issue. 2005; 33: D418-D424Crossref PubMed Scopus (458) Google Scholar, 13Peri S Navarro JD Kristiansen TZ Amanchy R Surendranath V Muthusamy B Gandhi TK et al.Human Protein Reference Database as a discovery resource for proteomics.Nucleic Acids Res Database Issue. 2004; 32: D497-D501Crossref PubMed Google Scholar, 14Kanehisa M Goto S Kawashima S Okuno Y Hattori M The KEGG resource for deciphering the genome.Nucleic Acids Res Database Issue. 2004; 32: D277-D280Crossref PubMed Google Scholar, 15Joshi-Tope G Gillespie M Vastrik I D'Eustachio P Schmidt E de Bono B Jassal B Gopinath GR Wu GR Matthews L Lewis S Birney E Stein L Reactome: a knowledgebase of biological pathways.Nucleic Acids Res Database Issue. 2005; 33: D428-D432Crossref PubMed Scopus (911) Google Scholar that comprise known metabolic, regulatory, functional, and physical interactions. There is, however, little integration of these diverse data sets into a coherent view of possible gene and protein interactions that can be used to investigate relationships between genes in different genetic loci. We have tried to address this problem by developing a functional human gene network that comprises known interactions derived from the Biomolecular Interaction Network Database (BIND),12Alfarano C Andrade CE Anthony K Bahroos N Bajec M Bantoft K Betel D et al.The Biomolecular Interaction Network Database and related tools 2005 update.Nucleic Acids Res Database Issue. 2005; 33: D418-D424Crossref PubMed Scopus (458) Google Scholar the Human Protein Reference Database (HPRD),13Peri S Navarro JD Kristiansen TZ Amanchy R Surendranath V Muthusamy B Gandhi TK et al.Human Protein Reference Database as a discovery resource for proteomics.Nucleic Acids Res Database Issue. 2004; 32: D497-D501Crossref PubMed Google Scholar Reactome,15Joshi-Tope G Gillespie M Vastrik I D'Eustachio P Schmidt E de Bono B Jassal B Gopinath GR Wu GR Matthews L Lewis S Birney E Stein L Reactome: a knowledgebase of biological pathways.Nucleic Acids Res Database Issue. 2005; 33: D428-D432Crossref PubMed Scopus (911) Google Scholar and the Kyoto Encyclopedia of Genes and Genomes (KEGG).14Kanehisa M Goto S Kawashima S Okuno Y Hattori M The KEGG resource for deciphering the genome.Nucleic Acids Res Database Issue. 2004; 32: D277-D280Crossref PubMed Google Scholar Since these data sets contain a limited number of known interactions, we implemented a Bayesian framework to complement these relationships with a large number of predicted interactions by relying on evidence for putative gene relationships based on biological process and molecular function annotations from the Gene Ontology database (GO).16Harris MA Clark J Ireland A Lomax J Ashburner M Foulger R Eilbeck K et al.The Gene Ontology (GO) database and informatics resource.Nucleic Acids Res Database Issue. 2004; 32: D258-D261Crossref PubMed Google Scholar We further incorporated experimental data—namely, coexpression data derived from ∼450 microarray hybridizations from the Stanford Microarray Database (SMD)17Ball CA Awad IA Demeter J Gollub J Hebert JM Hernandez-Boussard T Jin H Matese JC Nitzberg M Wymore F Zachariah ZK Brown PO Sherlock G The Stanford Microarray Database accommodates additional microarray platforms and data formats.Nucleic Acids Res Database Issue. 2005; 33: D580-D582Crossref PubMed Scopus (156) Google Scholar and the NCBI Gene Expression Omnibus (GEO),18Barrett T Suzek TO Troup DB Wilhite SE Ngau WC Ledoux P Rudnev D Lash AE Fujibuchi W Edgar R NCBI GEO: mining millions of expression profiles—database and tools.Nucleic Acids Res Database Issue. 2005; 33: D562-D566Crossref PubMed Scopus (762) Google Scholar along with human yeast two-hybrid (Y2H) interactions19Stelzl U Worm U Lalowski M Haenig C Brembeck FH Goehler H Stroedicke M Zenkner M Schoenherr A Koeppen S Timm J Mintzlaff S Abraham C Bock N Kietzmann S Goedde A Toksoz E Droege A Krobitsch S Korn B Birchmeier W Lehrach H Wanker EE A human protein-protein interaction network: a resource for annotating the proteome.Cell. 2005; 122: 957-968Abstract Full Text Full Text PDF PubMed Scopus (1763) Google Scholar and interactions based on orthologous high-throughput protein-protein interactions from lower eukaryotes.20Lehner B Fraser AG A first-draft human protein-interaction map.Genome Biol. 2004; 5: R63Crossref PubMed Google Scholar Our interaction network was then used to test whether we could rank the best positional candidates in susceptibility loci on the basis of their interactions, assuming that the causative genes for any one disorder will be involved in only a few different biological pathways. This would be apparent in our network as a clustering of genes from different susceptibility loci, resulting in shorter gene-gene connections between disease genes than one would expect by chance (fig. 1). Our method (called "Prioritizer") analyzes susceptibility loci and investigates whether genes from different loci can be linked to each other directly21Turner FS Clutterbuck DR Semple CA POCUS: mining genomic sequence annotation to predict disease genes.Genome Biol. 2003; 4: R75Crossref PubMed Scopus (183) Google Scholar or indirectly.22Brunner HG van Driel MA From syndrome families to functional genomics.Nat Rev Genet. 2004; 5: 545-551Crossref PubMed Scopus (143) Google Scholar When we constructed artificial loci of varying size around susceptibility loci from 96 different genetic disorders (each containing at least three loci) and used Prioritizer in our most comprehensive gene network to rank the positional candidate genes for each locus, we were able to significantly increase the chance of detecting disease genes. As a basis for the gene network, we used annotations from Ensembl,23Birney E Andrews TD Bevan P Caccamo M Chen Y Clarke L Coates G et al.An overview of Ensembl.Genome Res. 2004; 14: 925-928Crossref PubMed Scopus (311) Google Scholar version 32.35, resulting in 20,334 known genes that physically map within the autosomes or chromosome X or Y. This yielded 206,725,611 potential gene-gene interactions. On the basis of this set of genes, a comprehensive "gold standard" set of validated direct gene-gene relationships (true positives) was determined using both BIND (September 15, 2005) and HRPD (September 15, 2005) to extract human, curated protein-protein interactions, the proteins of which were mapped to Ensembl gene identifiers. In addition, all human pathways from Reactome (September 15, 2005) and KEGG (September 15, 2005) were used to derive direct interactions that were of transcriptional, physical, or metabolic origin, since pathways are usually composed of genes and proteins that interact with each other in various ways. We chose to allow interactions of physical, metabolic, and regulatory origin to be included within our network, because, for instance, mutations in either one of two genes encoding proteins in the same metabolic pathway or protein complex could lead to the same disease phenotype. Because the true-positive gold standard only describes a limited number of relationships between a limited number of genes, we also used data from GO, coexpression data derived from microarray experiments, conserved protein-protein high-throughput data, and human Y2H interaction data to predict interactions of the remaining gene pairs. We used a Bayesian classifier, because these four types of data were of varying reliability and only contained information about a subset of the data. The classifier allows for combining dissimilar data sets, can deal with missing data, and uses conditional probabilities that can be well interpreted and that control for the varying reliability of the data sets.24Beaumont MA Rannala B The Bayesian revolution in genetics.Nat Rev Genet. 2004; 5: 251-261Crossref PubMed Scopus (323) Google Scholar, 25Egmont-Petersen M Feelders A Baesens B Confidence intervals for probabilistic network classifiers.Comput Stat Data Anal. 2005; 49: 998-1019Crossref Scopus (4) Google Scholar, 26Jansen R Yu H Greenbaum D Kluger Y Krogan NJ Chung S Emili A Snyder M Greenblatt JF Gerstein M A Bayesian networks approach for predicting protein-protein interactions from genomic data.Science. 2003; 302: 449-453Crossref PubMed Scopus (1010) Google Scholar, 27Lee I Date SV Adai AT Marcotte EM A probabilistic functional network of yeast genes.Science. 2004; 306: 1555-1558Crossref PubMed Scopus (531) Google Scholar, 28Xia Y Yu H Jansen R Seringhaus M Baxter S Greenbaum D Zhao H Gerstein M Analyzing cellular biochemistry in terms of molecular networks.Annu Rev Biochem. 2004; 73: 1051-1087Crossref PubMed Scopus (114) Google Scholar, 29Friedman N Geiger D Goldszmidt M Bayesian network classifiers.Mach Learn. 1997; 29: 131-163Crossref Google Scholar For the prediction of interactions, we used a Bayesian classifier type that assumed all data sets had been binned. This operation was performed for each gene pair, and it determined, for each data set, to which bin the pair belongs. Because the number of bins per data set was limited, each bin contained many gene pairs. Subsequently, for each bin, we determined the likelihood ratio between the proportion of gene pairs known to interact and the proportion of gene pairs known not to interact. This measure indicates whether there is an over- or an underrepresentation of truly interacting gene pairs in the bin, which specifies the conditional probability estimates of the Bayesian classifier; thus, training of the classifier is straightforward. However, to be able to train the classifier by determining likelihood ratios of sets of gene pairs, it was crucial that the gold standard, containing the aforementioned well-defined set of curated true-positive gene pairs, be complemented with a set of gene pairs for which there is strong evidence that they, or the proteins they encode, do not functionally interact (true negatives). As has been discussed by others,30Jansen R Gerstein M Analyzing protein function on a genomic scale: the importance of gold-standard positives and negatives for network prediction.Curr Opin Microbiol. 2004; 7: 535-545Crossref PubMed Scopus (141) Google Scholar the construction of this true-negative reference set is problematic, because it is impossible to be certain that two genes (i.e., their protein products) do not interact. However, by assuming that genes encoding for proteins localized within different cellular compartments are, in general, unrelated, it is possible to make a list of gene pairs that are unlikely to interact. The GO Cellular Component annotations were used to yield groups of gene pairs that have exclusive cellular component annotations. To overcome a strong selection bias in the classifier toward well-annotated genes (details provided in appendix A [online only]), only the 5,105 genes that were part of a true-positive gene pair at least three times were allowed to form true-negative gene pairs. We chose combinations of cellular organelles that were highly underrepresented (χ2=2,490; P<10−10) within the true-positive set, which resulted in gene pairs for the following combinations: nucleus and extracellular matrix, protein complex and Golgi apparatus, protein complex and Golgi stack, non–membrane-bound organelle and Golgi stack, non–membrane-bound organelle and extracellular space, non–membrane-bound organelle and Golgi apparatus, extracellular region and organelle membrane, mitochondrion and extracellular matrix, extracellular space and organelle membrane, extracellular space and Golgi stack, organelle membrane and extracellular matrix, extracellular matrix and Golgi stack, extracellular matrix and ubiquitin ligase complex, and ubiquitin ligase complex and Golgi stack. To allow for Bayesian integration, the GO data, microarray coexpression data, and orthologous and human protein-protein interactions data were preprocessed and binned. Biological Process and Molecular Function GO annotations were derived from Ensembl, and two measures of relatedness for each of the two data sets were determined, resulting in a total of four different GO measures of relatedness. First, we determined, for each Biological Process GO term, how many of the genes had been assigned this term. Then, we determined which Biological Process GO terms were shared between the two components of each gene pair, for all the pairs. This led to the shared GO term that was annotated in the least number of genes, and its frequency of occurrence was used as a measure. GO terms GO:0000004 (biological process unknown) and GO:0005554 (molecular function unknown) were discarded, since genes that shared either of these highly unspecific terms should not be related to each other on the basis of this information. The same procedure was performed to generate the first measure of Molecular Function GO relatedness. The second measure determined the maximal hierarchical depth at which a gene pair shared a Biological Process GO term. This hierarchical depth was defined as the shortest number of branches necessary to go from one Biological Process GO term back to the GO root. The same method was used to generate the maximum hierarchical depth of the Molecular Function GO sharing measure. Coexpression between genes was determined in microarray data sets from GEO and SMD. Individual data sets comprised an experiment that contained at least 10 hybridizations. To ensure that the quality of the intensity measurements was reliable, various filtering steps were performed to exclude spots with low signal-to-noise ratios.31Lee HK Hsu AK Sajdak J Qin J Pavlidis P Coexpression analysis of human genes across many microarray data sets.Genome Res. 2004; 14: 1085-1094Crossref PubMed Scopus (572) Google Scholar Within the SMD data sets, intensity spots were filtered out that were either missing or contaminated, and the mean intensity of spots had to be at least 2.5 times higher than the average background signal of the microarray. Since GEO contains both ratiometric and Affymetrix single-spot intensity microarray data sets, we used different filtering strategies. The 5% of genes with the lowest maximal intensity were removed from the Affymetrix data sets. For both SMD and GEO, expression ratios were log2 transformed. Microarray features missing ⩾25% of expression measurements in a data set after filtering were excluded. All features were assigned Ensembl gene identifiers by comparing their sequences to Ensembl transcripts with the use of SSAHA.32Ning Z Cox AJ Mullikin JC SSAHA: a fast search method for large DNA databases.Genome Res. 2001; 11: 1725-1729Crossref PubMed Scopus (746) Google Scholar To determine which gene pairs showed coexpression, the mutual information was calculated between all the genes represented within each data set33Basso K Margolin AA Stolovitzky G Klein U Dalla-Favera R Califano A Reverse engineering of regulatory networks in human B cells.Nat Genet. 2005; 37: 382-390Crossref PubMed Scopus (1027) Google Scholar if there were at least 10 nonmissing data points. As a preprocessing step, expression levels were ranked; this invertible reparameterization did not affect the mutual information. Next, for each pair of genes, the joint distribution of expression levels was estimated by calculating a histogram with overlapping windows. The range was divided into six windows, where each window extends to the center of the next window. The number of windows was chosen by optimizing the error rate for the mutual information derived from analytical probability densities.33Basso K Margolin AA Stolovitzky G Klein U Dalla-Favera R Califano A Reverse engineering of regulatory networks in human B cells.Nat Genet. 2005; 37: 382-390Crossref PubMed Scopus (1027) Google Scholar In this way, each data point contributes to two windows, except at the extremities. Finally, on the basis of the resulting distribution, the mutual information (MI) between each pair of genes was calculated as MI(A,B)=H(A)+H(B)-H(A,B), where H(X) is the information-theoretic Shannon entropy.34Shannon CE A mathematical theory of communication.Bell Syst Tech J. 1948; 27 (623-356): 379-423Crossref Scopus (20774) Google Scholar For each microarray data set, the MI score was binned. This allowed the subsequent Bayesian classifier to determine the likelihood ratio, indicating whether gene pairs within each bin contained an overrepresentation of truly interacting gene pairs. Once the likelihood ratios had been determined for each data set, a receiver operator characteristic (ROC) curve was constructed, and the area under the curve (AUC) was calculated. Data sets that had a minimal AUC of 0.59 were combined in a naive way—for each gene pair, the likelihood ratios were multiplied by each other, resulting in a final microarray coexpression likelihood ratio for each gene pair. Two orthologous protein-protein interaction data sets from Lehner and Fraser20Lehner B Fraser AG A first-draft human protein-interaction map.Genome Biol. 2004; 5: R63Crossref PubMed Google Scholar were used to supplement the GO and microarray coexpression data. One data set contained computationally predicted human protein interactions that had been physically mapped within Ensembl genes. The second data set contained a subset of these protein pairs, to which Lehner et al. had assigned a higher confidence. Three bins were constructed: one containing the higher-confidence gene pairs, one containing the remaining lower-confidence pairs, and a third containing all the other unobserved gene pairs. A human Y2H protein-protein interaction data set from Stelzl et al.19Stelzl U Worm U Lalowski M Haenig C Brembeck FH Goehler H Stroedicke M Zenkner M Schoenherr A Koeppen S Timm J Mintzlaff S Abraham C Bock N Kietzmann S Goedde A Toksoz E Droege A Krobitsch S Korn B Birchmeier W Lehrach H Wanker EE A human protein-protein interaction network: a resource for annotating the proteome.Cell. 2005; 122: 957-968Abstract Full Text Full Text PDF PubMed Scopus (1763) Google Scholar was integrated by mapping the HUGO identifiers to Ensembl genes. Two bins were constructed: one containing the gene pairs for which a Y2H interaction was reported, and one containing all the other unobserved gene pairs. The Bayesian classifier was employed to integrate the various binned types of data. We chose not to learn the Bayesian network structure from the data but to use a predefined Bayesian network structure, for which the conditional probabilities were determined by benchmarking the various data sets against the gold standard (fig. 2) (details provided in appendix A). We subsequently generated four gene networks. One network contained evidence for interaction based on the GO data (GO network). Another network contained evidence for interaction derived from integrating the microarray coexpression and predicted protein-protein interaction data in a naive way (MA+PPI network). A third network combined, in a naive way, the GO and MA+PPI networks (GO+MA+PPI network), and this was complemented with all known true-positive interactions in a final network (GO+MA+PPI+TP network). To relate interacting genes directly or indirectly, an all-pairs shortest path was calculated for each gene network.35Floyd RW Algorithm 97: shortest path.Commun ACM. 1962; 5: 345Crossref Scopus (2371) Google Scholar This measure of the minimal path length between pairs of genes was used in the subsequent method to associate disease genes with each other. Prioritizer assesses whether genes residing within different susceptibility loci are close together within the gene network. This indicates that this method could also work with diseases for which only two loci have been identified. However, in such a case, there is a considerable probability that two genes, each residing in a different locus, would interact by chance. We therefore restricted the analysis to diseases for which at least three contributing disease genes had been identified. These diseases and disease genes were derived from the Online Mendelian Inheritance in Man (OMIM) database,36Hamosh A Scott AF Amberger JS Bocchini CA McKusick VA Online Mendelian Inheritance in Man (OMIM), a knowledgebase of human genes and genetic disorders.Nucleic Acids Res Database Issue. 2005; 33: D514-D517Crossref PubMed Scopus (1728) Google Scholar by text mining the first paragraphs of all OMIM disease entries as of March 1, 2005, and extracting the OMIM gene numbers contained within these paragraphs (table A1 in appendix A). The HUGO gene name was later extracted from these OMIM entries and was mapped to an Ensembl gene name. If, for any one disease, there were two disease genes situated at the same chromosome and positionally <200 genes apart, one of the two genes was randomly removed to ensure that no loci would overlap. The diseases for which at least three disease genes remained after filtering were analyzed by artificially generating su
0
Citation477
0
Save
0

A Library of Yeast Transcription Factor Motifs Reveals a Widespread Function for Rsc3 in Targeting Nucleosome Exclusion at Promoters

Gwenaël Badis et al.Dec 1, 2008
+20
H
E
G
The sequence specificity of DNA-binding proteins is the primary mechanism by which the cell recognizes genomic features. Here, we describe systematic determination of yeast transcription factor DNA-binding specificities. We obtained binding specificities for 112 DNA-binding proteins representing 19 distinct structural classes. One-third of the binding specificities have not been previously reported. Several binding sequences have striking genomic distributions relative to transcription start sites, supporting their biological relevance and suggesting a role in promoter architecture. Among these are Rsc3 binding sequences, containing the core CGCG, which are found preferentially ∼100 bp upstream of transcription start sites. Mutation of RSC3 results in a dramatic increase in nucleosome occupancy in hundreds of proximal promoters containing a Rsc3 binding element, but has little impact on promoters lacking Rsc3 binding sequences, indicating that Rsc3 plays a broad role in targeting nucleosome exclusion at yeast promoters.
0
Citation470
0
Save
0

Activity of convalescent and vaccine serum against SARS-CoV-2 Omicron

Juan Carreño et al.Dec 31, 2021
+40
R
A
J
The Omicron (B.1.1.529) variant of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) was initially identified in November 2021 in South Africa and Botswana, as well as in a sample from a traveller from South Africa in Hong Kong1,2. Since then, Omicron has been detected globally. This variant appears to be at least as infectious as Delta (B.1.617.2), has already caused superspreader events3, and has outcompeted Delta within weeks in several countries and metropolitan areas. Omicron hosts an unprecedented number of mutations in its spike gene and early reports have provided evidence for extensive immune escape and reduced vaccine effectiveness2,4–6. Here we investigated the virus-neutralizing and spike protein-binding activity of sera from convalescent, double mRNA-vaccinated, mRNA-boosted, convalescent double-vaccinated and convalescent boosted individuals against wild-type, Beta (B.1.351) and Omicron SARS-CoV-2 isolates and spike proteins. Neutralizing activity of sera from convalescent and double-vaccinated participants was undetectable or very low against Omicron compared with the wild-type virus, whereas neutralizing activity of sera from individuals who had been exposed to spike three or four times through infection and vaccination was maintained, although at significantly reduced levels. Binding to the receptor-binding and N-terminal domains of the Omicron spike protein was reduced compared with binding to the wild type in convalescent unvaccinated individuals, but was mostly retained in vaccinated individuals. Sera from unvaccinated, vaccinated, and previously infected and vaccinated individuals show reduced neutralizing and spike protein-binding activity towards the Omicron (B.1.1.529) variant of SARS-CoV-2 compared to other variants.
0
Citation446
0
Save
0

Most “Dark Matter” Transcripts Are Associated With Known Genes

Harm Bakel et al.May 18, 2010
T
B
C
H
A series of reports over the last few years have indicated that a much larger portion of the mammalian genome is transcribed than can be accounted for by currently annotated genes, but the quantity and nature of these additional transcripts remains unclear. Here, we have used data from single- and paired-end RNA-Seq and tiling arrays to assess the quantity and composition of transcripts in PolyA+ RNA from human and mouse tissues. Relative to tiling arrays, RNA-Seq identifies many fewer transcribed regions (“seqfrags”) outside known exons and ncRNAs. Most nonexonic seqfrags are in introns, raising the possibility that they are fragments of pre-mRNAs. The chromosomal locations of the majority of intergenic seqfrags in RNA-Seq data are near known genes, consistent with alternative cleavage and polyadenylation site usage, promoter- and terminator-associated transcripts, or new alternative exons; indeed, reads that bridge splice sites identified 4,544 new exons, affecting 3,554 genes. Most of the remaining seqfrags correspond to either single reads that display characteristics of random sampling from a low-level background or several thousand small transcripts (median length = 111 bp) present at higher levels, which also tend to display sequence conservation and originate from regions with open chromatin. We conclude that, while there are bona fide new intergenic transcripts, their number and abundance is generally low in comparison to known exons, and the genome is not as pervasively transcribed as previously reported.
0
Citation423
0
Save
0

Introductions and early spread of SARS-CoV-2 in the New York City area

Ana Gonzalez‐Reiche et al.May 29, 2020
+32
G
I
A
Blighted Gotham Deaths caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) in New York City (NYC) during the spring of 2020 have vastly exceeded those reported in China and many other countries. What were the early events that led to such a severe outbreak? Gonzalez-Reiche et al. sampled some of the early patients seeking assistance in February and March of 2020 at the Mount Sinai Health System. Phylogenetic analysis of virus sequences in these people, who were drawn from across NYC, showed that the virus had been independently introduced many times from Europe and elsewhere in the United States. Subsequent clusters of community transmission occurred. The focus of infection in NYC is a marker of the role this city plays as a two-way hub for human movement. Science this issue p. 297
0

Characterization of the human ESC transcriptome by hybrid sequencing

Kin Au et al.Nov 26, 2013
+8
P
V
K
Although transcriptional and posttranscriptional events are detected in RNA-Seq data from second-generation sequencing, full-length mRNA isoforms are not captured. On the other hand, third-generation sequencing, which yields much longer reads, has current limitations of lower raw accuracy and throughput. Here, we combine second-generation sequencing and third-generation sequencing with a custom-designed method for isoform identification and quantification to generate a high-confidence isoform dataset for human embryonic stem cells (hESCs). We report 8,084 RefSeq-annotated isoforms detected as full-length and an additional 5,459 isoforms predicted through statistical inference. Over one-third of these are novel isoforms, including 273 RNAs from gene loci that have not previously been identified. Further characterization of the novel loci indicates that a subset is expressed in pluripotent cells but not in diverse fetal and adult tissues; moreover, their reduced expression perturbs the network of pluripotency-associated genes. Results suggest that gene identification, even in well-characterized human cell lines and tissues, is likely far from complete.
0
Citation322
0
Save
Load More