AB
Andrew Berry
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(90% Open Access)
Cited by:
7,569
h-index:
24
/
i10-index:
30
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Expanded encyclopaedias of DNA elements in the human and mouse genomes

Jill Moore et al.Jul 29, 2020
Abstract The human and mouse genomes contain instructions that specify RNAs and proteins and govern the timing, magnitude, and cellular context of their production. To better delineate these elements, phase III of the Encyclopedia of DNA Elements (ENCODE) Project has expanded analysis of the cell and tissue repertoires of RNA transcription, chromatin structure and modification, DNA methylation, chromatin looping, and occupancy by transcription factors and RNA-binding proteins. Here we summarize these efforts, which have produced 5,992 new experimental datasets, including systematic determinations across mouse fetal development. All data are available through the ENCODE data portal ( https://www.encodeproject.org ), including phase II ENCODE 1 and Roadmap Epigenomics 2 data. We have developed a registry of 926,535 human and 339,815 mouse candidate cis -regulatory elements, covering 7.9 and 3.4% of their respective genomes, by integrating selected datatypes associated with gene regulation, and constructed a web-based server (SCREEN; http://screen.encodeproject.org ) to provide flexible, user-defined access to this resource. Collectively, the ENCODE data and registry provide an expansive resource for the scientific community to build a better understanding of the organization and function of the human and mouse genomes.
0
Citation1,557
0
Save
0

Ensembl 2022

Fiona Cunningham et al.Oct 19, 2021
Ensembl (https://www.ensembl.org) is unique in its flexible infrastructure for access to genomic data and annotation. It has been designed to efficiently deliver annotation at scale for all eukaryotic life, and it also provides deep comprehensive annotation for key species. Genomes representing a greater diversity of species are increasingly being sequenced. In response, we have focussed our recent efforts on expediting the annotation of new assemblies. Here, we report the release of the greatest annual number of newly annotated genomes in the history of Ensembl via our dedicated Ensembl Rapid Release platform (http://rapid.ensembl.org). We have also developed a new method to generate comparative analyses at scale for these assemblies and, for the first time, we have annotated non-vertebrate eukaryotes. Meanwhile, we continually improve, extend and update the annotation for our high-value reference vertebrate genomes and report the details here. We have a range of specific software tools for specific tasks, such as the Ensembl Variant Effect Predictor (VEP) and the newly developed interface for the Variant Recoder. All Ensembl data, software and tools are freely available for download and are accessible programmatically.
0
Citation1,443
0
Save
0

Ensembl 2023

Fergal Martin et al.Oct 14, 2022
Abstract Ensembl (https://www.ensembl.org) has produced high-quality genomic resources for vertebrates and model organisms for more than twenty years. During that time, our resources, services and tools have continually evolved in line with both the publicly available genome data and the downstream research and applications that utilise the Ensembl platform. In recent years we have witnessed a dramatic shift in the genomic landscape. There has been a large increase in the number of high-quality reference genomes through global biodiversity initiatives. In parallel, there have been major advances towards pangenome representations of higher species, where many alternative genome assemblies representing different breeds, cultivars, strains and haplotypes are now available. In order to support these efforts and accelerate downstream research, it is our goal at Ensembl to create high-quality annotations, tools and services for species across the tree of life. Here, we report our resources for popular reference genomes, the dramatic growth of our annotations (including haplotypes from the first human pangenome graphs), updates to the Ensembl Variant Effect Predictor (VEP), interactive protein structure predictions from AlphaFold DB, and the beta release of our new website.
0
Citation469
0
Save
0

The genome of the simian and human malaria parasite Plasmodium knowlesi

Arnab Pain et al.Oct 1, 2008
Four distinct Plasmodium species are known to regularly infect humans: Plasmodium falciparum, P. vivax, P. malariae and P. ovale. The genome sequence of P. falciparum, the cause of the most severe type of human malaria, was completed in 2002 at the same time as the mosquito vector, Anopheles gambiae. In this week's Nature, which focuses on the malaria parasite, two further malaria genome sequences are described. First that of P. vivax, which contributes significant numbers to malaria incidence in humans, though in contrast to P. falciparum, the resulting disease is usually not fatal. The genome of this rather neglected species is presented together with a comparative analysis with the genomes of other Plasmodium species. Second, we publish the genome sequence of Plasmodium knowlesi. For long regarded as a monkey malaria parasite, it is increasingly becoming recognized as the fifth human-infecting Plasmodium species. In particular, it is prevalent in South East Asia where it is often misdiagnosed as another human malaria parasite P. malariae. As a model organism P. knowlesi stands out: not only is it a primate system, useful for work on vaccines, but it can be cultured in vitro and subjected to efficient transfection and gene knockouts. In a Review Article, Elizabeth Winzeler considers the progress made towards using the genome sequence to understand basic malaria parasite biology, and in particular the work on developing rational therapeutic approaches to combat P. falciparum infections. See also the Editorial. For a comprehensive collection of resources visit Nature's past malaria specials: Malaria killer blow ; Outlook on malaria ; Malaria web focus ; Malaria Insight ; Nature Medicine focus on malaria ; Focus on malaria Plasmodium knowlesi is an intracellular malaria parasite whose natural vertebrate host is Macaca fascicularis (the ‘kra’ monkey); however, it is now increasingly recognized as a significant cause of human malaria, particularly in southeast Asia1,2. Plasmodium knowlesi was the first malaria parasite species in which antigenic variation was demonstrated3, and it has a close phylogenetic relationship to Plasmodium vivax4, the second most important species of human malaria parasite (reviewed in ref. 4). Despite their relatedness, there are important phenotypic differences between them, such as host blood cell preference, absence of a dormant liver stage or ‘hypnozoite’ in P. knowlesi, and length of the asexual cycle (reviewed in ref. 4). Here we present an analysis of the P. knowlesi (H strain, Pk1(A+) clone5) nuclear genome sequence. This is the first monkey malaria parasite genome to be described, and it provides an opportunity for comparison with the recently completed P. vivax genome4 and other sequenced Plasmodium genomes6,7,8. In contrast to other Plasmodium genomes, putative variant antigen families are dispersed throughout the genome and are associated with intrachromosomal telomere repeats. One of these families, the KIRs9, contains sequences that collectively match over one-half of the host CD99 extracellular domain, which may represent an unusual form of molecular mimicry.
0
Citation384
0
Save
0

A joint NCBI and EMBL-EBI transcript set for clinical genomics and research

Joannella Morales et al.Apr 6, 2022
Abstract Comprehensive genome annotation is essential to understand the impact of clinically relevant variants. However, the absence of a standard for clinical reporting and browser display complicates the process of consistent interpretation and reporting. To address these challenges, Ensembl/GENCODE 1 and RefSeq 2 launched a joint initiative, the Matched Annotation from NCBI and EMBL-EBI (MANE) collaboration, to converge on human gene and transcript annotation and to jointly define a high-value set of transcripts and corresponding proteins. Here, we describe the MANE transcript sets for use as universal standards for variant reporting and browser display. The MANE Select set identifies a representative transcript for each human protein-coding gene, whereas the MANE Plus Clinical set provides additional transcripts at loci where the Select transcripts alone are not sufficient to report all currently known clinical variants. Each MANE transcript represents an exact match between the exonic sequences of an Ensembl/GENCODE transcript and its counterpart in RefSeq such that the identifiers can be used synonymously. We have now released MANE Select transcripts for 97% of human protein-coding genes, including all American College of Medical Genetics and Genomics Secondary Findings list v3.0 (ref. 3 ) genes. MANE transcripts are accessible from major genome browsers and key resources. Widespread adoption of these transcript sets will increase the consistency of reporting, facilitate the exchange of data regardless of the annotation source and help to streamline clinical interpretation.
0
Citation255
0
Save
93

Systematic assessment of long-read RNA-seq methods for transcript identification and quantification

Francisco Pardo-Palacios et al.Jul 27, 2023
Abstract The Long-read RNA-Seq Genome Annotation Assessment Project (LRGASP) Consortium was formed to evaluate the effectiveness of long-read approaches for transcriptome analysis. The consortium generated over 427 million long-read sequences from cDNA and direct RNA datasets, encompassing human, mouse, and manatee species, using different protocols and sequencing platforms. These data were utilized by developers to address challenges in transcript isoform detection and quantification, as well as de novo transcript isoform identification. The study revealed that libraries with longer, more accurate sequences produce more accurate transcripts than those with increased read depth, whereas greater read depth improved quantification accuracy. In well-annotated genomes, tools based on reference sequences demonstrated the best performance. When aiming to detect rare and novel transcripts or when using reference-free approaches, incorporating additional orthogonal data and replicate samples are advised. This collaborative study offers a benchmark for current practices and provides direction for future method development in transcriptome analysis.
0

Novel autoregulatory cases of alternative splicing coupled with nonsense-mediated mRNA decay

Dmitri Pervouchine et al.Nov 9, 2018
Nonsense-mediated decay (NMD) is a eukaryotic mRNA surveillance system that selectively degrades transcripts with premature termination codons (PTC). Many RNA-binding proteins (RBP) regulate their expression levels by a negative feedback loop, in which RBP binds its own pre-mRNA and causes alternative splicing to introduce a PTC. We present a bioinformatic framework to identify novel such autoregulatory feedback loops by combining eCLIP assays for a large panel of RBPs with the data on shRNA inactivation of NMD pathway, and shRNA-depletion of RBPs followed by RNA-seq. We show that RBPs frequently bind their own pre-mRNAs and respond prominently to NMD pathway disruption. Poison and essential exons, i.e., exons that trigger NMD when included in the mRNA or skipped, respectively, respond oppositely to the inactivation of NMD pathway and to the depletion of their host genes, which allows identification of novel autoregulatory mechanisms for a number of human RBPs. For example, SRSF7 binds its own pre-mRNA and facilitates the inclusion of two poison exons; SFPQ binding promotes switching to an alternative distal 3'-UTR that is targeted by NMD; RPS3 activates a poison 5'-splice site in its pre-mRNA that leads to a frame shift; U2AF1 binding activates one of its two mutually exclusive exons, leading to NMD; TBRG4 is regulated by cluster splicing of its two essential exons. Our results indicate that autoregulatory negative feedback loop of alternative splicing and NMD is a generic form of post-transcriptional control of gene expression.