LG
Lars Gabriel
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(100% Open Access)
Cited by:
39
h-index:
6
/
i10-index:
6
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

BRAKER3: Fully automated genome annotation using RNA-seq and protein evidence with GeneMark-ETP, AUGUSTUS, and TSEBRA

Lars Gabriel et al.May 1, 2024
Gene prediction has remained an active area of bioinformatics research for a long time. Still, gene prediction in large eukaryotic genomes presents a challenge that must be addressed by new algorithms. The amount and significance of the evidence available from transcriptomes and proteomes vary across genomes, between genes, and even along a single gene. User-friendly and accurate annotation pipelines that can cope with such data heterogeneity are needed. The previously developed annotation pipelines BRAKER1 and BRAKER2 use RNA-seq or protein data, respectively, but not both. A further significant performance improvement integrating all three data types was made by the recently released GeneMark-ETP. We here present the BRAKER3 pipeline that builds on GeneMark-ETP and AUGUSTUS, and further improves accuracy using the TSEBRA combiner. BRAKER3 annotates protein-coding genes in eukaryotic genomes using both short-read RNA-seq and a large protein database, along with statistical models learned iteratively and specifically for the target genome. We benchmarked the new pipeline on genomes of 11 species under an assumed level of relatedness of the target species proteome to available proteomes. BRAKER3 outperforms BRAKER1 and BRAKER2. The average transcript-level F1-score is increased by about 20 percentage points on average, whereas the difference is most pronounced for species with large and complex genomes. BRAKER3 also outperforms other existing tools, MAKER2, Funannotate, and FINDER. The code of BRAKER3 is available on GitHub and as a ready-to-run Docker container for execution with Docker or Singularity. Overall, BRAKER3 is an accurate, easy-to-use tool for eukaryotic genome annotation.
0
Citation20
0
Save
7

TSEBRA: Transcript Selector for BRAKER

Lars Gabriel et al.Jun 7, 2021
Abstract Background BRAKER is a suite of automatic pipelines, BRAKER1 and BRAKER2, for the accurate annotation of protein-coding genes in eukaryotic genomes. Each pipeline trains statistical models of protein-coding genes based on provided evidence and, then predicts protein-coding genes in genomic sequences using both the extrinsic evidence and statistical models. For training and prediction, BRAKER1 and BRAKER2 incorporate complementary extrinsic evidence: BRAKER1 uses only RNA-seq data while BRAKER2 uses only a database of cross-species proteins. The BRAKER suite has so far not been able to reliably exceed the accuracy of BRAKER1 and BRAKER2 when incorporating both types of evidence simultaneously. Currently, for a novel genome project where both RNA-seq and protein data are available, the best option is to run both pipelines independently, and to pick one, likely better output. Therefore, one or another type of the extrinsic evidence would remain unexploited. Results We present TSEBRA, a software that selects gene predictions (transcripts) from the sets generated by BRAKER1 and BRAKER2. TSEBRA uses a set of rules to compare scores of overlapping transcripts based on their support by RNA-seq and homologous protein evidence. We show in computational experiments on genomes of 11 species that TSEBRA achieves higher accuracy than either BRAKER1 or BRAKER2 running alone and that TSEBRA compares favorably with the combiner tool EVidenceModeler. Conclusion TSEBRA is an easy-to-use and fast software tool. It can be used in concert with the BRAKER pipeline to generate a gene prediction set supported by both RNA-seq and homologous protein evidence.
7
Citation13
0
Save
6

The draft chromosome-level genome assembly of tetraploid ground cherry (Prunus fruticosa Pall.) from long reads

Thomas Wöhner et al.Jun 1, 2021
Abstract Background Cherries are stone fruits and belong to the economically important plant family of Rosaceae with worldwide cultivation of different species. The ground cherry, Prunus fruticosa Pall. is one ancestor of cultivated sour cherry, an important tetraploid cherry species. Here, we present a long read chromosome-level draft genome assembly and related plastid sequences using the Oxford Nanopore Technology PromethION platform and R10.3 pore type. Finding The final assemblies obtained from 117.3 Gb cleaned reads representing 97x coverage of expected 1.2 Gb tetraploid (2n=4x=32) and 0.3 Gb haploid (1n=8) genome sequence of P. fruticosa were calculated. The N50 contig length ranged between 0.3 and 0.5 Mb with the longest contig being ∼6 Mb. BUSCO estimated a completeness between 98.7 % for the 4n and 96.1 % for the 1n datasets. Using a homology and reference based scaffolding method, we generated a final consensus genome sequence of 366 Mb comprising eight chromosomes. The N50 scaffold was ∼44 Mb with the longest chromosome being 66.5 Mb. The repeat content was estimated to ∼190 Mb (52 %) and 58,880 protein-coding genes were annotated. The chloroplast and mitochondrial genomes were 158,217 bp and 383,281 bp long, which is in accordance with previously published plastid sequences. Conclusion This is the first report of the genome of ground cherry ( P. fruticosa ) sequenced by long read technology only. The datasets obtained from this study provide a foundation for future breeding, molecular and evolutionary analysis in Prunus studies.
6
Citation4
0
Save
204

BRAKER3: Fully Automated Genome Annotation Using RNA-Seq and Protein Evidence with GeneMark-ETP, AUGUSTUS and TSEBRA

Lars Gabriel et al.Jun 12, 2023
Abstract Gene prediction remains an active area of bioinformatics research. Challenges are presented by large eukaryotic genomes and heterogeneous data situations. To meet the challenges, several streams of evidence must be integrated, from protein homology and transcriptome data, as well as information derived from the genome itself. The amount and significance of the available evidence from transcriptomes and proteomes vary from genome to genome, between genes and even along a single gene. User-friendly and accurate annotation pipelines that can cope with such data heterogeneity are needed. The previously developed annotation pipelines BRAKER1 and BRAKER2 use RNA-Seq or protein data, respectively, but not both. The recently released GeneMark-ETP integrates all three types of data and achieves much higher levels of accuracy. We here present the BRAKER3 pipeline that builds on GeneMark-ETP and AUGUSTUS and further improves accuracy using the TSEBRA combiner. BRAKER3 annotates protein-coding genes in eukaryotic genomes using both short-read RNA-Seq and a large protein database along with statistical models learned iteratively and specifically for the target genome. We benchmarked the new pipeline on 11 species under controlled conditions on the assumed relatedness of the target species to available proteomes. BRAKER3 outperformed BRAKER1 and BRAKER2, increasing the average transcript-level F1-score by ∼ 20 percentage points, most pronounced for species with large and complex genomes. BRAKER3 also outperforms MAKER2 and Funannotate. For the first time, we provide a Singularity container for the BRAKER software to minimize installation obstacles. Overall, BRAKER3 is an accurate, easy-to-use tool for the annotation of eukaryotic genomes.
1

The structure of the tetraploid sour cherry ‘Schattenmorelle’ (Prunus cerasusL.) genome reveals insights into its segmental allopolyploid nature

Thomas Wöhner et al.Mar 29, 2023
Abstract Sour cherry ( Prunus cerasus L.) is an economically important allotetraploid cherry species believed to have evolved in the Caspian Sea and Black Sea regions. How, when and where exactly the evolution of this species took place is unclear. It resulted from a hybridization of the tetraploid ground cherry ( Prunus fruticosa Pall.) and an unreduced (2n) pollen of the diploid ancestor sweet cherry ( P. avium L.). Some indications implement that the genome of sour cherry is segmental allopolyploid, but how it is structured and to what extent is unknown. To get an insight, the genome of the sour cherry cultivar ‘Schattenmorelle’ was sequenced at ~400x using Illumina NovaSeq TM short-read and Oxford Nanopore long-read technologies (ONT R9.4.1 PromethION). Additionally, the transcriptome of ‘Schattenmorelle’ was sequenced using PacBio Sequel II SMRT cell sequencing at ~300x. The final assembly resulted in a ~629 Mbp long pseudomolecule reference genome, which could be separated into two subgenomes each split into eight chromosomes. Subgenome Pce S _a which originates from P. avium has a length of 269 Mbp, whereas subgenome Pce S _f which originates from P. fruticosa has a length of 299.5 Mbp. The length of unassembled contigs was 60 Mbp. The genome of the sour cherry shows a size-reduction compared to the genomes of its ancestral species. It also shows traces of homoeologous sequence exchanges throughout the genome. Comparative positional sequence and protein analyses provided evidence that the genome of sour cherry is segmental allotetraploid and that it has evolved in a very recent event in the past.