EO
Ekaterina Osipova
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(83% Open Access)
Cited by:
1,588
h-index:
10
/
i10-index:
11
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
13

Towards complete and error-free genome assemblies of all vertebrate species

Arang Rhie et al.Apr 28, 2021
Abstract High-quality and complete reference genome assemblies are fundamental for the application of genomics to biology, disease, and biodiversity conservation. However, such assemblies are available for only a few non-microbial species 1–4 . To address this issue, the international Genome 10K (G10K) consortium 5,6 has worked over a five-year period to evaluate and develop cost-effective methods for assembling highly accurate and nearly complete reference genomes. Here we present lessons learned from generating assemblies for 16 species that represent six major vertebrate lineages. We confirm that long-read sequencing technologies are essential for maximizing genome quality, and that unresolved complex repeats and haplotype heterozygosity are major sources of assembly error when not handled correctly. Our assemblies correct substantial errors, add missing sequence in some of the best historical reference genomes, and reveal biological discoveries. These include the identification of many false gene duplications, increases in gene sizes, chromosome rearrangements that are specific to lineages, a repeated independent chromosome breakpoint in bat genomes, and a canonical GC-rich pattern in protein-coding genes and their regulatory regions. Adopting these lessons, we have embarked on the Vertebrate Genomes Project (VGP), an international effort to generate high-quality, complete reference genomes for all of the roughly 70,000 extant vertebrate species and to help to enable a new era of discovery across the life sciences.
13
Citation1,568
0
Save
0

RepeatFiller newly identifies megabases of aligning repetitive sequences and improves annotations of conserved non-exonic elements

Ekaterina Osipova et al.Jul 9, 2019
Transposons and other repetitive sequences make up a large part of complex genomes. Repetitive sequences can be co-opted into a variety of functions and thus provide a source for evolutionary novelty. However, comprehensively detecting ancestral repeats that align between species is difficult since considering all repeat-overlapping seeds in alignment methods that rely on the seed-and-extend heuristic results in prohibitively high runtimes. Here, we show that ignoring repeat-overlapping alignment seeds when aligning entire genomes misses numerous alignments between repetitive elements. We present a tool - RepeatFiller - that improves genome alignments by incorporating previously-undetected local alignments between repetitive sequences. By applying RepeatFiller to genome alignments between human and 20 other representative mammals, we uncover between 22 and 84 megabases of previously-undetected alignments that mostly overlap transposable elements. We further show that the increased alignment coverage improves the annotation of conserved non-exonic elements, both by discovering numerous novel transposon-derived elements that evolve under constraint and by removing thousands of elements that are not under constraint in placental mammals. In conclusion, RepeatFiller contributes to comprehensively aligning repetitive genomic regions, which facilitates studying transposon co-option and genome evolution.
363

Towards complete and error-free genome assemblies of all vertebrate species

Arang Rhie et al.May 23, 2020
Abstract High-quality and complete reference genome assemblies are fundamental for the application of genomics to biology, disease, and biodiversity conservation. However, such assemblies are only available for a few non-microbial species 1–4 . To address this issue, the international Genome 10K (G10K) consortium 5,6 has worked over a five-year period to evaluate and develop cost-effective methods for assembling the most accurate and complete reference genomes to date. Here we summarize these developments, introduce a set of quality standards, and present lessons learned from sequencing and assembling 16 species representing major vertebrate lineages (mammals, birds, reptiles, amphibians, teleost fishes and cartilaginous fishes). We confirm that long-read sequencing technologies are essential for maximizing genome quality and that unresolved complex repeats and haplotype heterozygosity are major sources of error in assemblies. Our new assemblies identify and correct substantial errors in some of the best historical reference genomes. Adopting these lessons, we have embarked on the Vertebrate Genomes Project (VGP), an effort to generate high-quality, complete reference genomes for all ~70,000 extant vertebrate species and help enable a new era of discovery across the life sciences.
0

Convergent and lineage-specific genomic changes contribute to adaptations in sugar-consuming birds

Ekaterina Osipova et al.Sep 1, 2024
Although high-sugar diets are associated with metabolic diseases in humans, several bird lineages have independently evolved to primarily subsist on simple sugars from flower nectar or fruits. In this study, we address a key question of the repeatability of molecular evolution by investigating the convergent and lineage-specific molecular mechanisms underlying dietary adaptations in four major sugar-consuming bird lineages: hummingbirds, parrots, honeyeaters, and sunbirds. We assembled nine new genomes for sugar-consuming species and their closely related non-sugar feeding outgroup species and generated 90 tissue-specific transcriptomes for six key species. We identified signatures of positive selection in both protein-coding and non-coding regulatory sequences, and found positive selection targets the same genes more frequently in sugar-feeders compared to non-sugar feeding controls, suggesting that adapting to a high-sugar diet requires changes in a limited number of genetic elements. At the functional level, pathways associated with energy homeostasis, carbohydrate metabolism, heart function, and hormonal regulation showed convergent selection signals in both protein-coding and regulatory evolution, while lipid and amino acid metabolism demonstrated mostly regulatory evolution. Notably, we observed striking evidence for convergent adaptation in MLXIPL, a transcription factor regulating sugar and lipid homeostasis, manifesting in both sequence and regulatory changes across all sugar-feeders. With functional assays, we demonstrated that hummingbird MLXIPL enhances sugar-induced transcriptional activity in HEK239 cells, suggesting its central role in the evolution of adaptations to high-sugar diets. Our findings elucidate the main genomic targets in the evolution of sugar-feeding at both molecular and pathway levels.