LG
Landen Gozashti
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
11
(91% Open Access)
Cited by:
369
h-index:
8
/
i10-index:
8
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
18

Ultrafast Sample placement on Existing tRees (UShER) enables real-time phylogenetics for the SARS-CoV-2 pandemic

Yatish Turakhia et al.May 10, 2021
As the SARS-CoV-2 virus spreads through human populations, the unprecedented accumulation of viral genome sequences is ushering in a new era of 'genomic contact tracing'—that is, using viral genomes to trace local transmission dynamics. However, because the viral phylogeny is already so large—and will undoubtedly grow many fold—placing new sequences onto the tree has emerged as a barrier to real-time genomic contact tracing. Here, we resolve this challenge by building an efficient tree-based data structure encoding the inferred evolutionary history of the virus. We demonstrate that our approach greatly improves the speed of phylogenetic placement of new samples and data visualization, making it possible to complete the placements under the constraints of real-time contact tracing. Thus, our method addresses an important need for maintaining a fully updated reference phylogeny. We make these tools available to the research community through the University of California Santa Cruz SARS-CoV-2 Genome Browser to enable rapid cross-referencing of information in new virus sequences with an ever-expanding array of molecular and structural biology data. The methods described here will empower research and genomic contact tracing for SARS-CoV-2 specifically for laboratories worldwide. Ultrafast Sample placement on Existing tRees (UShER) is an efficient method that facilitates the addition of new SARS-CoV-2 genome sequences onto the existing phylogeny, aiding in real-time analysis of viral evolution during the COVID-19 pandemic.
18
Citation345
0
Save
34

Stability of SARS-CoV-2 Phylogenies

Yatish Turakhia et al.Jun 9, 2020
Abstract The SARS-CoV-2 pandemic has led to unprecedented, nearly real-time genetic tracing due to the rapid community sequencing response. Researchers immediately leveraged these data to infer the evolutionary relationships among viral samples and to study key biological questions, including whether host viral genome editing and recombination are features of SARS-CoV-2 evolution. This global sequencing effort is inherently decentralized and must rely on data collected by many labs using a wide variety of molecular and bioinformatic techniques. There is thus a strong possibility that systematic errors associated with lab-specific practices affect some sequences in the repositories. We find that some recurrent mutations in reported SARS-CoV-2 genome sequences have been observed predominantly or exclusively by single labs, co-localize with commonly used primer binding sites and are more likely to affect the protein coding sequences than other similarly recurrent mutations. We show that their inclusion can affect phylogenetic inference on scales relevant to local lineage tracing, and make it appear as though there has been an excess of recurrent mutation and/or recombination among viral lineages. We suggest how samples can be screened and problematic mutations removed. We also develop tools for comparing and visualizing differences among phylogenies and we show that consistent clade- and tree-based comparisons can be made between phylogenies produced by different groups. These will facilitate evolutionary inferences and comparisons among phylogenies produced for a wide array of purposes. Building on the SARS-CoV-2 Genome Browser at UCSC, we present a toolkit to compare, analyze and combine SARS-CoV-2 phylogenies, find and remove potential sequencing errors and establish a widely shared, stable clade structure for a more accurate scientific inference and discourse. Foreword We wish to thank all groups that responded rapidly by producing these invaluable and essential sequence data. Their contributions have enabled an unprecedented, lightning-fast process of scientific discovery---truly an incredible benefit for humanity and for the scientific community. We emphasize that most lab groups with whom we associate specific suspicious alleles are also those who have produced the most sequence data at a time when it was urgently needed. We commend their efforts. We have already contacted each group and many have updated their sequences. Our goal with this work is not to highlight potential errors, but to understand the impacts of these and other kinds of highly recurrent mutations so as to identify commonalities among the suspicious examples that can improve sequence quality and analysis going forward.
34
Citation16
0
Save
1

Massive intron gain in the most intron-rich eukaryotes is driven by introner-like transposable elements of unprecedented diversity and flexibility

Scott Roy et al.Oct 14, 2020
Summary Spliceosomal introns, which interrupt nuclear genes and are removed from RNA transcripts by machinery termed spliceosomes, are ubiquitous features of eukaryotic nuclear genes [1]. Patterns of spliceosomal intron evolution are complex, with some lineages exhibiting virtually no intron creation while others experience thousands of intron gains [2–5]. One possibility is that this punctate phylogenetic distribution is explained by intron creation by Introner-Like Elements (ILEs), transposable elements capable of creating introns, with only those lineages harboring ILEs undergoing massive intron gain [6–10]. However, ILEs have been reported in only four lineages. Here we study intron evolution in dinoflagellates. The remarkable fragmentation of nuclear genes by spliceosomal introns reaches its apex in dinoflagellates, which have some twenty introns per gene [11,12]. Despite this, almost nothing is known about the molecular and evolutionary mechanisms governing dinoflagellate intron evolution. We reconstructed intron evolution in five dinoflagellate genomes, revealing a dynamic history of intron loss and gain. ILEs are found in 4/5 studied species. In one species, Polarella glacialis , we find an unprecedented diversity of ILEs, with ILE insertion leading to creation of some 12,253 introns, and with 15 separate families of ILEs accounting for at least 100 introns each. These ILE families range in mobilization mechanism, mechanism of intron creation, and flexibility of mechanism of intron creation. Comparison within and between ILE families provides evidence that biases in so-called intron phase, the distribution of introns relative to codon periodicity, are driven by ILE insertion site requirements [9,13,14]. Finally, we find evidence for multiple additional transformations of the spliceosomal system in dinoflagellates, including widespread loss of ancestral introns, and alterations in required, tolerated and favored splice motifs. These results reveal unappreciated intron creating elements diversity and spliceosomal evolutionary capacity, and suggest complex evolutionary dependencies shaping genome structures.
1
Citation5
0
Save
25

A phylogenetic approach to studying the roles of within-host evolution and between-host transmission of resistance for clinicalEscherichia coliinfections

Florentine Nouhuijs et al.Dec 19, 2022
Abstract Bacterial antibiotic resistance represents a public health concern that will remain relevant for the foreseeable future. Antibiotic resistant bacterial infections can occur in two ways: (1) a host is infected by a resistant bacterial strain (due to between-host transmission of resistance), or (2) a host is infected infection by a susceptible strain, followed by the de novo evolution or acquisition of resistance (due to within-host evolution of resistance). While both are critical to understanding how the evolution of resistance happens in natural settings, the relative rate at which they occur is unclear. Here, we employ phylogenetic comparative methods to examine the evolutionary dynamics of resistance in Escherichia coli for multiple common antibiotics. We report evolutionary patterns consistent with common de novo evolution of resistance for some antibiotics and sustained transmission of resistant strains for others. For example, we observe 79 putative de novo resistance evolution events for resistance to Cefuroxime but only 31 for resistance to Ciprofloxacin, despite similar numbers of observed infections (239 and 267 respectively). We find that clusters of resistance are generally larger for Ciprofloxacin, Ceftazidima and AmoxiClav, which suggests that for these drugs, resistance is often transmitted from patient to patient. In contrast, we find that cluster sizes for resistance are generally smaller for PipTaz, Cefuroxime and Gentamicin, suggesting that resistance to these drugs is less often transmitted from patient to patient and instead evolves de novo . In addition to differences between drugs, we also find that cluster sizes were generally larger in phylogroup B2 compared to the other phylogroups, suggesting that transmission of resistant strains is more common in this phylogroup compared to the others. Our study proposes new approaches for determining the importance of de novo evolution or acquisition (within-host evolution) from resistance from infection with an already resistant strain (between-host transmission). Significantly, this work also bridges an important gap between evolutionary genomics and epidemiology, opening up a range of opportunities for studying the evolutionary dynamics of bacterial antibiotic resistance.
25
Citation1
0
Save
37

Transposable elements drive intron gain in diverse eukaryotes

Landen Gozashti et al.Jun 6, 2022
Abstract There is massive variation in intron numbers across eukaryotic genomes, yet the major drivers of intron content during evolution remain elusive. Rapid intron loss and gain in some lineages contrasts with long term evolutionary stasis in others. Episodic intron gain could be explained by recently discovered specialized transposons called Introners, but so far introners are only known from a handful of species. Here, we performed a systematic search across 3,325 eukaryotic genomes and identified 27,563 Introner-derived introns in 175 genomes (5.2%). Species with introners span remarkable phylogenetic diversity, from animals to basal protists, representing lineages whose last common ancestor dates to over 1.7 billion years ago. Marine organisms were 6.5 times more likely to contain Introners than their terrestrial counterparts. Introners exhibit mechanistic diversity but most are consistent with DNA transposition, indicating that Introners have evolved convergently hundreds of times from autonomous transposable elements. Transposable elements and marine taxa are associated with high rates of horizontal gene transfer, suggesting that this combination of factors may explain the punctuated and biased diversity of species containing Introners. More generally our data suggest that Introners may explain the episodic nature of intron gain across the eukaryotic tree of life. These results illuminate the major source of ongoing intron creation in eukaryotic genomes.
0

How repeats rearrange chromosomes in deer mice

Landen Gozashti et al.May 29, 2024
Large genomic rearrangements, such as chromosomal inversions, can play a key role in evolution and often underlie karyotype variation, but the mechanisms by which these rearrangements arise remain poorly understood. To study the origins of inversions, we generated chromosome-level de novo genome assemblies for four subspecies of deer mice ( Peromyscus maniculatus ) with known inversion polymorphisms. We identified ~8,000 inversions, including 47 mega-base scale inversions, that together affect ~30% of the genome. Analysis of inversion breakpoints suggests that while most small (<1 Mb) inversions arise via ectopic recombination between retrotransposons, large (>1 Mb) inversions are primarily associated with segmental duplications (SDs). Large inversion breakpoints frequently occur near centromeres, which may be explained by an accumulation of transposable elements in pericentromeric regions driving SD formation. Additionally, multiple large inversions likely arose from ectopic recombination between near-identical centromeric satellite arrays located megabases apart, a previously uncharacterized mechanism of inversion formation. Together, our results illuminate how repeats give rise to massive shifts in chromosome architecture.
3

Universal signatures of transposable element compartmentalization across eukaryotic genes

Landen Gozashti et al.Jan 1, 2023
The evolutionary mechanisms shaping the origins of genome architecture remain poorly understood but can now be assessed with unprecedented power due to the abundance of genome assemblies spanning phylogenetic diversity. Transposable elements (TEs) are a rich source of large-effect mutations since they directly and indirectly drive genomic structural variation and changes in gene expression. Here, we demonstrate universal patterns of TE compartmentalization across eukaryotic genomes spanning ~1.7 billion years of evolution, in which TEs colocalize with gene families under strong predicted selective pressure for dynamic evolution and involved in specific functions. For non-pathogenic species these genes represent families involved in defense, sensory perception and environmental interaction, whereas for pathogenic species, TE-compartmentalized genes are highly enriched for pathogenic functions. Many TE-compartmentalized gene families display signatures of positive selection at the molecular level. Furthermore, TE-compartmentalized genes exhibit an excess of high-frequency alleles for polymorphic TE insertions in fruit fly populations. We postulate that these patterns reflect selection for adaptive TE insertions as well as TE-associated structural variants. This process may drive the emergence of a shared TE-compartmentalized genome architecture across diverse eukaryotic lineages.
28

Transposable element competition shapes the deer mouse genome

Landen Gozashti et al.Oct 20, 2022
Abstract The genomic landscape of transposable elements (TEs) varies dramatically across species, with some TEs demonstrating greater success in colonizing particular lineages than others. In mammals, LINE retrotransposons typically occupy more of the genome than any other TE and most LINE content is represented by a single family: L1. Here, we report an unusual genomic landscape of TEs in the deer mouse, Peromyscus maniculatus , a model for studying the genomic basis of adaptation. In contrast to other previously examined mammalian species, LTR elements occupy more of the deer mouse genome than LINEs (11% and 10% respectively). This pattern reflects a combination of relatively low LINE activity in addition to a massive invasion of lineage-specific endogenous retroviruses (ERVs). Deer mouse ERVs exhibit diverse origins spanning the retroviral phylogeny suggesting that these rodents have been host to a wide range of exogenous retroviruses. Notably, we were able to trace the origin of one ERV lineage, which arose within the last ∼11-18 million years, to a close relative of feline leukemia virus, revealing inter-ordinal horizontal transmission of these zoonotic viruses. Several lineage-specific ERV subfamilies have attained very high copy numbers, with the top five most abundant accounting for ∼2% of the genome. Concomitant to the expansive diversification of ERVs, we also observe a massive expansion of Kruppel-associated box domain-containing zinc finger genes (KZNFs), which likely control ERV activity and whose expansion may have been partially facilitated by ectopic recombination between ERVs. We also find evidence that ERVs directly impacted the evolutionary trajectory of LINEs by outcompeting them for genomic sites and frequently disrupting autonomous LINE copies. Together, our results illuminate the genomic ecology that shaped the deer mouse genome’s TE landscape, opening up a range of opportunities to investigate the evolutionary processes that give rise to variation in mammalian genome structure. Summary Transposable elements (TEs) are a highly diverse collection of genetic elements capable of mobilizing in genomes and function as important drivers of genome evolution. The landscape of TEs in a genome have been compared to a genomic ecosystem, with interactions between TEs and each other as well as TEs and their host, dictating the evolutionary success of TE lineages. While TE diversity and copy numbers can vary dramatically across taxa, the evolutionary reasons for this variation remain poorly understood. In mammals, long interspersed nuclear elements (LINEs) typically dominate, occupying more of the genome than any other TE. Here, we report a unique case in the deer mouse ( Peromyscus maniculatus ) in which long terminal repeat (LTR) retrotransposons occupy more of the genome than LINEs. We investigate the evolutionary origins and implications of the deer mouse’s distinct genomic landscape, revealing ecological processes that helped shape its evolution. Together, our results provide much-needed insight into the evolutionary processes that give rise to variation in mammalian genome structure.
19

Ultrafast Sample Placement on Existing Trees (UShER) Empowers Real-Time Phylogenetics for the SARS-CoV-2 Pandemic

Yatish Turakhia et al.Sep 28, 2020
Abstract As the SARS-CoV-2 virus spreads through human populations, the unprecedented accumulation of viral genome sequences is ushering a new era of “genomic contact tracing” – that is, using viral genome sequences to trace local transmission dynamics. However, because the viral phylogeny is already so large – and will undoubtedly grow many fold – placing new sequences onto the tree has emerged as a barrier to real-time genomic contact tracing. Here, we resolve this challenge by building an efficient, tree-based data structure encoding the inferred evolutionary history of the virus. We demonstrate that our approach improves the speed of phylogenetic placement of new samples and data visualization by orders of magnitude, making it possible to complete the placements under real-time constraints. Our method also provides the key ingredient for maintaining a fully-updated reference phylogeny. We make these tools available to the research community through the UCSC SARS-CoV-2 Genome Browser to enable rapid cross-referencing of information in new virus sequences with an ever-expanding array of molecular and structural biology data. The methods described here will empower research and genomic contact tracing for laboratories worldwide. Software Availability USHER is available to users through the UCSC Genome Browser at https://genome.ucsc.edu/cgi-bin/hgPhyloPlace . The source code and detailed instructions on how to compile and run UShER are available from https://github.com/yatisht/usher .
Load More