XS
Xing‐Xing Shen
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
37
(76% Open Access)
Cited by:
1,830
h-index:
31
/
i10-index:
54
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Contentious relationships in phylogenomic studies can be driven by a handful of genes

Xing‐Xing Shen et al.Apr 10, 2017
Phylogenomic studies have resolved countless branches of the tree of life, but remain strongly contradictory on certain, contentious relationships. Here, we use a maximum likelihood framework to quantify the distribution of phylogenetic signal among genes and sites for 17 contentious branches and 6 well-established control branches in plant, animal and fungal phylogenomic data matrices. We find that resolution in some of these 17 branches rests on a single gene or a few sites, and that removal of a single gene in concatenation analyses or a single site from every gene in coalescence-based analyses diminishes support and can alter the inferred topology. These results suggest that tiny subsets of very large data matrices drive the resolution of specific internodes, providing a dissection of the distribution of support and observed incongruence in phylogenomic analyses. We submit that quantifying the distribution of phylogenetic signal in phylogenomic data is essential for evaluating whether branches, especially contentious ones, are truly resolved. Finally, we offer one detailed example of such an evaluation for the controversy regarding the earliest-branching metazoan phylum, for which examination of the distributions of gene-wise and site-wise phylogenetic signal across eight data matrices consistently supports ctenophores as the sister group to all other metazoans. Thanks to phylogenomics, reconstruction of the tree of life is now possible, yet different datasets and methods can yield contradictory relationships. Here, the authors quantify phylogenetic signals and show that contentious relationships can be supported by a tiny amount of data.
0
Citation468
0
Save
0

ClipKIT: A multiple sequence alignment trimming software for accurate phylogenomic inference

Jacob Steenwyk et al.Dec 2, 2020
Highly divergent sites in multiple sequence alignments (MSAs), which can stem from erroneous inference of homology and saturation of substitutions, are thought to negatively impact phylogenetic inference. Thus, several different trimming strategies have been developed for identifying and removing these sites prior to phylogenetic inference. However, a recent study reported that doing so can worsen inference, underscoring the need for alternative alignment trimming strategies. Here, we introduce ClipKIT, an alignment trimming software that, rather than identifying and removing putatively phylogenetically uninformative sites, instead aims to identify and retain parsimony-informative sites, which are known to be phylogenetically informative. To test the efficacy of ClipKIT, we examined the accuracy and support of phylogenies inferred from 14 different alignment trimming strategies, including those implemented in ClipKIT, across nearly 140,000 alignments from a broad sampling of evolutionary histories. Phylogenies inferred from ClipKIT-trimmed alignments are accurate, robust, and time saving. Furthermore, ClipKIT consistently outperformed other trimming methods across diverse datasets, suggesting that strategies based on identifying and retaining parsimony-informative sites provide a robust framework for alignment trimming.
0
Citation334
0
Save
0

Reconstructing the Backbone of the Saccharomycotina Yeast Phylogeny Using Genome-Scale Data

Xing‐Xing Shen et al.Oct 7, 2016
Abstract Understanding the phylogenetic relationships among the yeasts of the subphylum Saccharomycotina is a prerequisite for understanding the evolution of their metabolisms and ecological lifestyles. In the last two decades, the use of rDNA and multilocus data sets has greatly advanced our understanding of the yeast phylogeny, but many deep relationships remain unsupported. In contrast, phylogenomic analyses have involved relatively few taxa and lineages that were often selected with limited considerations for covering the breadth of yeast biodiversity. Here we used genome sequence data from 86 publicly available yeast genomes representing nine of the 11 known major lineages and 10 nonyeast fungal outgroups to generate a 1233-gene, 96-taxon data matrix. Species phylogenies reconstructed using two different methods (concatenation and coalescence) and two data matrices (amino acids or the first two codon positions) yielded identical and highly supported relationships between the nine major lineages. Aside from the lineage comprised by the family Pichiaceae, all other lineages were monophyletic. Most interrelationships among yeast species were robust across the two methods and data matrices. However, eight of the 93 internodes conflicted between analyses or data sets, including the placements of: the clade defined by species that have reassigned the CUG codon to encode serine, instead of leucine; the clade defined by a whole genome duplication; and the species Ascoidea rubescens. These phylogenomic analyses provide a robust roadmap for future comparative work across the yeast subphylum in the disciplines of taxonomy, molecular genetics, evolutionary biology, ecology, and biotechnology. To further this end, we have also provided a BLAST server to query the 86 Saccharomycotina genomes, which can be found at http://y1000plus.org/blast.
0
Citation217
0
Save
207

A genome-scale phylogeny of Fungi; insights into early evolution, radiations, and the relationship between taxonomy and phylogeny

Yuanning Li et al.Aug 24, 2020
Abstract Phylogenomic studies based on genome-scale amounts of data have greatly improved understanding of the tree of life. Despite their diversity, ecological significance, and biomedical and industrial importance, large-scale phylogenomic studies of Fungi are lacking. Furthermore, several evolutionary relationships among major fungal lineages remain controversial, especially those at the base of the fungal phylogeny. To begin filling these gaps and assess progress toward a genome-scale phylogeny of the entire fungal kingdom, we compiled a phylogenomic data matrix of 290 genes from the genomes of 1,644 fungal species that includes representatives from most major fungal lineages; we also compiled 11 additional data matrices by subsampling genes or taxa based on filtering criteria previously shown to improve phylogenomic inference. Analyses of these 12 data matrices using concatenation- and coalescent-based approaches yielded a robust phylogeny of the kingdom in which ∼85% of internal branches were congruent across data matrices and approaches used. We found support for several relationships that have been historically contentious (e.g., for the placement of Wallemiomycotina (Basidiomycota), as sister to Agaricomycotina), as well as evidence for polytomies likely stemming from episodes of ancient diversification (e.g., at the base of Basidiomycota). By examining the relative evolutionary divergence of taxonomic groups of equivalent rank, we found that fungal taxonomy is broadly aligned with genome sequence divergence, but also identified lineages, such as the subphylum Saccharomycotina, where current taxonomic circumscription does not fully account for their high levels of evolutionary divergence. Our results provide a robust phylogenomic framework to explore the tempo and mode of fungal evolution and directions for future fungal phylogenetic and taxonomic studies.
207
Citation16
0
Save
62

PhyKIT: a UNIX shell toolkit for processing and analyzing phylogenomic data

Jacob Steenwyk et al.Oct 28, 2020
Abstract Diverse disciplines in biology process and analyze multiple sequence alignments (MSAs) and phylogenetic trees to evaluate their information content, infer evolutionary events and processes, and predict gene function. However, automated processing of MSAs and trees remains a challenge due to the lack of a unified toolkit. To fill this gap, we introduce PhyKIT, a toolkit for the UNIX shell environment with 30 functions that process MSAs and trees, including but not limited to estimation of mutation rate, evaluation of sequence composition biases, calculation of the degree of violation of a molecular clock, and collapsing bipartitions (internal branches) with low support. To demonstrate the utility of PhyKIT, we detail three use cases: (1) summarizing information content in MSAs and phylogenetic trees for diagnosing potential biases in sequence or tree data; (2) evaluating gene-gene covariation of evolutionary rates to identify functional relationships, including novel ones, among genes; and (3) identify lack of resolution events or polytomies in phylogenetic trees, which are suggestive of rapid radiation events or lack of data. We anticipate PhyKIT will be useful for processing, examining, and deriving biological meaning from increasingly large phylogenomic datasets. PhyKIT is freely available on GitHub ( https://github.com/JLSteenwyk/PhyKIT ) and documentation including user tutorials are available online ( https://jlsteenwyk.com/PhyKIT ).
62
Citation8
0
Save
0

Disentangling biological and analytical factors that give rise to outlier genes in phylogenomic matrices

Joseph Walker et al.Apr 21, 2020
Abstract The genomic data revolution has enabled biologists to develop innovative ways to infer key episodes in the history of life. Whether genome-scale data will eventually resolve all branches of the Tree of Life remains uncertain. However, through novel means of interrogating data, some explanations for why evolutionary relationships remain recalcitrant are emerging. Here, we provide four biological and analytical factors that explain why certain genes may exhibit “outlier” behavior, namely, rate of molecular evolution, alignment length, misidentified orthology, and errors in modeling. Using empirical and simulated data we show how excluding genes based on their likelihood or inferring processes from the topology they support in a supermatrix can mislead biological inference of conflict. We next show alignment length accounts for the high influence of two genes reported in empirical datasets. Finally, we also reiterate the impact misidentified orthology and short alignments have on likelihoods in large scale phylogenetics. We suggest that researchers should systematically investigate and describe the source of influential genes, as opposed to discarding them as outliers. Disentangling whether analytical or biological factors are the source of outliers will help uncover new patterns and processes that are shaping the Tree of Life.
0
Citation8
0
Save
89

Genome-scale phylogeny and contrasting modes of genome evolution in the fungal phylum Ascomycota

Xing‐Xing Shen et al.May 13, 2020
Abstract Ascomycota, the largest and best-studied phylum of fungi, contains three subphyla: Saccharomycotina (budding yeasts), Pezizomycotina (filamentous fungi), and Taphrinomycotina (fission yeasts); organisms from all three subphyla have been invaluable as models in diverse fields (e.g., biotechnology, cell biology, genetics, and medicine). Despite its importance, we still lack a comprehensive genome-scale phylogeny or understanding of the similarities and differences in the mode of genome evolution within this phylum. To address these gaps, we examined 1,107 genomes from Saccharomycotina (332), Pezizomycotina (761), and Taphrinomycotina (14) species to infer the Ascomycota phylogeny, estimate its timetree, and examine the evolution of key genomic properties. We inferred a robust genome-wide phylogeny that resolves several contentious relationships and estimated that the Ascomycota last common ancestor likely originated in the Ediacaran (~563 ± 68 million years ago). Comparisons of genomic properties revealed that Saccharomycotina and Pezizomycotina, the two taxon-rich subphyla, differed greatly in their genome properties. Saccharomycotina typically have smaller genomes, lower GC contents, lower numbers of genes, and higher rates of molecular sequence evolution compared to Pezizomycotina. Ancestral state reconstruction showed that the genome properties of the Saccharomycotina and Pezizomycotina last common ancestors were very similar, enabling inference of the direction of evolutionary change. For example, we found that a lineage-specific acceleration led to a 1.6-fold higher evolutionary rate in Saccharomycotina, whereas the 10% difference in GC content between Saccharomycotina and Pezizomycotina genomes stems from a trend toward AT bases within budding yeasts and toward GC bases within filamentous fungi. These results provide a robust evolutionary framework for understanding the diversification of the largest fungal phylum.
89
Citation7
0
Save
Load More