YL
Yuanning Li
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
20
(85% Open Access)
Cited by:
401
h-index:
21
/
i10-index:
28
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

ClipKIT: A multiple sequence alignment trimming software for accurate phylogenomic inference

Jacob Steenwyk et al.Dec 2, 2020
+2
Y
T
J
Highly divergent sites in multiple sequence alignments (MSAs), which can stem from erroneous inference of homology and saturation of substitutions, are thought to negatively impact phylogenetic inference. Thus, several different trimming strategies have been developed for identifying and removing these sites prior to phylogenetic inference. However, a recent study reported that doing so can worsen inference, underscoring the need for alternative alignment trimming strategies. Here, we introduce ClipKIT, an alignment trimming software that, rather than identifying and removing putatively phylogenetically uninformative sites, instead aims to identify and retain parsimony-informative sites, which are known to be phylogenetically informative. To test the efficacy of ClipKIT, we examined the accuracy and support of phylogenies inferred from 14 different alignment trimming strategies, including those implemented in ClipKIT, across nearly 140,000 alignments from a broad sampling of evolutionary histories. Phylogenies inferred from ClipKIT-trimmed alignments are accurate, robust, and time saving. Furthermore, ClipKIT consistently outperformed other trimming methods across diverse datasets, suggesting that strategies based on identifying and retaining parsimony-informative sites provide a robust framework for alignment trimming.
0
Citation334
0
Save
207

A genome-scale phylogeny of Fungi; insights into early evolution, radiations, and the relationship between taxonomy and phylogeny

Yuanning Li et al.Aug 24, 2020
+9
Y
J
Y
Abstract Phylogenomic studies based on genome-scale amounts of data have greatly improved understanding of the tree of life. Despite their diversity, ecological significance, and biomedical and industrial importance, large-scale phylogenomic studies of Fungi are lacking. Furthermore, several evolutionary relationships among major fungal lineages remain controversial, especially those at the base of the fungal phylogeny. To begin filling these gaps and assess progress toward a genome-scale phylogeny of the entire fungal kingdom, we compiled a phylogenomic data matrix of 290 genes from the genomes of 1,644 fungal species that includes representatives from most major fungal lineages; we also compiled 11 additional data matrices by subsampling genes or taxa based on filtering criteria previously shown to improve phylogenomic inference. Analyses of these 12 data matrices using concatenation- and coalescent-based approaches yielded a robust phylogeny of the kingdom in which ∼85% of internal branches were congruent across data matrices and approaches used. We found support for several relationships that have been historically contentious (e.g., for the placement of Wallemiomycotina (Basidiomycota), as sister to Agaricomycotina), as well as evidence for polytomies likely stemming from episodes of ancient diversification (e.g., at the base of Basidiomycota). By examining the relative evolutionary divergence of taxonomic groups of equivalent rank, we found that fungal taxonomy is broadly aligned with genome sequence divergence, but also identified lineages, such as the subphylum Saccharomycotina, where current taxonomic circumscription does not fully account for their high levels of evolutionary divergence. Our results provide a robust phylogenomic framework to explore the tempo and mode of fungal evolution and directions for future fungal phylogenetic and taxonomic studies.
207
Citation16
0
Save
107

ClipKIT: a multiple sequence alignment-trimming algorithm for accurate phylogenomic inference

Jacob Steenwyk et al.Jun 10, 2020
+2
Y
T
J
Abstract Highly divergent sites in multiple sequence alignments, which stem from erroneous inference of homology and saturation of substitutions, are thought to negatively impact phylogenetic inference. Trimming methods aim to remove these sites before phylogenetic inference, but recent analysis suggests that doing so can worsen inference. We introduce ClipKIT, a trimming method that instead aims to retain phylogenetically-informative sites; phylogenetic inference using ClipKIT-trimmed alignments is accurate, robust, and time-saving.
107
Citation15
0
Save
62

PhyKIT: a UNIX shell toolkit for processing and analyzing phylogenomic data

Jacob Steenwyk et al.Oct 28, 2020
+3
A
T
J
Abstract Diverse disciplines in biology process and analyze multiple sequence alignments (MSAs) and phylogenetic trees to evaluate their information content, infer evolutionary events and processes, and predict gene function. However, automated processing of MSAs and trees remains a challenge due to the lack of a unified toolkit. To fill this gap, we introduce PhyKIT, a toolkit for the UNIX shell environment with 30 functions that process MSAs and trees, including but not limited to estimation of mutation rate, evaluation of sequence composition biases, calculation of the degree of violation of a molecular clock, and collapsing bipartitions (internal branches) with low support. To demonstrate the utility of PhyKIT, we detail three use cases: (1) summarizing information content in MSAs and phylogenetic trees for diagnosing potential biases in sequence or tree data; (2) evaluating gene-gene covariation of evolutionary rates to identify functional relationships, including novel ones, among genes; and (3) identify lack of resolution events or polytomies in phylogenetic trees, which are suggestive of rapid radiation events or lack of data. We anticipate PhyKIT will be useful for processing, examining, and deriving biological meaning from increasingly large phylogenomic datasets. PhyKIT is freely available on GitHub ( https://github.com/JLSteenwyk/PhyKIT ) and documentation including user tutorials are available online ( https://jlsteenwyk.com/PhyKIT ).
62
Citation8
0
Save
89

Genome-scale phylogeny and contrasting modes of genome evolution in the fungal phylum Ascomycota

Xing‐Xing Shen et al.May 13, 2020
+7
A
J
X
Abstract Ascomycota, the largest and best-studied phylum of fungi, contains three subphyla: Saccharomycotina (budding yeasts), Pezizomycotina (filamentous fungi), and Taphrinomycotina (fission yeasts); organisms from all three subphyla have been invaluable as models in diverse fields (e.g., biotechnology, cell biology, genetics, and medicine). Despite its importance, we still lack a comprehensive genome-scale phylogeny or understanding of the similarities and differences in the mode of genome evolution within this phylum. To address these gaps, we examined 1,107 genomes from Saccharomycotina (332), Pezizomycotina (761), and Taphrinomycotina (14) species to infer the Ascomycota phylogeny, estimate its timetree, and examine the evolution of key genomic properties. We inferred a robust genome-wide phylogeny that resolves several contentious relationships and estimated that the Ascomycota last common ancestor likely originated in the Ediacaran (~563 ± 68 million years ago). Comparisons of genomic properties revealed that Saccharomycotina and Pezizomycotina, the two taxon-rich subphyla, differed greatly in their genome properties. Saccharomycotina typically have smaller genomes, lower GC contents, lower numbers of genes, and higher rates of molecular sequence evolution compared to Pezizomycotina. Ancestral state reconstruction showed that the genome properties of the Saccharomycotina and Pezizomycotina last common ancestors were very similar, enabling inference of the direction of evolutionary change. For example, we found that a lineage-specific acceleration led to a 1.6-fold higher evolutionary rate in Saccharomycotina, whereas the 10% difference in GC content between Saccharomycotina and Pezizomycotina genomes stems from a trend toward AT bases within budding yeasts and toward GC bases within filamentous fungi. These results provide a robust evolutionary framework for understanding the diversification of the largest fungal phylum.
89
Citation7
0
Save
142

Rooting the animal tree of life

Yuanning Li et al.Oct 28, 2020
+2
B
X
Y
Summary There has been considerable debate about the placement of the root in the animal tree of life, which has emerged as one of the most challenging problems in animal phylogenetics. This debate has major implications for our understanding of the earliest events in animal evolution, including the origin of the nervous system. Some phylogenetic analyses support a root that places the first split in the phylogeny of living animals between sponges and all other animals (the Porifera-sister hypothesis), and others find support for a split between comb jellies and all other animals (Ctenophora-sister). These analyses differ in many respects, including in the genes considered, species considered, molecular evolution models, and software. Here we systematically explore the rooting of the animal tree of life under consistent conditions by synthesizing data and results from 15 previous phylogenomic studies and performing a comprehensive set of new standardized analyses. It has previously been suggested that site-heterogeneous models favor Porifera-sister, but we find that this is not the case. Rather, Porifera-sister is only obtained under a narrow set of conditions when the number of site-heterogeneous categories is unconstrained and range into the hundreds. Site-heterogenous models with a fixed number of dozens of categories support Ctenophora-sister, and cross-validation indicates that such models fit the data just as well as the unconstrained models. Our analyses shed light on an important source of variation between phylogenomic studies of the animal root. The datasets and analyses consolidated here will also be a useful test-platform for the development of phylogenomic methods for this and other difficult problems.
142
Citation6
0
Save
40

Genomic and phenotypic analysis of COVID-19-associated pulmonary aspergillosis isolates of Aspergillus fumigatus

Jacob Steenwyk et al.Nov 6, 2020
+15
P
M
J
Abstract The ongoing global pandemic caused by the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) is responsible for the coronavirus disease 2019 (COVID-19) first described from Wuhan, China. A subset of COVID-19 patients has been reported to have acquired secondary infections by microbial pathogens, such as fungal opportunistic pathogens from the genus Aspergillus . To gain insight into COVID-19 associated pulmonary aspergillosis (CAPA), we analyzed the genomes and characterized the phenotypic profiles of four CAPA isolates of Aspergillus fumigatus obtained from patients treated in the area of North Rhine-Westphalia, Germany. By examining the mutational spectrum of single nucleotide polymorphisms, insertion-deletion polymorphisms, and copy number variants among 206 genes known to modulate A. fumigatus virulence, we found that CAPA isolate genomes do not exhibit major differences from the genome of the Af293 reference strain. By examining virulence in an invertebrate moth model, growth in the presence of osmotic, cell wall, and oxidative stressors, and the minimum inhibitory concentration of antifungal drugs, we found that CAPA isolates were generally, but not always, similar to A. fumigatus reference strains Af293 and CEA17. Notably, CAPA isolate D had more putative loss of function mutations in genes known to increase virulence when deleted (e.g., in the FLEA gene, which encodes a lectin recognized by macrophages). Moreover, CAPA isolate D was significantly more virulent than the other three CAPA isolates and the A. fumigatus reference strains tested. These findings expand our understanding of the genomic and phenotypic characteristics of isolates that cause CAPA.
40
Citation5
0
Save
21

Latent neural dynamics encode temporal context in speech

Emily Stephen et al.Jul 16, 2021
+2
S
Y
E
Abstract Direct neural recordings from human auditory cortex have demonstrated encoding for acoustic-phonetic features of consonants and vowels. Neural responses also encode distinct acoustic amplitude cues related to timing, such as those that occur at the onset of a sentence after a silent period or the onset of the vowel in each syllable. Here, we used a group reduced rank regression model to show that distributed cortical responses support a low-dimensional latent state representation of temporal context in speech. The timing cues each capture more unique variance than all other phonetic features and exhibit rotational or cyclical dynamics in latent space from activity that is widespread over the superior temporal gyrus. We propose that these spatially distributed timing signals could serve to provide temporal context for, and possibly bind across time, the concurrent processing of individual phonetic features, to compose higher-order phonological (e.g. word-level) representations.
75

BioKIT: a versatile toolkit for processing and analyzing diverse types of sequence data

Jacob Steenwyk et al.Oct 3, 2021
+9
C
T
J
Abstract Bioinformatic analysis—such as genome assembly quality assessment, alignment summary statistics, relative synonymous codon usage, paired-end aware quality trimming and filtering of sequencing reads, file format conversion, and processing and analysis—is integrated into diverse disciplines in the biological sciences. Several command-line pieces of software have been developed to conduct some of these individual analyses; however, the lack of a unified toolkit that conducts all these analyses can be a barrier in workflows. To address this obstacle, we introduce BioKIT, a versatile toolkit for the UNIX shell environment with 40 functions, several of which were community-sourced, that conduct routine and novel processing and analysis of genome assemblies, multiple sequence alignments, coding sequences, sequencing data, and more. To demonstrate the utility of BioKIT, we assessed the quality and characteristics of 901 eukaryotic genome assemblies, calculated alignment summary statistics for 10 phylogenomic data matrices, determined relative synonymous codon usage across 171 fungal genomes including those that use alternative genetic codes, and demonstrate that a novel metric, gene-wise relative synonymous codon usage, can accurately estimate gene-wise codon optimization. BioKIT will be helpful in facilitating and streamlining sequence analysis workflows. BioKIT is freely available under the MIT license from GitHub ( https://github.com/JLSteenwyk/BioKIT ), PyPi ( https://pypi.org/project/jlsteenwykbiokit/ ), and the Anaconda Cloud ( https://anaconda.org/jlsteenwyk/jlsteenwyk-biokit ). Documentation, user tutorials, and instructions for requesting new features are available online ( https://jlsteenwyk.com/BioKIT ).
75
Citation3
0
Save
0

Research on the prediction of security fitness scale for large sports events based on machine learning algorithms

Yuanning Li et al.Jan 1, 2024
X
M
Y
Security is an important factor for the success of the event. In the context of new quality productivity, science and technology will continuously improve the iteration rate of productivity, and machine learning algorithms are applied to the prediction of security scale of large-scale sports events to realize the dual goals of economic and safe events. In this study, three machine learning algorithms, namely, convolutional neural network, multilayer perceptual machine and decision tree algorithm, are used to predict the security scale of the seven Summer Olympic Games from 1996 to 2021 (variables such as security expenditure, total number of security personnel, and crime rate of the host country in the past five years). The results of the study show that the decision tree algorithm fits the true and predicted values of the security scale analysis better than the other two algorithms, and the weights of the model are more accurate within the margin of error. In the prediction and analysis of security scale of large-scale sports events, the application of decision tree algorithm can efficiently and accurately provide scientific and accurate theoretical basis for the pre-planning of security work, and also provide empirical reference.
Load More