NE
Niroshini Epitawalage
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(80% Open Access)
Cited by:
447
h-index:
15
/
i10-index:
18
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

A Universal Probe Set for Targeted Sequencing of 353 Nuclear Genes from Any Flowering Plant Designed Using k-Medoids Clustering

Matthew Johnson et al.Dec 7, 2018
+14
S
L
M
Sequencing of target-enriched libraries is an efficient and cost-effective method for obtaining DNA sequence data from hundreds of nuclear loci for phylogeny reconstruction. Much of the cost of developing targeted sequencing approaches is associated with the generation of preliminary data needed for the identification of orthologous loci for probe design. In plants, identifying orthologous loci has proven difficult due to a large number of whole-genome duplication events, especially in the angiosperms (flowering plants). We used multiple sequence alignments from over 600 angiosperms for 353 putatively single-copy protein-coding genes identified by the One Thousand Plant Transcriptomes Initiative to design a set of targeted sequencing probes for phylogenetic studies of any angiosperm group. To maximize the phylogenetic potential of the probes, while minimizing the cost of production, we introduce a k-medoids clustering approach to identify the minimum number of sequences necessary to represent each coding sequence in the final probe set. Using this method, 5–15 representative sequences were selected per orthologous locus, representing the sequence diversity of angiosperms more efficiently than if probes were designed using available sequenced genomes alone. To test our approximately 80,000 probes, we hybridized libraries from 42 species spanning all higher-order groups of angiosperms, with a focus on taxa not present in the sequence alignments used to design the probes. Out of a possible 353 coding sequences, we recovered an average of 283 per species and at least 100 in all species. Differences among taxa in sequence recovery could not be explained by relatedness to the representative taxa selected for probe design, suggesting that there is no phylogenetic bias in the probe set. Our probe set, which targeted 260 kbp of coding sequence, achieved a median recovery of 137 kbp per taxon in coding regions, a maximum recovery of 250 kbp, and an additional median of 212 kbp per taxon in flanking non-coding regions across all species. These results suggest that the Angiosperms353 probe set described here is effective for any group of flowering plants and would be useful for phylogenetic studies from the species level to higher-order groups, including the entire angiosperm clade itself.
1
Citation390
0
Save
0

A Universal Probe Set for Targeted Sequencing of 353 Nuclear Genes from Any Flowering Plant Designed Using k-medoids Clustering

Matthew Johnson et al.Jul 4, 2018
+15
L
D
M
Abstract Sequencing of target-enriched libraries is an efficient and cost-effective method for obtaining DNA sequence data from hundreds of nuclear loci for phylogeny reconstruction. Much of the cost associated with developing targeted sequencing approaches is preliminary data needed for identifying orthologous loci for probe design. In plants, identifying orthologous loci has proven difficult due to a large number of whole-genome duplication events, especially in the angiosperms (flowering plants). We used multiple sequence alignments from over 600 angiosperms for 353 putatively single-copy protein-coding genes to design a set of targeted sequencing probes for phylogenetic studies of any angiosperm lineage. To maximize the phylogenetic potential of the probes while minimizing the cost of production, we introduce a k-medoids clustering approach to identify the minimum number of sequences necessary to represent each coding sequence in the final probe set. Using this method, five to 15 representative sequences were selected per orthologous locus, representing the sequence diversity of angiosperms more efficiently than if probes were designed using available sequenced genomes alone. To test our approximately 80,000 probes, we hybridized libraries from 42 species spanning all higher-order lineages of angiosperms, with a focus on taxa not present in the sequence alignments used to design the probes. Out of a possible 353 coding sequences, we recovered an average of 283 per species and at least 100 in all species. Differences among taxa in sequence recovery could not be explained by relatedness to the representative taxa selected for probe design, suggesting that there is no phylogenetic bias in the probe set. Our probe set, which targeted 260 kbp of coding sequence, achieved a median recovery of 137 kbp per taxon in coding regions, a maximum recovery of 250 kbp, and an additional median of 212 kbp per taxon in flanking non-coding regions across all species. These results suggest that the Angiosperms353 probe set described here is effective for any group of flowering plants and would be useful for phylogenetic studies from the species level to higher-order lineages, including all angiosperms.
0
Citation50
0
Save
61

A Comprehensive Phylogenomic Platform for Exploring the Angiosperm Tree of Life

William Baker et al.Feb 22, 2021
+28
P
W
W
Abstract The tree of life is the fundamental biological roadmap for navigating the evolution and properties of life on Earth, and yet remains largely unknown. Even angiosperms (flowering plants) are fraught with data gaps, despite their critical role in sustaining terrestrial life. Today, high-throughput sequencing promises to significantly deepen our understanding of evolutionary relationships. Here, we describe a comprehensive phylogenomic platform for exploring the angiosperm tree of life, comprising a set of open tools and data based on the 353 nuclear genes targeted by the universal Angiosperms353 sequence capture probes. This paper (i) documents our methods, (ii) describes our first data release and (iii) presents a novel open data portal, the Kew Tree of Life Explorer ( https://treeoflife.kew.org ). We aim to generate novel target sequence capture data for all genera of flowering plants, exploiting natural history collections such as herbarium specimens, and augment it with mined public data. Our first data release, described here, is the most extensive nuclear phylogenomic dataset for angiosperms to date, comprising 3,099 samples validated by DNA barcode and phylogenetic tests, representing all 64 orders, 404 families (96%) and 2,333 genera (17%). Using the multi-species coalescent, we inferred a “first pass” angiosperm tree of life from the data, which totalled 824,878 sequences, 489,086,049 base pairs, and 532,260 alignment columns. The tree is strongly supported and highly congruent with existing taxonomy, while challenging numerous hypothesized relationships among orders and placing many genera for the first time. The validated dataset, species tree and all intermediates are openly accessible via the Kew Tree of Life Explorer. This major milestone towards a complete tree of life for all flowering plant species opens doors to a highly integrated future for angiosperm phylogenomics through the systematic sequencing of standardised nuclear markers. Our approach has the potential to serve as a much-needed bridge between the growing movement to sequence the genomes of all life on Earth and the vast phylogenomic potential of the world’s natural history collections.
61
Paper
Citation7
0
Save
25

Hundreds of nuclear and plastid loci yield insights into orchid relationships

Oscar Pérez‐Escobar et al.Nov 19, 2020
+21
D
S
O
ABSTRACT Premise of the study Evolutionary relationships in the species-rich Orchidaceae have historically relied on organellar DNA sequences and limited taxon sampling. Previous studies provided a robust plastid-maternal phylogenetic framework, from which multiple hypotheses on the drivers of orchid diversification have been derived. However, the extent to which the maternal evolutionary history of orchids is congruent with that of the nuclear genome has remained uninvestigated. Methods We inferred phylogenetic relationships from 294 low-copy nuclear genes sequenced/obtained using the Angiosperms353 universal probe set from 75 species representing 69 genera, 16 tribes and 24 subtribes. To test for topological incongruence between nuclear and plastid genomes, we constructed a tree from 78 plastid genes, representing 117 genera, 18 tribes and 28 subtribes and compared them using a co-phylogenetic approach. The phylogenetic informativeness and support of the Angiosperms353 loci were compared with those of the 78 plastid genes. Key Results Phylogenetic inferences of nuclear datasets produced highly congruent and robustly supported orchid relationships. Comparisons of nuclear gene trees and plastid gene trees using the latest co-phylogenetic tools revealed strongly supported phylogenetic incongruence in both shallow and deep time. Phylogenetic informativeness analyses showed that the Angiosperms353 genes were in general more informative than most plastid genes. Conclusions Our study provides the first robust nuclear phylogenomic framework for Orchidaceae plus an assessment of intragenomic nuclear discordance, plastid-nuclear tree incongruence, and phylogenetic informativeness across the family. Our results also demonstrate what has long been known but rarely documented: nuclear and plastid phylogenetic trees are not fully congruent and therefore should not be considered interchangeable.
0

Repeated parallel losses of inflexed stamens in Moraceae: phylogenomics and generic revision of the tribe Moreae and the reinstatement of the tribe Olmedieae (Moraceae)

Elliot Gardner et al.Apr 9, 2020
+10
R
M
E
We present a densely-sampled phylogenomic study of the mulberry tribe (Moreae, Moraceae), an economically important clade with a global distribution, revealing multiple losses of inflexed stamens, a character traditionally used to circumscribe Moreae. Inflexed stamens facilitate ballistic pollen release and are associated with wind pollination, and the results presented here suggest that losses of this character state may have evolved repeatedly in Moraceae. Neither Moreae nor several of its major genera (Morus, Streblus, Trophis) were found to be monophyletic. A revised system for a monophyletic Moreae is presented, including the reinstatement of the genera Ampalis, Maillardia, Pachytrophe, Taxotrophis, and Paratrophis, and the recognition of the new genus Afromorus, based on Morus subgenus Afromorus. Pseudostreblus is reinstated and transferred to the Parartocarpeae, and Sloetiopsis is reinstated and transferred to the Dorstenieae. The tribe Olmediae is reinstated, replacing the Castilleae, owing to the reinstatement of the type genus Olmedia, and its exclusion from Moreae. Streblus s.s. is excluded from Moreae and transferred to the Olmediae, which is characterized primarily by involucrate inflorescences without regard to stamen position. Eight new combinations are made.### Competing Interest StatementThe authors have declared no competing interest.