MJ
Matthew Johnson
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(84% Open Access)
Cited by:
3,870
h-index:
30
/
i10-index:
48
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Molnupiravir for Oral Treatment of Covid-19 in Nonhospitalized Patients

Angélica Bernal et al.Dec 16, 2021
+21
A
M
A
New treatments are needed to reduce the risk of progression of coronavirus disease 2019 (Covid-19). Molnupiravir is an oral, small-molecule antiviral prodrug that is active against severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2).
0

One thousand plant transcriptomes and the phylogenomics of green plants

Mack Leebens et al.Oct 23, 2019
+97
G
S
M
Green plants (Viridiplantae) include around 450,000-500,000 species1,2 of great diversity and have important roles in terrestrial and aquatic ecosystems. Here, as part of the One Thousand Plant Transcriptomes Initiative, we sequenced the vegetative transcriptomes of 1,124 species that span the diversity of plants in a broad sense (Archaeplastida), including green plants (Viridiplantae), glaucophytes (Glaucophyta) and red algae (Rhodophyta). Our analysis provides a robust phylogenomic framework for examining the evolution of green plants. Most inferred species relationships are well supported across multiple species tree and supermatrix analyses, but discordance among plastid and nuclear gene trees at a few important nodes highlights the complexity of plant genome evolution, including polyploidy, periods of rapid speciation, and extinction. Incomplete sorting of ancestral variation, polyploidization and massive expansions of gene families punctuate the evolutionary history of green plants. Notably, we find that large expansions of gene families preceded the origins of green plants, land plants and vascular plants, whereas whole-genome duplications are inferred to have occurred repeatedly throughout the evolution of flowering plants and ferns. The increasing availability of high-quality plant genome sequences and advances in functional genomics are enabling research on genome evolution across the green tree of life.
0
Citation1,323
0
Save
0

HybPiper: Extracting coding sequence and introns for phylogenetics from high‐throughput sequencing reads using target enrichment

Matthew Johnson et al.Jul 1, 2016
+5
Y
E
M
Premise of the study: Using sequence data generated via target enrichment for phylogenetics requires reassembly of high‐throughput sequence reads into loci, presenting a number of bioinformatics challenges. We developed HybPiper as a user‐friendly platform for assembly of gene regions, extraction of exon and intron sequences, and identification of paralogous gene copies. We test HybPiper using baits designed to target 333 phylogenetic markers and 125 genes of functional significance in Artocarpus (Moraceae). Methods and Results: HybPiper implements parallel execution of sequence assembly in three phases: read mapping, contig assembly, and target sequence extraction. The pipeline was able to recover nearly complete gene sequences for all genes in 22 species of Artocarpus . HybPiper also recovered more than 500 bp of nontargeted intron sequence in over half of the phylogenetic markers and identified paralogous gene copies in Artocarpus . Conclusions: HybPiper was designed for Linux and Mac OS X and is freely available at https://github.com/mossmatters/HybPiper .
0
Citation532
0
Save
1

A Universal Probe Set for Targeted Sequencing of 353 Nuclear Genes from Any Flowering Plant Designed Using k-Medoids Clustering

Matthew Johnson et al.Dec 7, 2018
+14
S
L
M
Sequencing of target-enriched libraries is an efficient and cost-effective method for obtaining DNA sequence data from hundreds of nuclear loci for phylogeny reconstruction. Much of the cost of developing targeted sequencing approaches is associated with the generation of preliminary data needed for the identification of orthologous loci for probe design. In plants, identifying orthologous loci has proven difficult due to a large number of whole-genome duplication events, especially in the angiosperms (flowering plants). We used multiple sequence alignments from over 600 angiosperms for 353 putatively single-copy protein-coding genes identified by the One Thousand Plant Transcriptomes Initiative to design a set of targeted sequencing probes for phylogenetic studies of any angiosperm group. To maximize the phylogenetic potential of the probes, while minimizing the cost of production, we introduce a k-medoids clustering approach to identify the minimum number of sequences necessary to represent each coding sequence in the final probe set. Using this method, 5–15 representative sequences were selected per orthologous locus, representing the sequence diversity of angiosperms more efficiently than if probes were designed using available sequenced genomes alone. To test our approximately 80,000 probes, we hybridized libraries from 42 species spanning all higher-order groups of angiosperms, with a focus on taxa not present in the sequence alignments used to design the probes. Out of a possible 353 coding sequences, we recovered an average of 283 per species and at least 100 in all species. Differences among taxa in sequence recovery could not be explained by relatedness to the representative taxa selected for probe design, suggesting that there is no phylogenetic bias in the probe set. Our probe set, which targeted 260 kbp of coding sequence, achieved a median recovery of 137 kbp per taxon in coding regions, a maximum recovery of 250 kbp, and an additional median of 212 kbp per taxon in flanking non-coding regions across all species. These results suggest that the Angiosperms353 probe set described here is effective for any group of flowering plants and would be useful for phylogenetic studies from the species level to higher-order groups, including the entire angiosperm clade itself.
1
Citation390
0
Save
0

A Universal Probe Set for Targeted Sequencing of 353 Nuclear Genes from Any Flowering Plant Designed Using k-medoids Clustering

Matthew Johnson et al.Jul 4, 2018
+15
L
D
M
Abstract Sequencing of target-enriched libraries is an efficient and cost-effective method for obtaining DNA sequence data from hundreds of nuclear loci for phylogeny reconstruction. Much of the cost associated with developing targeted sequencing approaches is preliminary data needed for identifying orthologous loci for probe design. In plants, identifying orthologous loci has proven difficult due to a large number of whole-genome duplication events, especially in the angiosperms (flowering plants). We used multiple sequence alignments from over 600 angiosperms for 353 putatively single-copy protein-coding genes to design a set of targeted sequencing probes for phylogenetic studies of any angiosperm lineage. To maximize the phylogenetic potential of the probes while minimizing the cost of production, we introduce a k-medoids clustering approach to identify the minimum number of sequences necessary to represent each coding sequence in the final probe set. Using this method, five to 15 representative sequences were selected per orthologous locus, representing the sequence diversity of angiosperms more efficiently than if probes were designed using available sequenced genomes alone. To test our approximately 80,000 probes, we hybridized libraries from 42 species spanning all higher-order lineages of angiosperms, with a focus on taxa not present in the sequence alignments used to design the probes. Out of a possible 353 coding sequences, we recovered an average of 283 per species and at least 100 in all species. Differences among taxa in sequence recovery could not be explained by relatedness to the representative taxa selected for probe design, suggesting that there is no phylogenetic bias in the probe set. Our probe set, which targeted 260 kbp of coding sequence, achieved a median recovery of 137 kbp per taxon in coding regions, a maximum recovery of 250 kbp, and an additional median of 212 kbp per taxon in flanking non-coding regions across all species. These results suggest that the Angiosperms353 probe set described here is effective for any group of flowering plants and would be useful for phylogenetic studies from the species level to higher-order lineages, including all angiosperms.
0
Citation50
0
Save
36

homologizer: Phylogenetic phasing of gene copies into polyploid subgenomes

William Freyman et al.Oct 23, 2020
C
M
W
Summary Organisms such as allopolyploids and F1 hybrids contain multiple distinct subgenomes, each potentially with its own evolutionary history. These organisms present a challenge for multilocus phylogenetic inference and other analyses since it is not apparent which gene copies from different loci are from the same subgenome and thus share an evolutionary history. Here we introduce homologizer , a flexible Bayesian approach that uses a phylogenetic framework to infer the phasing of gene copies across loci into their respective subgenomes. Through the use of simulation tests we demonstrate that homologizer is robust to a wide range of factors, such as incomplete lineage sorting and the phylogenetic informativeness of loci. Furthermore, we establish the utility of homologizer on real data, by analyzing a multilocus dataset consisting of nine diploids and 19 tetraploids from the fern family Cystopteridaceae. Finally, we describe how homologizer may potentially be used beyond its core phasing functionality to identify non-homologous sequences, such as hidden paralogs or contaminants.
36
Citation16
0
Save
59

The Ceratodon purpureus genome uncovers structurally complex, gene rich sex chromosomes

Sarah Carey et al.Jul 4, 2020
+27
A
M
S
Abstract Non-recombining sex chromosomes, like the mammalian Y, often lose genes and accumulate transposable elements, a process termed degeneration 1,2 . The correlation between suppressed recombination and degeneration is clear in animal XY systems 1,2 , but the absence of recombination is confounded with other asymmetries between the X and Y. In contrast, UV sex chromosomes, like those found in bryophytes, experience symmetrical population genetic conditions 3,4 . Here we test for degeneration in the bryophyte UV sex chromosome system through genomic comparisons with new female and male chromosome-scale reference genomes of the moss Ceratodon purpureus . We show that the moss sex chromosomes evolved over 300 million years ago and expanded via two chromosomal fusions. Although the sex chromosomes show signs of weaker purifying selection than autosomes, we find suppressed recombination alone is insufficient to drive gene loss on sex-specific chromosomes. Instead, the U and V sex chromosomes harbor thousands of broadly-expressed genes, including numerous key regulators of sexual development across land plants.
59
Citation12
0
Save
7

Insights into mammalian TE diversity via the curation of 248 mammalian genome assemblies

Austin Osmanski et al.Dec 30, 2022
+18
J
N
A
Abstract We examined transposable element (TE) content of 248 placental mammal genome assemblies, the largest de novo TE curation effort in eukaryotes to date. We find that while mammals resemble one another in total TE content and diversity, they show substantial differences with regard to recent TE accumulation. This includes multiple recent expansion and quiescence events across the mammalian tree. Young TEs, particularly LINEs, drive increases in genome size while DNA transposons are associated with smaller genomes. Mammals tend to accumulate only a few types of TE at any given time, with one TE type dominating. We also found association between dietary habit and the presence of DNA transposon invasions. These detailed annotations will serve as a benchmark for future comparative TE analyses among placental mammals. One-Sentence Summary A de novo assessment of TE content in 248 mammals finds informative trends in mammalian genome evolution.
7
Citation7
0
Save
61

A Comprehensive Phylogenomic Platform for Exploring the Angiosperm Tree of Life

William Baker et al.Feb 22, 2021
+28
P
W
W
Abstract The tree of life is the fundamental biological roadmap for navigating the evolution and properties of life on Earth, and yet remains largely unknown. Even angiosperms (flowering plants) are fraught with data gaps, despite their critical role in sustaining terrestrial life. Today, high-throughput sequencing promises to significantly deepen our understanding of evolutionary relationships. Here, we describe a comprehensive phylogenomic platform for exploring the angiosperm tree of life, comprising a set of open tools and data based on the 353 nuclear genes targeted by the universal Angiosperms353 sequence capture probes. This paper (i) documents our methods, (ii) describes our first data release and (iii) presents a novel open data portal, the Kew Tree of Life Explorer ( https://treeoflife.kew.org ). We aim to generate novel target sequence capture data for all genera of flowering plants, exploiting natural history collections such as herbarium specimens, and augment it with mined public data. Our first data release, described here, is the most extensive nuclear phylogenomic dataset for angiosperms to date, comprising 3,099 samples validated by DNA barcode and phylogenetic tests, representing all 64 orders, 404 families (96%) and 2,333 genera (17%). Using the multi-species coalescent, we inferred a “first pass” angiosperm tree of life from the data, which totalled 824,878 sequences, 489,086,049 base pairs, and 532,260 alignment columns. The tree is strongly supported and highly congruent with existing taxonomy, while challenging numerous hypothesized relationships among orders and placing many genera for the first time. The validated dataset, species tree and all intermediates are openly accessible via the Kew Tree of Life Explorer. This major milestone towards a complete tree of life for all flowering plant species opens doors to a highly integrated future for angiosperm phylogenomics through the systematic sequencing of standardised nuclear markers. Our approach has the potential to serve as a much-needed bridge between the growing movement to sequence the genomes of all life on Earth and the vast phylogenomic potential of the world’s natural history collections.
61
Paper
Citation7
0
Save
39

On the potential of Angiosperms353 for population genomics

Madeline Slimp et al.Oct 11, 2020
M
H
L
M
Targeted sequencing using Angiosperms353 has emerged as a low-cost tool for phylogenetics, with early results spanning scales from all flowering plants to within genera. The use of universal markers at narrower scales—within populations— would eliminate the need for specific marker development while retaining the benefits of full-gene sequences. However, it is unclear whether the Angiosperms353 markers provide sufficient variation within species to calculate demographic parameters. Using herbarium specimens from a 50-year-old floristic survey of Guadalupe Mountains National Park, we sequenced 95 samples from 24 species using Angiosperms353. We adapted a data workflow to process targeted sequencing data that calls variants within each species and prepares data for population genetic analysis. We calculated genetic diversity using standard metrics (e.g. heterozygosity, Tajima’s D). Angiosperms353 gene recovery was associated with genomic library concentration, with limited phylogenetic bias. We identified over 1000 segregating variants with zero missing data within 22 of 24 species. A subset of these variants, which were filtered to remove linked SNPs, revealed high heterozygosity in many species. Tajima’s D calculated within each species indicated a moderate number of markers potentially under selection and identified evidence of population bottlenecks in some species. Despite sequencing few individuals per species, the Angiosperms353 markers contained sufficient variation calculate demographic parameters. Larger sampling within species will allow for estimating gene flow and population dynamics in any angiosperm. Our study will benefit conservation genetics, where Angiosperms353 provides universal repeatable markers, low missing data, and haplotype information.
39
Citation5
0
Save
Load More