DP
Daniel Portik
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(70% Open Access)
Cited by:
45
h-index:
29
/
i10-index:
41
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

FrogCap: A modular sequence capture probe set for phylogenomics and population genetics for all frogs, assessed across multiple phylogenetic scales

Carl Hutter et al.Oct 31, 2019
+3
D
K
C
ABSTRACT Despite the increasing use of high-throughput sequencing in phylogenetics, many phylogenetic relationships remain difficult to resolve because of conflict between gene trees and species trees. Selection of different types of markers (i.e. protein-coding exons, non-coding introns, ultra-conserved elements) is becoming important to alleviate these phylogenomic challenges. For evolutionary studies in frogs, we introduce the new publicly available FrogCap suite of genomic resources, which is a large and flexible collection of probes corresponding to ∼15,000 markers that unifies previous frog sequencing work. FrogCap is designed to be modular, such that subsets of markers can be selected based on the phylogenetic scale of the intended study. FrogCap uses a variety of molecular marker types that include newly obtained exons and introns, previously sequenced UCEs, and Sanger-sequencing markers, which span a range of alignment lengths (100–12,000 base pairs). We tested three probe sets from FrogCap using 105 samples across five phylogenetic scales, comparing probes designed using a consensus- or genome-based approach. We also tested the effects of using different bait kit sizes on depth of coverage and missing data. We found that larger bait kits did not result in lowered depth of coverage or increased missing data. We also found that sensitivity, specificity, and missing data are not related to genetic distance in the consensus-based probe design, suggesting that this approach has greater success and overcomes a major hurdle in probe design. We observed sequence capture success (in terms of missing data, quantity of sequence data, recovered marker length, and number of informative sites) and compared them at all phylogenetic scales. The incorporation of different molecular marker types allowed recovery of the variation required for resolving difficult phylogenetic relationships and for performing population genetic studies. Altogether, FrogCap is a valuable and adaptable resource for performing high-throughput sequencing projects across variable timescales.
0
Citation20
0
Save
150

Generation of lineage-resolved complete metagenome-assembled genomes by precision phasing

Derek Bickhart et al.May 4, 2021
+15
E
M
D
Abstract Microbial communities in many environments include distinct lineages of closely related organisms which have proved challenging to separate in metagenomic assembly, preventing generation of complete metagenome-assembled genomes (MAGs). The advent of long and accurate HiFi reads presents a possible means to address this challenge by generating complete MAGs for nearly all sufficiently abundant bacterial genomes in a microbial community. We present a metagenomic HiFi assembly of a complex microbial community from sheep fecal material that resulted in 428 high-quality MAGs from a single sample, the highest resolution achieved with metagenomic deconvolution to date. We applied a computational approach to separate distinct haplotype lineages and identified haplotypes of hundreds of variants across hundreds of kilobases of genomic sequence. Analysis of these haplotypes revealed 220 lineage-resolved complete MAGs, including 44 in single circular contigs, and demonstrated improvement in overall assembly compared to error-prone long reads. We report the characterization of multiple, closely-related microbes within a sample with potential to improve precision in assigning mobile genetic elements to host genomes within complex microbial communities.
150
Citation16
0
Save
1

Finding the right fit: A comprehensive evaluation of short-read and long-read sequencing approaches to maximize the utility of clinical microbiome data

Jeanette Gehrig et al.Sep 1, 2021
+5
M
D
J
ABSTRACT A longstanding challenge in human microbiome research is achieving the taxonomic and functional resolution needed to generate testable hypotheses about the gut microbiome’s impact on health and disease. More recently, this challenge has extended to a need for in-depth understanding of the pharmacokinetics and pharmacodynamics of clinical microbiome-based interventions. Whole genome metagenomic sequencing provides high taxonomic resolution and information on metagenome functional capacity, but the required deep sequencing is costly. For this reason, short-read sequencing of the bacterial 16S ribosomal RNA (rRNA) gene is the standard for microbiota profiling, despite its poor taxonomic resolution. The recent falling costs and improved fidelity of long-read sequencing warrant an evaluation of this approach for clinical microbiome analysis. We used samples from participants enrolled in a Phase 1b clinical trial of a novel live biotherapeutic product to perform a comparative analysis of short-read and long-read amplicon and metagenomic sequencing approaches to assess their value for generating informative and actionable clinical microbiome data. Comparison of ubiquitous short-read 16S rRNA amplicon profiling to long-read profiling of the 16S-ITS-23S rRNA amplicon showed that only the latter provided strain-level community resolution and insight into novel taxa. Across all methods, overall community taxonomic profiles were comparable and relationships between samples were conserved, highlighting the accuracy of modern microbiome analysis pipelines. All methods identified an active ingredient strain in treated study participants, though detection confidence was higher for long-read methods. Read coverage from both metagenomic methods provided evidence of active ingredient strain replication in some treated participants. Compared to short-read metagenomics, approximately twice the proportion of long reads were assigned functional annotations (63% vs. 34%). Finally, similar bacterial metagenome-assembled genomes (MAGs) were recovered across short-read and long-read metagenomic methods, although MAGs recovered from long reads were more complete. Overall, despite higher costs, long-read microbiome characterization provides added scientific value for clinical microbiome research in the form of higher taxonomic and functional resolution and improved recovery of microbial genomes compared to traditional short-read methodologies. Data Summary All supporting data, code and protocols have been provided within the article or as supplementary data files. Two supplementary figures and four supplementary tables are available with the online version of this article. Sequencing data are accessible in the National Center for Biotechnology Information (NCBI) database under BioProject accession number PRJNA754443. The R code and additional data files used for analysis and figure generation are accessible in a GitHub repository ( https://github.com/jeanette-gehrig/Gehrig_et_al_sequencing_comparison ). Impact Statement Accurate sequencing and analysis are essential for informative microbiome profiling, which is critical for the development of novel microbiome-targeted therapeutics. Recent improvements in long-read sequencing technology provide a promising, but more costly, alternative to ubiquitous short-read sequencing. To our knowledge, a direct comparison of the informational value of short-read and HiFi long-read sequencing approaches has not been reported for clinical microbiome samples. Using samples from participants in a Phase 1b trial of a live biotherapeutic product, we compare microbiome profiles generated from short-read and long-read sequencing for both amplicon-based 16S ribosomal RNA profiling and metagenomic sequencing. Though overall taxonomic profiles were similar across methods, only long-read amplicon sequencing provided strain-level resolution, and long-read metagenomic sequencing resulted in a significantly greater proportion of functionally annotated genes. Detection of a live biotherapeutic active ingredient strain in treated participants was achieved with all methods, and both metagenomic methods provided evidence of active replication of this strain in some participants. Similar taxonomies were recovered through metagenomic assemblies of short and long reads, although assemblies were more complete with long reads. Overall, we show the utility of long-read microbiome sequencing in direct comparison to commonly used short-read methods for clinically relevant microbiome profiling.
1
Citation3
0
Save
143

Evaluation of taxonomic classification and profiling methods for long-read shotgun metagenomic sequencing datasets

Daniel Portik et al.Feb 2, 2022
N
N
C
D
ABSTRACT Background Long-read shotgun metagenomic sequencing is gaining in popularity and offers many advantages over short-read sequencing. The higher information content in long reads is useful for a variety of metagenomics analyses, including taxonomic classification and profiling. The development of long-read specific tools for taxonomic classification is accelerating, yet there is a lack of information regarding their relative performance. Here, we perform a critical benchmarking study using 11 methods, including five methods designed specifically for long reads. We applied these tools to several mock community datasets generated using Pacific Biosciences (PacBio) HiFi or Oxford Nanopore Technology (ONT) sequencing, and evaluated their performance based on read utilization, detection metrics, and relative abundance estimates. Results Our results show that long-read classifiers generally performed best. Several short-read classification and profiling methods produced many false positives (particularly at lower abundances), required heavy filtering to achieve acceptable precision (at the cost of reduced recall), and produced inaccurate abundance estimates. By contrast, two long-read methods (BugSeq, MEGAN-LR & DIAMOND) and one generalized method (sourmash) displayed high precision and recall without any filtering required. Furthermore, in the PacBio HiFi datasets these methods detected all species down to the 0.1% abundance level with high precision. Some long-read methods, such as MetaMaps and MMseqs2, required moderate filtering to reduce false positives to resemble the precision and recall of the top-performing methods. We found read quality affected performance for methods relying on protein prediction or exact k-mer matching, and these methods performed better with PacBio HiFi datasets. We also found that long-read datasets with a large proportion of shorter reads (<2kb length) resulted in lower precision and worse abundance estimates, relative to length-filtered datasets. Finally, for classification methods, we found that the long-read datasets produced significantly better results than short-read datasets, demonstrating clear advantages for long-read metagenomic sequencing. Conclusions Our critical assessment of available methods provides best-practice recommendations for current research using long reads and establishes a baseline for future benchmarking studies.
143
Citation3
0
Save
35

Longitudinal, multi-platform metagenomics yields a high-quality genomic catalog and guides an in vitro model for cheese communities

Christina Saak et al.Jul 2, 2022
+4
M
R
C
Abstract Microbiomes are intricately intertwined with human health, geochemical cycles and food production. While many microbiomes of interest are highly complex and experimentally intractable, cheese rind microbiomes have proven powerful model systems for the study of microbial interactions. To provide a more comprehensive view of the genomic potential and temporal dynamics of cheese rind communities, we combine longitudinal, multi-platform metagenomics of three ripening washed-rind cheeses with whole genome sequencing of community isolates. Sequencing-based approaches revealed a highly reproducible microbial succession in each cheese, co-existence of closely related Psychrobacter species, and enabled the prediction of plasmid and phage diversity and their host associations. Combined with culture-based approaches, we established a genomic catalog and a paired 16-member in vitro washed rind cheese system. The combination of multi-platform metagenomic time-series data and an in vitro model provides a rich resource for further investigation of cheese rind microbiomes both computationally and experimentally. Importance Metagenome sequencing can provide great insights into microbiome composition and function and help researchers develop testable hypotheses. Model microbiomes, such as those composed of cheese rind bacteria and fungi, then allow the testing of these hypotheses in a controlled manner. Here, we first generate an extensive longitudinal metagenomic dataset. This dataset reveals successional dynamics, yields a phyla-spanning bacterial genomic catalog, associates mobile genetic elements with their hosts and provides insights into functional enrichment of Psychrobacter in the cheese environment. Next, we show that members of the washed-rind cheese microbiome lend themselves to in vitro community reconstruction. This paired metagenomic data and in vitro system can thus be used as a platform for generating and testing hypotheses related to the dynamics within, and functions associated with, cheese rind microbiomes.
35
Citation1
0
Save
0

SuperCRUNCH: A bioinformatics toolkit for creating and manipulating supermatrices and other large phylogenetic datasets

Daniel Portik et al.Feb 2, 2019
J
D
Abstract Phylogenies with extensive taxon sampling have become indispensable for many types of ecological and evolutionary studies. Many large-scale trees are based on a “supermatrix” approach, which involves amalgamating thousands of published sequences for a group. Constructing up-to-date supermatrices can be challenging, especially as new sequences may become available almost constantly. Additionally, genomic datasets (composed of thousands of loci) are becoming common in phylogenetics and phylogeography, and present novel challenges for constructing such datasets. Here we present SuperCRUNCH, a Python toolkit for assembling large phylogenetic datasets. It can be applied to GenBank sequences, unpublished sequences, or combinations of GenBank and unpublished data. SuperCRUNCH constructs local databases and uses them to conduct rapid searches for user-specified sets of taxa and loci. Sequences are parsed into putative loci and passed through rigorous filtering steps. A post-filtering step allows for selection of one sequence per taxon (i.e. species-level supermatrix) or retention of all sequences per taxon (i.e. population-level dataset). Importantly, SuperCRUNCH can generate “vouchered” population-level datasets, in which voucher information is used to generate multi-locus phylogeographic datasets. SuperCRUNCH offers many options for taxonomy resolution, similarity filtering, sequence selection, alignment, and file manipulation. We demonstrate the range of features available in SuperCRUNCH by generating a variety of phylogenetic datasets. Output datasets include traditional species-level supermatrices, large-scale phylogenomic matrices, and phylogeographic datasets. Finally, we briefly compare the ability of SuperCRUNCH to construct species-level supermatrices to alternative approaches. SuperCRUNCH generated a large-scale supermatrix (1,400 taxa and 66 loci) from 16GB of GenBank data in ∼1.5 hours, and generated population-level datasets (<350 samples, <10 loci) in <1 minute. It outperformed alternative methods for supermatrix construction in terms of taxa, loci, and sequences recovered. SuperCRUNCH is a modular bioinformatics toolkit that can be used to assemble datasets for any taxonomic group and scale (kingdoms to individuals). It allows rapid construction of supermatrices, greatly simplifying the process of updating large phylogenies with new data. It is also designed to produce population-level datasets. SuperCRUNCH streamlines the major tasks required to process phylogenetic data, including filtering, alignment, trimming, and formatting. SuperCRUNCH is open-source, documented, and available at https://github.com/dportik/SuperCRUNCH .
0
Citation1
0
Save
0

Highly accurate metagenome-assembled genomes from human gut microbiota using long-read assembly, binning, and consolidation methods

Daniel Portik et al.May 11, 2024
+18
C
S
D
Long-read metagenomic sequencing is a powerful approach for cataloging the microbial diversity present in complex microbiomes, including the human gut microbiome. We performed a deep-sequencing experiment using PacBio HiFi reads to obtain metagenome-assembled genomes (MAGs) from a pooled human gut microbiome. We performed long-read metagenome assembly using two methods (hifiasm-meta, metMDBG), used improved bioinformatic and proximity ligation binning strategies to cluster contigs and identify MAGs, and developed a novel framework to compare and consolidate MAGs (pb-MAG-mirror). We found proximity ligation binning yielded more MAGs than bioinformatic binning, but our novel comparison framework resulted in higher MAG yields than either binning strategy individually. In total, from 255 Gbp of total HiFi data we produced 595 total MAGs (including 175 high-quality MAGs) using hifiasm-meta, and 547 total MAGs (including 277 high-quality MAGs) with metaMDBG. Hifiasm-meta assembled almost twice as many strain-level MAGs as metaMDBG (246 vs. 156), but both assembly methods produced up to five strains for a species. Approximately 85% of the MAGs were assigned to known species, but we recovered >35 high-quality MAGs that represent uncultured diversity. Based on strict similarity scores, we found 125 MAGs were unequivocally shared across the assembly methods at the strain level, representing ~22% of the total MAGs recovered per method. Finally, we detected more total viral sequences in the metaMDBG assembly versus the hifiasm-meta assembly (~6,700 vs. ~4,500). Overall, we find the use of HiFi sequencing, improved metagenome assembly methods, and complementary binning strategies is highly effective for rapidly cataloging microbial genomes in complex microbiomes.
0
Citation1
0
Save
0

Sexual Dichromatism Drives Diversification Within a Major Radiation of African Amphibians

Daniel Portik et al.Jul 22, 2018
+36
S
W
D
Theory predicts that sexually dimorphic traits under strong sexual selection, particularly those involved with intersexual signaling, can accelerate speciation and produce bursts of diversification. Sexual dichromatism (sexual dimorphism in color) is widely used as a proxy for sexual selection and is associated with rapid diversification in several animal groups, yet studies using phylogenetic comparative methods to explicitly test for an association between sexual dichromatism and diversification have produced conflicting results. Sexual dichromatism is rare in frogs, but it is both striking and prevalent in African reed frogs, a major component of the diverse frog radiation termed Afrobatrachia. In contrast to most other vertebrates, reed frogs display female-biased dichromatism in which females undergo color transformation, often resulting in more ornate coloration in females than in males. We produce a robust phylogeny of Afrobrachia to investigate the evolutionary origins of sexual dichromatism in this radiation and examine whether the presence of dichromatism is associated with increased rates of net diversification. We find that sexual dichromatism evolved once within hyperoliids and was followed by numerous independent reversals to monochromatism. We detect significant diversification rate heterogeneity in Afrobatrachia and find that sexually dichromatic lineages have double the average net diversification rate of monochromatic lineages. By conducting trait simulations on our empirical phylogeny, we demonstrate our inference of trait-dependent diversification is robust. Although sexual dichromatism in hyperoliid frogs is linked to their rapid diversification and supports macroevolutionary predictions of speciation by sexual selection, the function of dichromatism in reed frogs remains unclear. We propose that reed frogs are a compelling system for studying the roles of natural and sexual selection on the evolution of sexual dichromatism across both micro- and macroevolutionary timescales.
0

Phylogenomics of monitor lizards and the role of competition in dictating body size disparity

Ian Brennan et al.Feb 3, 2020
+5
L
S
I
Organismal interactions drive the accumulation of diversity by influencing species ranges, morphology, and behavior. Interactions vary from agonistic to cooperative and should result in predictable patterns in trait and range evolution. However, despite a conceptual understanding of these processes, they have been difficult to model, particularly on macroevolutionary timescales and across broad geographic spaces. Here we investigate the influence of biotic interactions on trait evolution and community assembly in monitor lizards ( Varanus ). Monitors are an iconic radiation with a cosmopolitan distribution and the greatest size disparity of any living terrestrial vertebrate genus. Between the colossal Komodo dragon Varanus komodoensis and the smallest Australian dwarf goannas, Varanus length and mass vary by multiple orders of magnitude. To test the hypothesis that size variation in this genus was driven by character displacement, we extended existing phylogenetic comparative methods which consider lineage interactions to account for dynamic biogeographic history and apply these methods to Australian monitors and marsupial predators. We use a phylogenomic approach to estimate the relationships among living and extinct varaniform lizards, incorporating both exon-capture molecular and morphological datasets. Our results suggest that communities of Australian Varanus show high functional diversity as a result of continent-wide interspecific competition among monitors but not with faunivorous marsupials. We demonstrate that patterns of trait evolution resulting from character displacement on continental scales are recoverable from comparative data and highlight that these macroevolutionary patterns may develop in parallel across widely distributed sympatric groups.
0

An evaluation of transcriptome-based exon capture for frog phylogenomics across multiple scales of divergence (Class: Amphibia, Order: Anura)

Daniel Portik et al.Nov 12, 2015
K
L
L
D
Custom sequence capture experiments are becoming an efficient approach for gathering large sets of orthologous markers with targeted levels of informativeness in non-model organisms. Transcriptome-based exon capture utilizes transcript sequences to design capture probes, often with the aid of a reference genome to identify intron-exon boundaries and exclude shorter exons (< 200 bp). Here, we test an alternative approach that directly uses transcript sequences for probe design, which are often composed of multiple exons of varying lengths. Based on a selection of 1,260 orthologous transcripts, we conducted sequence captures across multiple phylogenetic scales for frogs, including species up to ~100 million years divergent from the focal group. After several conservative filtering steps, we recovered a large phylogenomic data set consisting of sequence alignments for 1,047 of the 1,260 transcriptome-based loci (~630,000 bp) and a large quantity of highly variable regions flanking the exons in transcripts (~70,000 bp). We recovered high numbers of both shorter (< 100 bp) and longer exons (> 200 bp), with no major reduction in coverage towards the ends of exons. We observed significant differences in the performance of blocking oligos for target enrichment and non-target depletion during captures, and observed differences in PCR duplication rates that can be attributed to the number of individuals pooled for capture reactions. We explicitly tested the effects of phylogenetic distance on capture sensitivity, specificity, and missing data, and provide a baseline estimate of expectations for these metrics based on nuclear pairwise differences among samples. We provide recommendations for transcriptome-based exon capture design based on our results, and describe multiple pipelines for data assembly and analysis.