PS
Philip Schmidt
Author with expertise in Diversity and Function of Gut Microbiome
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(100% Open Access)
Cited by:
28
h-index:
21
/
i10-index:
31
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
61

To rarefy or not to rarefy: Enhancing diversity analysis of microbial communities through next-generation sequencing and rarefying repeatedly

Ellen Cameron et al.Sep 10, 2020
+2
B
P
E
Abstract Amplicon sequencing has revolutionized our ability to study DNA collected from environmental samples by providing a rapid and sensitive technique for microbial community analysis that eliminates the challenges associated with lab cultivation and taxonomic identification through microscopy. In water resources management, it can be especially useful to evaluate ecosystem shifts in response to natural and anthropogenic landscape disturbances to signal potential water quality concerns, such as the detection of toxic cyanobacteria or pathogenic bacteria. Amplicon sequencing data consist of discrete counts of sequence reads, the sum of which is the library size. Groups of samples typically have different library sizes that are not representative of biological variation; library size normalization is required to meaningfully compare diversity between them. Rarefaction is a widely used normalization technique that involves the random subsampling of sequences from the initial sample library to a selected normalized library size. Rarefying is often dismissed as statistically invalid because subsampling effectively discards a portion of the observed sequences. Nonetheless, it remains prevalent in practice. Notably, the superiority of rarefying relative to many other normalization approaches has been argued in diversity analysis. Here, repeated rarefying is proposed as a tool for diversity analyses to normalize library sizes. This enables (i) proportionate representation of all observed sequences and (ii) characterization of the random variation introduced to diversity analyses by rarefying to a smaller library size shared by all samples. While many deterministic data transformations are not tailored to produce equal library sizes, repeatedly rarefying reflects the probabilistic process by which amplicon sequencing data are obtained as a representation of the source microbial community. Specifically, it evaluates which data might have been obtained if a particular sample’s library size had been smaller and allows graphical representation of the effects of this library size normalization process upon diversity analysis results.
61
Citation24
0
Save
13

Ensuring that fundamentals of quantitative microbiology are reflected in microbial diversity analyses based on next-generation sequencing

Philip Schmidt et al.Jun 19, 2021
M
K
E
P
Abstract Diversity analysis of amplicon sequencing data is mainly limited to plug-in estimates calculated using normalized data to obtain a single value of an alpha diversity metric or a single point on a beta diversity ordination plot for each sample. As recognized for count data generated using classical microbiological methods, read counts obtained from a sample are random data linked to source properties by a probabilistic process. Thus, diversity analysis has focused on diversity of (normalized) samples rather than probabilistic inference about source diversity. This study applies fundamentals of statistical analysis for quantitative microbiology (e.g., microscopy, plating, most probable number methods) to sample collection and processing procedures of amplicon sequencing methods to facilitate inference reflecting the probabilistic nature of such data and evaluation of uncertainty in diversity metrics. Types of random error are described and clustering of microorganisms in the source, differential analytical recovery during sample processing, and amplification are found to invalidate a multinomial relative abundance model. The zeros often abounding in amplicon sequencing data and their implications are addressed, and Bayesian analysis is applied to estimate the source Shannon index given unnormalized data (both simulated and real). Inference about source diversity is found to require knowledge of the exact number of unique variants in the source, which is practically unknowable due to library size limitations and the inability to differentiate zeros corresponding to variants that are actually absent in the source from zeros corresponding to variants that were merely not detected. Given these problems with estimation of diversity in the source even when the basic multinomial model is valid, sample-level diversity analysis approaches are discussed. Highlights Random error in amplicon sequencing method should be considered in diversity analysis Clustering, amplification, and differential recovery distort sample diversity The multinomial model for compositional count data is compromised by amplification There are three types of zeros in amplicon sequencing data, including missing zeros Source alpha diversity estimates are biased by unknown number of unique variants
13
Citation4
0
Save
0

Drinking water QMRA and decision-making: Sensitivity of risk to common independence assumptions about model inputs

Dafne Cruz et al.Jun 3, 2024
M
P
D
When assessing risk posed by waterborne pathogens in drinking water, it is common to use Monte Carlo simulations in Quantitative Microbial Risk Assessment (QMRA). This method accounts for the variables that affect risk and their different values in a given system. A common underlying assumption in such analyses is that all random variables are independent (i.e., one is not associated in any way with another). Although the independence assumption simplifies the analysis, it is not always correct. For example, treatment efficiency can depend on microbial concentrations if changes in microbial concentrations either affect treatment themselves or are associated with water quality changes that affect treatment (e.g., during/after climate shocks like extreme precipitation events or wildfires). Notably, the effects of erroneous assumptions of independence in QMRA have not been widely discussed. Due to the implications of drinking water safety decisions on public health protection, it is critical that risk models accurately reflect the context being studied to meaningfully support decision-making. This work illustrates how dependence between pathogen concentration and either treatment efficiency or water consumption can impact risk estimates using hypothetical scenarios of relevance to drinking water QMRA. It is shown that the mean and variance of risk estimates can change substantially with different degrees of correlation. Data from a water supply system in Calgary, Canada are also used to illustrate the effect of dependence on risk. Recognizing the difficulty of obtaining data to empirically assess dependence, a framework to guide evaluation of the effect of dependence is presented to enhance support for decision making. This work emphasizes the importance of acknowledging and discussing assumptions implicit to models.
8

Virus-derived circular RNAs populate hepatitis C virus-infected cells

Qian Cao et al.Jul 29, 2023
+4
P
S
Q
Summary It is known that pre-mRNAs in eukaryotic cells can be processed to circular RNAs by a back- splicing mechanism. Circular RNAs have great stability and can sequester proteins or small RNAs to exert functions on cellular pathways. Because viruses often exploit host pathways, we explored whether the RNA genome of the cytoplasmic hepatitis C virus is processed to yield virus-derived circRNAs (vcircRNAs). Computational analyses of RNA-seq experiments predicted that the viral RNA genome is fragmented to generate hundreds of vcircRNAs. More than a dozen of them were experimentally verified by rolling-circle amplification. VcircRNAs that contained the viral internal ribosome entry site were found to be translated into novel proteins that displayed pro-viral functions. Furthermore, a highly abundant, non-translated vcircRNA was shown to enhance viral RNA abundance. These findings argue that novel vcircRNA molecules modulate viral amplification in cells infected by a cytoplasmic RNA virus. Significance Statement Processing of an RNA viral genome into hundreds of circular RNAs provides novel pro-viral functions and can promote translation of novel viral peptides.