NM
Nicholas Matzke
Author with expertise in Biodiversity Conservation and Ecosystem Management
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
17
(71% Open Access)
Cited by:
3,069
h-index:
35
/
i10-index:
59
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Model Selection in Historical Biogeography Reveals that Founder-Event Speciation Is a Crucial Process in Island Clades

Nicholas MatzkeAug 14, 2014
N
Founder-event speciation, where a rare jump dispersal event founds a new genetically isolated lineage, has long been considered crucial by many historical biogeographers, but its importance is disputed within the vicariance school. Probabilistic modeling of geographic range evolution creates the potential to test different biogeographical models against data using standard statistical model choice procedures, as long as multiple models are available. I re-implement the Dispersal–Extinction–Cladogenesis (DEC) model of LAGRANGE in the R package BioGeoBEARS, and modify it to create a new model, DEC + J, which adds founder-event speciation, the importance of which is governed by a new free parameter, j⁠. The identifiability of DEC and DEC + J is tested on data sets simulated under a wide range of macroevolutionary models where geography evolves jointly with lineage birth/death events. The results confirm that DEC and DEC + J are identifiable even though these models ignore the fact that molecular phylogenies are missing many cladogenesis and extinction events. The simulations also indicate that DEC will have substantially increased errors in ancestral range estimation and parameter inference when the true model includes + J. DEC and DEC + J are compared on 13 empirical data sets drawn from studies of island clades. Likelihood-ratio tests indicate that all clades reject DEC, and AICc model weights show large to overwhelming support for DEC + J, for the first time verifying the importance of founder-event speciation in island clades via statistical model choice. Under DEC + J, ancestral nodes are usually estimated to have ranges occupying only one island, rather than the widespread ancestors often favored by DEC. These results indicate that the assumptions of historical biogeography models can have large impacts on inference and require testing and comparison with statistical methods.
0
Paper
Citation1,082
0
Save
0

Probabilistic historical biogeography: new models for founder-event speciation, imperfect detection, and fossils allow improved accuracy and model-testing

Nicholas MatzkeDec 31, 2013
N
Historical biogeography has been characterized by a large diversity of methods and unresolved debates about which processes, such as dispersal or vicariance, are most important for explaining distributions. A new R package, BioGeoBEARS, implements many models in a common likelihood framework, so that standard statistical model selection procedures can be applied to let the data choose the best model. Available models include a likelihood version of DIVA (“DIVALIKE”), LAGRANGE’s DEC model, and BAYAREA, as well as “+J” versions of these models which include founder-event speciation, an important process left out of most inference methods. I use BioGeoBEARS on a large sample of island and non-island clades (including two fossil clades) to show that founder-event speciation is a crucial process in almost every clade, and that most published datasets reject the non-J models currently in widespread use. BioGeoBEARS is open-source and freely available for installation at the Comprehensive R Archive Network at http://CRAN.R-project.org/package=BioGeoBEARS. A step-by-step tutorial is available at http://phylo.wikidot.com/biogeobears.
0
Paper
Citation767
0
Save
0

Bayesian Analysis of Biogeography when the Number of Areas is Large

Michael Landis et al.Jun 5, 2013
J
B
N
M
Historical biogeography is increasingly studied from an explicitly statistical perspective, using stochastic models to describe the evolution of species range as a continuous-time Markov process of dispersal between and extinction within a set of discrete geographic areas. The main constraint of these methods is the computational limit on the number of areas that can be specified. We propose a Bayesian approach for inferring biogeographic history that extends the application of biogeographic models to the analysis of more realistic problems that involve a large number of areas. Our solution is based on a "data-augmentation" approach, in which we first populate the tree with a history of biogeographic events that is consistent with the observed species ranges at the tips of the tree. We then calculate the likelihood of a given history by adopting a mechanistic interpretation of the instantaneous-rate matrix, which specifies both the exponential waiting times between biogeographic events and the relative probabilities of each biogeographic change. We develop this approach in a Bayesian framework, marginalizing over all possible biogeographic histories using Markov chain Monte Carlo (MCMC). Besides dramatically increasing the number of areas that can be accommodated in a biogeographic analysis, our method allows the parameters of a given biogeographic model to be estimated and different biogeographic models to be objectively compared. Our approach is implemented in the program, BayArea.
0
Citation710
0
Save
0

Probabilistic historical biogeography: new models for founder-event speciation, imperfect detection, and fossils allow improved accuracy and model-testing

Nicholas MatzkeDec 31, 2013
N
Historical biogeography has been characterized by a large diversity of methods and unresolved debates about which processes, such as dispersal or vicariance, are most important for explaining distributions. A new R package, BioGeoBEARS, implements many models in a common likelihood framework, so that standard statistical model selection procedures can be applied to let the data choose the best model. Available models include a likelihood version of DIVA (“DIVALIKE”), LAGRANGE’s DEC model, and BAYAREA, as well as “+J” versions of these models which include founder-event speciation, an important process left out of most inference methods. I use BioGeoBEARS on a large sample of island and non-island clades (including two fossil clades) to show that founder-event speciation is a crucial process in almost every clade, and that most published datasets reject the non-J models currently in widespread use. BioGeoBEARS is open-source and freely available for installation at the Comprehensive R Archive Network at http://CRAN.R-project.org/package=BioGeoBEARS. A step-by-step tutorial is available at http://phylo.wikidot.com/biogeobears.
0

Non-null Effects of the Null Range in Biogeographic Models: Exploring Parameter Estimation in the DEC Model

Kathryn Massana et al.Sep 16, 2015
+2
N
J
K
Historical biogeography seeks to understand the distribution of biodiversity in space and time. The dispersal-extinction-cladogenesis (DEC) model, a likelihood-based model of geographic range evolution, is widely used in assessing the biogeography of clades. Robust inference of dispersal and local extinction parameters is crucial for biogeographic inference, and yet a major caveat to its use is that the DEC model severely underestimates local extinction. We suggest that this is mainly due to the way in which the model is constructed to allow observed species to transition into being present in no areas (i.e., null range). By prohibiting transitions into the null range in the transition rate matrix, we were able to better infer local extinction and support this with simulations. This modified model, DEC*, has higher model fit and model adequacy than DEC, suggesting this modification should be considered for DEC and other models of geographic range evolution.
0
Paper
Citation52
0
Save
0

Inferring node dates from tip dates in fossil Canidae: the importance of tree priors

Nicholas Matzke et al.Apr 21, 2016
A
N
Abstract Tip-dating methods are becoming popular alternatives to traditional node calibration approaches for building time-scaled phylogenetic trees, but questions remain about their application to empirical datasets. We compared the performance of the most popular methods against a dated tree of fossil Canidae derived from previously published monographs. Using a canid morphology dataset, we performed tip-dating using Beast 2.1.3 and MrBayes 3.2.5. We find that for key nodes ( Canis , ~3.2 Ma, Caninae ~11.7 Ma) a non-mechanistic model using a uniform tree prior produces estimates that are unrealistically old (27.5, 38.9 Ma). Mechanistic models (incorporating lineage birth, death, and sampling rates) estimate ages that are closely in line with prior research. We provide a discussion of these two families of models (mechanistic vs. non-mechanistic) and their applicability to fossil datasets.
0
Paper
Citation9
0
Save
6

A new method for determining ribosomal DNA copy number shows differences between Saccharomyces cerevisiae populations

Diksha Sharma et al.Jan 22, 2021
+4
K
N
D
Abstract Ribosomal DNA genes (rDNA) encode the major ribosomal RNAs (rRNA) and in eukaryotic genomes are typically present as one or more arrays of tandem repeats. Species have characteristic rDNA copy numbers, ranging from tens to thousands of copies, with the number thought to be redundant for rRNA production. However, the tandem rDNA repeats are prone to recombination-mediated changes in copy number, resulting in substantial intra-species copy number variation. There is growing evidence that these copy number differences can have phenotypic consequences. However, we lack a comprehensive understanding of what determines rDNA copy number, how it evolves, and what the consequences are, in part because of difficulties in quantifying copy number. Here, we developed a genomic sequence read approach that estimates rDNA copy number from the modal coverage of the rDNA and whole genome to help overcome limitations in quantifying copy number with existing mean coverage-based approaches. We validated our method using strains of the yeast Saccharomyces cerevisiae with previously-determined rDNA copy numbers, and then applied our pipeline to investigate rDNA copy number in a global sample of 788 yeast isolates. We found that wild yeast have a mean copy number of 92, consistent with what is reported for other fungi but much lower than in laboratory strains. We also show that different populations have different rDNA copy numbers. These differences can partially be explained by phylogeny, but other factors such as environment are also likely to contribute to population differences in copy number. Our results demonstrate the utility of the modal coverage method, and highlight the high level of rDNA copy number variation within and between populations. Author summary The ribosomal RNA gene repeats (rDNA) form large tandem repeat arrays in most eukaryote genomes. Their tandem arrangement makes the rDNA prone to copy number variation, and there is increasing evidence that this copy number variation has phenotypic consequences. However, difficulties in measuring rDNA copy number hamper investigation into rDNA copy number dynamics and their significance. Here we developed a novel bioinformatics method for measuring rDNA copy number from whole genome sequence data that is based on the modal sequence read coverage. We established parameters for optimal performance of the method and validated it using yeast strains of known rDNA copy numbers. We then applied the method to a dataset of almost 800 global yeast isolates and demonstrate that yeast populations have different rDNA copy numbers that partially correlate with phylogeny. Our work provides a simple and accurate method for determining rDNA copy number that leverages the growing number of whole genome datasets, and highlights the dynamic nature of rDNA copy number.
6
Citation5
0
Save
1

Ancestral reconstruction of the MotA stator subunit reveals that conserved residues far from the pore are required to drive flagellar motility

Md Islam et al.Oct 18, 2022
+4
A
P
M
Abstract The bacterial flagellar motor (BFM) is a rotary nanomachine powered by the translocation of ions across the inner membrane through the stator complex. The stator complex consists of two membrane proteins: MotA and MotB (in H + powered motors), or PomA and PomB (in Na + powered motors). In this study we used ancestral sequence reconstruction (ASR) to probe which residues of MotA correlate with function and may have been conserved to preserve motor function. We reconstructed ten ancestral sequences of MotA and found four of them were motile in combination with contemporary E. coli MotB and in combination with our previously published functional ancestral MotBs. Sequence comparison between wild-type (WT) E. coli MotA and MotA-ASRs revealed 30 critical residues across multiple domains of MotA that were conserved among all motile stator units. These conserved residues included pore-facing, cytoplasm-facing and MotA-MotA intermolecular facing sites. Overall, this work demonstrates the role of ASR in assessing conserved variable residues in a subunit of a molecular complex.
1
Citation3
0
Save
0

Evaluating species distribution models with discrimination accuracy is uninformative for many applications

Dan Warren et al.Jun 27, 2019
T
N
D
Species distribution models are used across evolution, ecology, conservation, and epidemiology to make critical decisions and study biological phenomena, often in cases where experimental approaches are intractable. Choices regarding optimal models, methods, and data are typically made based on discrimination accuracy: a model's ability to predict subsets of species occurrence data that were withheld during model construction. However, empirical applications of these models often involve making biological inferences based on continuous estimates of relative habitat suitability as a function of environmental predictor variables. We term the reliability of these biological inferences "functional accuracy." We explore the link between discrimination accuracy and functional accuracy. Using a simulation approach we investigate whether models that make good predictions of species distributions correctly infer the underlying relationship between environmental predictors and the suitability of habitat. We demonstrate that discrimination accuracy is only informative when models are simple and similar in structure to the true niche, or when data partitioning is geographically structured. However, the utility of discrimination accuracy for selecting models with high functional accuracy was low in all cases. These results suggest that many empirical studies and decisions are based on criteria that are unrelated to models' usefulness for their intended purpose. We argue that empirical modeling studies need to place significantly more emphasis on biological insight into the plausibility of models, and that the current approach of maximizing discrimination accuracy at the expense of other considerations is detrimental to both the empirical and methodological literature in this active field. Finally, we argue that future development of the field must include an increased emphasis on simulation; methodological studies based on ability to predict withheld occurrence data may be largely uninformative about best practices for applications where interpretation of models relies on estimating ecological processes, and will unduly penalize more biologically informative modeling approaches.
0

Tertiary-interaction characters enable fast, model-based structural phylogenetics beyond the twilight zone

Caroline Puente-Lelièvre et al.Jan 1, 2023
+10
J
A
C
Protein structure is more conserved than protein sequence, and therefore may be useful for phylogenetic inference beyond the "twilight zone" where sequence similarity is highly decayed. Until recently, structural phylogenetics was constrained by the lack of solved structures for most proteins, and the reliance on phylogenetic distance methods which made it difficult to treat inference and uncertainty statistically. AlphaFold has mostly overcome the first problem by making structural predictions readily available. We address the second problem by redeploying a structural alphabet recently developed for Foldseek, a highly-efficient deep homology search program. For each residue in a structure, Foldseek identifies a tertiary interaction closest-neighbor residue in the structure, and classifies it into one of twenty "3Di" states. We test the hypothesis that 3Dis can be used as standard phylogenetic characters using a dataset of 53 structures from the ferritin-like superfamily. We performed 60 IQtree Maximum Likelihood runs to compare structure-free, PDB, and AlphaFold analyses, and default versus custom model sets that include a 3DI-specific rate matrix. Analyses that combine amino acids, 3Di characters, partitioning, and custom models produce the closest match to the structural distances tree of Malik et al. (2020), avoiding the long-branch attraction errors of structure-free analyses. Analyses include standard ultrafast bootstrapping confidence measures, and take minutes instead of weeks to run on desktop computers. These results suggest that structural phylogenetics could soon be routine practice in protein phylogenetics, allowing the re-exploration of many fundamental phylogenetic problems.
Load More