GC
Gustavo Campos
Author with expertise in Genomic Selection in Plant and Animal Breeding
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
12
(67% Open Access)
Cited by:
3,486
h-index:
52
/
i10-index:
93
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genome-Wide Regression and Prediction with the BGLR Statistical Package

Paulino Pérez‐Rodríguez et al.Jul 9, 2014
G
P
Abstract Many modern genomic data analyses require implementing regressions where the number of parameters (p, e.g., the number of marker effects) exceeds sample size (n). Implementing these large-p-with-small-n regressions poses several statistical and computational challenges, some of which can be confronted using Bayesian methods. This approach allows integrating various parametric and nonparametric shrinkage and variable selection procedures in a unified and consistent manner. The BGLR R-package implements a large collection of Bayesian regression models, including parametric variable selection and shrinkage methods and semiparametric procedures (Bayesian reproducing kernel Hilbert spaces regressions, RKHS). The software was originally developed for genomic applications; however, the methods implemented are useful for many nongenomic applications as well. The response can be continuous (censored or not) or categorical (either binary or ordinal). The algorithm is based on a Gibbs sampler with scalar updates and the implementation takes advantage of efficient compiled C and Fortran routines. In this article we describe the methods implemented in BGLR, present examples of the use of the package, and discuss practical issues emerging in real-data analysis.
0

Prediction of Genetic Values of Quantitative Traits in Plant Breeding Using Pedigree and Molecular Markers

José Crossa et al.Sep 3, 2010
+10
P
G
J
Abstract The availability of dense molecular markers has made possible the use of genomic selection (GS) for plant breeding. However, the evaluation of models for GS in real plant populations is very limited. This article evaluates the performance of parametric and semiparametric models for GS using wheat (Triticum aestivum L.) and maize (Zea mays) data in which different traits were measured in several environmental conditions. The findings, based on extensive cross-validations, indicate that models including marker information had higher predictive ability than pedigree-based models. In the wheat data set, and relative to a pedigree model, gains in predictive ability due to inclusion of markers ranged from 7.7 to 35.7%. Correlation between observed and predictive values in the maize data set achieved values up to 0.79. Estimates of marker effects were different across environmental conditions, indicating that genotype × environment interaction is an important component of genetic variability. These results indicate that GS in plant breeding can be an effective strategy for selecting among lines whose phenotypes have yet to be observed.
0
Citation706
0
Save
0

Predicting Quantitative Traits With Regression Models for Dense Molecular Markers and Pedigree

Gustavo Campos et al.Mar 18, 2009
+5
K
E
G
Abstract The availability of genomewide dense markers brings opportunities and challenges to breeding programs. An important question concerns the ways in which dense markers and pedigrees, together with phenotypic records, should be used to arrive at predictions of genetic values for complex traits. If a large number of markers are included in a regression model, marker-specific shrinkage of regression coefficients may be needed. For this reason, the Bayesian least absolute shrinkage and selection operator (LASSO) (BL) appears to be an interesting approach for fitting marker effects in a regression model. This article adapts the BL to arrive at a regression model where markers, pedigrees, and covariates other than markers are considered jointly. Connections between BL and other marker-based regression models are discussed, and the sensitivity of BL with respect to the choice of prior distributions assigned to key parameters is evaluated using simulation. The proposed model was fitted to two data sets from wheat and mouse populations, and evaluated using cross-validation methods. Results indicate that inclusion of markers in the regression further improved the predictive ability of models. An R program that implements the proposed model is freely available.
0
Citation566
0
Save
0

Genomic Prediction of Breeding Values when Modeling Genotype × Environment Interaction using Pedigree and Dense Molecular Markers

Juan Burgueño et al.Mar 1, 2012
J
K
G
J
ABSTRACT Genomic selection (GS) has become an important aid in plant and animal breeding. Multienvironment (multitrait) models allow borrowing of information across environments (traits), which could enhance prediction accuracy. This study presents multienvironment (multitrait) models for GS and compares the predictive accuracy of these models with: (i) multienvironment analysis without pedigree and marker information, and (ii) multienvironment pedigree or/and marker‐based models. A statistical framework for incorporating pedigree and molecular marker information in models for multienvironment data is described and applied to data that originate from wheat ( Triticum aestivum L.) multienvironment trials. Two prediction problems relevant to plant breeders are considered: (CV1) predicting the performance of untested genotypes (“newly” developed lines), and (CV2) predicting the performance of genotypes that have been evaluated in some environments but not in others. Results confirmed the superiority of models using both marker and pedigree information over those based on pedigree information only. Models with pedigree and/or markers had better predictive accuracy than simple linear mixed models that do not include either of these two sources of information. We concluded that the evaluation of such trials can benefit greatly from using multienvironment GS models.
0
Citation518
0
Save
0

A reaction norm model for genomic selection using high-dimensional genomic and environmental data

Diego Jarquín et al.Dec 11, 2013
+9
X
J
D
New methods that incorporate the main and interaction effects of high-dimensional markers and of high-dimensional environmental covariates gave increased prediction accuracy of grain yield in wheat across and within environments. In most agricultural crops the effects of genes on traits are modulated by environmental conditions, leading to genetic by environmental interaction (G × E). Modern genotyping technologies allow characterizing genomes in great detail and modern information systems can generate large volumes of environmental data. In principle, G × E can be accounted for using interactions between markers and environmental covariates (ECs). However, when genotypic and environmental information is high dimensional, modeling all possible interactions explicitly becomes infeasible. In this article we show how to model interactions between high-dimensional sets of markers and ECs using covariance functions. The model presented here consists of (random) reaction norm where the genetic and environmental gradients are described as linear functions of markers and of ECs, respectively. We assessed the proposed method using data from Arvalis, consisting of 139 wheat lines genotyped with 2,395 SNPs and evaluated for grain yield over 8 years and various locations within northern France. A total of 68 ECs, defined based on five phases of the phenology of the crop, were used in the analysis. Interaction terms accounted for a sizable proportion (16 %) of the within-environment yield variance, and the prediction accuracy of models including interaction terms was substantially higher (17-34 %) than that of models based on main effects only. Breeding for target environmental conditions has become a central priority of most breeding programs. Methods, like the one presented here, that can capitalize upon the wealth of genomic and environmental information available, will become increasingly important.
0
Citation490
0
Save
0

A conserved phenylalanine motif among Teleost fish provides insight for improving electromagnetic perception.

Brianna Ricker et al.Apr 4, 2024
+2
G
E
B
Magnetoreceptive biology as a field remains relatively obscure; compared to the breadth of species believed to sense magnetic fields, it remains under-studied. Here, we present grounds for the expansion of magnetoreception studies among Teleosts. We begin with the electromagnetic perceptive gene (EPG) from
0
Citation1
0
Save
0

A conserved phenylalanine motif among teleost fish provides insight for improving electromagnetic perception

Brianna Ricker et al.Jul 1, 2024
+2
G
E
B
Magnetoreceptive biology as a field remains relatively obscure; compared with the breadth of species believed to sense magnetic fields, it remains under-studied. Here, we present grounds for the expansion of magnetoreception studies among teleosts. We begin with the electromagnetic perceptive gene (EPG) from Kryptopterus vitreolus and expand to identify 72 teleosts with homologous proteins containing a conserved three-phenylalanine (3F) motif. Phylogenetic analysis provides insight as to how EPG may have evolved over time and indicates that certain clades may have experienced a loss of function driven by different fitness pressures. One potential factor is water type with freshwater fish significantly more likely to possess the functional motif version (FFF), and saltwater fish to have the non-functional variant (FXF). It was also revealed that when the 3F motif from the homologue of Brachyhypopomus gauderio (B.g.) is inserted into EPG—EPG(B.g.)—the response (as indicated by increased intracellular calcium) is faster. This indicates that EPG has the potential to be engineered to improve upon its response and increase its utility to be used as a controller for specific outcomes.
0
Citation1
0
Save
0

Benchmarking algorithms for genomic prediction of complex traits

Christina Azodi et al.Apr 20, 2019
+2
M
A
C
The usefulness of Genomic Prediction (GP) in crop and livestock breeding programs has led to efforts to develop new and improved GP approaches including non-linear algorithm, such as artificial neural networks (ANN) (i.e. deep learning) and gradient tree boosting. However, the performance of these algorithms has not been compared in a systematic manner using a wide range of GP datasets and models. Using data of 18 traits across six plant species with different marker densities and training population sizes, we compared the performance of six linear and five non-linear algorithms, including ANNs. First, we found that hyperparameter selection was critical for all non-linear algorithms and that feature selection prior to model training was necessary for ANNs when the markers greatly outnumbered the number of training lines. Across all species and trait combinations, no one algorithm performed best, however predictions based on a combination of results from multiple GP algorithms (i.e. ensemble predictions) performed consistently well. While linear and non-linear algorithms performed best for a similar number of traits, the performance of non-linear algorithms vary more between traits than that of linear algorithms. Although ANNs did not perform best for any trait, we identified strategies (i.e. feature selection, seeded starting weights) that boosted their performance near the level of other algorithms. These results, together with the fact that even small improvements in GP performance could accumulate into large genetic gains over the course of a breeding program, highlights the importance of algorithm selection for the prediction of trait values.
0

HaploBlocker: Creation of subgroup specific haplotype blocks and libraries

Torsten Pook et al.Jun 19, 2018
+3
G
M
T
The concept of haplotype blocks has been shown to be useful in genetics. Fields of application range from the detection of regions under positive selection to statistical methods that make use of dimension reduction. We propose a novel approach ("HaploBlocker") for defining and inferring haplotype blocks that focuses on linkage instead of the commonly used population-wide measures of linkage disequilibrium. We define a haplotype block as a sequence of genetic markers that has a predefined minimum frequency in the population and only haplotypes with a similar sequence of markers are considered to carry that block, effectively screening a dataset for group-wise identity-by-descent. From these haplotype blocks we construct a haplotype library that represents a large proportion of genetic variability with a limited number of blocks. Our method is implemented in the associated R-package HaploBlocker and provides flexibility to not only optimize the structure of the obtained haplotype library for subsequent analyses, but is also able to handle datasets of different marker density and genetic diversity. By using haplotype blocks instead of SNPs, local epistatic interactions can be naturally modelled and the reduced number of parameters enables a wide variety of new methods for further genomic analyses such as genomic prediction and the detection of selection signatures. We illustrate our methodology with a dataset comprising 501 doubled haploid lines in a European maize landrace genotyped at 501'124 SNPs. With the suggested approach, we identified 2'991 haplotype blocks with an average length of 2'685 SNPs that together represent 94% of the dataset.
0

Deciphering sex-specific genetic architectures using local Bayesian regressions

Scott Funkhouser et al.May 31, 2019
+2
J
A
S
Many complex human traits exhibit differences between sexes. While numerous factors likely contribute to this phenomenon, growing evidence from genome-wide studies suggest a partial explanation: that males and females from the same population possess differing genetic architectures. Despite this, mapping gene-by-sex (GxS) interactions remains a challenge likely because the magnitude of such an interaction is typically and exceedingly small; traditional genome-wide association techniques may be underpowered to detect such events partly due to the burden of multiple test correction. Here, we developed a local Bayesian regression (LBR) method to estimate sex-specific SNP marker effects after fully accounting for local linkage-disequilibrium (LD) patterns. This enabled us to infer sex-specific effects and GxS interactions either at the single SNP level, or by aggregating the effects of multiple SNPs to make inferences at the level of small LD-based regions. Using simulations in which there was imperfect LD between SNPs and causal variants, we showed that aggregating sex-specific marker effects with LBR provides improved power and resolution to detect GxS interactions over traditional single-SNP-based tests. When using LBR to analyze traits from the UK Biobank, we detected a relatively large GxS interaction impacting bone-mineral density within ABO and replicated many previously detected large-magnitude GxS interactions impacting waist-to-hip ratio. We also discovered many new GxS interactions impacting such traits as height and BMI within regions of the genome where both male- and female-specific effects explain a small proportion of phenotypic variance (R2 < 1x10-4), but are enriched in known expression quantitative trait loci. By combining biobank-level data and techniques to estimate sex-specific SNP effects after accounting for local-LD patterns, we are providing evidence that numerous small-magnitude GxS interactions exist to influence sex differences in a variety of complex traits.
Load More