JM
Javier Mendoza‐Revilla
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(80% Open Access)
Cited by:
24
h-index:
13
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Dissecting human population variation in single-cell responses to SARS-CoV-2

Yann Aquino et al.Aug 9, 2023
+28
Z
A
Y
Humans display substantial interindividual clinical variability after SARS-CoV-2 infection1-3, the genetic and immunological basis of which has begun to be deciphered4. However, the extent and drivers of population differences in immune responses to SARS-CoV-2 remain unclear. Here we report single-cell RNA-sequencing data for peripheral blood mononuclear cells-from 222 healthy donors of diverse ancestries-that were stimulated with SARS-CoV-2 or influenza A virus. We show that SARS-CoV-2 induces weaker, but more heterogeneous, interferon-stimulated gene activity compared with influenza A virus, and a unique pro-inflammatory signature in myeloid cells. Transcriptional responses to viruses display marked population differences, primarily driven by changes in cell abundance including increased lymphoid differentiation associated with latent cytomegalovirus infection. Expression quantitative trait loci and mediation analyses reveal a broad effect of cell composition on population disparities in immune responses, with genetic variants exerting a strong effect on specific loci. Furthermore, we show that natural selection has increased population differences in immune responses, particularly for variants associated with SARS-CoV-2 response in East Asians, and document the cellular and molecular mechanisms by which Neanderthal introgression has altered immune functions, such as the response of myeloid cells to viruses. Finally, colocalization and transcriptome-wide association analyses reveal an overlap between the genetic basis of immune responses to SARS-CoV-2 and COVID-19 severity, providing insights into the factors contributing to current disparities in COVID-19 risk.
1
Citation14
1
Save
0

A foundational large language model for edible plant genomes

Javier Mendoza‐Revilla et al.Jul 9, 2024
+11
L
E
J
Abstract Significant progress has been made in the field of plant genomics, as demonstrated by the increased use of high-throughput methodologies that enable the characterization of multiple genome-wide molecular phenotypes. These findings have provided valuable insights into plant traits and their underlying genetic mechanisms, particularly in model plant species. Nonetheless, effectively leveraging them to make accurate predictions represents a critical step in crop genomic improvement. We present AgroNT, a foundational large language model trained on genomes from 48 plant species with a predominant focus on crop species. We show that AgroNT can obtain state-of-the-art predictions for regulatory annotations, promoter/terminator strength, tissue-specific gene expression, and prioritize functional variants. We conduct a large-scale in silico saturation mutagenesis analysis on cassava to evaluate the regulatory impact of over 10 million mutations and provide their predicted effects as a resource for variant characterization. Finally, we propose the use of the diverse datasets compiled here as the Plants Genomic Benchmark (PGB), providing a comprehensive benchmark for deep learning-based methods in plant genomic research. The pre-trained AgroNT model is publicly available on HuggingFace at https://huggingface.co/InstaDeepAI/agro-nucleotide-transformer-1b for future research purposes.
0
Citation3
0
Save
37

Disentangling signatures of selection before and after European colonization in Latin Americans

Javier Mendoza‐Revilla et al.Nov 19, 2021
+36
R
W
J
Abstract Throughout human evolutionary history, large-scale migrations have led to intermixing (i.e., admixture) between previously separated human groups. While classical and recent work have shown that studying admixture can yield novel historical insights, the extent to which this process contributed to adaptation remains underexplored. Here, we introduce a novel statistical model, specific to admixed populations, that identifies loci under selection while determining whether the selection likely occurred post-admixture or prior to admixture in one of the ancestral source populations. Through extensive simulations we show that this method is able to detect selection, even in recently formed admixed populations, and to accurately differentiate between selection occurring in the ancestral or admixed population. We apply this method to genome-wide SNP data of ~4,000 individuals in five admixed Latin American cohorts from Brazil, Chile, Colombia, Mexico and Peru. Our approach replicates previous reports of selection in the HLA region that are consistent with selection post-admixture. We also report novel signals of selection in genomic regions spanning 47 genes, reinforcing many of these signals with an alternative, commonly-used local-ancestry-inference approach. These signals include several genes involved in immunity, which may reflect responses to endemic pathogens of the Americas and to the challenge of infectious disease brought by European contact. In addition, some of the strongest signals inferred to be under selection in the Native American ancestral groups of modern Latin Americans overlap with genes implicated in energy metabolism phenotypes, plausibly reflecting adaptations to novel dietary sources available in the Americas.
37
Citation3
0
Save
1

Environmental and genetic drivers of population differences in SARS-CoV-2 immune responses

Yann Aquino et al.Nov 22, 2022
+29
C
M
Y
Abstract Humans display vast clinical variability upon SARS-CoV-2 infection 1–3 , partly due to genetic and immunological factors 4 . However, the magnitude of population differences in immune responses to SARS-CoV-2 and the mechanisms underlying such variation remain unknown. Here we report single-cell RNA-sequencing data for peripheral blood mononuclear cells from 222 healthy donors of various ancestries stimulated with SARS-CoV-2 or influenza A virus. We show that SARS-CoV-2 induces a weaker, but more heterogeneous interferon-stimulated gene activity than influenza A virus, and a unique pro-inflammatory signature in myeloid cells. We observe marked population differences in transcriptional responses to viral exposure that reflect environmentally induced cellular heterogeneity, as illustrated by higher rates of cytomegalovirus infection, affecting lymphoid cells, in African-descent individuals. Expression quantitative trait loci and mediation analyses reveal a broad effect of cell proportions on population differences in immune responses, with genetic variants having a narrower but stronger effect on specific loci. Additionally, natural selection has increased immune response differentiation across populations, particularly for variants associated with SARS-CoV-2 responses in East Asians. We document the cellular and molecular mechanisms through which Neanderthal introgression has altered immune functions, such as its impact on the myeloid response in Europeans. Finally, colocalization analyses reveal an overlap between the genetic architecture of immune responses to SARS-CoV-2 and COVID-19 severity. Collectively, these findings suggest that adaptive evolution targeting immunity has also contributed to current disparities in COVID-19 risk.
1
Citation2
0
Save
41

The genomic landscape of contemporary western Remote Oceanians

Lara Arauna et al.Jan 10, 2022
+12
J
J
L
SUMMARY The Vanuatu archipelago served as a gateway to Remote Oceania during one of the most extensive human migrations to uninhabited lands, ~3,000 years ago. Ancient DNA studies suggest an initial settlement by East Asian-related peoples that was quickly followed by the arrival of Papuan-related populations, leading to a major population turnover. Yet, there is uncertainty over the population processes and the sociocultural factors that have shaped the genomic diversity of ni-Vanuatu, who present nowadays among the world’s highest linguistic and cultural diversity. Here, we report new genome-wide data for 1,433 contemporary ni-Vanuatu from 29 different islands, including 287 couples. We find that ni-Vanuatu derive their East Asian- and Papuan-related ancestry from the same source populations and descend from relatively synchronous, sex-biased admixture events that occurred ~1,700-2,300 years ago, indicating a peopling history common to all the archipelago. However, East Asian-related ancestry proportions differ markedly across islands, suggesting that the Papuan-related population turnover was geographically uneven. Furthermore, we detect Polynesian ancestry arriving ~600-1,000 years ago to South Vanuatu in both Polynesian- and non-Polynesian-speaking populations. Lastly, we provide evidence for a tendency of spouses to carry similar genetic ancestry, when accounting for relatedness avoidance. The signal is not driven by strong genetic effects of specific loci or trait-associated variants, suggesting that it results instead from social assortative mating. Altogether, our findings provide insight into both the genetic history of ni-Vanuatu populations and how sociocultural processes have shaped the diversity of their genomes.
41
Citation1
0
Save
0

A Foundational Large Language Model for Edible Plant Genomes

Javier Mendoza‐Revilla et al.Oct 27, 2023
+11
L
E
J
Significant progress has been made in the field of plant genomics, as demonstrated by the increased use of high-throughput methodologies that enable the characterization of multiple genome-wide molecular phenotypes. These findings have provided valuable insights into plant traits and their underlying genetic mechanisms, particularly in model plant species. Nonetheless, effectively leveraging them to make accurate predictions represents a critical step in crop genomic improvement. We present AgroNT, a foundational large language model trained on genomes from 48 plant species with a predominant focus on crop species. We show that AgroNT can obtain state-of-the-art predictions for regulatory annotations, promoter/terminator strength, tissue-specific gene expression, and prioritize functional variants. We conduct a large-scale in silico saturation mutagenesis analysis on cassava to evaluate the regulatory impact of over 10 million mutations and provide their predicted effects as a resource for variant characterization. Finally, we propose the use of the diverse datasets compiled here as the Plants Genomic Benchmark (PGB), providing a comprehensive benchmark for deep learning-based methods in plant genomic research. The pre-trained AgroNT model is publicly available on HuggingFace at https://huggingface.co/InstaDeepAI/agro-nucleotide-transformer-1b for future research purposes.
0
Citation1
0
Save
0

The Nucleotide Transformer: Building and Evaluating Robust Foundation Models for Human Genomics

Hugo Dalla-Torre et al.Jan 1, 2023
+13
L
G
H
Closing the gap between measurable genetic information and observable traits is a longstanding challenge in genomics. Yet, the prediction of molecular phenotypes from DNA sequences alone remains limited and inaccurate, often driven by the scarcity of annotated data and the inability to transfer learnings between prediction tasks. Here, we present an extensive study of foundation models pre-trained on DNA sequences, named the Nucleotide Transformer, ranging from 50M up to 2.5B parameters and integrating information from 3,202 diverse human genomes, as well as 850 genomes selected across diverse phyla, including both model and non-model organisms. These transformer models yield transferable, context-specific representations of nucleotide sequences, which allow for accurate molecular phenotype prediction even in low-data settings. We show that the developed models can be fine-tuned at low cost and despite low available data regime to solve a variety of genomics applications. Despite no supervision, the transformer models learned to focus attention on key genomic elements, including those that regulate gene expression, such as enhancers. Lastly, we demonstrate that utilizing model representations can improve the prioritization of functional genetic variants. The training and application of foundational models in genomics explored in this study provide a widely applicable stepping stone to bridge the gap of accurate molecular phenotype prediction from DNA sequence. Code and weights available at: https://github.com/instadeepai/nucleotide-transformer in Jax and https://huggingface.co/InstaDeepAI in Pytorch. Example notebooks to apply these models to any downstream task are available on https://huggingface.co/docs/transformers/notebooks#pytorch-bio.
0

SegmentNT: annotating the genome at single-nucleotide resolution with DNA foundation models

Bernardo Almeida et al.Mar 15, 2024
+12
G
H
B
Foundation models have achieved remarkable success in several fields such as natural language processing, computer vision and more recently biology. DNA foundation models in particular are emerging as a promising approach for genomics. However, so far no model has delivered granular, nucleotide-level predictions across a wide range of genomic and regulatory elements, limiting its practical usefulness. In this paper, we build on our previous work on the Nucleotide Transformer (NT) to develop a segmentation model, SegmentNT, that processes input DNA sequences up to 30kb length to predict 14 different classes of genomics elements at single nucleotide resolution. By utilizing pre-trained weights from NT, SegmentNT surpasses the performance of several ablation models, including convolution networks with one-hot encoded nucleotide sequences and models trained from scratch. SegmentNT can process multiple sequence lengths with zero-shot generalization for sequences of up to 50kb. We show improved performance on the detection of splice sites throughout the genome and demonstrate strong nucleotide-level precision. Because it evaluates all gene elements simultaneously, SegmentNT can predict the impact of sequence variants not only on splice site changes but also on exon and intron rearrangements in transcript isoforms. Finally, we show that a SegmentNT model trained on human genomics elements can generalize to elements of different species and that a trained multispecies SegmentNT model achieves stronger generalization for all genic elements on unseen species. In summary, SegmentNT demonstrates that DNA foundation models can tackle complex, granular tasks in genomics at a single-nucleotide resolution. SegmentNT can be easily extended to additional genomics elements and species, thus representing a new paradigm on how we analyze and interpret DNA. We make our SegmentNT-30kb human and multispecies models available on our github repository in Jax and HuggingFace space in Pytorch.
0
0
Save
1

Prediction of Eye, Hair and Skin Color in Admixed Populations of Latin America

Sagnik Palmal et al.Dec 10, 2020
+33
P
R
S
Abstract We report an evaluation of prediction accuracy for eye, hair and skin pigmentation based on genomic and phenotypic data for over 6,500 admixed Latin Americans (the CANDELA dataset). We examined the impact on prediction accuracy of three main factors: (i) The methods of prediction, including classical statistical methods and machine learning approaches, (ii) The inclusion of non-genetic predictors, continental genetic ancestry and pigmentation SNPs in the prediction models, and (iii) Compared two sets of pigmentation SNPs: the commonly-used HIrisPlex-S set (developed in Europeans) and novel SNP sets we defined here based on genome-wide association results in the CANDELA sample. We find that Random Forest or regression are globally the best performing methods. Although continental genetic ancestry has substantial power for prediction of pigmentation in Latin Americans, the inclusion of pigmentation SNPs increases prediction accuracy considerably, particularly for skin color. For hair and eye color, HIrisPlex-S has a similar performance to the CANDELA-specific prediction SNP sets. However, for skin pigmentation the performance of HIrisPlex-S is markedly lower than the SNP set defined here, including predictions in an independent dataset of Native American data. These results reflect the relatively high variation in hair and eye color among Europeans for whom HIrisPlex-S was developed, whereas their variation in skin pigmentation is comparatively lower. Furthermore, we show that the dataset used in the training of prediction models strongly impacts on the portability of these models across Europeans and Native Americans.
0

Latin Americans show wide-spread Converso ancestry and the imprint of local Native ancestry on physical appearance

Juan Chacón-Duque et al.Jan 23, 2018
+52
M
K
J
Historical records and genetic analyses indicate that Latin Americans trace their ancestry mainly to the admixture of Native Americans, Europeans and Sub-Saharan Africans. Using novel haplotype-based methods here we infer the sub-populations involved in admixture for over 6,500 Latin Americans and evaluate the impact of sub-continental ancestry on the physical appearance of these individuals. We find that pre-Columbian Native genetic structure is mirrored in Latin Americans and that sources of non-Native ancestry, and admixture timings, match documented migratory flows. We also detect South/East Mediterranean ancestry across Latin America, probably stemming from the clandestine colonial migration of Christian converts of non-European origin (Conversos). Furthermore, we find that Central Andean ancestry impacts on variation of facial features in Latin Americans, particularly nose morphology, possibly relating to environmental adaptation during the evolution of Native Americans.