DM
Diogo Meyer
Author with expertise in Regulatory T Cell Development and Function
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(38% Open Access)
Cited by:
14
h-index:
33
/
i10-index:
68
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Whole-genome sequencing of 1,171 elderly admixed individuals from the largest Latin American metropolis (São Paulo, Brazil)

Michel Naslavsky et al.Sep 16, 2020
Abstract As whole-genome sequencing (WGS) becomes the gold standard tool for studying population genomics and medical applications, data on diverse non-European and admixed individuals are still scarce. Here, we present a high-coverage WGS dataset of 1,171 highly admixed elderly Brazilians from a census-based cohort, providing over 76 million variants, of which ~2 million are absent from large public databases. WGS enabled identifying ~2,000 novel mobile element insertions, nearly 5Mb of genomic segments absent from human genome reference, and over 140 novel alleles from HLA genes. We reclassified and curated nearly four hundred variant's pathogenicity assertions in genes associated with dominantly inherited Mendelian disorders and calculated the incidence for selected recessive disorders, demonstrating the clinical usefulness of the present study. Finally, we observed that whole-genome and HLA imputation could be significantly improved compared to available datasets since rare variation represents the largest proportion of input from WGS. These results demonstrate that even smaller sample sizes of underrepresented populations bring relevant data for genomic studies, especially when exploring analyses allowed only by WGS.
1
Citation14
0
Save
0

Mapping bias overestimates reference allele frequencies at the HLA genes in the 1000 Genomes Project phase I data

Débora Brandt et al.Dec 23, 2014
Next Generation Sequencing (NGS) technologies have become the standard for data generation in studies of population genomics, as the 1000 Genomes Project (1000G). However, these techniques are known to be problematic when applied to highly polymorphic genomic regions, such as the Human Leukocyte Antigen (HLA) genes. Because accurate genotype calls and allele frequency estimations are crucial to population genomics analises, it is important to assess the reliability of NGS data. Here, we evaluate the reliability of genotype calls and allele frequency estimates of the SNPs reported by 1000G (phase I) at five HLA genes (HLA-A, -B, -C, -DRB1, -DQB1 ). We take advantage of the availability of HLA Sanger sequencing of 930 of the 1,092 1000G samples, and use this as a gold standard to benchmark the 1000G data. We document that 18.6% of SNP genotype calls in HLA genes are incorrect, and that allele frequencies are estimated with an error higher than ??0.1 at approximately 25% of the SNPs in HLA genes. We found a bias towards overestimation of reference allele frequency for the 1000G data, indicating mapping bias is an important cause of error in frequency estimation in this dataset. We provide a list of sites that have poor allele frequency estimates, and discuss the outcomes of including those sites in different kinds of analyses. Since the HLA region is the most polymorphic in the human genome, our results provide insights into the challenges of using of NGS data at other genomic regions of high diversity.
0

Expression estimation and eQTL mapping for HLA genes with a personalized pipeline

Vitor Aguiar et al.Jul 10, 2018
The HLA (Human Leukocyte Antigens) genes are well-documented targets of balancing selection, and variation at these loci is associated with many disease phenotypes. Variation in expression levels also influences disease susceptibility and resistance, but little information exists about the regulation and population-level patterns of expression due to the difficulty in mapping short reads to these highly polymorphic loci, and in accounting for the existence of several paralogues. We developed a computational pipeline to accurately estimate expression for HLA genes based on RNA-seq, improving both locus-level and allele-level estimates. First, reads are aligned to all known HLA sequences in order to infer HLA genotypes, then quantification of expression is carried out using a personalized index. We use simulations to show that expression estimates are not biased due to divergence from the reference genome. We applied our pipeline to GEUVADIS dataset, and compared the quantifications to those obtained with reference transcriptome, and found that a substantial portion of the variation captured by the HLA-personalized index in not captured by the standard index (23%). We describe the impact of the HLA-personalized approach on downstream analyses for seven HLA loci (HLA-A, HLA-B, HLA-C, HLA-DPB1, HLA-DQA1, HLA-DQB1, HLA- DRB1). Although the influence of the HLA-personalized approach is modest for eQTL mapping, the p-values and the causality of the eQTLs obtained are better than when the reference transcriptome is used. Finally, we integrate information on HLA-allele level expression with the eQTL findings to show that the HLA allele is an important layer of variation to understand HLA regulation.
0

Population Differentiation at the HLA Genes

Débora Brandt et al.Nov 6, 2017
Balancing selection is defined as a class of selective regimes that maintain polymorphism above what is expected under neutrality. Theory predicts that balancing selection reduces population differentiation, as measured by Fst. However, balancing selection regimes in which different sets of alleles are maintained in different populations could increase population differentiation. To tackle this issue, we investigated population differentiation at the HLA genes, which constitute the most striking example of balancing selection in humans. We found that population differentiation of single nucleotide polymorphisms (SNPs) at the HLA genes is on average lower than that of SNPs in other genomic regions. However, this result depends on accounting for the differences in allele frequency between selected and putatively neutral sites. Our finding of reduced differentiation at SNPs within HLA genes suggests a predominant role of shared selective pressures among populations at a global scale. However, in pairs of closely related populations, where genome-wide differentiation is low, differentiation at HLA is higher than in other genomic regions. This pattern was reproduced in simulations of overdominant selection. We conclude that population differentiation at the HLA genes is generally lower than genome-wide, but it may be higher for recently diverged population pairs, and that this pattern can be explained by a simple overdominance regime.
3

Population structure in the MHC region

André Maróstica et al.Oct 26, 2021
Abstract In his 1972 “The apportionment of human diversity”, Lewontin showed that, when averaged over loci, genetic diversity is predominantly attributable to differences among individuals within populations. However, selection on specific genes and genomic regions can alter the apportionment of diversity. We examine genetic diversity at the HLA loci, located within the MHC region. HLA genes code for proteins that are critical to adaptive immunity and are well-documented targets of balancing selection. The SNPs within HLA genes show strong signatures of balancing selection on large timescales and are broadly shared among populations, with low F ST values. However, when we analyze haplotypes defined by these SNPs (i.e., which define “HLA alleles”), we find marked differences in frequencies between geographic regions. These differences are not reflected in the F ST values because of the extreme polymorphism at HLA loci, illustrating challenges in interpreting F ST . Differences in the frequency of HLA alleles among geographic regions are relevant to bone-marrow transplantation, which requires genetic identity at HLA loci between patient and donor. We explore the case of Brazil’s bone-marrow registry, where a deficit of enrolled volunteers with African ancestry reduces the chance of finding donors for individuals with an MHC region of African ancestry.
0

Heterogeneity of dN/dS ratios at the classical HLA class I genes over divergence time and across the allelic phylogeny

Bárbara Bitarello et al.Aug 22, 2014
The classical class I HLA loci of humans show an excess of nonsynonymous with respect to synonymous substitutions at codons of the antigen recognition site (ARS), a hallmark of adaptive evolution. Additionally, high polymporphism, linkage disequilibrium and disease associations suggest that one or more balancing selection regimes have acted upon these genes. However, several questions about these selective regimes remain open. First, it is unclear if stronger evidence for selection on deep timescales is due to changes in the intensity of selection over time or to a lack of power of most methods to detect selection on recent timescales. Another question concerns the functional entities which define the selected phenotype. While most analysis focus on selection acting on individual alleles, it is also plausible that phylogenetically defined groups of alleles (“lineages”) are targets of selection. To address these questions we analyzed how dN/dS (ω) varies with respect to divergence times between alleles and phylogenetic placement (position of branches). We find that ω for ARS codons of class I HLA genes increases with divergence time and is higher for inter-lineage branches. Throughout our analyses, we used non-selected codons to control for possible effects of inflation of ω associated to intra-specific analysis, and showed that our results are not artifactual. Our findings indicate the importance of considering the timescale effect when analysing ω over a wide spectrum of divergences. Finally, our results support the divergent allele advantage model, whereby heterozygotes with more divergent alleles have higher fitness than those carrying similar alleles.
0

Signatures of long-term balancing selection in human genomes

Bárbara Bitarello et al.Mar 22, 2017
Balancing selection maintains advantageous diversity in populations through various mechanisms. While extensively explored from a theoretical perspective, an empirical understanding of its prevalence and targets lags behind our knowledge of positive selection. Here we describe the Non- Central Deviation (NCD), a simple yet powerful statistic to detect long-term balancing selection (LTBS) that quantifies how close frequencies are to expectations under LTBS, and provides the basis for a neutrality test. NCD can be applied to a single locus or genomic data, and can be implemented considering only polymorphisms (NCD1) or also considering fixed differences with respect to an outgroup (NCD2) species. Incorporating fixed differences improves power, and NCD2 has higher power to detect LTBS in humans under different frequencies of the balanced allele(s) than other available methods. Applied to genome-wide data from African and European human populations, in both cases using chimpanzee as an outgroup, NCD2 shows that, albeit not prevalent, LTBS affects a sizable portion of the genome: about 0.6% of analyzed genomic windows and 0.8% of analyzed positions. Significant windows (p < 0.0001) contain 1.6% of SNPs in the genome, which disproportionally fall within exons and change protein sequence, but are not enriched in putatively regulatory sites. These windows overlap about 8% of the protein-coding genes, and these have larger number of transcripts than expected by chance even after controlling for gene length. Our catalog includes known targets of LTBS but a majority of them (90%) are novel. As expected, immune- related genes are among those with the strongest signatures, although most candidates are involved in other biological functions, suggesting that LTBS potentially influences diverse human phenotypes.
0

A multi‐ethnic reference panel to impute HLA classical and non‐classical class I alleles in admixed samples: Testing imputation accuracy in an admixed sample from Brazil

Nayane Silva et al.Jun 1, 2024
The MHC class I region contains crucial genes for the innate and adaptive immune response, playing a key role in susceptibility to many autoimmune and infectious diseases. Genome-wide association studies have identified numerous disease-associated SNPs within this region. However, these associations do not fully capture the immune-biological relevance of specific HLA alleles. HLA imputation techniques may leverage available SNP arrays by predicting allele genotypes based on the linkage disequilibrium between SNPs and specific HLA alleles. Successful imputation requires diverse and large reference panels, especially for admixed populations. This study employed a bioinformatics approach to call SNPs and HLA alleles in multi-ethnic samples from the 1000 genomes (1KG) dataset and admixed individuals from Brazil (SABE), utilising 30X whole-genome sequencing data. Using HIBAG, we created three reference panels: 1KG (n = 2504), SABE (n = 1171), and the full model (n = 3675) encompassing all samples. In extensive cross-validation of these reference panels, the multi-ethnic 1KG reference exhibited overall superior performance than the reference with only Brazilian samples. However, the best results were achieved with the full model. Additionally, we expanded the scope of imputation by developing reference panels for non-classical, MICA, MICB and HLA-H genes, previously unavailable for multi-ethnic populations. Validation in an independent Brazilian dataset showcased the superiority of our reference panels over the Michigan Imputation Server, particularly in predicting HLA-B alleles among Brazilians. Our investigations underscored the need to enhance or adapt reference panels to encompass the target population's genetic diversity, emphasising the significance of multiethnic references for accurate imputation across different populations.