BH
Bjarni Halldórsson
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
deCODE Genetics (Iceland), Reykjavík University, Amgen (Germany)
+ 10 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
17
(53% Open Access)
Cited by:
74
h-index:
58
/
i10-index:
99
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Large-scale plasma proteomics comparisons through genetics and disease associations

Grímur Eldjárn et al.Mar 10, 2024
+30
S
E
G
High-throughput proteomics platforms measuring thousands of proteins in plasma combined with genomic and phenotypic information have the power to bridge the gap between the genome and diseases. Here we performed association studies of Olink Explore 3072 data generated by the UK Biobank Pharma Proteomics Project1 on plasma samples from more than 50,000 UK Biobank participants with phenotypic and genotypic data, stratifying on British or Irish, African and South Asian ancestries. We compared the results with those of a SomaScan v4 study on plasma from 36,000 Icelandic people2, for 1,514 of whom Olink data were also available. We found modest correlation between the two platforms. Although cis protein quantitative trait loci were detected for a similar absolute number of assays on the two platforms (2,101 on Olink versus 2,120 on SomaScan), the proportion of assays with such supporting evidence for assay performance was higher on the Olink platform (72% versus 43%). A considerable number of proteins had genomic associations that differed between the platforms. We provide examples where differences between platforms may influence conclusions drawn from the integration of protein levels with the study of diseases. We demonstrate how leveraging the diverse ancestries of participants in the UK Biobank helps to detect novel associations and refine genomic location. Our results show the value of the information provided by the two most commonly used high-throughput proteomics platforms and demonstrate the differences between them that at times provides useful complementarity.
0
Paper
Citation45
-1
Save
193

The sequences of 150,119 genomes in the UK biobank

Bjarni Halldórsson et al.Oct 24, 2023
+53
K
H
B
Abstract We describe the analysis of whole genome sequences (WGS) of 150,119 individuals from the UK biobank (UKB). This constitutes a set of high quality variants, including 585,040,410 SNPs, representing 7.0% of all possible human SNPs, and 58,707,036 indels. The large set of variants allows us to characterize selection based on sequence variation within a population through a Depletion Rank (DR) score for windows along the genome. DR analysis shows that coding exons represent a small fraction of regions in the genome subject to strong sequence conservation. We define three cohorts within the UKB, a large British Irish cohort (XBI) and smaller African (XAF) and South Asian (XSA) cohorts. A haplotype reference panel is provided that allows reliable imputation of most variants carried by three or more sequenced individuals. We identified 895,055 structural variants and 2,536,688 microsatellites, groups of variants typically excluded from large scale WGS studies. Using this formidable new resource, we provide several examples of trait associations for rare variants with large effects not found previously through studies based on exome sequencing and/or imputation.
32

Variable Number Tandem Repeats mediate the expression of proximal genes

Mehrdad Bakhtiari et al.Oct 24, 2023
+6
Y
J
M
Abstract Variable Number Tandem Repeats (VNTRs) account for a significant amount of human genetic variation. VNTRs have been implicated in both Mendelian and Complex disorders, but are largely ignored by whole genome analysis pipelines due to the complexity of genotyping and the computational expense. We describe adVNTR-NN, a method that uses shallow neural networks for fast read recruitment. On 55X whole genome data, adVNTR-NN genotyped each VNTR in less than 18 cpu-seconds, while maintaining 100% accuracy on 76% of VNTRs. We used adVNTR-NN to genotype 10,264 VNTRs in 652 individuals from the GTEx project and associated VNTR length with gene expression in 46 tissues. We identified 163 ‘eVNTR’ loci that were significantly associated with gene expression. Of the 22 eVNTRs in blood where independent data was available, 21 (95%) were replicated in terms of significance and direction of association. 49% of the eVNTR loci showed a strong and likely causal impact on the expression of genes and 80% had maximum effect size at least 0.3. The impacted genes have important role in complex phenotypes including Alzheimer’s, obesity and familial cancers. Our results point to the importance of studying VNTRs for understanding the genetic basis of complex diseases.
27

Benchmarking small variant detection with ONT reveals high performance in challenging regions

Peter Möller et al.Oct 24, 2023
+2
D
G
P
Abstract Background The development of long read sequencing (LRS) has led to greater access to the human genome. LRS produces long read lengths at the cost of high error rates and has shown to be more useful in calling structural variants than short read sequencing (SRS) data. In this paper we evaluate how to use LRS data from Oxford Nanopore Technologies (ONT) to call small variants in regions in- and outside the reach of SRS. Results Calling single nucleotide polymorphisms (SNPs) with ONT data has comparable accuracy to Illumina when evaluating against the Genome in a Bottle truth set v4.2. In the major histocompatibility complex (MHC) and regions where mapping short reads is difficult, the F-measure of ONT calls exceeds those of short reads by 2-4% when sequence coverage is 20X or greater. We develop recommendations for how to perform small variant calling with LRS data and improve current approaches to the difficult regions by re-genotyping variants to increase the F-measure from 97.24% to 98.78%. Furthermore, we show how LRS can call variants in genomic regions inaccessible to SRS, including medically relevant genes such as STRC and CFC1B . Conclusions Although small variant calling in LRS data is still immature, current methods are clearly useful in difficult and inaccessible regions of the genome, enabling variant calling in medically relevant genes not accessible to SRS.
1

Large-scale comparison of immunoassay- and aptamer-based plasma proteomics through genetics and disease

Grímur Eldjárn et al.Oct 24, 2023
+29
S
E
G
The authors have withdrawn this manuscript because this paper was posted prematurely in advance of a UK Biobank Pharma Proteomics Project consortium effort. Therefore, the authors do not wish this work to be cited as reference for the project. If you have any questions, please contact the corresponding author
1
Paper
Citation2
0
Save
0

The correlation between CpG methylation and gene expression is driven by sequence variants

Ólafur Stefánsson et al.Sep 12, 2024
+29
S
B
Ó
Gene promoter and enhancer sequences are bound by transcription factors and are depleted of methylated CpG sites (cytosines preceding guanines in DNA). The absence of methylated CpGs in these sequences typically correlates with increased gene expression, indicating a regulatory role for methylation. We used nanopore sequencing to determine haplotype-specific methylation rates of 15.3 million CpG units in 7,179 whole-blood genomes. We identified 189,178 methylation depleted sequences where three or more proximal CpGs were unmethylated on at least one haplotype. A total of 77,789 methylation depleted sequences (~41%) associated with 80,503 cis-acting sequence variants, which we termed allele-specific methylation quantitative trait loci (ASM-QTLs). RNA sequencing of 896 samples from the same blood draws used to perform nanopore sequencing showed that the ASM-QTL, that is, DNA sequence variability, drives most of the correlation found between gene expression and CpG methylation. ASM-QTLs were enriched 40.2-fold (95% confidence interval 32.2, 49.9) among sequence variants associating with hematological traits, demonstrating that ASM-QTLs are important functional units in the noncoding genome.
0
Paper
Citation1
0
Save
71

Ratatosk – Hybrid error correction of long reads enables accurate variant calling and assembly

Guillaume Holley et al.Oct 24, 2023
+3
H
D
G
Abstract Motivation Long Read Sequencing (LRS) technologies are becoming essential to complement Short Read Sequencing (SRS) technologies for routine whole genome sequencing. LRS platforms produce DNA fragment reads, from 10 3 to 10 6 bases, allowing the resolution of numerous uncertainties left by SRS reads for genome reconstruction and analysis. In particular, LRS characterizes long and complex structural variants undetected by SRS due to short read length. Furthermore, assemblies produced with LRS reads are considerably more contiguous than with SRS while spanning previously inaccessible telomeric and centromeric regions. However, a major challenge to LRS reads adoption is their much higher error rate than SRS of up to 15%, introducing obstacles in downstream analysis pipelines. Results We present Ratatosk, a new error correction method for erroneous long reads based on a compacted and colored de Bruijn graph built from accurate short reads. Short and long reads color paths in the graph while vertices are annotated with candidate Single Nucleotide Polymorphisms. Long reads are subsequently anchored to the graph using exact and inexact fc-mer matches to find paths corresponding to corrected sequences. We demonstrate that Ratatosk can reduce the raw error rate of Oxford Nanopore reads 6-fold on average with a median error rate as low as 0.28%. Ratatosk corrected data maintain nearly 99% accurate SNP calls and increase indel call accuracy by up to about 40% compared to the raw data. An assembly of the Ashkenazi individual HG002 created from Ratatosk corrected Oxford Nanopore reads yields a contig N50 of 43.22 Mbp and less misassemblies than an assembly created from PacBio HiFi reads. Availability https://github.com/DecodeGenetics/Ratatosk Contact guillaume.holley@decode.is
0

Mutations in RPL3L and MYZAP increase risk of atrial fibrillation

Rósa Þórólfsdóttir et al.May 7, 2020
+28
P
G
R
We performed a meta-analysis of genome-wide association studies on atrial fibrillation (AF) among 14,710 cases and 373,897 controls from Iceland and 14,792 cases and 393,863 controls from the UK Biobank, focusing on low frequency coding and splice mutations, with follow-up in samples from Norway and the US. We observed associations with two missense (OR=1.19 for both) and one splice-donor mutation (OR=1.52) in RPL3L, encoding a ribosomal protein primarily expressed in skeletal muscle and heart. Analysis of 167 RNA samples from the right atrium revealed that the splice donor mutation in RPL3L results in exon skipping. AF is the first disease associated with RPL3L and RPL3L is the first ribosomal gene implicated in AF. This finding is consistent with tissue specialization of ribosomal function. We also found an association with a missense variant in MYZAP (OR=1.37), encoding a component of the intercalated discs of cardiomyocytes, the organelle harbouring most of the mutated proteins involved in arrhythmogenic right ventricular cardiomyopathy. Both discoveries emphasize the close relationship between the mechanical and electrical function of the heart.
0

Recurrence of de novo mutations in families

Hákon Jónsson et al.May 6, 2020
+22
G
P
H
De novo mutations (DNMs) cause a large fraction of severe rare diseases of childhood. DNMs that occur in early embryos may result in mosaicism of both somatic and germ cells. Such early mutations may be transmitted to more than one offspring and cause recurrence of serious disease. We scanned 1,007 sibling pairs from 251 families and identified 885 DNMs shared by siblings (ssDNMs) at 451 genomic sites. We estimated the probability of DNM recurrence based on presence in the blood of the parent, sharing by other siblings, parent-of-origin, mutation type, and genomic position. We detected 52.1% of ssDNMs in the parental blood. The probability of a DNM being shared goes down by 2.28% per year for paternal DNMs and 1.82% for maternal DNMs. Shared paternal DNMs are more likely to be T>C mutations than maternal ones, but less likely to be C>T mutations. Depending on DNM properties, the probability of recurrence in a younger sibling ranges from 0.013% to 29.6%. We have launched an online DNM recurrence probability calculator, to use in genetic counselling in cases of rare genetic diseases.
0

read_haps: using read haplotypes to detect same species contamination in DNA sequences.

Hannes Eggertsson et al.May 7, 2020
B
H
Motivation: Data analysis is requisite on reliable data. In genetics this includes verifying that the sample is not contaminated with another, a problem ubiquitous in biology. Results: In human, and other diploid species, DNA contamination from same species can be found by the presence of three haplotypes between polymorphic SNPs. read_haps is a tool that detects sample contamination from short read whole genome sequencing data.
Load More