DM
Daniel MacArthur
Author with expertise in Standards and Guidelines for Genetic Variant Interpretation
Broad Institute, Garvan Institute of Medical Research, UNSW Sydney
+ 11 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
42
(31% Open Access)
Cited by:
70
h-index:
103
/
i10-index:
237
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Transcriptome variation in human tissues revealed by long-read sequencing

Dafni Glinos et al.Jan 25, 2021
+21
P
G
D
Summary Regulation of transcript structure generates transcript diversity and plays an important role in human disease. The advent of long-read sequencing technologies offers the opportunity to study the role of genetic variation in transcript structure. In this paper, we present a large human long-read RNA-seq dataset using the Oxford Nanopore Technologies platform from 88 samples from GTEx tissues and cell lines, complementing the GTEx resource. We identified just under 100,000 new transcripts for annotated genes, and validated the protein expression of a similar proportion of novel and annotated transcripts. We developed a new computational package, LORALS, to analyze genetic effects of rare and common variants on the transcriptome via allele-specific analysis of long reads. We called allele-specific expression and transcript structure events, providing novel insights into the specific transcript alterations caused by common and rare genetic variants and highlighting the resolution gained from long-read data. We were able to perturb transcript structure upon knockdown of PTBP1, an RNA binding protein that mediates splicing, thereby finding genetic regulatory effects that are modified by the cellular environment. Finally, we use this dataset to enhance variant interpretation and study rare variants leading to aberrant splicing patterns.
1
Citation15
0
Save
0

Quantitative analysis of population-scale family trees using millions of relatives

Joanna Kaplanis et al.May 6, 2020
+8
M
A
J
Abstract Family trees have vast applications in multiple fields from genetics to anthropology and economics. However, the collection of extended family trees is tedious and usually relies on resources with limited geographical scope and complex data usage restrictions. Here, we collected 86 million profiles from publicly-available online data from genealogy enthusiasts. After extensive cleaning and validation, we obtained population-scale family trees, including a single pedigree of 13 million individuals. We leveraged the data to partition the genetic architecture of longevity by inspecting millions of relative pairs and to provide insights to population genetics theories on the dispersion of families. We also report a simple digital procedure to overlay other datasets with our resource in order to empower studies with population-scale genealogical data. One Sentence Summary Using massive crowd-sourced genealogy data, we created a population-scale family tree resource for scientific studies.
0
Citation11
0
Save
0

Phenome-wide association studies (PheWAS) across large “real-world data” population cohorts support drug target validation

Dorothée Diogo et al.May 6, 2020
+29
C
C
D
Abstract Phenome-wide association studies (PheWAS), which assess whether a genetic variant is associated with multiple phenotypes across a phenotypic spectrum, have been proposed as a possible aid to drug development through elucidating mechanisms of action, identifying alternative indications, or predicting adverse drug events (ADEs). Here, we evaluate whether PheWAS can inform target validation during drug development. We selected 25 single nucleotide polymorphisms (SNPs) linked through genome-wide association studies (GWAS) to 19 candidate drug targets for common disease therapeutic indications. We independently interrogated these SNPs through PheWAS in four large “real-world data” cohorts (23andMe, UK Biobank, FINRISK, CHOP) for association with a total of 1,892 binary endpoints. We then conducted meta-analyses for 145 harmonized disease endpoints in up to 697,815 individuals and joined results with summary statistics from 57 published GWAS. Our analyses replicate 70% of known GWAS associations and identify 10 novel associations with study-wide significance after multiple test correction (P<1.8x10 -6 ; out of 72 novel associations with FDR<0.1). By leveraging directionality and point estimate of the effect sizes, we describe new associations that may predict ADEs, e.g., acne, high cholesterol, gout and gallstones for rs738409 (p.I148M) in PNPLA3 ; or asthma for rs1990760 (p.T946A) in IFIH1 . We further propose how quantitative estimates of genetic safety/efficacy profiles can be used to help prioritize candidate targets for a specific indication. Our results demonstrate PheWAS as a powerful addition to the toolkit for drug discovery. One Sentence Summary Matching genetics with phenotypes in 800,000 individuals predicts efficacy and on-target safety of future drugs.
222

A minimal role for synonymous variation in human disease

Ryan Dhindsa et al.Oct 24, 2023
+7
D
Q
R
Summary Synonymous mutations change the DNA sequence of a gene without affecting the amino acid sequence of the encoded protein. Although emerging evidence suggests that synonymous mutations can impact RNA splicing, translational efficiency, and mRNA stability 1 , studies in human genetics, mutagenesis screens, and other experiments and evolutionary analyses have repeatedly shown that most synonymous variants are neutral or only weakly deleterious, with some notable exceptions. In their recent article, Shen et al. claim to have disproved these well-established findings. They perform mutagenesis experiments in yeast and conclude that synonymous mutations frequently reduce fitness to the same extent as nonsynonymous mutations 2 . Based on their findings, the authors state that their results “imply that synonymous mutations are nearly as important as nonsynonymous mutations in causing disease.” An accompanying News and Views argues that “revising our expectations about synonymous mutations should expand our view of the genetic underpinnings of human health” 3 . Considering potential technical concerns with these experiments 4 and a large, coherent body of knowledge establishing the predominant neutrality of synonymous variants, we caution against interpreting this study in the context of human disease.
72

Mitochondrial DNA variation across 56,434 individuals in gnomAD

Kristen Laricchia et al.Oct 24, 2023
+14
N
N
K
ABSTRACT Databases of allele frequency are extremely helpful for evaluating clinical variants of unknown significance; however, until now, genetic databases such as the Genome Aggregation Database (gnomAD) have ignored the mitochondrial genome (mtDNA). Here we present a pipeline to call mtDNA variants that addresses three technical challenges: (i) detecting homoplasmic and heteroplasmic variants, present respectively in all or a fraction of mtDNA molecules, (ii) circular mtDNA genome, and (iii) misalignment of nuclear sequences of mitochondrial origin (NUMTs). We observed that mtDNA copy number per cell varied across gnomAD cohorts and influenced the fraction of NUMT-derived false-positive variant calls, which can account for the majority of putative heteroplasmies. To avoid false positives, we excluded samples prone to NUMT misalignment (few mtDNA copies per cell), cell line artifacts (many mtDNA copies per cell), or with contamination and we reported variants with heteroplasmy greater than 10%. We applied this pipeline to 56,434 whole genome sequences in the gnomAD v3.1 database that includes individuals of European (58%), African (25%), Latino (10%), and Asian (5%) ancestry. Our gnomAD v3.1 release contains population frequencies for 10,850 unique mtDNA variants at more than half of all mtDNA bases. Importantly, we report frequencies within each nuclear ancestral population and mitochondrial haplogroup. Homoplasmic variants account for most variant calls (98%) and unique variants (85%). We observed that 1/250 individuals carry a pathogenic mtDNA variant with heteroplasmy above 10%. These mitochondrial population allele frequencies are publicly available at gnomad.broadinstitute.org and will aid in diagnostic interpretation and research studies.
72
Citation6
0
Save
0

Genome Sequencing for Diagnosing Rare Diseases

Monica Wojcik et al.Aug 23, 2024
+87
H
S
M
Genetic variants that cause rare disorders may remain elusive even after expansive testing, such as exome sequencing. The diagnostic yield of genome sequencing, particularly after a negative evaluation, remains poorly defined.
9

Biological insights from the whole genome analysis of human embryonic stem cells

Florian Merkle et al.Oct 24, 2023
+9
G
S
F
ABSTRACT There has not yet been a systematic analysis of hESC whole genomes at a single nucleotide resolution. We therefore performed whole genome sequencing (WGS) of 143 hESC lines and annotated their single nucleotide and structural genetic variants. We found that while a substantial fraction of hESC lines contained large deleterious structural variants, finer scale structural and single nucleotide variants (SNVs) that are ascertainable only through WGS analyses were present in hESCs genomes and human blood-derived genomes at similar frequencies. However, WGS did identify SNVs associated with cancer or other diseases that will likely alter cellular phenotypes and may compromise the safety of hESC-derived cellular products transplanted into humans. As a resource to enable reproducible hESC research and safer translation, we provide a user-friendly WGS data portal and a data-driven scheme for cell line maintenance and selection. GRAPHICAL ABSTRACT IN BRIEF Merkle and Ghosh et al. describe insights from the whole genome sequences of commonly used human embryonic stem cell (hESC) lines. Analyses of these sequences show that while hESC genomes had more large structural variants than humans do from genetic inheritance, hESCs did not have an observable excess of finer-scale variants. However, many hESC lines contained rare loss-of-function variants and combinations of common variants that may profoundly shape their biological phenotypes. Thus, genome sequencing data can be valuable to those selecting cell lines for a given biological or clinical application, and the sequences and analysis reported here should facilitate such choices. HIGHLIGHTS One third of hESCs we analysed are siblings, and almost all are of European ancestry Large structural variants are common in hESCs, but finer-scale variation is similar to that human populations Many strong-effect loss-of-function mutations and cancer-associated mutations are present in specific hESC lines We provide user-friendly resources for rational hESC line selection based on genome sequence
9
Paper
Citation5
0
Save
0

Deep phenotyping of a healthy human HAO1 knockout informs therapeutic development for primary hyperoxaluria type 1

Tracy McGregor et al.May 7, 2020
+13
P
K
T
ABSTRACT Primary Hyperoxaluria Type 1 (PH1) is a rare autosomal recessive metabolic disorder of oxalate metabolism leading to kidney failure as well as multi-organ damage. Overproduction of oxalate occurs in the liver due to an inherited genetic defect in the enzyme alanine-glyoxylate aminotransferase ( AGXT ), causing pathology due to the insolubility of calcium oxalate crystals in body fluids. The main current therapy is dual liver-kidney transplant, which incurs high morbidity and has poor availability in some health systems where PH1 is more prevalent. One approach currently in active clinical investigation targets HAO1 (hydroxyacid oxidase 1), encoding glycolate oxidase, to reduce substrate levels for oxalate production. To inform drug development, we sought individuals with reduced HAO1 function due to naturally occurring genetic variation. Analysis of loss of function variants in 141,456 sequenced individuals suggested individuals with complete HAO1 knockout would only be observed in 1 in 30 million outbred people. However in a large sequencing and health records program (Genes & Health), in populations with substantial autozygosity, we identified a healthy adult individual predicted to have complete knockout of HAO1 due to an ultra rare homozygous frameshift variant (rs1186715161, ENSP00000368066.3:p.Leu333SerfsTer4). Primary care and hospital health records confirmed no apparently related clinical phenotype. At recall, urine and plasma oxalate levels were normal, however plasma glycolate levels (171 nmol/mL) were 12 times the upper limit of normal in healthy, reference individuals (mean+2sd=14 nmol/mL, n=67) while her urinary glycolate levels were 6 times the upper limit of normal. Comparison with preclinical and phase 1 clinical trial data of an RNAi therapeutic targeting HAO1 (lumasiran) suggests the individual likely retains <2% residual glycolate oxidase activity. These results provide important data to support the safety of HAO1 inhibition as a potential chronic therapy for a devastating metabolic disease (PH1). We also suggest that the effect of glycolate oxidase suppression in any potential other roles in humans beyond glycolate oxidation do not lead to clinical phenotypes, at least in this specific individual. This demonstrates the value of studying the lifelong complete knockdown of a target protein in a living human to aid development of a potential therapeutic, both in de-risking the approach and providing potential hypotheses to optimize its development. Furthermore, therapy for PH1 is likely to be required lifelong, in contrast to data from chronicity studies in non-human species or relatively short-term therapeutic studies in people. Our approach demonstrates the potential for improved drug discovery through unlocking relevant evidence hiding in the diversity of human genetic variation.
0

De novo variants in the RNU4-2 snRNA cause a frequent neurodevelopmental syndrome

Yuyang Chen et al.Sep 6, 2024
+115
L
R
Y
0
Citation4
0
Save
38

Leveraging supervised learning for functionally-informed fine-mapping of cis-eQTLs identifies an additional 20,913 putative causal eQTLs

Qingbo Wang et al.Oct 24, 2023
+10
J
D
Q
Abstract The large majority of variants identified by GWAS are non-coding, motivating detailed characterization of the function of non-coding variants. Experimental methods to assess variants’ effect on gene expressions in native chromatin context via direct perturbation are low-throughput. Existing high-throughput computational predictors thus have lacked large gold standard sets of regulatory variants for training and validation. Here, we leverage a set of 14,807 putative causal eQTLs in humans obtained through statistical fine-mapping, and we use 6,121 features to directly train a predictor of whether a variant modifies nearby gene expression. We call the resulting prediction the expression modifier score (EMS). We validate EMS by comparing its ability to prioritize functional variants with other major scores. We then use EMS as a prior for statistical fine-mapping of eQTLs to identify an additional 20,913 putatively causal eQTLs, and we incorporate EMS into co-localization analysis to identify 310 additional candidate genes across UK Biobank phenotypes.
Load More