MD
Mark Daly
Author with expertise in Genomic Studies and Association Analyses
Massachusetts General Hospital, Harvard University, Broad Institute
+ 7 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
36
(47% Open Access)
Cited by:
70
h-index:
30
/
i10-index:
79
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
97

Multi-Ancestry Meta-Analysis yields novel genetic discoveries and ancestry-specific associations

Patrick Turley et al.Oct 23, 2023
+23
G
A
P
ABSTRACT We present a new method, Multi-Ancestry Meta-Analysis (MAMA), which combines genome-wide association study (GWAS) summary statistics from multiple populations to produce new summary statistics for each population, identifying novel loci that would not have been discovered in either set of GWAS summary statistics alone. In simulations, MAMA increases power with less bias and generally lower type-1 error rate than other multi-ancestry meta-analysis approaches. We apply MAMA to 23 phenotypes in East-Asian- and European-ancestry populations and find substantial gains in power. In an independent sample, novel genetic discoveries from MAMA replicate strongly.
44

Improving fine-mapping by modeling infinitesimal effects

Ran Cui et al.Oct 24, 2023
+6
M
R
R
Abstract Fine-mapping aims to identify causal variants for phenotypes. Bayesian fine-mapping algorithms (e.g.: SuSiE, FINEMAP, ABF, and COJO-ABF) are widely used, but assessing posterior probability calibration remains challenging in real data, where model misspecification likely exists, and true causal variants are unknown. We introduce Replication Failure Rate (RFR), a metric to assess fine-mapping consistency by down-sampling. SuSiE, FINEMAP and COJO-ABF show high RFR, indicating potential under-conservative mis-calibration. Simulations reveal that non-sparse genetic architecture can lead to miscalibration, while imputation noise, non-uniform distribution of causal variants, and QC filters have minimal impact. We present SuSiE-inf and FINEMAP-inf, novel fine-mapping methods modeling infinitesimal effects alongside fewer larger causal effects. Our methods exhibit improved calibration, RFR and functional enrichment, competitive recall and computational efficiency. Notably, using our methods’ posterior effect sizes substantially increases PRS accuracy over SuSiE and FINEMAP. Our work improves causal variants identification for complex traits, a fundamental goal of human genetics.
0

Characterising the loss-of-function impact of 5’ untranslated region variants in whole genome sequence data from 15,708 individuals

Konrad Karczewski et al.May 6, 2020
+161
S
X
K
Abstract Upstream open reading frames (uORFs) are important tissue-specific cis -regulators of protein translation. Although isolated case reports have shown that variants that create or disrupt uORFs can cause disease, genetic sequencing approaches typically focus on protein-coding regions and ignore these variants. Here, we describe a systematic genome-wide study of variants that create and disrupt human uORFs, and explore their role in human disease using 15,708 whole genome sequences collected by the Genome Aggregation Database (gnomAD) project. We show that 14,897 variants that create new start codons upstream of the canonical coding sequence (CDS), and 2,406 variants disrupting the stop site of existing uORFs, are under strong negative selection. Furthermore, variants creating uORFs that overlap the CDS show signals of selection equivalent to coding loss-of-function variants, and uORF-perturbing variants are under strong selection when arising upstream of known disease genes and genes intolerant to loss-of-function variants. Finally, we identify specific genes where perturbation of uORFs is likely to represent an important disease mechanism, and report a novel uORF frameshift variant upstream of NF2 in families with neurofibromatosis. Our results highlight uORF-perturbing variants as an important and under-recognised functional class that can contribute to penetrant human disease, and demonstrate the power of large-scale population sequencing data to study the deleteriousness of specific classes of non-coding variants.
0
Paper
Citation8
0
Save
0

Phenome-wide association studies (PheWAS) across large “real-world data” population cohorts support drug target validation

Dorothée Diogo et al.May 6, 2020
+29
C
C
D
Abstract Phenome-wide association studies (PheWAS), which assess whether a genetic variant is associated with multiple phenotypes across a phenotypic spectrum, have been proposed as a possible aid to drug development through elucidating mechanisms of action, identifying alternative indications, or predicting adverse drug events (ADEs). Here, we evaluate whether PheWAS can inform target validation during drug development. We selected 25 single nucleotide polymorphisms (SNPs) linked through genome-wide association studies (GWAS) to 19 candidate drug targets for common disease therapeutic indications. We independently interrogated these SNPs through PheWAS in four large “real-world data” cohorts (23andMe, UK Biobank, FINRISK, CHOP) for association with a total of 1,892 binary endpoints. We then conducted meta-analyses for 145 harmonized disease endpoints in up to 697,815 individuals and joined results with summary statistics from 57 published GWAS. Our analyses replicate 70% of known GWAS associations and identify 10 novel associations with study-wide significance after multiple test correction (P<1.8x10 -6 ; out of 72 novel associations with FDR<0.1). By leveraging directionality and point estimate of the effect sizes, we describe new associations that may predict ADEs, e.g., acne, high cholesterol, gout and gallstones for rs738409 (p.I148M) in PNPLA3 ; or asthma for rs1990760 (p.T946A) in IFIH1 . We further propose how quantitative estimates of genetic safety/efficacy profiles can be used to help prioritize candidate targets for a specific indication. Our results demonstrate PheWAS as a powerful addition to the toolkit for drug discovery. One Sentence Summary Matching genetics with phenotypes in 800,000 individuals predicts efficacy and on-target safety of future drugs.
0

Genome-wide association study implicates CHRNA2 in cannabis use disorder

Ditte Demontis et al.May 6, 2020
+19
T
V
D
Introductory paragraph Cannabis is the most frequently used illicit psychoactive substance worldwide 1 . Life time use has been reported among 35-40% of adults in Denmark 2 and the United States 3 . Cannabis use is increasing in the population 4–6 and among users around 9% become dependent 7 . The genetic risk component is high with heritability estimates of 51 8 –70% 9 . Here we report the first genome-wide significant risk locus for cannabis use disorder (CUD, P=9.31×10 −12 ) that replicates in an independent population (P replication =3.27×10 −3 , P metaanalysis =9.09×10 −12 ). The finding is based on a genome-wide association study (GWAS) of 2,387 cases and 48,985 controls followed by replication in 5,501 cases and 301,041 controls. The index SNP (rs56372821) is a strong eQTL for CHRNA2 and analyses of the genetic regulated gene expressions identified significant association of CHRNA2 expression in cerebellum with CUD. This indicates a potential therapeutic use in CUD of compounds with agonistic effect on the neuronal acetylcholine receptor alpha-2 subunit encoded by CHRNA2 . At the polygenic level analyses revealed a significant decrease in the risk of CUD with increased load of variants associated with cognitive performance.
0

De novo Variants in Neurodevelopmental Disorders with Epilepsy

Henrike Heyne et al.May 6, 2020
+25
H
T
H
Abstract Epilepsy is a frequent feature of neurodevelopmental disorders (NDD) but little is known about genetic differences between NDD with and without epilepsy. We analyzed de novo variants (DNV) in 6753 parent-offspring trios ascertained for different NDD. In the subset of 1942 individuals with NDD with epilepsy, we identified 33 genes with a significant excess of DNV, of which SNAP25 and GABRB2 had previously only limited evidence for disease association. Joint analysis of all individuals with NDD also implicated CACNA1E as a novel disease gene. Comparing NDD with and without epilepsy, we found missense DNV, DNV in specific genes, age of recruitment and severity of intellectual disability to be associated with epilepsy. We further demonstrate to what extent our results impact current genetic testing as well as treatment, emphasizing the benefit of accurate genetic diagnosis in NDD with epilepsy.
0
Citation5
0
Save
70

Tractor: A framework allowing for improved inclusion of admixed individuals in large-scale association studies

Elizabeth Atkinson et al.Oct 24, 2023
+11
M
A
E
Abstract Admixed populations are routinely excluded from medical genomic studies due to concerns over population structure. Here, we present a statistical framework and software package, Tractor, to facilitate the inclusion of admixed individuals in association studies by leveraging local ancestry. We test Tractor with simulations and empirical data focused on admixed African-European individuals. Tractor generates ancestryspecific effect size estimates, can boost GWAS power, and improves the resolution of association signals. Using a local ancestry aware regression model, we replicate known hits for blood lipids in admixed populations, discover novel hits missed by standard GWAS procedures, and localize signals closer to putative causal variants.
0

Contribution of rare and common variants to intellectual disability in a high-risk population sub-isolate of Northern Finland

Mitja Kurki et al.May 7, 2020
+20
O
E
M
Abstract The contribution of de novo and ultra-rare genetic variants in severe and moderate intellectual disability (ID) has been extensively studied whereas the genetic architecture of mild ID has been less well characterized. To elucidate the genetic background of milder ID we studied a regional cohort of 442 ID patients enriched for mild ID (>50%) from a population isolate of Finland. We analyzed rare variants using exome sequencing and CNV genotyping and common variants using common variant polygenic risk scores. As controls we used a Finnish collection of exome sequenced (n=11311) and GWAS chip genotyped (n=11699) individuals. We show that rare damaging variants in genes known to be associated with cognitive defects are observed more often in severe (27%) than in mild ID (13%) patients (p-value: 7.0e-4). We further observed a significant enrichment of protein truncating variants in loss-of-function intolerant genes, as well as damaging missense variants in genes not yet associated with cognitive defects (OR: 2.1, p-value: 3e-8). For the first time to our knowledge, we show that a common variant polygenic load significantly contributes to all severity forms of ID. The heritability explained was the highest for educational attainment (EDU) in mild ID explaining 2.2% of the heritability on liability scale. For more severe ID it was lower at 0.6%. Finally, we identified a homozygote variant in the CRADD gene to be a cause of a specific syndrome with ID and pachygyria. The frequency of this variant is 50x higher in the Finnish population than in non-Finnish Europeans, demonstrating the benefits of utilizing population isolates in rare variant analysis of diseases under negative selection.
0

Modeling Linkage Disequilibrium Increases Accuracy of Polygenic Risk Scores

Bjarni Vilhjálmsson et al.May 6, 2020
+31
H
J
B
Polygenic risk scores have shown great promise in predicting complex disease risk, and will become more accurate as training sample sizes increase. The standard approach for calculating risk scores involves LD-pruning markers and applying a P-value threshold to association statistics, but this discards information and may reduce predictive accuracy. We introduce a new method, LDpred, which infers the posterior mean causal effect size of each marker using a prior on effect sizes and LD information from an external reference panel. Theory and simulations show that LDpred outperforms the pruning/thresholding approach, particularly at large sample sizes. Accordingly, prediction R2 increased from 20.1% to 25.3% in a large schizophrenia data set and from 9.8% to 12.0% in a large multiple sclerosis data set. A similar relative improvement in accuracy was observed for three additional large disease data sets and when predicting in non-European schizophrenia samples. The advantage of LDpred over existing methods will grow as sample sizes increase.
0

RICOPILI: Rapid Imputation for COnsortias PIpeLIne

Max Lam et al.May 7, 2020
+16
H
S
M
Motivation: Genome-wide association study (GWAS) analyses, at sufficient sample sizes and power, have successfully revealed biological insights for several complex traits. RICOPILI, an open sourced Perl-based pipeline was developed to address the challenges of rapidly processing large scale multi-cohort GWAS studies including quality control, imputation and downstream analyses. The pipeline is computationally efficient with portability to a wide range of high-performance computing (HPC) environments. Summary: RICOPILI was created as the Psychiatric Genomics Consortium (PGC) pipeline for GWAS and has been adopted by other users. The pipeline features i) technical and genomic quality control in case-control and trio cohorts ii) genome-wide phasing and imputation iv) association analysis v) meta-analysis vi) polygenic risk scoring and vii) replication analysis. Notably, a major differentiator from other GWAS pipelines, RICOPILI leverages on automated parallelization and cluster job management approaches for rapid production of imputed genome-wide data. A comprehensive meta-analysis of simulated GWAS data has been incorporated demonstrating each step of the pipeline. This includes all of the associated visualization plots, to allow ease of data interpretation and manuscript preparation. Simulated GWAS datasets are also packaged with the pipeline for user training tutorials and developer work. Availability and Implementation: RICOPILI has a flexible architecture to allow for ongoing development and incorporation of newer available algorithms and is adaptable to various HPC environments (QSUB, BSUB, SLURM and others). Specific links for genomic resources are either directly provided in this paper or via tutorials and external links. The central location hosting scripts and tutorials is found at this URL: https://sites.google.com/a/broadinstitute.org/RICOPILI/home .
Load More