MD
Michelle Daya
Author with expertise in Genomic Studies and Association Analyses
University of Colorado Denver, University of Colorado Anschutz Medical Campus, Boston Medical Center
+ 9 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(20% Open Access)
Cited by:
22
h-index:
34
/
i10-index:
58
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Inherited Causes of Clonal Hematopoiesis of Indeterminate Potential in TOPMed Whole Genomes

Alexander Bick et al.May 6, 2020
+120
S
J
A
ABSTRACT Age is the dominant risk factor for most chronic human diseases; yet the mechanisms by which aging confers this risk are largely unknown. 1 Recently, the age-related acquisition of somatic mutations in regenerating hematopoietic stem cell populations was associated with both hematologic cancer incidence 2–4 and coronary heart disease prevalence. 5 Somatic mutations with leukemogenic potential may confer selective cellular advantages leading to clonal expansion, a phenomenon termed ‘Clonal Hematopoiesis of Indeterminate Potential’ (CHIP). 6 Simultaneous germline and somatic whole genome sequence analysis now provides the opportunity to identify root causes of CHIP. Here, we analyze high-coverage whole genome sequences from 97,691 participants of diverse ancestries in the NHLBI TOPMed program and identify 4,229 individuals with CHIP. We identify associations with blood cell, lipid, and inflammatory traits specific to different CHIP genes. Association of a genome-wide set of germline genetic variants identified three genetic loci associated with CHIP status, including one locus at TET2 that was African ancestry specific. In silico -informed in vitro evaluation of the TET2 germline locus identified a causal variant that disrupts a TET2 distal enhancer. Aggregates of rare germline loss-of-function variants in CHEK2 , a DNA damage repair gene, predisposed to CHIP acquisition. Overall, we observe that germline genetic variation altering hematopoietic stem cell function and the fidelity of DNA-damage repair increase the likelihood of somatic mutations leading to CHIP.
0
Citation22
0
Save
0

A rapid, accurate approach to inferring pedigrees in endogamous populations

C.M. Williams et al.May 7, 2020
+3
M
B
C
Accurate reconstruction of pedigrees from genetic data remains a challenging problem. Pedigree inference algorithms are often trained only on urban European-descent families, which are comparatively 'outbred' compared to many other global populations. Relationship categories can be difficult to distinguish (e.g. half-sibships versus avuncular) without external information. Furthermore, published soft- ware cannot accommodate endogamous populations where there may be reticulations within a pedigree (i.e. inbreeding) or elevated haplotype sharing. We design a simple, rapid algorithm which initially uses only high-confidence first degree relationships to seed a machine learning step based on the number of identical by descent segments. Additionally, we define a new statistic to polarize individuals to ancestor versus descendant generation. We test our approach in a sample of 700 individuals from northern Namibia, sampled from an endogamous population. Due to a culture of concurrent relationships in this population, there is a high proportion of half-sibships. We accurately identify first through third degree relationships for all categories, including half-sibships, half-avuncular-ships etc. Accurate reconstruction of pedigrees holds promise for tracing allele frequency trajectories, improved phasing and other population genomic questions.
0

Novel genetic determinants of telomere length from a multi-ethnic analysis of 75,000 whole genome sequences in TOPMed

Margaret Taub et al.May 7, 2020
+145
R
M
M
Telomeres shorten in replicating somatic cells and with age; in human leukocytes, telomere length (TL) is associated with a host of aging-related diseases. To date, 16 genome-wide association studies (GWAS) have identified twenty-three loci associated with leukocyte TL, but prior studies were primarily in individuals of European and Asian ancestry and relied on laboratory assays including Southern Blot and qPCR to quantify TL. Here, we estimated TL bioinformatically, leveraging whole genome sequencing (WGS) of whole blood from n=75,176 subjects in the Trans-Omics for Precision Medicine (TOPMed) Program. We performed the largest multi-ethnic and only WGS-based genome-wide association analysis of TL to date. We identified 22 associated loci (p-value <5x10-8), including 10 novel loci. Three of the novel loci map to genes involved in telomere maintenance and/or DNA damage repair: TERF2, RFWD3, and SAMHD1. Many of the 99 pathways identified in gene set enrichment analysis for the 22 loci (multiple-testing corrected false discovery rate (FDR) <0.05) pertain to telomere biology, including the top five (FDR<1x10-9). Importantly, several loci, including the recently identified TINF2 and ATM loci, showed strong ancestry-specific associations.
0

Loss-of-function genomic variants with impact on liver-related blood traits highlight potential therapeutic targets for cardiovascular disease

Nielsen Jb et al.May 7, 2020
+99
I
O
N
Cardiovascular diseases (CVD), and in particular cerebrovascular and ischemic heart diseases, are leading causes of death globally. Lowering circulating lipids is an important treatment strategy to reduce risk. However, some pharmaceutical mechanisms of reducing CVD may increase risk of fatty liver disease or other metabolic disorders. To identify potential novel therapeutic targets, which may reduce risk of CVD without increasing risk of metabolic disease, we focused on the simultaneous evaluation of quantitative traits related to liver function and CVD. Using a combination of low-coverage (5x) whole-genome sequencing and targeted genotyping, deep genotype imputation based on the TOPMed reference pane, and genome-wide association study (GWAS) meta-analysis, we analyzed 12 liver-related blood traits (including liver enzymes, blood lipids, and markers of iron metabolism) in up to 203,476 people from three population-based cohorts of different ancestries. We identified 88 likely causal protein-altering variants that were associated with one or more liver-related blood traits. We identified several loss-of-function (LoF) variants reducing low-density lipoprotein cholesterol (LDL-C) or risk of CVD without increased risk of liver disease or diabetes, including variants in known lipid genes (e.g. APOB, LPL). A novel LoF variant, ZNF529:p.K405X, was associated with decreased levels of LDL-C (P=1.3x10-8) but demonstrated no association with liver enzymes or non-fasting blood glucose levels. Silencing of ZNF529 in human hepatocytes resulted in upregulation of LDL receptor (LDLR) and increased LDL-C uptake in the cells, suggesting that inhibition of ZNF529 or its gene product could be used for treating hypercholesterolemia and hence reduce the risk of CVD. Taken together, we demonstrate that simultaneous consideration of multiple phenotypes and a focus on rare protein-altering variants may identify promising therapeutic targets.
0

clustifyr: An R package for automated single-cell RNA sequencing cluster classification

Rui Fu et al.May 7, 2020
+5
R
A
R
Background: In single-cell RNA sequencing (scRNA-seq) analysis, assignment of likely cell types remains a time-consuming, error-prone, and biased process. Current packages for identity assignment use limited types of reference data, and often have rigid data structure requirements. As such, a more flexible tool, capable of handling multiple types of reference data and data structures, would be beneficial. Findings: To address difficulties in cluster identity assignment, we developed the clustifyr R package. The package leverages external datasets, including gene expression profiles from scRNA-seq, bulk RNA-seq, microarray expression data, and/or signature gene lists, to assign likely cell types. We benchmark various parameters of a correlation-based approach, and also implement a variety of gene list enrichment methods. By providing tools for exploratory data analysis, we demonstrate the feasibility of a simple and effective data-driven approach for cell type assignment in scRNA-seq cell clusters. Conclusions: clustifyr is a lightweight and effective cell type assignment tool developed for compatibility with various scRNA-seq analysis workflows. clustifyr is publicly available at https://github.com/rnabioco/clustifyr .
0

Use of >100,000 NHLBI Trans-Omics for Precision Medicine (TOPMed) Consortium whole genome sequences improves imputation quality and detection of rare variant associations in admixed African and Hispanic/Latino populations

Madeline Kowalski et al.May 7, 2020
+75
Z
H
M
Most genome-wide association and fine-mapping studies to date have been conducted in individuals of European descent, and genetic studies of populations of Hispanic/Latino and African ancestry are still limited. In addition to the limited inclusion of these populations in genetic studies, these populations have more complex linkage disequilibrium structure that may reduce the number of variants associated with a phenotype. In order to better define the genetic architecture of these understudied populations, we leveraged >100,000 phased sequences available from deep-coverage whole genome sequencing through the multi-ethnic NHLBI Trans-Omics for Precision Medicine (TOPMed) program to impute genotypes into admixed African and Hispanic/Latino samples with commercial genome-wide genotyping array data. We demonstrate that using TOPMed sequencing data as the imputation reference panel improves genotype imputation quality in these populations, which subsequently enhances gene-mapping power for complex traits. For rare variants with minor allele frequency (MAF) < 0.5%, we observed a 2.3 to 6.1-fold increase in the number of well-imputed variants, with 11-34% improvement in average imputation quality, compared to the state-of-the-art 1000 Genomes Project Phase 3 and Haplotype Reference Consortium reference panels, respectively. Impressively, even for extremely rare variants with sample minor allele count <10 (including singletons) in the imputation target samples, average information content rescued was >86%. Subsequent association analyses of TOPMed reference panel-imputed genotype data with hematological traits (hemoglobin (HGB), hematocrit (HCT), and white blood cell count (WBC)) in ~20,000 self-identified African descent individuals and ~23,000 self-identified Hispanic/Latino individuals identified associations with two rare variants in the HBB gene (rs33930165 with higher WBC (p=8.1×10−12) in African populations, rs11549407 with lower HGB (p=1.59×10−12) and HCT (p=1.13×10−9) in Hispanics/Latinos). By comparison, neither variant would have been genome-wide significant if either 1000 Genomes Project Phase 3 or Haplotype Reference Consortium reference panels had been used for imputation. Our findings highlight the utility of TOPMed imputation reference panel for identification of novel associations between rare variants and complex traits not previously detected in similar sized genome-wide studies of under-represented African and Hispanic/Latino populations.Author summary Admixed African and Hispanic/Latino populations remain understudied in genome-wide association and fine-mapping studies of complex diseases. These populations have more complex linkage disequilibrium (LD) structure that can impair mapping of variants associated with complex diseases and their risk factors. Genotype imputation represents an approach to improve genome coverage, especially for rare or ancestry-specific variation; however, these understudied populations also have smaller relevant imputation reference panels that need to be expanded to represent their more complex LD patterns. In this study, we leveraged >100,000 phased sequences generated from the multi-ethnic NHLBI TOPMed project to impute in admixed cohorts encompassing ~20,000 individuals of African ancestry (AAs) and ~23,000 Hispanics/Latinos. We demonstrated substantially higher imputation quality for low frequency and rare variants in comparison to the state-of-the-art reference panels (1000 Genomes Project and Haplotype Reference Consortium). Association analyses of ~35 million (AAs) and ~27 million (Hispanics/Latinos) variants passing stringent post-imputation filtering with quantitative hematological traits led to the discovery of associations with two rare variants in the HBB gene; one of these variants was replicated in an independent sample, and the other is known to cause anemia in the homozygous state. By comparison, the same HBB variants would not have been genome-wide significant using other state-of-the-art reference panels due to lower imputation quality. Our findings demonstrate the power of the TOPMed whole genome sequencing data for imputation and subsequent association analysis in admixed African and Hispanic/Latino populations.
0

Genome-wide association study of asthma in individuals of African ancestry reveals novel asthma susceptibility loci

Michelle Daya et al.May 7, 2020
+97
S
N
M
BACKGROUND: Asthma is a complex disease with striking disparities across racial and ethnic groups, which may be partly attributable to genetic factors. One of the main goals of the Consortium on Asthma among African-ancestry Populations in the Americas (CAAPA) is to discover genes conferring risk to asthma in populations of African descent. METHODS: We performed a genome-wide meta-analysis of asthma across 11 CAAPA datasets (4,827 asthma cases and 5,397 controls), genotyped on the African Diaspora Power Chip (ADPC) and including existing GWAS array data. The genotype data were imputed up to a whole genome sequence reference panel from n=880 African ancestry individuals for a total of 61,904,576 SNPs. Statistical models appropriate to each study design were used to test for association, and results were combined using the weighted Z-score method. We also used admixture mapping as a complementary approach to identify loci involved in asthma pathogenesis in subjects of African ancestry. RESULTS: SNPs rs787160 and rs17834780 on chromosome 2q22·3 were significantly associated with asthma (p=6 ·57×10−9 and 2·97 × 10−8 respectively). These SNPs lie in the intergenic region between the Rho GTPase Activating Protein 15 (ARHGAP15) and Glycosyltransferase Like Domain Containing 1 (GTDC1) genes. Four low frequency variants on chromosome 1q21.3, which may be involved in the "atopic march" and which are not polymorphic in Europeans, also showed evidence for association with asthma (1·18 × 10−6 ≤p≤3·06 ×10 −6). SNP rs11264909 on chromosome 1q23·1, close to a region previously identified by the EVE asthma meta-analysis as having a putative African ancestry specific effect, only showed differences in counts in subjects homozygous for alleles of African ancestry. Admixture mapping also identified a significantly associated region on chromosome 6q23·2, which includes the Transcription Factor 21 (TCF21) gene, previously shown to be differentially expressed in bronchial tissues of asthmatics and non-asthmatics. CONCLUSIONS: We have identified a number of novel asthma association signals warranting further investigation.
0

De novo mutations across 1,465 diverse genomes reveal novel mutational insights and reductions in the Amish founder population.

Michael Kessler et al.May 7, 2020
+24
J
D
M
de novo Mutations (DNMs), or mutations that appear in an individual despite not being seen in their parents, are an important source of genetic variation whose impact is relevant to studies of human evolution, genetics, and disease. Utilizing high-coverage whole genome sequencing data as part of the Trans-Omics for Precision Medicine (TOPMed) program, we directly estimate and analyze DNM counts, rates, and spectra from 1,465 trios across an array of diverse human populations. Using the resulting call set of 86,865 single nucleotide DNMs, we find a significant positive correlation between local recombination rate and local DNM rate, which together can explain up to 35.5% of the genome-wide variation in population level rare genetic variation from 41K unrelated TOPMed samples. While genome-wide heterozygosity does correlate weakly with DNM count, we do not find significant differences in DNM rate between individuals of European, African, and Latino ancestry, nor across ancestrally distinct segments within admixed individuals. However, interestingly, we do find significantly fewer DNMs in Amish individuals compared with other Europeans, even after accounting for parental age and sequencing center. Specifically, we find significant reductions in the number of T→C mutations in the Amish, which seems to underpin their overall reduction in DNMs. Finally, we calculate near-zero estimates of narrow sense heritability (h2), which suggest that variation in DNM rate is significantly shaped by non-additive genetic effects and/or the environment, and that a less mutagenic environment may be responsible for the reduced DNM rate in the Amish.
0

Sequencing of 53,831 diverse genomes from the NHLBI TOPMed Program

Daniel Taliun et al.May 6, 2020
+174
M
D
D
The Trans-Omics for Precision Medicine (TOPMed) program seeks to elucidate the genetic architecture and disease biology of heart, lung, blood, and sleep disorders, with the ultimate goal of improving diagnosis, treatment, and prevention. The initial phases of the program focus on whole genome sequencing of individuals with rich phenotypic data and diverse backgrounds. Here, we describe TOPMed goals and design as well as resources and early insights from the sequence data. The resources include a variant browser, a genotype imputation panel, and sharing of genomic and phenotypic data via dbGaP. In 53,581 TOPMed samples, >400 million single-nucleotide and insertion/deletion variants were detected by alignment with the reference genome. Additional novel variants are detectable through assembly of unmapped reads and customized analysis in highly variable loci. Among the >400 million variants detected, 97% have frequency <1% and 46% are singletons. These rare variants provide insights into mutational processes and recent human evolutionary history. The nearly complete catalog of genetic variation in TOPMed studies provides unique opportunities for exploring the contributions of rare and non-coding sequence variants to phenotypic variation. Furthermore, combining TOPMed haplotypes with modern imputation methods improves the power and extends the reach of nearly all genome-wide association studies to include variants down to ~0.01% in frequency.
7

SAIGE-BRUSH: an efficient, user-friendly and low cost cloud implementation for genome-wide association studies

Tonya Brunetti et al.Oct 24, 2023
+3
M
N
T
SAIGE-Biobank Re-Usable SAIGE Helper (SAIGE-BRUSH) allows users with little computational expertise to utilize SAIGE for GWAS with parallelization and data collection on biobank data sets. This implementation requires no installation and has additional features not programmed within the original SAIGE framework, such as concurrency, reproducibility, reusability, scalability, association analysis results filtering and output plots. This is all achieved without writing any code from the user. This implementation is currently being utilized by the Biobank at the Colorado Center for Personalized Medicine (CCPM) on Google Cloud but is flexible for a number of architectures available to genetic analysts. Availability: This open source implementation is freely available at https://github.com/tbrunetti/SAIGE-BRUSH and is licensed under the MIT License. Contact: Chris Gignoux at chris.gignoux@cuanschutz.edu & Nick Rafaels at nicholas.rafaels@cuanschutz.edu Supplemental Material: For detailed user documentation, please visit https://saige-brush.readthedocs.io/en/latest/