MT
Margaret Taub
Author with expertise in Epigenetic Modifications and Their Functional Implications
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
19
(47% Open Access)
Cited by:
802
h-index:
34
/
i10-index:
63
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Inherited causes of clonal haematopoiesis in 97,691 whole genomes

Alexander Bick et al.Oct 14, 2020
Age is the dominant risk factor for most chronic human diseases, but the mechanisms through which ageing confers this risk are largely unknown1. The age-related acquisition of somatic mutations that lead to clonal expansion in regenerating haematopoietic stem cell populations has recently been associated with both haematological cancer2–4 and coronary heart disease5—this phenomenon is termed clonal haematopoiesis of indeterminate potential (CHIP)6. Simultaneous analyses of germline and somatic whole-genome sequences provide the opportunity to identify root causes of CHIP. Here we analyse high-coverage whole-genome sequences from 97,691 participants of diverse ancestries in the National Heart, Lung, and Blood Institute Trans-omics for Precision Medicine (TOPMed) programme, and identify 4,229 individuals with CHIP. We identify associations with blood cell, lipid and inflammatory traits that are specific to different CHIP driver genes. Association of a genome-wide set of germline genetic variants enabled the identification of three genetic loci associated with CHIP status, including one locus at TET2 that was specific to individuals of African ancestry. In silico-informed in vitro evaluation of the TET2 germline locus enabled the identification of a causal variant that disrupts a TET2 distal enhancer, resulting in increased self-renewal of haematopoietic stem cells. Overall, we observe that germline genetic variation shapes haematopoietic stem cell function, leading to CHIP through mechanisms that are specific to clonal haematopoiesis as well as shared mechanisms that lead to somatic mutations across tissues. Analysis of 97,691 high-coverage human blood DNA-derived whole-genome sequences enabled simultaneous identification of germline and somatic mutations that predispose individuals to clonal expansion of haematopoietic stem cells, indicating that both inherited and acquired mutations are linked to age-related cancers and coronary heart disease.
0
Citation472
0
Save
0

Assembly of a pan-genome from deep sequencing of 910 humans of African descent

Rachel Sherman et al.Nov 13, 2018
We used a deeply sequenced dataset of 910 individuals, all of African descent, to construct a set of DNA sequences that is present in these individuals but missing from the reference human genome. We aligned 1.19 trillion reads from the 910 individuals to the reference genome (GRCh38), collected all reads that failed to align, and assembled these reads into contiguous sequences (contigs). We then compared all contigs to one another to identify a set of unique sequences representing regions of the African pan-genome missing from the reference genome. Our analysis revealed 296,485,284 bp in 125,715 distinct contigs present in the populations of African descent, demonstrating that the African pan-genome contains ~10% more DNA than the current human reference genome. Although the functional significance of nearly all of this sequence is unknown, 387 of the novel contigs fall within 315 distinct protein-coding genes, and the rest appear to be intergenic. Assembly of a pan-genome from 910 humans of African descent identifies 296.5 Mb of novel DNA mapping to 125,715 distinct contigs. This African pan-genome contains ~10% more DNA than the current human reference genome.
0
Citation307
0
Save
0

Inherited Causes of Clonal Hematopoiesis of Indeterminate Potential in TOPMed Whole Genomes

Alexander Bick et al.Sep 27, 2019
ABSTRACT Age is the dominant risk factor for most chronic human diseases; yet the mechanisms by which aging confers this risk are largely unknown. 1 Recently, the age-related acquisition of somatic mutations in regenerating hematopoietic stem cell populations was associated with both hematologic cancer incidence 2–4 and coronary heart disease prevalence. 5 Somatic mutations with leukemogenic potential may confer selective cellular advantages leading to clonal expansion, a phenomenon termed ‘Clonal Hematopoiesis of Indeterminate Potential’ (CHIP). 6 Simultaneous germline and somatic whole genome sequence analysis now provides the opportunity to identify root causes of CHIP. Here, we analyze high-coverage whole genome sequences from 97,691 participants of diverse ancestries in the NHLBI TOPMed program and identify 4,229 individuals with CHIP. We identify associations with blood cell, lipid, and inflammatory traits specific to different CHIP genes. Association of a genome-wide set of germline genetic variants identified three genetic loci associated with CHIP status, including one locus at TET2 that was African ancestry specific. In silico -informed in vitro evaluation of the TET2 germline locus identified a causal variant that disrupts a TET2 distal enhancer. Aggregates of rare germline loss-of-function variants in CHEK2 , a DNA damage repair gene, predisposed to CHIP acquisition. Overall, we observe that germline genetic variation altering hematopoietic stem cell function and the fidelity of DNA-damage repair increase the likelihood of somatic mutations leading to CHIP.
0
Citation22
0
Save
9

Mosaic chromosomal alterations in blood across ancestries via whole-genome sequencing

Yasminka Jakubek et al.Nov 8, 2022
ABSTRACT Mosaic mutations in blood are common with increasing age and are prognostic markers for cancer, cardiovascular dysfunction and other diseases. This group of acquired mutations include megabase-scale mosaic chromosomal alterations (mCAs). These large mutations have mainly been surveyed using SNP array data from individuals of European (EA) or Japanese genetic ancestry. To gain a better understanding of mCA rates and associated risk factors in genetically diverse populations, we surveyed whole genome sequencing data from 67,390 individuals, including 20,132 individuals of African ancestry (AA), and 7,608 of Hispanic ancestry (HA) with deep (30X) whole genome sequencing data from the NHLBI Trans Omics for Precision Medicine (TOPMed) program. We adapted an existing mCA calling algorithm for application to WGS data, and observed higher sensitivity with WGS data, compared with array-based data, in uncovering mCAs at low mutant cell fractions. As in previous reports, we observed a strong association with age and a non-uniform distribution of mCAs across the genome. The presence of autosomal (but not chromosome X) mCAs was associated with an increased risk of both lymphoid and myeloid malignancies. After adjusting for age, we found that individuals of European ancestry have the highest rates of autosomal mCAs, mirroring the higher rate of leukemia in this group. Our analysis also uncovered higher rates of chromosome X mCAs in AA and HA compared to EA, again after adjusting for age. Germline variants in ATM and MPL showed strong associations with mCAs in cis , including ancestry specific variants. And rare variant gene-burden analysis confirmed the association of putatively protein altering variants in ATM and MPL with mCAs in cis . Individual rare variants in DCPS, ADM17, PPP1R16B , and TET2 were all associated with autosomal mCAs and rare variants in OR4C16 were associated with chromosome X mCAs in females. There was significant enrichment of co-occurrence of CHIP mutations and mCAs both altering cancer associated genes TET2, DNMT3A, JAK2, CUX1 , and TP53 . Overall, our study demonstrates that rates of mCAs differ across populations and that rare inherited germline variants are strongly associated with mCAs across genetically diverse populations. These results strongly motivate further studies of mCAs in under-represented populations to better understand the causes and consequences of this class of somatic variation.
9
Citation2
0
Save
0

Open Case Studies: Statistics and Data Science Education through Real-World Applications

Carrie Wright et al.Aug 21, 2024
With unprecedented and growing interest in data science education, there are limited educator materials that provide meaningful opportunities for learners to practice statistical thinking, as defined by Wild and Pfannkuch, with messy data addressing real-world challenges. As a solution, Nolan and Speed advocated for bringing applications to the forefront in undergraduate statistics curriculum with the use of in-depth case studies to encourage and develop statistical thinking in the classroom. Limitations to this approach include the significant time investment required to develop a case study – namely, to select a motivating question and to create an illustrative data analysis – and the domain expertise needed. As a result, case studies based on realistic challenges, not toy examples, are scarce. To address this, we developed the Open Case Studies (opencasestudies.org) project, which offers a new statistical and data science education case study model. This educational resource provides self-contained, multimodal, peer-reviewed, and open-source guides (or case studies) from real-world examples for active experiences of complete data analyses. We developed an educator's guide describing how to most effectively use the case studies, how to modify and adapt components of the case studies in the classroom, and how to contribute new case studies (opencasestudies.org/OCS_Guide).
0

Genome-wide association study of asthma in individuals of African ancestry reveals novel asthma susceptibility loci

Michelle Daya et al.Mar 2, 2017
BACKGROUND: Asthma is a complex disease with striking disparities across racial and ethnic groups, which may be partly attributable to genetic factors. One of the main goals of the Consortium on Asthma among African-ancestry Populations in the Americas (CAAPA) is to discover genes conferring risk to asthma in populations of African descent. METHODS: We performed a genome-wide meta-analysis of asthma across 11 CAAPA datasets (4,827 asthma cases and 5,397 controls), genotyped on the African Diaspora Power Chip (ADPC) and including existing GWAS array data. The genotype data were imputed up to a whole genome sequence reference panel from n=880 African ancestry individuals for a total of 61,904,576 SNPs. Statistical models appropriate to each study design were used to test for association, and results were combined using the weighted Z-score method. We also used admixture mapping as a complementary approach to identify loci involved in asthma pathogenesis in subjects of African ancestry. RESULTS: SNPs rs787160 and rs17834780 on chromosome 2q22·3 were significantly associated with asthma (p=6 ·57×10−9 and 2·97 × 10−8 respectively). These SNPs lie in the intergenic region between the Rho GTPase Activating Protein 15 (ARHGAP15) and Glycosyltransferase Like Domain Containing 1 (GTDC1) genes. Four low frequency variants on chromosome 1q21.3, which may be involved in the "atopic march" and which are not polymorphic in Europeans, also showed evidence for association with asthma (1·18 × 10−6 ≤p≤3·06 ×10 −6). SNP rs11264909 on chromosome 1q23·1, close to a region previously identified by the EVE asthma meta-analysis as having a putative African ancestry specific effect, only showed differences in counts in subjects homozygous for alleles of African ancestry. Admixture mapping also identified a significantly associated region on chromosome 6q23·2, which includes the Transcription Factor 21 (TCF21) gene, previously shown to be differentially expressed in bronchial tissues of asthmatics and non-asthmatics. CONCLUSIONS: We have identified a number of novel asthma association signals warranting further investigation.
1

Validation of human telomere length trans-ancestry meta-analysis association signals identifiesPOP5andKBTBD6as novel human telomere length regulation genes

Rebecca Keener et al.Jul 14, 2023
Abstract Telomere length genome-wide association studies (GWAS) have become well-powered to detect novel genes in telomere length regulation. However, no prior work has validated these putative novel genes to confirm the contribution of GWAS loci to telomere length regulation. We conducted a trans-ancestry meta-analysis of 211,369 individuals. Through enrichment analyses of chromatin state and cell-type heritability we identified blood and immune cells as the most relevant cell type to examine telomere length association signals. We validated specific GWAS associations by overexpressing KBTBD6 , a component of an E3 ubiquitin ligase complex, and POP5 , a component of the Ribonuclease P/MRP complex, and demonstrating that both lengthened telomeres as predicted by our statistical analyses. CRISPR/Cas9 deletion of the predicted causal regions of these association peaks in K562 immortalized blood cells reduced expression of these genes, demonstrating that these loci are related to transcriptional regulation of KBTBD6 and POP5 , respectively. Together our results demonstrate the utility of telomere length GWAS in the identification of novel telomere length regulation mechanisms and highlight the importance of the proteasome-ubiquitin pathway in telomere length regulation.
0

Inferring Disease Risk Genes from Sequencing Data in Multiplex Pedigrees Through Sharing of Rare Variants

Alexandre Bureau et al.Mar 20, 2018
We previously demonstrated how sharing of rare variants (RVs) in distant affected relatives can be used to identify variants causing a complex and heterogeneous disease. This approach tested whether single RVs were shared by all sequenced affected family members. However, as with other study designs, joint analysis of several RVs (e.g. within genes) is sometimes required to obtain sufficient statistical power. Further, phenocopies can lead to false negatives for some causal RVs if complete sharing among affecteds is required. Here we extend our methodology (Rare Variant Sharing, RVS) to address these issues. Specifically, we introduce gene-based analyses, a partial sharing test based on RV sharing probabilities for subsets of affected relatives and an haplotype-based RV definition. RVS also has the desirable features of not requiring external estimates of variant frequency or control samples, provides functionality to assess and address violations of key assumptions, and is available as open source software for genome-wide analysis. Simulations including phenocopies, based on the families of an oral cleft study, revealed the partial and complete sharing versions of RVS achieved similar statistical power compared to alternative methods (RareIBD and the Gene-Based Segregation Test), and had superior power compared to the pedigree Variant Annotation, Analysis and Search Tool (pVAAST) linkage statistic. In studies of multiplex cleft families, analysis of rare single nucleotide variants in the exome of 151 affected relatives from 54 families revealed no significant excess sharing in any one gene, but highlighted different patterns of sharing revealed by the complete and partial sharing tests.
0

Novel genetic determinants of telomere length from a multi-ethnic analysis of 75,000 whole genome sequences in TOPMed

Margaret Taub et al.Sep 4, 2019
Telomeres shorten in replicating somatic cells and with age; in human leukocytes, telomere length (TL) is associated with a host of aging-related diseases. To date, 16 genome-wide association studies (GWAS) have identified twenty-three loci associated with leukocyte TL, but prior studies were primarily in individuals of European and Asian ancestry and relied on laboratory assays including Southern Blot and qPCR to quantify TL. Here, we estimated TL bioinformatically, leveraging whole genome sequencing (WGS) of whole blood from n=75,176 subjects in the Trans-Omics for Precision Medicine (TOPMed) Program. We performed the largest multi-ethnic and only WGS-based genome-wide association analysis of TL to date. We identified 22 associated loci (p-value <5x10-8), including 10 novel loci. Three of the novel loci map to genes involved in telomere maintenance and/or DNA damage repair: TERF2, RFWD3, and SAMHD1. Many of the 99 pathways identified in gene set enrichment analysis for the 22 loci (multiple-testing corrected false discovery rate (FDR) <0.05) pertain to telomere biology, including the top five (FDR<1x10-9). Importantly, several loci, including the recently identified TINF2 and ATM loci, showed strong ancestry-specific associations.
Load More