MS
Michael Snyder
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
20
h-index:
6
/
i10-index:
5
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
25

PRC2 clock: a universal epigenetic biomarker of aging and rejuvenation

Mahdi Moqri et al.Jun 5, 2022
+14
C
A
M
Abstract DNA methylation (DNAm) is one of the most reliable biomarkers for aging across many mammalian tissues. While the age-dependent global loss of DNAm has been well characterized, age-dependent DNAm gain is less specified. Multiple studies have demonstrated that polycomb repressive complex 2 (PRC2) targets are enriched among the CpG sites which gain methylation with age. However, a systematic whole-genome examination of all PRC2 targets in the context of aging methylome as well as whether these associations are pan-tissue or tissue-specific is lacking. Here, by analyzing DNAm data from different assays and from multiple young and old human and mouse tissues, we found that low-methylated regions (LMRs) which are highly bound by PRC2 in embryonic stem cells gain methylation with age in all examined somatic mitotic cells. We also estimated that this epigenetic change represents around 90% of the age-dependent DNAm gain genome-wide. Therefore, we propose the “PRC2 clock,” defined as the average DNAm in PRC2 LMRs, as a universal biomarker of cellular aging in somatic cells. In addition, we demonstrate the application of this biomarker in the evaluation of different anti-aging interventions, including dietary restriction and partial epigenetic reprogramming.
25
Citation20
0
Save
0

Index Switching Causes “Spreading-Of-Signal” Among Multiplexed Samples In Illumina HiSeq 4000 DNA Sequencing

Rahul Sinha et al.Apr 9, 2017
+15
G
G
R
Illumina-based next generation sequencing (NGS) has accelerated biomedical discovery through its ability to generate thousands of gigabases of sequencing output per run at a fraction of the time and cost of conventional technologies. The process typically involves four basic steps: library preparation, cluster generation, sequencing, and data analysis. In 2015, a new chemistry of cluster generation was introduced in the newer Illumina machines (HiSeq 3000/4000/X Ten) called exclusion amplification (ExAmp), which was a fundamental shift from the earlier method of random cluster generation by bridge amplification on a non-patterned flow cell. The ExAmp chemistry, in conjunction with patterned flow cells containing nanowells at fixed locations, increases cluster density on the flow cell, thereby reducing the cost per run. It also increases sequence read quality, especially for longer read lengths (up to 150 base pairs). This advance has been widely adopted for genome sequencing because greater sequencing depth can be achieved for lower cost without compromising the quality of longer reads. We show that this promising chemistry is problematic, however, when multiplexing samples. We discovered that up to 5-10% of sequencing reads (or signals) are incorrectly assigned from a given sample to other samples in a multiplexed pool. We provide evidence that this “spreading-of-signals” arises from low levels of free index primers present in the pool. These index primers can prime pooled library fragments at random via complementary 3′ ends, and get extended by DNA polymerase, creating a new library molecule with a new index before binding to the patterned flow cell to generate a cluster for sequencing. This causes the resulting read from that cluster to be assigned to a different sample, causing the spread of signals within multiplexed samples. We show that low levels of free index primers persist after the most common library purification procedure recommended by Illumina, and that the amount of signal spreading among samples is proportional to the level of free index primer present in the library pool. This artifact causes homogenization and misclassification of cells in single cell RNA-seq experiments. Therefore, all data generated in this way must now be carefully re-examined to ensure that “spreading-of-signals” has not compromised data analysis and conclusions. Re-sequencing samples using an older technology that uses conventional bridge amplification for cluster generation, or improved library cleanup strategies to remove free index primers, can minimize or eliminate this signal spreading artifact.
0

Personalized transcriptome signatures in a cardiomyopathy stem cell biobank

Emma Monte et al.May 14, 2024
+20
S
X
E
Abstract BACKGROUND There is growing evidence that pathogenic mutations do not fully explain hypertrophic (HCM) or dilated (DCM) cardiomyopathy phenotypes. We hypothesized that if a patient’s genetic background was influencing cardiomyopathy this should be detectable as signatures in gene expression. We built a cardiomyopathy biobank resource for interrogating personalized genotype phenotype relationships in human cell lines. METHODS We recruited 308 diseased and control patients for our cardiomyopathy stem cell biobank. We successfully reprogrammed PBMCs (peripheral blood mononuclear cells) into induced pluripotent stem cells (iPSCs) for 300 donors. These iPSCs underwent whole genome sequencing and were differentiated into cardiomyocytes for RNA-seq. In addition to annotating pathogenic variants, mutation burden in a panel of cardiomyopathy genes was assessed for correlation with echocardiogram measurements. Line-specific co-expression networks were inferred to evaluate transcriptomic subtypes. Drug treatment targeted the sarcomere, either by activation with omecamtiv mecarbil or inhibition with mavacamten, to alter contractility. RESULTS We generated an iPSC biobank from 300 donors, which included 101 individuals with HCM and 88 with DCM. Whole genome sequencing of 299 iPSC lines identified 78 unique pathogenic or likely pathogenic mutations in the diseased lines. Notably, only DCM lines lacking a known pathogenic or likely pathogenic mutation replicated a finding in the literature for greater nonsynonymous SNV mutation burden in 102 cardiomyopathy genes to correlate with lower left ventricular ejection fraction in DCM. We analyzed RNA-sequencing data from iPSC-derived cardiomyocytes for 102 donors. Inferred personalized co-expression networks revealed two transcriptional subtypes of HCM. The first subtype exhibited concerted activation of the co-expression network, with the degree of activation reflective of the disease severity of the donor. In contrast, the second HCM subtype and the entire DCM cohort exhibited partial activation of the respective disease network, with the strength of specific gene by gene relationships dependent on the iPSC-derived cardiomyocyte line . ADCY5 was the largest hubnode in both the HCM and DCM networks and partially corrected in response to drug treatment. CONCLUSIONS We have a established a stem cell biobank for studying cardiomyopathy. Our analysis supports the hypothesis the genetic background influences pathologic gene expression programs and support a role for ADCY5 in cardiomyopathy.
0

microbiomedataset: A tidyverse-style framework for organizing and processing microbiome data

Xiaotao Shen et al.Jan 1, 2023
M
M
X
Microbial communities exert a substantial influence on human health and have been unequivocally associated with a spectrum of human maladies, encompassing conditions such as anxiety1, depression2, hypertension3, cardiovascular diseases4, obesity4,5, diabetes6, inflammatory bowel disease7, and cancer8,9. This intricate interplay between microbiota community structures and host pathophysiology has kindled substantial interest and spurred active research endeavors across various scientific domains. Despite significant strides in sequencing technologies, which have unveiled the vast diversity of microbial populations across diverse ecosystems, the analysis of microbiome data remains a formidable challenge. The complexity inherent in such data, compounded by the absence of standardized data processing and analysis workflows, continues to pose substantial hurdles. The tidyverse paradigm, comprised of a suite of R packages meticulously crafted to facilitate efficient data manipulation and visualization, has garnered considerable acclaim within the data science community10. Its appeal stems from its innate simplicity and efficacy in organizing and processing data10. In recent times, a plethora of tools have been devised to address distinct omics data processing and analysis needs, including notable initiatives such as the tidymass project11, tidyomics project12, tidymicro13, and MicrobiotaProcess13,14. However, a conspicuous gap persists in the form of a standardized, tidyverse-based package for seamless and rigorous microbiome data processing and analysis. To address this burgeoning demand for standardized and reproducible microbiome data analysis, we introduce microbiomedataset, an R package that embraces the tidyverse ethos to furnish a structured framework for the organization and processing of microbiome data. Microbiomedataset offers a comprehensive, customizable solution for the management, structuring, and processing of microbiome data. Importantly, this package seamlessly integrates with established bioinformatics tools, facilitating its incorporation into existing analytical pipelines11,13,14,15. Within this manuscript, we proffer an in-depth overview of the microbiomedataset package, elucidating its multifarious functionalities. Moreover, we substantiate its utility through illustrative case studies employing a publicly available microbiome dataset. It is imperative to underscore that microbiomedataset constitutes an integral component of the larger tidymicrobiome project, accessible via www.tidymicrobiome.org. Tidymicrobiome epitomizes an ecosystem of R packages that share a coherent design philosophy, grammar, and data structure, collectively engendering a robust, reproducible, and object-oriented computational framework. This project9s development has been guided by several key tenets: (1) Cross-platform compatibility, (2) Uniformity, shareability, traceability, and reproducibility, and (3) Flexibility and extensibility. We further expound upon the advantages inherent in adopting a tidyverse-style framework for microbiome data analysis, underscoring the pronounced benefits in terms of standardization and reproducibility that microbiomedataset offers. In sum, microbiomedataset furnishes an accessible and efficient avenue for microbiome data analysis, catering to both neophyte and seasoned R users alike.