DD
David Dijk
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Yale University, Cardiovascular Research Center, Research Network (United States)
+ 8 more
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(58% Open Access)
Cited by:
218
h-index:
32
/
i10-index:
57
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Distinguishing features of long COVID identified through immune profiling

Jonathan Klein et al.Mar 10, 2024
+44
J
J
J
Abstract Post-acute infection syndromes may develop after acute viral disease 1 . Infection with SARS-CoV-2 can result in the development of a post-acute infection syndrome known as long COVID. Individuals with long COVID frequently report unremitting fatigue, post-exertional malaise, and a variety of cognitive and autonomic dysfunctions 2–4 . However, the biological processes that are associated with the development and persistence of these symptoms are unclear. Here 275 individuals with or without long COVID were enrolled in a cross-sectional study that included multidimensional immune phenotyping and unbiased machine learning methods to identify biological features associated with long COVID. Marked differences were noted in circulating myeloid and lymphocyte populations relative to the matched controls, as well as evidence of exaggerated humoral responses directed against SARS-CoV-2 among participants with long COVID. Furthermore, higher antibody responses directed against non-SARS-CoV-2 viral pathogens were observed among individuals with long COVID, particularly Epstein–Barr virus. Levels of soluble immune mediators and hormones varied among groups, with cortisol levels being lower among participants with long COVID. Integration of immune phenotyping data into unbiased machine learning models identified the key features that are most strongly associated with long COVID status. Collectively, these findings may help to guide future studies into the pathobiology of long COVID and help with developing relevant biomarkers.
11

Single-Cell Transcriptional Profiling of the Adult Corticospinal Tract Reveals Forelimb and Hindlimb Molecular Specialization

Noa Golan et al.Oct 24, 2023
+3
D
S
N
Abstract The corticospinal tract (CST) is refractory to repair after CNS trauma, resulting in chronic debilitating functional motor deficits after spinal cord injury. While novel pro-axon growth activators have stimulated plasticity and regeneration of corticospinal neurons (CSNs) after injury, robust functional recovery remains elusive. These repair strategies are sub-optimal in part due to underexplored molecular heterogeneity within the developing and adult CST. In this study, we combine retrograde CST tracing with single-cell RNA sequencing to build a comprehensive atlas of CSN subtypes. By comparing CSNs to non-spinally projecting neurons in layer Vb, we identify pan-CSN markers including Wnt7b . By leveraging retrograde tracing, we are able to compare forelimb and hindlimb projecting CSNs, identifying subtype-specific markers, including Cacng7 and Slc16a2 respectively. These markers are expressed in embryonic and neonatal CSNs and can be used to study early postnatal patterning of the CST. Our results provide molecular insight into the differences between anatomically distinct CSN subtypes and provide a resource for future screening and exploitation of these subtypes to repair the damaged CST after injury and disease.
11
Citation7
0
Save
6

Longitudinal single-cell transcriptional dynamics throughout neurodegeneration in SCA1

Leon Tejwani et al.Oct 24, 2023
+14
B
N
L
SUMMARY Neurodegeneration is a protracted process involving progressive changes in myriad cell types that ultimately result in neuronal death. Changes in vulnerable neuronal populations are highly influenced by concomitant changes in surrounding cells, complicating experimental approaches to interrogate the simultaneous events that underlie neurodegeneration. To dissect how individual cell types within a heterogeneous tissue contribute to the pathogenesis and progression of a neurodegenerative disorder, we performed longitudinal single-nucleus RNA sequencing of the mouse and human spinocerebellar ataxia type 1 (SCA1) cerebellum, establishing continuous dynamic trajectories of each population. Furthermore, we defined the precise transcriptional changes that precede loss of Purkinje cells and identified early oligodendroglial impairments that can profoundly impact cerebellar function. Finally, we applied a deep learning method to accurately predict disease state and identify drivers of disease. Together, this work uncovers new roles for diverse cerebellar cell types in SCA1 and provides a generalizable analysis framework for studying neurodegeneration.
12

The COVID-19 PHARMACOME: A method for the rational selection of drug repurposing candidates from multimodal knowledge harmonization

Bruce Schultz et al.Oct 24, 2023
+28
C
A
B
Abstract The SARS-CoV-2 pandemic has challenged researchers at a global scale. The scientific community’s massive response has resulted in a flood of experiments, analyses, hypotheses, and publications, especially in the field of drug repurposing. However, many of the proposed therapeutic compounds obtained from SARS-CoV-2 specific assays are not in agreement and thus demonstrate the need for a singular source of COVID-19 related information from which a rational selection of drug repurposing candidates can be made. In this paper, we present the COVID-19 PHARMACOME, a comprehensive drug-target-mechanism graph generated from a compilation of 10 separate disease maps and sources of experimental data focused on SARS-CoV-2 / COVID-19 pathophysiology. By applying our systematic approach, we were able to predict the synergistic effect of specific drug pairs, such as Remdesivir and Thioguanosine or Nelfinavir and Raloxifene, on SARS-CoV-2 infection. Experimental validation of our results demonstrate that our graph can be used to not only explore the involved mechanistic pathways, but also to identify novel combinations of drug repurposing candidates.
12
Citation2
0
Save
0

Generating hard-to-obtain information from easy-to-obtain information: applications in drug discovery and clinical inference

Matthew Amodio et al.Oct 24, 2023
+7
D
D
M
Abstract In many important contexts involving measurements of biological entities, there are distinct categories of information: some information is easy-to-obtain information (EI) and can be gathered on virtually every subject of interest, while other information is hard-to-obtain information (HI) and can only be gathered on some of the biological samples. For example, in the context of drug discovery, measurements like the chemical structure of a drug are EI, while measurements of the transcriptome of a cell population perturbed with the drug is HI. In the clinical context, basic health monitoring is EI because it is already being captured as part of other processes, while cellular measurements like flow cytometry or even ultimate patient outcome are HI. We propose building a model to make probabilistic predictions of HI from EI on the samples that have both kinds of measurements, which will allow us to generalize and predict the HI on a large set of samples from just the EI. To accomplish this, we present a conditional Generative Adversarial Network (cGAN) framework we call the Feature Mapping GAN (FMGAN). By using the EI as conditions to map to the HI, we demonstrate that FMGAN can accurately predict the HI, with heterogeneity in cases of distributions of HI from EI. We show that FMGAN is flexible in that it can learn rich and complex mappings from EI to HI, and can take into account manifold structure in the EI space where available. We demonstrate this in a variety of contexts including generating RNA sequencing results on cell lines subjected to drug perturbations using drug chemical structure, and generating clinical outcomes from patient lab measurements. Most notably, we are able to generate synthetic flow cytometry data from clinical variables on a cohort of COVID-19 patients—effectively describing their immune response in great detail, and showcasing the power of generating expensive FACS data from ubiquitously available patient monitoring data. Bigger Picture Many experiments face a trade-off between gathering easy-to-collect information on many samples or hard-to-collect information on a smaller number of small due to costs in terms of both money and time. We demonstrate that a mapping between the easy-to-collect and hard-to-collect information can be trained as a conditional GAN from a subset of samples with both measured. With our conditional GAN model known as Feature-Mapping GAN (FMGAN), the results of expensive experiments can be predicted, saving on the costs of actually performing the experiment. This can have major impact in many settinsg. We study two example settings. First, in the field of pharmaceutical drug discovery early phase pharmaceutical experiments require casting a wide net to find a few potential leads to follow. In the long term, development pipelines can be re-designed to specifically utilize FMGAN in an optimal way to accelerate the process of drug discovery. FMGAN can also have a major impact in clinical setting, where routinely measured variables like blood pressure or heart rate can be used to predict important health outcomes and therefore deciding the best course of treatment.
0

Cell2Sentence: Teaching Large Language Models the Language of Biology

Daniel Levine et al.Sep 15, 2023
+15
S
S
D
Large language models like GPT have shown impressive performance on natural language tasks. Here, we present a novel method to directly adapt these pretrained models to a biological context, specifically single-cell transcriptomics, by representing gene expression data as text. Our Cell2Sentence approach converts each cell9s gene expression profile into a sequence of gene names ordered by expression level. We show that these gene sequences, which we term "cell sentences", can be used to fine-tune causal language models like GPT-2. Critically, we find that natural language pretraining boosts model performance on cell sentence tasks. When fine-tuned on cell sentences, GPT-2 generates biologically valid cells when prompted with a cell type. Conversely, it can also accurately predict cell type labels when prompted with cell sentences. This demonstrates that language models fine-tuned using Cell2Sentence can gain a biological understanding of single-cell data, while retaining their ability to generate text. Our approach provides a simple, adaptable framework to combine natural language and transcriptomics using existing models and libraries. Our code is available at: https://github.com/vandijklab/cell2sentence-ft.
0

AAnet resolves a continuum of spatially-localized cell states to unveil tumor complexity

Aarthi Venkat et al.May 28, 2024
+13
B
S
A
Identifying functionally important cell states and structure within a heterogeneous tumor remains a significant biological and computational challenge. Moreover, current clustering or trajectory-based computational models are ill-equipped to address the notion that cancer cells reside along a phenotypic continuum. To address this, we present Archetypal Analysis network (AAnet), a neural network that learns key archetypal cell states within a phenotypic continuum of cell states in single-cell data. Applied to single-cell RNA sequencing data from pre-clinical models and a cohort of 34 clinical breast cancers, AAnet identifies archetypes that resolve distinct biological cell states and processes, including cell proliferation, hypoxia, metabolism and immune interactions. Notably, archetypes identified in primary tumors are recapitulated in matched liver, lung and lymph node metastases, demonstrating that a significant component of intratumoral heterogeneity is driven by cell intrinsic properties. Using spatial transcriptomics as orthogonal validation, AAnet-derived archetypes show discrete spatial organization within tumors, supporting their distinct archetypal biology. We further reveal that ligand:receptor cross-talk between cancer and adjacent stromal cells contributes to intra-archetypal biological mimicry. Finally, we use AAnet archetype identifiers to validate GLUT3 as a critical mediator of a hypoxic cell archetype harboring a cancer stem cell population, which we validate in human triple-negative breast cancer specimens. AAnet is a powerful tool to reveal functional cell states within complex samples from multimodal single-cell data.
0

Exploring Single-Cell Data with Deep Multitasking Neural Networks

Matthew Amodio et al.May 6, 2020
+13
K
D
M
Biomedical researchers are generating high-throughput, high-dimensional single-cell data at a staggering rate. As costs of data generation decrease, experimental design is moving towards measurement of many different single-cell samples in the same dataset. These samples can correspond to different patients, conditions, or treatments. While scalability of methods to datasets of these sizes is a challenge on its own, dealing with large-scale experimental design presents a whole new set of problems, including batch effects and sample comparison issues. Currently, there are no computational tools that can both handle large amounts of data in a scalable manner (many cells) and at the same time deal with many samples (many patients or conditions). Moreover, data analysis currently involves the use of different tools that each operate on their own data representation, not guaranteeing a synchronized analysis pipeline. For instance, data visualization methods can be disjoint and mismatched with the clustering method. For this purpose, we present SAUCIE, a deep neural network that leverages the high degree of parallelization and scalability offered by neural networks, as well as the deep representation of data that can be learned by them to perform many single-cell data analysis tasks, all on a unified representation. A well-known limitation of neural networks is their interpretability. Our key contribution here are newly formulated regularizations (penalties) that render features learned in hidden layers of the neural network interpretable. When large multi-patient datasets are fed into SAUCIE, the various hidden layers contain denoised and batch-corrected data, a low dimensional visualization, unsupervised clustering, as well as other information that can be used to explore the data. We show this capability by analyzing a newly generated 180-sample dataset consisting of T cells from dengue patients in India, measured with mass cytometry. We show that SAUCIE, for the first time, can batch correct and process this 11-million cell data to identify cluster-based signatures of acute dengue infection and create a patient manifold, stratifying immune response to dengue on the basis of single-cell measurements.
0

Quantifying the effect of experimental perturbations in single-cell RNA-sequencing data using graph signal processing

Daniel Burkhardt et al.May 6, 2020
+7
A
J
D
Single-cell RNA-sequencing (scRNA-seq) is a powerful tool to quantify transcriptional states in thousands to millions of cells. It is increasingly common for scRNA-seq data to be collected in multiple experimental conditions, yet quantifying differences between scRNA-seq datasets remains an analytical challenge. Previous efforts at quantifying such differences focus on discrete regions of the transcriptional state space such as clusters of cells. Here, we describe a continuous measure of the effect of an experiment across the transcriptomic space. First, we use the manifold assumption to model the cellular state space as a graph (or network) with cells as nodes and edges connecting cells with similar transcriptomic profiles. Next, we create an Enhanced Experimental Signal (EES) that estimates the likelihood of observing cells from each condition at every point in the manifold. We show that the EES has useful properties and information that can be extracted. The EES can be used to identify how gene expression is affected by a given perturbation, including identifying non-monotonic changes from only two conditions. We also show that we can use both the magnitude and frequency of the EES, using an algorithm we call vertex frequency clustering, to derive subsets of cells at appropriate levels of granularity (tailored to areas that change) that are enriched in the experimental or control conditions or that are unaffected between conditions. We demonstrate both algorithms using a combination of biological and synthetic datasets. Implementations are provided in the MELD Python package, which is available at .
2k

Neuroinvasion of SARS-CoV-2 in human and mouse brain

Eric Song et al.Oct 11, 2023
+36
B
C
E
Summary Although COVID-19 is considered to be primarily a respiratory disease, SARS-CoV-2 affects multiple organ systems including the central nervous system (CNS). Yet, there is no consensus whether the virus can infect the brain, or what the consequences of CNS infection are. Here, we used three independent approaches to probe the capacity of SARS-CoV-2 to infect the brain. First, using human brain organoids, we observed clear evidence of infection with accompanying metabolic changes in the infected and neighboring neurons. However, no evidence for the type I interferon responses was detected. We demonstrate that neuronal infection can be prevented either by blocking ACE2 with antibodies or by administering cerebrospinal fluid from a COVID-19 patient. Second, using mice overexpressing human ACE2, we demonstrate in vivo that SARS-CoV-2 neuroinvasion, but not respiratory infection, is associated with mortality. Finally, in brain autopsy from patients who died of COVID-19, we detect SARS-CoV-2 in the cortical neurons, and note pathologic features associated with infection with minimal immune cell infiltrates. These results provide evidence for the neuroinvasive capacity of SARS-CoV2, and an unexpected consequence of direct infection of neurons by SARS-CoV-2.
Load More