SW
Stefanie Warnat-Herresthal
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
537
h-index:
9
/
i10-index:
9
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
64

Swarm Learning for decentralized and confidential clinical machine learning

Stefanie Warnat-Herresthal et al.May 26, 2021
+178
M
N
S
Abstract Fast and reliable detection of patients with severe and heterogeneous illnesses is a major goal of precision medicine 1,2 . Patients with leukaemia can be identified using machine learning on the basis of their blood transcriptomes 3 . However, there is an increasing divide between what is technically possible and what is allowed, because of privacy legislation 4,5 . Here, to facilitate the integration of any medical data from any data owner worldwide without violating privacy laws, we introduce Swarm Learning—a decentralized machine-learning approach that unites edge computing, blockchain-based peer-to-peer networking and coordination while maintaining confidentiality without the need for a central coordinator, thereby going beyond federated learning. To illustrate the feasibility of using Swarm Learning to develop disease classifiers using distributed data, we chose four use cases of heterogeneous diseases (COVID-19, tuberculosis, leukaemia and lung pathologies). With more than 16,400 blood transcriptomes derived from 127 clinical studies with non-uniform distributions of cases and controls and substantial study biases, as well as more than 95,000 chest X-ray images, we show that Swarm Learning classifiers outperform those developed at individual sites. In addition, Swarm Learning completely fulfils local confidentiality regulations by design. We believe that this approach will notably accelerate the introduction of precision medicine.
84

Alterations of multiple alveolar macrophage states in chronic obstructive pulmonary disease

Kevin Baßler et al.May 30, 2020
+40
T
W
K
Abstract Despite the epidemics of chronic obstructive pulmonary disease (COPD), the cellular and molecular mechanisms of this disease are far from being understood. Here, we characterize and classify the cellular composition within the alveolar space and peripheral blood of COPD patients and control donors using a clinically applicable single-cell RNA-seq technology corroborated by advanced computational approaches for: machine learning-based cell-type classification, identification of differentially expressed genes, prediction of metabolic changes, and modeling of cellular trajectories within a patient cohort. These high-resolution approaches revealed: massive transcriptional plasticity of macrophages in the alveolar space with increased levels of invading and proliferating cells, loss of MHC expression, reduced cellular motility, altered lipid metabolism, and a metabolic shift reminiscent of mitochondrial dysfunction in COPD patients. Collectively, single-cell omics of multi-tissue samples was used to build the first cellular and molecular framework for COPD pathophysiology as a prerequisite to develop molecular biomarkers and causal therapies against this deadly disease.
84
Citation13
0
Save
32

Swarm Learning as a privacy-preserving machine learning approach for disease classification

Stefanie Warnat-Herresthal et al.Jun 26, 2020
+29
K
H
S
Abstract Identification of patients with life-threatening diseases including leukemias or infections such as tuberculosis and COVID-19 is an important goal of precision medicine. We recently illustrated that leukemia patients are identified by machine learning (ML) based on their blood transcriptomes. However, there is an increasing divide between what is technically possible and what is allowed because of privacy legislation. To facilitate integration of any omics data from any data owner world-wide without violating privacy laws, we here introduce Swarm Learning (SL), a decentralized machine learning approach uniting edge computing, blockchain-based peer-to-peer networking and coordination as well as privacy protection without the need for a central coordinator thereby going beyond federated learning. Using more than 14,000 blood transcriptomes derived from over 100 individual studies with non-uniform distribution of cases and controls and significant study biases, we illustrate the feasibility of SL to develop disease classifiers based on distributed data for COVID-19, tuberculosis or leukemias that outperform those developed at individual sites. Still, SL completely protects local privacy regulations by design. We propose this approach to noticeably accelerate the introduction of precision medicine.
0

Memory-driven computing accelerates genomic data processing

Matthias Becker et al.Jan 13, 2019
+10
S
M
M
Next generation sequencing (NGS) is the driving force behind precision medicine and is revolutionizing most, if not all, areas of the life sciences. Particularly when targeting the major common diseases, an exponential growth of NGS data is foreseen for the next decades. This enormous increase of NGS data and the need to process the data quickly for real-world applications requires to rethink our current compute infrastructures. Here we provide evidence that memory-driven computing (MDC), a novel memory-centric hardware architecture, is an attractive alternative to current processor-centric compute infrastructures. To illustrate how MDC can change NGS data handling, we used RNA-seq assembly and pseudoalignment followed by quantification as two first examples. Adapting transcriptome assembly pipelines for MDC reduced compute time by 5.9-fold for the first step (SAMtools). Even more impressive, pseudoalignment by near-optimal probabilistic RNA-seq quantification (kallisto) was accelerated by more than two orders of magnitude with identical accuracy and indicated 66% reduced energy consumption. One billion RNA-seq reads were processed in just 92 seconds. Clearly, MDC simultaneously reduces data processing time and energy consumption. Together with the MDC-inherent solutions for local data privacy, a new compute model can be projected pushing large scale NGS data processing and primary data analytics closer to the edge by directly combining high-end sequencers with local MDC, thereby also reducing movement of large raw data to central cloud storage. We further envision that other data-rich areas will similarly benefit from this new memory-centric compute architecture.
0

Machine learning models for outcome prediction in thrombectomy for large anterior vessel occlusion

Omid Shirvani et al.Aug 23, 2024
+14
I
S
O
Abstract Objective Predicting long‐term functional outcomes shortly after a stroke is challenging, even for experienced neurologists. Therefore, we aimed to evaluate multiple machine learning models and the importance of clinical/radiological parameters to develop a model that balances minimal input data with reliable predictions of long‐term functional independency. Methods Our study utilized data from the German Stroke Registry on patients with large anterior vessel occlusion who underwent endovascular treatment. We trained seven machine learning models using 30 parameters from the first day postadmission to predict a modified Ranking Scale of 0–2 at 90 days poststroke. Model performance was assessed using a 20‐fold cross‐validation and one‐sided Wilcoxon rank‐sum tests. Key features were identified through backward feature selection. Results We included 7485 individuals with a median age of 75 years and a median NIHSS score at admission of 14 in our analysis. Our Deep Neural Network model demonstrated the best performance among all models including data from 24 h postadmission. Backward feature selection identified the seven most important features to be NIHSS after 24 h, age, modified Ranking Scale after 24 h, premorbid modified Ranking Scale, intracranial hemorrhage within 24 h, intravenous thrombolysis, and NIHSS at admission. Narrowing the Deep Neural Network model's input data to these features preserved the high performance with an AUC of 0.9 (CI: 0.89–0.91). Interpretation Our Deep Neural Network model, trained on over 7000 patients, predicts 90‐day functional independence using only seven clinical/radiological features from the first day postadmission, demonstrating both high accuracy and practicality for clinical implementation on stroke units.
0

Diagnostic value of blood gene expression-based classifiers as exemplified for acute myeloid leukemia

Stefanie Warnat-Herresthal et al.Aug 1, 2018
+10
B
K
S
Acute Myeloid Leukemia (AML) is a severe, mostly fatal hematopoietic malignancy. Despite nearly two decades of promising results using gene expression profiling, international recommendations for diagnosis and differential diagnosis of AML remain based on classical approaches including assessment of morphology, immunophenotyping, cytochemistry, and cytogenetics. Concerns about the translation of whole transcriptome profiling include the robustness of derived predictors when taking into account factors such as study- and site-specific effects and whether achievable levels of accuracy are sufficient for practical use. In the present study, we sought to shed light on these issues via a large-scale analysis using machine learning methods applied to a total of 12,029 samples from 105 different studies. Taking advantage of the breadth of data and the now much improved understanding of high-dimensional modeling, we show that AML can be predicted with high accuracy. High-dimensional approaches - in which multivariate signatures are learned directly from genome-wide data with no prior biological knowledge - are highly effective and robust. We explore also the relationship between predictive signatures, differential expression and known AML-related genes. Taken together, our results support the notion that transcriptome assessment could be used as part of an integrated genomic approach in cancer diagnosis and treatment to be implemented early on for diagnosis and differential diagnosis of AML.
0

Unveiling the Power of High-Dimensional Cytometry Data with cyCONDOR

Charlotte Kroeger et al.Mar 3, 2024
+11
J
S
C
High-dimensional cytometry (HDC) is a powerful technology for studying single-cell phenotypes in complex biological systems. Although technological developments and affordability have made HDC broadly available in recent years, technological advances were not coupled with an adequate development of analytical methods that can take full advantage of the complex data generated. While several analytical platforms and bioinformatics tools have become available for the analysis of HDC data, these are either web-hosted with limited scalability or designed for expert computational biologists, making their use unapproachable for wet lab scientists. Additionally, end-to-end HDC data analysis is further hampered due to missing unified analytical ecosystems, requiring researchers to navigate multiple platforms and software packages to complete the analysis. To bridge this data analysis gap in HDC we developed cyCONDOR, an easy-to-use computational framework covering not only all essential steps of cytometry data analysis but also including an array of downstream functions and tools to expand the biological interpretation of the data. The comprehensive suite of features of cyCONDOR, including guided pre-processing, clustering, dimensionality reduction, and machine learning algorithms, facilitates the seamless integration of cyCONDOR into clinically relevant settings, where scalability and disease classification are paramount for the widespread adoption of HDC in clinical practice. Additionally, the advanced analytical features of cyCONDOR, such as pseudotime analysis and batch integration, provide researchers with the tools to extract deeper insights from their data. We used cyCONDOR on a variety of data from different tissues and technologies demonstrating its versatility to assist the analysis of high dimensionality data from preprocessing to biological interpretation.
1

Decoding mechanism of action and susceptibility to drug candidates from integrated transcriptome and chromatin state

Caterina Carraro et al.Feb 21, 2022
+13
J
V
C
Abstract Omics-based technologies are driving major advances in precision medicine but efforts are still required to consolidate their use in drug discovery. In this work, we exemplify the use of multi-omics to support the development of 3-chloropiperidines (3-CePs), a new class of candidate anticancer agents. Combined analyses of transcriptome and chromatin accessibility elucidated the mechanisms underlying sensitivity to test agents. Further, we implemented a new versatile strategy for the integration of RNA-seq and ATAC-seq data, able to accelerate and extend the standalone analyses of distinct omic layers. This platform guided the construction of a perturbation-informed basal signature able to predict cancer cell lines’ sensitivity and to further direct compound development against specific tumor types. Overall, this approach offered a scalable pipeline to support the early phases of drug discovery, understanding of mechanism and potentially inform the positioning of therapeutics in the clinic.