MD
Melissa Davis
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
23
(70% Open Access)
Cited by:
4,344
h-index:
40
/
i10-index:
86
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Single sample scoring of molecular phenotypes

Momeneh Foroutan et al.Nov 6, 2018
Gene set scoring provides a useful approach for quantifying concordance between sample transcriptomes and selected molecular signatures. Most methods use information from all samples to score an individual sample, leading to unstable scores in small data sets and introducing biases from sample composition (e.g. varying numbers of samples for different cancer subtypes). To address these issues, we have developed a truly single sample scoring method, and associated R/Bioconductor package singscore ( https://bioconductor.org/packages/singscore ). We use multiple cancer data sets to compare singscore against widely-used methods, including GSVA, z-score, PLAGE, and ssGSEA. Our approach does not depend upon background samples and scores are thus stable regardless of the composition and number of samples being scored. In contrast, scores obtained by GSVA, z-score, PLAGE and ssGSEA can be unstable when less data are available (NS < 25). The singscore method performs as well as the best performing methods in terms of power, recall, false positive rate and computational time, and provides consistently high and balanced performance across all these criteria. To enhance the impact and utility of our method, we have also included a set of functions implementing visual analysis and diagnostics to support the exploration of molecular phenotypes in single samples and across populations of data. The singscore method described here functions independent of sample composition in gene expression data and thus it provides stable scores, which are particularly useful for small data sets or data integration. Singscore performs well across all performance criteria, and includes a suite of powerful visualization functions to assist in the interpretation of results. This method performs as well as or better than other scoring approaches in terms of its power to distinguish samples with distinct biology and its ability to call true differential gene sets between two conditions. These scores can be used for dimensional reduction of transcriptomic data and the phenotypic landscapes obtained by scoring samples against multiple molecular signatures may provide insights for sample stratification.
0
Citation358
0
Save
0

Visualising associations between paired ‘omics’ data sets

Ignacio González et al.Nov 13, 2012
Each omics platform is now able to generate a large amount of data. Genomics, proteomics, metabolomics, interactomics are compiled at an ever increasing pace and now form a core part of the fundamental systems biology framework. Recently, several integrative approaches have been proposed to extract meaningful information. However, these approaches lack of visualisation outputs to fully unravel the complex associations between different biological entities.The multivariate statistical approaches 'regularized Canonical Correlation Analysis' and 'sparse Partial Least Squares regression' were recently developed to integrate two types of highly dimensional 'omics' data and to select relevant information. Using the results of these methods, we propose to revisit few graphical outputs to better understand the relationships between two 'omics' data and to better visualise the correlation structure between the different biological entities. These graphical outputs include Correlation Circle plots, Relevance Networks and Clustered Image Maps. We demonstrate the usefulness of such graphical outputs on several biological data sets and further assess their biological relevance using gene ontology analysis.Such graphical outputs are undoubtedly useful to aid the interpretation of these promising integrative analysis tools and will certainly help in addressing fundamental biological questions and understanding systems as a whole.The graphical tools described in this paper are implemented in the freely available R package mixOmics and in its associated web application.
0
Paper
Citation278
0
Save
0

A Gene Signature Predicting Natural Killer Cell Infiltration and Improved Survival in Melanoma Patients

Joseph Cursons et al.May 14, 2019
Natural killer (NK) cell activity is essential for initiating antitumor responses and may be linked to immunotherapy success. NK cells and other innate immune components could be exploitable for cancer treatment, which drives the need for tools and methods that identify therapeutic avenues. Here, we extend our gene-set scoring method singscore to investigate NK cell infiltration by applying RNA-seq analysis to samples from bulk tumors. Computational methods have been developed for the deconvolution of immune cell types within solid tumors. We have taken the NK cell gene signatures from several such tools, then curated the gene list using a comparative analysis of tumors and immune cell types. Using a gene-set scoring method to investigate RNA-seq data from The Cancer Genome Atlas (TCGA), we show that patients with metastatic cutaneous melanoma have an improved survival rate if their tumor shows evidence of NK cell infiltration. Furthermore, these survival effects are enhanced in tumors that show higher expression of genes that encode NK cell stimuli such as the cytokine IL15 Using this signature, we then examine transcriptomic data to identify tumor and stromal components that may influence the penetrance of NK cells into solid tumors. Our results provide evidence that NK cells play a role in the regulation of human tumors and highlight potential survival effects associated with increased NK cell activity. Our computational analysis identifies putative gene targets that may be of therapeutic value for boosting NK cell antitumor immunity.
0
Citation233
0
Save
6

MSImpute: Imputation of label-free mass spectrometry peptides by low-rank approximation

Soroor Hediyeh‐Zadeh et al.Aug 13, 2020
Abstract Recent developments in mass spectrometry (MS) instruments and data acquisition modes have aided multiplexed, fast, reproducible and quantitative analysis of proteome profiles, yet missing values remain a formidable challenge for proteomics data analysis. The stochastic nature of sampling in Data Dependent Acquisition (DDA), suboptimal preprocessing of Data Independent Acquisition (DIA) runs and dynamic range limitation of MS instruments impedes the reproducibility and accuracy of peptide quantification and can introduce systematic patterns of missingness that impact downstream analyses. Thus, imputation of missing values becomes an important element of data analysis. We introduce msIm pute , an imputation method based on low-rank approximation, and compare it to six alternative imputation methods using public DDA and DIA datasets. We evaluate the performance of methods by determining the error of imputed values and accuracy of detection of differential expression. We also measure the post-imputation preservation of structures in the data at different levels of granularity. We develop a visual diagnostic to determine the nature of missingness in datasets based on peptides with high biological dropout rate and introduce a method to identify such peptides. Our findings demonstrate that msImpute performs well when data are missing at random and highlights the importance of prior knowledge about nature of missing values in a dataset when selecting an imputation technique.
42

Library size confounds biology in spatial transcriptomics data

Dharmesh Bhuva et al.Mar 15, 2023
Abstract Spatial molecular technologies have revolutionised the study of disease microenvironments by providing spatial context to tissue heterogeneity. Recent spatial technologies are increasing the throughput and spatial resolution of measurements, resulting in larger datasets. The added spatial dimension and volume of measurements poses an analytics challenge that has, in the short-term, been addressed by adopting methods designed for the analysis of single-cell RNA-seq data. Though these methods work well in some cases, not all necessarily translate appropriately to spatial technologies. A common assumption is that total sequencing depth, also known as library size, represents technical variation in single-cell RNA-seq technologies, and this is often normalised out during analysis. Through analysis of several different spatial datasets, we noted that this assumption does not necessarily hold in spatial molecular data. To formally assess this, we explore the relationship between library size and independently annotated spatial regions, across 23 samples from 4 different spatial technologies with varying throughput and spatial resolution. We found that library size confounded biology across all technologies, regardless of the tissue being investigated. Statistical modelling of binned total transcripts shows that tissue region is strongly associated with library size across all technologies, even after accounting for cell density of the bins. Through a benchmarking experiment, we show that normalising out library size leads to sub-optimal spatial domain identification using common graph-based clustering algorithms. On average, better clustering was achieved when library size effects were not normalised out explicitly, especially with data from the newer sub-cellular localised technologies. Taking these results into consideration, we recommend that spatial data should not be specifically corrected for library size prior to analysis unless strongly motivated. We also emphasise that spatial data are different to single-cell RNA-seq and care should be taken when adopting algorithms designed for single cell data.
0

A natural killer cell gene signature predicts melanoma patient survival

Joseph Cursons et al.Jul 23, 2018
Abstract Animal models have demonstrated that natural killer (NK) cells can limit the metastatic dissemination of tumors, however their ability to combat established human tumors has been difficult to investigate. A number of computational methods have been developed for the deconvolution of immune cell types within solid tumors. We have taken the NK cell gene signatures from several tools, then curated and expanded this list using recent reports from the literature. Using a gene set scoring method to investigate RNA-seq data from The Cancer Genome Atlas (TCGA) we show that patients with metastatic cutaneous melanoma have an improved survival rate if their tumor shows evidence of greater NK cell infiltration. Furthermore, these survival effects are enhanced in tumors which have a higher expression of NK cell stimuli such as IL-15, suggesting NK cells are part of a coordinated immune response within these patients. Using this signature we then examine transcriptomic data to identify tumor and stromal components which may influence the penetrance of NK cells into solid tumors. These data support a role for NK cells in the regulation of human tumors and highlight potential survival effects associated with increased NK cell activity. Furthermore, our computational analysis identifies a number of potential targets which may help to unleash the anti-tumor potential of NK cells as we enter the age of immunotherapy.
0
Citation5
0
Save
0

Post-transcriptional control of EMT is coordinated through combinatorial targeting by multiple microRNAs

Joseph Cursons et al.May 16, 2017
Abstract Epithelial-mesenchymal transition (EMT) is a process whereby cells undergo reversible phenotypic change, losing epithelial characteristics and acquiring mesenchymal attributes. While EMT underlies normal, physiological programs in embryonic tissue development and adult wound healing, it also contributes to cancer progression by facilitating metastasis and altering drug sensitivity. Using a cell model of EMT (human mammary epithelial (HMLE) cells), we show that miRNAs act as an additional regulatory layer over and above the activity of the transcription factors with which they are closely associated. In this context, miRNAs serve to both enhance expression changes for genes with EMT function, whilst simultaneously reducing transcriptional noise in non-EMT genes. We find that members of the polycistronic miR-200c~141 and miR-183~182 clusters (which are decreased during HMLE cell EMT and are associated with epithelial gene expression in breast cancer patients) co-regulate common targets and pathways to enforce an epithelial phenotype. We demonstrate their combinatorial effects are apparent much closer to endogenous expression levels (and orders of magnitude lower than used in most studies). Importantly, the low levels of combinatorial miRNAs that are required to exert biological function ameliorate the “off-target” effects on gene expression that are a characteristic of supra-physiologic miRNA manipulation. We argue that high levels of over-expression characteristic of many miRNA functional studies have led to an over-estimation of the effect of many miRNAs in EMT regulation, with over 130 individual miRNAs directly implicated as drivers of EMT. We propose that the functional effects of co-regulated miRNAs that we demonstrate here more-accurately reflects the endogenous post-transcriptional regulation of pathways, networks and processes, and illustrates that the post-transcriptional miRNA regulatory network is fundamentally cooperative.
0
Citation3
0
Save
0

Systems Biology Inferring edge function in protein-protein interaction networks

Daniel Esposito et al.May 15, 2018
Abstract Motivation: Post-translational modifications (PTMs) regulate many key cellular processes. Numerous studies have linked the topology of protein-protein interaction (PPI) networks to many biological phenomena such as key regulatory processes and disease. However, these methods fail to give insight in the functional nature of these interactions. On the other hand, pathways are commonly used to gain biological insight into the function of PPIs in the context of cascading interactions, sacrificing the coverage of networks for rich functional annotations on each PPI. We present a machine learning approach that uses Gene Ontology, InterPro and Pfam annotations to infer the edge functions in PPI networks, allowing us to combine the high coverage of networks with the information richness of pathways. Results: An ensemble method with a combination Logistic Regression and Random Forest classifiers trained on a high-quality set of annotated interactions, with a total of 18 unique labels, achieves high a average F1 score 0.88 despite not taking advantage of multi-label dependencies. When applied to the human interactome, our method confidently classifies 62% of interactions at a probability of 0.7 or higher. Availability: Software and data are available at https://github.com/DavisLaboratory/pyPPI Contact: davis.m@wehi.edu.au Supplementary information: Supplementary data are available at Bioinformatics online.
0
Citation3
0
Save
Load More