TS
Terence Speed
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Walter and Eliza Hall Institute of Medical Research, University of Melbourne, University of California, Berkeley
+ 7 more
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
23
(57% Open Access)
Cited by:
34
h-index:
79
/
i10-index:
210
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Enrich2: a statistical framework for analyzing deep mutational scanning data

Alan Rubin et al.May 6, 2020
+3
S
N
A
Abstract Measuring the functional consequences of protein variants can reveal how a protein works or help unlock the meaning of an individual’s genome. Deep mutational scanning is a widely used method for multiplex measurement of the functional consequences of protein variants. A major limitation of this method has been the lack of a common analysis framework. We developed a statistical model for estimating variant scores that can be applied to many experimental designs. Our method generates an error estimate for each score that captures both sampling error and consistency between replicates. We apply our model to one novel and five published datasets comprising 243,732 variants and demonstrate its superiority, particularly for removing noisy variants, detecting variants of small effect, and conducting hypothesis testing. We implemented our model in easy-to-use software, Enrich2, that can empower researchers analyzing deep mutational scanning data.
7

Strain-level sample characterisation using long reads and MAPQ scores

Grace Hall et al.Oct 24, 2023
C
T
G
A bstract A simple but effective method for strain-level characterisation of microbial samples using long read data is presented. The method, which relies on having a non-redundant database of reference genomes, differentiates between strains within species and determines their relative abundance. It provides markedly better strain differentiation than that reported for the latest long read tools. Good estimates of relative abundances of highly similar strains present at less than 1% are achievable with as little as 1Gb of reads. Host contamination can be removed without great loss of sample characterisation performance. The method is simple and highly flexible, allowing it to be used for various different purposes, and as an extension of other characterisation tools. A code body implementing the underlying method is freely available.
0

GRIDSS: sensitive and specific genomic rearrangement detection using positional de Bruijn graph assembly

Daniel Cameron et al.May 6, 2020
+5
J
J
D
ABSTRACT The identification of genomic rearrangements, particularly in cancers, with high sensitivity and specificity using massively parallel sequencing remains a major challenge. Here, we describe the Genome Rearrangement IDentification Software Suite (GRIDSS), a high-speed structural variant (SV) caller that performs efficient genome-wide break-end assembly prior to variant calling using a novel positional de Bruijn graph assembler. By combining assembly, split read and read pair evidence using a probabilistic scoring, GRIDSS achieves high sensitivity and specificity on simulated, cell line and patient tumour data, recently winning SV sub-challenge #5 of the ICGC-TCGA DREAM Somatic Mutation Calling Challenge. On human cell line data, GRIDSS halves the false discovery rate compared to other recent methods. GRIDSS identifies non-template sequence insertions, micro-homologies and large imperfect homologies, and supports multi-sample analysis. GRIDSS is freely available at https://github.com/PapenfussLab/gridss .
10

hRUV: Hierarchical approach to removal of unwanted variation for large-scale metabolomics data

Tai-Yun Kim et al.Oct 24, 2023
+9
S
O
T
Abstract Liquid chromatography-mass spectrometry based metabolomics studies are increasingly applied to large population cohorts, running for several weeks to months, even extending to years of data acquisition. This inevitably introduces unwanted intra- and inter-batch variations over time that can overshadow true biological signals and thus hinder potential biological discoveries. To date, normalization approaches have struggled to mitigate the variability introduced by technical factors whilst preserving biological variance, especially for protracted acquisitions. Here, we designed an experiment with an arrangement to embed biological sample replicates to measure the variance within and between batches for over 1,000 human plasma samples run over 44 days. We integrate these replicates in a novel workflow to remove unwanted variation in a hierarchical structure (hRUV) by progressively merging the adjustments in neighbouring batches. We demonstrate significant improvement of hRUV over existing methods in maintaining biological signals whilst removing unwanted variation for large scale metabolomics studies.
0

CytofRUV: Removing unwanted variation to integrate multiple CyTOF datasets

Marie Trussart et al.Jun 3, 2024
+3
T
C
M
Mass cytometry (CyTOF) is a technology that has revolutionised single cell biology. One illuminating application of CyTOF has been in understanding the mechanisms of blood cancer resistance to therapy. Longitudinal studies of clinical cohorts during drug treatment provide a deeper understanding of the molecular changes that underlie sensitivity or resistance to treatment in each patient. However, understanding the biological impact of a cancer drug in such studies necessitates the integration of multiple CyTOF batches. To date, the integration of CyTOF datasets remains a challenge due to technical differences arising in multiple batches. To overcome this limitation, we developed an approach called CytofRUV for analysing multiple CyTOF batches which includes an R-Shiny application with diagnostics plots. CytofRUV can correct for batch effects and integrate data from large numbers of patients and conditions across batches, to confidently compare cellular changes and correlate these with clinically relevant outcomes.
19

A species-specific retrotransposon drives a conserved Cdk2ap1 isoform essential for preimplantation development

A Modzelewski et al.Oct 24, 2023
+11
J
W
A
Abstract Retrotransposons mediate gene regulation in multiple developmental and pathological processes. Here, we characterized the transient retrotransposon induction in preimplantation development of eight mammalian species. While species-specific in sequences, induced retrotransposons exhibit a similar preimplantation profile, conferring gene regulatory activities particularly through LTR retrotransposon promoters. We investigated a mouse-specific MT2B2 retrotransposon promoter, which generates an N-terminally truncated, preimplantation-specific Cdk2ap1 ΔN isoform to promote cell proliferation. Cdk2ap1 ΔN functionally contrasts to the canonical Cdk2ap1 , which represses cell proliferation and peaks in mid-gestation stage. The mouse-specific MT2B2 element is developmentally essential, as its deletion abolishes Cdk2ap1 ΔN , reduces cell proliferation and impairs embryo implantation. Intriguingly, Cdk2ap1 Δ N is evolutionarily conserved across mammals, driven by species-specific promoters. The distinct preimplantation Cdk2ap1 Δ N expression across different mammalian species correlates with their different duration in preimplantation development. Hence, species-specific transposon promoters can yield evolutionarily conserved, alternative protein isoforms, bestowing them with new functions and species-specific expression to govern essential biological divergence. One Sentence Summary In mammalian preimplantation embryos, retrotransposon promoters generate conserved gene isoforms, confer species-specific expression, and perform essential developmental functions.
1

Removing unwanted variation from large-scale cancer RNA-sequencing data

Ramyar Molania et al.Oct 24, 2023
+5
J
M
R
Abstract The accurate identification and effective removal of unwanted variation are essential to derive meaningful biological results from RNA-seq data, especially when the data come from large and complex studies. We have used The Cancer Genome Atlas (TCGA) RNA-seq data to show that library size, batch effects, and tumor purity are major sources of unwanted variation across all TCGA RNA-seq datasets and that existing gold standard approaches to normalizations fail to remove this unwanted variation. Additionally, we illustrate how different sources of unwanted variation can compromise downstream analyses, including gene co-expression, association between gene expression and survival outcomes, and cancer subtype identifications. Here, we propose the use of a novel strategy, pseudo-replicates of pseudo-samples (PRPS), to deploy the Removing Unwanted Variation III (RUV-III) method to remove different sources of unwanted variation from large and complex gene expression studies. Our approach requires at least one roughly known biologically homogenous subclass of samples shared across sources of unwanted variation. To create PRPS, we first need to identify the sources of unwanted variation, which we will call batches in the data. Then the gene expression measurements of biologically homogeneous sets of samples are averaged within batches, and the results called pseudo-samples. Pseudo-samples with the same biology and different batches are then defined to be pseudo-replicates and used in RUV-III as replicates. The variation between pseudo-samples of a set pseudo-replicates is mainly unwanted variation. We illustrate the value of our approach by comparing it to the TCGA normalizations on several TCGA RNA-seq datasets. RUV-III with PRPS can be used for any large genomics project involving multiple labs, technicians, or platforms.
1

RUV-III-NB: Normalization of single cell RNA-seq Data

Agus Salim et al.Oct 24, 2023
+3
J
R
A
Abstract Despite numerous methodological advances, the normalization of single cell RNA-seq (scRNA-seq) data remains a challenging task and the performance of different methods can vary greatly across datasets. Part of the reason for this is the different kinds of unwanted variation, including library size, batch and cell cycle effects, and the association of these with the biology embodied in the cells. A normalization method that does not explicitly take into account cell biology risks removing some of the signal of interest. Furthermore, most normalization methods remove the effects of unwanted variation for the cell embedding used for clustering-based analysis but not from gene-level data typically used for differential expression (DE) analysis to identify marker genes. Here we propose RUV-III-NB, a statistical method that can be used to remove unwanted variation from both the cell embedding and gene-level counts. RUV-III-NB explicitly takes into account its potential association with biology when removing unwanted variation via the use of pseudo-replicates. The method can be used for both UMI or sequence read counts and returns adjusted counts that can be used for downstream analyses such as clustering, DE and pseudotime analyses. Using five publicly available datasets that encompass different technological platforms, kinds of biology and levels of association between biology and unwanted variation, we show that RUV-III-NB manages to remove library size and batch effects, strengthen biological signals, improve differential expression analyses, and lead to results exhibiting greater concordance with independent datasets of the same kind. The performance of RUV-III-NB is consistent across the five datasets and is not sensitive to the number of factors assumed to contribute to the unwanted variation. It also shows promise for removing other kinds of unwanted variation such as platform effects. The method is implemented as a publicly available R package available from https://github.com/limfuxing/ruvIIInb .
18

The ratio of exhausted to resident infiltrating lymphocytes is prognostic for colorectal cancer patient outcome

Momeneh Foroutan et al.Oct 24, 2023
+5
A
R
M
Abstract Immunotherapy success in colorectal cancer (CRC) is mainly limited to patients whose tumours exhibit high microsatellite instability (MSI). However, there is variability in treatment outcomes within this group, which is in part driven by the frequency and characteristics of tumour infiltrating immune cells. Indeed, the presence of specific infiltrating immune cell subsets has been shown to correlate with immunotherapy responses and is in many cases prognostic of treatment outcome. Tumour-infiltrating lymphocytes (TILs) can undergo distinct differentiation programs, acquiring features of tissue-residency or exhaustion, a process during which T cells upregulate inhibitory receptors such as PD-1 and loose functionality. While residency and exhaustion programs of CD8 T cells are relatively well-studied, these programs have only recently been appreciated in CD4 T cells and remain largely unknown in tumour-infiltrating natural killer (NK) cells. In this study, we use single cell RNA-seq data to identify signatures of residency and exhaustion in CRC infiltrating lymphocytes, including CD8, CD4 and NK cells. We then test these signatures in independent single cell data from tumour and normal tissue infiltrating immune cells. Further, we use versions of these signatures designed for bulk RNA-seq data to explore tumour intrinsic mutations associated with residency and exhaustion from TCGA data. Finally, using two independent transcriptomic data sets from patients with colon adenocarcinoma, we show that combinations of these signatures, in particular combinations of NK activity signatures, together with tumour-associated signatures, such as TGF-β signalling, are associated with distinct survival outcomes in colorectal cancer patients.
0

Maps of variability in cell lineage trees

D. Hicks et al.May 7, 2020
S
M
T
D
Abstract New approaches to lineage tracking allow the study of cell differentiation over many generations of cells during development in multicellular organisms. Understanding the variability observed in these lineage trees requires new statistical methods. Whereas invariant cell lineages, such as that for the nematode Caenorhabditis elegans , can be described using a lineage map, defined as the fixed pattern of phenotypes overlaid onto the binary tree structure, the variability of cell lineages from higher organisms makes it impossible to draw a single lineage map. Here, we introduce lineage variability maps which describe the pattern of second-order variation throughout the lineage tree. These maps can be undirected graphs of the partial correlations between every lineal position or directed graphs showing the dynamics of bifurcated patterns in each subtree. By using the symmetry invariance of a binary tree to develop a generalized spectral analysis for cell lineages, we show how to infer these graphical models for lineages of any depth from sample sizes of only a few pedigrees. When tested on pedigrees from C. elegans expressing a marker for pharyngeal differentiation potential, the maps recover essential features of the known lineage map. When applied to highly-variable pedigrees monitoring cell size in T lymphocytes, the maps show how most of the phenotype is set by the founder naive T cell. Lineage variability maps thus elevate the concept of the lineage map to the population level, addressing questions about the potency and dynamics of cell lineages and providing a way to quantify the progressive restriction of cell fate with increasing depth in the tree. Author summary Multicellular organisms develop from a single fertilized egg by sequential cell divisions. The progeny from these divisions adopt different traits that are transmitted and modified through many generations. By tracking how cell traits change with each successive cell division throughout the family, or lineage, tree, it has been possible to understand where and how these modifications are controlled at the single-cell level, thereby addressing questions about, for example, the developmental origin of tissues, the sources of differentiation in immune cells, or the relationship between primary tumors and metastases. Such lineages often show large variability, with apparently identical founder cells giving rise to different patterns of descendants. Fundamental scientific questions, such as about the range of possible cell types a cell can give rise to, are often about this variability. To characterize this variation, and thus understand the lineage at the population level, we introduce lineage variability maps. Using data from worm and mammalian cell lineages we show how these maps provide quantifiable answers to questions about any developing lineage, such as the potency of founder cells and the progressive restriction of cell fate at each stage in the tree.
Load More