MS
Martin Smith
Author with expertise in RNA Sequencing Data Analysis
Centre Hospitalier Universitaire Sainte-Justine, Université de Montréal, UNSW Sydney
+ 7 more
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
16
(38% Open Access)
Cited by:
3
h-index:
47
/
i10-index:
100
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
26

Data-driven approaches for genetic characterization of SARS-CoV-2 lineages

Fatima Mostefai et al.Oct 24, 2023
+14
J
I
F
Abstract The genome of the Severe Acute Respiratory Syndrome coronavirus 2 (SARS-CoV-2), the pathogen that causes coronavirus disease 2019 (COVID-19), has been sequenced at an unprecedented scale, leading to a tremendous amount of viral genome sequencing data. To understand the evolution of this virus in humans, and to assist in tracing infection pathways and designing preventive strategies, we present a set of computational tools that span phylogenomics, population genetics and machine learning approaches. To illustrate the utility of this toolbox, we detail an in depth analysis of the genetic diversity of SARS-CoV-2 in first year of the COVID-19 pandemic, using 329,854 high-quality consensus sequences published in the GISAID database during the pre-vaccination phase. We demonstrate that, compared to standard phylogenetic approaches, haplotype networks can be computed efficiently on much larger datasets, enabling real-time analyses. Furthermore, time series change of Tajima’s D provides a powerful metric of population expansion. Unsupervised learning techniques further highlight key steps in variant detection and facilitate the study of the role of this genomic variation in the context of SARS-CoV-2 infection, with Multiscale PHATE methodology identifying fine-scale structure in the SARS-CoV-2 genetic data that underlies the emergence of key lineages. The computational framework presented here is useful for real-time genomic surveillance of SARS-CoV-2 and could be applied to any pathogen that threatens the health of worldwide populations of humans and other organisms.
26
Paper
Citation2
0
Save
25

The mutational landscape of SARS-CoV-2 variants diversifies T cell targets in an HLA supertype-dependent manner

David Hamelin et al.Oct 24, 2023
+13
J
D
D
SUMMARY The rapid, global dispersion of SARS-CoV-2 since its initial identification in December 2019 has led to the emergence of a diverse range of variants. The initial concerns regarding the virus were quickly compounded with concerns relating to the impact of its mutated forms on viral infectivity, pathogenicity and immunogenicity. To address the latter, we seek to understand how the mutational landscape of SARS-CoV-2 has shaped HLA-restricted T cell immunity at the population level during the first year of the pandemic, before mass vaccination. We analyzed a total of 330,246 high quality SARS-CoV-2 genome assemblies sampled across 143 countries and all major continents. Strikingly, we found that specific mutational patterns in SARS-CoV-2 diversify T cell epitopes in an HLA supertype-dependent manner. In fact, we observed that proline residues are preferentially removed from the proteome of prevalent mutants, leading to a predicted global loss of SARS-CoV-2 T cell epitopes in individuals expressing HLA-B alleles of the B7 supertype family. In addition, we show that this predicted global loss of epitopes is largely driven by a dominant C-to-U mutation type at the RNA level. These results indicate that B7 supertype-associated epitopes, including the most immunodominant ones, were more likely to escape CD8+ T cell immunosurveillance during the first year of the pandemic. Together, our study lays the foundation to help understand how SARS-CoV-2 mutants shape the repertoire of T cell targets and T cell immunity across human populations. The proposed theoretical framework has implications in viral evolution, disease severity, vaccine resistance and herd immunity.
25
Paper
Citation1
0
Save
0

Barcoding and demultiplexing Oxford Nanopore native RNA sequencing reads with deep residual learning

Martin Smith et al.May 7, 2020
+6
J
T
M
Nanopore sequencing has enabled sequencing of native RNA molecules without conversion to cDNA, thus opening the gates to a new era for the unbiased study of RNA biology. However, a formal barcoding protocol for direct sequencing of native RNA molecules is currently lacking, limiting the efficient processing of multiple samples in the same flowcell. A major limitation for the development of barcoding protocols for direct RNA sequencing is the error rate introduced during the base-calling process, especially towards the 5’ and 3’ ends of reads, which complicates sequence-based barcode demultiplexing. Here, we propose a novel strategy to barcode and demultiplex direct RNA sequencing nanopore data, which does not rely on base-calling or additional library preparation steps. Specifically, custom DNA oligonucleotides are ligated to RNA transcripts during library preparation. Then, raw current signal corresponding to the DNA barcode is extracted and transformed into an array of pixels, which is used to determine the underlying barcode using a deep convolutional neural network classifier. Our method, DeePlexiCon , implements a 20-layer residual neural network model that can demultiplex 93% of the reads with 95.1% specificity, or 60% of reads with 99.9% specificity. The availability of an efficient and simple barcoding strategy for native RNA sequencing will enhance the use of direct RNA sequencing by making it more cost-effective to the entire community. Moreover, it will facilitate the applicability of direct RNA sequencing to samples where the RNA amounts are limited, such as patient-derived samples.
0

GPU Accelerated Adaptive Banded Event Alignment for Rapid Comparative Nanopore Signal Analysis

Hasindu Gamaarachchi et al.May 7, 2020
+4
G
C
H
Nanopore sequencing has the potential to revolutionise genomics by realising portable, real-time sequencing applications, including point-of-care diagnostics and in-the-field genotyping. Achieving these applications requires efficient bioinformatic algorithms for the analysis of raw nanopore signal data. For instance, comparing raw nanopore signals to a biological reference sequence is a computationally complex task despite leveraging a dynamic programming algorithm for Adaptive Banded Event Alignment (ABEA)-a commonly used approach to polish sequencing data and identify non-standard nucleotides, such as measuring DNA methylation. Here, we parallelise and optimise an implementation of the ABEA algorithm (termed f5c) to efficiently run on heterogeneous CPU-GPU architectures. By optimising memory, compute and load balancing between CPU and GPU, we demonstrate how f5c can perform ~3-5X faster than the original implementation of ABEA in the Nanopolish software package. We also show that f5c enables DNA methylation detection on-the-fly using an embedded System on Chip (SoC) equipped with GPUs. Our work not only demonstrates that complex genomics analyses can be performed on lightweight computing systems, but also benefits High-Performance Computing (HPC). The associated source code for f5c along with GPU optimised ABEA is available at https://github.com/hasindu2008/f5c.
20

DNA methylation is required to maintain DNA replication timing precision and 3D genome integrity

Qian Du et al.Oct 24, 2023
+17
P
G
Q
Abstract DNA replication timing and three-dimensional (3D) genome organisation occur across large domains associated with distinct epigenome patterns to functionally compartmentalise genome regulation. However, it is still unclear if alternations in the epigenome, in particular cancer-related DNA hypomethylation, can directly result in alterations to cancer higher order genome architecture. Here, we use Hi-C and single cell Repli-Seq, in the colorectal cancer DNMT1 and DNMT3B DNA methyltransferases double knockout model, to determine the impact of DNA hypomethylation on replication timing and 3D genome organisation. First, we find that the hypomethylated cells show a striking loss of replication timing precision with gain of cell-to-cell replication timing heterogeneity and loss of 3D genome compartmentalisation. Second, hypomethylated regions that undergo a large change in replication timing also show loss of allelic replication timing, including at cancer-related genes. Finally, we observe the formation of broad ectopic H3K4me3-H3K9me3 domains across hypomethylated regions where late replication is maintained, that potentially prevent aberrant transcription and loss of genome organisation after DNA demethylation. Together, our results highlight a previously underappreciated role for DNA methylation in maintenance of 3D genome architecture.
0

High-throughput targeted long-read single cell sequencing reveals the clonal and transcriptional landscape of lymphocytes

Mandeep Singh et al.May 6, 2020
+11
S
G
M
High-throughput single-cell RNA-Sequencing is a powerful technique for gene expression profiling of complex and heterogeneous cellular populations such as the immune system. However, these methods only provide short-read sequence from one end of a cDNA template, making them poorly suited to the investigation of gene-regulatory events such as mRNA splicing, adaptive immune responses or somatic genome evolution. To address this challenge, we have developed a method that combines targeted long-read sequencing with short-read based transcriptome profiling of barcoded single cell libraries generated by droplet-based partitioning. We use Repertoire And Gene Expression sequencing (RAGE-seq) to accurately characterize full-length T cell (TCR) and B cell (BCR) receptor sequences and transcriptional profiles of more than 7,138 lymphocytes sampled from the primary tumour and draining lymph node of a breast cancer patient. With this method we show that somatic mutation, alternate splicing and clonal evolution of T and B lymphocytes can be tracked across these tissue compartments. Our results demonstrate that RAGE-Seq is an accessible and cost-effective method for high-throughput deep single cell profiling, applicable to a wide range of biological challenges.
0

SquiggleKit: A toolkit for manipulating nanopore signal data

James Ferguson et al.May 6, 2020
M
J
The management of raw nanopore sequencing data poses a challenge that must be overcome to accelerate the development of new bioinformatics algorithms predicated on signal analysis. SquiggleKit is a toolkit for manipulating and interrogating nanopore data that simplifies file handling, data extraction, visualisation, and signal processing. Its modular tools can be used to reduce file numbers and memory footprint, identify poly-A tails, target barcodes, adapters, and find nucleotide sequence motifs in raw nanopore signal, amongst other applications. SquiggleKit serves as a bioinformatics portal into signal space, for novice and experienced users alike. It is comprehensively documented, simple to use, cross-platform compatible and freely available from (https://github.com/Psy-Fer/SquiggleKit).
0

CellSpecks: A Software for Automated Detection and Analysis of Calcium Channels in Live Cells

S. Shah et al.May 7, 2020
+3
D
M
S
To couple the fidelity of patch-clamp recording with a more high-throughput screening capability, we pioneered a novel approach to single channel recording that we named optical patch clamp. By using highly-sensitive fluorescent Ca2+ indicator dyes in conjunction with total internal fluorescence microscopy techniques, we monitor Ca2+ flux through individual Ca2+-permeable channels. This approach provides information about channel gating analogous to patch-clamp recording at time resolution of ~ 2 ms, with the additional advantage of being massively parallel, providing simultaneous and independent recording from thousands of channels in native environment. However, manual analysis of the data generated by this technique presents severe challenges as a video recording can include many thousands of frames. To overcome this bottleneck, we developed an image processing and analysis framework called CellSpecks, capable of detecting and fully analyzing the kinetics of ion channels within a video sequence. By using a randomly generated synthetic data, we tested the ability of CellSpecks to rapidly and efficiently detect and analyze the activity of thousands of ion channels, including openings for a few milliseconds. Here, we report the use of CellSpecks for the analysis of experimental data acquired by imaging muscle nicotinic acetylcholine receptors and the Alzheimer's disease-associated amyloid beta pores with multi-conductance levels in the plasma membrane of Xenopus laevis oocytes. We show that CellSpecks can accurately and efficiently generate location maps, create raw and processed fluorescence time-traces, histograms of mean open times, mean close times, open probabilities, durations, and maximum amplitudes, and a channel chip showing the activity of all channels as a function of time. Although we specifically illustrate the application of CellSpecks for analyzing data from Ca2+ channels, it can be easily customized to analyze other spatially and temporally localized signals.
0

Comparisons of dual isogenic human iPSC pairs identify functional alterations directly caused by an epilepsy associated SCN1A mutation

Yunyao Xie et al.May 7, 2020
+5
O
N
Y
Over 1250 mutations in SCN1A , the Nav1.1 voltage-gated sodium channel gene, are associated with seizure disorders including GEFS+. To evaluate how a specific mutation, independent of genetic background, causes seizure activity we generated two pairs of isogenic human iPSC lines by CRISPR/Cas9 gene editing. One pair is a control line from an unaffected sibling, and the mutated control carrying the GEFS+ K1270T SCN1A mutation. The second pair is a GEFS+ patient line with the K1270T mutation, and the corrected patient line. By comparing the electrophysiological properties in inhibitory and excitatory iPSC-derived neurons from these pairs, we found the K1270T mutation causes cell type-specific alterations in sodium current density and evoked firing, resulting in hyperactive neural networks. We also identified differences associated with genetic background and interaction between the mutation and genetic background. Comparisons within and between dual pairs of isogenic iPSC-derived neuronal cultures provide a novel platform for evaluating cellular mechanisms underlying a disease phenotype and for developing patient-specific anti-seizure therapies.
0

Featherweight long read alignment using partitioned reference indexes

Hasindu Gamaarachchi et al.May 7, 2020
M
S
H
The advent of nanopore sequencing has realised portable genomic research and applications. However, state of the art long read aligners and large reference genomes are not compatible with most mobile computing devices due to their high memory requirements. We show how memory requirements can be reduced through parameter optimization and reference genome partitioning, but highlight the associated limitations and caveats of these approaches. We then demonstrate how these issues can be overcome through an appropriate merging technique. We extend the Minimap2 aligner and demonstrate that long read alignment to the human genome can be performed on a system with 2GB RAM with negligible impact on accuracy.
Load More