TG
Tanya Golubchik
Author with expertise in RNA Sequencing Data Analysis
University of Oxford, Open Data Institute, University of Sydney
+ 13 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(46% Open Access)
Cited by:
325
h-index:
48
/
i10-index:
82
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
36

SARS-CoV-2 within-host diversity and transmission

Katrina Lythgoe et al.Mar 12, 2021
+33
L
M
K
Patterns and bottlenecks A year into the severe acute respiratory syndrome coronavirus 2 pandemic, we are experiencing waves of new variants emerging. Some of these variants have worrying functional implications, such as increased transmissibility or antibody treatment escape. Lythgoe et al. have undertaken in-depth sequencing of more than 1000 hospital patients' isolates to find out how the virus is mutating within individuals. Overall, there seem to be consistent and reproducible patterns of within-host virus diversity. The authors observed only one or two variants in most samples, but a few carried many variants. Although the evidence indicates strong purifying selection, including in the spike protein responsible for viral entry, the authors also saw evidence for transmission clusters associated with households and other possible superspreader events. After transmission, most variants fizzled out, but occasionally some initiated ongoing transmission and wider dissemination. Science , this issue p. eabg0821
0

PHYLOSCANNER: Inferring Transmission from Within‐ and Between-Host Pathogen Genetic Diversity

Chris Wymant et al.May 7, 2020
+6
O
M
C
Abstract A central feature of pathogen genomics is that different infectious particles (virions, bacterial cells, etc.) within an infected individual may be genetically distinct, with patterns of relatedness amongst infectious particles being the result of both within-host evolution and transmission from one host to the next. Here we present a new software tool, phyloscanner, which analyses pathogen diversity from multiple infected hosts. phyloscanner provides unprecedented resolution into the transmission process, allowing inference of the direction of transmission from sequence data alone. Multiply infected individuals are also identified, as they harbour subpopulations of infectious particles that are not connected by within-host evolution, except where recombinant types emerge. Low-level contamination is flagged and removed. We illustrate phyloscanner on both viral and bacterial pathogens, namely HIV-1 sequenced on Illumina and Roche 454 platforms, HCV sequenced with the Oxford Nanopore MinION platform, and Streptococcus pneumoniae with sequences from multiple colonies per individual. phyloscanner is available from https://github.com/BDI-pathogens/phyloscanner .
0
Paper
Citation7
0
Save
0

Easy and Accurate Reconstruction of Whole HIV Genomes from Short-Read Sequence Data

Chris Wymant et al.May 7, 2020
+29
A
F
C
Abstract Next-generation sequencing has yet to be widely adopted for HIV. The difficulty of accurately reconstructing the consensus sequence of a quasispecies from reads (short fragments of DNA) in the presence of rapid between- and within-host evolution may have presented a barrier. In particular, mapping (aligning) reads to a reference sequence leads to biased loss of information; this bias can distort epidemiological and evolutionary conclusions. De novo assembly avoids this bias by effectively aligning the reads to themselves, producing a set of sequences called contigs. However contigs provide only a partial summary of the reads, misassembly may result in their having an incorrect structure, and no information is available at parts of the genome where contigs could not be assembled. To address these problems we developed the tool shiver to preprocess reads for quality and contamination, then map them to a reference tailored to the sample using corrected contigs supplemented with existing reference sequences. Run with two commands per sample, it can easily be used for large heterogeneous data sets. We use shiver to reconstruct the consensus sequence and minority variant information from paired-end short-read data produced with the Illumina platform, for 65 existing publicly available samples and 50 new samples. We show the systematic superiority of mapping to shiver ’s constructed reference over mapping the same reads to the standard reference HXB2: an average of 29 bases per sample are called differently, of which 98.5% are supported by higher coverage. We also provide a practical guide to working with imperfect contigs.
0
Paper
Citation5
0
Save
13

Viral burdens are associated with age and viral variant in a population-representative study of SARS-CoV-2 that accounts for time-since-infection related sampling bias

Helen Fryer et al.Oct 24, 2023
+22
M
T
H
Abstract In this study, we evaluated the impact of viral variant, in addition to other variables, on within-host viral burdens, by analysing cycle threshold (Ct) values derived from nose and throat swabs, collected as part of the UK COVID-19 Infection Survey. Because viral burden distributions determined from community survey data can be biased due to the impact of variant epidemiology on the time-since-infection of samples, we developed a method to explicitly adjust observed Ct value distributions to account for the expected bias. Analysing the adjusted Ct values using partial least squares regression, we found that among unvaccinated individuals with no known prior infection, the average Ct value was 0.94 lower among Alpha variant infections, compared those with the predecessor strain, B.1.177. However, among vaccinated individuals, it was 0.34 lower among Delta variant infections, compared to those with the Alpha variant. In addition, the average Ct value decreased by 0.20 for every 10 year age increment of the infected individual. In summary, within-host viral burdens are associated with age, in addition to the interplay of vaccination status and viral variant.
0

Reconstruction of the historic time course of blood‐borne virus contamination of clotting factor concentrates, 1974–1992

C. McClure et al.Sep 12, 2024
+11
K
K
C
Abstract Factor VIII and IX clotting factor concentrates manufactured from pooled plasma have been identified as potent sources of virus infection in persons with hemophilia (PWHs) in the 1970s and 1980s. To investigate the range and diversity of viruses over this period, we analysed 24 clotting factor concentrates for several blood‐borne viruses. Nucleic acid was extracted from 14 commercially produced clotting factors and 10 from nonremunerated donors, preserved in lyophilized form (expiry dates: 1974–1992). Clotting factors were tested by commercial and in‐house quantitative PCRs for blood‐borne viruses hepatitis A, B, C and E viruses (HAV, HBV, HCV, HEV), HIV‐ types 1/2, parvoviruses B19V and PARV4, and human pegiviruses types 1 and 2 (HPgV‐1,‐2). HCV and HPgV‐1 were the most frequently detected viruses (both 14/24 tested) primarily in commercial clotting factors, with frequently extremely high viral loads in the late 1970s–1985 and a diverse range of HCV genotypes. Detection frequencies sharply declined following introduction of virus inactivation. HIV‐1, HBV, and HAV were less frequently detected (3/24, 1/24, and 1/24 respectively); none were positive for HEV. Contrastingly, B19V and PARV4 were detected throughout the study period, even after introduction of dry heat treatment, consistent with ongoing documented transmission to PWHs into the early 1990s. While hemophilia treatment is now largely based on recombinant factor VIII/IX in the UK and elsewhere, the comprehensive screen of historical plasma‐derived clotting factors reveals extensive exposure of PWHs to blood‐borne viruses throughout 1970s‐early 1990s, and the epidemiological and manufacturing parameters that influenced clotting factor contamination.
0

A comprehensive genomics solution for HIV surveillance and clinical monitoring in a global health setting

Robert Ssekubugu et al.May 6, 2020
+18
M
T
R
High-throughput viral genetic sequencing is needed to monitor the spread of drug resistance, direct optimal antiretroviral regimes, and to identify transmission dynamics in generalised HIV epidemics. Public health efforts to sequence HIV genomes at scale face three major technical challenges: (i) minimising assay cost and protocol complexity, (ii) maximising sensitivity, and (iii) recovering accurate and unbiased sequences of both the genome consensus and the within-host viral diversity. Here we present a novel, high-throughput, virus-enriched sequencing method and computational pipeline tailored specifically to HIV (veSEQ-HIV), which addresses all three technical challenges, and can be used directly on leftover blood drawn for routine CD4 testing. We demonstrate its performance on 1,620 plasma samples collected from consenting individuals attending 10 large urban clinics in Zambia, partners of HPTN 071 (PopART). We show that veSEQ-HIV consistently recovers complete HIV genomes from the majority of samples of different subtypes, and is also quantitative: the number of HIV reads per sample obtained by veSEQ-HIV estimates viral load without the need for additional testing. Both quantitativity and sensitivity were assessed on a subset of 126 samples with clinically measured viral loads, and with standardized quantification controls (VL 100 - 5,000,000 RNA copies/ml). Complete HIV genomes were recovered from 93% (85/91) of samples when viral load was over 1,000 copies per ml. The quantitative nature of the assay implies that variant frequencies estimated with veSEQ-HIV are representative of true variant frequencies in the sample. Detection of minority variants can be exploited for epidemiological analysis of transmission and drug resistance, and we show how the information contained in individual reads of a veSEQ-HIV sample can be used to detect linkage between multiple mutations associated with resistance to antiretroviral therapy. Less than 2% of reads obtained by veSEQ-HIV were identified as in silico contamination events using updates to the phyloscanner software (phyloscanner clean) that we show to be 95% sensitive and 99% specific at 'decontaminating' NGS data. The cost of the assay - approximately 45 USD per sample - compares favourably with existing VL and HIV genotyping tests, and provides the additional value of viral load quantification and inference of drug resistance with a single test. veSEQ-HIV is well suited to large public health efforts and is being applied to all ~9000 samples collected for the HPTN 071-2 (PopART Phylogenetics) study.* David Bonsall and Tanya Golubchik contributed equally. ** Mariateresa de Cesare and Mohammed Limbada contributed equally.
0

Rapid antibiotic resistance predictions from genome sequence data for S. aureus and M. tuberculosis.

Phelim Bradley et al.May 6, 2020
+25
T
N
P
Rapid and accurate detection of antibiotic resistance in pathogens is an urgent need, affecting both patient care and population-scale control. Microbial genome sequencing promises much, but many barriers exist to its routine deployment. Here, we address these challenges, using a de Bruijn graph comparison of clinical isolate and curated knowledge-base to identify species and predict resistance profile, including minor populations. This is implemented in a package, Mykrobe predictor, for S. aureus and M. tuberculosis, running in under three minutes on a laptop from raw data. For S. aureus, we train and validate in 495/471 samples respectively, finding error rates comparable to gold-standard phenotypic methods, with sensitivity/specificity of 99.3%/99.5% across 12 drugs. For M. tuberculosis, we identify species and predict resistance with specificity of 98.5% (training/validating on 1920/1609 samples). Sensitivity of 82.6% is limited by current understanding of genetic mechanisms. We also show that analysis of minor populations increases power to detect phenotypic resistance in second-line drugs without appreciable loss of specificity. Finally, we demonstrate feasibility of an emerging single-molecule sequencing technique.
0

Human Herpes Virus 6 (HHV-6) - Pathogen or Passenger? A pilot study of clinical laboratory data and next generation sequencing

Colin Sharp et al.May 7, 2020
+9
W
T
C
Human herpes virus 6 (HHV-6) is a ubiquitous organism that can cause a variety of clinical syndromes ranging from short-lived rash and fever through to life-threatening encephalitis. We set out to generate observational data regarding the epidemiology of HHV-6 infection in clinical samples from a UK teaching hospital and to compare different diagnostic approaches. First, we scrutinized HHV-6 detection in samples submitted to our hospital laboratory through routine diagnostic pathways. Second, we undertook a pilot study using Illumina next generation sequencing (NGS) to determine the frequency of HHV-6 in CSF and respiratory samples that were initially submitted to the laboratory for other diagnostic tests. Of 72 samples tested for HHV-6 by PCR at the request of a clinician, 24 (33%) were positive for HHV-6. The majority of these patients were under the care of the haematology team (30/41, 73%), and there was a borderline association between HHV-6 detection and both Graft versus Host Disease (GvHD) and Central nervous system (CNS) disease (p=0.05 in each case). We confirmed detection of HHV-6 DNA using NGS (Illumina) in 4/20 (20%) CSF and respiratory samples, demonstrating that NGS can be used to identify HHV-6 from a complex microbiome. Further controls are required to define the sensitivity and specificity of this test, and to correlate the results with clinical disease.
0

Severe infections emerge from the microbiome by adaptive evolution

Bernadette Young et al.May 6, 2020
+17
N
C
B
Bacteria responsible for the greatest global mortality colonize the human microbiome far more frequently than they cause severe infections. Whether mutation and selection within the microbiome accompany infection is unknown. We investigated de novo mutation in 1163 Staphylococcus aureus genomes from 105 infected patients with nose-colonization. We report that 72% of infections emerged from the microbiome, with infecting and nose-colonizing bacteria showing parallel adaptive differences. We found 2.8-to-3.6-fold enrichments of protein-altering variants in genes responding to rsp, which regulates surface antigens and toxicity; agr, which regulates quorum-sensing, toxicity and abscess formation; and host-derived antimicrobial peptides. Adaptive mutations in pathogenesis-associated genes were 3.1-fold enriched in infecting but not nose-colonizing bacteria. None of these signatures were observed in healthy carriers nor at the species-level, suggesting disease-associated, short-term, within-host selection pressures. Our results show that infection, like a cancer of the microbiome, emerges through spontaneous adaptive evolution, raising new possibilities for diagnosis and treatment
3

Directional predictions of HIV transmission with optimised genomics in cohorts of serodiscordant couples

Lele Zhao et al.Oct 22, 2023
+12
C
M
L
Viral genetic information from people living with HIV can deepen our understanding of the infection’s epidemiology at many scales. To better understand the potentials and limits of tools that utilise such information, we show the performance of two representative tools (HIV-TRACE and phyloscanner) in describing HIV transmission dynamics, with different types of genetic data, and compare with previous findings. The samples were collected from three cohort studies in Sub-Saharan Africa and were deep sequenced to produce both short Illumina reads and long PacBio reads. By comparing phyloscanner’s performance with short and long reads, we show that long reads provide improved phylogenetic resolution for the classic transmission topology in joint within-host trees. Our pipeline accurately predicted the direction of transmission 88%-92% of the time. We also show that the timing of sample collection plays an important role in the reconstruction of directionality using deep sequencing data. Consensus sequences were also generated and used as HIV-TRACE input to show different patterns of clustering sensitivity and specificity for data from different genomic regions or the entire genome. Finally, we discuss adjusting expectations about sensitivity and specificity of different types of sequence data, considering rapid pathogen evolution, and highlight the potentials of high within-host phylogenetic resolution in HIV. In conclusion, viral genetic data collected and presented differently could greatly influence our ability to describe the underlying dynamics. Methods for source attribution analysis have reached levels of superior accuracy. However, residual uncertainty emphasizes sequence analysis alone cannot conclusively prove linkage at the individual level.
Load More