TS
Terrance Shea
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(70% Open Access)
Cited by:
9,619
h-index:
28
/
i10-index:
37
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Pilon: An Integrated Tool for Comprehensive Microbial Variant Detection and Genome Assembly Improvement

Bruce Walker et al.Nov 19, 2014
+8
T
T
B
Advances in modern sequencing technologies allow us to generate sufficient data to analyze hundreds of bacterial genomes from a single machine in a single day. This potential for sequencing massive numbers of genomes calls for fully automated methods to produce high-quality assemblies and variant calls. We introduce Pilon, a fully automated, all-in-one tool for correcting draft assemblies and calling sequence variants of multiple sizes, including very large insertions and deletions. Pilon works with many types of sequence data, but is particularly strong when supplied with paired end data from two Illumina libraries with small e.g., 180 bp and large e.g., 3-5 Kb inserts. Pilon significantly improves draft genome assemblies by correcting bases, fixing mis-assemblies and filling gaps. For both haploid and diploid genomes, Pilon produces more contiguous genomes with fewer errors, enabling identification of more biologically relevant genes. Furthermore, Pilon identifies small variants with high accuracy as compared to state-of-the-art tools and is unique in its ability to accurately identify large sequence variants including duplications and resolve large insertions. Pilon is being used to improve the assemblies of thousands of new genomes and to identify variants from thousands of clinically relevant bacterial strains. Pilon is freely available as open source software.
0
Citation7,334
0
Save
0

High-quality draft assemblies of mammalian genomes from massively parallel sequence data

Sante Gnerre et al.Dec 27, 2010
+17
D
I
S
Massively parallel DNA sequencing technologies are revolutionizing genomics by making it possible to generate billions of relatively short (~100-base) sequence reads at very low cost. Whereas such data can be readily used for a wide range of biomedical applications, it has proven difficult to use them to generate high-quality de novo genome assemblies of large, repeat-rich vertebrate genomes. To date, the genome assemblies generated from such data have fallen far short of those obtained with the older (but much more expensive) capillary-based sequencing approach. Here, we report the development of an algorithm for genome assembly, ALLPATHS-LG, and its application to massively parallel DNA sequence data from the human and mouse genomes, generated on the Illumina platform. The resulting draft genome assemblies have good accuracy, short-range contiguity, long-range connectivity, and coverage of the genome. In particular, the base accuracy is high (≥99.95%) and the scaffold sizes (N50 size = 11.5 Mb for human and 7.2 Mb for mouse) approach those obtained with capillary-based sequencing. The combination of improved sequencing technology and improved computational methods should now make it possible to increase dramatically the de novo sequencing of large genomes. The ALLPATHS-LG program is available at http://www.broadinstitute.org/science/programs/genome-biology/crd .
0
Citation1,574
0
Save
0

Sequence and analysis of chromosome 2 of the plant Arabidopsis thaliana

Xiaoying Lin et al.Dec 1, 1999
+34
C
S
X
Arabidopsis thaliana (Arabidopsis) is unique among plant model organisms in having a small genome (130–140 Mb), excellent physical and genetic maps, and little repetitive DNA. Here we report the sequence of chromosome 2 from the Columbia ecotype in two gap-free assemblies (contigs) of 3.6 and 16 megabases (Mb). The latter represents the longest published stretch of uninterrupted DNA sequence assembled from any organism to date. Chromosome 2 represents 15% of the genome and encodes 4,037 genes, 49% of which have no predicted function. Roughly 250 tandem gene duplications were found in addition to large-scale duplications of about 0.5 and 4.5 Mb between chromosomes 2 and 1 and between chromosomes 2 and 4, respectively. Sequencing of nearly 2 Mb within the genetically defined centromere revealed a low density of recognizable genes, and a high density and diverse range of vestigial and presumably inactive mobile elements. More unexpected is what appears to be a recent insertion of a continuous stretch of 75% of the mitochondrial genome into chromosome 2.
0
Citation710
0
Save
0

Whole Genome Deep Sequencing of HIV-1 Reveals the Impact of Early Minor Variants Upon Immune Recognition During Acute Infection

Matthew Henn et al.Mar 8, 2012
+45
P
C
M
Deep sequencing technologies have the potential to transform the study of highly variable viral pathogens by providing a rapid and cost-effective approach to sensitively characterize rapidly evolving viral quasispecies. Here, we report on a high-throughput whole HIV-1 genome deep sequencing platform that combines 454 pyrosequencing with novel assembly and variant detection algorithms. In one subject we combined these genetic data with detailed immunological analyses to comprehensively evaluate viral evolution and immune escape during the acute phase of HIV-1 infection. The majority of early, low frequency mutations represented viral adaptation to host CD8+ T cell responses, evidence of strong immune selection pressure occurring during the early decline from peak viremia. CD8+ T cell responses capable of recognizing these low frequency escape variants coincided with the selection and evolution of more effective secondary HLA-anchor escape mutations. Frequent, and in some cases rapid, reversion of transmitted mutations was also observed across the viral genome. When located within restricted CD8 epitopes these low frequency reverting mutations were sufficient to prime de novo responses to these epitopes, again illustrating the capacity of the immune response to recognize and respond to low frequency variants. More importantly, rapid viral escape from the most immunodominant CD8+ T cell responses coincided with plateauing of the initial viral load decline in this subject, suggestive of a potential link between maintenance of effective, dominant CD8 responses and the degree of early viremia reduction. We conclude that the early control of HIV-1 replication by immunodominant CD8+ T cell responses may be substantially influenced by rapid, low frequency viral adaptations not detected by conventional sequencing approaches, which warrants further investigation. These data support the critical need for vaccine-induced CD8+ T cell responses to target more highly constrained regions of the virus in order to ensure the maintenance of immunodominant CD8 responses and the sustained decline of early viremia.
0
Citation338
0
Save
1

Chromosome-level genome assembly of a human fungal pathogen reveals synteny among geographically distinct species

Mark Voorhies et al.Jul 13, 2021
+8
T
S
M
Abstract Histoplasma capsulatum , a dimorphic fungal pathogen, is the most common cause of fungal respiratory infections in immunocompetent hosts. Histoplasma is endemic in the Ohio and Mississippi River Valleys in the United States and also distributed worldwide. Previous studies revealed at least eight clades, each specific to a geographic location: North American classes 1 and 2 (NAm 1 and NAm 2), Latin American groups A and B (LAm A and LAm B), Eurasian, Netherlands, Australian and African, and an additional distinct lineage (H81) comprised of Panamanian isolates. Previously assembled Histoplasma genomes are highly fragmented, with the highly repetitive G217B (NAm 2) strain, which has been used for most whole genome-scale transcriptome studies, assembled into over 250 contigs. In this study, we set out to fully assemble the repeat regions and characterize the large-scale genome architecture of Histoplasma species. We re-sequenced five Histoplasma strains (WU24 (NAm 1), G217B (NAm 2), H88 (African), G186AR (Panama), and G184AR (Panama)) using Oxford Nanopore Technologies long-read sequencing technology. Here we report chromosomal-level assemblies for all five strains, which exhibit extensive synteny among the geographically distant Histoplasma isolates. The new assemblies revealed that RYP2 , a major regulator of morphology and virulence, is duplicated in G186AR. In addition, we mapped previously generated transcriptome datasets onto the newly assembled chromosomes. Our analyses revealed that the expression of transposons and transposon-embedded genes are upregulated in yeast phase compared to mycelial phase in G217B and H88 strains. This study provides an important resource for fungal researchers and further highlights the importance of chromosomal-level assemblies in analyzing high-throughput datasets. Importance Histoplasma species are dimorphic fungi causing significant morbidity and mortality worldwide. These fungi grow as mold in the soil and as budding yeast within the human host. Histoplasma can be isolated from soil in diverse regions, including North America, South America, Africa and Europe. Phylogenetically distinct species of Histoplasma have been isolated and sequenced. However, for the commonly used strains, genome assemblies have been fragmented, leading to underutilization of genome-scale data. This study provides chromosome-level assemblies of the commonly used Histoplasma strains using long-read sequencing technology. Comparative analysis of these genomes shows largely conserved gene order within the chromosomes. Mapping existing transcriptome data on these new assemblies reveals clustering of transcriptionally co-regulated genes. Results of this study highlight the importance of obtaining chromosome-level assemblies in understanding the biology of human fungal pathogens.
1
Citation1
0
Save
1

Inter-species geographic signatures for tracing horizontal gene transfer and long-term persistence of carbapenem resistance

Rauf Salamzade et al.Dec 9, 2021
+29
C
M
R
Abstract Background Carbapenem-resistant Enterobacterales (CRE) are an urgent global health threat. Inferring the dynamics of local CRE dissemination is currently limited by our inability to confidently trace the spread of resistance determinants to unrelated bacterial hosts. Whole genome sequence comparison is useful for identifying CRE clonal transmission and outbreaks, but high-frequency horizontal gene transfer (HGT) of carbapenem resistance genes and subsequent genome rearrangement complicate tracing the local persistence and mobilization of these genes across organisms. Methods To overcome this limitation, we developed a new approach to identify recent HGT of large, near-identical plasmid segments across species boundaries, which also allowed us to overcome technical challenges with genome assembly. We applied this to complete and near-complete genome assemblies to examine the local spread of CRE in a systematic, prospective collection of all CRE, as well as time- and species-matched carbapenem susceptible Enterobacterales , isolated from patients from four U.S. hospitals over nearly five years. Results Our CRE collection comprised a diverse range of species, lineages and carbapenem resistance mechanisms, many of which were encoded on a variety of promiscuous plasmid types. We found and quantified rearrangement, persistence, and repeated transfer of plasmid segments, including those harboring carbapenemases, between organisms over multiple years. Some plasmid segments were found to be strongly associated with specific locales, thus representing geographic signatures that make it possible to trace recent and localized HGT events. Functional analysis of these signatures revealed genes commonly found in plasmids of nosocomial pathogens, such as functions required for plasmid retention and spread, as well survival against a variety of antibiotic and antiseptics common to the hospital environment. Conclusions Collectively, the framework we developed provides a clearer, high resolution picture of the epidemiology of antibiotic resistance importation, spread, and persistence in patients and healthcare networks.
0

Evolutionary persistence of DNA methylation for millions of years after ancient loss of a de novo methyltransferase

Sandra Catania et al.Jun 13, 2017
+14
H
P
S
Cytosine methylation of DNA is a widespread modification of DNA that plays numerous critical roles, yet has been lost many times in diverse eukaryotic lineages. In the yeast Cryptococcus neoformans , CG methylation occurs in transposon-rich repeats and requires the DNA methyltransferase, Dnmt5. We show that Dnmt5 displays exquisite maintenance-type specificity in vitro and in vivo and utilizes similar in vivo cofactors as the metazoan maintenance methylase Dnmt1. Remarkably, phylogenetic and functional analysis revealed that the ancestral species lost the gene for a de novo methylase, DnmtX, between 50-150 MYA. We examined how methylation has persisted since the ancient loss of DnmtX. Experimental and comparative studies reveal efficient replication of methylation patterns in C. neoformans , rare stochastic methylation loss and gain events, and the action of natural selection. We propose that an epigenome has been propagated for >50 MY through a process analogous to Darwinian evolution of the genome.
0

Whole genome analysis illustrates global clonal population structure of the ubiquitous dermatophyte pathogen Trichophyton rubrum

Gabriela Persinoti et al.Feb 8, 2018
+19
R
W
G
Dermatophytes include fungal species that infect humans, as well as those which also infect other animals or only grow in the environment. The dermatophyte species Trichophyton rubrum is a frequent cause of skin infection in immunocompetent individuals. While members of the T. rubrum species complex have been further categorized based on various morphologies, the population structure and ability to undergo sexual reproduction are not well understood. In this study, we analyze a large set of T. rubrum and Trichophyton interdigitale isolates to examine mating types, evidence of mating, and genetic variation. We find that nearly all isolates of T. rubrum are of a single mating type, and that incubation with T. rubrum morphotype megninii isolates of the other mating type failed to induce sexual development. While the region around the mating type locus is characterized by a higher frequency of SNPs compared to other genomic regions, we find that the population is remarkably clonal, with highly conserved gene content, low levels of variation, and little evidence of recombination. These results support a model of recent transition to asexual growth when this species specialized to growth on human hosts.
0

Comparative genomics ofCryptococcusandKwoniellareveals pathogenesis evolution and contrasting karyotype dynamics via intercentromeric recombination or chromosome fusion

Marco Coelho et al.Dec 27, 2023
+10
T
M
M
Abstract A large-scale comparative genomic analysis was conducted for the global human fungal pathogens within the Cryptococcus genus, compared to non-pathogenic Cryptococcus species, and related species from the sister genus Kwoniella . Chromosome-level genome assemblies were generated for multiple species of both genera, resulting in a dataset encompassing virtually all of their known diversity. Although Cryptococcus and Kwoniella have comparable genome sizes (about 19.2 and 22.9 Mb) and similar gene content, hinting at pre-adaptive pathogenic potential, our analysis found evidence in pathogenic Cryptococcus species of specific examples of gene gain (via horizontal gene transfer) and gene loss, which might represent evolutionary signatures of pathogenic development. Genome analysis also revealed a significant variation in chromosome number and structure between the two genera. By combining synteny analysis and experimental centromere validation, we found that most Cryptococcus species have 14 chromosomes, whereas most Kwoniella species have fewer (11, 8, 5 or even as few as 3). Reduced chromosome number in Kwoniella is associated with formation of giant chromosomes (up to 18 Mb) through repeated chromosome fusion events, each marked by a pericentric inversion and centromere loss. While similar chromosome inversion-fusion patterns were observed in all Kwoniella species with fewer than 14 chromosomes, no such pattern was detected in Cryptococcus . Instead, Cryptococcus species with less than 14 chromosomes, underwent chromosome reductions primarily through rearrangements associated with the loss of repeat-rich centromeres. Additionally, Cryptococcus genomes exhibited frequent interchromosomal translocations, including intercentromeric recombination facilitated by transposons shared between centromeres. Taken together, our findings advance our understanding of genomic changes possibly associated with pathogenicity in Cryptococcus and provide a foundation to elucidate mechanisms of centromere loss and chromosome fusion driving distinct karyotypes in closely related fungal species, including prominent global human pathogens.
0

Chromosomal rearrangements and loss of subtelomeric adhesins linked to clade-specific phenotypes in Candida auris

José Muñoz et al.Sep 5, 2019
+4
T
R
J
Candida auris is an emerging fungal pathogen of rising concern due to its increasing incidence, its ability to cause healthcare-associated outbreaks and antifungal resistance. Genomic analysis revealed that early cases of C. auris that were detected contemporaneously were geographically stratified into four major clades. Clade II, also termed East Asian clade, consists of the initial isolates described from cases of ear infection, is less frequently resistant to antifungal drugs and to date, the isolates from this group have not been associated with outbreaks. Here, we generate nearly complete genomes ('telomere-to-telomere') of an isolate of this clade and of the more widespread Clade IV. By comparing these to genome assemblies of the other two clades, we find that the Clade II genome appears highly rearranged, with 2 inversions and 9 translocations resulting in a substantially different karyotype. In addition, large subtelomeric regions have been lost from 10 of 14 chromosome ends in the Clade II genomes. We find that shorter telomeres and genome instability might be a consequence of a naturally occurring loss-of-function mutation in DCC1 exclusively found in Clade II isolates, resulting in a hypermutator phenotype. We also determine that deleted subtelomeric regions might be linked to clade-specific adaptation as these regions are enriched in Hyr/Iff-like cell surface proteins, novel candidate cell surface proteins, and an ALS-like adhesin. The presence of these cell surface proteins in the clades responsible for global outbreaks causing invasive infections suggests an explanation for the different phenotypes observed between clades.
Load More