SP
Son Pham
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(60% Open Access)
Cited by:
22,085
h-index:
20
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

SPAdes: A New Genome Assembly Algorithm and Its Applications to Single-Cell Sequencing

Anton Bankevich et al.Apr 16, 2012
+13
D
S
A
The lion's share of bacteria in various environments cannot be cloned in the laboratory and thus cannot be sequenced using existing technologies. A major goal of single-cell genomics is to complement gene-centric metagenomic data with whole-genome assemblies of uncultivated organisms. Assembly of single-cell data is challenging because of highly non-uniform read coverage as well as elevated levels of sequencing errors and chimeric reads. We describe SPAdes, a new assembler for both single-cell and standard (multicell) assembly, and demonstrate that it improves on the recently released E+V−SC assembler (specialized for single-cell data) and on popular assemblers Velvet and SoapDeNovo (for multicell data). SPAdes generates single-cell assemblies, providing information about genomes of uncultivatable bacteria that vastly exceeds what may be obtained via traditional metagenomics studies. SPAdes is available online (http://bioinf.spbau.ru/spades). It is distributed as open source software.
0
0

Differential responses to lithium in hyperexcitable neurons from patients with bipolar disorder

Jérôme Mertens et al.Oct 28, 2015
+22
Y
Q
J
A neuronal model of bipolar disorder based on induced pluripotent stem cell (iPSC) technology finds hyperactive action-potential firing and differential responsiveness to lithium in iPSC-derived neurons from patients with bipolar disorder. Lithium is widely used as a mood stabilizer in bipolar disorder, but not all patients respond favourably. In this paper, Fred Gage and colleagues generated hippocampal dentate gyrus-like neurons from induced pluripotent stem cells (iPSCs) obtained from lithium-responsive and lithium-non-responsive patients with bipolar disorder in order to assess differences in cellular phenotypes. They found mitochondrial abnormalities and hyperexcitability in young iPSC-derived neurons from bipolar disorder patients. Hyperexcitability was reversed by lithium treatment only in neurons derived from lithium-responsive individuals. This suggests that hyperexcitability may be an early endophenotype of bipolar disorder and that iPSC models may be useful for the development of new therapies. Bipolar disorder is a complex neuropsychiatric disorder that is characterized by intermittent episodes of mania and depression; without treatment, 15% of patients commit suicide1. Hence, it has been ranked by the World Health Organization as a top disorder of morbidity and lost productivity2. Previous neuropathological studies have revealed a series of alterations in the brains of patients with bipolar disorder or animal models3, such as reduced glial cell number in the prefrontal cortex of patients4, upregulated activities of the protein kinase A and C pathways5,6,7 and changes in neurotransmission8,9,10,11. However, the roles and causation of these changes in bipolar disorder have been too complex to exactly determine the pathology of the disease. Furthermore, although some patients show remarkable improvement with lithium treatment for yet unknown reasons, others are refractory to lithium treatment. Therefore, developing an accurate and powerful biological model for bipolar disorder has been a challenge. The introduction of induced pluripotent stem-cell (iPSC) technology has provided a new approach. Here we have developed an iPSC model for human bipolar disorder and investigated the cellular phenotypes of hippocampal dentate gyrus-like neurons derived from iPSCs of patients with bipolar disorder. Guided by RNA sequencing expression profiling, we have detected mitochondrial abnormalities in young neurons from patients with bipolar disorder by using mitochondrial assays; in addition, using both patch-clamp recording and somatic Ca2+ imaging, we have observed hyperactive action-potential firing. This hyperexcitability phenotype of young neurons in bipolar disorder was selectively reversed by lithium treatment only in neurons derived from patients who also responded to lithium treatment. Therefore, hyperexcitability is one early endophenotype of bipolar disorder, and our model of iPSCs in this disease might be useful in developing new therapies and drugs aimed at its clinical treatment.
0
Citation495
0
Save
0

Using single nuclei for RNA-seq to capture the transcriptome of postmortem neurons

Suguna Krishnaswami et al.Feb 18, 2016
+20
M
R
S
This protocol describes how to sequence the transcriptome from a single nucleus. It is particularly suited to cell types that are difficult to isolate as intact whole cells, such as neurons. A protocol is described for sequencing the transcriptome of a cell nucleus. Nuclei are isolated from specimens and sorted by FACS, cDNA libraries are constructed and RNA-seq is performed, followed by data analysis. Some steps follow published methods (Smart-seq2 for cDNA synthesis and Nextera XT barcoded library preparation) and are not described in detail here. Previous single-cell approaches for RNA-seq from tissues include cell dissociation using protease treatment at 30 °C, which is known to alter the transcriptome. We isolate nuclei at 4 °C from tissue homogenates, which cause minimal damage. Nuclear transcriptomes can be obtained from postmortem human brain tissue stored at −80 °C, making brain archives accessible for RNA-seq from individual neurons. The method also allows investigation of biological features unique to nuclei, such as enrichment of certain transcripts and precursors of some noncoding RNAs. By following this procedure, it takes about 4 d to construct cDNA libraries that are ready for sequencing.
0
Citation408
0
Save
14

Venice: A New Algorithm for Finding Marker Genes in Single-Cell Transcriptomic Data

Hy Vuong et al.Nov 17, 2020
+2
T
T
H
A bstract Most widely used tools for finding marker genes in single cell data (SeuratT/NegBinom/Poisson, CellRanger, EdgeR, limmatrend) use a conventional definition of differentially expressed genes : genes with different mean expression values. However, in single-cell data, a cell population can be a mixture of many cell types/cell states, hence the mean expression of genes cannot represent the whole population. In addition, these tools assume that gene expression of a population belongs to a specific family of distribution. This assumption is often violated in single-cell data. In this work, we define marker genes of a cell population as genes that can be used to distinguish cells in the population from cells in other populations. Besides log-fold change, we devise a new metric to classify genes into up-regulated, down-regulated, and transitional states. In a benchmark for finding up-regulated and down-regulated genes, our tool outperforms all compared methods, including Seurat, ROTS, scDD, edgeR, MAST, limma, normal t-test, Wilcoxon and Kolmogorov–Smirnov test. Our method is much faster than all compared methods, therefore, enables interactive analysis for large single-cell data sets in BioTuring Browser. Venice algorithm is available within Signac package: https://github.com/bioturing/signac 1 ).
14
Citation16
0
Save
0

Ultra-low input single tube linked-read library method enables short-read NGS systems to generate highly accurate and economical long-range sequencing information for de novo genome assembly and haplotype phasing

Zhoutao Chen et al.Nov 29, 2019
+18
T
L
Z
Abstract Long-range sequencing information is required for haplotype phasing, de novo assembly and structural variation detection. Current long-read sequencing technologies can provide valuable long-range information but at a high cost with low accuracy and high DNA input requirement. We have developed a single-tube Transposase Enzyme Linked Long-read Sequencing (TELL-Seq ™ ) technology, which enables a low-cost, high-accuracy and high-throughput short-read next generation sequencer to routinely generate over 100 Kb long-range sequencing information with as little as 0.1 ng input material. In a PCR tube, millions of clonally barcoded beads are used to uniquely barcode long DNA molecules in an open bulk reaction without dilution and compartmentation. The barcode linked reads are used to successfully assemble genomes ranging from microbes to human. These linked-reads also generate mega-base-long phased blocks and provide a cost-effective tool for detecting structural variants in a genome, which are important to identify compound heterozygosity in recessive Mendelian diseases and discover genetic drivers and diagnostic biomarkers in cancers.
0
Citation9
0
Save
0

A revisit of RSEM generative model and its EM algorithm for quantifying transcript abundances.

Hy Vuong et al.Dec 21, 2018
+2
T
T
H
RSEM has been mainly known for its accuracy in transcript abundance quantification. However, its quantification time is extremely high compared to that of recent quantification tools. In this paper, we revised the RSEM's EM algorithm. In particular, we derived accurate M-step updates to eliminate incorrect heuristic updates in RSEM. We also implement some optimizations that reduce the quantification time about a hundred times while still have better accuracy compared to RSEM. In particular, we noticed that different parameters have different convergence rates, therefore we identified and removed early converged parameters to significantly reduce the model complexity in further iterations, and we also use SQUAREM method to further speed up the convergence rate. We implemented these revisions in a packaged named Hera-EM, with source code available at: https://github.com/bioturing/hera/tree/master/hera-EM
0
Citation3
0
Save
0

Chromosome assembly of large and complex genomes using multiple references

Mikhail Kolmogorov et al.Nov 19, 2016
+9
B
J
M
Despite the rapid development of sequencing technologies, assembly of mammalian-scale genomes into complete chromosomes remains one of the most challenging problems in bioinformatics. To help address this difficulty, we developed Ragout, a reference-assisted assembly tool that now works for large and complex genomes. Taking one or more target assemblies (generated from an NGS assembler) and one or multiple related reference genomes, Ragout infers the evolutionary relationships between the genomes and builds the final assemblies using a genome rearrangement approach. Using Ragout, we transformed NGS assemblies of 15 different Mus musculus and one Mus spretus genomes into sets of complete chromosomes, leaving less than 5% of sequence unlocalized per set. Various benchmarks, including PCR testing and realigning of long PacBio reads, suggest only a small number of structural errors in the final assemblies, comparable with direct assembly approaches. Additionally, we applied Ragout to Mus caroli and Mus pahari genomes, which exhibit karyotype-scale variations compared to other genomes from the Muridae family. Chromosome color maps confirmed most large-scale rearrangements that Ragout detected.
0

Repeat associated mechanisms of genome evolution and function revealed by the Mus caroli and Mus pahari genomes

David Thybert et al.Jul 2, 2017
+43
F
M
D
Understanding the mechanisms driving lineage-specific evolution in both primates and rodents has been hindered by the lack of sister clades with a similar phylogenetic structure having high-quality genome assemblies. Here, we have created chromosome-level assemblies of the Mus caroli and Mus pahari genomes. Together with the Mus musculus and Rattus norvegicus genomes, this set of rodent genomes is similar in divergence times to the Hominidae (human-chimpanzee-gorilla-orangutan). By comparing the evolutionary dynamics between the Muridae and Hominidae, we identified punctate events of chromosome reshuffling that shaped the ancestral karyotype of Mus musculus and Mus caroli between 3 to 6 MYA, but that are absent in the Hominidae. In fact, Hominidae show between four- and seven-fold lower rates of nucleotide change and feature turnover in both neutral and functional sequences suggesting an underlying coherence to the Muridae acceleration. Our system of matched, high-quality genome assemblies revealed how specific classes of repeats can play lineage-specific roles in related species. For example, recent LINE activity has remodeled protein-coding loci to a greater extent across the Muridae than the Hominidae, with functional consequences at the species level such as reproductive isolation. Furthermore, we charted a Muridae-specific retrotransposon expansion at unprecedented resolution, revealing how a single nucleotide mutation transformed a specific SINE element into an active CTCF binding site carrier specifically in Mus caroli. This process resulted in thousands of novel, species-specific CTCF binding sites. Our results demonstrate that the comparison of matched phylogenetic sets of genomes will be an increasingly powerful strategy for understanding mammalian biology.
0

Hera-T: an efficient and accurate approach for quantifying gene abundances from 10X-Chromium data with high rates of non-exonic reads.

Thang Tran et al.Jan 26, 2019
S
H
T
T
An important but rarely discussed phenomenon in single cell data generated by the 10X-Chromium protocol is that the fraction of non-exonic reads is very high. This number usually exceeds 30% of the total reads. Without aligning them to a complete genome reference, non-exonic reads can be erroneously aligned to the transcriptome reference with higher error rates. To tackle this problem, Cell Ranger chooses to firstly align reads against the whole genome, and at a later step, uses a genome annotation to select reads that align to the transcriptome. Despite its high running time and large memory consumption, Cell Ranger remains the most widely used tool to quantify 10XGenomics single-cell RNA-Seq data for its accuracy. In this work, we introduce Hera-T, a fast and accurate tool for estimating gene abundances in single cell data generated by the 10X-Chromium protocol. By devising a new strategy for aligning reads to both transcriptome and genome references, Hera-T reduces both running time and memory consumption from 10 to 100 folds while giving similar results compared to CellRanger's. Hera-T also addresses some difficult splicing alignment scenarios that Cell Ranger fails to address, and therefore, obtains better accuracy compared to Cell Ranger. Excluding the reads in those scenarios, Hera-T and Cell Ranger results have correlation scores>0.99. For a single-cell data set with 49 million of reads, Cell Ranger took 3 hours (179 minutes)while Hera-T took 1.75 minutes; for another single-cell data set with 784 millions of reads, Cell Ranger took about 25 hours while Hera-T took 32 minutes. For those data sets, CellRanger completely used all 32 GB of memory while Hera-T consumed at most 8 GB. Hera-T package is available for download at https://bioturing.com/product/hera-t
0

Improved genome assembly of American alligator genome reveals conserved architecture of estrogen signaling

Edward Rice et al.Aug 1, 2016
+21
T
L
E
The American alligator, Alligator mississippiensis, like all crocodilians, has temperature-dependent sex determination, in which the sex of an embryo is determined by the incubation temperature of the egg during a critical period of development. The lack of genetic differences between male and female alligators leaves open the question of how the genes responsible for sex determination and differentiation are regulated. One insight into this question comes from the fact that exposing an embryo incubated at male-producing temperature to estrogen causes it to develop ovaries. Because estrogen response elements are known to regulate genes over long distances, a contiguous genome assembly is crucial for predicting and understanding its impact. We present an improved assembly of the American alligator genome, scaffolded with in vitro proximity ligation (Chicago) data. We use this assembly to scaffold two other crocodilian genomes based on synteny. We perform RNA sequencing of tissues from American alligator embryos to find genes that are differentially expressed between embryos incubated at male- versus female-producing temperature. Finally, we use the improved contiguity of our assembly along with the current model of CTCF-mediated chromatin looping to predict regions of the genome likely to contain estrogen-responsive genes. We find that these regions are significantly enriched for genes with female-biased expression in developing gonads after the critical period during which sex is determined by incubation temperature. We thus conclude that estrogen signaling is a major driver of female-biased gene expression in the post-temperature sensitive period gonads.