ZC
Zhoutao Chen
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
9
(100% Open Access)
Cited by:
11,583
h-index:
16
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Genome sequencing in microfabricated high-density picolitre reactors

Marcel Margulies et al.Jul 31, 2005
+53
W
M
M
The proliferation of large-scale DNA-sequencing projects in recent years has driven a search for alternative methods to reduce time and cost. Here we describe a scalable, highly parallel sequencing system with raw throughput significantly greater than that of state-of-the-art capillary electrophoresis instruments. The apparatus uses a novel fibre-optic slide of individual wells and is able to sequence 25 million bases, at 99% or better accuracy, in one four-hour run. To achieve an approximately 100-fold increase in throughput over current Sanger sequencing technology, we have developed an emulsion method for DNA amplification and an instrument for sequencing by synthesis using a pyrosequencing protocol optimized for solid support and picolitre-scale volumes. Here we show the utility, throughput, accuracy and robustness of this system by shotgun sequencing and de novo assembly of the Mycoplasma genitalium genome with 96% coverage at 99.96% accuracy in one run of the machine. The race is on for a big prize: the job of providing the world's DNA sequencing laboratories with the successor to the ‘Sanger-based’ technology that gave us the first wave of genome sequences. One technology in the frame is that produced by 454 Life Sciences Corporation of Branford, Connecticut. Today's technology reads 67,000 base pairs per hour; this new approach is 100 times faster, reading 6 million base pairs per hour. The improved performance results from using picolitre-sized chemical reactors, enhanced light-emitting sequencing chemistries and complex informatics. Further miniaturization of the system is planned. Such leaps in technology may one day make it possible to analyse an individual's genome before designing therapy: the ultimate in personalized medicine.
0
Citation7,542
0
Save
0

The genome of the domesticated apple (Malus × domestica Borkh.)

Riccardo Velasco et al.Aug 27, 2010
+83
S
D
R
Riccardo Velasco and colleagues report the genome sequence of the 'Golden Delicious' domesticated apple. These data shed new insight into the genomic events that preceded the origin of this crop. We report a high-quality draft genome sequence of the domesticated apple (Malus × domestica). We show that a relatively recent (>50 million years ago) genome-wide duplication (GWD) has resulted in the transition from nine ancestral chromosomes to 17 chromosomes in the Pyreae. Traces of older GWDs partly support the monophyly of the ancestral paleohexaploidy of eudicots. Phylogenetic reconstruction of Pyreae and the genus Malus, relative to major Rosaceae taxa, identified the progenitor of the cultivated apple as M. sieversii. Expansion of gene families reported to be involved in fruit development may explain formation of the pome, a Pyreae-specific false fruit that develops by proliferation of the basal part of the sepals, the receptacle. In apple, a subclade of MADS-box genes, normally involved in flower and fruit development, is expanded to include 15 members, as are other gene families involved in Rosaceae-specific metabolism, such as transport and assimilation of sorbitol.
0
Citation1,890
0
Save
0

Paired-End Mapping Reveals Extensive Structural Variation in the Human Genome

Jan Korbel et al.Sep 28, 2007
+20
J
A
J
Structural variation of the genome involves kilobase- to megabase-sized deletions, duplications, insertions, inversions, and complex combinations of rearrangements. We introduce high-throughput and massive paired-end mapping (PEM), a large-scale genome-sequencing method to identify structural variants (SVs) approximately 3 kilobases (kb) or larger that combines the rescue and capture of paired ends of 3-kb fragments, massive 454 sequencing, and a computational approach to map DNA reads onto a reference genome. PEM was used to map SVs in an African and in a putatively European individual and identified shared and divergent SVs relative to the reference genome. Overall, we fine-mapped more than 1000 SVs and documented that the number of SVs among humans is much larger than initially hypothesized; many of the SVs potentially affect gene function. The breakpoint junction sequences of more than 200 SVs were determined with a novel pooling strategy and computational analysis. Our analysis provided insights into the mechanisms of SV formation in humans.
0
Citation1,144
0
Save
0

Mice deficient in methylenetetrahydrofolate reductase exhibit hyperhomocysteinemia and decreased methylation capacity, with neuropathology and aortic lipid deposition

Zhoutao Chen et al.Mar 1, 2001
+13
S
A
Z
Hyperhomocysteinemia, a risk factor for cardiovascular disease, is caused by nutritional and/or genetic disruptions in homocysteine metabolism. The most common genetic cause of hyperhomocysteinemia is the 677C→T mutation in the methylenetetrahydrofolate reductase (MTHFR) gene. This variant, with mild enzymatic deficiency, is associated with an increased risk for neural tube defects and pregnancy complications and with a decreased risk for colon cancer and leukemia. Although many studies have reported that this variant is also a risk factor for vascular disease, this area of investigation is still controversial. Severe MTHFR deficiency results in homocystinuria, an inborn error of metabolism with neurological and vascular complications. To investigate the in vivo pathogenetic mechanisms of MTHFR deficiency, we generated mice with a knockout of Mthfr. Plasma total homocysteine levels in heterozygous and homozygous knockout mice are 1.6- and 10-fold higher than those in wild-type littermates, respectively. Both heterozygous and homozygous knockouts have either significantly decreased S-adenosylmethionine levels or significantly increased S-adenosylhomocysteine levels, or both, with global DNA hypomethylation. The heterozygous knockout mice appear normal, whereas the homozygotes are smaller and show developmental retardation with cerebellar pathology. Abnormal lipid deposition in the proximal portion of the aorta was observed in older heterozygotes and homozygotes, alluding to an atherogenic effect of hyperhomocysteinemia in these mice.
0
Citation594
0
Save
0

Effects of common polymorphisms on the properties of recombinant human methylenetetrahydrofolate reductase

Kazuhiro Yamada et al.Dec 11, 2001
R
R
Z
K
Methylenetetrahydrofolate reductase (MTHFR) catalyzes the conversion of methylenetetrahydrofolate to methyltetrahydrofolate, the major methyl donor for the conversion of homocysteine to methionine. Two common polymorphisms of the human enzyme have been identified: 677C>T, which leads to the substitution of Ala-222 by valine, and 1298A>C, which leads to the replacement of Glu-429 by alanine; the former polymorphism is the most frequent genetic cause of mild hyperhomocysteinemia, a risk factor for cardiovascular disease. By using a baculovirus expression system, recombinant human MTHFR has been expressed at high levels and purified to homogeneity in quantities suitable for biochemical characterization. The Glu429Ala protein has biochemical properties that are indistinguishable from the wild-type enzyme. The Ala222Val MTHFR, however, has an enhanced propensity to dissociate into monomers and to lose its FAD cofactor on dilution; the resulting loss of activity is slowed in the presence of methyltetrahydrofolate or adenosylmethionine. This biochemical phenotype is in good agreement with predictions made on the basis of studies comparing wild-type Escherichia coli MTHFR with a mutant, Ala177Val, homologous to the Ala222Val mutant human enzyme [Guenther, B. D., et al. (1999) Nat. Struct. Biol. 6, 359–365].
0
Citation404
0
Save
0

Ultra-low input single tube linked-read library method enables short-read NGS systems to generate highly accurate and economical long-range sequencing information for de novo genome assembly and haplotype phasing

Zhoutao Chen et al.Nov 29, 2019
+18
T
L
Z
Abstract Long-range sequencing information is required for haplotype phasing, de novo assembly and structural variation detection. Current long-read sequencing technologies can provide valuable long-range information but at a high cost with low accuracy and high DNA input requirement. We have developed a single-tube Transposase Enzyme Linked Long-read Sequencing (TELL-Seq ™ ) technology, which enables a low-cost, high-accuracy and high-throughput short-read next generation sequencer to routinely generate over 100 Kb long-range sequencing information with as little as 0.1 ng input material. In a PCR tube, millions of clonally barcoded beads are used to uniquely barcode long DNA molecules in an open bulk reaction without dilution and compartmentation. The barcode linked reads are used to successfully assemble genomes ranging from microbes to human. These linked-reads also generate mega-base-long phased blocks and provide a cost-effective tool for detecting structural variants in a genome, which are important to identify compound heterozygosity in recessive Mendelian diseases and discover genetic drivers and diagnostic biomarkers in cancers.
0
Citation9
0
Save
12

SpLitteR: Diploid genome assembly using TELL-Seq linked-reads and assembly graphs

Ivan Tolstoganov et al.Dec 12, 2022
A
P
Z
I
Abstract Background Recent advances in long-read sequencing technologies enabled accurate and contiguous de novo assemblies of large genomes and metagenomes. However, even long and accurate high-fidelity (HiFi) reads do not resolve repeats that are longer than the read lengths. This limitation negatively affects the contiguity of diploid genome assemblies since two haplomes share many long identical regions. To generate the telomere-to-telomere assemblies of diploid genomes, biologists now construct their HiFi-based phased assemblies and use additional experimental technologies to transform them into more contiguous diploid assemblies. The barcoded linked-reads, generated using an inexpensive TELL-Seq technology, provide an attractive way to bridge unresolved repeats in phased assemblies of diploid genomes. Results We developed SpLitteR tool for diploid genome assembly using linked-reads and assembly graphs and benchmarked it against state-of-the-art linked-read scaffolders ARKS and SLR-superscaffolder using human HG002 genome and sheep gut microbiome datasets. The benchmark showed that SpLitteR scaffolding results in 1.5-fold increase in NGA50 compared to baseline LJA assembly and other scaffolders while introducing no additional misassemblies on the human dataset. Conclusion We developed the SpLitteR tool for haplotype phasing and scaffolding in an assembly graph using barcoded linked-reads. We benchmarked SpLitteR on assembly graphs produced by various long-read assemblers and have shown how TELL-Seq reads facilitate phasing and scaffolding in these graphs. This benchmarking demonstrates that SpLitteR improves upon the state-of-the-art linked-read scaffolders in the accuracy and contiguity metrics. SpLitteR is implemented in C++ as a part of the freely available SPAdes package and is available at https://github.com/ablab/spades/releases/tag/splitter-preprint .
18

Targeted Phasing of 2-200 Kilobase DNA Fragments with a Short-Read Sequencer and a Single-Tube Linked-Read Library Method

Veronika Mikhaylova et al.Mar 6, 2023
+14
M
Y
V
In the human genome, heterozygous sites are genomic positions with different alleles inherited from each parent. On average, there is a heterozygous site every 1-2 kilobases (kb). Resolving whether two alleles in neighboring heterozygous positions are physically linked-that is, phased-is possible with a short-read sequencer if the sequencing library captures long-range information. TELL-Seq is a library preparation method based on millions of barcoded micro-sized beads that enables instrument-free phasing of a whole human genome in a single PCR tube. TELL-Seq incorporates a unique molecular identifier (barcode) to the short reads generated from the same high-molecular-weight (HMW) DNA fragment (known as 'linked-reads'). However, genome-scale TELL-Seq is not cost-effective for applications focusing on a single locus or a few loci. Here, we present an optimized TELL-Seq protocol that enables the cost-effective phasing of enriched loci (targets) of varying sizes, purity levels, and heterozygosity. Targeted TELL-Seq maximizes linked-read efficiency and library yield while minimizing input requirements, fragment collisions on microbeads, and sequencing burden. To validate the targeted protocol, we phased seven 180-200 kb loci enriched by CRISPR/Cas9-mediated excision coupled with pulse-field electrophoresis, four 20 kb loci enriched by CRISPR/Cas9-mediated protection from exonuclease digestion, and six 2-13 kb loci amplified by PCR. The selected targets have clinical and research relevance (BRCA1, BRCA2, MLH1, MSH2, MSH6, APC, PMS2, SCN5A-SCN10A, and PKI3CA). These analyses reveal that targeted TELL-Seq provides a reliable way of phasing allelic variants within targets (2-200 kb in length) with the low cost and high accuracy of short-read sequencing.
0

Single-Molecule Barcoding Technology for Single-Cell Genomics

Ivan García-Bassets et al.Aug 13, 2024
+21
Y
G
I
ABSTRACT Recent advances in barcoding technologies have significantly enhanced the scalability of single-cell genomic experiments. However, large-scale experiments are still rare due to high costs, complex logistics, and laborintensive procedures. To facilitate the routine application of the largest scalability, it is critical to simplify the production and use of barcoding reagents. Here, we introduce AmpliDrop, a technology that initiates the barcoding process using a pool of inexpensive single-copy barcodes and integrates barcode multiplicity generation with tagging of cellular content into a single reaction driven by DNA polymerase during library preparation. The barcoding reactions are compartmentalized using an electronic pipette or a robotic or standalone liquid handling system. These innovations eliminate the need for barcoded beads and complex combinatorial indexing workflows and provide flexibility for a wide range of scales and tube formats, as well as compatibility with automation. We show that AmpliDrop is capable of capturing transcriptomes and chromatin accessibility, and it can also be adapted for user-customized applications, including antibody-based protein detection, bacterial or viral DNA detection, and CRISPR perturbations without dual guide RNA-expression vectors. We validated AmpliDrop by investigating the influence of short-term static culturing on cell composition in human forebrain organoids, revealing metabolic reprogramming in lineage progenitors.