GT
Geng Tian
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
11
(82% Open Access)
Cited by:
3,957
h-index:
38
/
i10-index:
96
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The sequence and de novo assembly of the giant panda genome

Ruiqiang Li et al.Dec 13, 2009
Using next-generation sequencing technology alone, we have successfully generated and assembled a draft sequence of the giant panda genome. The assembled contigs (2.25 gigabases (Gb)) cover approximately 94% of the whole genome, and the remaining gaps (0.05 Gb) seem to contain carnivore-specific repeats and tandem repeats. Comparisons with the dog and human showed that the panda genome has a lower divergence rate. The assessment of panda genes potentially underlying some of its unique traits indicated that its bamboo diet might be more dependent on its gut microbiome than its own genetic composition. We also identified more than 2.7 million heterozygous single nucleotide polymorphisms in the diploid genome. Our data and analyses provide a foundation for promoting mammalian genetic research, and demonstrate the feasibility for using next-generation sequencing technologies for accurate, cost-effective and rapid de novo assembly of large eukaryotic genomes. The genome of the giant panda — specifically of the female Beijing Olympics mascot Jingjing — has been determined using short-read sequencing technology, a first for such a complex genome. It consists of some 2.4 billion DNA base pairs, compared to 3 billion in humans, and contains around 21,000 protein-encoding genes, similar to the human genome. Genomic diversity reflected in the sequence is high, raising hopes that despite a population of only about 2,500, conservation efforts can keep the species from extinction. Intriguingly, the panda appears to have all the genes needed for a carnivorous digestive system but lacks digestive cellulase genes. It may therefore depend on its gut microbiome to handle its famously limited bamboo diet. Taste may be a diet-limiting factor: loss of function of the T1R1 gene means that pandas may not experience the umami taste associated with high-protein foods. Technical aspects of this work pave the way for the use of next-generation sequencing for rapid de novo assembly of large eukaryotic genomes. Here, a draft sequence of the giant panda genome is assembled using next-generation sequencing technology alone. Genome analysis reveals a low divergence rate in comparison with dog and human genomes and insights into panda-specific traits; for example, the giant panda's bamboo diet may be more dependent on its gut microbiome than its own genetic composition.
0
Citation1,153
0
Save
0

The diploid genome sequence of an Asian individual

Jun Wang et al.Nov 1, 2008
Here we present the first diploid genome sequence of an Asian individual. The genome was sequenced to 36-fold average coverage using massively parallel sequencing technology. We aligned the short reads onto the NCBI human reference genome to 99.97% coverage, and guided by the reference genome, we used uniquely mapped reads to assemble a high-quality consensus sequence for 92% of the Asian individual’s genome. We identified approximately 3 million single-nucleotide polymorphisms (SNPs) inside this region, of which 13.6% were not in the dbSNP database. Genotyping analysis showed that SNP identification had high accuracy and consistency, indicating the high sequence quality of this assembly. We also carried out heterozygote phasing and haplotype prediction against HapMap CHB and JPT haplotypes (Chinese and Japanese, respectively), sequence comparison with the two available individual genomes (J. D. Watson and J. C. Venter), and structural variation identification. These variations were considered for their potential biological impact. Our sequence data and analyses demonstrate the potential usefulness of next-generation sequencing technologies for personal genomics. The power of the latest massively parallel synthetic DNA sequencing technologies is demonstrated in two major collaborations that shed light on the nature of genomic variation with ethnicity. The first describes the genomic characterization of an individual from the Yoruba ethnic group of west Africa. The second reports a personal genome of a Han Chinese, the group comprising 30% of the world's population. These new resources can now be used in conjunction with the Venter, Watson and NIH reference sequences. A separate study looked at genetic ethnicity on the continental scale, based on data from 1,387 individuals from more than 30 European countries. Overall there was little genetic variation between countries, but the differences that do exist correspond closely to the geographic map. Statistical analysis of the genome data places 50% of the individuals within 310 km of their reported origin. As well as its relevance for testing genetic ancestry, this work has implications for evaluating genome-wide association studies that link genes with diseases.
0
Citation919
0
Save
0

Demographic history and rare allele sharing among human populations

Said Attiya et al.Jul 5, 2011
High-throughput sequencing technology enables population-level surveys of human genomic variation. Here, we examine the joint allele frequency distributions across continental human populations and present an approach for combining complementary aspects of whole-genome, low-coverage data and targeted high-coverage data. We apply this approach to data generated by the pilot phase of the Thousand Genomes Project, including whole-genome 2–4× coverage data for 179 samples from HapMap European, Asian, and African panels as well as high-coverage target sequencing of the exons of 800 genes from 697 individuals in seven populations. We use the site frequency spectra obtained from these data to infer demographic parameters for an Out-of-Africa model for populations of African, European, and Asian descent and to predict, by a jackknife-based approach, the amount of genetic diversity that will be discovered as sample sizes are increased. We predict that the number of discovered nonsynonymous coding variants will reach 100,000 in each population after ∼1,000 sequenced chromosomes per population, whereas ∼2,500 chromosomes will be needed for the same number of synonymous variants. Beyond this point, the number of segregating sites in the European and Asian panel populations is expected to overcome that of the African panel because of faster recent population growth. Overall, we find that the majority of human genomic variable sites are rare and exhibit little sharing among diverged populations. Our results emphasize that replication of disease association for specific rare genetic variants across diverged populations must overcome both reduced statistical power because of rarity and higher population divergence.
0
Citation662
0
Save
0

Inhalable Microorganisms in Beijing’s PM2.5 and PM10 Pollutants during a Severe Smog Event

Chen Cao et al.Jan 23, 2014
Particulate matter (PM) air pollution poses a formidable public health threat to the city of Beijing. Among the various hazards of PM pollutants, microorganisms in PM2.5 and PM10 are thought to be responsible for various allergies and for the spread of respiratory diseases. While the physical and chemical properties of PM pollutants have been extensively studied, much less is known about the inhalable microorganisms. Most existing data on airborne microbial communities using 16S or 18S rRNA gene sequencing to categorize bacteria or fungi into the family or genus levels do not provide information on their allergenic and pathogenic potentials. Here we employed metagenomic methods to analyze the microbial composition of Beijing's PM pollutants during a severe January smog event. We show that with sufficient sequencing depth, airborne microbes including bacteria, archaea, fungi, and dsDNA viruses can be identified at the species level. Our results suggested that the majority of the inhalable microorganisms were soil-associated and nonpathogenic to human. Nevertheless, the sequences of several respiratory microbial allergens and pathogens were identified and their relative abundance appeared to have increased with increased concentrations of PM pollution. Our findings may serve as an important reference for environmental scientists, health workers, and city planners.
0
Citation610
0
Save
0

The DNA Methylome of Human Peripheral Blood Mononuclear Cells

Yingrui Li et al.Nov 9, 2010
DNA methylation plays an important role in biological processes in human health and disease. Recent technological advances allow unbiased whole-genome DNA methylation (methylome) analysis to be carried out on human cells. Using whole-genome bisulfite sequencing at 24.7-fold coverage (12.3-fold per strand), we report a comprehensive (92.62%) methylome and analysis of the unique sequences in human peripheral blood mononuclear cells (PBMC) from the same Asian individual whose genome was deciphered in the YH project. PBMC constitute an important source for clinical blood tests world-wide. We found that 68.4% of CpG sites and <0.2% of non-CpG sites were methylated, demonstrating that non-CpG cytosine methylation is minor in human PBMC. Analysis of the PBMC methylome revealed a rich epigenomic landscape for 20 distinct genomic features, including regulatory, protein-coding, non-coding, RNA-coding, and repeat sequences. Integration of our methylome data with the YH genome sequence enabled a first comprehensive assessment of allele-specific methylation (ASM) between the two haploid methylomes of any individual and allowed the identification of 599 haploid differentially methylated regions (hDMRs) covering 287 genes. Of these, 76 genes had hDMRs within 2 kb of their transcriptional start sites of which >80% displayed allele-specific expression (ASE). These data demonstrate that ASM is a recurrent phenomenon and is highly correlated with ASE in human PBMCs. Together with recently reported similar studies, our study provides a comprehensive resource for future epigenomic research and confirms new sequencing technology as a paradigm for large-scale epigenomics studies.
0
Citation310
0
Save
0

Scleral hypoxia is a target for myopia control

Hao Wu et al.Jul 9, 2018
Worldwide, myopia is the leading cause of visual impairment. It results from inappropriate extension of the ocular axis and concomitant declines in scleral strength and thickness caused by extracellular matrix (ECM) remodeling. However, the identities of the initiators and signaling pathways that induce scleral ECM remodeling in myopia are unknown. Here, we used single-cell RNA-sequencing to identify pathways activated in the sclera during myopia development. We found that the hypoxia-signaling, the eIF2-signaling, and mTOR-signaling pathways were activated in murine myopic sclera. Consistent with the role of hypoxic pathways in mouse model of myopia, nearly one third of human myopia risk genes from the genome-wide association study and linkage analyses interact with genes in the hypoxia-inducible factor-1α (HIF-1α)-signaling pathway. Furthermore, experimental myopia selectively induced HIF-1α up-regulation in the myopic sclera of both mice and guinea pigs. Additionally, hypoxia exposure (5% O2) promoted myofibroblast transdifferentiation with down-regulation of type I collagen in human scleral fibroblasts. Importantly, the antihypoxia drugs salidroside and formononetin down-regulated HIF-1α expression as well as the phosphorylation levels of eIF2α and mTOR, slowing experimental myopia progression without affecting normal ocular growth in guinea pigs. Furthermore, eIF2α phosphorylation inhibition suppressed experimental myopia, whereas mTOR phosphorylation induced myopia in normal mice. Collectively, these findings defined an essential role of hypoxia in scleral ECM remodeling and myopia development, suggesting a therapeutic approach to control myopia by ameliorating hypoxia.
0
Citation294
0
Save
5

Matrix-seq: An adjustable-resolution spatial transcriptomics via microfluidic matrix-based barcoding

Haifeng Zhao et al.Aug 5, 2022
Abstract Spatial transcriptomics technology complements the spatial information lost in single-cell RNA sequencing, which enables visualization and quantitative analysis of transcriptomics of cells in tissue sections. Although this technology is a promising tool to study complex biological processes, its popularization is limited by cumbersome barcoding steps. We presented a microfluidics-based barcoding strategy called Matrix-seq, which gets rid of both precision instruments and the in situ indexing. The deterministic barcoding matrix is fabricated by the crossflow of Barcode-X and Barcode-Y. The overlapping areas (spot) formed deterministic barcoding primers (Barcode-X-Y) via the ligation reaction. Matrices with different spot size (ranging from 10 to 50 μm), which was decided by the width of microchannels, were fabricated and then applied to a mouse main olfactory bulb section and a mouse brain section. While maintaining high performance and resolution, this technology greatly reduces the technical threshold and cost of spatial barcoding. As a result, Matrix-seq can be rapidly applied in various fields including developmental biology, neuroscience and clinical pathology. Teaser Matrix-seq provides an orthogonal microchannel-based barcoding strategy for adjustable-resolution spatial transcriptomics.
0

Multi-Center Study of Resectable Lung Lesions by Ultra-Deep Sequencing of Targeted Genes in Plasma Cell-Free DNA to Assess Nodule Malignancy and Detect Lung Cancers

Muyun Peng et al.Oct 26, 2018
Abstract BACKGROUND Early detection of lung cancer to allow curative treatment remains challenging. Cell-free circulating tumor DNA (ctDNA) analysis may aid in malignancy assessment and early cancer diagnosis of lung nodules found in screening imagery. METHODS The multi-center clinical study enrolled 192 patients with operable occupying lung diseases. Plasma ctDNA, white blood cell genomic DNA (gDNA) and tumor tissue gDNA of each patient were analyzed by ultra-deep sequencing to an average of 35,000X of the coding regions of 65 lung cancer-related genes. RESULTS The cohort consists of a quarter of benign lung diseases and three quarters of cancer patients with all histopathology subtypes. 64% of the cancer patients is at Stage I. Gene mutations detection in tissue gDNA and plasma ctDNA results in a sensitivity of 91% and specificity of 88%. When ctDNA assay was used as the test, the sensitivity was 69% and specificity 96%. As for the lung cancer patients, the assay detected 63%, 83%, 94% and 100%, for Stage I, II, III and IV, respectively. In a linear discriminant analysis, combination of ctDNA, patient age and a panel of serum biomarkers boosted the overall sensitivity to 80% at a specificity of 99%. 29 out of the 65 genes harbored mutations in the lung cancer patients with the largest number found in TP53 (30% plasma and 62% tumor tissue samples) and EGFR (20% and 40%, respectively). CONCLUSION Plasma ctDNA was analyzed in lung nodule assessment and early cancer detection while an algorithm combining clinical information enhanced the test performance.
0

Baseline mutation profiling of 1134 samples of circulating cell-free DNA and blood cells from healthy individuals

Ligang Xia et al.Nov 26, 2016
The molecular alteration in circulating cell-free DNA (cfDNA) in plasma can reflect the status of the human body in a timely manner. Hence, cfDNA has emerged as important biomarkers in clinical diagnostics, particularly in cancer. However, somatic mutations are also commonly found in healthy individuals, which extensively interfere with the diagnostic results in cancer. This study was designed to examine the background somatic mutations in white blood cells (WBC) and cfDNA for healthy controls based on the sequencing data from 1134 samples, to understand the patterns and origin of mutations detected in cfDNA. We determined the mutation frequencies in both the WBC and cfDNA groups of the samples by a panel of 50 cancer-associated genes which covered 20K nucleotide regions using ultra-deep sequencing with average depth >40000 folds. Our results showed that most of mutations in cfDNA originated from WBC. We also observed that NPM1 gene was the most frequently mutant gene in both WBC and cfDNA. Our study highlighted the importance of sequencing both cfDNA and WBC, to improve the sensitivity and accuracy for calling cancer-related mutations from circulating tumor DNA, and shielded light on developing the early cancer diagnosis by cfDNA sequencing.
Load More