XF
Xiaodong Fang
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
43
(81% Open Access)
Cited by:
33,707
h-index:
62
/
i10-index:
109
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A global reference for human genetic variation

Alexandra Roa et al.Sep 29, 2015
The 1000 Genomes Project set out to provide a comprehensive description of common human genetic variation by applying whole-genome sequencing to a diverse set of individuals from multiple populations. Here we report completion of the project, having reconstructed the genomes of 2,504 individuals from 26 populations using a combination of low-coverage whole-genome sequencing, deep exome sequencing, and dense microarray genotyping. We characterized a broad spectrum of genetic variation, in total over 88 million variants (84.7 million single nucleotide polymorphisms (SNPs), 3.6 million short insertions/deletions (indels), and 60,000 structural variants), all phased onto high-quality haplotypes. This resource includes >99% of SNP variants with a frequency of >1% for a variety of ancestries. We describe the distribution of genetic variation across the global sample, and discuss the implications for common disease studies. Results for the final phase of the 1000 Genomes Project are presented including whole-genome sequencing, targeted exome sequencing, and genotyping on high-density SNP arrays for 2,504 individuals across 26 populations, providing a global reference data set to support biomedical genetics. The 1000 Genomes Project has sought to comprehensively catalogue human genetic variation across populations, providing a valuable public genomic resource. The data obtained so far have found applications ranging from association studies and fine mapping studies to the filtering of likely neutral variants in rare-disease cohorts. The authors now report on the final phase of the project, phase 3, which covers previously uncharacterized areas of human genetic diversity in terms of the populations sampled and categories of characterized variation. The sample now includes more than 2,500 individuals from 26 global populations, with low coverage whole-genome and deep exome sequencing, as well as dense microarray genotyping. They find that while most common variants are shared across populations, rarer variants are often restricted to closely related populations. The authors also demonstrate the use of the phase 3 dataset as a reference panel for imputation to improve the resolution in genetic association studies.
0
0

The oyster genome reveals stress adaptation and complexity of shell formation

Guofan Zhang et al.Sep 19, 2012
The Pacific oyster Crassostrea gigas belongs to one of the most species-rich but genomically poorly explored phyla, the Mollusca. Here we report the sequencing and assembly of the oyster genome using short reads and a fosmid-pooling strategy, along with transcriptomes of development and stress response and the proteome of the shell. The oyster genome is highly polymorphic and rich in repetitive sequences, with some transposable elements still actively shaping variation. Transcriptome studies reveal an extensive set of genes responding to environmental stress. The expansion of genes coding for heat shock protein 70 and inhibitors of apoptosis is probably central to the oyster’s adaptation to sessile life in the highly stressful intertidal zone. Our analyses also show that shell formation in molluscs is more complex than currently understood and involves extensive participation of cells and their exosomes. The oyster genome sequence fills a void in our understanding of the Lophotrochozoa. The sequencing and assembly of the highly polymorphic oyster genome through a combination of short reads and fosmid pooling, complemented with extensive transcriptome analysis of development and stress response and proteome analysis of the shell, provides new insight into oyster biology and adaptation to a highly changeable environment. Oysters are keystone species in estuarine ecology and among the most important aquaculture species worldwide. The sequencing and assembly of the genome of the Pacific oyster, Crassostrea gigas, are now reported. Comparisons with other genomes reveal an expansion of defence genes as an adaptation to life as a sessile species in the intertidal zone, a surprisingly complex pathway for shell formation and dramatic evolution of genes related to larval development, highlighting their adaptive significance for marine invertebrates.
0
Citation1,987
0
Save
0

The genome of the cucumber, Cucumis sativus L.

Sanwen Huang et al.Nov 1, 2009
Jun Wang and colleagues report the genome sequence of the cucumber. The cucumber genome is the seventh plant genome sequence to be reported and was assembled with a combination of traditional Sanger and next-generation sequencing methods. Cucumber is an economically important crop as well as a model system for sex determination studies and plant vascular biology. Here we report the draft genome sequence of Cucumis sativus var. sativus L., assembled using a novel combination of traditional Sanger and next-generation Illumina GA sequencing technologies to obtain 72.2-fold genome coverage. The absence of recent whole-genome duplication, along with the presence of few tandem duplications, explains the small number of genes in the cucumber. Our study establishes that five of the cucumber's seven chromosomes arose from fusions of ten ancestral chromosomes after divergence from Cucumis melo. The sequenced cucumber genome affords insight into traits such as its sex expression, disease resistance, biosynthesis of cucurbitacin and 'fresh green' odor. We also identify 686 gene clusters related to phloem function. The cucumber genome provides a valuable resource for developing elite cultivars and for studying the evolution and function of the plant vascular system.
0
Citation1,381
0
Save
0

Genomic variation in 3,010 diverse accessions of Asian cultivated rice

Li Wang et al.Apr 20, 2018
Here we analyse genetic variation, population structure and diversity among 3,010 diverse Asian cultivated rice (Oryza sativa L.) genomes from the 3,000 Rice Genomes Project. Our results are consistent with the five major groups previously recognized, but also suggest several unreported subpopulations that correlate with geographic location. We identified 29 million single nucleotide polymorphisms, 2.4 million small indels and over 90,000 structural variations that contribute to within- and between-population variation. Using pan-genome analyses, we identified more than 10,000 novel full-length protein-coding genes and a high number of presence–absence variations. The complex patterns of introgression observed in domestication genes are consistent with multiple independent rice domestication events. The public availability of data from the 3,000 Rice Genomes Project provides a resource for rice genomics research and breeding. Analyses of genetic variation and population structure based on over 3,000 cultivated rice (Oryza sativa) genomes reveal subpopulations that correlate with geographic location and patterns of introgression consistent with multiple rice domestication events.
0
Citation1,233
0
Save
0

Ataxin-2 intermediate-length polyglutamine expansions are associated with increased risk for ALS

Andrew Elden et al.Aug 1, 2010
The causes of amyotrophic lateral sclerosis (ALS), a devastating human neurodegenerative disease, are poorly understood, although the protein TDP-43 has been suggested to have a critical role in disease pathogenesis. Here we show that ataxin 2 (ATXN2), a polyglutamine (polyQ) protein mutated in spinocerebellar ataxia type 2, is a potent modifier of TDP-43 toxicity in animal and cellular models. ATXN2 and TDP-43 associate in a complex that depends on RNA. In spinal cord neurons of ALS patients, ATXN2 is abnormally localized; likewise, TDP-43 shows mislocalization in spinocerebellar ataxia type 2. To assess the involvement of ATXN2 in ALS, we analysed the length of the polyQ repeat in the ATXN2 gene in 915 ALS patients. We found that intermediate-length polyQ expansions (27–33 glutamines) in ATXN2 were significantly associated with ALS. These data establish ATXN2 as a relatively common ALS susceptibility gene. Furthermore, these findings indicate that the TDP-43–ATXN2 interaction may be a promising target for therapeutic intervention in ALS and other TDP-43 proteinopathies. Amyotrophic lateral sclerosis (ALS), also known as Lou Gehrig's disease, is a common adult-onset neurodegenerative disease for which there is no cure. ALS is mostly sporadic but approximately 10% of cases have a familial component, most commonly the SOD1 (superoxide dismutase) gene. Yet SOD1 mutations account for only about 2% of cases in total, so the search for further ALS risk factors continues. The protein TDP-43 is thought to play a role — as yet undetermined — in ALS pathogenesis, and Elden et al. show that ataxin-2, a polyglutamine (polyQ) protein mutated in spinocerebellar ataxia type 2, is a potent modifier of TDP-43 toxicity in animal and cellular models. Analysis of DNA from 915 individuals shows ATXN2 to be a relatively common ALS susceptibility gene, accounting for up to 4.7% of ALS cases. These findings point to the TDP-43/ataxin-2 interaction as a possible target for therapeutic intervention. The causes of the neurodegenerative disease amyotrophic lateral sclerosis (ALS) are poorly understood, although the protein TDP-43 seems to be involved. These authors show that the polyglutamine-containing protein ataxin 2 interacts with TDP-43 and is a potent modifier of TDP-43 toxicity. Moreover, intermediate-length polyglutamine expansions in the ataxin 2 gene significantly associate with ALS. These data establish the ataxin 2 gene as a new and relatively common ALS disease susceptibility gene.
0
Citation1,183
0
Save
0

The sequence and de novo assembly of the giant panda genome

Ruiqiang Li et al.Dec 13, 2009
Using next-generation sequencing technology alone, we have successfully generated and assembled a draft sequence of the giant panda genome. The assembled contigs (2.25 gigabases (Gb)) cover approximately 94% of the whole genome, and the remaining gaps (0.05 Gb) seem to contain carnivore-specific repeats and tandem repeats. Comparisons with the dog and human showed that the panda genome has a lower divergence rate. The assessment of panda genes potentially underlying some of its unique traits indicated that its bamboo diet might be more dependent on its gut microbiome than its own genetic composition. We also identified more than 2.7 million heterozygous single nucleotide polymorphisms in the diploid genome. Our data and analyses provide a foundation for promoting mammalian genetic research, and demonstrate the feasibility for using next-generation sequencing technologies for accurate, cost-effective and rapid de novo assembly of large eukaryotic genomes. The genome of the giant panda — specifically of the female Beijing Olympics mascot Jingjing — has been determined using short-read sequencing technology, a first for such a complex genome. It consists of some 2.4 billion DNA base pairs, compared to 3 billion in humans, and contains around 21,000 protein-encoding genes, similar to the human genome. Genomic diversity reflected in the sequence is high, raising hopes that despite a population of only about 2,500, conservation efforts can keep the species from extinction. Intriguingly, the panda appears to have all the genes needed for a carnivorous digestive system but lacks digestive cellulase genes. It may therefore depend on its gut microbiome to handle its famously limited bamboo diet. Taste may be a diet-limiting factor: loss of function of the T1R1 gene means that pandas may not experience the umami taste associated with high-protein foods. Technical aspects of this work pave the way for the use of next-generation sequencing for rapid de novo assembly of large eukaryotic genomes. Here, a draft sequence of the giant panda genome is assembled using next-generation sequencing technology alone. Genome analysis reveals a low divergence rate in comparison with dog and human genomes and insights into panda-specific traits; for example, the giant panda's bamboo diet may be more dependent on its gut microbiome than its own genetic composition.
0
Citation1,153
0
Save
0

SNP detection for massively parallel whole-genome resequencing

Ruiqiang Li et al.May 6, 2009
Next-generation massively parallel sequencing technologies provide ultrahigh throughput at two orders of magnitude lower unit cost than capillary Sanger sequencing technology. One of the key applications of next-generation sequencing is studying genetic variation between individuals using whole-genome or target region resequencing. Here, we have developed a consensus-calling and SNP-detection method for sequencing-by-synthesis Illumina Genome Analyzer technology. We designed this method by carefully considering the data quality, alignment, and experimental errors common to this technology. All of this information was integrated into a single quality score for each base under Bayesian theory to measure the accuracy of consensus calling. We tested this methodology using a large-scale human resequencing data set of 36× coverage and assembled a high-quality nonrepetitive consensus sequence for 92.25% of the diploid autosomes and 88.07% of the haploid X chromosome. Comparison of the consensus sequence with Illumina human 1M BeadChip genotyped alleles from the same DNA sample showed that 98.6% of the 37,933 genotyped alleles on the X chromosome and 98% of 999,981 genotyped alleles on autosomes were covered at 99.97% and 99.84% consistency, respectively. At a low sequencing depth, we used prior probability of dbSNP alleles and were able to improve coverage of the dbSNP sites significantly as compared to that obtained using a nonimputation model. Our analyses demonstrate that our method has a very low false call rate at any sequencing depth and excellent genome coverage at a high sequencing depth.
0
Citation941
0
Save
0

The diploid genome sequence of an Asian individual

Jun Wang et al.Nov 1, 2008
Here we present the first diploid genome sequence of an Asian individual. The genome was sequenced to 36-fold average coverage using massively parallel sequencing technology. We aligned the short reads onto the NCBI human reference genome to 99.97% coverage, and guided by the reference genome, we used uniquely mapped reads to assemble a high-quality consensus sequence for 92% of the Asian individual’s genome. We identified approximately 3 million single-nucleotide polymorphisms (SNPs) inside this region, of which 13.6% were not in the dbSNP database. Genotyping analysis showed that SNP identification had high accuracy and consistency, indicating the high sequence quality of this assembly. We also carried out heterozygote phasing and haplotype prediction against HapMap CHB and JPT haplotypes (Chinese and Japanese, respectively), sequence comparison with the two available individual genomes (J. D. Watson and J. C. Venter), and structural variation identification. These variations were considered for their potential biological impact. Our sequence data and analyses demonstrate the potential usefulness of next-generation sequencing technologies for personal genomics. The power of the latest massively parallel synthetic DNA sequencing technologies is demonstrated in two major collaborations that shed light on the nature of genomic variation with ethnicity. The first describes the genomic characterization of an individual from the Yoruba ethnic group of west Africa. The second reports a personal genome of a Han Chinese, the group comprising 30% of the world's population. These new resources can now be used in conjunction with the Venter, Watson and NIH reference sequences. A separate study looked at genetic ethnicity on the continental scale, based on data from 1,387 individuals from more than 30 European countries. Overall there was little genetic variation between countries, but the differences that do exist correspond closely to the geographic map. Statistical analysis of the genome data places 50% of the individuals within 310 km of their reported origin. As well as its relevance for testing genetic ancestry, this work has implications for evaluating genome-wide association studies that link genes with diseases.
0
Citation919
0
Save
Load More