ID
Inna Dubchak
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
37
(95% Open Access)
Cited by:
33,929
h-index:
18
/
i10-index:
21
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The Sorghum bicolor genome and the diversification of grasses

Andrew Paterson et al.Jan 1, 2009
Sorghum, an African grass related to sugar cane and maize, is grown for food, feed, fibre and fuel. We present an initial analysis of the ∼730-megabase Sorghum bicolor (L.) Moench genome, placing ∼98% of genes in their chromosomal context using whole-genome shotgun sequence validated by genetic, physical and syntenic information. Genetic recombination is largely confined to about one-third of the sorghum genome with gene order and density similar to those of rice. Retrotransposon accumulation in recombinationally recalcitrant heterochromatin explains the ∼75% larger genome size of sorghum compared with rice. Although gene and repetitive DNA distributions have been preserved since palaeopolyploidization ∼70 million years ago, most duplicated gene sets lost one member before the sorghum–rice divergence. Concerted evolution makes one duplicated chromosomal segment appear to be only a few million years old. About 24% of genes are grass-specific and 7% are sorghum-specific. Recent gene and microRNA duplications may contribute to sorghum’s drought tolerance. The Sorghum bicolor genome sequence is published this week. Sorghum is a cereal grown widely as food, animal feed, fibre and fuel. Tolerant to hot, dry conditions, it is a staple for large populations in the West African Sahel region. Comparisons of the genome with those of maize and rice shed light on the evolution of grasses and of C4 photosynthesis, which is particularly efficient at assimilating carbon at high temperatures. In addition, protein coding genes and miRNAs that could contribute to sorghum's drought tolerance may also be found. Sorghum yield improvement has lagged behind that of other crops and the availability of the genome sequence could provide a vital boost to work on its improvement. Sorghum is an African grass that is grown for food, animal feed and fuel. The current paper presents an initial analysis of the ∼730 megabase genome of Sorghum bicolor. Genome analysis and its comparison with maize and rice shed light on grass genome evolution and also provide insights into the evolution of C4 photosynthesis, as well as protein coding genes and miRNAs that might contribute to sorghum's drought tolerance.
0
Citation2,857
0
Save
0

The amphioxus genome and the evolution of the chordate karyotype

Nicholas Putnam et al.Jun 1, 2008
Lancelets (‘amphioxus’) are the modern survivors of an ancient chordate lineage, with a fossil record dating back to the Cambrian period. Here we describe the structure and gene content of the highly polymorphic ∼520-megabase genome of the Florida lancelet Branchiostoma floridae, and analyse it in the context of chordate evolution. Whole-genome comparisons illuminate the murky relationships among the three chordate groups (tunicates, lancelets and vertebrates), and allow not only reconstruction of the gene complement of the last common chordate ancestor but also partial reconstruction of its genomic organization, as well as a description of two genome-wide duplications and subsequent reorganizations in the vertebrate lineage. These genome-scale events shaped the vertebrate genome and provided additional genetic variation for exploitation during vertebrate evolution. This issue sees the publication of the draft genome sequence of an animal that has been studied by biologists for many years as a model for a primitive chordate. The amphioxus or lancelet is a small worm-like creature, usually to be found buried in sand on the sea floor. Comparative analysis of the genome of the Florida lancelet, Branchiostoma floridae, reveals 17 ancestral chordate linkage groups conserved in the modern amphioxus and vertebrate genomes despite more than half a billion years of independent evolution. From this it possible to make a virtual reconstruction of the 17 chromosomes of the last common chordate ancestor. This reconstruction conforms that two rounds of whole genome duplication have occurred during evolution of the jawed vertebrate lineage. And it illuminates the murky relationships between the three chordate groups, the tunicates, lancelets and vertebrates. The cover shows four adult amphioxus collected in Apalachee Bay, Florida, with anterior towards the top and dorsal to the right. Yellow ovals are gonads. (Photo by Nicholas Putnam, DOE Joint Genome Institute.
0
Citation1,541
0
Save
0

Genomic variation in 3,010 diverse accessions of Asian cultivated rice

Li Wang et al.Apr 20, 2018
Here we analyse genetic variation, population structure and diversity among 3,010 diverse Asian cultivated rice (Oryza sativa L.) genomes from the 3,000 Rice Genomes Project. Our results are consistent with the five major groups previously recognized, but also suggest several unreported subpopulations that correlate with geographic location. We identified 29 million single nucleotide polymorphisms, 2.4 million small indels and over 90,000 structural variations that contribute to within- and between-population variation. Using pan-genome analyses, we identified more than 10,000 novel full-length protein-coding genes and a high number of presence–absence variations. The complex patterns of introgression observed in domestication genes are consistent with multiple independent rice domestication events. The public availability of data from the 3,000 Rice Genomes Project provides a resource for rice genomics research and breeding. Analyses of genetic variation and population structure based on over 3,000 cultivated rice (Oryza sativa) genomes reveal subpopulations that correlate with geographic location and patterns of introgression consistent with multiple rice domestication events.
0
Citation1,233
0
Save
0

In vivo enhancer analysis of human conserved non-coding sequences

L Pennacchio et al.Nov 1, 2006
Identifying the non-coding DNA sequences that act at a distance to regulate patterns of gene expression is not a simple matter; one useful pointer is evolutionary sequence conservation. An in vivo analysis of 167 non-coding elements in the human genome that are extremely conserved based on comparisons with pufferfish, rat and mouse genomes, has identified 75 previously unknown tissue-specific enhancers. These are active in embryos on day 11, most of them directing expression in the developing nervous system. The success of this method suggests that the further 5,500 non-coding sequences conserved between humans and pufferfish may yield another new batch of gene enhancers. Identifying the sequences that direct the spatial and temporal expression of genes and defining their function in vivo remains a significant challenge in the annotation of vertebrate genomes. One major obstacle is the lack of experimentally validated training sets. In this study, we made use of extreme evolutionary sequence conservation as a filter to identify putative gene regulatory elements, and characterized the in vivo enhancer activity of a large group of non-coding elements in the human genome that are conserved in human–pufferfish, Takifugu (Fugu) rubripes, or ultraconserved1 in human–mouse–rat. We tested 167 of these extremely conserved sequences in a transgenic mouse enhancer assay. Here we report that 45% of these sequences functioned reproducibly as tissue-specific enhancers of gene expression at embryonic day 11.5. While directing expression in a broad range of anatomical structures in the embryo, the majority of the 75 enhancers directed expression to various regions of the developing nervous system. We identified sequence signatures enriched in a subset of these elements that targeted forebrain expression, and used these features to rank all ∼3,100 non-coding elements in the human genome that are conserved between human and Fugu. The testing of the top predictions in transgenic mice resulted in a threefold enrichment for sequences with forebrain enhancer activity. These data dramatically expand the catalogue of human gene enhancers that have been characterized in vivo, and illustrate the utility of such training sets for a variety of biological applications, including decoding the regulatory vocabulary of the human genome.
0
Citation1,161
0
Save
0

KBase: The United States Department of Energy Systems Biology Knowledgebase

Adam Arkin et al.Jul 6, 2018
To the Editor: Over the past two decades, the scale and complexity of genomics technologies and data have advanced from sequencing genomes of a few organisms to generating metagenomes, genome variation, gene expression, metabolites, and phenotype data for thousands of organisms and their communities.A major challenge in this data-rich age of biology is integrating heterogeneous and distributed data into predictive models of biological function, ranging from a single gene to entire organisms and their ecologies.The US Department of Energy (DOE) has invested substantially in efforts to understand the complex interplay between biological and abiotic processes that influence soil, water, and environmental dynamics of our biosphere.The community that has grown around these efforts recognizes the need for scientists of diverse backgrounds to have access to sophisticated computational tools that enable them to analyze complex and heterogeneous data sets and integrate their data and results effectively with the work of others.In this way, new data and conclusions can be rapidly propagated across existing, related analyses and easily discovered by the community for evaluation and comparison with previous results 1-3 .Here we present the DOE Systems Biology Knowledgebase (KBase, http://kbase.us),an open-source software and data platform that enables data sharing, integration, and analysis of microbes, plants, and their communities.KBase maintains an internal reference database that consolidates information from widely used external data repositories.This includes over 90,000 microbial genomes from RefSeq 4 , over 50 plant genomes from Phytozome 5 , over 300 Biolog media formulations 6 , and >30,000 reactions and compounds from KEGG 7 , BIGG 8 , and MetaCyc 9 .These public data are available for integration with user data where appropriate (e.g., genome comparison or building species trees).KBase links these diverse data types with a range of analytical functions within a web-based user interface.This extensive community resource facilitates large-scale analyses on scalable computing infrastructure and has
0

VISTA Enhancer Browser--a database of tissue-specific human enhancers

Axel Visel et al.Nov 28, 2006
Despite the known existence of distant-acting cis-regulatory elements in the human genome, only a small fraction of these elements has been identified and experimentally characterized in vivo. This paucity of enhancer collections with defined activities has thus hindered computational approaches for the genome-wide prediction of enhancers and their functions. To fill this void, we utilize comparative genome analysis to identify candidate enhancer elements in the human genome coupled with the experimental determination of their in vivo enhancer activity in transgenic mice [L. A. Pennacchio et al. (2006) Nature, in press]. These data are available through the VISTA Enhancer Browser (http://enhancer.lbl.gov). This growing database currently contains over 250 experimentally tested DNA fragments, of which more than 100 have been validated as tissue-specific enhancers. For each positive enhancer, we provide digital images of whole-mount embryo staining at embryonic day 11.5 and an anatomical description of the reporter gene expression pattern. Users can retrieve elements near single genes of interest, search for enhancers that target reporter gene expression to a particular tissue, or download entire collections of enhancers with a defined tissue specificity or conservation depth. These experimentally validated training sets are expected to provide a basis for a wide range of downstream computational and functional studies of enhancer function.
0
Citation1,037
0
Save
Load More