ZL
Zhenyuan Lu
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
13
(85% Open Access)
Cited by:
2,139
h-index:
15
/
i10-index:
16
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The taxonomic name resolution service: an online tool for automated standardization of plant names

Brad Boyle et al.Jan 16, 2013
The digitization of biodiversity data is leading to the widespread application of taxon names that are superfluous, ambiguous or incorrect, resulting in mismatched records and inflated species numbers. The ultimate consequences of misspelled names and bad taxonomy are erroneous scientific conclusions and faulty policy decisions. The lack of tools for correcting this ‘names problem’ has become a fundamental obstacle to integrating disparate data sources and advancing the progress of biodiversity science. The TNRS, or Taxonomic Name Resolution Service, is an online application for automated and user-supervised standardization of plant scientific names. The TNRS builds upon and extends existing open-source applications for name parsing and fuzzy matching. Names are standardized against multiple reference taxonomies, including the Missouri Botanical Garden's Tropicos database. Capable of processing thousands of names in a single operation, the TNRS parses and corrects misspelled names and authorities, standardizes variant spellings, and converts nomenclatural synonyms to accepted names. Family names can be included to increase match accuracy and resolve many types of homonyms. Partial matching of higher taxa combined with extraction of annotations, accession numbers and morphospecies allows the TNRS to standardize taxonomy across a broad range of active and legacy datasets. We show how the TNRS can resolve many forms of taxonomic semantic heterogeneity, correct spelling errors and eliminate spurious names. As a result, the TNRS can aid the integration of disparate biological datasets. Although the TNRS was developed to aid in standardizing plant names, its underlying algorithms and design can be extended to all organisms and nomenclatural codes. The TNRS is accessible via a web interface at http://tnrs.iplantcollaborative.org/ and as a RESTful web service and application programming interface. Source code is available at https://github.com/iPlantCollaborativeOpenSource/TNRS/ .
0
Paper
Citation460
0
Save
0

The iPlant Collaborative: Cyberinfrastructure for Plant Biology

Stephen Goff et al.Jan 1, 2011
The iPlant Collaborative (iPlant) is a United States National Science Foundation (NSF) funded project that aims to create an innovative, comprehensive, and foundational cyberinfrastructure in support of plant biology research (PSCIC, 2006). iPlant is developing cyberinfrastructure that uniquely enables scientists throughout the diverse fields that comprise plant biology to address Grand Challenges in new ways, to stimulate and facilitate cross-disciplinary research, to promote biology and computer science research interactions, and to train the next generation of scientists on the use of cyberinfrastructure in research and education. Meeting humanity's projected demands for agricultural and forest products and the expectation that natural ecosystems be managed sustainably will require synergies from the application of information technologies. The iPlant cyberinfrastructure design is based on an unprecedented period of research community input, and leverages developments in high-performance computing, data storage, and cyberinfrastructure for the physical sciences. iPlant is an open-source project with application programming interfaces that allow the community to extend the infrastructure to meet its needs. iPlant is sponsoring community-driven workshops addressing specific scientific questions via analysis tool integration and hypothesis testing. These workshops teach researchers how to add bioinformatics tools and/or datasets into the iPlant cyberinfrastructure enabling plant scientists to perform complex analyses on large datasets without the need to master the command-line or high-performance computational services.
0

Uncertainty quantification in neural-network based pain intensity estimation

Burcu Ozek et al.Aug 1, 2024
Improper pain management leads to severe physical or mental consequences, including suffering, a negative impact on quality of life, and an increased risk of opioid dependency. Assessing the presence and severity of pain is imperative to prevent such outcomes and determine the appropriate intervention. However, the evaluation of pain intensity is a challenging task because different individuals experience pain differently. To overcome this, many researchers in the field have employed machine learning models to evaluate pain intensity objectively using physiological signals. However, these efforts have primarily focused on pain point estimation, disregarding inherent uncertainty and variability in the data and model. A point estimate, which provides only partial information, is not sufficient for sound clinical decision-making. This study proposes a neural network-based method for objective pain interval estimation, and quantification of uncertainty. Our approach, which enables objective pain intensity estimation with desired confidence probabilities, affords clinicians a better understanding of a person’s pain intensity. We explored three distinct algorithms: the bootstrap method, lower and upper bound estimation ( Loss L ) optimized by genetic algorithm, and modified lower and upper bound estimation ( Loss S ) optimized by gradient descent algorithm. Our empirical results demonstrate that Loss S outperforms the other two by providing narrower prediction intervals. For 50%, 75%, 85%, and 95% prediction interval coverage probability, Loss S provides average interval widths that are 22.4%, 7.9%, 16.7%, and 9.1% narrower than those of Loss L , and 19.3%, 21.1%, 23.6%, and 26.9% narrower than those of bootstrap. As Loss S outperforms, we assessed its performance in three different model-building approaches: (1) a generalized approach using a single model for the entire population, (2) a personalized approach with separate models for each individual, and (3) a hybrid approach with models for clusters of individuals. Results demonstrate that the hybrid model-building approach provides the best performance.
0

MaizeCODE reveals bi-directionally expressed enhancers that harbor molecular signatures of maize domestication

Jonathan Cahn et al.Feb 23, 2024
Abstract Modern maize was domesticated from Teosinte parviglumis , with subsequent introgressions from Teosinte mexicana , yielding increased kernel row number, loss of the hard fruit case and dissociation from the cob upon maturity, as well as fewer tillers. Molecular approaches have identified several transcription factors involved in the development of these traits, yet revealed that a complex regulatory network is at play. MaizeCODE deploys ENCODE strategies to catalog regulatory regions in the maize genome, generating histone modification and transcription factor ChIP-seq in parallel with transcriptomics datasets in 5 tissues of 3 inbred lines which span the phenotypic diversity of maize, as well as the teosinte inbred TIL11. Integrated analysis of these datasets resulted in the identification of a comprehensive set of regulatory regions in each inbred, and notably of distal enhancers which were differentiated from gene bodies by their lack of H3K4me1. Many of these distal enhancers expressed non- coding enhancer RNAs bi-directionally, reminiscent of “super enhancers” in animal genomes. We show that pollen grains are the most differentiated tissue at the transcriptomic level, and share features with endosperm that may be related to McClintock’s chromosome breakage- fusion-bridge cycle. Conversely, ears have the least conservation between maize and teosinte, both in gene expression and within regulatory regions, reflecting conspicuous morphological differences selected during domestication. The identification of molecular signatures of domestication in transcriptional regulatory regions provides a framework for directed breeding strategies in maize.
0
Citation1
0
Save
8

Ten new high-quality genome assemblies for diverse bioenergy sorghum genotypes

William Voelker et al.Sep 27, 2022
Abstract Sorghum ( Sorghum bicolor (L.) Moench) is an agriculturally and economically important staple crop that has immense potential as a bioenergy feedstock due to its relatively high productivity on marginal lands. To capitalize on and further improve sorghum as a potential source of sustainable biofuel, it is essential to understand the genomic mechanisms underlying complex traits related to yield, composition, and environmental adaptations. Expanding on a recently developed mapping population, we generated de novo genome assemblies for 10 parental genotypes from this population and identified a comprehensive set of over 24 thousand large structural variants (SVs) and over 10.5 million single nucleotide polymorphisms (SNPs).These resources can be integrated into both ongoing and future mapping and trait discovery for sorghum and its myriad uses including food, feed, bioenergy, and increasingly as a carbon dioxide removal mechanism. We show that SVs and nonsynonymous SNPs are enriched in different gene categories, emphasizing the need for long read sequencing in crop species to identify novel variation. Furthermore, we highlight SVs and SNPs occurring in genes and pathways with known associations to critical bioenergy-related phenotypes and characterize the landscape of genetic differences between sweet and cellulosic genotypes.
1

Comparative Analysis of Sorghum EMS Mutants and Natural Populations

Liya Wang et al.Jun 7, 2021
Abstract To build a large-scale genomic resource for functional validation of sorghum genes through EMS-mutagenized BTx623 seeds, we deep sequenced (30-60X) an additional 445 phenotyped EMS mutant lines. 4.2 million EMS mutations are called with nearly 36,800 mutations that could have a disruptive effect on functions of over 15,500 genes. Combining variants carried by both the natural population and previous EMS efforts, over 69% of sorghum coding genes (23644) are now presented with one or more mutations that are, or are predicted to be, disruptive to their functions. Our results show that the EMS population carries more significant mutations but less in each sample than the natural population, which makes it more powerful in elucidating sorghum gene functions on a large scale and requiring less work in validation of candidate causal genes. We have made the data available through two ways, one is the integration with the BSAseq workflow that supports retrieving independent EMS samples carrying the same genes with significant mutation for complementary testing, and the other is a web application for directly querying genes with significant mutations on SciApps.org .
Load More