LM
Lana Martin
Author with expertise in RNA Sequencing Data Analysis
University of Southern California, University of California, Los Angeles, QB3
+ 2 more
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
6
(33% Open Access)
Cited by:
17
h-index:
12
/
i10-index:
13
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Challenges and recommendations to improve installability and archival stability of omics computational tools

Serghei Mangul et al.May 6, 2020
+14
R
T
S
Abstract Developing new software tools for analysis of large-scale biological data is a key component of advancing modern biomedical research. Scientific reproduction of published findings requires running computational tools on data generated by such studies, yet little attention is presently allocated to the installability and archival stability of computational software tools. Scientific journals require data and code sharing, but none currently require authors to guarantee the continuing functionality of newly published tools. We have estimated the archival stability of computational biology software tools by performing an empirical analysis of the internet presence for 36,702 omics software resources published from 2005 to 2017. We found that almost 28% of all resources are currently not accessible through URLs published in the paper they first appeared in. Among the 98 software tools selected for our installability test, 51% were deemed “easy to install,” and 28% of the tools failed to be installed at all due to problems in the implementation. Moreover, for papers introducing new software, we found that the number of citations significantly increased when authors provided an easy installation process. We propose for incorporation into journal policy several practical solutions for increasing the widespread installability and archival stability of published bioinformatics software.
0

UMI-Reducer: Collapsing duplicate sequencing reads via Unique Molecular Identifiers

Serghei Mangul et al.May 6, 2020
+2
L
S
S
Short Structured Abstract Summary Every sequencing library contains duplicate reads. While many duplicates arise during polymerase chain reaction (PCR), some duplicates derive from multiple identical fragments of mRNA present in the original lysate (termed “biological duplicates”). Unique Molecular Identifiers (UMIs) are random oligonucleotide sequences that allow differentiation between technical and biological duplicates. Here we report the development of UMI-Reducer, a new computational tool for processing and differentiating PCR duplicates from biological duplicates. UMI-Reducer uses UMIs and the mapping position of the read to identify and collapse reads that are technical duplicates. Remaining true biological reads are further used for bias-free estimate of mRNA abundance in the original lysate. This strategy is of particular use for libraries made from low amounts of starting material, which typically require additional cycles of PCR and therefore are most prone to PCR duplicate bias. Availability and Implementation The UMI-Reducer is an open source Python software and is freely available for non-commercial use (GPL-3.0) at https://sergheimangul.wordpress.com/umi-reducer/ . Documentation and tutorials are available at https://github.com/smangul1/UMI-Reducer/wiki/ . Contact smangul@ucla.edu , SVanDriesche@mednet.ucla.edu Supplementary information Flowchart of Library Construction
0
Paper
Citation5
0
Save
0

Review: Population Structure in Genetic Studies: Confounding Factors and Mixed Models

Lana Martin et al.May 6, 2020
E
L
A genome-wide association study (GWAS) seeks to identify genetic variants that contribute to the development and progression of a specific disease. Over the past 10 years, new approaches using mixed models have emerged to mitigate the deleterious effects of population structure and relatedness in association studies. However, developing GWAS techniques to effectively test for association while correcting for population structure is a computational and statistical challenge. Our review motivates the problem of population structure in association studies using laboratory mouse strains and how it can cause false positives associations. We then motivate mixed models in the context of unmodeled factors.
0

Improving the usability and comprehensiveness of microbial databases

Caitlin Loeffler et al.May 7, 2020
+3
L
A
C
Metagenomics studies leverage genomic reference databases to generate discoveries in basic science and translational research. However, current microbial studies use disparate reference databases that lack consistent standards of specimen inclusion, data preparation, taxon labelling and accessibility, hindering their quality and comprehensiveness, and calling for the establishment of recommendations for reference genome database assembly. Here, we analyze existing fungal and bacterial databases and discuss guidelines for the development of a master reference database that promises to improve the quality and quantity of omics research.
0

Benchmarking of computational error-correction methods for next-generation sequencing data

Keith Mitchell et al.May 6, 2020
+23
I
J
K
Background Recent advancements in next-generation sequencing have rapidly improved our ability to study genomic material at an unprecedented scale. Despite substantial improvements in sequencing technologies, errors present in the data still risk confounding downstream analysis and limiting the applicability of sequencing technologies in clinical tools. Computational error-correction promises to eliminate sequencing errors, but the relative accuracy of error correction algorithms remains unknown.Results In this paper, we evaluate the ability of error-correction algorithms to fix errors across different types of datasets that contain various levels of heterogeneity. We highlight the advantages and limitations of computational error correction techniques across different domains of biology, including immunogenomics and virology. To demonstrate the efficacy of our technique, we apply the UMI-based high-fidelity sequencing protocol to eliminate sequencing errors from both simulated data and the raw reads. We then perform a realistic evaluation of error correction methods.Conclusions In terms of accuracy, we find that method performance varies substantially across different types of datasets with no single method performing best on all types of examined data. Finally, we also identify the techniques that offer a good balance between precision and sensitivity
0

Addressing the digital divide in contemporary biology: Lessons from teaching UNIX

Serghei Mangul et al.May 7, 2020
+2
A
L
S
Researchers in the biomedical sciences increasingly rely on applications that lack a graphical interface and require inputting code that, such as UNIX. Scientists who are not trained in computer science face an enormous challenge in analyzing the high-throughput data their research groups generate. We present a training model for use of command-line tools when the learner has little to no prior knowledge of UNIX.