MM
Märt Möls
Author with expertise in RNA Sequencing Data Analysis
University of Tartu, Czech Academy of Sciences, Institute of Mathematics, Estonian Biocentre
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
0
h-index:
11
/
i10-index:
12
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

StrainSeeker: fast identification of bacterial strains from unassembled sequencing reads using user-provided guide trees.

Märt Roosaare et al.May 6, 2020
+7
L
M
M
Background Fast, accurate and high-throughput detection of bacteria is in great demand. The present work was conducted to investigate the possibility of identifying both known and unknown bacterial strains from unassembled next-generation sequencing reads using custom-made guide trees. Results A program named StrainSeeker was developed that constructs a list of specific k-mers for each node of any given Newick-format tree and enables rapid identification of bacterial genomes within minutes. StrainSeeker has been tested and shown to successfully identify Escherichia coli strains from mixed samples in less than 5 minutes. StrainSeeker can also identify bacterial strains from highly diverse metagenomics samples. StrainSeeker is available at http://bioinfo.ut.ee/strainseeker. Conclusions Our novel approach can be useful for both clinical diagnostics and research laboratories because novel bacterial strains are constantly emerging and their fast and accurate detection is very important.
1

Analysis of follow-up data in large biobank cohorts: a review of methodology

Merli Mändul et al.Oct 24, 2023
+2
M
A
M
Abstract Survival analysis in clinical trials has been extensively researched, but its applicability to large omics-based biobanks requires further investigation. This study addresses two important issues in time-to-event data analysis in biobank settings. First, there is the need to pay attention to left-truncation of some outcomes that would prevent individuals joining the biobank, if the event of interest occurs before possible recruitment time. To avoid biases due to left-truncation, it has been suggested to use age as time scale in the analysis, whereas an individual is considered at risk only after recruitment to the biobank. Second, one needs to address the computational burden due to relative slowness of the conventional algorithm to maximize the partial likelihood function for the Cox model. This study examines the impact of the choice of timescale on the bias and power, while varying effect size and censoring rate in the range realistically seen in a typical biobank setting. Moreover, the study explores a computationally fast two-step martingale residual (MR) based approach for Cox modeling in high-dimensional omics data. The findings indicate that the choice of timescale has minimal impact on accuracy for small hazard ratios (HR), but for larger HRs, accounting for left-truncation is crucial to reduce bias. When maximizing power for association discovery, using participant age as the time scale (whereas individual is considered to be at risk immediately after birth) yields the highest power. The two-step MR approach is recommended for genome-wide association studies due to acceptable precision and retained power for small effect sizes. However, for predictions and polygenic risk score calculations, effect sizes should be recalculated using the conventional Cox proportional hazards model while accounting for left-truncation. The conclusions are based on simulations and illustrated with survival data from the Estonian Biobank cohort.
0

FastGT: an alignment-free method for calling common SNVs directly from raw sequencing reads

Fanny‐Dhelia Pajuste et al.May 7, 2020
+3
M
L
F
We have developed a computational method that counts the frequencies of unique k-mers in FASTQ-formatted genome data and uses this information to infer the genotypes of known variants. FastGT can detect the variants in a 30x genome in less than 1 hour using ordinary low-cost server hardware. The overall concordance with the genotypes of two Illumina "Platinum" genomes is 99.96%, and the concordance with the genotypes of the Illumina HumanOmniExpress is 99.82%. Our method provides k-mer database that can be used for the simultaneous genotyping of approximately 30 million single nucleotide variants (SNVs), including >23,000 SNVs from Y chromosome. The source code of FastGT software is available at GitHub (https://github.com/bioinfo-ut/GenomeTester4/).
21

KATK: fast genotyping of rare variants directly from unmapped sequencing reads

Lauris Kaplinski et al.Oct 24, 2023
+2
T
M
L
Abstract Motivation KATK is a fast and accurate software tool for calling variants directly from raw NGS reads. It uses predefined k-mers to retrieve only the reads of interest from the FASTQ file and calls genotypes by aligning retrieved reads locally. KATK does not use data about known polymorphisms and has NC (No Call) as default genotype. The reference or variant allele is called only if there is sufficient evidence for their presence in data. Thus it is not biased against rare variants or de novo mutations. Results With simulated datasets, we achieved a false negative rate of 0.23% (sensitivity 99.77%) and a false discovery rate of 0.19%. Calling all human exonic regions with KATK requires 1-2 h, depending on sequencing coverage. Availability KATK is distributed under the terms of GNU GPL v3. The k-mer databases are distributed under the Creative Commons CC BY-NC-SA license. The source code is available at GitHub as part of Genometester4 package ( https://github.com/bioinfo-ut/GenomeTester4/ ). The binaries of KATK package and k-mer databases described in the current paper are available on http://bioinfo.ut.ee/KATK/ .