A new version of ResearchHub is available.Try it now
Healthy Research Rewards
ResearchHub is incentivizing healthy research behavior. At this time, first authors of open access papers are eligible for rewards. Visit the publications tab to view your eligible publications.
Got it
JB
Jonathan Belyeu
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
9
(78% Open Access)
Cited by:
17
h-index:
8
/
i10-index:
8
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
93

De novo structural mutation rates and gamete-of-origin biases revealed through genome sequencing of 2,396 families

Jonathan Belyeu et al.Oct 8, 2020
Abstract Each human genome includes de novo mutations that arose during gametogenesis. While these germline mutations represent a fundamental source of new genetic diversity, they can also create deleterious alleles that impact fitness. The germline mutation rate for single nucleotide variants and factors that significantly influence this rate, such as parental age, are now well established. However, far less is known about the frequency, distribution, and features that impact de novo structural mutations. We report a large, family-based study of germline mutations, excluding aneuploidy, that affect genome structure among 572 genomes from 33 families in a multigenerational CEPH-Utah cohort and 2,363 cases of non-familial autism spectrum disorder (ASD), 1,938 unaffected siblings, and both parents (9,599 genomes in total). We find that de novo structural mutations detected by alignment-based, short-read WGS occurred at an overall rate of at least 0.160 events per genome in unaffected individuals and was significantly higher (0.206 per genome) in ASD cases. In both probands and unaffected samples, nearly 73% of de novo structural mutations arose in paternal gametes, and predict most de novo structural mutations to be caused by mutational mechanisms that do not require sequence homology. After multiple testing correction we did not observe a statistically significant correlation between parental age and the rate of de novo structural variation in offspring. These results highlight that a spectrum of mutational mechanisms contribute to germline structural mutations, and that these mechanisms likely have markedly different rates and selective pressures than those leading to point mutations.
93
Citation5
0
Save
0

Sawfish: Improving long-read structural variant discovery and genotyping with local haplotype modeling

Christopher Saunders et al.Aug 20, 2024
Motivation Structural variants (SVs) play an important role in evolutionary and functional genomics but are challenging to characterize. High-accuracy, long-read sequencing can substantially improve SV characterization when coupled with effective calling methods. While state-of the-art long-read SV callers are highly accurate, further improvements are achievable by systematically modeling local haplotypes during SV discovery and genotyping. Results We describe sawfish, an SV caller for mapped high-quality long reads incorporating systematic SV haplotype modeling to improve accuracy and resolution. Assessment against the draft Genome in a Bottle (GIAB) SV benchmark from the T2T-HG002-Q100 diploid assembly shows that sawfish has the highest accuracy among state-of-the-art long-read SV callers across every tested SV size group. Additionally, sawfish maintains the highest accuracy at every tested depth level from 10 to 32-fold coverage, such that other callers required at least 30-fold coverage to match sawfish accuracy at 15-fold coverage. Sawfish also shows the highest accuracy in the GIAB challenging medically relevant genes benchmark, demonstrating improvements in both comprehensive and medically relevant contexts. When joint-genotyping 10 samples from CEPH-1463, sawfish has over 9000 more pedigree-concordant calls than other state-of-the-art SV callers, with the highest proportion of concordant SVs (78%) as well. Sawfish's quality model can be used to select for an even higher proportion of concordant SVs (86%), while still calling over 5000 more pedigree-concordant SVs than other callers. These results demonstrate that sawfish improves on the state-of-the-art for long-read SV calling accuracy across both individual and joint-sample analyses. Availability Sawfish is released as a pre-compiled Linux binary and user guide on GitHub: https://github.com/PacificBiosciences/sawfish.
0

Sawfish: Improving long-read structural variant discovery and genotyping with local haplotype modeling

Christopher Saunders et al.Apr 9, 2025
Abstract Motivation Structural variants (SVs) play an important role in evolutionary and functional genomics but are challenging to characterize. High-accuracy, long-read sequencing can substantially improve SV characterization when coupled with effective calling methods. While state-of-the-art long-read SV callers are highly accurate, further improvements are achievable by systematically modeling local haplotypes during SV discovery and genotyping. Results We describe sawfish, an SV caller for mapped high-quality long reads incorporating systematic SV haplotype modeling to improve accuracy and resolution. Assessment against the draft Genome in a Bottle (GIAB) SV benchmark from the T2T-HG002-Q100 diploid assembly shows that sawfish has the highest accuracy among state-of-the-art long-read SV callers across every tested SV size group. Additionally, sawfish maintains the highest accuracy at every tested depth level from 10- to 32-fold coverage, such that other callers required at least 30-fold coverage to match sawfish accuracy at 15-fold coverage. Sawfish also shows the highest accuracy in the GIAB challenging medically relevant genes benchmark, demonstrating improvements in both comprehensive and medically relevant contexts. When joint-genotyping 7 samples from CEPH-1463, sawfish has over 9000 more pedigree-concordant calls than other state-of-the-art SV callers, with the highest proportion of concordant SVs (81%). Sawfish’s quality model enables selection for an even higher proportion of concordant SVs (88%), while still calling nearly 5000 more pedigree-concordant SVs than other callers. These results demonstrate that sawfish improves on the state-of-the-art for long-read SV calling accuracy across both individual and joint-sample analyses. Availability Sawfish source code, pre-compiled Linux binaries, and documentation are released on GitHub: https://github.com/PacificBiosciences/sawfish. Supplementary information Supplementary data are available at Bioinformatics online.\
0

XPRESSyourself: Enhancing, Standardizing, and Automating Ribosome Profiling Computational Analyses Yields Improved Insight into Data

Jordan Berg et al.Jul 16, 2019
Ribosome profiling, an application of nucleic acid sequencing for monitoring ribosome activity, has revolutionized our understanding of protein translation dynamics. This technique has been available for a decade, yet the current state and standardization of publicly available computational tools for these data is bleak. We introduce XPRESSyourself, an analytical toolkit that eliminates barriers and bottlenecks associated with this specialized data type by filling gaps in the computational toolset for both experts and non-experts of ribosome profiling. XPRESSyourself automates and standardizes analysis procedures, decreasing time-to-discovery and increasing reproducibility. This toolkit acts as a reference implementation of current best practices in ribosome profiling analysis. We demonstrate this toolkit’s performance on publicly available ribosome profiling data by rapidly identifying hypothetical mechanisms related to neurodegenerative phenotypes and neuroprotective mechanisms of the small-molecule ISRIB during acute cellular stress. XPRESSyourself brings robust, rapid analysis of ribosome-profiling data to a broad and ever-expanding audience and will lead to more reproducible and accessible measurements of translation regulation. XPRESSyourself software is perpetually open-source under the GPL-3.0 license and is hosted at , where users can access additional documentation and report software issues.* AWS : Amazon Web Services BAM : Binary Sequence Alignment Map BED : Browser Extensible Data cDNA : complementary DNA CDS : coding sequence of gene ChIP-seq : chromatin immunoprecipitation sequencing CPU : central processing unit dbGaP : Database of Genotypes and Phenotypes DNA : deoxyribonucleic acid FDR : false discovery rate FPKM : fragments per kilobase of transcript per million GEO : Gene Expression Omnibus GTF : General Transfer Format IGV : Integrative Genomics Viewer ISR : integrated stress response ISRIB : ISR inhibitor mRNA : messenger RNA nt : nucleotide PCA : principal component analysis PCR : polymerase chain reaction RAM : random access memory RNA : ribonucleic acid RNA-Seq : RNA sequencing RPKM : reads per kilobase of transcript per million RPM : reads per million rRNA : ribosomal RNA TCGA : The Cancer Genome Atlas TE : translation efficiency TPM : transcripts per million UMI : unique molecular identifier UTR : untranslated region VCF : Variant Call Format