PB
Parithi Balachandran
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(67% Open Access)
Cited by:
8
h-index:
6
/
i10-index:
5
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
58

Resolution of structural variation in diverse mouse genomes reveals chromatin remodeling due to transposable elements

Ardian Ferraj et al.Sep 27, 2022
+9
P
P
A
SUMMARY Diverse inbred mouse strains are among the foremost models for biomedical research, yet genome characterization of many strains has been fundamentally lacking in comparison to human genomics research. In particular, the discovery and cataloging of structural variants is incomplete, limiting the discovery of potentially causative alleles for phenotypic variation across individuals. Here, we utilized long-read sequencing to resolve genome-wide structural variants (SVs, variants ≥ 50 bp) in 20 genetically distinct inbred mice. We report 413,758 site-specific SVs that affect 13% (356 Mbp) of the current mouse reference assembly, including 510 previously unannotated variants which alter coding sequences. We find that 39% of SVs are attributed to transposable element (TE) variation accounting for 75% of bases altered by SV. We then utilized this callset to investigate the impact of TE heterogeneity on mouse embryonic stem cells (mESCs), and find multiple TE classes that influence chromatin accessibility across loci. We also identify strain-specific transcription start sites originating in polymorphic TEs that modify gene expression. Our work provides the first long-read based analysis of mouse SVs and illustrates that previously unresolved TEs underlie epigenetic and transcriptome differences in mESCs.
58
Citation4
0
Save
45

Transposable element-mediated rearrangements are prevalent in human genomes

Parithi Balachandran et al.Jun 16, 2022
+3
J
I
P
ABSTRACT Transposable elements constitute about half of human genomes, and their role in generating human variation through retrotransposition is broadly studied and appreciated. Structural variants mediated by transposons, which we call transposable element-mediated rearrangements (TEMRs), are less well studied, and the mechanisms leading to their formation as well as their broader impact on human diversity are poorly understood. Here, we identify 493 unique TEMRs across the genomes of three individuals. While homology directed repair is the dominant driver of TEMRs, our sequence-resolved TEMR resource allows us to identify complex inversion breakpoints, triplications or other high copy number polymorphisms, and additional complexities. TEMRs are enriched in genic loci and can create potentially important risk alleles such as a deletion in TRIM65 , a known cancer biomarker and therapeutic target. These findings expand our understanding of this important class of structural variation, the mechanisms responsible for their formation, and establish them as an important driver of human diversity.
45
Citation2
0
Save
10

SvAnna: efficient and accurate pathogenicity prediction for coding and regulatory structural variants in long-read genome sequencing

Daniel Daniš et al.Jul 15, 2021
+12
P
J
D
Abstract Structural variants (SVs) are implicated in the etiology of Mendelian diseases but have been systematically underascertained owing to limitations of existing technology. Recent technological advances such as long-read sequencing (LRS) enable more comprehensive detection of SVs, but approaches for clinical prioritization of candidate SVs are needed. Existing computational approaches do not specifically target LRS data, thereby missing a substantial proportion of candidate SVs, and do not provide a unified computational model for assessing all types of SVs. Structural Variant Annotation and Analysis (SvAnna) assesses all classes of SV and their intersection with transcripts and regulatory sequences in the context of topologically associating domains, relating predicted effects on gene function with clinical phenotype data. We show with a collection of 182 published case reports with pathogenic SVs that SvAnna places over 90% of pathogenic SVs in the top ten ranks. The interpretable prioritizations provided by SvAnna will facilitate the widespread adoption of LRS in diagnostic genomics.
10
Citation1
0
Save
0

Complete sequencing of ape genomes

DongAhn Yoo et al.Jul 31, 2024
+101
P
A
D
We present haplotype-resolved reference genomes and comparative analyses of six ape species, namely: chimpanzee, bonobo, gorilla, Bornean orangutan, Sumatran orangutan, and siamang. We achieve chromosome-level contiguity with unparalleled sequence accuracy (<1 error in 500,000 base pairs), completely sequencing 215 gapless chromosomes telomere-to-telomere. We resolve challenging regions, such as the major histocompatibility complex and immunoglobulin loci, providing more in-depth evolutionary insights. Comparative analyses, including human, allow us to investigate the evolution and diversity of regions previously uncharacterized or incompletely studied without bias from mapping to the human reference. This includes newly minted gene families within lineage-specific segmental duplications, centromeric DNA, acrocentric chromosomes, and subterminal heterochromatin. This resource should serve as a definitive baseline for all future evolutionary studies of humans and our closest living ape relatives.
0
Citation1
0
Save
0

SNaReSim: Synthetic Nanopore Read Simulator

Philippe Faucon et al.May 22, 2017
S
P
P
Nanopores represent the first commercial technology in decades to present a significantly different technique for DNA sequencing, and one of the first technologies to propose direct RNA sequencing. Despite significant differences with previous sequencing technologies, read simulators to date make similar assumptions with respect to error profiles and their analysis. This is a great disservice to both nanopore sequencing and to algorithm developers who seek to optimize their tools to the platform. Previous works have discussed the occurrence of some k-mer bias, but this discussion has been focused on homopolymers, leaving unanswered the question of whether k-mer bias exists over general k-mers, how it occurs, and what can be done to reduce the effects. In this work, we demonstrate that current read simulators fail to accurately represent k-mer error distributions, We explore the sources of k-mer bias in nanopore basecalls, and we present a model for predicting k-mers that are difficult to identify. We also propose a new SNaReSim, a new state-of-the-art simulator, and demonstrate that it provides higher accuracy with respect to 6-mer accuracy biases.
0

High Accuracy Base Calls in Nanopore Sequencing

Philippe Faucon et al.Apr 11, 2017
+2
P
R
P
Nanopore sequencing has introduced the ability to sequence long stretches of DNA, enabling the resolution of repeating segments, or paired SNPs across long stretches of DNA. Unfortunately significant error rates >15%, introduced through systematic and random noise inhibit downstream analysis. We propose a novel method, using unsupervised learning, to correct biologically amplified reads before downstream analysis proceeds. We also demonstrate that our method has performance com- parable to existing techniques without limiting the detection of repeats, or the length of the input sequence.