IS
Ilan Shomorony
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(57% Open Access)
Cited by:
1
h-index:
16
/
i10-index:
26
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Addition of Genetics to Quantitative MRI Facilitates Earlier Prediction of Dementia: A Non-invasive Alternative to Amyloid Measures

Natalie Schenker-Ahmed et al.Aug 11, 2019
+18
L
N
N
SUMMARY Background Alzheimer’s disease is a major health problem, affecting ~4⋅5% of people aged 60 and older in 2016 with over 43 million affected globally 1 . The traditional approach for detection evaluates an individual in the presence of symptoms. However, it has been established that amyloid deposits begin to accumulate years before symptoms begin to appear 2,3 . With improved technology, there is increased focus on risk reduction, timely diagnosis, and early intervention. Early identification of at-risk individuals may enable patients and their families to better prepare for and reduce the impact of this condition. Methods We obtained data for patients from two longitudinal retrospective cohorts (Alzheimer’s Disease Neuroimaging Initiative: ADNI and National Alzheimer’s Coordinating Center: NACC), including T1-weighted MRI and genetics data. The polygenic risk score (PRS) used in this study was built based on a published Genome Wide Association Study (GWAS) that identified variants associated with Alzheimer’s disease. Quantitative MRI features were obtained using a 3D U-Net neural network for brain segmentation. Cox proportional hazards (CPH) regression models were used with subjects censored at death or the last evaluation. Time-to-event was defined as the time it takes for an individual who is dementia-free at the baseline MRI to progress to dementia as defined by the criteria described by ADNI. Time-dependent ROC areas under curve (AUCs) were estimated in the presence of censored data. The time-dependent AUCs were compared among models using the Wilcoxon rank sum test for dependent samples. Data was binned into three groups according to survival probability to eight years after baseline and Kaplan-Meier survival analysis was used to estimate the probability of surviving at least to time t. Calibration for both training and validation cohorts was evaluated using the predicted survival probability, splitting samples into five risk groups of equal size based on the predicted survival probability. Findings We developed a model that predicts the onset of dementia over an eight-year time window in individuals with genetics data and a T1-weighted MRI who were dementia-free at baseline. We then validated the model in an independent multisite cohort. We observed that models using PRS in addition to MRI-derived features performed significantly better as measured by time-varying AUC up to eight years in both the training (p = 0⋅0071) and validation (p = 0⋅050) cohorts. We observed improved performance of the two modalities versus MRI alone when compared with more invasive amyloid measures. The combined MRI and PRS model showed equivalent performance to cerebral spinal fluid (CSF) amyloid measurement up to eight years prior to disease onset (p = 0⋅181) and while the MRI only model performed worse (p = 0⋅040). Finally, we compared to amyloid positron emission tomography (PET) three to four years prior to disease onset with favorable results. Interpretation Our finding suggests that the two modalities are complementary measures, in that MRI reflects near-term decline and the addition of genetics extends the prediction scope of quantitative MRI by adding additional long-term predictive power. The proposed multimodal model shows potential as an alternate solution for early risk assessment given the concordance with CSF amyloid and amyloid PET. Future work will include further comparison with amyloid PET (greater than four years) and with CSF (greater than eight years) as additional long-term data becomes available. Also, the model will be evaluated for its clinical utility in the “active surveillance” of individuals who may be concerned about their risk of developing dementia but are not yet eligible for assessment by amyloid PET or CSF. RESEARCH IN CONTEXT Evidence before this study The most significant known genetic factor in Alzheimer’s disease (AD) is the ε4 allele for the Apolipoprotein E ( APOE ) gene. Carriers of the allele have a three-fold increased risk of developing AD, whereas individuals who are homozygous have a 15-fold increased risk. Genome-wide association studies (GWASs) have identified many additional genetic variants that are associated with AD. Recent studies have shown that the risk for AD is better predicted by combining effects from several genetic variants into “polygenic risk scores” (PRS). Studies have also demonstrated that the age of onset for AD is better predicted using PRS rather than APOE status alone. Regional brain atrophy, as measured using volumetric MRI, is also an important biomarker for evaluating an individual’s risk of developing dementia. Previous predictions have shown that medial temporal lobe atrophy, as measured by a Hippocampal Occupancy Score (HOC) is highly associated with progression from MCI to AD. Added value of this study In the proposed model, the addition of genetics to MRI data lengthens the time over which the model can predict onset of dementia. The two measures appear to be complementary, with MRI showing near-term decline and genetics providing additional predictive power in the long-term. When compared to more invasive measures of amyloid, which have been shown to have long-term predictive power, we observed equivalent performance to CSF amyloid up to 8 years prior to disease onset and equivalent performance to amyloid PET three to four years prior to disease onset. Implications of all the available evidence Although MRI remains relatively expensive, it is less expensive, less invasive, more accessible, and more commonly available than amyloid PET. Furthermore, MRI is already part of standard clinical practice and this model may be applied to standard clinical MRIs with no additional acquisition required. A recent survey of patients and their caregivers has highlighted a desire for access to better diagnostics, such as amyloid PET, to aid them in long-term legal, financial and healthcare planning. Our model, given the concordance with CSF and amyloid PET could be an alternate solution to fulfill this need. Furthermore, our model could facilitate the “active surveillance” of individuals who are high-risk and thereby enhance the possibility of early intervention.
0
Citation1
0
Save
0

Spectral Jaccard Similarity: A new approach to estimating pairwise sequence alignments

Tavor Baharav et al.Oct 10, 2019
I
D
G
T
A key step in many genomic analysis pipelines is the identification of regions of similarity between pairs of DNA sequencing reads. This task, known as pairwise sequence alignment, is a heavy computational burden, particularly in the context of third-generation long-read sequencing technologies, which produce noisy reads. This issue is commonly addressed via a two-step approach: first, we filter pairs of reads which are likely to have a large alignment, and then we perform computationally intensive alignment algorithms only on the selected pairs. The Jaccard similarity between the set of k -mers of each read can be shown to be a proxy for the alignment size, and is usually used as the filter. This strategy has the added benefit that the Jaccard similarities don’t need to be computed exactly, and can instead be efficiently estimated through the use of min-hashes . This is done by hashing all k -mers of a read and computing the minimum hash value (the min-hash) for each read. For a randomly chosen hash function, the probability that the min-hashes are the same for two distinct reads is precisely their k -mer Jaccard similarity. Hence, one can estimate the Jaccard similarity by computing the fraction of min-hash collisions out of the set of hash functions considered.However, when the k -mer distribution of the reads being considered is significantly non-uniform, Jaccard similarity is no longer a good proxy for the alignment size. In particular, genome-wide GC biases and the presence of common k -mers increase the probability of a min-hash collision, thus biasing the estimate of alignment size provided by the Jaccard similarity. In this work, we introduce a min-hash-based approach for estimating alignment sizes called Spectral Jaccard Similarity which naturally accounts for an uneven k -mer distribution in the reads being compared. The Spectral Jaccard Similarity is computed by considering a min-hash collision matrix (where rows correspond to pairs of reads and columns correspond to different hash functions), removing an offset, and performing a singular value decomposition . The leading left singular vector provides the Spectral Jaccard Similarity for each pair of reads. In addition, we develop an approximation to the Spectral Jaccard Similarity that can be computed with a single matrix-vector product, instead of a full singular value decomposition.We demonstrate improvements in AUC of the Spectral Jaccard Similarity based filters over Jaccard Similarity based filters on 40 datasets of PacBio reads from the NCTC collection. The code is available at [https://github.com/TavorB/spectral\_jaccard\_similarity][1]. [1]: https://github.com/TavorB/spectral_jaccard_similarity
0

HINGE: Long-Read Assembly Achieves Optimal Repeat Resolution

Govinda Kamath et al.Jul 5, 2016
+2
F
I
G
Long-read sequencing technologies have the potential to produce gold-standard de novo genome assemblies, but fully exploiting error-prone reads to resolve repeats remains a challenge. Aggressive approaches to repeat resolution often produce mis-assemblies, and conservative approaches lead to unnecessary fragmentation. We present HINGE, an assembler that seeks to achieve optimal repeat resolution by distinguishing repeats that can be resolved given the data from those that cannot. This is accomplished by adding "hinges" to reads for constructing an overlap graph where only unresolvable repeats are merged. As a result, HINGE combines the error resilience of overlap-based assemblers with repeat-resolution capabilities of de Bruijn graph assemblers. HINGE was evaluated on the long-read bacterial datasets from the NCTC project. HINGE produces more finished assemblies than Miniasm and the manual pipeline of NCTC based on the HGAP assembler and Circlator. HINGE also allows us to identify 40 datasets where unresolvable repeats prevent the reliable construction of a unique finished assembly. In these cases, HINGE outputs a visually interpretable assembly graph that encodes all possible finished assemblies consistent with the reads, while other approaches such as the NCTC pipeline and FALCON either fragment the assembly or resolve the ambiguity arbitrarily.
0

Fast multiple sequence alignment via multi-armed bandits

Kayvon Mazooji et al.Apr 12, 2024
I
K
Multiple sequence alignment is an important problem in computational biology with applications that include phylogeny and the detection of remote homology between protein sequences. UPP is a popular software package that constructs accurate multiple sequence alignments for large datasets based on ensembles of hidden Markov models (HMMs). A computational bottleneck for this method is a sequence-to-HMM assignment step, which relies on the precise computation of probability scores on the HMMs. In this work, we show that we can speed up this assignment step significantly by replacing these HMM probability scores with alternative scores that can be efficiently estimated. Our proposed approach utilizes a multi-armed bandit algorithm to adaptively and efficiently compute estimates of these scores. This allows us to achieve similar alignment accuracy as UPP with a significant reduction in computation time, particularly for datasets with long sequences.
7

Improving Bacterial Genome Assembly Using a Test of Strand Orientation

Grant Greenberg et al.Jul 6, 2022
I
G
Abstract The complexity of genome assembly is due in large part to the presence of repeats. In particular, large reverse-complemented repeats can lead to incorrect inversions of large segments of the genome. To detect and correct such inversions in finished bacterial genomes, we propose a statistical test based on tetranucleotide frequency (TNF), which determines whether two segments from the same genome are of the same or opposite orientation. In most cases, the test neatly partitions the genome into two segments of roughly equal length with seemingly opposite orientations. This corresponds to the segments between the DNA replication origin and terminus, which were previously known to have distinct nucleotide compositions. We show that, in several cases where this balanced partition is not observed, the test identifies a potential inverted misassembly, which is validated by the presence of a reverse-complemented repeat at the boundaries of the inversion. After inverting the sequence between the repeat, the balance of the misassembled genome is restored. Our method identifies 31 potential misassemblies in the NCBI database, several of which are further supported by a reassembly of the read data.
9

JIND: Joint Integration and Discrimination for Automated Single-Cell Annotation

Mohit Goyal et al.Oct 7, 2020
+2
I
G
M
Abstract Single-cell RNA-seq is a powerful tool in the study of the cellular composition of different tissues and organisms. A key step in the analysis pipeline is the annotation of cell-types based on the expression of specific marker genes. Since manual annotation is labor-intensive and does not scale to large datasets, several methods for automated cell-type annotation have been proposed based on supervised learning. However, these methods generally require feature extraction and batch alignment prior to classification, and their performance may become unreliable in the presence of cell-types with very similar transcriptomic profiles, such as differentiating cells. We propose JIND, a framework for automated cell-type identification based on neural networks that directly learns a low-dimensional representation (latent code) in which cell-types can be reliably determined. To account for batch effects, JIND performs a novel asymmetric alignment in which the transcriptomic profile of unseen cells is mapped onto the previously learned latent space, hence avoiding the need of retraining the model whenever a new dataset becomes available. JIND also learns cell-type-specific confidence thresholds to identify and reject cells that cannot be reliably classified. We show on datasets with and without batch effects that JIND classifies cells more accurately than previously proposed methods while rejecting only a small proportion of cells. Moreover, JIND batch alignment is parallelizable, being more than five or six times faster than Seurat integration. Availability: https://github.com/mohit1997/JIND .
0

Unsupervised integration of multimodal dataset identifies novel signatures of health and disease

Ilan Shomorony et al.Oct 3, 2018
+15
E
T
I
Modern medicine is rapidly moving towards a data-driven paradigm based on comprehensive multimodal health assessments. We collected 1,385 data features from diverse modalities, including metabolome, microbiome, genetics and advanced imaging, from 1,253 individuals and from a longitudinal validation cohort of 1,083 individuals. We utilized an ensemble of unsupervised machine learning techniques to identify multimodal biomarker signatures of health and disease risk. In particular, our method identified a set of cardiometabolic biomarkers that goes beyond standard clinical biomarkers, which were used to cluster individuals into distinct health profiles. Cluster membership was a better predictor for diabetes than established clinical biomarkers such as glucose, insulin resistance, and BMI. The novel biomarkers in the diabetes signature included 1-stearoyl-2-dihomo-linolenoyl-GPC and 1-(1-enyl-palmitoyl)-2-oleoyl-GPC. Another metabolite, cinnamoylglycine, was identified as a potential biomarker for both gut microbiome health and lean mass percentage. We also identified an early disease signature for hypertension, and individuals at-risk for a poor metabolic health outcome. We found novel associations between an uremic toxin, p-cresol sulfate, and the abundance of the microbiome genera Intestinimonas and an unclassified genus in the Erysipelotrichaceae family. Our methodology and results demonstrate the potential of multimodal data integration, from the identification of novel biomarker signatures to a data-driven stratification of individuals into disease subtypes and stages -- an essential step towards personalized, preventative health risk assessment.