AG
Alexander Goncearenco
Author with expertise in Genomic Landscape of Cancer and Mutational Signatures
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
5
(40% Open Access)
Cited by:
11
h-index:
22
/
i10-index:
28
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
98

From sequence to function through structure: deep learning for protein design

Noelia Ferruz et al.Sep 3, 2022
+3
M
M
N
Abstract The process of designing biomolecules, in particular proteins, is witnessing a rapid change in available tooling and approaches, moving from design through physicochemical force fields, to producing plausible, complex sequences fast via end-to-end differentiable statistical models. To achieve conditional and controllable protein design, researchers at the interface of artificial intelligence and biology leverage advances in natural language processing (NLP) and computer vision techniques, coupled with advances in computing hardware to learn patterns from growing biological databases, curated annotations thereof, or both. Once learned, these patterns can be leveraged to provide novel insights into mechanistic biology and the design of biomolecules. However, navigating and understanding the practical applications for the many recent protein design tools is complex. To facilitate this, we 1) document recent advances in deep learning (DL) assisted protein design from the last three years, 2) present a practical pipeline that allows to go from de novo -generated sequences to their predicted properties and web-powered visualization within minutes, and 3) leverage it to suggest a generated protein sequence which might be used to engineer a biosynthetic gene cluster to produce a molecular glue-like compound. Lastly, we discuss challenges and highlight opportunities for the protein design field. Availability pLM generated and UniRef50 sampled sequence sets and predictions are available at http://data.bioembeddings.com/public/design . Code-base and Notebooks for analysis are available at https://github.com/hefeda/PGP . An online version of Table 1 can be found at https://github.com/hefeda/design_tools .
0

Finding Driver Mutations in Cancer: Elucidating the Role of Background Mutational Processes

Minghui Li et al.Jun 22, 2018
A
A
A
M
Identifying driver mutations in cancer is notoriously difficult. To date, recurrence of a mutation in patients remains one of the most reliable markers of mutation driver status. However, some mutations are more likely to occur than others due to differences in background mutation rates arising from various forms of infidelity of DNA replication and repair machinery, endogenous, and exogenous mutagens.We calculated nucleotide and codon mutability to study the contribution of background processes in shaping the observed mutational spectrum in cancer. We developed and tested probabilistic pan-cancer and cancer-specific models that adjust the number of mutation recurrences in patients by background mutability in order to find mutations which may be under selection in cancer.We showed that mutations with higher mutability values had higher observed recurrence frequency, especially in tumor suppressor genes. This trend was prominent for nonsense and silent mutations or mutations with neutral functional impact. In oncogenes, however, highly recurring mutations were characterized by relatively low mutability, resulting in an inversed U-shaped trend. Mutations not yet observed in any tumor had relatively low mutability values, indicating that background mutability might limit mutation occurrence.We compiled a dataset of missense mutations from 58 genes with experimentally validated functional and transforming impacts from various studies. We found that mutability of driver mutations was lower than that of passengers and consequently adjusting mutation recurrence frequency by mutability significantly improved ranking of mutations and driver mutation prediction. Even though no training on existing data was involved, our approach performed similarly or better to the state-of-the-art methods.Availability Author Summary Cancer development and progression is associated with accumulation of mutations. However, only a small fraction of mutations identified in a patient is responsible for cellular transformations leading to cancer. These so-called drivers characterize molecular profiles of tumors and could be helpful in predicting clinical outcomes for the patients. One of the major problems in cancer research is prioritizing mutations. Recurrence of a mutation in patients remains one of the most reliable markers of its driver status. However, DNA damage and repair processes do not affect the genome uniformly, and some mutations are more likely to occur than others. Moreover, mutational probability (mutability) varies with the cancer type. We developed models that adjust the number of mutation recurrences in patients by cancer-type specific background mutability in order to prioritize cancer mutations. Using a comprehensive experimental dataset, we found that mutability of driver mutations was lower than that of passengers, and consequently adjusting mutation recurrence frequency by mutability significantly improved ranking of mutations and driver mutation prediction.
0

Improving the clinical performance of blood-based DNA methylation biomarkers utilizing locus-specific epigenetic heterogeneity

Brendan Miller et al.Mar 18, 2019
+7
G
T
B
Background Variation in intracellular methylation patterns can complicate the use of methylation biomarkers for clinical diagnostic applications such as blood-based cancer testing. Here, we describe development and validation of a methylation density binary classification method called EpiClass (available for download at ), that can be used to predict and optimize the performance of methylation biomarkers, particularly in challenging, heterogeneous samples such as liquid biopsies. This approach is based upon leveraging statistical differences in single-molecule sample methylation density distributions to identify ideal thresholds for samples classification.Results We developed and tested the classifier using reduced representation bisulfite sequencing (RRBS) data derived from ovarian carcinoma tissue DNA and controls. We used these data to perform in silico simulations using methylation density profiles from individual DNA molecules from ZNF154 , a genomic locus known to be recurrently methylated in numerous cancer types. From these profiles, we predicted the performance of the classifier in liquid biopsies for the detection of epithelial ovarian carcinomas (EOC). In silico analysis indicated that EpiClass could be leveraged to better identify cancer-positive liquid biopsy samples by implementing precise thresholds with respect to methylation density profiles derived from circulating cell-free DNA (cfDNA) analysis. These predictions were confirmed experimentally by generating cfDNA methylation density profiles from a cohort of low volume (1-mL) plasma samples obtained from 26 EOC-positive and 41 cancer-free women. EpiClass performance was then validated in an independent cohort of plasma specimens from 24 EOC-positive and 12 cancer-free women, attaining a sensitivity/specificity of 91.7%/100.0%. Direct comparison of CA-125 measurements with EpiClass demonstrated that EpiClass outperformed CA-125 by correctly classifying 69.6% of samples as compared to 47.8% by standard CA-125 assessment.Conclusions Our results indicate that assessment of intramolecular methylation densities calculated from cfDNA facilitate the use of methylation biomarkers for diagnostic applications. Furthermore, we demonstrated that EpiClass analysis of ZNF154 methylation was able to outperform CA-125 in the detection of etiologically-diverse ovarian carcinomas, indicating the broad utility of ZNF154 for use as a biomarker of ovarian cancer.* HRM : high resolution melt DREAMing : Discrimination of Rare EpiAlleles by Melt ctDNA : circulating tumor DNA WGBS : whole-genome bisulfite sequencing cfDNA : cell-free DNA EpiClass : methylation density classifier MDC : methylation density cutoff RRBS : reduced representation bisulfite sequencing EOCs : epithelial ovarian carcinomas CGI : CpG island meCpGs : methylated CpG dinucleotides TPR : true positive rate FPR : false positive rate ROC : receiver operating characteristic AUC : area under the curve
0

Integrated proteogenomic analysis of metastatic thoracic tumors identifies APOBEC mutagenesis and copy number alterations as drivers of proteogenomic tumor evolution and heterogeneity

Nitin Roper et al.Apr 14, 2018
+19
R
R
N
Elucidation of the proteogenomic evolution of metastatic tumors may offer insight into the poor prognosis of patients harboring metastatic disease. We performed whole-exome and transcriptome sequencing, copy number alterations (CNA) and mass spectrometry-based quantitative proteomics of 37 lung adenocarcinoma (LUAD) and thymic carcinoma (TC) metastases obtained by rapid autopsy and found evidence of patient-specific, multi-dimensional heterogeneity. Extreme mutational heterogeneity was evident in a subset of patients whose tumors showed increased APOBEC-signature mutations and expression of APOBEC3 region transcripts compared to patients with lesser mutational heterogeneity. TP53 mutation status was associated with APOBEC hypermutators in our cohort and in three independent LUAD datasets. In a thymic carcinoma patient, extreme heterogeneity and increased APOBEC3AB expression was associated with a high-risk germline APOBEC3AB variant allele. Patients with CNA occurring late in tumor evolution had corresponding changes in gene expression and protein abundance indicating genomic instability as a mechanism of downstream transcriptomic and proteomic heterogeneity between metastases. Across all tumors, proteomic heterogeneity was greater than copy number and transcriptomic heterogeneity. Enrichment of interferon pathways was evident both in the transcriptome and proteome of the tumors enriched for APOBEC mutagenesis despite a heterogeneous immune microenvironment across metastases suggesting a role for the immune microenvironment in the expression of APOBEC transcripts and generation of mutational heterogeneity. The evolving, heterogeneous nature of LUAD and TC, through APOBEC-mutagenesis and CNA illustrate the challenges facing treatment outcomes.
0

PINDER: The protein interaction dataset and evaluation resource

Daniel Kovtun et al.Jul 19, 2024
+16
A
M
D
Protein-protein interactions (PPIs) are fundamental to understanding biological processes and play a key role in therapeutic advancements. As deep-learning docking methods for PPIs gain traction, benchmarking protocols and datasets tailored for effective training and evaluation of their generalization capabilities and performance across real-world scenarios become imperative. Aiming to overcome limitations of existing approaches, we introduce pinder, a comprehensive annotated dataset that uses structural clustering to derive non-redundant interface-based data splits and includes holo (bound), apo (unbound), and computationally predicted structures. pinder consists of 2,319,564 dimeric PPI systems (and up to 25 million augmented PPIs) and 1,955 high-quality test PPIs with interface data leakage removed. Additionally, pinder provides a test subset with 180 dimers for comparison to AlphaFold-Multimer without any interface leakage with respect to its training set. Unsurprisingly, the pinder benchmark reveals that the performance of existing docking models is highly overestimated when evaluated on leaky test sets. Most importantly, by retraining DiffDock-PP on pinder interface-clustered splits, we show that interface cluster-based sampling of the training split, along with the diverse and less leaky validation split, leads to strong generalization improvements.