JB
Juan Botía
Author with expertise in Regulation of RNA Processing and Function
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
14
(79% Open Access)
Cited by:
25
h-index:
19
/
i10-index:
26
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

G2P: Using machine learning to understand and predict genes causing rare neurological disorders

Juan Botía et al.Mar 27, 2018
Abstract To facilitate precision medicine and neuroscience research, we developed a machine-learning technique that scores the likelihood that a gene, when mutated, will cause a neurological phenotype. We analysed 1126 genes relating to 25 subtypes of Mendelian neurological disease defined by Genomics England (March 2017) together with 154 gene-specific features capturing genetic variation, gene structure and tissue-specific expression and co-expression. We randomly re-sampled genes with no known disease association to develop bootstrapped decision-tree models, which were integrated to generate a decision tree-based ensemble for each disease subtype. Genes generating larger numbers of distinct transcripts and with higher probability of having missense mutations in normal individuals were significantly more likely to cause neurological diseases. Using mouse-mutant phenotypic data we tested the accuracy of gene-phenotype predictions and found that for 88% of all disease subtypes there was a significant enrichment of relevant phenotypic abnormalities when predicted genes were mutated in mice and in many cases mutations produced specific and matching phenotypes. Furthermore, using only newly identified genes included in the Genomics England November 2017 release, we assessed our gene-phenotype predictions and showed an 8.3 fold enrichment relative to chance for correct predictions. Thus, we demonstrate both the explanatory and predictive power of machine-learning-based models in neurological disease.
0
Citation8
0
Save
17

Multi-Modality Machine Learning Predicting Parkinson’s Disease

Mary Makarious et al.Mar 7, 2021
SUMMARY Background Personalized medicine promises individualized disease prediction and treatment. The convergence of machine learning (ML) and available multi-modal data is key moving forward. We build upon previous work to deliver multi-modal predictions of Parkinson’s Disease (PD). Methods We performed automated ML on multi-modal data from the Parkinson’s Progression Marker Initiative (PPMI). After selecting the best performing algorithm, all PPMI data was used to tune the selected model. The model was validated in the Parkinson’s Disease Biomarker Program (PDBP) dataset. Finally, networks were built to identify gene communities specific to PD. Findings Our initial model showed an area under the curve (AUC) of 89.72% for the diagnosis of PD. The tuned model was then tested for validation on external data (PDBP, AUC 85.03%). Optimizing thresholds for classification, increased the diagnosis prediction accuracy (balanced accuracy) and other metrics. Combining data modalities outperforms the single biomarker paradigm. UPSIT was the largest contributing predictor for the classification of PD. The transcriptomic data was used to construct a network of disease-relevant transcripts. Interpretation We have built a model using an automated ML pipeline to make improved multi-omic predictions of PD. The model developed improves disease risk prediction, a critical step for better assessment of PD risk. We constructed gene expression networks for the next generation of genomics-derived interventions. Our automated ML approach allows complex predictive models to be reproducible and accessible to the community. Funding National Institute on Aging, National Institute of Neurological Disorders and Stroke, the Michael J. Fox Foundation, and the Global Parkinson’s Genetics Program. RESEARCH IN CONTEXT Evidence before this study Prior research into predictors of Parkinson’s disease (PD) has either used basic statistical methods to make predictions across data modalities, or they have focused on a single data type or biomarker model. We have done this using an open-source automated machine learning (ML) framework on extensive multi-modal data, which we believe yields robust and reproducible results. We consider this the first true multi-modality ML study of PD risk classification. Added value of this study We used a variety of linear, non-linear, kernel, neural networks, and ensemble ML algorithms to generate an accurate classification of both cases and controls in independent datasets using data that is not involved in PD diagnosis itself at study recruitment. The model built in this paper significantly improves upon our previous models that used the entire training dataset in previous work 1 . Building on this earlier work, we showed that the PD diagnosis can be refined using improved algorithmic classification tools that may yield potential biological insights. We have taken careful consideration to develop and validate this model using public controlled-access datasets and an open-source ML framework to allow for reproducible and transparent results. Implications of all available evidence Training, validating, and tuning a diagnostic algorithm for PD will allow us to augment clinical diagnoses or risk assessments with less need for complex and expensive exams. Going forward, these models can be built on remote or asynchronously collected data which may be important in a growing telemedicine paradigm. More refined diagnostics will also increase clinical trial efficiency by potentially refining phenotyping and predicting onset, allowing providers to identify potential cases earlier. Early detection could lead to improved treatment response and higher efficacy. Finally, as part of our workflow, we built new networks representing communities of genes correlated in PD cases in a hypothesis-free manner, showing how new and existing genes may be connected and highlighting therapeutic opportunities.
10

Detection of pathogenic splicing events from RNA-sequencing data using dasper

David Zhang et al.Mar 30, 2021
Abstract Although next-generation sequencing technologies have accelerated the discovery of novel gene-to-disease associations, many patients with suspected Mendelian diseases still leave the clinic without a genetic diagnosis. An estimated one third of these patients will have disorders caused by mutations impacting splicing. RNA-sequencing has been shown to be a promising diagnostic tool, however few methods have been developed to integrate RNA-sequencing data into the diagnostic pipeline. Here, we introduce dasper , an R/Bioconductor package that improves upon existing tools for detecting aberrant splicing by using machine learning to incorporate disruptions in exon-exon junction counts as well as coverage. dasper is designed for diagnostics, providing a rank-based report of how aberrant each splicing event looks, as well as including visualization functionality to facilitate interpretation. We validate dasper using 16 patient-derived fibroblast cell lines harbouring pathogenic variants known to impact splicing. We find that dasper is able to detect pathogenic splicing events with greater accuracy than existing LeafCutterMD or z-score approaches. Furthermore, by only applying a broad OMIM gene filter (without any variant-level filters), dasper is able to detect pathogenic splicing events within the top 10 most aberrant identified for each patient. Since using publicly available control data minimises costs associated with incorporating RNA-sequencing into diagnostic pipelines, we also investigate the use of 504 GTEx fibroblast samples as controls. We find that dasper leverages publicly available data effectively, ranking pathogenic splicing events in the top 25. Thus, we believe dasper can increase diagnostic yield for a pathogenic splicing variants and enable the efficient implementation of RNA-sequencing for diagnostics in clinical laboratories.
10
Citation5
0
Save
55

Genetic variability associated withOAS1expression in myeloid cells increases the risk of Alzheimer’s disease and severe COVID-19 outcomes

Naciye Magusali et al.Mar 18, 2021
Abstract Genome-wide association studies of late-onset Alzheimer’s disease (AD) have highlighted the importance of variants associated with genes expressed by the innate immune system in determining risk for AD. Recently, we and others have shown that genes associated with variants that confer risk for AD are significantly enriched in transcriptional networks expressed by amyloid-responsive microglia. This allowed us to predict new risk genes for AD, including the interferon-responsive oligoadenylate synthetase 1 ( OAS1 ). However, the function of OAS1 within microglia and its genetic pathway are not known. Using genotyping from 1,313 individuals with sporadic AD and 1,234 control individuals, we confirm that the OAS1 variant, rs1131454, is associated with increased risk for AD and decreased OAS1 expression. Moreover, we note that the same locus was recently associated with critical illness in response to COVID-19, linking variants that are associated with AD and a severe response to COVID-19. By analysing single-cell RNA-sequencing (scRNA-seq) data of isolated microglia from APP NL-G-F knock-in and wild-type C57BL/6J mice, we identify a transcriptional network that is significantly upregulated with age and amyloid deposition, and contains the mouse orthologue Oas1a , providing evidence that Oas1a plays an age-dependent function in the innate immune system. We identify a similar interferon-related transcriptional network containing OAS1 by analysing scRNA-seq data from human microglia isolated from individuals with AD. Finally, using human iPSC-derived microglial cells (h-iPSC-Mg), we see that OAS1 is required to limit the pro-inflammatory response of microglia. When stimulated with interferon-gamma (IFN-γ), we note that cells with lower OAS1 expression show an exaggerated pro-inflammatory response, with increased expression and secretion of TNF-α. Collectively, our data support a link between genetic risk for AD and susceptibility to critical illness with COVID-19 centred on OAS1 and interferon signalling, a finding with potential implications for future treatments of both AD and COVID-19, and the development of biomarkers to track disease progression.
55
Citation3
0
Save
7

The chromatin modulating NSL complex regulates genes and pathways genetically linked to Parkinson’s disease

Amy Hicks et al.Jan 18, 2023
Abstract Genetic variants conferring risk for Parkinson’s disease have been highlighted through genome-wide association studies, yet exploration of their specific disease mechanisms is lacking. Two Parkinson’s disease candidate genes, KAT8 and KANSL1 , identified through genome-wide studies and a PINK1-mitophagy screen, encode part of the histone acetylating non-specific lethal complex. This complex localises to the nucleus, where it has a role in transcriptional activation, and to mitochondria, where it has been suggested to have a role in mitochondrial transcription. In this study, we sought to identify whether the non-specific lethal complex has potential regulatory relationships with other genes associated with Parkinson’s disease in human brain. Correlation in the expression of non-specific lethal genes and Parkinson’s disease-associated genes was investigated in primary gene co-expression networks utilising publicly available transcriptomic data from multiple brain regions (provided by the Genotype-Tissue Expression Consortium and UK Brain Expression Consortium), whilst secondary networks were used to examine cell-type specificity. Reverse engineering of gene regulatory networks generated regulons of the complex, which were tested for heritability using stratified linkage disequilibrium score regression and then validated in vitro using the QuantiGene multiplex assay. Significant clustering of non-specific lethal genes was revealed alongside Parkinson’s disease-associated genes in frontal cortex primary co-expression modules. Both primary and secondary co-expression modules containing these genes were enriched for mainly neuronal cell types. Regulons of the complex contained Parkinson’s disease-associated genes and were enriched for biological pathways genetically linked to disease. When examined in a neuroblastoma cell line, 41% of prioritised gene targets showed significant changes in mRNA expression following KANSL1 or KAT8 perturbation. In conclusion, genes encoding the non-specific lethal complex are highly correlated with and regulate genes associated with Parkinson’s disease. Overall, these findings reveal a potentially wider role for this protein complex in regulating genes and pathways implicated in Parkinson’s disease.
7
Citation1
0
Save
1

Algorithms for the discovery of cis-eQTL signals in woody species: the vine (Vitis viniferaL.) as a study model

Pedro Martínez-García et al.Jul 6, 2021
Abstract Expression quantitative trait loci (eQTLs), are associations between genetic variants, such as Single Nucleotide Polymorphisms (SNPs), and gene expression. eQTLs are an important tool to understand the genetics of gene expression of complex phenotypes. eQTLs analysis are common in human studies and in model species such as mice, rats and yeast but are very scarce in wood crop species such as fruit trees or grapevines. In this study a comprehensive bioinformatic pipeline has been carried out using genomics and expression data from 10 genotypes of grape, which has been used as model species. As a result of this study a total of 10,618 genetic variants that regulate gene expression levels of 525 genes were detected. A 78% of them, 411, received a functional annotation from UniProtKB or DAVID, between the annotated protein-coding genes are Germin-like proteins (GLPs), auxin-regulatory factors, GRFS, ANK_REP_REGION domain-containing protein, Kinesin motor domain-containing protein or RPP13like protein 2(LOC100852873). This new inventory of cis eQTLs influencing gene expression during the ripening of fruits of Vitis vinifera L. will be an important resource for future research to understand the mechanistic basis for variation in gene regulation in this species. In the future, this methodology may be applied to other woody species, once the necessary databases are generated.
0

Regulatory sites for known and novel splicing in human basal ganglia are enriched for disease-relevant information

Sebastian Guelfi et al.Mar 28, 2019
Genome-wide association studies have generated an increasing number of common genetic variants that affect neurological and psychiatric disease risk. Given that many causal variants are likely to operate by regulating gene expression, an improved understanding of the genetic control of gene expression in human brain is vital. However, the difficulties of sampling human brain, and its complexity, has meant that brain-related expression quantitative trait loci (eQTL) and allele specific expression (ASE) signals have been more limited in their explanatory power than might otherwise be expected. To address this, we use paired genomic and transcriptomic data from putamen and substantia nigra dissected from 117 brains, combined with a comprehensive set of analyses, to interrogate regulation at different stages of RNA processing and uncover novel transcripts. We identify disease-relevant regulatory loci and reveal the types of analyses and regulatory positions yielding the most disease-specific information. We find that splicing eQTLs are enriched for neuron-specific regulatory information; that ASE analyses provide highly cell-specific regulatory information; and that incomplete annotation of the brain transcriptome limits the interpretation of risk loci for neuropsychiatric disease. We release this rich resource of regulatory data through a searchable webserver, http://braineacv2.inf.um.es/.
Load More