EG
Edoardo Giacopuzzi
Author with expertise in RNA Sequencing Data Analysis
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
7
(57% Open Access)
Cited by:
2
h-index:
18
/
i10-index:
26
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Self-supervised learning for characterising histomorphological diversity and spatial RNA expression prediction across 23 human tissue types

F. Cisternino et al.Jul 13, 2024
Abstract As vast histological archives are digitised, there is a pressing need to be able to associate specific tissue substructures and incident pathology to disease outcomes without arduous annotation. Here, we learn self-supervised representations using a Vision Transformer, trained on 1.7 M histology images across 23 healthy tissues in 838 donors from the Genotype Tissue Expression consortium (GTEx). Using these representations, we can automatically segment tissues into their constituent tissue substructures and pathology proportions across thousands of whole slide images, outperforming other self-supervised methods (43% increase in silhouette score). Additionally, we can detect and quantify histological pathologies present, such as arterial calcification (AUROC = 0.93) and identify missing calcification diagnoses. Finally, to link gene expression to tissue morphology, we introduce RNAPath, a set of models trained on 23 tissue types that can predict and spatially localise individual RNA expression levels directly from H&E histology (mean genes significantly regressed = 5156, FDR 1%). We validate RNAPath spatial predictions with matched ground truth immunohistochemistry for several well characterised control genes, recapitulating their known spatial specificity. Together, these results demonstrate how self-supervised machine learning when applied to vast histological archives allows researchers to answer questions about tissue pathology, its spatial organisation and the interplay between morphological tissue variability and gene expression.
0
Citation1
0
Save
25

GREEN-DB: A framework for the annotation and prioritization of non-coding regulatory variants from whole-genome sequencing data

Edoardo Giacopuzzi et al.Sep 19, 2020
Abstract Non-coding variants have emerged as important contributors to the pathogenesis of human diseases, not only as common susceptibility alleles but also as rare high-impact variants. Despite recent advances in the study of regulatory elements and the availability of specialized data collections, the systematic annotation of non-coding variants from genome sequencing remains challenging. Here, we propose a new framework for the prioritization of non-coding regulatory variants that integrates information about regulatory regions with prediction scores and HPO-based prioritization. Firstly, we created a comprehensive collection of annotations for regulatory regions including a curated database of 2.4 million regulatory elements (GREEN-DB) annotated with controlled gene(s), tissue(s) and associated phenotype(s) where available. Secondly, we calculated a variation constraint metric and showed that constrained regulatory regions associate with disease-associated genes and essential genes from mouse knock-out screens. Thirdly, we compared 19 non-coding impact prediction scores providing suggestions for variant prioritization. Finally, we developed a VCF annotation tool (GREEN-VARAN) that can integrate all these elements to annotate variants for their potential regulatory impact. In our evaluation, we show that GREEN-DB can capture previously published disease-associated non-coding variants as well as identify additional candidate disease genes in WGS trio analyses.
25
Citation1
0
Save
0

Genome-wide analysis of consistently RNA edited sites in human blood reveals interactions with mRNA processing genes and suggests correlations with cell types and biological variables.

Edoardo Giacopuzzi et al.Jan 25, 2018
Background: A-to-I RNA editing is a co-/post-transcriptional modification catalyzed by ADAR enzymes, that deaminates Adenosines (A) into Inosines (I). Most of the known editing events are located within inverted ALU repeats, but they also occur in coding sequences and may alter the function of encoded proteins. RNA editing contributes to generate transcriptomic diversity and it is found altered in cancer, autoimmune and neurological disorders. Emerging evidences indicate that the editing process could be influenced by genetic variations, biological and environmental variables. Results: We analyzed RNA editing levels in human blood using RNA-seq data from 459 healthy individuals and identified 2,079 sites consistently edited in this tissue. As expected, analysis of gene expression revealed that ADAR is the major contributor to editing on these sites, explaining ~13% of observed variability. After removing ADAR effect, we found significant associations for 1,122 genes, mainly involved in RNA processing. These genes were significantly enriched in genes encoding proteins interacting with ADARs, including 276 potential ADARs interactors and 9 ADARs direct partners. In addition, our analysis revealed several factors potentially influencing RNA editing in blood, including cell composition, age, Body Mass Index, smoke and alcohol consumption. Finally, we identified genetic loci associated with editing levels, including known ADAR eQTLs and a small region on chromosome 7, containing LOC730338, a lincRNA gene that appears to modulate ADARs mRNA expression. Conclusions: Our data provide a detailed picture of the most relevant RNA editing events and their variability in human blood, giving interesting insights into potential mechanisms behind this post-transcriptional modification and its regulation in this tissue.
0

GARFIELD-NGS: Genomic vARiants FIltering by dEep Learning moDels in NGS

Viola Ravasio et al.Jun 14, 2017
Exome sequencing approach is extensively used in research and diagnostic laboratories to discover pathological variants and study genetic architecture of human diseases. However, a significant proportion of identified genetic variants are actually false positive calls, and this pose serious challenges for variants interpretation. Here, we propose a new tool named GARFIELD-NGS (Genomic vARiants FIltering by dEep Learning moDels in NGS), which rely on deep learning models to dissect false and true variants in exome sequencing experiments performed with Illumina or ION platforms. GARFIELD-NGS showed strong performances for both SNP and INDEL variants (AUC 0.71 - 0.98) and outperformed established hard filters. The method is robust also at low coverage down to 30X and can be applied on data generated with the recent Illumina two-colour chemistry. GARFIELD-NGS processes standard VCF file and produces a regular VCF output. Thus, it can be easily integrated in existing analysis pipeline, allowing application of different thresholds based on desired level of sensitivity and specificity. Availability: GARFIELD-NGS available at https://github.com/gedoardo83/GARFIELD-NGS
38

Self-supervised learning for characterising histomorphological diversity and spatial RNA expression prediction across 23 human tissue types

Francesco Cisternino et al.Aug 23, 2023
Abstract As vast histological archives are digitised, there is a pressing need to be able to associate specific tissue substructures and incident pathology to disease outcomes without arduous annotation. Such automation provides an opportunity to learn fundamental biology about how tissue structure and function varies in a population. Recently, self-supervised learning has proven competitive to supervised machine learning approaches in classification, segmentation and representation learning. Here, we leverage self-supervised learning to generate histology feature representations using 1.7M images across 23 healthy tissues in 838 donors from GTEx. Using these representations, we demonstrate we can automatically segment tissues into their constituent tissue substructures and pathology proportions, and surpass the performance of conventionally used pre-trained models. We observe striking population variability in canonical tissue substructures, highlight examples of missing pathological diagnoses, incorrect assignment of target tissue and cross-tissue contamination. We demonstrate that this variability in tissue composition leads to a likely overestimation of eQTL tissue sharing and drives dramatic differential gene expression changes. We use derived tissue substructures to detect 284 tissue substructures and pathology specific eQTLs. As our derived histology representations are rich morphological descriptors of the underlying tissue, we introduce a multiple instance learning model that can predict and spatially localise individual RNA expression levels directly from histology to specific substructures and pathological features. We validate our RNA spatial predictions with matched ground truth immunohistochemistry (IHC) for several well characterised marker genes, recapitulating their known spatial specificity. Finally, we derive a gene expression spatial enrichment metric, allowing us to detect genes specifically expressed within sites of pathology (e.g. arterial calcification). Together, these results demonstrate the power of self-supervised machine learning when applied to vast histological datasets to allow researchers to pose and answer questions about tissue pathology, its spatial organisation and the interplay between morphological tissue variability and gene expression.