MF
Margherita Francescatto
Author with expertise in Genomic Selection in Plant and Animal Breeding
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(75% Open Access)
Cited by:
2,356
h-index:
17
/
i10-index:
20
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A saturated map of common genetic variants associated with human height

Loïc Yengo et al.Oct 12, 2022
Abstract Common single-nucleotide polymorphisms (SNPs) are predicted to collectively explain 40–50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes 1 . Here, using data from a genome-wide association study of 5.4 million individuals of diverse ancestries, we show that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a mean size of around 90 kb, covering about 21% of the genome. The density of independent associations varies across the genome and the regions of increased density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs (or all SNPs in the HapMap 3 panel 2 ) account for 40% (45%) of phenotypic variance in populations of European ancestry but only around 10–20% (14–24%) in populations of other ancestries. Effect sizes, associated regions and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely to be explained by linkage disequilibrium and differences in allele frequency within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than are needed to implicate causal genes and variants. Overall, this study provides a comprehensive map of specific genomic regions that contain the vast majority of common height-associated variants. Although this map is saturated for populations of European ancestry, further research is needed to achieve equivalent saturation in other ancestries.
0
Citation370
0
Save
3

A Saturated Map of Common Genetic Variants Associated with Human Height from 5.4 Million Individuals of Diverse Ancestries

Loïc Yengo et al.Jan 10, 2022
ABSTRACT Common SNPs are predicted to collectively explain 40-50% of phenotypic variation in human height, but identifying the specific variants and associated regions requires huge sample sizes. Here we show, using GWAS data from 5.4 million individuals of diverse ancestries, that 12,111 independent SNPs that are significantly associated with height account for nearly all of the common SNP-based heritability. These SNPs are clustered within 7,209 non-overlapping genomic segments with a median size of ~90 kb, covering ~21% of the genome. The density of independent associations varies across the genome and the regions of elevated density are enriched for biologically relevant genes. In out-of-sample estimation and prediction, the 12,111 SNPs account for 40% of phenotypic variance in European ancestry populations but only ~10%-20% in other ancestries. Effect sizes, associated regions, and gene prioritization are similar across ancestries, indicating that reduced prediction accuracy is likely explained by linkage disequilibrium and allele frequency differences within associated regions. Finally, we show that the relevant biological pathways are detectable with smaller sample sizes than needed to implicate causal genes and variants. Overall, this study, the largest GWAS to date, provides an unprecedented saturated map of specific genomic regions containing the vast majority of common height-associated variants.
3
Citation16
0
Save
0

Integrative Network Fusion: a multi-omics approach in molecular profiling

Marco Chierici et al.Apr 3, 2020
Recent technological advances and international efforts, such as The Cancer Genome Atlas (TCGA), have made available several pan-cancer datasets encompassing multiple omics layers with detailed clinical information in large collection of samples. The need has thus arisen for the development of computational methods aimed at improving cancer subtyping and biomarker identification from multi-modal data. Here we apply the Integrative Network Fusion (INF) pipeline, which combines multiple omics layers exploiting Similarity Network Fusion (SNF) within a machine learning predictive framework. INF includes a feature ranking scheme (rSNF) on SNF-integrated features, used by a classifier over juxtaposed multi-omics features (juXT). In particular, we show instances of INF implementing Random Forest (RF) and linear Support Vector Machine (LSVM) as the classifier, and two baseline RF and LSVM models are also trained on juXT. A compact RF model, called rSNFi, trained on the intersection of top-ranked biomarkers from the two approaches juXT and rSNF is finally derived. All the classifiers are run in a 10x5-fold cross- validation schema to warrant reproducibility, following the guidelines for an unbiased Data Analysis Plan by the US FDA-led initiatives MAQC/SEQC. INF is demonstrated on four classification tasks on three multi-modal TCGA oncogenomics datasets. Gene expression, protein abundances and copy number variants are used to predict estrogen receptor status (BRCA-ER, N=381) and breast invasive carcinoma subtypes (BRCA-subtypes, N=305), while gene expression, miRNA expression and methylation data is used as predictor layers for acute myeloid leukemia and renal clear cell carcinoma survival (AML-OS, N=157; KIRC-OS, N=181). In test, INF achieved similar Matthews Correlation Coefficient (MCC) values and 97% to 83% smaller feature sizes (FS), compared with juXT for BRCA-ER (MCC: 0.83 vs 0.80; FS: 56 vs 1801) and BRCA-subtypes (0.84 vs 0.80; 302 vs 1801), improving KIRC-OS performance (0.38 vs 0.31; 111 vs 2319). INF predictions are generally more accurate in test than one-dimensional omics models, with smaller signatures too, where transcriptomics consistently play the leading role. Overall, the INF framework effectively integrates multiple data levels in oncogenomics classification tasks, improving over the performance of single layers alone and naive juxtaposition, and provides compact signature sizes.
0

An aptamer-mediated base editing platform for simultaneous knock-in and multiple gene knockout for allogeneic CAR-T cells generation

Immacolata Porreca et al.Jun 26, 2024
Gene editing technologies hold promise for enabling the next generation of adoptive cellular therapies. In conventional gene editing platforms that rely on nuclease activity, such as clustered regularly interspaced short palindromic repeats CRISPR-associated protein 9 (CRISPR-Cas9), allow efficient introduction of genetic modifications; however, these modifications occur via the generation of DNA double-strand breaks (DSBs) and can lead to unwanted genomic alterations and genotoxicity. Here, we apply a novel modular RNA aptamer-mediated Pin-point base editing platform to simultaneously introduce multiple gene knockouts and site-specific integration of a transgene in human primary T cells. We demonstrate high editing efficiency and purity at all target sites and significantly reduced frequency of chromosomal translocations compared with the conventional CRISPR-Cas9 system. Site-specific knockin of a chimeric antigen receptor and multiplex gene knockout are achieved within a single intervention and without the requirement for additional sequence-targeting components. The ability to perform complex genome editing efficiently and precisely highlights the potential of the Pin-point platform for application in a range of advanced cell therapies. Gene editing technologies hold promise for enabling the next generation of adoptive cellular therapies. In conventional gene editing platforms that rely on nuclease activity, such as clustered regularly interspaced short palindromic repeats CRISPR-associated protein 9 (CRISPR-Cas9), allow efficient introduction of genetic modifications; however, these modifications occur via the generation of DNA double-strand breaks (DSBs) and can lead to unwanted genomic alterations and genotoxicity. Here, we apply a novel modular RNA aptamer-mediated Pin-point base editing platform to simultaneously introduce multiple gene knockouts and site-specific integration of a transgene in human primary T cells. We demonstrate high editing efficiency and purity at all target sites and significantly reduced frequency of chromosomal translocations compared with the conventional CRISPR-Cas9 system. Site-specific knockin of a chimeric antigen receptor and multiplex gene knockout are achieved within a single intervention and without the requirement for additional sequence-targeting components. The ability to perform complex genome editing efficiently and precisely highlights the potential of the Pin-point platform for application in a range of advanced cell therapies.
0

Evaluating reproducibility of AI algorithms in digital pathology with DAPPER

Andrea Bizzego et al.Jun 6, 2018
Artificial Intelligence is exponentially increasing its impact on healthcare. As deep learning is mastering computer vision tasks, its application to digital pathology is natural, with the promise of aiding in routine reporting and standardizing results across trials. Deep learning features inferred from digital pathology scans can improve validity and robustness of current clinico-pathological features, up to identifying novel histological patterns, e.g. from tumor infiltrating lymphocytes. In this study, we examine the issue of evaluating accuracy of predictive models from deep learning features in digital pathology, as an hallmark of reproducibility. We introduce the DAPPER framework for validation based on a rigorous Data Analysis Plan derived from the FDA's MAQC project, designed to analyse causes of variability in predictive biomarkers. We apply the framework on models that identify tissue of origin on 787 Whole Slide Images from the Genotype-Tissue Expression (GTEx) project. We test 3 different deep learning architectures (VGG, ResNet, Inception) as feature extractors and three classifiers (a fully connected multilayer, Support Vector Machine and Random Forests) and work with 4 datasets (5, 10, 20 or 30 classes), for a total 53 000 tiles at 512 x 512 resolution. We analyze accuracy and feature stability of the machine learning classifiers, also demonstrating the need for random features and random labels diagnostic tests to identify selection bias and risks for reproducibility. Further, we use the deep features from the VGG model from GTEx on the KIMIA24 dataset for identification of slide of origin (24 classes) to train a classifier on 1060 annotated tiles and validated on 265 unseen ones. The DAPPER software, including its deep learning backbone pipeline and the HINT (Histological Imaging - Newsy Tiles) benchmark dataset derived from GTEx, is released as a basis for standardization and validation initiatives in AI for Digital Pathology.