MI
Michael Inouye
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
44
(25% Open Access)
Cited by:
96
h-index:
64
/
i10-index:
144
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
145

Bacterial modification of the host glycosaminoglycan heparan sulfate modulates SARS-CoV-2 infectivity

Cameron Martino et al.Aug 18, 2020
+34
D
B
C
The human microbiota has a close relationship with human disease and it remodels components of the glycocalyx including heparan sulfate (HS). Studies of the severe acute respiratory syndrome coronavirus (SARS-CoV-2) spike protein receptor binding domain suggest that infection requires binding to HS and angiotensin converting enzyme 2 (ACE2) in a codependent manner. Here, we show that commensal host bacterial communities can modify HS and thereby modulate SARS-CoV-2 spike protein binding and that these communities change with host age and sex. Common human-associated commensal bacteria whose genomes encode HS-modifying enzymes were identified. The prevalence of these bacteria and the expression of key microbial glycosidases in bronchoalveolar lavage fluid (BALF) was lower in adult COVID-19 patients than in healthy controls. The presence of HS-modifying bacteria decreased with age in two large survey datasets, FINRISK 2002 and American Gut, revealing one possible mechanism for the observed increase in COVID-19 susceptibility with age. In vitro , bacterial glycosidases from unpurified culture media supernatants fully blocked SARS-CoV-2 spike binding to human H1299 protein lung adenocarcinoma cells. HS-modifying bacteria in human microbial communities may regulate viral adhesion, and loss of these commensals could predispose individuals to infection. Understanding the impact of shifts in microbial community composition and bacterial lyases on SARS-CoV-2 infection may lead to new therapeutics and diagnosis of susceptibility.
145
Citation34
0
Save
65

Greengenes2 enables a shared data universe for microbiome studies

Daniel McDonald et al.Dec 20, 2022
+23
M
A
D
Abstract 16S rRNA and shotgun metagenomics studies typically yield different results, usually attributed to biases in PCR amplification of 16S rRNA genes. Here, we introduce Greengenes2 and show that differences in reference phylogeny are more important. By inserting sequences into a whole-genome phylogeny, we show that 16S rRNA and shotgun metagenomic data generated from the same samples agree in principal coordinates space, taxonomy, and in phenotype effect size when analyzed with the same tree.
65
Citation21
0
Save
119

OGUs enable effective, phylogeny-aware analysis of even shallow metagenome community structures

Qiyun Zhu et al.Apr 6, 2021
+24
A
S
Q
Abstract We introduce Operational Genomic Unit (OGU), a metagenome analysis strategy that directly exploits sequence alignment hits to individual reference genomes as the minimum unit for assessing the diversity of microbial communities and their relevance to environmental factors. This approach is independent from taxonomic classification, granting the possibility of maximal resolution of community composition, and organizes features into an accurate hierarchy using a phylogenomic tree. The outputs are suitable for contemporary analytical protocols for community ecology, differential abundance and supervised learning while supporting phylogenetic methods, such as UniFrac and phylofactorization, that are seldomly applied to shotgun metagenomics despite being prevalent in 16S rRNA gene amplicon studies. As demonstrated in one synthetic and two real-world case studies, the OGU method produces biologically meaningful patterns from microbiome datasets. Such patterns further remain detectable at very low metagenomic sequencing depths. Compared with taxonomic unit-based analyses implemented in currently adopted metagenomics tools, and the analysis of 16S rRNA gene amplicon sequence variants, this method shows superiority in informing biologically relevant insights, including stronger correlation with body environment and host sex on the Human Microbiome Project dataset, and more accurate prediction of human age by the gut microbiomes in the Finnish population. We provide Woltka, a bioinformatics tool to implement this method, with full integration with the QIIME 2 package and the Qiita web platform, to facilitate OGU adoption in future metagenomics studies. Importance Shotgun metagenomics is a powerful, yet computationally challenging, technique compared to 16S rRNA gene amplicon sequencing for decoding the composition and structure of microbial communities. However, current analyses of metagenomic data are primarily based on taxonomic classification, which is limited in feature resolution compared to 16S rRNA amplicon sequence variant analysis. To solve these challenges, we introduce Operational Genomic Units (OGUs), which are the individual reference genomes derived from sequence alignment results, without further assigning them taxonomy. The OGU method advances current read-based metagenomics in two dimensions: (i) providing maximal resolution of community composition while (ii) permitting use of phylogeny-aware tools. Our analysis of real-world datasets shows several advantages over currently adopted metagenomic analysis methods and the finest-grained 16S rRNA analysis methods in predicting biological traits. We thus propose the adoption of OGU as standard practice in metagenomic studies.
119
Citation19
0
Save
206

The carbon footprint of bioinformatics

Jason Grealey et al.Mar 9, 2021
+5
W
L
J
Abstract Bioinformatic research relies on large-scale computational infrastructures which have a non-zero carbon footprint. So far, no study has quantified the environmental costs of bioinformatic tools and commonly run analyses. In this study, we estimate the bioinformatic carbon footprint (in kilograms of CO 2 equivalent units, kgCO 2 e) using the freely available Green Algorithms calculator ( www.green-algorithms.org ). We assess (i) bioinformatic approaches in genome-wide association studies (GWAS), RNA sequencing, genome assembly, metagenomics, phylogenetics and molecular simulations, as well as (ii) computation strategies, such as parallelisation, CPU (central processing unit) vs GPU (graphics processing unit), cloud vs. local computing infrastructure and geography. In particular, for GWAS, we found that biobank-scale analyses emitted substantial kgCO 2 e and simple software upgrades could make GWAS greener, e.g. upgrading from BOLT-LMM v1 to v2.3 reduced carbon footprint by 73%. Switching from the average data centre to a more efficient data centres can reduce carbon footprint by ~34%. Memory over-allocation can be a substantial contributor to an algorithm’s carbon footprint. The use of faster processors or greater parallelisation reduces run time but can lead to, sometimes substantially, greater carbon footprint. Finally, we provide guidance on how researchers can reduce power consumption and minimise kgCO 2 e. Overall, this work elucidates the carbon footprint of common analyses in bioinformatics and provides solutions which empower a move toward greener research.
206
Paper
Citation9
0
Save
3

An atlas of genetic scores to predict multi-omic traits

Yu Xu et al.Apr 17, 2022
+36
E
P
Y
Abstract Genetically predicted levels of multi-omic traits can uncover the molecular underpinnings of common phenotypes in a highly efficient manner. Here, we utilised a large cohort (INTERVAL; N=50,000 participants) with extensive multi-omic data for plasma proteomics (SomaScan, N=3,175; Olink, N=4,822), plasma metabolomics (Metabolon HD4, N=8,153), serum metabolomics (Nightingale, N=37,359), and whole blood Illumina RNA sequencing (N=4,136). We used machine learning to train genetic scores for 17,227 molecular traits, including 10,521 which reached Bonferroni-adjusted significance. We evaluated genetic score performances in external validation across European, Asian and African American ancestries, and assessed their longitudinal stability within diverse individuals. We demonstrated the utility of these multi-omic genetic scores by quantifying the genetic control of biological pathways and by generating a synthetic multi-omic dataset of UK Biobank to identify disease associations using a phenome-wide scan. Finally, we developed a portal ( OmicsPred.org ) to facilitate public access to all genetic scores and validation results as well as to serve as a platform for future extensions and enhancements of multi-omic genetic scores.
3
Citation7
0
Save
1

Pitfalls of machine learning models for protein-protein interactions

Loïc Lannelongue et al.Feb 8, 2022
M
M
L
Abstract Protein-protein interactions (PPIs) are essential to understanding biological pathways as well as their roles in development and disease. Computational tools, based on classic machine learning, have been successful at predicting PPIs in silico , but the lack of consistent and reliable frameworks for this task has led to network models that are difficult to compare and discrepancies between algorithms that remain unexplained. To better understand the underlying inference mechanisms that underpin these models, we designed an open-source framework for benchmarking that accounts for a range of biological and statistical pitfalls while facilitating reproducibility. We use it to shed light on the impact of network topology and how different algorithms deal with highly connected proteins. By studying functional genomics-based and sequence-based models on human PPIs, we show their complementarity as the former performs best on lone proteins while the latter specialises in interactions involving hubs. We also show that algorithm design has little impact on performance with functional genomic data. We replicate our results between both human and S. cerevisiae data and demonstrate that models using functional genomics are better suited to PPI prediction across species. With rapidly increasing amounts of sequence and functional genomics data, our study provides a principled foundation for future construction, comparison and application of PPI networks.
1
Citation4
0
Save
0

The landscape of incident disease risk for the biomarker GlycA and its mortality stratification in angiography patients

Johannes Kettunen et al.Mar 12, 2018
+15
O
S
J
Abstract Integration of systems-level biomolecular information with electronic health records has led to the discovery of robust blood-based biomarkers predictive of future health and disease. Of recent intense interest is the GlycA biomarker, a complex nuclear magnetic resonance (NMR) spectroscopy signal reflective of acute and chronic inflammation, which predicts long term risk of diverse outcomes including cardiovascular disease, type 2 diabetes, and all-cause mortality. To systematically explore the specificity of the disease burden indicated by GlycA we analysed the risk for 468 common incident hospitalization and mortality outcomes occurring during an 8-year follow-up of 11,861 adults from Finland. Our analyses of GlycA replicated known associations, identified associations with specific cardiovascular disease outcomes, and uncovered new associations with risk of alcoholic liver disease (meta-analysed hazard ratio 2.94 per 1-SD, P=5×10 -6 ), chronic renal failure (HR=2.47, P=3×10 -6 ), glomerular diseases (HR=1.95, P=1×10 -6 ), chronic obstructive pulmonary disease (HR=1.58, P=3×10 -5 ), inflammatory polyarthropathies (HR=1.46, P=4×10 -8 ), and hypertension (HR=1.21, P=5×10 -5 ). We further evaluated GlycA as a biomarker in secondary prevention of 12-year cardiovascular mortality in 900 angiography patients with suspected coronary artery disease. We observed hazard ratios of 4.87 and 5.00 for 12-year mortality in angiography patients in the fourth and fifth quintiles by GlycA levels demonstrating the prognostic potential of GlycA for identification of high mortality-risk individuals. Both GlycA and C-reactive protein had shared as well as independent contributions to mortality hazard, emphasising the importance of chronic inflammation in secondary prevention of cardiovascular disease.
0
Citation2
0
Save
0

SRST2: Rapid genomic surveillance for public health and hospital microbiology labs

Michael Inouye et al.Jun 26, 2014
+6
L
M
M
Rapid molecular typing of bacterial pathogens is critical for public health epidemiology, surveillance and infection control, yet routine use of whole genome sequencing (WGS) for these purposes poses significant challenges. Here we present SRST2, a read mapping-based tool for fast and accurate detection of genes, alleles and multi-locus sequence types (MLST) from WGS data. Using >900 genomes from common pathogens, we show SRST2 is highly accurate and outperforms assembly-based methods in terms of both gene detection and allele assignment. Here we have demonstrated the use of SRST2 for microbial genome surveillance in a variety of public health and hospital settings. In the face of rising threats of antimicrobial resistance and emerging virulence amongst bacterial pathogens, SRST2 represents a powerful tool for rapidly extracting clinically useful information from raw WGS data. Source code is available from http://katholt.github.io/srst2/
0

Neonatal genetics of gene expression reveal the origins of autoimmune and allergic disease risk

Qin Huang et al.Jun 27, 2019
+13
S
S
Q
Chronic immune-mediated diseases of adulthood often originate in early childhood. To investigate genetic associations between neonatal immunity and disease, we collected cord blood samples from a birth cohort and mapped expression quantitative trait loci (eQTLs) in resting monocytes and CD4+ T cells as well as in response to lipopolysaccharide (LPS) or phytohemagglutinin (PHA) stimulation, respectively. Cis -eQTLs were largely specific to cell type or stimulation, and response eQTLs were identified for 31% of genes with cis -eQTLs (eGenes) in monocytes and 52% of eGenes in CD4+ T cells. We identified trans -eQTLs and mapped cis regulatory factors which act as mediators of trans effects. There was extensive colocalisation of causal variants for cell type- and stimulation-specific neonatal cis -eQTLs and those of autoimmune and allergic diseases, in particular CTSH (Cathepsin H) which showed widespread colocalisation across diseases. Mendelian randomisation showed causal neonatal gene transcription effects on disease risk for BTN3A2 , HLA-C and many other genes. Our study elucidates the genetics of gene expression in neonatal conditions and cell types as well as the aetiological origins of autoimmune and allergic diseases.
0

Fast Principal Component Analysis of Large-Scale Genome-Wide Data

Gad Abraham et al.Jan 30, 2014
M
M
G
Principal component analysis (PCA) is routinely used to analyze genome-wide single-nucleotide polymorphism (SNP) data, for detecting population structure and potential outliers. However, the size of SNP datasets has increased immensely in recent years and PCA of large datasets has become a time consuming task. We have developed flashpca, a highly efficient PCA implementation based on randomized algorithms, which delivers identical accuracy in extracting the top principal components compared with existing tools, in substantially less time. We demonstrate the utility of flashpca on both HapMap3 and on a large Immunochip dataset. For the latter, flashpca performed PCA of 15,000 individuals up to 125 times faster than existing tools, with identical results, and PCA of 150,000 individuals using flashpca completed in 4 hours. The increasing size of SNP datasets will make tools such as flashpca essential as traditional approaches will not adequately scale. This approach will also help to scale other applications that leverage PCA or eigen-decomposition to substantially larger datasets.
Load More