HH
Harry Hemingway
Author with expertise in Genomic Studies and Association Analyses
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
7
(29% Open Access)
Cited by:
3
h-index:
87
/
i10-index:
219
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Analyzing the heterogeneity of rule-based EHR phenotyping algorithms in CALIBER and the UK Biobank

Spiros Denaxas et al.Jun 27, 2019
Abstract Electronic Health Records (EHR) are data generated during routine interactions across healthcare settings and contain rich, longitudinal information on diagnoses, symptoms, medications, investigations and tests. A primary use-case for EHR is the creation of phenotyping algorithms used to identify disease status, onset and progression or extraction of information on risk factors or biomarkers. Phenotyping however is challenging since EHR are collected for different purposes, have variable data quality and often require significant harmonization. While considerable effort goes into the phenotyping process, no consistent methodology for representing algorithms exists in the UK. Creating a national repository of curated algorithms can potentially enable algorithm dissemination and reuse by the wider community. A critical first step is the creation of a robust minimum information standard for phenotyping algorithm components (metadata, implementation logic, validation evidence) which involves identifying and reviewing the complexity and heterogeneity of current UK EHR algorithms. In this study, we analyzed all available EHR phenotyping algorithms (n=70) from two large-scale contemporary EHR resources in the UK (CALIBER and UK Biobank). We documented EHR sources, controlled clinical terminologies, evidence of algorithm validation, representation and implementation logic patterns. Understanding the heterogeneity of UK EHR algorithms and identifying common implementation patterns will facilitate the design of a minimum information standard for representing and curating algorithms nationally and internationally.
0

Bleeding in cardiac patients prescribed antithrombotic drugs: Electronic health record phenotyping algorithms, incidence, trends and prognosis

Laura Pasea et al.Feb 1, 2019
Abstract Background Clinical guidelines and public health authorities lack recommendations on scalable approaches to defining and monitoring the occurrence and severity of bleeding in populations prescribed antithrombotic therapy. We aimed to develop electronic health record algorithms for different bleeding phenotypes, and to determine the incidence, time trends and prognosis of bleeding in patients with incident cardiac disorders indicated for antiplatelet and/or vitamin K antagonist (VKA) therapy. Methods We examined linked primary care, hospital admission and death registry electronic health records (CALIBER 1998-2010, England) of patients with newly diagnosed atrial fibrillation, acute myocardial infarction, unstable angina or stable angina to develop algorithms for bleeding events. Kaplan-Meier plots were used to estimate the incidence of bleeding events and we used Cox regression models to assess prognosis for all-cause mortality, atherothrombotic events and further bleeding following bleeding events. Results We present electronic health record phenotyping algorithms for bleeding based on bleeding diagnosis in primary or hospital care, symptoms, transfusion, surgical procedures, and haemoglobin values. In validation of the phenotype we estimated a positive predictive value of 0.88 (95% Cl: 0.64, 0.99) for hospitalised bleeding. Amongst 128,815 patients, 27259 (21.2%) had at least one bleeding event, with 5 year risks of bleeding of 29.1%, 21.9%, 25.3% and 23.4% following diagnoses of atrial fibrillation, acute myocardial infarction, unstable angina and stable angina respectively. Rates of hospitalised bleeding per 1000 patients more than doubled from 1.02 (95% Cl: 0.83, 1.22) in January 1998 to 2.68 (95% Cl: 2.49, 2.88) in December 2009 coinciding with increased rates of antiplatelet and VKA prescribing. Patients with hospitalised bleeding and primary care bleeding, with or without markers of severity, were at increased risk of all-cause mortality and atherothrombotic events compared to those with no bleeding. For example the hazard ratio for all-cause mortality was 1.98 (95% Cl: 1.86, 2.11) for primary care bleeding with markers of severity, and 1.99 (95% Cl: 1.92, 2.05) for hospitalised bleeding without markers of severity, compared to patients with no bleeding. Conclusions Electronic health record bleeding phenotyping algorithms offer a scalable approach to monitoring bleeding in the population. Incidence of bleeding has doubled in incidence since 1998, affects 1 in 4 cardiac patients, and is associated with poor prognosis. Efforts are required to tackle this iatrogenic epidemic. What is already known? Clinical guidelines and public health authorities lack recommendations on how to define or monitor the occurrence and severity of bleeding in populations. This is particularly important because clinical guidelines increasingly recommend the use of one, two or three antiplatelet and vitamin K antagonist drugs to lower the risk of subsequent atherothrombotic events in common heart diseases including atrial fibrillation, acute coronary syndromes and chronic stable angina. Clinical guidelines lack consistent recommendations of how to reduce the main side effect of bleeding. For acute myocardial infarction it has been shown that combining primary care electronic health records (which include information from hospital discharge summaries) and hospital admission data can generate valid EHR disease phenotypes and provide real-world estimates of disease occurrence. What is not known? It is not known how to define bleeding occurrence and severity in large scale, unselected populations by combining available information on bleeding diagnosis in primary or hospital care, symptoms, transfusion, surgical procedures, and haemoglobin values. The population-based incidence, time trends and long-term prognosis of bleeding have not been evaluated in people with common cardiac disorders. Comparisons of the population burden of bleeding across common cardiac disorders, such as atrial fibrillation, acute coronary syndromes and stable angina, are lacking. What this study adds? Phenotype : We developed standardised replicable EHR phenotyping algorithms defining bleeding and severity measures based on available clinical information across structured primary and hospital care EHR sources. Incidence : At 5 years of follow-up, one in five patients with cardiac disease had a bleeding event and 6.5% had fatal or severe bleeding. Trends : There was approximately a two-fold increase in incidence of primary care and hospitalised bleeding between 1998 and 2010. The rate of fatal bleeding remained stable. Prognosis : Patients with bleeding recorded in primary care or in hospital admissions are at increased bleeding between 1998 and 2010. The rate of fatal bleeding remained stable, risk of all-cause death and atherothrombotic events.
0
Citation1
0
Save
0

Genome-wide association study provides new insights into the genetic architecture and pathogenesis of heart failure

Sonia Shah et al.Jul 10, 2019
Heart failure (HF) is a leading cause of morbidity and mortality worldwide. A small proportion of HF cases are attributable to monogenic cardiomyopathies and existing genome-wide association studies (GWAS) have yielded only limited insights, leaving the observed heritability of HF largely unexplained. We report the largest GWAS meta-analysis of HF to-date, comprising 47,309 cases and 930,014 controls. We identify 12 independent associations with HF at 11 genomic loci, all of which demonstrate one or more associations with coronary artery disease (CAD), atrial fibrillation, or reduced left ventricular function suggesting shared genetic aetiology. Expression quantitative trait analysis of non-CAD-associated loci implicate genes involved in cardiac development (MYOZ1, SYNPO2L), protein homeostasis (BAG3), and cellular senescence (CDKN1A). Using Mendelian randomisation analysis we provide new evidence supporting previously equivocal causal roles for several HF risk factors identified in observational studies, and demonstrate CAD-independent effects for atrial fibrillation, body mass index, hypertension and triglycerides. These findings extend our knowledge of the genes and pathways underlying HF and may inform the development of new therapeutic approaches.
0

Genomic risk prediction of coronary artery disease in nearly 500,000 adults: implications for early screening and primary prevention

Michael Inouye et al.Jan 19, 2018
Background: Coronary artery disease (CAD) has substantial heritability and a polygenic architecture; however, genomic risk scores have not yet leveraged the totality of genetic information available nor been externally tested at population-scale to show potential utility in primary prevention. Methods: Using a meta-analytic approach to combine large-scale genome-wide and targeted genetic association data, we developed a new genomic risk score for CAD (metaGRS), consisting of 1.7 million genetic variants. We externally tested metaGRS, individually and in combination with available conventional risk factors, in 22,242 CAD cases and 460,387 non-cases from UK Biobank. Findings: In UK Biobank, a standard deviation increase in metaGRS had a hazard ratio (HR) of 1.71 (95% CI 1.68-1.73) for CAD, greater than any other externally tested genetic risk score. Individuals in the top 20% of the metaGRS distribution had a HR of 4.17 (95% CI 3.97-4.38) compared with those in the bottom 20%. The metaGRS had higher C-index (C=0.623, 95% CI 0.615-0.631) for incident CAD than any of four conventional factors (smoking, diabetes, hypertension, and body mass index), and addition of the metaGRS to a model of conventional risk factors increased C-index by 3.7%. In individuals on lipid-lowering or anti-hypertensive medications at recruitment, metaGRS hazard for incident CAD was significantly but only partially attenuated with HR of 2.83 (95% CI 2.61-3.07) between the top and bottom 20% of the metaGRS distribution. Interpretation: Recent genetic association studies have yielded enough information to meaningfully stratify individuals using the metaGRS for CAD risk in both early and later life, thus enabling targeted primary intervention in combination with conventional risk factors. The metaGRS effect was partially attenuated by lipid and blood pressure-lowering medication, however other prevention strategies will be required to fully benefit from earlier genomic risk stratification.
0

Phenome-wide association analysis of LDL-cholesterol lowering genetic variants in PCSK9

Amand Schmidt et al.May 25, 2018
Background: We characterised the phenotypic consequence of genetic variation at the PCSK9 locus and compared findings with recent trials of pharmacological inhibitors of PCSK9. Methods: Published and individual participant level data (300,000+ participants) were combined to construct a weighted PCSK9 gene-centric score (GS). Fourteen randomized placebo controlled PCSK9 inhibitor trials were included, providing data on 79,578 participants. Results were scaled to a one mmol/L lower LDL-C concentration. Results: The PCSK9 GS (comprising 4 SNPs) associations with plasma lipid and apolipoprotein levels were consistent in direction with treatment effects. The GS odds ratio (OR) for myocardial infarction (MI) was 0.53 (95%CI 0.42; 0.68), compared to a PCSK9 inhibitor effect of 0.90 (95%CI 0.86; 0.93). For ischemic stroke ORs were 0.84 (95%CI 0.57; 1.22) for the GS, compared to 0.85 (95%CI 0.78; 0.93) in the drug trials. ORs with type 2 diabetes mellitus (T2DM) were 1.29 (95% CI 1.11; 1.50) for the GS, as compared to 1.00 (95%CI 0.96; 1.04) for incident T2DM in PCSK9 inhibitor trials. No genetic associations were observed for cancer, heart failure, atrial fibrillation, chronic obstructive pulmonary disease, or Alzheimer's disease - outcomes for which large-scale trial data were unavailable. Conclusions: Genetic variation at the PCSK9 locus recapitulates the effects of therapeutic inhibition of PCSK9 on major blood lipid fractions and MI. Apparent discordance between genetic associations and trial outcome for T2DM might be explained lack by a of statistical precision, or differences in the nature and duration of genetic versus pharmacological perturbation of PCSK9.
2

Machine learning models in electronic health records can outperform conventional survival models for predicting patient mortality in coronary artery disease

Andrew Steele et al.Jan 30, 2018
Prognostic modelling is important in clinical practice and epidemiology for patient management and research. Electronic health records (EHR) provide large quantities of data for such models, but conventional epidemiological approaches require significant researcher time to implement. Expert selection of variables, fine-tuning of variable transformations and interactions, and imputing missing values in datasets are time-consuming and could bias subsequent analysis, particularly given that missingness in EHR is both high, and may carry meaning. Using a cohort of over 80,000 patients from the CALIBER programme, we performed a systematic comparison of several machine-learning approaches in EHR. We used Cox models and random survival forests with and without imputation on 27 expert-selected variables to predict all-cause mortality. We also used Cox models, random forests and elastic net regression on an extended dataset with 586 variables to build prognostic models and identify novel prognostic factors without prior expert input. We observed that data-driven models used on an extended dataset can outperform conventional models for prognosis, without data preprocessing or imputing missing values, and with no need to scale or transform continuous data. An elastic net Cox regression based with 586 unimputed variables with continuous values discretised achieved a C-index of 0.801 (bootstrapped 95% CI 0.799 to 0.802), compared to 0.793 (0.791 to 0.794) for a traditional Cox model comprising 27 expert-selected variables with imputation for missing values. We also found that data-driven models allow identification of novel prognostic variables; that the absence of values for particular variables carries meaning, and can have significant implications for prognosis; and that variables often have a nonlinear association with mortality, which discretised Cox models and random forests can elucidate. This demonstrates that machine-learning approaches applied to raw EHR data can be used to build reliable models for use in research and clinical practice, and identify novel predictive variables and their effects to inform future research.