PP
Peggy Peissig
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
2,515
h-index:
42
/
i10-index:
98
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Systematic comparison of phenome-wide association study of electronic medical record data and genome-wide association study data

Joshua Denny et al.Nov 24, 2013
Candidate gene and genome-wide association studies (GWAS) have identified genetic variants that modulate risk for human disease; many of these associations require further study to replicate the results. Here we report the first large-scale application of the phenome-wide association study (PheWAS) paradigm within electronic medical records (EMRs), an unbiased approach to replication and discovery that interrogates relationships between targeted genotypes and multiple phenotypes. We scanned for associations between 3,144 single-nucleotide polymorphisms (previously implicated by GWAS as mediators of human traits) and 1,358 EMR-derived phenotypes in 13,835 individuals of European ancestry. This PheWAS replicated 66% (51/77) of sufficiently powered prior GWAS associations and revealed 63 potentially pleiotropic associations with P < 4.6 × 10⁻⁶ (false discovery rate < 0.1); the strongest of these novel associations were replicated in an independent cohort (n = 7,406). These findings validate PheWAS as a tool to allow unbiased interrogation across multiple phenotypes in EMR-based cohorts and to enhance analysis of the genomic basis of human disease.
0
Citation930
0
Save
0

Validation of electronic medical record-based phenotyping algorithms: results and lessons learned from the eMERGE network

Katherine Newton et al.Mar 26, 2013
Genetic studies require precise phenotype definitions, but electronic medical record (EMR) phenotype data are recorded inconsistently and in a variety of formats.To present lessons learned about validation of EMR-based phenotypes from the Electronic Medical Records and Genomics (eMERGE) studies.The eMERGE network created and validated 13 EMR-derived phenotype algorithms. Network sites are Group Health, Marshfield Clinic, Mayo Clinic, Northwestern University, and Vanderbilt University.By validating EMR-derived phenotypes we learned that: (1) multisite validation improves phenotype algorithm accuracy; (2) targets for validation should be carefully considered and defined; (3) specifying time frames for review of variables eases validation time and improves accuracy; (4) using repeated measures requires defining the relevant time period and specifying the most meaningful value to be studied; (5) patient movement in and out of the health plan (transience) can result in incomplete or fragmented data; (6) the review scope should be defined carefully; (7) particular care is required in combining EMR and research data; (8) medication data can be assessed using claims, medications dispensed, or medications prescribed; (9) algorithm development and validation work best as an iterative process; and (10) validation by content experts or structured chart review can provide accurate results.Despite the diverse structure of the five EMRs of the eMERGE sites, we developed, validated, and successfully deployed 13 electronic phenotype algorithms. Validation is a worthwhile process that not only measures phenotype performance but also strengthens phenotype algorithm definitions and enhances their inter-institutional sharing.
0
Citation385
0
Save
0

PheKB: a catalog and workflow for creating electronic phenotype algorithms for transportability

Jacqueline Kirby et al.Mar 28, 2016
Abstract Objective Health care generated data have become an important source for clinical and genomic research. Often, investigators create and iteratively refine phenotype algorithms to achieve high positive predictive values (PPVs) or sensitivity, thereby identifying valid cases and controls. These algorithms achieve the greatest utility when validated and shared by multiple health care systems. Materials and Methods We report the current status and impact of the Phenotype KnowledgeBase (PheKB, http://phekb.org ), an online environment supporting the workflow of building, sharing, and validating electronic phenotype algorithms. We analyze the most frequent components used in algorithms and their performance at authoring institutions and secondary implementation sites. Results As of June 2015, PheKB contained 30 finalized phenotype algorithms and 62 algorithms in development spanning a range of traits and diseases. Phenotypes have had over 3500 unique views in a 6-month period and have been reused by other institutions. International Classification of Disease codes were the most frequently used component, followed by medications and natural language processing. Among algorithms with published performance data, the median PPV was nearly identical when evaluated at the authoring institutions (n = 44; case 96.0%, control 100%) compared to implementation sites (n = 40; case 97.5%, control 100%). Discussion These results demonstrate that a broad range of algorithms to mine electronic health record data from different health systems can be developed with high PPV, and algorithms developed at one site are generally transportable to others. Conclusion By providing a central repository, PheKB enables improved development, transportability, and validity of algorithms for research-grade phenotypes using health care generated data.
0

Use of diverse electronic medical record systems to identify genetic risk for type 2 diabetes within a genome-wide association study

Abel Kho et al.Nov 20, 2011
Genome-wide association studies (GWAS) require high specificity and large numbers of subjects to identify genotype-phenotype correlations accurately. The aim of this study was to identify type 2 diabetes (T2D) cases and controls for a GWAS, using data captured through routine clinical care across five institutions using different electronic medical record (EMR) systems.An algorithm was developed to identify T2D cases and controls based on a combination of diagnoses, medications, and laboratory results. The performance of the algorithm was validated at three of the five participating institutions compared against clinician review. A GWAS was subsequently performed using cases and controls identified by the algorithm, with samples pooled across all five institutions.The algorithm achieved 98% and 100% positive predictive values for the identification of diabetic cases and controls, respectively, as compared against clinician review. By standardizing and applying the algorithm across institutions, 3353 cases and 3352 controls were identified. Subsequent GWAS using data from five institutions replicated the TCF7L2 gene variant (rs7903146) previously associated with T2D.By applying stringent criteria to EMR data collected through routine clinical care, cases and controls for a GWAS were identified that subsequently replicated a known genetic variant. The use of standard terminologies to define data elements enabled pooling of subjects and data across five different institutions to achieve the robust numbers required for GWAS.An algorithm using commonly available data from five different EMR can accurately identify T2D cases and controls for genetic study across multiple institutions.
0
Citation300
0
Save
0

Multi-ancestry Genome- and Phenome-wide Association Studies of Diverticular Disease in Electronic Health Records with Natural Language Processing enriched phenotype algorithm

Yoonjung Joo et al.Jun 9, 2020
Abstract Background and aims Diverticular disease is among the most prevalent conditions encountered by gastroenterologists, affecting ∼50% of Americans before the age of 60. Our aim was to identify genetic risk variants and clinical phenotypes associated with diverticular disease, utilizing the electronic health record (EHR) with Natural Language Processing (NLP). Methods We developed a NLP-enriched phenotype algorithm that incorporated colonoscopy or abdominal imaging reports to accurately identify patients with diverticulosis and diverticulitis from multicenter EHRs. We performed genome-wide association studies (GWAS) of diverticular disease in European, African and multi-ancestry participants, followed by phenome-wide association studies (PheWAS) of the risk variants to identify their potential comorbid/pleiotropic effects in the clinical phenome. For more in-depth investigation of associated clinical phenotypes, we also performed PheWAS with the previously reported 52 GWAS susceptibility variants for diverticular disease. Results Ancestry-stratified GWAS analyses confirmed the well-established associations between ARHGAP15 loci with diverticular disease in European cohorts, and found similar positive effect sizes in African cohorts but with non-significant p-values. With overall intensified GWAS signals in diverticulitis patients compared to diverticulosis patients, we found substantial genetic correlations between diverticulosis and diverticulitis, up to 0.997 in European ancestry. PheWAS analyses identified associations between the diverticular disease GWAS variants and circulatory system, genitourinary, and neoplastic EHR phenotypes. Conclusion Our multiancestry GWAS-PheWAS study demonstrated an effective use of multidimensional EHR information in disease case/control classification with NLP for more comprehensive and scalable phenotyping, and implementation of an integrative analytical pipeline to facilitate etiological investigation of a disease from a clinical perspective.
0

Relationship between Parathyroid Hormone Levels and Hazards of Fracture, Vascular Events and Death in Stage 3 and 4 Chronic Kidney Disease

Sinong Geng et al.Nov 28, 2018
Background and Objectives: Chronic kidney disease (CKD) affects ~20% of older adults and secondary hyperparathyroidism (HPT) is a common condition in these patients. Studies have linked HPT to a greater risk of fractures, vascular events and mortality. However, the optimal parathyroid hormone (PTH) level needed to minimize these events remains uncertain. Design, setting, participants and measurements: We assessed relationships between baseline serum PTH levels and the subsequent 10-year probability of clinical fractures, vascular events and death in stage 3 and 4 CKD patients. We used Marshfield Clinic Health System electronic health records to analyze data from adult CKD patients spanning from 1985 to 2013. We required ≥2 PTH measurements at baseline and used ICD-9 codes to identify medical conditions, fractures, vascular events and death. In multivariate models, we assessed relationships between serum PTH and the three clinical outcomes, controlling for age, gender, co-morbidities and osteoporosis medication. Results: 7594 subjects had a mean age of 68 years and 55% were women. Fractures, vascular events and death occurred in 19%, 60% and 29% of the cohort, respectively. In multivariate models including the whole cohort regardless of PTH assay, the probability of fracture, vascular events and death were minimized at a PTH of 23, 50 and 50 pg/mL. Below these cutpoints, the probability of fractures and death dramatically increased. When confining the analysis to patients measured using a 2nd generation PTH assay (n=5108), the hazards of fracture, vascular events and death were minimized at a PTH of zero, 60 and 58 pg/mL. Any of these clinical outcomes was minimized at a baseline PTH of 58 pg/mL. Conclusions: Our study suggests that parathyroid hormone levels around 60 pg/mL might reduce the risk of fractures, vascular events and death in CKD patients. Additional epidemiologic studies and randomized clinical trials are needed to confirm these findings.