SD
Scott Dudek
Author with expertise in Microarray Data Analysis and Gene Expression Profiling
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
6
(50% Open Access)
Cited by:
790
h-index:
30
/
i10-index:
50
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Visualizing genomic information across chromosomes with PhenoGram

Daniel Wolfe et al.Oct 16, 2013
Abstract Background With the abundance of information and analysis results being collected for genetic loci, user-friendly and flexible data visualization approaches can inform and improve the analysis and dissemination of these data. A chromosomal ideogram is an idealized graphic representation of chromosomes. Ideograms can be combined with overlaid points, lines, and/or shapes, to provide summary information from studies of various kinds, such as genome-wide association studies or phenome-wide association studies, coupled with genomic location information. To facilitate visualizing varied data in multiple ways using ideograms, we have developed a flexible software tool called PhenoGram which exists as a web-based tool and also a command-line program. Results With PhenoGram researchers can create chomosomal ideograms annotated with lines in color at specific base-pair locations, or colored base-pair to base-pair regions, with or without other annotation. PhenoGram allows for annotation of chromosomal locations and/or regions with shapes in different colors, gene identifiers, or other text. PhenoGram also allows for creation of plots showing expanded chromosomal locations, providing a way to show results for specific chromosomal regions in greater detail. We have now used PhenoGram to produce a variety of different plots, and provide these as examples herein. These plots include visualization of the genomic coverage of SNPs from a genotyping array, highlighting the chromosomal coverage of imputed SNPs, copy-number variation region coverage, as well as plots similar to the NHGRI GWA Catalog of genome-wide association results. Conclusions PhenoGram is a versatile, user-friendly software tool fostering the exploration and sharing of genomic information. Through visualization of data, researchers can both explore and share complex results, facilitating a greater understanding of these data.
0
Citation215
0
Save
0

Collective feature selection to identify crucial epistatic variants

Shefali Verma et al.Apr 2, 2018
Background: Machine learning methods have gained popularity and practicality in identifying linear and non-linear effects of variants associated with complex disease/traits. Detection of epistatic interactions still remains a challenge due to the large number of features and relatively small sample size as input, thus leading to the so-called "short fat data" problem. The efficiency of machine learning methods can be increased by limiting the number of input features. Thus, it is very important to perform variable selection before searching for epistasis. Many methods have been evaluated and proposed to perform feature selection, but no single method works best in all scenarios. We demonstrate this by conducting two separate simulation analyses to evaluate the proposed collective feature selection approach. Results: Through our simulation study we propose a collective feature selection approach to select features that are in the "union" of the best performing methods. We explored various parametric, non-parametric, and data mining approaches to perform feature selection. We choose our top performing methods to select the union of the resulting variables based on a user-defined percentage of variants selected from each method to take to downstream analysis. Our simulation analysis shows that non-parametric data mining approaches, such as MDR, may work best under one simulation criteria for the high effect size (penetrance) datasets, while non-parametric methods designed for feature selection, such as Ranger and Gradient boosting, work best under other simulation criteria. Thus, using a collective approach proves to be more beneficial for selecting variables with epistatic effects also in low effect size datasets and different genetic architectures. Following this, we applied our proposed collective feature selection approach to select the top 1% of variables to identify potential interacting variables associated with Body Mass Index (BMI) in ~44,000 samples obtained from Geisinger's MyCode Community Health Initiative (on behalf of DiscovEHR collaboration). Conclusions: In this study, we were able to show that selecting variables using a collective feature selection approach could help in selecting true positive epistatic variables more frequently than applying any single method for feature selection via simulation studies. We were able to demonstrate the effectiveness of collective feature selection along with a comparison of many methods in our simulation analysis. We also applied our method to identify non-linear networks associated with obesity.
0

A simulation study investigating power estimates in Phenome-Wide Association Studies

Anurag Verma et al.Mar 12, 2017
Background: Phenome-wide association studies (PheWAS) are a high-throughput approach to evaluate comprehensive associations between genetic variants and a wide range of phenotypic measures. PheWAS has varying sample sizes for quantitative traits, and variable numbers of cases and controls for binary traits across the many phenotypes of interest, which can affect the statistical power to detect associations. The motivation of this study is to investigate the various parameters which affect the estimation of statistical power in PheWAS, including sample size, case-control ratio, minor allele frequency, and disease penetrance. Results: We performed a PheWAS simulation study, where we investigated variations in statistical power based on different parameters, such as overall sample size, number of cases, case-control ratio, minor allele frequency, and disease penetrance. The simulation was performed on both binary and quantitative phenotypic measures. Our simulation on binary traits suggests that the number of cases has more impact than the case to control ratio; also, we found that a sample size of 200 cases or more maintains the statistical power to identify associations for common variants. For quantitative traits, a sample size of 1000 or more individuals performed best in the power calculations. We focused on common genetic variants (MAF>0.01) in this study; however, in future studies, we will be extending this effort to perform similar simulations on rare variants. Conclusions: This study provides a series of PheWAS simulation analyses that can be used to estimate statistical power for some potential scenarios. These results can be used to provide guidelines for appropriate study design for future PheWAS analyses.
0

CT imaging-derived phenotypes for abdominal muscle and their association with age and sex in a medical biobank

Phuong Vu et al.Jun 26, 2024
Abstract The study of muscle mass as an imaging-derived phenotype (IDP) may yield new insights into determining the normal and pathologic variations in muscle mass in the population. This can be done by determining 3D abdominal muscle mass from 12 distinct abdominal muscle regions and groups using computed tomography (CT) in a racially diverse medical biobank. To develop a fully automatic technique for assessment of CT abdominal muscle IDPs and preliminarily determine abdominal muscle IDP variations with age and sex in a clinically and racially diverse medical biobank. This retrospective study was conducted using the Penn Medicine BioBank (PMBB), a research protocol that recruits adult participants during outpatient visits at hospitals in the Penn Medicine network. We developed a deep residual U-Net (ResUNet) to segment 12 abdominal muscle groups including the left and right psoas, quadratus lumborum, erector spinae, gluteus medius, rectus abdominis, and lateral abdominals. 110 CT studies were randomly selected for training, validation, and testing. 44 of the 110 CT studies were selected to enrich the dataset with representative cases of intra-abdominal and abdominal wall pathology. The studies were divided into non-overlapping training, validation and testing sets. Model performance was evaluated using the Sørensen–Dice coefficient. Volumes of individual muscle groups were plotted to distribution curves. To investigate associations between muscle IDPs, age, and sex, deep learning model segmentations were performed on a larger abdominal CT dataset from PMBB consisting of 295 studies. Multivariable models were used to determine relationships between muscle mass, age and sex. The model's performance (Dice scores) on the test data was the following: psoas: 0.85 ± 0.12, quadratus lumborum: 0.72 ± 0.14, erector spinae: 0.92 ± 0.07, gluteus medius: 0.90 ± 0.08, rectus abdominis: 0.85 ± 0.08, lateral abdominals: 0.85 ± 0.09. The average Dice score across all muscle groups was 0.86 ± 0.11. Average total muscle mass for females was 2041 ± 560.7 g with a high of 2256 ± 560.1 g (41–50 year old cohort) and a change of − 0.96 g/year, declining to an average mass of 1579 ± 408.8 g (81–100 year old cohort). Average total muscle mass for males was 3086 ± 769.1 g with a high of 3385 ± 819.3 g (51–60 year old cohort) and a change of − 1.73 g/year, declining to an average mass of 2629 ± 536.7 g (81–100 year old cohort). Quadratus lumborum was most highly correlated with age for both sexes (correlation coefficient of − 0.5). Gluteus medius mass in females was positively correlated with age with a coefficient of 0.22. These preliminary findings show that our CNN can automate detailed abdominal muscle volume measurement. Unlike prior efforts, this technique provides 3D muscle segmentations of individual muscles. This technique will dramatically impact sarcopenia diagnosis and research, elucidating its clinical and public health implications. Our results suggest a peak age range for muscle mass and an expected rate of decline, both of which vary between genders. Future goals are to investigate genetic variants for sarcopenia and malnutrition, while describing genotype–phenotype associations of muscle mass in healthy humans using imaging-derived phenotypes. It is feasible to obtain 3D abdominal muscle IDPs with high accuracy from patients in a medical biobank using fully automated machine learning methods. Abdominal muscle IDPs showed significant variations in lean mass by age and sex. In the future, this tool can be leveraged to perform a genome-wide association study across the medical biobank and determine genetic variants associated with early or accelerated muscle wasting.
0

Evaluating Performance and Agreement of Coronary Heart Disease Polygenic Risk Scores

Sarah Abramowitz et al.Nov 16, 2024
Importance Polygenic risk scores (PRSs) for coronary heart disease (CHD) are a growing clinical and commercial reality. Whether existing scores provide similar individual-level assessments of disease susceptibility remains incompletely characterized. Objective To characterize the individual-level agreement of CHD PRSs that perform similarly at the population level. Design, Setting, and Participants Cross-sectional study of participants from diverse backgrounds enrolled in the All of Us Research Program (AOU), Penn Medicine BioBank (PMBB), and University of California, Los Angeles (UCLA) ATLAS Precision Health Biobank with electronic health record and genotyping data. Exposures Polygenic risk for CHD from published PRSs and new PRSs developed separately from testing samples. Main Outcomes and Measures PRSs that performed population-level prediction similarly were identified by comparing calibration and discrimination of models of prevalent CHD. Individual-level agreement was tested with intraclass correlation coefficient (ICC) and Light κ. Results A total of 48 PRSs were calculated for 171 095 AOU participants. The mean (SD) age was 56.4 (16.8) years. A total of 104 947 participants (61.3%) were female. A total of 35 590 participants (20.8%) were most genetically similar to an African reference population, 29 801 (17.4%) to an admixed American reference population, 100 493 (58.7%) to a European reference population, and the remaining to Central/South Asian, East Asian, and Middle Eastern reference populations. There were 17 589 participants (10.3%) with and 153 506 participants without (89.7%) CHD. When included in a model of prevalent CHD, 46 scores had practically equivalent Brier scores and area under the receiver operator curves (region of practical equivalence ±0.02). Twenty percent of participants had at least 1 score in both the top and bottom 5% of risk. Continuous agreement of individual predictions was poor (ICC, 0.373 [95% CI, 0.372-0.375]). Light κ, used to evaluate consistency of risk assignment, did not exceed 0.56. Analysis among 41 193 PMBB and 53 092 ATLAS participants yielded different sets of equivalent scores, which also lacked individual-level agreement. Conclusions and Relevance CHD PRSs that performed similarly at the population level demonstrated highly variable individual-level estimates of risk. Recognizing that CHD PRSs may generate incongruent individual-level risk estimates, effective clinical implementation will require refined statistical methods to quantify uncertainty and new strategies to communicate this uncertainty to patients and clinicians.