WH
Wan‐Ling Hsu
Author with expertise in Analysis of Gene Interaction Networks
Achievements
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
2
(50% Open Access)
Cited by:
1
h-index:
17
/
i10-index:
22
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A system for phenotype harmonization in the NHLBI Trans-Omics for Precision Medicine (TOPMed) Program

Adrienne Stilp et al.Jun 20, 2020
Genotype-phenotype association studies often combine phenotype data from multiple studies to increase power. Harmonization of the data usually requires substantial effort due to heterogeneity in phenotype definitions, study design, data collection procedures, and data set organization. Here we describe a centralized system for phenotype harmonization that includes input from phenotype domain and study experts, quality control, documentation, reproducible results, and data sharing mechanisms. This system was developed for the National Heart, Lung and Blood Institute’s Trans-Omics for Precision Medicine (TOPMed) program, which is generating genomic and other omics data for >80 studies with extensive phenotype data. To date, 63 phenotypes have been harmonized across thousands of participants from up to 17 TOPMed studies per phenotype. We discuss the challenges faced in this undertaking and how they were addressed. The harmonized phenotype data and associated documentation have been submitted to National Institutes of Health data repositories for controlled-access by the scientific community. We also provide materials to facilitate future harmonization efforts by the community, which include (1) the code used to generate the 63 harmonized phenotypes, enabling others to reproduce, modify or extend these harmonizations to additional studies; and (2) results of labeling thousands of phenotype variables with controlled vocabulary terms.
0
Citation1
0
Save
0

The accuracy and bias of single-step genomic prediction for populations under selection

Wan‐Ling Hsu et al.Nov 28, 2016
ABSTRACT In single-step analyses, missing genotypes are explicitly or implicitly imputed, and this requires centering the observed genotypes, ideally using the mean of the unselected founders. If genotypes are only available on selected individuals, centering on the unselected founder mean is impossible. Here, computer simulation is used to study an alternative analysis that does not require centering genotypes but fits the mean μg of unselected individuals as a fixed effect. To improve numerical properties of the analysis, centering the entire matrix of observed and imputed genotypes, using their sample means can be done in addition to fitting μg. Starting with observed diplotypes from 721 cattle, a 5 generation population was simulated with sire selection to produce 40,000 individuals with phenotypes of which the 1,000 sires had genotypes. The next generation of 8,000 genotyped individuals was used for validation. Evaluations were undertaken: with (J) or without (N) μg when marker covariates were not centered; and with (JC) or without (C) μg when all marker covariates were centered. A pedigree based evaluation was less accurate than genomic analyses. Centering did not influence accuracy of genomic prediction, but fitting μg did. Accuracies were improved when the panel comprised only QTL, models JC and J had accuracies of 99.2%; and models C and N had accuracies of 85.6%. When only markers were in the panel, the 4 models had accuracies of 63.9%. In panels that included causal variants, fitting μg in the model improved accuracy, but had little impact when the panel contained only markers.