SL
Shin Lin
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(89% Open Access)
Cited by:
6,973
h-index:
45
/
i10-index:
57
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Human body epigenome maps reveal noncanonical DNA methylation variation

Matthew Schultz et al.May 29, 2015
As part of the Epigenome Roadmap Project, genome-wide maps of DNA methylation and transcriptomes together with genomic DNA sequencing of 18 different primary human tissue types from 4 individuals are presented; analysis reveals widespread differential methylation of CG sites between tissues, and the presence of non-CG methylation in adult tissues. As part of the Epigenome Roadmap project, Joseph Ecker and colleagues provide genome-wide maps of DNA methylation and transcriptomes, in conjunction with genomic DNA sequencing, of 18 different primary human tissue types from four individuals. Analysis of the datasets reveals widespread differential methylation of CG sites between tissues, and methylation at regulatory elements generally has a negative correlation with gene expression as expected. A surprising amount of non-CG methylation is found in a subpopulation of cells in many tissues. Understanding the diversity of human tissues is fundamental to disease and requires linking genetic information, which is identical in most of an individual’s cells, with epigenetic mechanisms that could have tissue-specific roles. Surveys of DNA methylation in human tissues have established a complex landscape including both tissue-specific and invariant methylation patterns1,2. Here we report high coverage methylomes that catalogue cytosine methylation in all contexts for the major human organ systems, integrated with matched transcriptomes and genomic sequence. By combining these diverse data types with each individuals’ phased genome3, we identified widespread tissue-specific differential CG methylation (mCG), partially methylated domains, allele-specific methylation and transcription, and the unexpected presence of non-CG methylation (mCH) in almost all human tissues. mCH correlated with tissue-specific functions, and using this mark, we made novel predictions of genes that escape X-chromosome inactivation in specific tissues. Overall, DNA methylation in several genomic contexts varies substantially among human tissues.
0
Citation653
0
Save
0

A Common Genetic Variant in the Neurexin Superfamily Member CNTNAP2 Increases Familial Risk of Autism

Dan Arking et al.Jan 1, 2008
Autism is a childhood neuropsychiatric disorder that, despite exhibiting high heritability, has largely eluded efforts to identify specific genetic variants underlying its etiology. We performed a two-stage genetic study in which genome-wide linkage and family-based association mapping was followed up by association and replication studies in an independent sample. We identified a common polymorphism in contactin-associated protein-like 2 (CNTNAP2), a member of the neurexin superfamily, that is significantly associated with autism susceptibility. Importantly, the genetic variant displays a parent-of-origin and gender effect recapitulating the inheritance of autism. Autism is a childhood neuropsychiatric disorder that, despite exhibiting high heritability, has largely eluded efforts to identify specific genetic variants underlying its etiology. We performed a two-stage genetic study in which genome-wide linkage and family-based association mapping was followed up by association and replication studies in an independent sample. We identified a common polymorphism in contactin-associated protein-like 2 (CNTNAP2), a member of the neurexin superfamily, that is significantly associated with autism susceptibility. Importantly, the genetic variant displays a parent-of-origin and gender effect recapitulating the inheritance of autism. Autistic disorder (MIM 290850), first described by Kanner in 1943,1Kanner L. Autistic disturbances of affective contact.Nervous Child. 1943; 2: 217-250Google Scholar is a pervasive developmental disorder characterized by a triad of marked features: impaired social interaction, impaired language development, and restricted and repetitive behavior and interests. A diagnosis of autism can typically be made by 4 years of age. The prevalence is approximately 20 per 10,000 for autistic disorder and 60 per 10,000 individuals for all autism spectrum disorders, with males being 4 times as likely, as compared to females, to be affected.2Chakrabarti S. Fombonne E. Pervasive developmental disorders in preschool children: confirmation of high prevalence.Am. J. Psychiatry. 2005; 162: 1133-1141Crossref PubMed Scopus (527) Google Scholar There is no doubt that autism presents a significant disease burden. Compelling evidence for a genetic basis for autism has been provided by twin studies, demonstrating a significantly higher concordance rate for monozygous versus dizygous twins, with an overall heritability of 80%–90%.3Folstein S.E. Rosen-Sheidley B. Genetics of autism: complex aetiology for a heterogeneous disorder.Nat. Rev. Genet. 2001; 2: 943-955Crossref PubMed Scopus (623) Google Scholar Consequently, it is expected that appropriate genomic screens can identify susceptibility genes given the major genetic component to familiality. With the availability of new genotyping technologies that can survey the genome at far higher resolution than before and large family collections with sufficient samples for both discovery and validation, we initiated a two-stage genome-wide study of autism that is not limited by our current understanding of autism pathophysiology. For stage I, we selected 72 multiplex families (68 with 2 affected children and 4 with 3 affected children) comprising 148 affected offspring and 292 individuals. We attempted to reduce phenotypic heterogeneity and increase the genetic contribution by requiring all affected individuals to be positive for autism on both ADI-R and ADOS instruments4Risi S. Lord C. Gotham K. Corsello C. Chrysler C. Szatmari P. Cook Jr., E.H. Leventhal B.L. Pickles A. Combining information from multiple sources in the diagnosis of autism spectrum disorders.J. Am. Acad. Child Adolesc. Psychiatry. 2006; 45: 1094-1103Abstract Full Text Full Text PDF PubMed Scopus (385) Google Scholar and to have onset <36 months. This sampling was in contrast to accepting only an ADI-R classification of autism or accepting the broader ADOS classification of autism spectrum disorder. No previously reported genetic study of autism has had similarly strict phenotypic inclusion criteria and equivalent sample size. All samples were obtained from the National Institute of Mental Health (NIMH) Autism Genetics Initiative. We genotyped all samples by using Affymetrix 500K arrays with genotypes inferred via the Affymetrix BRLMM genotyping algorithm at the default settings. We used relatively stringent quality control cut-offs for including SNPs in our analyses, because even moderate missing data or error rates increase false-positive linkage and family-based association tests such as the transmission disequilibrium test (TDT).5Mitchell A.A. Cutler D.J. Chakravarti A. Undetected genotyping errors cause apparent overtransmission of common alleles in the transmission/disequilibrium test.Am. J. Hum. Genet. 2003; 72: 598-610Abstract Full Text Full Text PDF PubMed Scopus (138) Google Scholar Specifically, SNPs with >10% missing data, >1% Mendelian error, and lack of fit to Hardy-Weinberg proportions (p < 0.001) were excluded from analysis, leaving 72% (336,121 of 468,411) of the data on autosomal SNPs for further analysis. One family was excluded because of Mendelian errors arising from maternal incompatibility, and one child was excluded because he was incompatible with both parents, resulting in 78 sib-pairs and 145 parent/child trios that we included in the analyses. Genome-wide association analysis with the TDT was performed for both single-SNP and haplotypes with EATDT,6Lin S. Chakravarti A. Cutler D.J. Exhaustive allelic transmission disequilibrium tests as a new approach to genome-wide association studies.Nat. Genet. 2004; 36: 1181-1188Crossref PubMed Scopus (132) Google Scholar and no genome-wide significant SNPs or haplotypes were identified. However, under a scenario in which multiple unlinked variants within a locus contribute to autism susceptibility, as opposed to a single variant of large effect, the incorporation of traditional linkage data can be of great benefit. Indeed, genome-wide linkage analysis by MERLIN7Abecasis G.R. Cherny S.S. Cookson W.O. Cardon L.R. Merlin—rapid analysis of dense genetic maps using sparse gene flow trees.Nat. Genet. 2002; 30: 97-101Crossref PubMed Scopus (2696) Google Scholar revealed two loci with LOD scores above 2: one at chromosome 7q35 (maximum LOD score 3.4 at 151.4–154.4 cM; Figure 1A) and the second at chromosome 10p13–14 (maximum LOD score 2.9 at 26.6–34.5 cM). The peak at 7q35 is genome-wide significant and is a novel finding for strictly defined autism, though it is in the same region that has been previously identified as a possible language quantitative trait locus (QTL) in autism families.8Alarcon M. Yonan A.L. Gilliam T.C. Cantor R.M. Geschwind D.H. Quantitative genome scan and ordered-subsets analysis of autism endophenotypes support language QTLs.Mol. Psychiatry. 2005; 10: 747-757Crossref PubMed Scopus (105) Google Scholar TDT in the 1-LOD genetic interval under the chromosome 7q35 linkage peak revealed a single SNP, rs7794745, with significant association with autism (p < 2.14 × 10−5) (Figure 1B), even after correcting for the number of SNPs tested under the linkage peak by permutation (p < 0.006). rs7794745 had data completeness of 99.7%, no observed Mendelian errors, and was in Hardy-Weinberg equilibrium (p = 0.98). These genotypes were then independently validated by TaqMan assays. The T allele at SNP rs7794745 is overtransmitted with a transmission frequency of τ = 0.68. This SNP is a common polymorphism with minor allele frequency of 0.36 and resides in the intron between exons 2 and 3 of the CNTNAP2 gene (Figure 2). CNTNAP2 (MIM 604569), or contactin-associated protein-like 2, is a large gene spanning 2.5 Mb and encodes a member of the neurexin family9Poliak S. Gollan L. Martinez R. Custer A. Einheber S. Salzer J.L. Trimmer J.S. Shrager P. Peles E. Caspr2, a new member of the neurexin superfamily, is localized at the juxtaparanodes of myelinated axons and associates with K+ channels.Neuron. 1999; 24: 1037-1047Abstract Full Text Full Text PDF PubMed Scopus (377) Google Scholar that are known to mediate cell-cell interactions in the nervous system. CNTNAP2 protein is localized at the juxtaparanodes of myelinated axons and may be involved in axon differentiation.10Poliak S. Salomon D. Elhanany H. Sabanay H. Kiernan B. Pevny L. Stewart C.L. Xu X. Chiu S.Y. Shrager P. et al.Juxtaparanodal clustering of Shaker-like K+ channels in myelinated axons depends on Caspr2 and TAG-1.J. Cell Biol. 2003; 162: 1149-1160Crossref PubMed Scopus (375) Google Scholar Consequently, it is an excellent candidate gene for autism.Figure 2Fine Mapping of CNTNAP2Show full captionThe top panel shows the results of association tests in 1440 trios with significance for each SNP shown as the negative base-10 logarithm of the p value on the y axis plotted against genomic position in megabase (Mb) on the x axis. The CNTNAP2 exons 2 and 3 are shown in orange. The bottom panel shows all pairwise associations between 11 SNPs at the CNTNAP2 locus. The value within each diamond is the linkage disequilibrium statistic D′. Diamonds without a number correspond to D′ = 1; shading represents the magnitude and significance of pair-wise linkage disequilibrium (LD) with a red-to-white gradient reflecting higher to lower LD values (see Haploview online for further details).View Large Image Figure ViewerDownload Hi-res image Download (PPT) The top panel shows the results of association tests in 1440 trios with significance for each SNP shown as the negative base-10 logarithm of the p value on the y axis plotted against genomic position in megabase (Mb) on the x axis. The CNTNAP2 exons 2 and 3 are shown in orange. The bottom panel shows all pairwise associations between 11 SNPs at the CNTNAP2 locus. The value within each diamond is the linkage disequilibrium statistic D′. Diamonds without a number correspond to D′ = 1; shading represents the magnitude and significance of pair-wise linkage disequilibrium (LD) with a red-to-white gradient reflecting higher to lower LD values (see Haploview online for further details). To validate this initial finding, we genotyped an independent sample of 1295 parent-child trios from the NIMH Repository for rs7794745 and again found overtransmission of the T allele (p < 0.005). Genotyping was performed with TaqMan assays and we obtained 98.5% complete data with no observed Mendelian errors or deviation from Hardy-Weinberg equilibrium (p = 0.83). The minor allele frequency was 0.38, similar to that observed in stage I, but the genetic effect was smaller (τ = 0.54). It is important to note that our stage II samples used a broader definition of autism (ADI-R-positive without requiring ADOS classification of either autism or autism spectrum disorder) than in stage I, increasing phenotypic heterogeneity, and this may explain the reduced strength of the effect of rs7794745. However, when we examined 145 multiplex families (303 affected children) from stage II corresponding to the same selection criteria as stage I, the strength of the effect was no different than the remainder of the stage II samples (data not shown), suggesting that the strength of the effect seen in stage I likely reflects a "winner's curse" and is an overestimate of the true effect. Nevertheless, a significant overtransmission of the T allele is observed in two independent family-based samples, confirming that CNTNAP2 is an autism-susceptibility gene. Additional studies incorporating specific domains of autism may shed light on which specific autistic phenotypes are associated with variation in CNTNAP2, because heterogeneity in the genetic effect is observed. To further characterize the genetic properties of rs7794745, we examined transmission stratified by parental gender and by offspring gender given the marked sex difference in the incidence of autism. As shown in Table 1, the overall transmission frequency (τ = 0.55: p < 7.35 × 10−5) is significantly greater from mothers (τ = 0.61) than from fathers (τ = 0.53) in the combined sample, and this parent-of-origin difference is significant (p < 0.001). Interestingly, this genetic effect and difference is largely observed in affected males than females, although the rarity of affected females implies that the power to detect the observed difference in females is low. To estimate the genetic effect of the T allele, we focused on stage II results, because they are unlikely to reflect any winner's curse and have assumed a normally distributed, but unobservable, liability scale with a threshold determining affectation status.11Falconer D.S. The inheritance of liability to certain diseases, estimated from the incidence among relatives.Ann. Hum. Genet. 1965; 29: 51-76Crossref Scopus (1021) Google Scholar Penetrances were then estimated under Morton and Mclean's mixed model of inheritance,12Morton N.E. McLean C.J. Analysis of family resemblance. III. Complex segregation of quantitative traits.Am. J. Hum. Genet. 1974; 26: 318-330PubMed Google Scholar assuming a prevalence of 0.0032 in males and 0.0008 in females (overall prevalence of 1:500, males 4 times as likely to be affected), and the relative risk stratified by rs7794745 genotype and sex is shown in Figure 3. Our data are compatible with the hypothesis that the common variant we detect is a disease variant only when inherited through the female germline. The cause of this biased transmission is unclear, because a null paternal allele of CNTNAP2 is associated with obsessive-compulsive disorder,13Verkerk A.J. Mathews C.A. Joosse M. Eussen B.H. Heutink P. Oostra B.A. CNTNAP2 is disrupted in a family with Gilles de la Tourette syndrome and obsessive compulsive disorder.Genomics. 2003; 82: 1-9Crossref PubMed Scopus (186) Google Scholar suggesting that the paternal allele is normally expressed. Our finding of a parent-of-origin bias in the genetic effect is intriguing and needs to be replicated by other studies. Nevertheless, differential genetic effects from the two parents are not unexpected in complex diseases with a sex difference.14Emison E.S. McCallion A.S. Kashuk C.S. Bush R.T. Grice E. Lin S. Portnoy M.E. Cutler D.J. Green E.D. Chakravarti A. A common sex-dependent mutation in a RET enhancer underlies Hirschsprung disease risk.Nature. 2005; 434: 857-863Crossref PubMed Scopus (368) Google ScholarTable 1Transmission of the CNTNAP2 Genetic Polymorphism rs7794745 to Affected ChildrennA AlleleT AlleleττMτPpp∗Stage I13744930.680.750.672.14 × 10−52.58 × 10−5Stage II12195616580.540.590.510.0050.003Combined13566057510.550.610.537.35 × 10−50.001 Males10774686090.570.640.531.74 × 10−53.75 × 10−4 Females2791371420.510.510.510.770.93n is the total number of transmissions; τ is the transmission frequency of the T allele; τM and τP refer to maternal and paternal transmission frequencies, respectively; and p and p∗ refer to the overall significance of τ and the significance of the parent-of-origin effect, respectively. Open table in a new tab n is the total number of transmissions; τ is the transmission frequency of the T allele; τM and τP refer to maternal and paternal transmission frequencies, respectively; and p and p∗ refer to the overall significance of τ and the significance of the parent-of-origin effect, respectively. In an attempt to fine-map the functional variant in CNTNAP2 contributing to the observed association with autism, we genotyped 10 additional SNPs flanking rs7794745 in the combined stage I and II samples. These SNPs were chosen to tag the LD block containing rs7794745 based on data from the HapMap CEU population. No single SNP showed greater significance than rs7794745 (Figure 2), and no haplotypes showed a marked increased in significance (data not shown), suggesting that either rs7794745, or any other variant highly correlated with it, may be candidates or surrogates for the functional variant. Our findings are particularly intriguing in light of the recent study by Strauss and colleagues who linked recessive loss-of-function alleles of CNTNAP2 with cortical dysplasia-focal epilepsy (CDFE [MIM 610042]); 67% of the children with CDFE are also diagnosed with autism.15Strauss K.A. Puffenberger E.G. Huentelman M.J. Gottlieb S. Dobrin S.E. Parod J.M. Stephan D.A. Morton D.H. Recessive symptomatic focal epilepsy and mutant contactin-associated protein-like 2.N. Engl. J. Med. 2006; 354: 1370-1377Crossref PubMed Scopus (454) Google ScholarCNTNAP2 is a very large gene spanning more than 2.5 Mb and maps to a region of chromosomal fragility.16Smith D.I. Zhu Y. McAvoy S. Kuhn R. Common fragile sites, extremely large genes, neural development and cancer.Cancer Lett. 2006; 232: 48-57Abstract Full Text Full Text PDF PubMed Scopus (150) Google Scholar Consequently, it is possible that additional variants in this gene, including genomic copy number alterations, could also contribute to autism. Indeed, two additional genetic studies in this issue of AJHG, one identifying an association with a rare nonsynonymous variant17Bakkaloglu B. O'Roak B.J. Louvi A. Gupta A.R. Abelson J.F. Morgan T.M. Chawarska K. Klin A. Ercan-Sencicek A.G. Stillman A.A. et al.Molecular cytogenetic analysis and resequencing of Contactin Associated Protein-Like 2 in autism spectrum disorders.Am. J. Hum. Genet. 2007; 82 (this issue): 165-173Abstract Full Text Full Text PDF Scopus (393) Google Scholar and one demonstrating an association with common variants and the language component of autism,18Alarcón M. Abrahams B.S. Stone J.L. Duvall J.A. Perederiy J.V. Bomar J.M. Sebat J. Wigler M. Martin C.L. Ledbetter D.H. et al.Linkage, association, and gene expression analyses identify CNTNAP2 as an autism-susceptibility gene.Am. J. Hum. Genet. 2007; 82 (this issue): 150-159Abstract Full Text Full Text PDF Scopus (579) Google Scholar also point to CNTNAP2 as an autism-susceptibility gene. Given that Alarcón and colleagues also identified a common noncoding variant in CNTNAP2,18Alarcón M. Abrahams B.S. Stone J.L. Duvall J.A. Perederiy J.V. Bomar J.M. Sebat J. Wigler M. Martin C.L. Ledbetter D.H. et al.Linkage, association, and gene expression analyses identify CNTNAP2 as an autism-susceptibility gene.Am. J. Hum. Genet. 2007; 82 (this issue): 150-159Abstract Full Text Full Text PDF Scopus (579) Google Scholar and there is some overlap in samples, it is important to highlight the independent yet complementary nature of our two findings. First, different phenotypes were studied, with Alarcón and colleagues focusing on a quantitative trait, "age at first word," whereas we used a qualitative strict autism diagnosis. Second, although 70/72 families from our stage I sample were included in the Alarcón study, 2/3 of our stage II samples were nonoverlapping. Even after exclusion of all overlapping samples from our stage II data, rs779475 was still significantly associated with autism (p < 0.05), demonstrating the independence of this association. Third, and most importantly, the variants identified in both studies are more than 1 Mb apart and show no evidence of linkage disequilibrium, indicating that despite being in the same gene and exhibiting a male-specific bias, these are truly independent loci providing independent evidence for association of common noncoding variants in CNTNAP2 with autism susceptibility. Indeed, the combined evidence from all three studies strongly suggests the existence of alleleic heterogeneity that needs to be addressed fully by genotyping all samples with the same sets of markers and sequencing all coding exons. In conclusion, we identified a common variant in CNTNAP2 that is associated with increased risk for autism in two independent family-based samples and exhibits a parent-of-origin bias. Furthermore, given the strength of our initial linkage signal, it is likely that additional genetic variants in this gene that contribute to autism susceptibility remain to be discovered. We thank all of the families who have participated in and contributed to the public resource that we have used in these studies. We thank Drs. Andrew West and Dan Geschwind for discussions of autism genetics and the role of CNTNAP2. This research was funded by grants from the National Institute of Mental Health (MH60007). The collection of data and biomaterials in one project that participated in the National Institute of Mental Health (NIMH) Autism Genetics Initiative has been supported by National Institutes of Health grants MH52708, MH39437, MH00219, and MH00980; National Health Medical Research Council grant 0034328; and by grants from the Scottish Rite, the Spunk Fund, Inc., the Rebecca and Solomon Baker Fund, the APEX Foundation, the National Alliance for Research in Schizophrenia and Affective Disorders (NARSAD), the endowment fund of the Nancy Pritzker Laboratory (Stanford); and by gifts from the Autism Society of America, the Janet M. Grace Pervasive Developmental Disorders Fund, and families and friends of individuals with autism. The principal investigators and coinvestigators were: Neil Risch, Ph.D., Richard M. Myers, Ph.D., Donna Spiker, Ph.D., Linda J. Lotspeich, M.D., Joachim Hallmayer, M.D., Helena C. Kraemer, Ph.D., Roland D. Ciaranello, M.D., and Luca L. Cavalli-Sforza, M.D. (Stanford University, Stanford, CA); and William M. McMahon, M.D., and P. Brent Petersen (University of Utah, Salt Lake City, UT). The Stanford team is indebted to the parent groups and clinician colleagues who referred families. The Stanford team extends our gratitude to the families with individuals with autism who were our partners in this research. The collection data and biomaterials come from the Autism Genetic Resource Exchange (AGRE) collection. This program has been supported by a National Institutes of Health grant MH64547 and the Cure Autism Now Foundation. The principal investigator is Daniel H. Geschwind, M.D., Ph.D. (UCLA). The coprincipal investigators include Stanley F. Nelson, M.D., and Rita Cantor, Ph.D. (UCLA), Christa Lese Martin, Ph.D. (U. Chicago), and T. Conrad Gilliam, Ph.D. (Columbia). Coinvestigators include Maricela Alarcon, Ph.D., Kenneth Lange, Ph.D., and Sarah J. Spence, M.D., Ph.D. (UCLA); David H. Ledbetter, Ph.D. (Emory); and Hank Juo, M.D., Ph.D. (Columbia). Scientific oversight of the AGRE program is provided by the AGRE steering committee (chair, Daniel H. Geschwind, M.D., Ph.D; members: W. Ted Brown, M.D., Ph.D., Maja Bucan, Ph.D., Joseph Buxbaum, Ph.D., T. Conrad Gilliam, Ph.D., David Greenberg, Ph.D., David Ledbetter, Ph.D., Bruce Miller, M.D., Stanley F. Nelson, M.D., Jonathan Pevsner, Ph.D., Carol Sprouse, Ed.D., Gerard Schellenberg, Ph.D., and Rudolph Tanzi, Ph.D.). The collection of data and biomaterials in another project has been supported by a supplement to National Institutes of Health grant MH61009 ("Molecular Genetics of 15q11–q13 Defects in Autism") and by Development Funds from the Vanderbilt Centers for Human Genetics Research and Kennedy Center for Research on Human Development. The principal investigator was James S. Sutcliffe, Ph.D. (Vanderbilt University, Nashville, TN). The coinvestigator was Jonathan L. Haines, Ph.D., and the Clinical and Phenotypic Coordinator for this project was Genea Crocket, M.S. The collection of data and biomaterials in another project has been supported by National Institutes of Health grant MH55135 ("Collaborative Linkage Study of Autism"). The principal investigator was Susan E. Folstein, M.D. (Tufts University/New England Medical Center, Boston, MA), and her key Clinical and Phenotypic Coordinators were Brian Winklosky and Beth Rosen-Sheidley, M.S., C.G.C. Coinvestigators included James S. Sutcliffe, Ph.D. and Jonathan L. Haines, Ph.D. (Vanderbilt University, Nashville, TN). The collection of data and biomaterials in another project has been supported by National Institutes of Health grant MH55284. The principal investigator and coinvestigators were Joseph Piven, M.D. (University of North Carolina, Chapel Hill); Val Sheffield, M.D., Ph.D., Veronica Vieland, Ph.D., and Thomas Wassink, M.D. (University of Iowa, Iowa City). The URLs for data presented herein are as follows:Haploview, http://www.broad.mit.edu/mpg/haploviewOnline Mendelian Inheritance in Man (OMIM), http://www.ncbi.nlm.nih.gov/Omim
0
Citation579
0
Save
0

A Comparison of Phasing Algorithms for Trios and Unrelated Individuals

Jonathan Marchini et al.Feb 3, 2006
Knowledge of haplotype phase is valuable for many analysis methods in the study of disease, population, and evolutionary genetics. Considerable research effort has been devoted to the development of statistical and computational methods that infer haplotype phase from genotype data. Although a substantial number of such methods have been developed, they have focused principally on inference from unrelated individuals, and comparisons between methods have been rather limited. Here, we describe the extension of five leading algorithms for phase inference for handling father-mother-child trios. We performed a comprehensive assessment of the methods applied to both trios and to unrelated individuals, with a focus on genomic-scale problems, using both simulated data and data from the HapMap project. The most accurate algorithm was PHASE (v2.1). For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap Centre d'Etude du Polymorphisme Humain (CEPH) trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this work had comparable but slightly worse error rates. The error rates for trios are similar to the levels of genotyping error and missing data expected. We thus conclude that all the methods considered will provide highly accurate estimates of haplotypes when applied to trio data sets. Running times differ substantially between methods. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs and concluded that all methods estimated r2 well when the estimated value was ⩾0.8. Knowledge of haplotype phase is valuable for many analysis methods in the study of disease, population, and evolutionary genetics. Considerable research effort has been devoted to the development of statistical and computational methods that infer haplotype phase from genotype data. Although a substantial number of such methods have been developed, they have focused principally on inference from unrelated individuals, and comparisons between methods have been rather limited. Here, we describe the extension of five leading algorithms for phase inference for handling father-mother-child trios. We performed a comprehensive assessment of the methods applied to both trios and to unrelated individuals, with a focus on genomic-scale problems, using both simulated data and data from the HapMap project. The most accurate algorithm was PHASE (v2.1). For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap Centre d'Etude du Polymorphisme Humain (CEPH) trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this work had comparable but slightly worse error rates. The error rates for trios are similar to the levels of genotyping error and missing data expected. We thus conclude that all the methods considered will provide highly accurate estimates of haplotypes when applied to trio data sets. Running times differ substantially between methods. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs and concluded that all methods estimated r2 well when the estimated value was ⩾0.8. The size and scale of genetic-variation data sets for both disease and population studies have increased enormously. A large number of SNPs have been identified (current databases show 9 million of the posited 10–13 million common SNPs in the human genome [International HapMap Consortium International HapMap Consortium, 2005International HapMap Consortium A haplotype map of the human genome.Nature. 2005; 437: 1299-1320Crossref PubMed Scopus (4545) Google Scholar]); genotyping technology has advanced at a dramatic pace, so that 500,000 SNP assays can be undertaken in a single experiment; and patterns of correlations among SNPs (linkage disequilibrium [LD]) have been catalogued in multiple populations, yielding efficient marker panels for genomewide investigations (see the International HapMap Project Web site). These genetic advances coincide with recognition of the need for large case-control samples to robustly identify genetic variants for complex traits. As a result, genomewide association studies are now being undertaken, and much effort is being made to develop efficient statistical techniques for analyzing the resulting data, to uncover the location of disease genes. In addition, the advances allow much more detailed analysis of candidate genes identified by more traditional linkage-analysis methods. Many methods of mapping disease genes assume that haplotypes from case and control individuals are available in the region of interest. Such approaches have been successful in localizing many monogenic disorders (Lazzeroni Lazzeroni, 2001Lazzeroni L A chronology of fine-scale gene mapping by linkage disequilibrium.Stat Methods Med Res. 2001; 10: 57-76Crossref PubMed Scopus (15) Google Scholar), and there is increasing evidence, of both a practical and theoretical nature, that the use of haplotypes can be more powerful than individual markers in the search for more-complex traits (Puffenberger et al. Puffenberger et al., 1994Puffenberger E Kauffman E Bolk S Matise T Washington S Angrist M Weissenbach J Garver KL Mascari M Ladda R Slaugenhaupt SA Chakravarti A Identity-by-descent and association mapping of a recessive gene for Hirschsprung disease on human chromosome 13q22.Hum Mol Genet. 1994; 3: 1217-1225Crossref PubMed Scopus (200) Google Scholar; Akey et al. Akey et al., 2001Akey J Jin L Xiong M Haplotypes vs single marker linkage disequilibrium tests: what do we gain?.Eur J Hum Genet. 2001; 9: 291-300Crossref PubMed Scopus (351) Google Scholar; Hugot et al. Hugot et al., 2001Hugot JP Chamaillard M Zouali H Lesage S Cezard JP Belaiche J Almer S Tysk C O'Morain CA Gassull M Binder V Finkel Y Cortot A Modigliani R Laurent-Puig P Gower-Rousseau C Macry J Colombel JF Sahbatou M Thomas G Association of NOD2 leucine-rich repeat variants with susceptibility to Crohn's disease.Nature. 2001; 411: 599-603Crossref PubMed Scopus (4485) Google Scholar; Rioux et al. Rioux et al., 2001Rioux J Daly M Silverberg M Lindblad K Steinhart H Cohen Z Delmonte T et al.Genetic variation in the 5q31 cytokine gene cluster confers susceptibility to Crohn disease.Nat Genet. 2001; 29: 223-228Crossref PubMed Scopus (678) Google Scholar). Similarly, haplotypes are required for many population-genetics analyses, including some methods for inferring selection (Sabeti et al. Sabeti et al., 2002Sabeti PC Reich DE Higgins JM Levine HZ Richter DJ Schaffner SF Gabriel SB Platko JV Patterson NJ McDonald GJ Ackerman HC Campbell SJ Altshuler D Cooper R Kwiatkowski D Ward R Lander ES Detecting recent positive selection in the human genome from haplotype structure.Nature. 2002; 419: 832-837Crossref PubMed Scopus (1319) Google Scholar), and for studying recombination (Fearnhead and Donnelly Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar; Myers and Griffiths Myers and Griffiths, 2003Myers S Griffiths R Bounds on the minimum number of recombination events in a sample history.Genetics. 2003; 163: 375-394PubMed Google Scholar) and historical migration (Beerli and Felsenstein Beerli and Felsenstein, 2001Beerli P Felsenstein J Maximum likelihood estimation of a migration matrix and effective population sizes in n subpopulations by using a coalescent approach.Proc Natl Acad Sci USA. 2001; 98: 4563-4568Crossref PubMed Scopus (1333) Google Scholar; De Iorio and Griffiths De Iorio and Griffiths, 2004De Iorio M Griffiths R Importance sampling on coalescent histories. II. Subdivided population models.Adv Appl Probab. 2004; 36: 434-454Crossref Scopus (54) Google Scholar). It is possible to determine haplotypes by use of experimental techniques, but such approaches are considerably more expensive and time-consuming than modern high-throughput genotyping. The statistical determination of haplotype phase from genotype data is thus potentially very valuable if the estimation can be done accurately. This problem has received an increasing amount of attention over recent years, and several computational and statistical approaches have been developed in the literature (see Salem et al. [Salem et al., 2005Salem M Wessel J Schork J A comprehensive literature review of haplotyping software and methods for use with unrelated individuals.Hum Genomics. 2005; 2: 39-66Crossref PubMed Scopus (60) Google Scholar] for a recent literature review). Existing methods include parsimony approaches (Clark Clark, 1990Clark AG Inference of haplotypes from PCR-amplified samples of diploid populations.Mol Biol Evol. 1990; 7: 111-122PubMed Google Scholar; Gusfield Gusfield, 2000Gusfield D A practical algorithm for optimal inference of haplotypes from diploid populations.Proc Int Conf Intell Syst Mol Biol. 2000; 8: 183-189PubMed Google Scholar, Gusfield, 2001Gusfield D Inference of haplotypes from samples of diploid populations: complexity and algorithms.J Comput Biol. 2001; 8: 305-323Crossref PubMed Scopus (128) Google Scholar), maximum-likelihood methods (Excoffier and Slakin Excoffier and Slakin, 1995Excoffier L Slakin M Maximum likelihood estimation of molecular haplotype frequencies in a diploid population.Mol Biol Evol. 1995; 12: 921-927PubMed Google Scholar; Hawley and Kidd Hawley and Kidd, 1995Hawley M Kidd K HAPLO: a program using the EM algorithm to estimate the frequencies of multi-site haplotypes.J Hered. 1995; 86: 409-411PubMed Google Scholar; Long et al. Long et al., 1995Long J Williams R Urbanek M An E-M algorithm and testing strategy for multiple-locus haplotypes.Am J Hum Genet. 1995; 56: 799-810PubMed Google Scholar; Fallin and Schork Fallin and Schork, 2000Fallin D Schork NJ Accuracy of haplotype frequency estimation for biallelic loci, via the expectation-maximization algorithm for unphased diploid genotype data.Am J Hum Genet. 2000; 67: 947-959Abstract Full Text Full Text PDF PubMed Scopus (334) Google Scholar; Qin et al. Qin et al., 2002Qin ZS Niu T Liu JS Partition-ligation-expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.Am J Hum Genet. 2002; 71: 1242-1247Abstract Full Text Full Text PDF PubMed Scopus (422) Google Scholar), Bayesian approaches based on conjugate priors (Lin et al. Lin et al., 2002Lin S Cutler DJ Zwick ME Chakravarti A Haplotype inference in random population samples.Am J Hum Genet. 2002; 71: 1129-1137Abstract Full Text Full Text PDF PubMed Scopus (156) Google Scholar, Lin et al., 2004bLin S Chakravarti A Cutler D Haplotype and missing data inference in nuclear families.Genome Res. 2004; 14: 1624-1632Crossref PubMed Scopus (38) Google Scholar; Niu et al. Niu et al., 2002Niu T Qin ZS Xu X Liu JS Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms.Am J Hum Genet. 2002; 70: 157-169Abstract Full Text Full Text PDF PubMed Scopus (522) Google Scholar) and on priors from population genetics (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar; Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), and (im)perfect phylogeny approaches (Eskin et al. Eskin et al., 2003Eskin E Halperin E Karp R Efficient reconstruction of haplotype structure via perfect phylogeny.J Bioinform Comput Biol. 2003; 1: 1-20Crossref PubMed Scopus (83) Google Scholar; Gusfield Gusfield, 2003Gusfield D (2003) Haplotyping as perfect phylogeny: conceptual framework and efficient solutions. Paper presented at the Proceedings of the 6th Annual International Conference on Computational Biology, Washington, DCGoogle Scholar). Up to now, no comprehensive comparison of many of these approaches has been conducted. The forthcoming era of genomewide studies presents two new challenges to the endeavor of haplotype-phase inference. First, the size of data sets that experimenters will want to phase is about to increase dramatically, in terms of both numbers of loci and numbers of individuals. For example, we might expect data sets consisting of 500,000 SNPs genotyped in 2,000 individuals in some genomewide studies. Second, to date, most approaches have focused on inferring haplotypes from samples of unrelated individuals, but estimation of haplotypes from samples of related individuals is likely to become important. When inferring haplotypes within families, substantially more information is available than for samples of unrelated individuals. For example, consider the situation in which a father-mother-child trio has been genotyped at a given SNP locus. With no missing data, phase can be determined precisely, unless all three individuals are heterozygous at the locus in question. Of loci with a minor-allele frequency of 20%, for example, just 5.1% will be phase unknown in trios, but this rises to 32% in unrelated individuals. With missing data, other combinations of genotypes can also fail to uniquely determine phase. In this study, we describe the extension of several existing algorithms for dealing with trio data. We then describe a comprehensive evaluation of the performance of these algorithms for both trios and unrelated individuals. The evaluation uses both simulated and real data sets of a larger size (in terms of numbers of SNPs) than has been previously been considered. We draw the encouraging conclusion that all methods provide a very good level of accuracy on trio data sets. Overall, the PHASE (v2.1) algorithm provided the most accurate estimation on all the data sets considered. For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap CEPH trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this study had comparable but slightly worse error rates. The error rates for trios are comparable to expected levels of genotyping error and missing data and highlight the level of accuracy that the best phasing algorithms can provide on a useful scale. We also observed substantial variation in the speed of the algorithms we considered. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set (International HapMap Consortium International HapMap Consortium, 2005International HapMap Consortium A haplotype map of the human genome.Nature. 2005; 437: 1299-1320Crossref PubMed Scopus (4545) Google Scholar). In addition, the data sets used in this comparison will be made available, to form a benchmark set to aid the future development and assessment of phasing algorithms. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs. The most accurate method for estimating r2 was to first use PHASE to infer the haplotypes across the region and then to estimate r2 between the pair of SNPs as if the haplotypes were known. All methods estimated r2 well when the estimated value was ⩾0.8. In this section, we describe the algorithms implemented in this study. Since most of these algorithms have been described elsewhere, we give only a brief overview of each method, together with some details concerning how each method was extended to cope with father-mother-child trios. Following a description of our notation and the assumptions made by each method, there is one subsection for each new method. Individuals who contributed to the development of the trio version of each method are shown in parentheses as part of the subsection title. In each subsection, expressed opinions are those of the contributing authors of that subsection and not of the combined set of authors as a group. We conclude with a concise overview that relates the different methods according to the assumptions they make about the most-plausible haplotype reconstructions. We consider m linked SNPs on a chromosomal region of n trio families, where each trio consists of a mother, a father, and one offspring. We use the following notation throughout. Let G=(G1,…,Gn) denote all the observed genotypes, in which Gi=(GMi,GFi,GCi) denotes the ith trio. GFi, GMi, and GCii denote the observed genotype data for the father, mother, and child, respectively, and each are vectors of length m—that is, GFi=(GFi1,…,GFim), with GFik=0, 1, or 2 representing homozygous wild-type, heterozygous, or homozygous mutant genotypes, respectively, at SNP marker k. Similarly, let H=(H1,H2,…,Hn) denote the unobserved haplotype configurations compatible with G, in which Hi=(HMi,HFi), where HMi=(HMi1,HMi2) and HFi=(HFi1,HFi2) denote the haplotype pairs of the mother and father, respectively. We use the notation HFi1⊕HFi2=GFi to indicate that the two haplotypes are compatible with the genotype GFi. Also, we let Θ=(θ1,…,θs) be a vector of unknown population haplotype frequencies of the s possible haplotypes that are consistent with the sample. All of the following algorithms make the assumption that all the parents are sampled independently from the population and that no recombination occurs in the transmission of haplotypes from the parents to children. The PHASE algorithm (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar; Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar) is a Bayesian approach to haplotype inference that uses ideas from population genetics—in particular, coalescent-based models—to improve accuracy of haplotype estimates for unrelated individuals sampled from a population. The algorithm attempts to capture the fact that, over short genomic regions, sampled chromosomes tend to cluster together into groups of similar haplotypes. With the explicit incorporation of recombination in the most recent version of the algorithm (Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), this clustering of haplotypes may change as one moves along a chromosome. The method uses a flexible model for the decay of LD with distance that can handle both “blocklike” and “nonblocklike” patterns of LD. We extended the algorithm described by Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar) to allow for data from trios (two parents and one offspring). We treat the parents as a random sample from the population and aim to estimate their haplotypes, taking into account both the genotypes of the parents and the genotype of the child. More specifically, we aim to sample from the distribution Pr(HF, HM|GF, GM, GC) (compared with sampling from Pr(HF, HM|GF, GM), as shown in the work by Stephens and Scheet [Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar]). To do this, we use a Markov chain–Monte Carlo (MCMC) algorithm very similar to that of Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), but, instead of updating one individual at a time, we update pairs of parents simultaneously. Note that the observed genotypes may include missing data at some loci, in which case the inferred haplotype pairs will include estimates of the unobserved alleles. When updating the parents in trio i, this involves computing, for each possible pair of haplotype combinations (HFi={hf, hf′};HMi={hm, hm′}) in the two parents, the probability ⪻(HFi={hf,hf′},HMi={hm,hm′}|GFi,GMi,GCi,HF-i,HM-i,ρ)∝αiβiγi , where αi=(2-δhfhf′)π(hf|HF-i,HM-i,ρ,μ)π(hf′|HF-i,HM-i,ρ,μ) ,βi=(2-δhmhm′)π(hm|HF-i,HM-i,ρ,μ)π(hm′|HF-i,HM-i,ρ,μ) , and γi=⪻[GCi|HFi=(hf,hf′),HMi=(hm,hm′)] , and where δhh′ is 1 if h=h′ and is 0 otherwise; HF-i and HM-i are the sets HF and HM with HFi and HMi removed, respectively; π is a modification of the conditional distribution of Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar); ρ is an estimate of the population-scaled recombination rate, which is allowed to vary along the region being considered; and μ is a parameter that controls the mutation rate (see Stephens and Scheet [Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar] for more details). The probability Pr[GCi|HFi=(hf, hf′),HMi=(hm, hm′)] is calculated assuming no recombination from parents to offspring and is therefore trivial to compute. We also assume no genotyping error. As a result, this probability is typically equal to 0 for a large number of parental diplotype configurations consistent with the parental genotypes, so the children's genotype data substantially reduces the number of diplotype configurations that must be considered. As in the work of Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), we use Partition Ligation (Niu et al. Niu et al., 2002Niu T Qin ZS Xu X Liu JS Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms.Am J Hum Genet. 2002; 70: 157-169Abstract Full Text Full Text PDF PubMed Scopus (522) Google Scholar) to further reduce the number of diplotype configurations considered when estimating haplotypes over many markers. This approach is not the most efficient, but it involved few changes to the existing algorithm. The model underlying wphase was developed on the basis of ideas proposed by Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar) that introduced a simple approximate model for haplotypes sampled from a population. The algorithm differs from the PHASE algorithm above in three ways: 1.PHASE uses MCMC to sample configurations, whereas wphase performs a discrete hill climb. wphase computes a pseudolikelihood function or score for a putative haplotype reconstruction, H, of the form S(H)=Πi=1nαiβiγi , where αi, βi, and γi are defined as in the description of PHASE above. The method attempts to maximize the score by iteratively applying a set of “moves” that make small changes to the reconstruction.2.PHASE and wphase differ in the precise form of the conditional distributions, π, used to calculate the factors αi and βi. As explained above, PHASE uses a modification of the conditional distribution of Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar), whereas wphase uses the conditional distributions introduced by Li and Stephens (Li and Stephens, 2003Li N Stephens M Modeling linkage disequilibrium and identifying recombination hotspots using single-nucleotide polymorphism data.Genetics. 2003; 165: 2213-2233PubMed Google Scholar).3.PHASE internally re-estimates a variable recombination rate across the region, whereas wphase uses an externally input constant recombination rate across the region. Specifically, wphase uses ρ=0.05 and θ=0.02.In our opinion, the second and third differences are more important than the first. Although use of an MCMC offers some theoretical advantages, particularly the possibility of inference with use of multiple imputation of haplotypes, this is rarely used in practice (see David Clayton's SNPHAP algorithm for a notable exception [Clayton Web site]). If only one haplotype reconstruction is to be used (e.g., in HapMap), then maximizing a pseudolikelihood function is likely to produce a good solution. Testing in simulation has shown that wphase nearly always returns a score that is as good as or better than the value of the true haplotypes. This suggests that the quality of the reconstruction can be improved only by refining the score, not by altering the details of the hill climb. The difference in the form of the conditional distributions described above may lead to improved reconstructions (Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar). In the special case of the resolution of singleton SNPs that occur in the same individual, the conditional distributions used with PHASE will result in a more plausible solution than those used with wphase. The effect this difference has for nonsingleton SNPs remains unclear. In addition, internally estimating a variable recombination rate is important, and its absence is a major weakness of the current version of wphase. True recombination rates vary greatly across the genome (McVean et al. McVean et al., 2004McVean G Myers S Hunt S Deloukas P Bentley D Donnelly P The fine-scale structure of recombination rate variation in the human genome.Science. 2004; 304: 581-584Crossref PubMed Scopus (700) Google Scholar; Myers et al. Myers et al., 2005Myers S Bottolo L Freeman C McVean G Donnelly P A fine-scale map of recombination rates and hotspots across the human genome.Science. 2005; 310: 321-324Crossref PubMed Scopus (796) Google Scholar) and between various simulated regions in our test set. Initial comparisons with PHASE version 1 (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar) at the time of development showed wphase to have very similar performance but not enough improvement to make it important to publish quickly. Since then, wphase has hardly improved, the main change being support for trio data, but PHASE underwent a major revision, with significant performance enhancements (Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar). Haplotype and missing data inference was performed with HAP2, the details of which have been published elsewhere (Lin et al. Lin et al., 2004bLin S Chakravarti A Cutler D Haplotype and missing data inference in nuclear families.Genome Res. 2004; 14: 1624-1632Crossref PubMed Scopus (38) Google Scholar). In short, HAP2 takes a Bayesian approach to haplotype reconstruction, set forth by Stephens et al. (Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar), of dynamically updating an individual's haplotypes to resemble other haplotypes in the s
0
Citation344
0
Save
Load More