DC
David Cutler
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
20
(60% Open Access)
Cited by:
11,643
h-index:
55
/
i10-index:
130
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Synaptic, transcriptional and chromatin genes disrupted in autism

Silvia Rubeis et al.Oct 29, 2014
The genetic architecture of autism spectrum disorder involves the interplay of common and rare variants and their impact on hundreds of genes. Using exome sequencing, here we show that analysis of rare coding variation in 3,871 autism cases and 9,937 ancestry-matched or parental controls implicates 22 autosomal genes at a false discovery rate (FDR) < 0.05, plus a set of 107 autosomal genes strongly enriched for those likely to affect risk (FDR < 0.30). These 107 genes, which show unusual evolutionary constraint against mutations, incur de novo loss-of-function mutations in over 5% of autistic subjects. Many of the genes implicated encode proteins for synaptic formation, transcriptional regulation and chromatin-remodelling pathways. These include voltage-gated ion channels regulating the propagation of action potentials, pacemaking and excitability–transcription coupling, as well as histone-modifying enzymes and chromatin remodellers—most prominently those that mediate post-translational lysine methylation/demethylation modifications of histones. Whole-exome sequencing in a large autism study identifies over 100 autosomal genes that are likely to affect risk for the disorder; these genes, which show unusual evolutionary constraint against mutations, carry de novo loss-of-function mutations in over 5% of autistic subjects and many function in synaptic, transcriptional and chromatin-remodelling pathways. Autism spectrum disorder (ASD) is a broad group of brain development disorders, including autism, childhood disintegrative disorder and Asperger's syndrome, characterized by impaired social interaction and communication, repetitive behaviour and restricted interests. Two groups reporting in this issue of Nature have used large-scale whole-exome sequencing to examine the contribution of inherited and germline de novo mutations to ASD risk. Silvia De Rubeis et al. analysed DNA samples from 3,871 autism cases and 9,937 ancestry-matched or parental controls and identify more than 100 autosomal genes that are likely to affect risk for the disease. De novo loss-of-function mutations were detected in more than 5% of autistic subjects. Many of the associated gene products appear to function in synaptic, transcriptional, and chromatin remodelling pathways. Ivan Iossifov et al. sequenced exomes from more than 2,500 families, each with one child with ASD. They identify 27 high-confidence gene targets and estimate that 13% of de novo missense mutations and 43% of de novo 'likely gene-disrupting' (LGD) mutations contribute to 12% and 9% of diagnoses, respectively.
0
Citation2,476
0
Save
0

A Note on Exact Tests of Hardy-Weinberg Equilibrium

Janis Wigginton et al.Apr 15, 2005
Deviations from Hardy-Weinberg equilibrium (HWE) can indicate inbreeding, population stratification, and even problems in genotyping. In samples of affected individuals, these deviations can also provide evidence for association. Tests of HWE are commonly performed using a simple χ2 goodness-of-fit test. We show that this χ2 test can have inflated type I error rates, even in relatively large samples (e.g., samples of 1,000 individuals that include ∼100 copies of the minor allele). On the basis of previous work, we describe exact tests of HWE together with efficient computational methods for their implementation. Our methods adequately control type I error in large and small samples and are computationally efficient. They have been implemented in freely available code that will be useful for quality assessment of genotype data and for the detection of genetic association or population stratification in very large data sets. Deviations from Hardy-Weinberg equilibrium (HWE) can indicate inbreeding, population stratification, and even problems in genotyping. In samples of affected individuals, these deviations can also provide evidence for association. Tests of HWE are commonly performed using a simple χ2 goodness-of-fit test. We show that this χ2 test can have inflated type I error rates, even in relatively large samples (e.g., samples of 1,000 individuals that include ∼100 copies of the minor allele). On the basis of previous work, we describe exact tests of HWE together with efficient computational methods for their implementation. Our methods adequately control type I error in large and small samples and are computationally efficient. They have been implemented in freely available code that will be useful for quality assessment of genotype data and for the detection of genetic association or population stratification in very large data sets. In the absence of migration, mutation, natural selection, and assortative mating, genotype frequencies at any locus are a simple function of allele frequencies. This phenomenon, now termed “Hardy-Weinberg equilibrium” (HWE), was first described in the early part of the twentieth century (Hardy Hardy, 1908Hardy HG Mendelian proportions in a mixed population.Science. 1908; 28: 49-50Crossref PubMed Scopus (604) Google Scholar; Weinberg Weinberg, 1908Weinberg W On the demonstration of heredity in man.in: Boyer SH (1963) Papers on human genetics. Prentice Hall, Englewood Cliffs, NJ1908Google Scholar). The original descriptions of HWE are an important landmark in the history of population genetics (Crow Crow, 1988Crow JF Eighty years ago: the beginnings of population genetics.Genetics. 1988; 119: 473-476PubMed Google Scholar), and it is now common practice to check whether observed genotypes conform to Hardy-Weinberg expectations. These expectations appear to hold for most human populations, and deviations from HWE at particular markers may suggest problems with genotyping or population structure or, in samples of affected individuals, an association between the marker and disease susceptibility. Here, we describe efficient implementations of exact tests for HWE, which are suitable for use in large-scale studies of SNP data, even when hundreds of thousands of markers are examined. The availability of data on patterns of linkage disequilibrium across the genome (International HapMap Consortium International HapMap Consortium, 2003International HapMap Consortium The International HapMap Project.Nature. 2003; 426: 789-796Crossref PubMed Scopus (4690) Google Scholar), interest in identifying susceptibility alleles for complex diseases (Cardon and Abecasis Cardon and Abecasis, 2003Cardon LR Abecasis GR Using haplotype blocks to map human complex trait loci.Trends Genet. 2003; 19: 135-140Abstract Full Text Full Text PDF PubMed Scopus (275) Google Scholar), and advances in genotyping technology (Kwok Kwok, 2001Kwok PY Methods for genotyping single nucleotide polymorphisms.Annu Rev Genomics Hum Genet. 2001; 2: 235-258Crossref PubMed Scopus (466) Google Scholar; Weber and Broman Weber and Broman, 2001Weber JL Broman KW Genotyping for human whole-genome scans: past, present, and future.Adv Genet. 2001; 42: 77-96Crossref PubMed Google Scholar) suggest that such large studies will be increasingly common. The principles and procedures used for testing HWE are well established (Levene Levene, 1949Levene H On a matching problem arising in genetics.Ann Math Stat. 1949; 21: 91-94Crossref Google Scholar; Haldane Haldane, 1954Haldane JBS An exact test for randomness of mating.J Genet. 1954; 52: 631-635Crossref Scopus (207) Google Scholar; Hernandez and Weir Hernandez and Weir, 1989Hernandez JL Weir BS A disequilibrium coefficient approach to Hardy-Weinberg equilibrium testing.Biometrics. 1989; 45: 53-70Crossref PubMed Scopus (116) Google Scholar; Wellek Wellek, 2004Wellek S Tests for establishing compatibility of an observed genotype distribution with Hardy-Weinberg equilibrium in the case of a biallelic locus.Biometrics. 2004; 60: 694-703Crossref PubMed Scopus (41) Google Scholar), but the lack of a publicly available, efficient, and reliable implementation for exact tests has led many scientists to rely on asymptotic tests that can perform poorly with realistic sample sizes. Consider a sample of SNP genotypes for N unrelated diploid individuals measured at an autosomal locus. The sample includes 2N alleles, including nA copies of the rarer allele and nB copies of the common allele. Let the number of heterozygous AB genotypes be nAB, and note that the numbers of AA and BB homozygous genotypes are nAA=(nA−nAB) / 2 and nBB=(nB−nAB) / 2. Note that there are (2N)! / nA!nB! possible arrangements for the alleles in the sample and that 2nABN!/(nAA!nAB!nBB!) of these arrangements correspond to exactly nAB heterozygotes. Thus, under the assumption of HWE, the probability of observing exactly nAB heterozygotes in a sample of N individuals with nA minor alleles is P(NAB=nAB|N,nA)=2nABN!nAA!nAB!nBB!×nA!nB!(2N)! .(1) This equation holds for each possible number of heterozygotes, nAB. When nA is odd, possible numbers of heterozygotes are 1, 3, 5,…,nA. When nA is even, possible numbers of heterozygotes are 0, 2, 4,…,nA. The expression for P(nAB|N,nA) given in equation (1) leads to natural tests for HWE. For example, one could define one-sided tests that focus on detection of a deficit of heterozygotes, by calculating the statistic Plow=P(NAB≤nAB|N,nA), or detection of an excess of heterozygotes, by calculating the statistic Phigh=P(NAB⩾nAB|N,nA). In each case, the statistic can be calculated by simply summing over equation (1), to include all possible values of NAB that are lower (for Plow) or higher (for Phigh) than those observed in the actual data. A test for a deficit of heterozygotes in relation to Hardy-Weinberg expectations is appropriate when deviations from HWE due to inbreeding or population stratification are suspected, since both of these increase the proportion of homozygotes in the population. A test for an excess of heterozygotes is appropriate when one suspects problems in genotyping due to the existence of highly homologous regions in the genome, since these low-copy repeats often lead to an increase in the proportion of apparent heterozygotes in the sample. In other settings, it might be appropriate to use both tests. For example, many technologies score genotypes by clustering signals, and misspecified clusters can result in either vast excesses or vast deficits of heterozygotes. When neither an increase nor a decrease in the proportion of heterozygotes is specifically expected, one could perform two separate one-sided tests or, instead, use a two-sided test statistic (Weir Weir, 1996Weir BS Genetic data analysis II. Sinauer Associates, Sunderland, MA1996Google Scholar). A natural two-sided test statistic could be defined as P2α=min(1.0, 2Phigh, 2Plow). This two-sided statistic is appealing because it leads to rejection of HWE at significance level 2α in instances in which the one-sided tests lead to the rejection of HWE at significance level α. However, because of the asymmetric nature of the distribution of heterozygote counts in a sample, the statistic is quite conservative in practice, and we do not recommend its use. Instead, an appealing approach, analogous to Fisher’s exact test for contingency tables (Fisher Fisher, 1934Fisher RA Statistical methods for research workers. Oliver and Boyd, Edinburgh1934Google Scholar), is to calculate the probability of observing a sample configuration that is even less likely than the one being evaluated, conditional on the observed allele counts. This can be achieved using a statistic similar to the Monte Carlo statistic proposed by Guo and Thompson (Guo and Thompson, 1992Guo SW Thompson EA Performing the exact test of Hardy-Weinberg proportion for multiple alleles.Biometrics. 1992; 48: 361-372Crossref PubMed Scopus (4323) Google Scholar) for multiallelic markers: PHWE=∑nAB*I[P(NAB=nAB|N,nA)≥P(NAB=nAB*|N,nA)]×P(NAB=nAB*|N,nA) .8 In this definition, I[x] is an indicator function that is equal to 1 when the comparison is true and equal to 0 otherwise. The sum should be performed over all heterozygote counts n*AB that are compatible with the observed number of minor alleles, nA. Most of the computational effort required for performing exact tests of linkage disequilibrium is spent evaluating the factorials in equation (1) for each possible value of nAB. By use of a naive approach, evaluating equation (1) requires 5N–6N multiplications and one division for each possible value of nAB. We simplify calculations by using the recurrence relationships previously recognized by Guo and Thompson (Guo and Thompson, 1992Guo SW Thompson EA Performing the exact test of Hardy-Weinberg proportion for multiple alleles.Biometrics. 1992; 48: 361-372Crossref PubMed Scopus (4323) Google Scholar) in the implementation of their Markov chain–Monte Carlo sampler: P(NAB=nAB+2|N,nA)=P(NAB=nAB|N,nA)4nAAnBB(nAB+2)(nAB+1) , andP(NAB=nAB−2|N,nA)=P(NAB=nAB|N,nA)nAB(nAB−1)4(nAA+1)(nBB+1) .(2) In this way, evaluating the probability for each possible number of heterozygotes takes only four multiplications and one division, whatever the sample size N. To avoid underflow, it is best to first calculate the probability of observing the expected number of heterozygotes (in this case, the most likely outcome) and then use the recurrence relationships to calculate probabilities for all other outcomes. A further reduction of computational effort is possible by noting that one need only calculate relative probabilities for each outcome and then scale these to ensure that their sum is 1.0. This means that the probability of observing the expected number of heterozygotes can be replaced with an arbitrary constant when using the recurrence relations in equation (2), provided that the final result is scaled. Table 1 illustrates the performance of the statistics for a sample of 100 individuals in which 21 copies of the minor allele are present. The observed number of heterozygotes will vary from 1 to 21 and must be odd. Note that only a small number of distinct sample configurations are possible, and each of these is associated with a specific probability for the exact tests. If the desired significance level α does not correspond exactly to one of these discrete outcomes, then the exact test statistics will be conservative (Hernandez and Weir Hernandez and Weir, 1989Hernandez JL Weir BS A disequilibrium coefficient approach to Hardy-Weinberg equilibrium testing.Biometrics. 1989; 45: 53-70Crossref PubMed Scopus (116) Google Scholar). For example, at the significance level α=0.05, the PHWE and Plow statistics both reject the hypothesis of HWE if ≤13 heterozygotes are observed in this setting. Since the probability of observing ≤13 heterozygotes is 0.010, the tests are conservative. In contrast, the asymptotic χ2 test statistic results in rejection of HWE when ≤15 heterozygotes are observed (for ≤15 heterozygotes, the χ2 test statistic corresponds to an asymptotic P≤.045). This results in an inflated type I error rate of 0.070 and therefore is inappropriate. In this sample, it is not possible to reject HWE because of an excess of heterozygous individuals—the probability of observing the maximum of 21 heterozygotes is 0.31, and none of the test statistics gives a P value <.05 for this extreme configuration. Additional examples of the performance of exact test statistics for HWE can be found in the work by Vithayasai (Vithayasai, 1973Vithayasai C Exact critical values of the Hardy-Weinberg test statistic for two alleles.Communic Stat. 1973; 1: 229-242Crossref Scopus (34) Google Scholar).Table 1Possible Sample Configurations and Their Probabilities for a Sample of 100 Individuals and 21 Minor-Allele Copies Are TabulatedExact TestPValuesNo. ofHeterozygotes (nAB)ProbabilityaP (nAB|N=100, nA=21).χ2TestPPHWEPhighPlow5<.000001<.000001bConfigurations that would be rejected at the significance level α = 0.05.<.000001bConfigurations that would be rejected at the significance level α = 0.05.1.000000<.000001bConfigurations that would be rejected at the significance level α = 0.05.7.000001<.000001bConfigurations that would be rejected at the significance level α = 0.05..000001bConfigurations that would be rejected at the significance level α = 0.05.1.000000.000001bConfigurations that would be rejected at the significance level α = 0.05.9.000047<.000001bConfigurations that would be rejected at the significance level α = 0.05..000048bConfigurations that would be rejected at the significance level α = 0.05..999999.000048bConfigurations that would be rejected at the significance level α = 0.05.11.000870.000039bConfigurations that would be rejected at the significance level α = 0.05..000919bConfigurations that would be rejected at the significance level α = 0.05..999952.000919bConfigurations that would be rejected at the significance level α = 0.05.13.009375.002228bConfigurations that would be rejected at the significance level α = 0.05..010293bConfigurations that would be rejected at the significance level α = 0.05..999081.010293bConfigurations that would be rejected at the significance level α = 0.05.15.059283.045180bConfigurations that would be rejected at the significance level α = 0.05..069576.989707.06957617.214465.342972.284042.930424.28404219.406355.9065291.000000.715958.69039621.309604.244336.593645.3096041.000000Note.—The probability of observing each possible outcome is given, together with the corresponding P values for tests of HWE based on the χ2 statistic and on the exact test statistics PHWE, Plow, and Phigh (described in the main text).a P (nAB|N=100, nA=21).b Configurations that would be rejected at the significance level α = 0.05. Open table in a new tab Note.— The probability of observing each possible outcome is given, together with the corresponding P values for tests of HWE based on the χ2 statistic and on the exact test statistics PHWE, Plow, and Phigh (described in the main text). In general, the exact test statistics are conservative when a small number of minor-allele copies are present in the sample, but they approximate nominal significance levels as the sample size (and number of minor-allele copies) increases. In contrast, the commonly used χ2 statistic can produce excessively small or large P values for specific outcomes (Hernandez and Weir Hernandez and Weir, 1989Hernandez JL Weir BS A disequilibrium coefficient approach to Hardy-Weinberg equilibrium testing.Biometrics. 1989; 45: 53-70Crossref PubMed Scopus (116) Google Scholar). To comprehensively evaluate the performance of the χ2 and exact test statistics, we calculated their type I error rates for specified significance levels of α=0.05, 0.01, or 0.001, for sample sizes of N=100 or N=1,000 individuals and varying minor-allele counts. The results are summarized in figure 1 (for samples in which <25% of chromosomes carry the minor allele) and figure 2 (for samples in which >10% of chromosomes carry the minor allele), and it is clear that the statistics exhibit some periodicity in their type I error rates. As expected, both the exact PHWE statistic and the χ2 statistic perform better as the sample size and minor-allele counts increase. Nevertheless, one important difference is that the χ2 statistic can sometimes be extremely anticonservative (e.g., in a sample of 1,000 individuals, when nominal α=0.001, the true type I error rate can exceed 0.06 and is often >0.01 for minor-allele counts <100), whereas the exact statistic never exceeds the nominal significance level. In practical settings, the χ2 statistic could lead to many false rejections of HWE that depend on only the particular count of minor alleles in the sample.Figure 2Type I error rates as a function of minor-allele counts for common alleles, for samples of either 100 or 1,000 chromosomes and corresponding to a significance threshold of α=0.05, 0.01, or 0.001. Results are plotted as a function of the number of minor alleles in the sample for the exact PHWE statistic (red) and for the asymptotic χ2 test statistic (blue). A gray line denotes the nominal error rate. Note that the Y-axes in figures 1 and 2 differ.View Large Image Figure ViewerDownload Hi-res image Download (PPT) To understand the periodicity of the statistics, it is important to consider the discrete nature of the data. For example, for a sample of N=100 individuals including 2–5 copies of the minor allele, we reject HWE at the α=0.05 significance level (fig. 1A) when there is at least one homozygote for the minor allele. The probability of observing more than one homozygote for the minor allele increases gradually from 0.0050 when there are two copies of the allele in the sample up to 0.0499 when there are five copies of the minor allele in the sample. When there are 6–14 copies of the minor allele in the sample, we reject HWE at the α=0.05 significance level (fig. 1A) when at least two homozygotes for the rare allele are observed. Again, the probability of a more extreme event is quite low for small numbers of the rare allele (P=.0011 with six copies of the minor allele in the sample) but gradually increases if there are additional copies of the minor allele in the sample (P=.0482 with 13 copies of the minor allele). In table 2, the overall type I error rates for each statistic are summarized for sample sizes of 100 or 1,000 individuals and various ranges of minor-allele counts. It is clear that, on average, the χ2 test approximates nominal significance levels as the number of minor alleles in the sample increases. Nevertheless, as illustrated in figure 1, this is achieved at the cost of inflated error rates for samples with specific numbers of minor alleles. Even in a sample of 1,000 individuals, the type I error rate at α = 0.001 for the χ2 test is inflated when there are <200 copies of the minor allele (corresponding to an allele frequency of ∼10%). The exact tests approximate nominal significance levels with increasing sample size but remain conservative because of the discrete nature of the data.Table 2Actual Error Rates for the χ2 Test Statistic and the PHWE Test Statistic for Nominal Significance Level α = 0.01 or 0.001α = 0.01aThe error rate for each bin is tabulated, followed by the cumulative error rate in parenthesis. The cumulative error rate is calculated by including each bin and all previous bins. For example, for a sample of size 1,000, when α = 0.001, the type I error rate for the standard χ2 test in a sample with 101–200 copies of the minor allele is 0.0017 and the cumulative error rate, corresponding to samples with 1–200 copies of the minor allele, is 0.0053.α = 0.001aThe error rate for each bin is tabulated, followed by the cumulative error rate in parenthesis. The cumulative error rate is calculated by including each bin and all previous bins. For example, for a sample of size 1,000, when α = 0.001, the type I error rate for the standard χ2 test in a sample with 101–200 copies of the minor allele is 0.0017 and the cumulative error rate, corresponding to samples with 1–200 copies of the minor allele, is 0.0053.Sample andMinor-Allele Countχ2PHWEχ2PHWEN=1,000 1–100.0208bExceeds nominal significance level. (.0208)bExceeds nominal significance level..0039 (.0039).0088bExceeds nominal significance level. (.0088)bExceeds nominal significance level..0004 (.0004) 101–200.0100 (.0154)bExceeds nominal significance level..0065 (.0052).0017bExceeds nominal significance level. (.0053)bExceeds nominal significance level..0006 (.0005) 201–400.0097 (.0126)bExceeds nominal significance level..0083 (.0067).0010 (.0032)bExceeds nominal significance level..0008 (.0006) 401–1,000.0100 (.0110)bExceeds nominal significance level..0090 (.0081).0010 (.0018)bExceeds nominal significance level..0009 (.0008)N=100 1–10.0292bExceeds nominal significance level. (.0292)bExceeds nominal significance level..0024 (.0024).0114bExceeds nominal significance level. (.0114)bExceeds nominal significance level..0001 (.0001) 11–20.0191bExceeds nominal significance level. (.0242)bExceeds nominal significance level..0035 (.0030).0035bExceeds nominal significance level. (.0074)bExceeds nominal significance level..0003 (.0002) 21–40.0083 (.0162)bExceeds nominal significance level..0037 (.0033).0016bExceeds nominal significance level. (.0045)bExceeds nominal significance level..0004 (.0003) 41–100.0099 (.0124)bExceeds nominal significance level..0072 (.0057).0009 (.0023)bExceeds nominal significance level..0006 (.0005)Note.—Results are tabulated for samples of 100 and 1,000 individuals and represent simple averages for each range of minor-allele counts.a The error rate for each bin is tabulated, followed by the cumulative error rate in parenthesis. The cumulative error rate is calculated by including each bin and all previous bins. For example, for a sample of size 1,000, when α = 0.001, the type I error rate for the standard χ2 test in a sample with 101–200 copies of the minor allele is 0.0017 and the cumulative error rate, corresponding to samples with 1–200 copies of the minor allele, is 0.0053.b Exceeds nominal significance level. Open table in a new tab Note.— Results are tabulated for samples of 100 and 1,000 individuals and represent simple averages for each range of minor-allele counts. As a final evaluation of our approach, we applied our method to a subset of the genotypes collected by the International HapMap Consortium (International HapMap Consortium, 2003International HapMap Consortium The International HapMap Project.Nature. 2003; 426: 789-796Crossref PubMed Scopus (4690) Google Scholar). We focused on a set of 18,460 SNP markers genotyped independently by two different centers with no discrepancies between the two sets of experimental results. For each of these markers, we evaluated evidence against HWE by using both the exact PHWE statistic and the asymptotic χ2 statistic. Results were broadly similar for 14,889 markers with minor-allele frequencies ⩾20%. However, we observed noticeable differences for 3,571 markers with minor-allele frequencies <20%. For example, the χ2 test rejected HWE for 71 of these markers at α=0.01 (twice as many as the 35 markers expected to fail this test by chance), whereas the exact test rejected HWE for only 33 markers. At the more stringent α=0.001 significance level, the χ2 test rejected HWE for 28 markers (rejection for 3 markers is expected by chance), whereas the exact PHWE statistic rejected HWE for only 5 markers. Although we focus on testing the agreement of observed genotypes with HWE proportions, computationally efficient exact tests can be constructed for any desired genotype proportions. In brief, let the expected proportion of heterozygotes be pAB and the two homozygote proportions be pAA and pBB. For example, in a population with inbreeding coefficient f, we might expect the proportion of heterozygotes to be 2(1-f)pApB. Define the quantity θ=p2AB / pAApBB so that θ=4 when HWE holds. Then, the probability of observing nAB heterozygotes is P(NAB=nAB|N,nA)=ΘnAB/2N!nAA!nAB!nBB!×1C ,where C=∑nAB*ΘnAB*/2N!nAA*!nAB*!nBB*!(Wellek Wellek, 2004Wellek S Tests for establishing compatibility of an observed genotype distribution with Hardy-Weinberg equilibrium in the case of a biallelic locus.Biometrics. 2004; 60: 694-703Crossref PubMed Scopus (41) Google Scholar). It is simple to verify that the recurrence relationships given in equation (2) can be extended to this setting by replacing the number 4 with the quantity θ in each expression. The exact test statistics for HWE described here are accurate for a variety of allele frequencies and can be computed in an inexpensive manner. We recommend that they be used instead of the standard χ2 test statistic in all situations. For large data sets, rather than fixing an arbitrary threshold for rejecting HWE, we suggest that methods based on the false-discovery rate (Benjamini and Hochberg Benjamini and Hochberg, 1995Benjamini Y Hochberg Y Controlling the false discovery rate: a practical and powerful approach to multiple testing.J R Stat Soc Ser B. 1995; 57: 289-300Google Scholar) be used to identify a subset of markers whose genotypes do not conform to the expected equilibrium distribution. The PHWE test statistic described here is implemented in the Pedstats software package (see Pedstats Web site), which generates summaries and checks the integrity of genetic data. In addition, code for calculating Plow, Phigh, and PHWE in C/C++, R, and Fortran is available from the authors’ Web site. With appropriate citation, our code is freely available for use and can be incorporated into other programs. The HapMap Project genotype data are freely available at the HapMap Web site. We gratefully acknowledge grant support from the National Human Genome Research Institute and the National Eye Institute. The manuscript was improved by helpful comments from reviewers.
0
Citation1,357
0
Save
0

Comparative analyses of multi-species sequences from targeted genomic regions

John Thomas et al.Aug 1, 2003
The systematic comparison of genomic sequences from different organisms represents a central focus of contemporary genome analysis. Comparative analyses of vertebrate sequences can identify coding1,2,3,4,5,6 and conserved non-coding4,6,7 regions, including regulatory elements8,9,10, and provide insight into the forces that have rendered modern-day genomes6. As a complement to whole-genome sequencing efforts3,5,6, we are sequencing and comparing targeted genomic regions in multiple, evolutionarily diverse vertebrates. Here we report the generation and analysis of over 12 megabases (Mb) of sequence from 12 species, all derived from the genomic region orthologous to a segment of about 1.8 Mb on human chromosome 7 containing ten genes, including the gene mutated in cystic fibrosis. These sequences show conservation reflecting both functional constraints and the neutral mutational events that shaped this genomic region. In particular, we identify substantial numbers of conserved non-coding segments beyond those previously identified experimentally, most of which are not detectable by pair-wise sequence comparisons alone. Analysis of transposable element insertions highlights the variation in genome dynamics among these species and confirms the placement of rodents as a sister group to the primates.
0
Citation636
0
Save
0

A Common Genetic Variant in the Neurexin Superfamily Member CNTNAP2 Increases Familial Risk of Autism

Dan Arking et al.Jan 1, 2008
Autism is a childhood neuropsychiatric disorder that, despite exhibiting high heritability, has largely eluded efforts to identify specific genetic variants underlying its etiology. We performed a two-stage genetic study in which genome-wide linkage and family-based association mapping was followed up by association and replication studies in an independent sample. We identified a common polymorphism in contactin-associated protein-like 2 (CNTNAP2), a member of the neurexin superfamily, that is significantly associated with autism susceptibility. Importantly, the genetic variant displays a parent-of-origin and gender effect recapitulating the inheritance of autism. Autism is a childhood neuropsychiatric disorder that, despite exhibiting high heritability, has largely eluded efforts to identify specific genetic variants underlying its etiology. We performed a two-stage genetic study in which genome-wide linkage and family-based association mapping was followed up by association and replication studies in an independent sample. We identified a common polymorphism in contactin-associated protein-like 2 (CNTNAP2), a member of the neurexin superfamily, that is significantly associated with autism susceptibility. Importantly, the genetic variant displays a parent-of-origin and gender effect recapitulating the inheritance of autism. Autistic disorder (MIM 290850), first described by Kanner in 1943,1Kanner L. Autistic disturbances of affective contact.Nervous Child. 1943; 2: 217-250Google Scholar is a pervasive developmental disorder characterized by a triad of marked features: impaired social interaction, impaired language development, and restricted and repetitive behavior and interests. A diagnosis of autism can typically be made by 4 years of age. The prevalence is approximately 20 per 10,000 for autistic disorder and 60 per 10,000 individuals for all autism spectrum disorders, with males being 4 times as likely, as compared to females, to be affected.2Chakrabarti S. Fombonne E. Pervasive developmental disorders in preschool children: confirmation of high prevalence.Am. J. Psychiatry. 2005; 162: 1133-1141Crossref PubMed Scopus (527) Google Scholar There is no doubt that autism presents a significant disease burden. Compelling evidence for a genetic basis for autism has been provided by twin studies, demonstrating a significantly higher concordance rate for monozygous versus dizygous twins, with an overall heritability of 80%–90%.3Folstein S.E. Rosen-Sheidley B. Genetics of autism: complex aetiology for a heterogeneous disorder.Nat. Rev. Genet. 2001; 2: 943-955Crossref PubMed Scopus (623) Google Scholar Consequently, it is expected that appropriate genomic screens can identify susceptibility genes given the major genetic component to familiality. With the availability of new genotyping technologies that can survey the genome at far higher resolution than before and large family collections with sufficient samples for both discovery and validation, we initiated a two-stage genome-wide study of autism that is not limited by our current understanding of autism pathophysiology. For stage I, we selected 72 multiplex families (68 with 2 affected children and 4 with 3 affected children) comprising 148 affected offspring and 292 individuals. We attempted to reduce phenotypic heterogeneity and increase the genetic contribution by requiring all affected individuals to be positive for autism on both ADI-R and ADOS instruments4Risi S. Lord C. Gotham K. Corsello C. Chrysler C. Szatmari P. Cook Jr., E.H. Leventhal B.L. Pickles A. Combining information from multiple sources in the diagnosis of autism spectrum disorders.J. Am. Acad. Child Adolesc. Psychiatry. 2006; 45: 1094-1103Abstract Full Text Full Text PDF PubMed Scopus (385) Google Scholar and to have onset <36 months. This sampling was in contrast to accepting only an ADI-R classification of autism or accepting the broader ADOS classification of autism spectrum disorder. No previously reported genetic study of autism has had similarly strict phenotypic inclusion criteria and equivalent sample size. All samples were obtained from the National Institute of Mental Health (NIMH) Autism Genetics Initiative. We genotyped all samples by using Affymetrix 500K arrays with genotypes inferred via the Affymetrix BRLMM genotyping algorithm at the default settings. We used relatively stringent quality control cut-offs for including SNPs in our analyses, because even moderate missing data or error rates increase false-positive linkage and family-based association tests such as the transmission disequilibrium test (TDT).5Mitchell A.A. Cutler D.J. Chakravarti A. Undetected genotyping errors cause apparent overtransmission of common alleles in the transmission/disequilibrium test.Am. J. Hum. Genet. 2003; 72: 598-610Abstract Full Text Full Text PDF PubMed Scopus (138) Google Scholar Specifically, SNPs with >10% missing data, >1% Mendelian error, and lack of fit to Hardy-Weinberg proportions (p < 0.001) were excluded from analysis, leaving 72% (336,121 of 468,411) of the data on autosomal SNPs for further analysis. One family was excluded because of Mendelian errors arising from maternal incompatibility, and one child was excluded because he was incompatible with both parents, resulting in 78 sib-pairs and 145 parent/child trios that we included in the analyses. Genome-wide association analysis with the TDT was performed for both single-SNP and haplotypes with EATDT,6Lin S. Chakravarti A. Cutler D.J. Exhaustive allelic transmission disequilibrium tests as a new approach to genome-wide association studies.Nat. Genet. 2004; 36: 1181-1188Crossref PubMed Scopus (132) Google Scholar and no genome-wide significant SNPs or haplotypes were identified. However, under a scenario in which multiple unlinked variants within a locus contribute to autism susceptibility, as opposed to a single variant of large effect, the incorporation of traditional linkage data can be of great benefit. Indeed, genome-wide linkage analysis by MERLIN7Abecasis G.R. Cherny S.S. Cookson W.O. Cardon L.R. Merlin—rapid analysis of dense genetic maps using sparse gene flow trees.Nat. Genet. 2002; 30: 97-101Crossref PubMed Scopus (2696) Google Scholar revealed two loci with LOD scores above 2: one at chromosome 7q35 (maximum LOD score 3.4 at 151.4–154.4 cM; Figure 1A) and the second at chromosome 10p13–14 (maximum LOD score 2.9 at 26.6–34.5 cM). The peak at 7q35 is genome-wide significant and is a novel finding for strictly defined autism, though it is in the same region that has been previously identified as a possible language quantitative trait locus (QTL) in autism families.8Alarcon M. Yonan A.L. Gilliam T.C. Cantor R.M. Geschwind D.H. Quantitative genome scan and ordered-subsets analysis of autism endophenotypes support language QTLs.Mol. Psychiatry. 2005; 10: 747-757Crossref PubMed Scopus (105) Google Scholar TDT in the 1-LOD genetic interval under the chromosome 7q35 linkage peak revealed a single SNP, rs7794745, with significant association with autism (p < 2.14 × 10−5) (Figure 1B), even after correcting for the number of SNPs tested under the linkage peak by permutation (p < 0.006). rs7794745 had data completeness of 99.7%, no observed Mendelian errors, and was in Hardy-Weinberg equilibrium (p = 0.98). These genotypes were then independently validated by TaqMan assays. The T allele at SNP rs7794745 is overtransmitted with a transmission frequency of τ = 0.68. This SNP is a common polymorphism with minor allele frequency of 0.36 and resides in the intron between exons 2 and 3 of the CNTNAP2 gene (Figure 2). CNTNAP2 (MIM 604569), or contactin-associated protein-like 2, is a large gene spanning 2.5 Mb and encodes a member of the neurexin family9Poliak S. Gollan L. Martinez R. Custer A. Einheber S. Salzer J.L. Trimmer J.S. Shrager P. Peles E. Caspr2, a new member of the neurexin superfamily, is localized at the juxtaparanodes of myelinated axons and associates with K+ channels.Neuron. 1999; 24: 1037-1047Abstract Full Text Full Text PDF PubMed Scopus (377) Google Scholar that are known to mediate cell-cell interactions in the nervous system. CNTNAP2 protein is localized at the juxtaparanodes of myelinated axons and may be involved in axon differentiation.10Poliak S. Salomon D. Elhanany H. Sabanay H. Kiernan B. Pevny L. Stewart C.L. Xu X. Chiu S.Y. Shrager P. et al.Juxtaparanodal clustering of Shaker-like K+ channels in myelinated axons depends on Caspr2 and TAG-1.J. Cell Biol. 2003; 162: 1149-1160Crossref PubMed Scopus (375) Google Scholar Consequently, it is an excellent candidate gene for autism.Figure 2Fine Mapping of CNTNAP2Show full captionThe top panel shows the results of association tests in 1440 trios with significance for each SNP shown as the negative base-10 logarithm of the p value on the y axis plotted against genomic position in megabase (Mb) on the x axis. The CNTNAP2 exons 2 and 3 are shown in orange. The bottom panel shows all pairwise associations between 11 SNPs at the CNTNAP2 locus. The value within each diamond is the linkage disequilibrium statistic D′. Diamonds without a number correspond to D′ = 1; shading represents the magnitude and significance of pair-wise linkage disequilibrium (LD) with a red-to-white gradient reflecting higher to lower LD values (see Haploview online for further details).View Large Image Figure ViewerDownload Hi-res image Download (PPT) The top panel shows the results of association tests in 1440 trios with significance for each SNP shown as the negative base-10 logarithm of the p value on the y axis plotted against genomic position in megabase (Mb) on the x axis. The CNTNAP2 exons 2 and 3 are shown in orange. The bottom panel shows all pairwise associations between 11 SNPs at the CNTNAP2 locus. The value within each diamond is the linkage disequilibrium statistic D′. Diamonds without a number correspond to D′ = 1; shading represents the magnitude and significance of pair-wise linkage disequilibrium (LD) with a red-to-white gradient reflecting higher to lower LD values (see Haploview online for further details). To validate this initial finding, we genotyped an independent sample of 1295 parent-child trios from the NIMH Repository for rs7794745 and again found overtransmission of the T allele (p < 0.005). Genotyping was performed with TaqMan assays and we obtained 98.5% complete data with no observed Mendelian errors or deviation from Hardy-Weinberg equilibrium (p = 0.83). The minor allele frequency was 0.38, similar to that observed in stage I, but the genetic effect was smaller (τ = 0.54). It is important to note that our stage II samples used a broader definition of autism (ADI-R-positive without requiring ADOS classification of either autism or autism spectrum disorder) than in stage I, increasing phenotypic heterogeneity, and this may explain the reduced strength of the effect of rs7794745. However, when we examined 145 multiplex families (303 affected children) from stage II corresponding to the same selection criteria as stage I, the strength of the effect was no different than the remainder of the stage II samples (data not shown), suggesting that the strength of the effect seen in stage I likely reflects a "winner's curse" and is an overestimate of the true effect. Nevertheless, a significant overtransmission of the T allele is observed in two independent family-based samples, confirming that CNTNAP2 is an autism-susceptibility gene. Additional studies incorporating specific domains of autism may shed light on which specific autistic phenotypes are associated with variation in CNTNAP2, because heterogeneity in the genetic effect is observed. To further characterize the genetic properties of rs7794745, we examined transmission stratified by parental gender and by offspring gender given the marked sex difference in the incidence of autism. As shown in Table 1, the overall transmission frequency (τ = 0.55: p < 7.35 × 10−5) is significantly greater from mothers (τ = 0.61) than from fathers (τ = 0.53) in the combined sample, and this parent-of-origin difference is significant (p < 0.001). Interestingly, this genetic effect and difference is largely observed in affected males than females, although the rarity of affected females implies that the power to detect the observed difference in females is low. To estimate the genetic effect of the T allele, we focused on stage II results, because they are unlikely to reflect any winner's curse and have assumed a normally distributed, but unobservable, liability scale with a threshold determining affectation status.11Falconer D.S. The inheritance of liability to certain diseases, estimated from the incidence among relatives.Ann. Hum. Genet. 1965; 29: 51-76Crossref Scopus (1021) Google Scholar Penetrances were then estimated under Morton and Mclean's mixed model of inheritance,12Morton N.E. McLean C.J. Analysis of family resemblance. III. Complex segregation of quantitative traits.Am. J. Hum. Genet. 1974; 26: 318-330PubMed Google Scholar assuming a prevalence of 0.0032 in males and 0.0008 in females (overall prevalence of 1:500, males 4 times as likely to be affected), and the relative risk stratified by rs7794745 genotype and sex is shown in Figure 3. Our data are compatible with the hypothesis that the common variant we detect is a disease variant only when inherited through the female germline. The cause of this biased transmission is unclear, because a null paternal allele of CNTNAP2 is associated with obsessive-compulsive disorder,13Verkerk A.J. Mathews C.A. Joosse M. Eussen B.H. Heutink P. Oostra B.A. CNTNAP2 is disrupted in a family with Gilles de la Tourette syndrome and obsessive compulsive disorder.Genomics. 2003; 82: 1-9Crossref PubMed Scopus (186) Google Scholar suggesting that the paternal allele is normally expressed. Our finding of a parent-of-origin bias in the genetic effect is intriguing and needs to be replicated by other studies. Nevertheless, differential genetic effects from the two parents are not unexpected in complex diseases with a sex difference.14Emison E.S. McCallion A.S. Kashuk C.S. Bush R.T. Grice E. Lin S. Portnoy M.E. Cutler D.J. Green E.D. Chakravarti A. A common sex-dependent mutation in a RET enhancer underlies Hirschsprung disease risk.Nature. 2005; 434: 857-863Crossref PubMed Scopus (368) Google ScholarTable 1Transmission of the CNTNAP2 Genetic Polymorphism rs7794745 to Affected ChildrennA AlleleT AlleleττMτPpp∗Stage I13744930.680.750.672.14 × 10−52.58 × 10−5Stage II12195616580.540.590.510.0050.003Combined13566057510.550.610.537.35 × 10−50.001 Males10774686090.570.640.531.74 × 10−53.75 × 10−4 Females2791371420.510.510.510.770.93n is the total number of transmissions; τ is the transmission frequency of the T allele; τM and τP refer to maternal and paternal transmission frequencies, respectively; and p and p∗ refer to the overall significance of τ and the significance of the parent-of-origin effect, respectively. Open table in a new tab n is the total number of transmissions; τ is the transmission frequency of the T allele; τM and τP refer to maternal and paternal transmission frequencies, respectively; and p and p∗ refer to the overall significance of τ and the significance of the parent-of-origin effect, respectively. In an attempt to fine-map the functional variant in CNTNAP2 contributing to the observed association with autism, we genotyped 10 additional SNPs flanking rs7794745 in the combined stage I and II samples. These SNPs were chosen to tag the LD block containing rs7794745 based on data from the HapMap CEU population. No single SNP showed greater significance than rs7794745 (Figure 2), and no haplotypes showed a marked increased in significance (data not shown), suggesting that either rs7794745, or any other variant highly correlated with it, may be candidates or surrogates for the functional variant. Our findings are particularly intriguing in light of the recent study by Strauss and colleagues who linked recessive loss-of-function alleles of CNTNAP2 with cortical dysplasia-focal epilepsy (CDFE [MIM 610042]); 67% of the children with CDFE are also diagnosed with autism.15Strauss K.A. Puffenberger E.G. Huentelman M.J. Gottlieb S. Dobrin S.E. Parod J.M. Stephan D.A. Morton D.H. Recessive symptomatic focal epilepsy and mutant contactin-associated protein-like 2.N. Engl. J. Med. 2006; 354: 1370-1377Crossref PubMed Scopus (454) Google ScholarCNTNAP2 is a very large gene spanning more than 2.5 Mb and maps to a region of chromosomal fragility.16Smith D.I. Zhu Y. McAvoy S. Kuhn R. Common fragile sites, extremely large genes, neural development and cancer.Cancer Lett. 2006; 232: 48-57Abstract Full Text Full Text PDF PubMed Scopus (150) Google Scholar Consequently, it is possible that additional variants in this gene, including genomic copy number alterations, could also contribute to autism. Indeed, two additional genetic studies in this issue of AJHG, one identifying an association with a rare nonsynonymous variant17Bakkaloglu B. O'Roak B.J. Louvi A. Gupta A.R. Abelson J.F. Morgan T.M. Chawarska K. Klin A. Ercan-Sencicek A.G. Stillman A.A. et al.Molecular cytogenetic analysis and resequencing of Contactin Associated Protein-Like 2 in autism spectrum disorders.Am. J. Hum. Genet. 2007; 82 (this issue): 165-173Abstract Full Text Full Text PDF Scopus (393) Google Scholar and one demonstrating an association with common variants and the language component of autism,18Alarcón M. Abrahams B.S. Stone J.L. Duvall J.A. Perederiy J.V. Bomar J.M. Sebat J. Wigler M. Martin C.L. Ledbetter D.H. et al.Linkage, association, and gene expression analyses identify CNTNAP2 as an autism-susceptibility gene.Am. J. Hum. Genet. 2007; 82 (this issue): 150-159Abstract Full Text Full Text PDF Scopus (579) Google Scholar also point to CNTNAP2 as an autism-susceptibility gene. Given that Alarcón and colleagues also identified a common noncoding variant in CNTNAP2,18Alarcón M. Abrahams B.S. Stone J.L. Duvall J.A. Perederiy J.V. Bomar J.M. Sebat J. Wigler M. Martin C.L. Ledbetter D.H. et al.Linkage, association, and gene expression analyses identify CNTNAP2 as an autism-susceptibility gene.Am. J. Hum. Genet. 2007; 82 (this issue): 150-159Abstract Full Text Full Text PDF Scopus (579) Google Scholar and there is some overlap in samples, it is important to highlight the independent yet complementary nature of our two findings. First, different phenotypes were studied, with Alarcón and colleagues focusing on a quantitative trait, "age at first word," whereas we used a qualitative strict autism diagnosis. Second, although 70/72 families from our stage I sample were included in the Alarcón study, 2/3 of our stage II samples were nonoverlapping. Even after exclusion of all overlapping samples from our stage II data, rs779475 was still significantly associated with autism (p < 0.05), demonstrating the independence of this association. Third, and most importantly, the variants identified in both studies are more than 1 Mb apart and show no evidence of linkage disequilibrium, indicating that despite being in the same gene and exhibiting a male-specific bias, these are truly independent loci providing independent evidence for association of common noncoding variants in CNTNAP2 with autism susceptibility. Indeed, the combined evidence from all three studies strongly suggests the existence of alleleic heterogeneity that needs to be addressed fully by genotyping all samples with the same sets of markers and sequencing all coding exons. In conclusion, we identified a common variant in CNTNAP2 that is associated with increased risk for autism in two independent family-based samples and exhibits a parent-of-origin bias. Furthermore, given the strength of our initial linkage signal, it is likely that additional genetic variants in this gene that contribute to autism susceptibility remain to be discovered. We thank all of the families who have participated in and contributed to the public resource that we have used in these studies. We thank Drs. Andrew West and Dan Geschwind for discussions of autism genetics and the role of CNTNAP2. This research was funded by grants from the National Institute of Mental Health (MH60007). The collection of data and biomaterials in one project that participated in the National Institute of Mental Health (NIMH) Autism Genetics Initiative has been supported by National Institutes of Health grants MH52708, MH39437, MH00219, and MH00980; National Health Medical Research Council grant 0034328; and by grants from the Scottish Rite, the Spunk Fund, Inc., the Rebecca and Solomon Baker Fund, the APEX Foundation, the National Alliance for Research in Schizophrenia and Affective Disorders (NARSAD), the endowment fund of the Nancy Pritzker Laboratory (Stanford); and by gifts from the Autism Society of America, the Janet M. Grace Pervasive Developmental Disorders Fund, and families and friends of individuals with autism. The principal investigators and coinvestigators were: Neil Risch, Ph.D., Richard M. Myers, Ph.D., Donna Spiker, Ph.D., Linda J. Lotspeich, M.D., Joachim Hallmayer, M.D., Helena C. Kraemer, Ph.D., Roland D. Ciaranello, M.D., and Luca L. Cavalli-Sforza, M.D. (Stanford University, Stanford, CA); and William M. McMahon, M.D., and P. Brent Petersen (University of Utah, Salt Lake City, UT). The Stanford team is indebted to the parent groups and clinician colleagues who referred families. The Stanford team extends our gratitude to the families with individuals with autism who were our partners in this research. The collection data and biomaterials come from the Autism Genetic Resource Exchange (AGRE) collection. This program has been supported by a National Institutes of Health grant MH64547 and the Cure Autism Now Foundation. The principal investigator is Daniel H. Geschwind, M.D., Ph.D. (UCLA). The coprincipal investigators include Stanley F. Nelson, M.D., and Rita Cantor, Ph.D. (UCLA), Christa Lese Martin, Ph.D. (U. Chicago), and T. Conrad Gilliam, Ph.D. (Columbia). Coinvestigators include Maricela Alarcon, Ph.D., Kenneth Lange, Ph.D., and Sarah J. Spence, M.D., Ph.D. (UCLA); David H. Ledbetter, Ph.D. (Emory); and Hank Juo, M.D., Ph.D. (Columbia). Scientific oversight of the AGRE program is provided by the AGRE steering committee (chair, Daniel H. Geschwind, M.D., Ph.D; members: W. Ted Brown, M.D., Ph.D., Maja Bucan, Ph.D., Joseph Buxbaum, Ph.D., T. Conrad Gilliam, Ph.D., David Greenberg, Ph.D., David Ledbetter, Ph.D., Bruce Miller, M.D., Stanley F. Nelson, M.D., Jonathan Pevsner, Ph.D., Carol Sprouse, Ed.D., Gerard Schellenberg, Ph.D., and Rudolph Tanzi, Ph.D.). The collection of data and biomaterials in another project has been supported by a supplement to National Institutes of Health grant MH61009 ("Molecular Genetics of 15q11–q13 Defects in Autism") and by Development Funds from the Vanderbilt Centers for Human Genetics Research and Kennedy Center for Research on Human Development. The principal investigator was James S. Sutcliffe, Ph.D. (Vanderbilt University, Nashville, TN). The coinvestigator was Jonathan L. Haines, Ph.D., and the Clinical and Phenotypic Coordinator for this project was Genea Crocket, M.S. The collection of data and biomaterials in another project has been supported by National Institutes of Health grant MH55135 ("Collaborative Linkage Study of Autism"). The principal investigator was Susan E. Folstein, M.D. (Tufts University/New England Medical Center, Boston, MA), and her key Clinical and Phenotypic Coordinators were Brian Winklosky and Beth Rosen-Sheidley, M.S., C.G.C. Coinvestigators included James S. Sutcliffe, Ph.D. and Jonathan L. Haines, Ph.D. (Vanderbilt University, Nashville, TN). The collection of data and biomaterials in another project has been supported by National Institutes of Health grant MH55284. The principal investigator and coinvestigators were Joseph Piven, M.D. (University of North Carolina, Chapel Hill); Val Sheffield, M.D., Ph.D., Veronica Vieland, Ph.D., and Thomas Wassink, M.D. (University of Iowa, Iowa City). The URLs for data presented herein are as follows:Haploview, http://www.broad.mit.edu/mpg/haploviewOnline Mendelian Inheritance in Man (OMIM), http://www.ncbi.nlm.nih.gov/Omim
0
Citation579
0
Save
0

A Comparison of Phasing Algorithms for Trios and Unrelated Individuals

Jonathan Marchini et al.Feb 3, 2006
Knowledge of haplotype phase is valuable for many analysis methods in the study of disease, population, and evolutionary genetics. Considerable research effort has been devoted to the development of statistical and computational methods that infer haplotype phase from genotype data. Although a substantial number of such methods have been developed, they have focused principally on inference from unrelated individuals, and comparisons between methods have been rather limited. Here, we describe the extension of five leading algorithms for phase inference for handling father-mother-child trios. We performed a comprehensive assessment of the methods applied to both trios and to unrelated individuals, with a focus on genomic-scale problems, using both simulated data and data from the HapMap project. The most accurate algorithm was PHASE (v2.1). For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap Centre d'Etude du Polymorphisme Humain (CEPH) trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this work had comparable but slightly worse error rates. The error rates for trios are similar to the levels of genotyping error and missing data expected. We thus conclude that all the methods considered will provide highly accurate estimates of haplotypes when applied to trio data sets. Running times differ substantially between methods. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs and concluded that all methods estimated r2 well when the estimated value was ⩾0.8. Knowledge of haplotype phase is valuable for many analysis methods in the study of disease, population, and evolutionary genetics. Considerable research effort has been devoted to the development of statistical and computational methods that infer haplotype phase from genotype data. Although a substantial number of such methods have been developed, they have focused principally on inference from unrelated individuals, and comparisons between methods have been rather limited. Here, we describe the extension of five leading algorithms for phase inference for handling father-mother-child trios. We performed a comprehensive assessment of the methods applied to both trios and to unrelated individuals, with a focus on genomic-scale problems, using both simulated data and data from the HapMap project. The most accurate algorithm was PHASE (v2.1). For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap Centre d'Etude du Polymorphisme Humain (CEPH) trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this work had comparable but slightly worse error rates. The error rates for trios are similar to the levels of genotyping error and missing data expected. We thus conclude that all the methods considered will provide highly accurate estimates of haplotypes when applied to trio data sets. Running times differ substantially between methods. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs and concluded that all methods estimated r2 well when the estimated value was ⩾0.8. The size and scale of genetic-variation data sets for both disease and population studies have increased enormously. A large number of SNPs have been identified (current databases show 9 million of the posited 10–13 million common SNPs in the human genome [International HapMap Consortium International HapMap Consortium, 2005International HapMap Consortium A haplotype map of the human genome.Nature. 2005; 437: 1299-1320Crossref PubMed Scopus (4545) Google Scholar]); genotyping technology has advanced at a dramatic pace, so that 500,000 SNP assays can be undertaken in a single experiment; and patterns of correlations among SNPs (linkage disequilibrium [LD]) have been catalogued in multiple populations, yielding efficient marker panels for genomewide investigations (see the International HapMap Project Web site). These genetic advances coincide with recognition of the need for large case-control samples to robustly identify genetic variants for complex traits. As a result, genomewide association studies are now being undertaken, and much effort is being made to develop efficient statistical techniques for analyzing the resulting data, to uncover the location of disease genes. In addition, the advances allow much more detailed analysis of candidate genes identified by more traditional linkage-analysis methods. Many methods of mapping disease genes assume that haplotypes from case and control individuals are available in the region of interest. Such approaches have been successful in localizing many monogenic disorders (Lazzeroni Lazzeroni, 2001Lazzeroni L A chronology of fine-scale gene mapping by linkage disequilibrium.Stat Methods Med Res. 2001; 10: 57-76Crossref PubMed Scopus (15) Google Scholar), and there is increasing evidence, of both a practical and theoretical nature, that the use of haplotypes can be more powerful than individual markers in the search for more-complex traits (Puffenberger et al. Puffenberger et al., 1994Puffenberger E Kauffman E Bolk S Matise T Washington S Angrist M Weissenbach J Garver KL Mascari M Ladda R Slaugenhaupt SA Chakravarti A Identity-by-descent and association mapping of a recessive gene for Hirschsprung disease on human chromosome 13q22.Hum Mol Genet. 1994; 3: 1217-1225Crossref PubMed Scopus (200) Google Scholar; Akey et al. Akey et al., 2001Akey J Jin L Xiong M Haplotypes vs single marker linkage disequilibrium tests: what do we gain?.Eur J Hum Genet. 2001; 9: 291-300Crossref PubMed Scopus (351) Google Scholar; Hugot et al. Hugot et al., 2001Hugot JP Chamaillard M Zouali H Lesage S Cezard JP Belaiche J Almer S Tysk C O'Morain CA Gassull M Binder V Finkel Y Cortot A Modigliani R Laurent-Puig P Gower-Rousseau C Macry J Colombel JF Sahbatou M Thomas G Association of NOD2 leucine-rich repeat variants with susceptibility to Crohn's disease.Nature. 2001; 411: 599-603Crossref PubMed Scopus (4485) Google Scholar; Rioux et al. Rioux et al., 2001Rioux J Daly M Silverberg M Lindblad K Steinhart H Cohen Z Delmonte T et al.Genetic variation in the 5q31 cytokine gene cluster confers susceptibility to Crohn disease.Nat Genet. 2001; 29: 223-228Crossref PubMed Scopus (678) Google Scholar). Similarly, haplotypes are required for many population-genetics analyses, including some methods for inferring selection (Sabeti et al. Sabeti et al., 2002Sabeti PC Reich DE Higgins JM Levine HZ Richter DJ Schaffner SF Gabriel SB Platko JV Patterson NJ McDonald GJ Ackerman HC Campbell SJ Altshuler D Cooper R Kwiatkowski D Ward R Lander ES Detecting recent positive selection in the human genome from haplotype structure.Nature. 2002; 419: 832-837Crossref PubMed Scopus (1319) Google Scholar), and for studying recombination (Fearnhead and Donnelly Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar; Myers and Griffiths Myers and Griffiths, 2003Myers S Griffiths R Bounds on the minimum number of recombination events in a sample history.Genetics. 2003; 163: 375-394PubMed Google Scholar) and historical migration (Beerli and Felsenstein Beerli and Felsenstein, 2001Beerli P Felsenstein J Maximum likelihood estimation of a migration matrix and effective population sizes in n subpopulations by using a coalescent approach.Proc Natl Acad Sci USA. 2001; 98: 4563-4568Crossref PubMed Scopus (1333) Google Scholar; De Iorio and Griffiths De Iorio and Griffiths, 2004De Iorio M Griffiths R Importance sampling on coalescent histories. II. Subdivided population models.Adv Appl Probab. 2004; 36: 434-454Crossref Scopus (54) Google Scholar). It is possible to determine haplotypes by use of experimental techniques, but such approaches are considerably more expensive and time-consuming than modern high-throughput genotyping. The statistical determination of haplotype phase from genotype data is thus potentially very valuable if the estimation can be done accurately. This problem has received an increasing amount of attention over recent years, and several computational and statistical approaches have been developed in the literature (see Salem et al. [Salem et al., 2005Salem M Wessel J Schork J A comprehensive literature review of haplotyping software and methods for use with unrelated individuals.Hum Genomics. 2005; 2: 39-66Crossref PubMed Scopus (60) Google Scholar] for a recent literature review). Existing methods include parsimony approaches (Clark Clark, 1990Clark AG Inference of haplotypes from PCR-amplified samples of diploid populations.Mol Biol Evol. 1990; 7: 111-122PubMed Google Scholar; Gusfield Gusfield, 2000Gusfield D A practical algorithm for optimal inference of haplotypes from diploid populations.Proc Int Conf Intell Syst Mol Biol. 2000; 8: 183-189PubMed Google Scholar, Gusfield, 2001Gusfield D Inference of haplotypes from samples of diploid populations: complexity and algorithms.J Comput Biol. 2001; 8: 305-323Crossref PubMed Scopus (128) Google Scholar), maximum-likelihood methods (Excoffier and Slakin Excoffier and Slakin, 1995Excoffier L Slakin M Maximum likelihood estimation of molecular haplotype frequencies in a diploid population.Mol Biol Evol. 1995; 12: 921-927PubMed Google Scholar; Hawley and Kidd Hawley and Kidd, 1995Hawley M Kidd K HAPLO: a program using the EM algorithm to estimate the frequencies of multi-site haplotypes.J Hered. 1995; 86: 409-411PubMed Google Scholar; Long et al. Long et al., 1995Long J Williams R Urbanek M An E-M algorithm and testing strategy for multiple-locus haplotypes.Am J Hum Genet. 1995; 56: 799-810PubMed Google Scholar; Fallin and Schork Fallin and Schork, 2000Fallin D Schork NJ Accuracy of haplotype frequency estimation for biallelic loci, via the expectation-maximization algorithm for unphased diploid genotype data.Am J Hum Genet. 2000; 67: 947-959Abstract Full Text Full Text PDF PubMed Scopus (334) Google Scholar; Qin et al. Qin et al., 2002Qin ZS Niu T Liu JS Partition-ligation-expectation-maximization algorithm for haplotype inference with single-nucleotide polymorphisms.Am J Hum Genet. 2002; 71: 1242-1247Abstract Full Text Full Text PDF PubMed Scopus (422) Google Scholar), Bayesian approaches based on conjugate priors (Lin et al. Lin et al., 2002Lin S Cutler DJ Zwick ME Chakravarti A Haplotype inference in random population samples.Am J Hum Genet. 2002; 71: 1129-1137Abstract Full Text Full Text PDF PubMed Scopus (156) Google Scholar, Lin et al., 2004bLin S Chakravarti A Cutler D Haplotype and missing data inference in nuclear families.Genome Res. 2004; 14: 1624-1632Crossref PubMed Scopus (38) Google Scholar; Niu et al. Niu et al., 2002Niu T Qin ZS Xu X Liu JS Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms.Am J Hum Genet. 2002; 70: 157-169Abstract Full Text Full Text PDF PubMed Scopus (522) Google Scholar) and on priors from population genetics (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar; Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), and (im)perfect phylogeny approaches (Eskin et al. Eskin et al., 2003Eskin E Halperin E Karp R Efficient reconstruction of haplotype structure via perfect phylogeny.J Bioinform Comput Biol. 2003; 1: 1-20Crossref PubMed Scopus (83) Google Scholar; Gusfield Gusfield, 2003Gusfield D (2003) Haplotyping as perfect phylogeny: conceptual framework and efficient solutions. Paper presented at the Proceedings of the 6th Annual International Conference on Computational Biology, Washington, DCGoogle Scholar). Up to now, no comprehensive comparison of many of these approaches has been conducted. The forthcoming era of genomewide studies presents two new challenges to the endeavor of haplotype-phase inference. First, the size of data sets that experimenters will want to phase is about to increase dramatically, in terms of both numbers of loci and numbers of individuals. For example, we might expect data sets consisting of 500,000 SNPs genotyped in 2,000 individuals in some genomewide studies. Second, to date, most approaches have focused on inferring haplotypes from samples of unrelated individuals, but estimation of haplotypes from samples of related individuals is likely to become important. When inferring haplotypes within families, substantially more information is available than for samples of unrelated individuals. For example, consider the situation in which a father-mother-child trio has been genotyped at a given SNP locus. With no missing data, phase can be determined precisely, unless all three individuals are heterozygous at the locus in question. Of loci with a minor-allele frequency of 20%, for example, just 5.1% will be phase unknown in trios, but this rises to 32% in unrelated individuals. With missing data, other combinations of genotypes can also fail to uniquely determine phase. In this study, we describe the extension of several existing algorithms for dealing with trio data. We then describe a comprehensive evaluation of the performance of these algorithms for both trios and unrelated individuals. The evaluation uses both simulated and real data sets of a larger size (in terms of numbers of SNPs) than has been previously been considered. We draw the encouraging conclusion that all methods provide a very good level of accuracy on trio data sets. Overall, the PHASE (v2.1) algorithm provided the most accurate estimation on all the data sets considered. For this method, the percentages of genotypes whose phase was incorrectly inferred were 0.12%, 0.05%, and 0.16% for trios from simulated data, HapMap CEPH trios, and HapMap Yoruban trios, respectively, and 5.2% and 5.9% for unrelated individuals in simulated data and the HapMap CEPH data, respectively. The other methods considered in this study had comparable but slightly worse error rates. The error rates for trios are comparable to expected levels of genotyping error and missing data and highlight the level of accuracy that the best phasing algorithms can provide on a useful scale. We also observed substantial variation in the speed of the algorithms we considered. Although it is one of the slowest methods, PHASE (v2.1) was used to infer haplotypes for the 1 million–SNP HapMap data set (International HapMap Consortium International HapMap Consortium, 2005International HapMap Consortium A haplotype map of the human genome.Nature. 2005; 437: 1299-1320Crossref PubMed Scopus (4545) Google Scholar). In addition, the data sets used in this comparison will be made available, to form a benchmark set to aid the future development and assessment of phasing algorithms. Finally, we evaluated methods of estimating the value of r2 between a pair of SNPs. The most accurate method for estimating r2 was to first use PHASE to infer the haplotypes across the region and then to estimate r2 between the pair of SNPs as if the haplotypes were known. All methods estimated r2 well when the estimated value was ⩾0.8. In this section, we describe the algorithms implemented in this study. Since most of these algorithms have been described elsewhere, we give only a brief overview of each method, together with some details concerning how each method was extended to cope with father-mother-child trios. Following a description of our notation and the assumptions made by each method, there is one subsection for each new method. Individuals who contributed to the development of the trio version of each method are shown in parentheses as part of the subsection title. In each subsection, expressed opinions are those of the contributing authors of that subsection and not of the combined set of authors as a group. We conclude with a concise overview that relates the different methods according to the assumptions they make about the most-plausible haplotype reconstructions. We consider m linked SNPs on a chromosomal region of n trio families, where each trio consists of a mother, a father, and one offspring. We use the following notation throughout. Let G=(G1,…,Gn) denote all the observed genotypes, in which Gi=(GMi,GFi,GCi) denotes the ith trio. GFi, GMi, and GCii denote the observed genotype data for the father, mother, and child, respectively, and each are vectors of length m—that is, GFi=(GFi1,…,GFim), with GFik=0, 1, or 2 representing homozygous wild-type, heterozygous, or homozygous mutant genotypes, respectively, at SNP marker k. Similarly, let H=(H1,H2,…,Hn) denote the unobserved haplotype configurations compatible with G, in which Hi=(HMi,HFi), where HMi=(HMi1,HMi2) and HFi=(HFi1,HFi2) denote the haplotype pairs of the mother and father, respectively. We use the notation HFi1⊕HFi2=GFi to indicate that the two haplotypes are compatible with the genotype GFi. Also, we let Θ=(θ1,…,θs) be a vector of unknown population haplotype frequencies of the s possible haplotypes that are consistent with the sample. All of the following algorithms make the assumption that all the parents are sampled independently from the population and that no recombination occurs in the transmission of haplotypes from the parents to children. The PHASE algorithm (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar; Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar) is a Bayesian approach to haplotype inference that uses ideas from population genetics—in particular, coalescent-based models—to improve accuracy of haplotype estimates for unrelated individuals sampled from a population. The algorithm attempts to capture the fact that, over short genomic regions, sampled chromosomes tend to cluster together into groups of similar haplotypes. With the explicit incorporation of recombination in the most recent version of the algorithm (Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), this clustering of haplotypes may change as one moves along a chromosome. The method uses a flexible model for the decay of LD with distance that can handle both “blocklike” and “nonblocklike” patterns of LD. We extended the algorithm described by Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar) to allow for data from trios (two parents and one offspring). We treat the parents as a random sample from the population and aim to estimate their haplotypes, taking into account both the genotypes of the parents and the genotype of the child. More specifically, we aim to sample from the distribution Pr(HF, HM|GF, GM, GC) (compared with sampling from Pr(HF, HM|GF, GM), as shown in the work by Stephens and Scheet [Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar]). To do this, we use a Markov chain–Monte Carlo (MCMC) algorithm very similar to that of Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), but, instead of updating one individual at a time, we update pairs of parents simultaneously. Note that the observed genotypes may include missing data at some loci, in which case the inferred haplotype pairs will include estimates of the unobserved alleles. When updating the parents in trio i, this involves computing, for each possible pair of haplotype combinations (HFi={hf, hf′};HMi={hm, hm′}) in the two parents, the probability ⪻(HFi={hf,hf′},HMi={hm,hm′}|GFi,GMi,GCi,HF-i,HM-i,ρ)∝αiβiγi , where αi=(2-δhfhf′)π(hf|HF-i,HM-i,ρ,μ)π(hf′|HF-i,HM-i,ρ,μ) ,βi=(2-δhmhm′)π(hm|HF-i,HM-i,ρ,μ)π(hm′|HF-i,HM-i,ρ,μ) , and γi=⪻[GCi|HFi=(hf,hf′),HMi=(hm,hm′)] , and where δhh′ is 1 if h=h′ and is 0 otherwise; HF-i and HM-i are the sets HF and HM with HFi and HMi removed, respectively; π is a modification of the conditional distribution of Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar); ρ is an estimate of the population-scaled recombination rate, which is allowed to vary along the region being considered; and μ is a parameter that controls the mutation rate (see Stephens and Scheet [Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar] for more details). The probability Pr[GCi|HFi=(hf, hf′),HMi=(hm, hm′)] is calculated assuming no recombination from parents to offspring and is therefore trivial to compute. We also assume no genotyping error. As a result, this probability is typically equal to 0 for a large number of parental diplotype configurations consistent with the parental genotypes, so the children's genotype data substantially reduces the number of diplotype configurations that must be considered. As in the work of Stephens and Scheet (Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar), we use Partition Ligation (Niu et al. Niu et al., 2002Niu T Qin ZS Xu X Liu JS Bayesian haplotype inference for multiple linked single-nucleotide polymorphisms.Am J Hum Genet. 2002; 70: 157-169Abstract Full Text Full Text PDF PubMed Scopus (522) Google Scholar) to further reduce the number of diplotype configurations considered when estimating haplotypes over many markers. This approach is not the most efficient, but it involved few changes to the existing algorithm. The model underlying wphase was developed on the basis of ideas proposed by Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar) that introduced a simple approximate model for haplotypes sampled from a population. The algorithm differs from the PHASE algorithm above in three ways: 1.PHASE uses MCMC to sample configurations, whereas wphase performs a discrete hill climb. wphase computes a pseudolikelihood function or score for a putative haplotype reconstruction, H, of the form S(H)=Πi=1nαiβiγi , where αi, βi, and γi are defined as in the description of PHASE above. The method attempts to maximize the score by iteratively applying a set of “moves” that make small changes to the reconstruction.2.PHASE and wphase differ in the precise form of the conditional distributions, π, used to calculate the factors αi and βi. As explained above, PHASE uses a modification of the conditional distribution of Fearnhead and Donnelly (Fearnhead and Donnelly, 2001Fearnhead P Donnelly P Estimating recombination rates from population genetic data.Genetics. 2001; 159: 1299-1318PubMed Google Scholar), whereas wphase uses the conditional distributions introduced by Li and Stephens (Li and Stephens, 2003Li N Stephens M Modeling linkage disequilibrium and identifying recombination hotspots using single-nucleotide polymorphism data.Genetics. 2003; 165: 2213-2233PubMed Google Scholar).3.PHASE internally re-estimates a variable recombination rate across the region, whereas wphase uses an externally input constant recombination rate across the region. Specifically, wphase uses ρ=0.05 and θ=0.02.In our opinion, the second and third differences are more important than the first. Although use of an MCMC offers some theoretical advantages, particularly the possibility of inference with use of multiple imputation of haplotypes, this is rarely used in practice (see David Clayton's SNPHAP algorithm for a notable exception [Clayton Web site]). If only one haplotype reconstruction is to be used (e.g., in HapMap), then maximizing a pseudolikelihood function is likely to produce a good solution. Testing in simulation has shown that wphase nearly always returns a score that is as good as or better than the value of the true haplotypes. This suggests that the quality of the reconstruction can be improved only by refining the score, not by altering the details of the hill climb. The difference in the form of the conditional distributions described above may lead to improved reconstructions (Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar). In the special case of the resolution of singleton SNPs that occur in the same individual, the conditional distributions used with PHASE will result in a more plausible solution than those used with wphase. The effect this difference has for nonsingleton SNPs remains unclear. In addition, internally estimating a variable recombination rate is important, and its absence is a major weakness of the current version of wphase. True recombination rates vary greatly across the genome (McVean et al. McVean et al., 2004McVean G Myers S Hunt S Deloukas P Bentley D Donnelly P The fine-scale structure of recombination rate variation in the human genome.Science. 2004; 304: 581-584Crossref PubMed Scopus (700) Google Scholar; Myers et al. Myers et al., 2005Myers S Bottolo L Freeman C McVean G Donnelly P A fine-scale map of recombination rates and hotspots across the human genome.Science. 2005; 310: 321-324Crossref PubMed Scopus (796) Google Scholar) and between various simulated regions in our test set. Initial comparisons with PHASE version 1 (Stephens et al. Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar) at the time of development showed wphase to have very similar performance but not enough improvement to make it important to publish quickly. Since then, wphase has hardly improved, the main change being support for trio data, but PHASE underwent a major revision, with significant performance enhancements (Stephens and Donnelly Stephens and Donnelly, 2003Stephens M Donnelly P A comparison of Bayesian methods for haplotype reconstruction from population genotype data.Am J Hum Genet. 2003; 73: 1162-1169Abstract Full Text Full Text PDF PubMed Scopus (2940) Google Scholar; Stephens and Scheet Stephens and Scheet, 2005Stephens M Scheet P Accounting for decay of linkage disequilibrium in haplotype inference and missing-data imputation.Am J Hum Genet. 2005; 76: 449-462Abstract Full Text Full Text PDF PubMed Scopus (1068) Google Scholar). Haplotype and missing data inference was performed with HAP2, the details of which have been published elsewhere (Lin et al. Lin et al., 2004bLin S Chakravarti A Cutler D Haplotype and missing data inference in nuclear families.Genome Res. 2004; 14: 1624-1632Crossref PubMed Scopus (38) Google Scholar). In short, HAP2 takes a Bayesian approach to haplotype reconstruction, set forth by Stephens et al. (Stephens et al., 2001Stephens M Smith NJ Donnelly P A new statistical method for haplotype reconstruction from population data.Am J Hum Genet. 2001; 68: 978-989Abstract Full Text Full Text PDF PubMed Scopus (6195) Google Scholar), of dynamically updating an individual's haplotypes to resemble other haplotypes in the s
0
Citation344
0
Save
0

SCAMPI: A scalable statistical framework for genome-wide interaction testing harnessing cross-trait correlations

Shijia Bian et al.Sep 14, 2024
Family-based heritability estimates of complex traits are often considerably larger than their single-nucleotide polymorphism (SNP) heritability estimates. This discrepancy may be due to non-additive effects of genetic variation, including variation that interacts with other genes or environmental factors to influence the trait. Variance-based procedures provide a computationally efficient strategy to screen for SNPs with potential interaction effects without requiring the specification of the interacting variable. While valuable, such variance-based tests consider only a single trait and ignore likely pleiotropy among related traits that, if present, could improve power to detect such interaction effects. To fill this gap, we propose SCAMPI (Scalable Cauchy Aggregate test using Multiple Phenotypes to test Interactions), which screens for variants with interaction effects across multiple traits. SCAMPI is motivated by the observation that SNPs with pleiotropic interaction effects induce genotypic differences in the patterns of correlation among traits. By studying such patterns across genotype categories among multiple traits, we show that SCAMPI has improved performance over traditional univariate variance-based methods. Like those traditional variance-based tests, SCAMPI permits the screening of interaction effects without requiring the specification of the interaction variable and is further computationally scalable to biobank data. We employed SCAMPI to screen for interacting SNPs associated with four lipid-related traits in the UK Biobank and identified multiple gene regions missed by existing univariate variance-based tests. SCAMPI is implemented in software for public use.
1

Loss-of-function of OTUD7A in the schizophrenia-associated 15q13.3 deletion impairs synapse development and function in human neurons

Alena Kozlova et al.Jan 7, 2022
ABSTRACT Identifying causative gene(s) within disease-associated large genomic regions of copy number variants (CNVs) is challenging. Here, by targeted sequencing of genes within schizophrenia (SZ)-associated CNVs in 1,779 SZ cases and 1,418 controls, we identified three rare putative loss-of-function (LoF) mutations in OTU deubiquitinase 7A (OTUD7A) within the 15q13.3 deletion in cases, but none in controls. To tie OTUD7A LoF with any SZ-relevant cellular phenotypes, we modeled the OTUD7A LoF mutation, rs757148409, in human induced pluripotent stem cell (hiPSC)-derived induced excitatory neurons (iNs) by CRISPR/Cas9 engineering. The mutant iNs showed a ∼50% decrease in OTUD7A expression without undergoing nonsense-mediated mRNA decay. The mutant iNs also exhibited marked reduction of dendritic complexity, density of synaptic proteins GluA1 and PSD-95, and neuronal network activity. Congruent with the neuronal phenotypes in mutant iNs, our transcriptomic analysis showed that the set of OTUD7A LoF-downregulated genes was enriched for those relating to synapse development and function, and was associated with SZ and other neuropsychiatric disorders. These results suggest that OTUD7A LoF impairs synapse development and neuronal function in human neurons, providing mechanistic insight into the possible role of OTUD7A in driving neuropsychiatric phenotypes associated with the 15q13.3 deletion.
0

Identifying latent genetic interactions in genome-wide association studies using multiple traits

Andrew Bass et al.Jan 1, 2023
Genome-wide association studies of complex traits frequently find that SNP-based estimates of heritability are considerably smaller than estimates from classic family-based studies. This 9missing9 heritability may be partly explained by genetic variants interacting with other genes or environments that are difficult to specify, observe, and detect. To circumvent these challenges, we propose a new method to detect genetic interactions that leverages pleiotropy from multiple related traits without requiring the interacting variable to be specified or observed. Our approach, Latent Interaction Testing (LIT), uses the observation that correlated traits with shared latent genetic interactions have trait variance and covariance patterns that differ by genotype. LIT examines the relationship between trait variance/covariance patterns and genotype using a flexible kernel-based framework that is computationally scalable for biobank-sized datasets with a large number of traits. We first use simulated data to demonstrate that LIT substantially increases power to detect latent genetic interactions compared to a trait-by-trait univariate method. We then apply LIT to four obesity-related traits in the UK Biobank and detect genetic variants with interactive effects near known obesity-related genes. Overall, we show that LIT, implemented in the R package lit, uses shared information across traits to improve detection of latent genetic interactions compared to standard approaches.
Load More