WZ
Weichen Zhou
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
14
(93% Open Access)
Cited by:
1,586
h-index:
23
/
i10-index:
35
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

A robust benchmark for detection of germline large deletions and insertions

Justin Zook et al.Jun 15, 2020
New technologies and analysis methods are enabling genomic structural variants (SVs) to be detected with ever-increasing accuracy, resolution and comprehensiveness. To help translate these methods to routine research and clinical practice, we developed a sequence-resolved benchmark set for identification of both false-negative and false-positive germline large insertions and deletions. To create this benchmark for a broadly consented son in a Personal Genome Project trio with broadly available cells and DNA, the Genome in a Bottle Consortium integrated 19 sequence-resolved variant calling methods from diverse technologies. The final benchmark set contains 12,745 isolated, sequence-resolved insertion (7,281) and deletion (5,464) calls ≥50 base pairs (bp). The Tier 1 benchmark regions, for which any extra calls are putative false positives, cover 2.51 Gbp and 5,262 insertions and 4,095 deletions supported by ≥1 diploid assembly. We demonstrate that the benchmark set reliably identifies false negatives and false positives in high-quality SV callsets from short-, linked- and long-read sequencing and optical mapping. Detection of structural variants in the human genome is facilitated by a benchmark set of large deletions and insertions.
0
Citation305
0
Save
0

TBX6 Null Variants and a Common Hypomorphic Allele in Congenital Scoliosis

Nan Wu et al.Jan 7, 2015
Congenital scoliosis is a common type of vertebral malformation. Genetic susceptibility has been implicated in congenital scoliosis.We evaluated 161 Han Chinese persons with sporadic congenital scoliosis, 166 Han Chinese controls, and 2 pedigrees, family members of which had a 16p11.2 deletion, using comparative genomic hybridization, quantitative polymerase-chain-reaction analysis, and DNA sequencing. We carried out tests of replication using an additional series of 76 Han Chinese persons with congenital scoliosis and a multicenter series of 42 persons with 16p11.2 deletions.We identified a total of 17 heterozygous TBX6 null mutations in the 161 persons with sporadic congenital scoliosis (11%); we did not observe any null mutations in TBX6 in 166 controls (P<3.8×10(-6)). These null alleles include copy-number variants (12 instances of a 16p11.2 deletion affecting TBX6) and single-nucleotide variants (1 nonsense and 4 frame-shift mutations). However, the discordant intrafamilial phenotypes of 16p11.2 deletion carriers suggest that heterozygous TBX6 null mutation is insufficient to cause congenital scoliosis. We went on to identify a common TBX6 haplotype as the second risk allele in all 17 carriers of TBX6 null mutations (P<1.1×10(-6)). Replication studies involving additional persons with congenital scoliosis who carried a deletion affecting TBX6 confirmed this compound inheritance model. In vitro functional assays suggested that the risk haplotype is a hypomorphic allele. Hemivertebrae are characteristic of TBX6-associated congenital scoliosis.Compound inheritance of a rare null mutation and a hypomorphic allele of TBX6 accounted for up to 11% of congenital scoliosis cases in the series that we analyzed. (Funded by the National Basic Research Program of China and others.).
0
Citation250
0
Save
0

A robust benchmark for germline structural variant detection

Justin Zook et al.Jun 9, 2019
Abstract New technologies and analysis methods are enabling genomic structural variants (SVs) to be detected with ever-increasing accuracy, resolution, and comprehensiveness. Translating these methods to routine research and clinical practice requires robust benchmark sets. We developed the first benchmark set for identification of both false negative and false positive germline SVs, which complements recent efforts emphasizing increasingly comprehensive characterization of SVs. To create this benchmark for a broadly consented son in a Personal Genome Project trio with broadly available cells and DNA, the Genome in a Bottle (GIAB) Consortium integrated 19 sequence-resolved variant calling methods, both alignment- and de novo assembly-based, from short-, linked-, and long-read sequencing, as well as optical and electronic mapping. The final benchmark set contains 12745 isolated, sequence-resolved insertion and deletion calls ≥50 base pairs (bp) discovered by at least 2 technologies or 5 callsets, genotyped as heterozygous or homozygous variants by long reads. The Tier 1 benchmark regions, for which any extra calls are putative false positives, cover 2.66 Gbp and 9641 SVs supported by at least one diploid assembly. Support for SVs was assessed using svviz with short-, linked-, and long-read sequence data. In general, there was strong support from multiple technologies for the benchmark SVs, with 90 % of the Tier 1 SVs having support in reads from more than one technology. The Mendelian genotype error rate was 0.3 %, and genotype concordance with manual curation was >98.7 %. We demonstrate the utility of the benchmark set by showing it reliably identifies both false negatives and false positives in high-quality SV callsets from short-, linked-, and long-read sequencing and optical mapping.
0
Citation63
0
Save
96

Assembly of 43 diverse human Y chromosomes reveals extensive complexity and variation

Pille Hallast et al.Dec 1, 2022
Abstract The prevalence of highly repetitive sequences within the human Y chromosome has led to its incomplete assembly and systematic omission from genomic analyses. Here, we present long-read de novo assemblies of 43 diverse Y chromosomes spanning 180,000 years of human evolution, including two from deep-rooted African Y lineages, and report remarkable complexity and diversity in chromosome size and structure, in contrast with its low level of base substitution variation. The size of the Y chromosome assemblies varies extensively from 45.2 to 84.9 Mbp and include, on average, 81 kbp of novel sequence per Y chromosome. Half of the male-specific euchromatic region is subject to large inversions with a >2-fold higher recurrence rate compared to inversions in the rest of the human genome. Ampliconic sequences associated with these inversions further show differing mutation rates that are sequence context-dependent and some ampliconic genes show evidence for concerted evolution with the acquisition and purging of lineage-specific pseudogenes. The largest heterochromatic region in the human genome, the Yq12, is composed of alternating arrays of DYZ1 and DYZ2 repeat units that show extensive variation in the number, size and distribution of these arrays, but retain a 1:1 copy number ratio of the monomer repeats, consistent with the notion that functional or evolutionary forces are acting on this chromosomal region. Finally, our data suggests that the boundary between the recombining pseudoautosomal region 1 and the non-recombining portions of the X and Y chromosomes lies 500 kbp distal to the currently established boundary. The availability of sequence-resolved Y chromosomes from multiple individuals provides a unique opportunity for identifying new associations of specific traits with Y-chromosomal variants and garnering novel insights into the evolution and function of complex regions of the human genome.
96
Citation10
0
Save
76

Expectations and blind spots for structural variation detection from short-read alignment and long-read assembly

Xuefang Zhao et al.Jul 4, 2020
Abstract Virtually all genome sequencing efforts in national biobanks, complex and Mendelian disease programs, and emerging clinical diagnostic approaches utilize short-reads (srWGS), which present constraints for genome-wide discovery of structural variants (SVs). Alternative long-read single molecule technologies (lrWGS) offer significant advantages for genome assembly and SV detection, while these technologies are currently cost prohibitive for large-scale disease studies and clinical diagnostics (∼5-12X higher cost than comparable coverage srWGS). Moreover, only dozens of such genomes are currently publicly accessible by comparison to millions of srWGS genomes that have been commissioned for international initiatives. Given this ubiquitous reliance on srWGS in human genetics and genomics, we sought to characterize and quantify the properties of SVs accessible to both srWGS and lrWGS to establish benchmarks and expectations in ongoing medical and population genetic studies, and to project the added value of SVs uniquely accessible to each technology. In analyses of three trios with matched srWGS and lrWGS from the Human Genome Structural Variation Consortium (HGSVC), srWGS captured ∼11,000 SVs per genome using reference-based algorithms, while haplotype-resolved assembly from lrWGS identified ∼25,000 SVs per genome. Detection power and precision for SV discovery varied dramatically by genomic context and variant class: 9.7% of the current GRCh38 reference is defined by segmental duplications (SD) and simple repeats (SR), yet 91.4% of deletions that were specifically discovered by lrWGS localized to these regions. Across the remaining 90.3% of the human reference, we observed extremely high concordance (93.8%) for deletions discovered by srWGS and lrWGS after error correction using the raw lrWGS reads. Conversely, lrWGS was superior for detection of insertions across all genomic contexts. Given that the non-SD/SR sequences span 90.3% of the GRCh38 reference, and encompass 95.9% of coding exons in currently annotated disease associated genes, improved sensitivity from lrWGS to discover novel and interpretable pathogenic deletions not already accessible to srWGS is likely to be incremental. However, these analyses highlight the added value of assembly-based lrWGS to create new catalogues of functional insertions and transposable elements, as well as disease associated repeat expansions in genomic regions previously recalcitrant to routine assessment.
76
Citation6
0
Save
10

Comprehensive identification of somatic nucleotide variants in human brain tissue

Yifan Wang et al.Oct 10, 2020
Abstract Post-zygotic mutations incurred during DNA replication, DNA repair, and other cellular processes lead to somatic mosaicism. Somatic mosaicism is an established cause of various diseases, including cancers. However, detecting mosaic variants in DNA from non-cancerous somatic tissues poses significant challenges, particularly if the variants only are present in a small fraction of cells. Here, the Brain Somatic Mosaicism Network conducted a coordinated, multi-institutional study to: (i) examine the ability of existing methods to detect simulated somatic single nucleotide variants (SNVs) in DNA mixing experiments; (ii) generate multiple replicates of whole genome sequencing data from the dorsolateral prefrontal cortex, other brain regions, dura mater, and dural fibroblasts of a single neurotypical individual; (iii) devise strategies to discover somatic SNVs; and (iv) apply various approaches to validate somatic SNVs. These efforts led to the identification of 43 bona fide somatic SNVs that ranged in variant allele fractions from ~0.005 to ~0.28. Guided by these results, we devised best practices for calling mosaic SNVs from 250X whole genome sequencing data in the accessible portion of the human genome that achieve 90% specificity and sensitivity. Finally, we demonstrated that analysis of multiple bulk DNA samples from a single individual allows the reconstruction of early developmental cell lineage trees. Thus, this study provides a unified set of best practices to detect somatic SNVs in non-cancerous tissues. The data and methods are freely available to the scientific community and should serve as a guide to assess the contributions of somatic SNVs to neuropsychiatric diseases.
10
Citation5
0
Save
1

Somatic nuclear mitochondrial DNA insertions are prevalent in the human brain and accumulate over time in fibroblasts

Weichen Zhou et al.Aug 22, 2024
The transfer of mitochondrial DNA into the nuclear genomes of eukaryotes (Numts) has been linked to lifespan in nonhuman species and recently demonstrated to occur in rare instances from one human generation to the next. Here, we investigated numtogenesis dynamics in humans in 2 ways. First, we quantified Numts in 1,187 postmortem brain and blood samples from different individuals. Compared to circulating immune cells ( n = 389), postmitotic brain tissue ( n = 798) contained more Numts, consistent with their potential somatic accumulation. Within brain samples, we observed a 5.5-fold enrichment of somatic Numt insertions in the dorsolateral prefrontal cortex (DLPFC) compared to cerebellum samples, suggesting that brain Numts arose spontaneously during development or across the lifespan. Moreover, an increase in the number of brain Numts was linked to earlier mortality. The brains of individuals with no cognitive impairment (NCI) who died at younger ages carried approximately 2 more Numts per decade of life lost than those who lived longer. Second, we tested the dynamic transfer of Numts using a repeated-measures whole-genome sequencing design in a human fibroblast model that recapitulates several molecular hallmarks of aging. These longitudinal experiments revealed a gradual accumulation of 1 Numt every ~13 days. Numtogenesis was independent of large-scale genomic instability and unlikely driven by cell clonality. Targeted pharmacological perturbations including chronic glucocorticoid signaling or impairing mitochondrial oxidative phosphorylation (OxPhos) only modestly increased the rate of numtogenesis, whereas patient-derived SURF1 -mutant cells exhibiting mtDNA instability accumulated Numts 4.7-fold faster than healthy donors. Combined, our data document spontaneous numtogenesis in human cells and demonstrate an association between brain cortical somatic Numts and human lifespan. These findings open the possibility that mito-nuclear horizontal gene transfer among human postmitotic tissues produces functionally relevant human Numts over timescales shorter than previously assumed.
1
Citation2
0
Save
Load More