SZ
Shaojie Zhang
Author with expertise in Genomic Studies and Association Analyses
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
19
(68% Open Access)
Cited by:
779
h-index:
33
/
i10-index:
87
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Multiplexed labeling of genomic loci with dCas9 and engineered sgRNAs using CRISPRainbow

Hanhui Ma et al.Apr 18, 2016
+4
A
L
H
Multiple chromosomal sites are readily labeled using Cas9 and guide RNAs that bind fluorescent proteins, enabling visualization of chromatin dynamics. A lack of techniques to image multiple genomic loci in living cells has limited our ability to investigate chromosome dynamics. Here we describe CRISPRainbow, a system for labeling DNA in living cells based on nuclease-dead (d) Cas9 combined with engineered single guide RNA (sgRNA) scaffolds that bind sets of fluorescent proteins. We demonstrate simultaneous imaging of up to six chromosomal loci in individual live cells and document large differences in the dynamic properties of different chromosomal loci.
0
Citation391
0
Save
0

Multicolor CRISPR labeling of chromosomal loci in human cells

Hanhui Ma et al.Feb 23, 2015
+3
P
A
H
Significance The detection of specific genes in fixed cells was first accomplished in 1969 by Gall and Pardue. The development of analogous methods applicable to living cells is now at hand. At the forefront of this advance (2013–2014), we and other investigators have used transcription activator-like effectors (TALEs) conjugated with fluorescent proteins to tag genomic loci in live cells. More recently, the CRISPR/Cas9 system has provided a more flexible approach to targeting specific loci. In this paper, we describe the labeling of human genomic loci in live cells with three orthogonal CRISPR/Cas9 components, allowing multicolor detection of genomic loci with high spatial resolution, which provides an avenue for barcoding elements of the human genome in the living state.
0
Citation383
0
Save
0

Ultra-fast Identity by Descent Detection in Biobank-Scale Cohorts using Positional Burrows–Wheeler Transform

Ardalan Naseri et al.Jan 26, 2017
D
S
X
A
Abstract With the availability of genotyping data of very large samples, there is an increasing need for tools that can efficiently identify genetic relationships among all individuals in the sample. One fundamental measure of genetic relationship of a pair of individuals is identity by descent (IBD), chromosomal segments that are shared among two individuals due to common ancestry. However, the efficient identification of IBD segments among a large number of genotyped individuals is a challenging computational problem. Most existing methods are not feasible for even thousands of individuals because they are based on pairwise comparisons of all individuals and thus scale up quadratically with sample size. Some methods, such as GERMLINE, use fast dictionary lookup of short seed sequence matches to achieve a near-linear time efficiency. However, the number of short seed matches often scales up super-linearly in real population data. In this paper we describe a new approach for IBD detection. We take advantage of an efficient population genotype index, Positional BWT (PBWT), by Richard Durbin. PBWT achieves linear time query of perfectly identical subsequences among all samples. However, the original PBWT is not tolerant to genotyping errors which often interrupt long IBD segments into short fragments. We introduce a randomized strategy by running PBWTs over random projections of the original sequences. To boost the detection power we run PBWT multiple times and merge the identified IBD segments through interval tree algorithms. Given a target IBD segment length, RaPID adjust parameters to optimize detection power and accuracy. Simulation results proved that our tool (RaPID) achieves almost linear scaling up to sample size and is orders of magnitude faster than GERMLINE. At the same time, RaPID maintains a detection power and accuracy comparable to existing mainstream algorithms, GERMLINE and IBDseq. Running multiple times with various target detection lengths over the 1000 Genomes Project data, RaPID can detect population events at different time scales. With our tool, it is feasible to identify IBDs among hundreds of thousands to millions of individuals, a sample size that will become reality in a few years.
0
Citation3
0
Save
0

Discovery of runs-of-homozygosity diplotype clusters and their associations with diseases in UK Biobank

Ardalan Naseri et al.Jun 21, 2024
S
D
A
Runs-of-homozygosity (ROH) segments, contiguous homozygous regions in a genome were traditionally linked to families and inbred populations. However, a growing literature suggests that ROHs are ubiquitous in outbred populations. Still, most existing genetic studies of ROH in populations are limited to aggregated ROH content across the genome, which does not offer the resolution for mapping causal loci. This limitation is mainly due to a lack of methods for the efficient identification of shared ROH diplotypes. Here, we present a new method, ROH-DICE (runs-of-homozygous diplotype cluster enumerator), to find large ROH diplotype clusters, sufficiently long ROHs shared by a sufficient number of individuals, in large cohorts. ROH-DICE identified over 1 million ROH diplotypes that span over 100 single nucleotide polymorphisms (SNPs) and are shared by more than 100 UK Biobank participants. Moreover, we found significant associations of clustered ROH diplotypes across the genome with various self-reported diseases, with the strongest associations found between the extended human leukocyte antigen (HLA) region and autoimmune disorders. We found an association between a diplotype covering the homeostatic iron regulator (HFE) gene and hemochromatosis, even though the well-known causal SNP was not directly genotyped or imputed. Using a genome-wide scan, we identified a putative association between carriers of an ROH diplotype in chromosome 4 and an increase in mortality among COVID-19 patients (p-value = 1.82 × 10
0
Citation1
0
Save
0

CRISPR-Based DNA Imaging in Living Cells Reveals Cell Cycle-Dependent Chromosome Dynamics

Hanhui Ma et al.Sep 29, 2017
+4
A
L
H
SUMMARY In contrast to the well-studied condensation and folding of chromosomes during mitosis, their dynamics in interphase are less understood. We developed a sensitive, multicolor system, CRISPR-Sirius, allowing the real-time tracking of the dynamics of chromosomal loci. We tracked loci kilobases to megabases apart and found significant variation in the inter-locus distances of each pair, indicating differing degrees of DNA contortion. We resolved two distinct modes of dynamics of loci: saltatory local movements as well as translational movements of the domain. The magnitude of both of these modes of movements increased from early to late G1, whereas the translational movements were reduced in early S. The local fluctuations decreased slightly in early S and more markedly in mid-late S. These newly observed movements and their cell cycle-dependence are indicative of a hitherto unrecognized compaction-relaxation dynamic of the chromosomal fiber operating concurrently with changes in the extent of observed genomic domain movements. IN BRIEF Distinct chromosome folding and dynamics during cell cycle progression were dissected by CRISPR-Sirius DNA imaging in living cells. HIGHLIGHTS CRISPR-Sirius allows tracking of pairs of chromosomal loci having kilobase to megabase inter-locus distances Pair-wise tracking of loci allows measurement of both local and domain dynamics Chromosomal fiber relaxation is positively correlated with local dynamics Genomic region size contributes to local and domain movements Distinct chromosome dynamics were uncovered during cell cycle progression in interphase
0
Citation1
0
Save
9

Syllable-PBWT for space-efficient haplotype long-match query

Victor Wang et al.Feb 2, 2022
D
A
S
V
Abstract The positional Burrows-Wheeler transform (PBWT) has led to tremendous strides in haplotype matching on biobank-scale data. For genetic genealogical search, PBWT-based methods have optimized the asymptotic runtime of finding long matches between a query haplotype and a predefined panel of haplotypes. However, to enable fast query searches, the full-sized panel and PBWT data structures must be kept in memory, preventing existing algorithms from scaling up to modern biobank panels consisting of millions of haplotypes. In this work, we propose a space-efficient variation of PBWT named Syllable-PBWT, which divides every haplotype into syllables, builds the PBWT positional prefix arrays on the compressed syllabic panel, and leverages the polynomial rolling hash function for positional substring comparison. With the Syllable-PBWT data structures, we then present a long match query algorithm named Syllable-Query. Compared to Algorithm 3 of Sanaullah et al. (2021), the most time- and space-efficient previously published solution to the long match query problem, Syllable-Query reduced the memory use by a factor of over 100 on both the UK Biobank genotype data and the 1000 Genomes Project sequence data. Surprisingly, the smaller size of our syllabic data structures allows for more efficient iteration and CPU cache usage, granting Syllable-Query even faster runtime than existing solutions. The implementation of our algorithm is available at https://github.com/ZhiGroup/Syllable-PBWT .
1

RaPID-Query for Fast Identity by Descent Search and Genealogical Analysis

Yuan Wei et al.Feb 6, 2022
S
D
A
Y
Abstract The size of genetic databases has grown large enough such that, genetic genealogical search, a process of inferring familial relatedness by identifying DNA matches, has become a viable approach to help individuals finding missing family members or law enforcement agencies locating suspects. However, a fast and accurate method is needed to search an out-of-database individual against millions of individuals in such databases. Most existing approaches only offer all-vs-all within panel match. Some prototype algorithms offer 1-vs-all query from out-of-panel individual, but they do not tolerate errors. A new method, random projection-based identical-by-descent (IBD) detection (RaPID) query, referred as RaPID-Query, is introduced to make fast genealogical search possible. RaPID-Query method identifies IBD segments between a query haplotype and a panel of haplotypes. By integrating matches over multiple PBWT indexes, RaPID-Query method is able to locate IBD segments quickly with a given cutoff length while allowing mismatched sites in IBD segments. A single query against all UK biobank autosomal chromosomes can be completed within 2.76 seconds CPU time on average, with the minimum 7 cM IBD segment length and minimum 700 markers. Using the same criteria, RaPID-Query can achieve 0.099 false negative rate and 0.017 false positive rate at the same time on a chromosome 20 sequencing panel having 92,296 sites, which is comparable to the state-of-the-art IBD detection method Hap-IBD. For the relatedness degree separation experiments, RaPID-Query is able to distinguish up to fourth degree of the familial relatedness for a given individual pair, and the area under the receiver operating characteristic curve values are at least 97.28%. It is anticipated that RaPID-Query will make genealogical search convenient and effective, potentially with the integration of complex inference models.
7

mcPBWT: Space-efficient Multi-column PBWT Scanning Algorithm for Composite Haplotype Matching

Pramesh Shakya et al.Feb 6, 2022
S
D
A
P
Positional Burrows-Wheeler Transform (PBWT) is a data structure that supports efficient algorithms for finding matching segments in a panel of haplotypes. It is of interest to study the composite patterns of multiple matching segments or blocks arranged contiguously along a same haplotype as they can indicate recombination crossover events, gene-conversion tracts, or, sometimes, errors of phasing algorithms. However, current PBWT algorithms do not support search of such composite patterns efficiently. Here, we present our algorithm, mcPBWT (multi-column PBWT), that uses multiple synchronized runs of PBWT at different variant sites providing a "look-ahead" information of matches at those variant sites. Such "look-ahead" information allows us to analyze multiple contiguous matching pairs in a single pass. We present two specific cases of mcPBWT, namely double-PBWT and triple-PBWT which utilize two and three columns of PBWT respectively. double-PBWT finds two matching pairs' combinations representative of crossover event or phasing error while triple-PBWT finds three matching pairs' combinations representative of gene-conversion tract.
1

A congenital hydrocephalus causing mutation in Trim71 results in stem cell differentiation defects through inhibitingLsd1mRNA translation

Qiuying Liu et al.Apr 14, 2022
+4
M
S
Q
Abstract Congenital hydrocephalus (CH) is a major cause of childhood morbidity. Mono-allelic mutations in Trim71, a conserved stem-cell-specific RNA-binding protein, cause CH, however, molecular basis for pathogenesis mediated by these mutations remains unknown. Here, using mouse embryonic stem cells as a model, we reveal that the mouse R783H mutation (R796H in human) significantly alters Trim71’s mRNA substrate specificity and leads to accelerated stem-cell differentiation and neural lineage commitment. The mutant Trim71, but not the wild-type Trim71, binds Lsd1 (Kdm1a) mRNA and represses its translation. Specific inhibition of this repression or a slight increase of Lsd1 in the mutant cells alleviates the defects in stem cell differentiation and neural lineage commitment. These results determine a functionally relevant target of the CH-causing Trim71 mutant that can potentially be a therapeutic target and provide molecular mechanistic insights into the pathogenesis of this disease.
0

CRISPR-based Live Imaging of Epigenetic Modification-Mediated Genome Reorganization

Ying Feng et al.Feb 19, 2020
+10
J
Y
Y
Epigenetic modifications play an essential role in chromatin architecture and dynamics. The role of epigenetic modification in chromatin organization has been studied by Hi-C from population cells, but imaging techniques to study their correlation and regulation in single living cells are lacking. Here we develop a CRISPR-based EpiGo (Epigenetic perturbation induced Genome organization) system to track epigenetic modification-mediated relocation, interaction or reorganization of genomic regions in living cells. EpiGo-KRAB is sufficient to induce the relocation of genomic loci to HP1alpha; condensates and trigger genomic interactions. EpiGo-KRAB also triggers the induction of H3K9me3 at large genomic regions, which decorate on the surface of HP1alpha; condensates possibly driven by phase separation.
Load More