ZC
Zhen Cao
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
10
(60% Open Access)
Cited by:
3,157
h-index:
20
/
i10-index:
24
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Organoid Cultures Derived from Patients with Advanced Prostate Cancer

Dong Gao et al.Sep 1, 2014
Highlights•Generation of prostate cancer organoids from metastasis and circulating tumor cells•Organoids retain the histological and molecular features of the patient specimen•Organoids recapitulate the diversity of castration-resistant prostate cancer•Organoid lines can be used for drug studies in vitro and as xenografts in vivoSummaryThe lack of in vitro prostate cancer models that recapitulate the diversity of human prostate cancer has hampered progress in understanding disease pathogenesis and therapy response. Using a 3D organoid system, we report success in long-term culture of prostate cancer from biopsy specimens and circulating tumor cells. The first seven fully characterized organoid lines recapitulate the molecular diversity of prostate cancer subtypes, including TMPRSS2-ERG fusion, SPOP mutation, SPINK1 overexpression, and CHD1 loss. Whole-exome sequencing shows a low mutational burden, consistent with genomics studies, but with mutations in FOXA1 and PIK3R1, as well as in DNA repair and chromatin modifier pathways that have been reported in advanced disease. Loss of p53 and RB tumor suppressor pathway function are the most common feature shared across the organoid lines. The methodology described here should enable the generation of a large repertoire of patient-derived prostate cancer lines amenable to genetic and pharmacologic studies.Graphical abstract
0
Citation1,270
0
Save
0

PRC2 is recurrently inactivated through EED or SUZ12 loss in malignant peripheral nerve sheath tumors

William Lee et al.Sep 21, 2014
Ping Chi and colleagues identify recurrent inactivating mutations in the PRC2 core components EED and SUZ12 in malignant peripheral nerve sheath tumors. They further show that PRC2 loss is associated with loss of H3K27 trimethylation and aberrant expression of PRC2 target genes and downstream pathways. Malignant peripheral nerve sheath tumors (MPNSTs) represent a group of highly aggressive soft-tissue sarcomas that may occur sporadically, in association with neurofibromatosis type I (NF1 associated) or after radiotherapy1,2,3. Using comprehensive genomic approaches, we identified loss-of-function somatic alterations of the Polycomb repressive complex 2 (PRC2) components (EED or SUZ12) in 92% of sporadic, 70% of NF1-associated and 90% of radiotherapy-associated MPNSTs. MPNSTs with PRC2 loss showed complete loss of trimethylation at lysine 27 of histone H3 (H3K27me3) and aberrant transcriptional activation of multiple PRC2-repressed homeobox master regulators and their regulated developmental pathways. Introduction of the lost PRC2 component in a PRC2-deficient MPNST cell line restored H3K27me3 levels and decreased cell growth. Additionally, we identified frequent somatic alterations of CDKN2A (81% of all MPNSTs) and NF1 (72% of non-NF1-associated MPNSTs), both of which significantly co-occur with PRC2 alterations. The highly recurrent and specific inactivation of PRC2 components, NF1 and CDKN2A highlights their critical and potentially cooperative roles in MPNST pathogenesis.
0
Citation513
0
Save
0

The lncLocator: a subcellular localization predictor for long non-coding RNAs based on a stacked ensemble classifier

Zhen Cao et al.Feb 14, 2018
Abstract Motivation The long non-coding RNA (lncRNA) studies have been hot topics in the field of RNA biology. Recent studies have shown that their subcellular localizations carry important information for understanding their complex biological functions. Considering the costly and time-consuming experiments for identifying subcellular localization of lncRNAs, computational methods are urgently desired. However, to the best of our knowledge, there are no computational tools for predicting the lncRNA subcellular locations to date. Results In this study, we report an ensemble classifier-based predictor, lncLocator, for predicting the lncRNA subcellular localizations. To fully exploit lncRNA sequence information, we adopt both k-mer features and high-level abstraction features generated by unsupervised deep models, and construct four classifiers by feeding these two types of features to support vector machine (SVM) and random forest (RF), respectively. Then we use a stacked ensemble strategy to combine the four classifiers and get the final prediction results. The current lncLocator can predict five subcellular localizations of lncRNAs, including cytoplasm, nucleus, cytosol, ribosome and exosome, and yield an overall accuracy of 0.59 on the constructed benchmark dataset. Availability and implementation The lncLocator is available at www.csbio.sjtu.edu.cn/bioinf/lncLocator. Supplementary information Supplementary data are available at Bioinformatics online.
0
Citation328
0
Save
0

Probe Efficient Feature Representation of Gapped K-mer Frequency Vectors from Sequences using Deep Neural Networks

Zhen Cao et al.Jul 31, 2017
How to extract informative features from genome sequence is a challenging issue. Gapped k-mers frequency vectors (gkm-fv) has been presented as a new type of features in the last few years. Coupled with support vector machine (gkm-SVM), gkm-fvs have been used to achieve effective sequence-based predictions. However, the huge computation of a large kernel matrix prevents it from using large amount of data. And it is unclear how to combine gkm-fvs with other data sources in the context of string kernel. On the other hand, the high dimensionality, colinearity and sparsity of gkm-fvs hinder the use of many traditional machine learning methods without a kernel trick. Therefore, we proposed a flexible and scalable framework gkm-DNN to achieve feature representation from high-dimensional gkm-fvs using deep neural networks (DNN). We first proposed a more concise version of gkm-fvs which significantly reduce the dimension of gkm-fvs. Then we implemented an efficient method to calculate the gkm-fv of a given sequence at the first time. Finally, we adopted a DNN model with gkm-fvs as inputs to achieve efficient feature representation and a prediction task. Here, we took the transcription factor binding site prediction as an illustrative application. We applied gkm-DNN onto 467 small and 69 big human ENCODE ChIP-seq datasets to demonstrate its performance and compared it with the state-of-the-art method gkm-SVM. We demonstrated that gkm-DNN can not only improve the limitations of high dimensionality, colinearity and sparsity of gkm-fvs, but also make comparable overall performance compared with gkm-SVM using the same gkm-fvs. In addition, we used gkm-DNN to explore the representation power of gkm-fvs and provided more explanation on how gkm-fvs work.
0

Rearranged zebrafish genomic DNA induces zebrafish mutant after microinjection into fertilized egg and preliminary study of the mechanism

Zheming Cao et al.Nov 2, 2018
Genomic DNA of zebrafish was first digested incompletely with Msp I, and then the fragments were joined to form rearranged genomic DNA. This rearranged genomic DNA was incompletely digested with EcoR I, and the fragments were linked with a long adaptor. Two primers (Gmprimer1 and Gmprimer2) were designed according to the adaptor sequence for two-step amplification. The Gmprimer1-amplified products were microinjected into fertilized zebrafish eggs after purification and a red flesh mutant was observed among 42 surviving zebrafish. We obtained several introduced sequences by two-step amplification. The second set of Gmprimer2-amplified products were purified and microinjected into fertilized zebrafish eggs; all 37 surviving fish were red flesh mutants. We found that the largest amplified band from the mutant from the first microinjection was also present in the amplified pattern from six mutants from the second microinjection. The length of the sequence was 2,565 bp, but it did not encode any proteins. Microinjecting this sequence into fertilized zebrafish eggs produced the red flesh mutant. The sequences differed slightly among different individuals from the second microinjection. Most regions of these sequences were the same, with the exception of a hypervariable region. We mixed 10 such sequences equally and microinjected them into zebrafish zygotes; the findings showed that most zygotes died and the surviving zebrafish were almost all mutants. By genome walking, we found that the site of insertion of the fragment was the same, beginning at position 41,365,003 of the eighth chromosome, and that downstream of the introduced fragment is a conservative sequence of 6,536 bp (named Cao-sequence), starting from a small reverse repeat sequence, not encoding any gene, nor similar to any known regulatory sequence. It has 322 homologous sequences in the zebrafish genome, which are distributed in all chromosomes. We designed two primers within Cao-sequence and several primers specific for different locations upstream of it. Compared with normal zebrafish, we found that the amplified patterns of all mutants in Cao-sequence regions changed to varying degrees. To further understand the effect of the introduced sequence on the zebrafish genomes, we selected six mutants for whole-genome resequencing. The results showed that numerous Cao-sequences from these six mutants were partially deleted and the lengths of the deletions was mostly approximately 6,100 bp, being located at the 5′ end of Cao-sequences. Among them, 43 Cao-sequence loci were commonly deleted from the six mutants (with slightly different locations), and the other deletion sites were not identical. We think that different deletion combinations of Cao-sequence may show different mutation characteristics. The tail part from four red flesh mutants and three individuals of wild type were collected for transcriptome sequencing. TopGO analysis showed that the 4 most significant enrichment nodes were sequence specific DNA binding proteins, sequence specific transcription factors, chromatin proteins and zinc binding proteins. The results of KEGG enrichment analysis showed that the top four affected KEGG-pathways were metabolic pathways, oxidative phosphorylation, citrate cycle and 2-oxocarboxylic acid metabolism.We conclude that deletion of Cao-sequence can affect the expression of a series of transcription regulators and specific DNA binding proteins, then many basic metabolic processes were disturbed which led to mutations.
0

Zebrafish DANA retroposon can form large zebrafish sequence in human Hepg2 and 293T cell lines

Zheming Cao et al.Dec 18, 2018
In this study, we cloned small zebrafish retroposon DANA from zebrafish genome and constructed the lentiviral expression vector pEB-GFP (T2A)PURO. Three human cell lines including 293T, Hepg2 and LO2 were selected as infection targets. After detecting the expression of DANA, we found that the expression of DANA retroposon in three cells had different effects on cell lines through chromosome walking. Among these cells, LO2 showed no DANA retrotrans-position, while 293T and Hepg2 cell lines displayed retrotrans-position with the formation of some zebrafish genome fragments. Thereafter, we constructed a mutant of DANA retroposon and infected it in 293T cells, but no retrotrans-position was found after chromosome walking. Re-sequencing of the two cell lines (293T and Hepg2) showed that a large number of zebrafish genome fragments were found in the genomes of both cell lines, which could be divided into four types. The first type was zebrafish microsatellite sequence, accounting for 79.23% and 74.45% in 293T cell line and Hepg2 cell line, respectively. The second type was the sequence with a small amount of poly A or T, and the third type was the sequence with poly G or C, and the second and third types accounted very low proportion. The fourth type was composed of coding sequence and non-coding sequence, with large difference and very low proportion of common sequences between the two cell lines. Taken together, this study indicated that zebrafish DANA retroposon can result in retrotrans-position using the retrotrans system of human cell lines.