YG
Yan Gao
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
12
(67% Open Access)
Cited by:
700
h-index:
20
/
i10-index:
28
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

Pangenome graph construction from genome alignments with Minigraph-Cactus

Glenn Hickey et al.May 10, 2023
Pangenome references address biases of reference genomes by storing a representative set of diverse haplotypes and their alignment, usually as a graph. Alternate alleles determined by variant callers can be used to construct pangenome graphs, but advances in long-read sequencing are leading to widely available, high-quality phased assemblies. Constructing a pangenome graph directly from assemblies, as opposed to variant calls, leverages the graph’s ability to represent variation at different scales. Here we present the Minigraph-Cactus pangenome pipeline, which creates pangenomes directly from whole-genome alignments, and demonstrate its ability to scale to 90 human haplotypes from the Human Pangenome Reference Consortium. The method builds graphs containing all forms of genetic variation while allowing use of current mapping and genotyping tools. We measure the effect of the quality and completeness of reference genomes used for analysis within the pangenomes and show that using the CHM13 reference from the Telomere-to-Telomere Consortium improves the accuracy of our methods. We also demonstrate construction of a Drosophila melanogaster pangenome. Constructing genome graphs directly from genome assemblies overcomes single-reference bias.
1
Citation61
0
Save
180

Pangenome Graph Construction from Genome Alignment with Minigraph-Cactus

Glenn Hickey et al.Oct 7, 2022
Abstract Reference genomes provide mapping targets and coordinate systems but introduce biases when samples under study diverge sufficiently from them. Pangenome references seek to address this by storing a representative set of diverse haplotypes and their alignment, usually as a graph. Alternate alleles determined by variant callers can be used to construct pangenome graphs, but thanks to advances in long-read sequencing, high-quality phased assemblies are becoming widely available. Constructing a pangenome graph directly from assemblies, as opposed to variant calls, leverages the graph’s ability to consistently represent variation at different scales and reduces biases introduced by reference-based variant calls. Pangenome construction in this way is equivalent to multiple genome alignment. Here we present the Minigraph-Cactus pangenome pipeline, a method to create pangenomes directly from whole-genome alignments, and demonstrate its ability to scale to 90 human haplotypes from the Human Pangenome Reference Consortium (HPRC). This tool was designed to build graphs containing all forms of genetic variation while still being practical for use with current mapping and genotyping tools. We show that this graph is useful both for studying variation within the input haplotypes, but also as a basis for achieving state of the art performance in short and long read mapping, small variant calling and structural variant genotyping. We further measure the effect of the quality and completeness of reference genomes used for analysis within the pangenomes, and show that using the CHM13 reference from the Telomere-to-Telomere Consortium improves the accuracy of our methods, even after projecting back to GRCh38. We also demonstrate that our method can apply to nonhuman data by showing improved mapping and variant detection sensitivity with a Drosophila melanogaster pangenome.
180
Citation22
0
Save
4

Dynamic Landscapes of tRNA Transcriptomes and Translatomes in Diverse Mouse Tissues

Peng Yu et al.Apr 28, 2022
Abstract Although the function of tRNA in translational process is well established, it remains controversial whether tRNA abundance is tightly associated with translational efficiency (TE) in mammals. For example, how critically the expression of tRNAs contributes to the establishment of tissue-specific proteomes in mammals has not been well addressed. Here, we measured both tRNA expression using DM-tRNA-seq and ribosome-associated mRNAs in the brain, heart, and testis of RiboTag mice. Remarkable variation in the expression of tRNA isodecoders was observed among the different tissues. When the statistical effect of isodecoder-grouping on reducing variations is considered through permutating the anticodons, we observed an expected reduction in the tissue-variations of anticodon expression, an unexpected smaller variation of anticodon usage bias , and an unexpected larger variation of tRNA isotype expression. Regardless whether or not they share the same anticodons, isotypes encoding the same amino acids are co-expressed across different tissues. Based on the tRNA expression and TE computed from RiboTag-seq, we find that the tRNA adaptation index (tAI) values and TE are significantly correlated in the same tissues but not among tissues; tRNAs and the amino acid compositions of translating peptides are positively correlated in the same tissues but not between tissues. We therefore hypothesize that the tissue-specific expression of tRNAs might be related to post-transcriptional mechanisms, such as aminoacylation, modification, and tRNA-derived small RNAs (tsRNAs). This study provides a resource for tRNA and translation studies to gain novel insights into the dynamics of tRNAs and their role in translational regulation.
4
Citation1
0
Save
0

deGSM: memory scalable construction of large scale de Bruijn Graph

Hongzhe Guo et al.Aug 9, 2018
Motivation: De Bruijn graph, a fundamental data structure to represent and organize genome sequence, plays important roles in various kinds of sequence analysis tasks such as de novo assembly, high-throughput sequencing (HTS) read alignment, pan-genome analysis, metagenomics analysis, HTS read correction, etc. With the rapid development of HTS data and ever-increasing number of assembled genomes, there is a high demand to construct de Bruijn graph for sequences up to Tera-base-pair level. It is non-trivial since the size of the graph to be constructed could be very large and each graph consists of hundreds of billions of vertices and edges. Current existing approaches may have unaffordable memory footprints to handle such a large de Bruijn graph. Moreover, it also requires the construction approach to handle very large dataset efficiently, even if in a relatively small RAM space. Results: We propose a lightweight parallel de Bruijn graph construction approach, de Bruijn Graph Constructor in Scalable Memory (deGSM). The main idea of deGSM is to efficiently construct the Burrows-Wheeler Transformation (BWT) of the unipaths of de Bruijn graph in constant RAM space and transform the BWT into the original unitigs. It is mainly implemented by a fast parallel external sorting of k-mers, which allows only a part of k-mers kept in RAM by a novel organization of the k-mers. The experimental results demonstrate that, just with a commonly used machine, deGSM is able to handle very large genome sequence(s), e.g., the contigs (305 Gbp) and scaffolds (1.1 Tbp) recorded in GenBank database and Picea abies HTS dataset (9.7 Tbp). Moreover, deGSM also has faster or comparable construction speed compared with state-of-the-art approaches. With its high scalability and efficiency, deGSM has enormous potentials in many large scale genomics studies.
0

FASTKD1 as a diagnostic and prognostic biomarker for STAD: Insights into m6A modification and immune infiltration

Yi Yang et al.May 31, 2024
Fas‑activated serine/threonine kinase domain 1 (FASTKD1), a known modulator of mitochondrial‑mediated cell death and survival processes, has garnered attention for its potential role in various biological contexts. However, its involvement in gastric cancer remains unclear. Thus, the present study aimed to investigate the relationship between FASTKD1 expression and key factors, including clinicopathological characteristics, immune infiltration and m6A modification in stomach adenocarcinoma (STAD). The expression of FASTKD1 was analyzed in STAD and normal adjacent tissues to assess its association with clinicopathological characteristics and survival prognosis. Data from The Cancer Genome Atlas (TCGA) and Gene Expression Omnibus (GEO) databases were used in this study. Additionally, the findings were validated through immunohistochemical staining. Co‑expression analysis of FASTKD1 was performed using Gene Ontology and Kyoto Encyclopedia of Genes and Genomes (GO/KEGG) enrichment analysis, Gene Set Enrichment Analysis (GSEA) and LinkedOmics database analysis. An in‑depth analysis was conducted using databases, such as Tumor Immune Estimation Resource (TIMER), Gene Expression Profiling Interactive Analysis (GEPIA), GEO and TCGA to explore the potential correlation between FASTKD1 expression and immune infiltration and m6A modification in STAD. The results revealed that FASTKD1 was significantly upregulated across different tumor types, including STAD. Notably, FASTKD1 was able to distinguish between tumor and normal tissue samples with accuracy. Furthermore, the expression levels of FASTKD1 were significantly associated with clinical stage and survival. Through GO/KEGG enrichment analysis and GSEA, it was revealed that the genes co‑expressed with FASTKD1 were active in a variety of biological processes. Within the TIMER, GEPIA and TCGA databases, a notable inverse correlation was observed between FASTKD1 expression and the abundance of immune cell subsets. Notably, significant correlations were established between FASTKD1 and m6A modification genes, YTHDF1 and LRPPRC, in both TCGA and GEO datasets. In conclusion, FASTKD1 may serve a significant role in m6A modification and immune infiltration processes, making it a potentially valuable diagnostic and prognostic biomarker in STAD.
Load More