HL
Hayan Lee
Author with expertise in RNA Sequencing Data Analysis
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
11
(45% Open Access)
Cited by:
543
h-index:
21
/
i10-index:
25
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

The pineapple genome and the evolution of CAM photosynthesis

Ray Ming et al.Nov 2, 2015
+67
C
R
R
Ray Ming, Robert Paull, Qingyi Yu and colleagues report the genome sequences of two cultivated pineapple varieties and one wild pineapple relative. Their analysis supports the use of the pineapple as a reference genome for monocot comparative genomics and provides insight into the evolution of crassulacean acid metabolism photosynthesis. Pineapple (Ananas comosus (L.) Merr.) is the most economically valuable crop possessing crassulacean acid metabolism (CAM), a photosynthetic carbon assimilation pathway with high water-use efficiency, and the second most important tropical fruit. We sequenced the genomes of pineapple varieties F153 and MD2 and a wild pineapple relative, Ananas bracteatus accession CB5. The pineapple genome has one fewer ancient whole-genome duplication event than sequenced grass genomes and a conserved karyotype with seven chromosomes from before the ρ duplication event. The pineapple lineage has transitioned from C3 photosynthesis to CAM, with CAM-related genes exhibiting a diel expression pattern in photosynthetic tissues. CAM pathway genes were enriched with cis-regulatory elements associated with the regulation of circadian clock genes, providing the first cis-regulatory link between CAM and circadian clock regulation. Pineapple CAM photosynthesis evolved by the reconfiguration of pathways in C3 plants, through the regulatory neofunctionalization of preexisting genes and not through the acquisition of neofunctionalized genes via whole-genome or tandem gene duplication.
0
Citation534
0
Save
0

SplitMEM: Graphical pan-genome analysis with suffix skips

Shoshana Marcus et al.Apr 6, 2014
M
H
S
Motivation: With the rise of improved sequencing technologies, genomics is expanding from a single reference per species paradigm into a more comprehensive pan-genome approach with multiple individuals represented and analyzed together. One of the most sophisticated data structures for representing an entire population of genomes is a compressed de Bruijn graph. The graph structure can robustly represent simple SNPs to complex structural variations far beyond what can be done from linear sequences alone. As such there is a strong need to develop algorithms that can efficiently construct and analyze these graphs. Results: In this paper we explore the deep topological relationships between the suffix tree and the compressed de Bruijn graph. We introduce a novel O(n log n) time and space algorithm called splitMEM, that directly constructs the compressed de Bruijn graph for a pan-genome of total length n. To achieve this time complexity, we augment the suffix tree with suffix skips, a new construct that allows us to traverse several suffix links in constant time, and use them to efficiently decompose maximal exact matches (MEMs) into the graph nodes. We demonstrate the utility of splitMEM by analyzing the pan- genomes of 9 strains of Bacillus anthracis and 9 strains of Escherichia coli to reveal the properties of their core genomes. Availability: The source code and documentation are available open- source at http://splitmem.sourceforge.net
0
Citation4
0
Save
59

Ultra high-throughput whole-genome methylation sequencing reveals trajectories in precancerous polyps to early colorectal adenocarcinoma

Hayan Lee et al.May 30, 2022
+21
B
E
H
Abstract Aberrant shifts in DNA methylation have long been regarded as an early marker for cancer onset and progression. To chart DNA methylation changes that occur during the transformation from normal healthy colon tissue to malignant colorectal cancer (CRC), we collected over 50 samples from 15 familial adenomatous polyposis (FAP) and non-FAP colorectal cancer patients, and generated 30-70x whole-genome methylation sequencing (WGMS) runs via the novel Ultima Genomics ultra high-throughput sequencing platform. We observed changes in DNA methylation that occur early in the malignant transformation process, in gene promoters and in distal regulatory elements. Among these changes are events of hyper-methylation which are associated with a bivalent “poised” chromatin state at promoters and are CRC-specific. Distal enhancers show nonlinear dynamics, lose methylation in the progression from normal mucosa to dysplastic polyps but regain methylation in the adenocarcinoma state. Enhancers that gain chromatin accessibility in the adenocarcinoma state and are enriched with HOX transcription factor binding sites, a marker of developmental genes. This work demonstrates the feasibility of generating large high quality WGMS data using the Ultima Genomics platform and provides the first detailed view of methylation dynamics during CRC formation and progression in a model case.
59
Citation4
0
Save
0

Netrin G1 Ligand is a new stromal immunomodulator that promotes pancreatic cancer

Débora Vendramini–Costa et al.May 18, 2024
+21
R
H
D
Abstract Understanding pancreatic cancer biology is fundamental for identifying new targets and for developing more effective therapies. In particular, the contribution of the stromal microenvironment to pancreatic cancer tumorigenesis requires further exploration. Here, we report the stromal roles of the synaptic protein Netrin G1 Ligand (NGL-1) in pancreatic cancer, uncovering its pro-tumor functions in cancer-associated fibroblasts and in immune cells. We observed that the stromal expression of NGL-1 inversely correlated with patients’ overall survival. Moreover, germline knockout (KO) mice for NGL-1 presented decreased tumor burden, with a microenvironment that is less supportive of tumor growth. Of note, tumors from NGL-1 KO mice produced less immunosuppressive cytokines and displayed an increased percentage of CD8 + T cells than those from control mice, while preserving the physical structure of the tumor microenvironment. These effects were shown to be mediated by NGL-1 in both immune cells and in the local stroma, in a TGF-β-dependent manner. While myeloid cells lacking NGL-1 decreased the production of immunosuppressive cytokines, NGL-1 KO T cells showed increased proliferation rates and overall polyfunctionality compared to control T cells. CAFs lacking NGL-1 were less immunosuppressive than controls, with overall decreased production of pro-tumor cytokines and compromised ability to inhibit CD8 + T cells activation. Mechanistically, these CAFs downregulated components of the TGF-β pathway, AP-1 and NFAT transcription factor families, resulting in a less tumor-supportive phenotype. Finally, targeting NGL-1 genetically or using a functionally antagonistic small peptide phenocopied the effects of chemotherapy, while modulating the immunosuppressive tumor microenvironment (TME), rather than eliminating it. We propose NGL-1 as a new local stroma and immunomodulatory molecule, with pro-tumor roles in pancreatic cancer. Statement of Significance Here we uncovered the pro-tumor roles of the synaptic protein NGL-1 in the tumor microenvironment of pancreatic cancer, defining a new target that simultaneously modulates tumor cell, fibroblast, and immune cell functions. This study reports a new pathway where NGL-1 controls TGF-β, AP-1 transcription factor members and NFAT1, modulating the immunosuppressive microenvironment in pancreatic cancer. Our findings highlight NGL-1 as a new stromal immunomodulator in pancreatic cancer.
0
Citation1
0
Save
0

Longitudinal linked read sequencing reveals ecological and evolutionary responses of a human gut microbiome during antibiotic treatment

Morteza Roodgar et al.Dec 23, 2019
+9
N
B
M
Gut microbial communities can respond to antibiotic perturbations by rapidly altering their taxonomic and functional composition. However, little is known about the strain-level processes that drive this collective response. Here we characterize the gut microbiome of a single individual at high temporal and genetic resolution through a period of health, disease, antibiotic treatment, and recovery. We used deep, linked-read metagenomic sequencing to track the longitudinal dynamics of thousands of single nucleotide variants within 36 species, which allowed us to contrast these genetic dynamics with the ecological fluctuations at the species level. We find that antibiotics can drive rapid shifts in the genetic composition of individual species, often involving incomplete genome-wide sweeps of pre-existing variants. Interestingly, genetic changes frequently occur in species without obvious changes in relative species abundance, emphasizing the importance of monitoring diversity below the species level. Our results provide new insights into the population genetic forces that shape individual microbiomes on therapeutically relevant timescales, with potential implications for personalized health and disease.
0

Error correction and assembly complexity of single molecule sequencing reads.

Hayan Lee et al.Jun 18, 2014
+3
S
J
H
Third generation single molecule sequencing technology is poised to revolutionize genomics by enabling the sequencing of long, individual molecules of DNA and RNA. These technologies now routinely produce reads exceeding 5,000 basepairs, and can achieve reads as long as 50,000 basepairs. Here we evaluate the limits of single molecule sequencing by assessing the impact of long read sequencing in the assembly of the human genome and 25 other important genomes across the tree of life. From this, we develop a new data-driven model using support vector regression that can accurately predict assembly performance. We also present a novel hybrid error correction algorithm for long PacBio sequencing reads that uses pre-assembled Illumina sequences for the error correction. We apply it several prokaryotic and eukaryotic genomes, and show it can achieve near-perfect assemblies of small genomes (< 100Mbp) and substantially improved assemblies of larger ones. All source code and the assembly model are available open-source.
5

Global loss of fine-scale chromatin architecture and rebalancing of gene expression during early colorectal cancer development

Yizhou Zhu et al.Aug 27, 2022
+22
J
W
Y
Abstract Although 3D genome architecture can be essential for gene regulation, the biological implications of long-range chromatin interactions in disease remain elusive. In this study, we traced the early evolution and malignant transformation of colorectal cancer by generating high-resolution chromatin conformation maps of 33 colon samples spanning different stages of early neoplastic growth from polyps of Familial Adenomatous Polyposis (FAP) patients. Our analysis reveals a substantial progressive loss of genome-wide cis-regulatory connectivity at early stages of malignancy, which correlates with a non-linear effect on gene regulation. Genes with high promoter-enhancer (P-E) connectivity in unaffected mucosa are not correlated with elevated baseline expression, but instead tend to be up-regulated at advanced stages. Inhibition of highly connected promoters preferentially represses gene expression in colorectal cancer cells relative to normal colonic epithelial cells. Our results suggest a two-phase model whereby neoplastic transformation reduces P-E connectivity from a redundant state to a rate-limiting one for transcriptional levels. Overall, our study illuminates the intricate interplay between 3D genome architecture and gene regulation during early colorectal cancer progression, and provides valuable insights for potential therapeutic interventions targeting the connectivity of cis-regulatory elements.
0

Third-generation sequencing and the future of genomics

Hayan Lee et al.Apr 13, 2016
+5
J
W
H
Third-generation long-range DNA sequencing and mapping technologies are creating a renaissance in high-quality genome sequencing. Unlike second-generation sequencing, which produces short reads a few hundred base-pairs long, third-generation single-molecule technologies generate over 10,000 bp reads or map over 100,000 bp molecules. We analyze how increased read lengths can be used to address long-standing problems in de novo genome assembly, structural variation analysis and haplotype phasing.
0

New whole genome de novo assemblies of three divergent strains of rice (O. sativa) documents novel gene space of aus and indica

Michael Schatz et al.Apr 2, 2014
+12
J
L
M
The use of high throughput genome-sequencing technologies has uncovered a large extent of structural variation in eukaryotic genomes that makes important contributions to genomic diversity and phenotypic variation. Currently, when the genomes of different strains of a given organism are compared, whole genome resequencing data are aligned to an established reference sequence. However when the reference differs in significant structural ways from the individuals under study, the analysis is often incomplete or inaccurate. Here, we use rice as a model to explore the extent of structural variation among strains adapted to different ecologies and geographies, and show that this variation can be significant, often matching or exceeding the variation present in closely related human populations or other mammals. We demonstrate how improvements in sequencing and assembly technology allow rapid and inexpensive de novo assembly of next generation sequence data into high-quality assemblies that can be directly compared to provide an unbiased assessment. Using this approach, we are able to accurately assess the ?pan-genome? of three divergent rice varieties and document several megabases of each genome absent in the other two. Many of the genome-specific loci are annotated to contain genes, reflecting the potential for new biological properties that would be missed by standard resequencing approaches. We further provide a detailed analysis of several loci associated with agriculturally important traits, illustrating the utility of our approach for biological discovery. All of the data and software are openly available to support further breeding and functional studies of rice and other species.
0

Global analysis of epigenetic heterogeneity identifies divergent drivers of esophageal squamous cell carcinoma

Wei Cao et al.May 18, 2019
+30
W
H
W
Epigenetic landscapes can shape physiologic and disease phenotypes. We used integrative, high resolution multi-omics methods to characterize the oncogenic drivers of esophageal squamous cell carcinoma (ESCC). We found 98% of CpGs are hypomethylated across the ESCC genome and two-thirds occur in long non-coding (lnc)RNA regions. DNA methylation and epigenetic heterogeneity both coincide with chromosomal topological alterations. Gene body methylation, polycomb repressive complex occupancy, and CTCF binding sites associate with cancer-specific gene regulation. Epigenetically-mediated activation of non-canonical WNT signaling and the lncRNA ESCCAL-1 were validated as potential ESCC driver alterations. Gene-specific cancer driver roles of epigenetic alterations and heterogeneity are identified.
Load More