YS
Yichen Si
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(88% Open Access)
Cited by:
352
h-index:
5
/
i10-index:
4
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
46

Longitudinal single-cell epitope and RNA-sequencing reveals the immunological impact of type 1 interferon autoantibodies in critical COVID-19

Monique Wijst et al.Mar 10, 2021
Abstract Type I interferon (IFN-I) neutralizing autoantibodies have been found in some critical COVID-19 patients; however, their prevalence and longitudinal dynamics across the disease severity scale, and functional effects on circulating leukocytes remain unknown. Here, in 284 COVID-19 patients, we found IFN-I autoantibodies in 19% of critical, 6% of severe and none of the moderate cases. Longitudinal profiling of over 600,000 peripheral blood mononuclear cells using multiplexed single-cell epitope and transcriptome sequencing from 54 COVID-19 patients, 15 non-COVID-19 patients and 11 non-hospitalized healthy controls, revealed a lack of IFN-I stimulated gene (ISG-I) response in myeloid cells from critical cases, including those producing anti-IFN-I autoantibodies. Moreover, surface protein analysis showed an inverse correlation of the inhibitory receptor LAIR-1 with ISG-I expression response early in the disease course. This aberrant ISG-I response in critical patients with and without IFN-I autoantibodies, supports a unifying model for disease pathogenesis involving ISG-I suppression via convergent mechanisms.
46
Citation26
0
Save
1

Reference-free multiplexed single-cell sequencing identifies genetic modifiers of the human immune response

George Hartoularos et al.Jun 1, 2023
Abstract Multiplexed single-cell sequencing (mux-seq) using single-nucleotide polymorphisms (SNPs) has emerged as an efficient approach to perform expression quantitative trait loci (eQTL) studies that map interactions between genetic variants and cell types, cell states, or experimental perturbations. Here we introduce the clue framework, a novel approach to encode mux-seq experiments that eliminates the need for reference genotypes and experimental barcoding. The clue framework is made possible by the development of freemuxlet , an algorithm that clusters cells based on SNPs called from single-cell RNA-seq or ATAC-seq data. To demonstrate the feasibility of clue , we profiled the surface protein and RNA abundances of peripheral blood mononuclear cells from 64 individuals, stimulated with 5 distinct extracellular stimuli — all within a single day. Our analysis of the demultiplexed data identified rare immune cell types and cell type-specific responses to interferon and toll-like receptor stimulation. Furthermore, by integrating genotyping data, we mapped response eQTLs specific to certain cell types. These findings showcase the potential and scalability of the clue framework for reference-free multiplexed single-cell sequencing studies.
1
Citation1
0
Save
0

Seq-Scope Protocol: Repurposing Illumina Sequencing Flow Cells for High-Resolution Spatial Transcriptomics

Yongsung Kim et al.Apr 1, 2024
ABSTRACT Spatial transcriptomics (ST) technologies represent a significant advance in gene expression studies, aiming to profile the entire transcriptome from a single histological slide. These techniques are designed to overcome the constraints faced by traditional methods such as immunostaining and RNA in situ hybridization, which are capable of analyzing only a few target genes simultaneously. However, the application of ST in histopathological analysis is also limited by several factors, including low resolution, a limited range of genes, scalability issues, high cost, and the need for sophisticated equipment and complex methodologies. Seq-Scope—a recently developed novel technology—repurposes the Illumina sequencing platform for high-resolution, high-content spatial transcriptome analysis, thereby overcoming these limitations. Here we provide a detailed step-by-step protocol to implement Seq-Scope with an Illumina NovaSeq 6000 sequencing flow cell that allows for the profiling of multiple tissue sections in an area of 7 mm × 7 mm or larger. In addition to detailing how to prepare a frozen tissue section for both histological imaging and sequencing library preparation, we provide comprehensive instructions and a streamlined computational pipeline to integrate histological and transcriptomic data for high-resolution spatial analysis. This includes the use of conventional software tools for single cell and spatial analysis, as well as our recently developed segmentation-free method for analyzing spatial data at submicrometer resolution. Given its adaptability across various biological tissues, Seq-Scope establishes itself as an invaluable tool for researchers in molecular biology and histology. KEY POINTS The protocol outlines a method for repurposing an Illumina NovaSeq 6000 flow cell as a spatial transcriptomics array, enabling the generation of high-resolution spatial datasets. The protocol introduces a streamlined data analysis pipeline that produces a spatial digital gene expression matrix suitable for various single-cell and spatial transcriptome analysis methods. The protocol allows for the capture of histology images from the same tissue section subjected to spatial transcriptomics analysis and allows users to precisely align the transcriptome dataset with the histological image using fiducial marks engraved on the flow cell surface. Leveraging commonly available Illumina equipment, the protocol offers researchers ultra-high submicrometer resolution in spatial transcriptomics analysis with a comprehensive pipeline, rapid turnaround, cost efficiency, and versatility.
0
Citation1
0
Save
2

Why are rare variants hard to impute? Coalescent models reveal theoretical limits in existing algorithms

Yichen Si et al.Aug 12, 2020
Abstract Genotype imputation is an indispensable step in human genetic studies. Large reference panels with deeply sequenced genomes now allow interrogating variants with minor allele frequency < 1% without sequencing. While it is critical to consider limits of this approach, imputation methods for rare variants have only done so empirically; the theoretical basis of their imputation accuracy has not been explored. To provide theoretical consideration of imputation accuracy under the current imputation framework, we develop a coalescent model of imputing rare variants, leveraging the joint genealogy of the sample to be imputed and reference individuals. We show that broadly used imputation algorithms includes model misspecifications about this joint genealogy that limit the ability to correctly impute rare variants. We develop closed-form solutions for the probability distribution of this joint genealogy and quantify the inevitable error rate resulting from the model misspecification across a range of allele frequencies and reference sample sizes. We show that the probability of a falsely imputed minor allele decreases with reference sample size, but the proportion of falsely imputed minor alleles mostly depends on the allele count in the reference sample. We summarize the impact of this error on genotype imputation on association tests by calculating the r 2 between imputed and true genotype and show that even when modeling other sources of error, the impact of the model misspecification have a significant impact on the r 2 of rare variants. To evaluate these predictions in practice, we compare the imputation of the same dataset across imputation panels of different sizes. While this empirical imputation accuracy is substantially lower than our theoretical prediction, modeling misspecification seems to further decrease imputation accuracy for variants with low allele counts in the reference. These results provide a framework for developing new imputation algorithms and for interpreting rare variant association analyses.
4

Inferring CpG methylation signatures accumulated along human history from genetic variation catalogs

Yichen Si et al.Mar 25, 2023
Understanding the DNA methylation patterns in the human genome is a key step to decipher gene regulatory mechanisms and model mutation rate heterogeneity in the human genome. While methylation rates can be measured e.g. with bisulfite sequencing, such measures do not capture historical patterns. Here we present a new method, Methylation Hidden Markov Model (MHMM), to estimate the accumulated germline methylation signature in human population history leveraging two properties: (1) Mutation rates of cytosine to thymine transitions at methylated CG dinucleotides are orders of magnitude higher than that in the rest of the genome. (2) Methylation levels are locally correlated, so the allele frequencies of neighboring CpGs can be used jointly to estimate methylation status. We applied MHMM to allele frequencies from the TOPMed and the gnomAD genetic variation catalogs. Our estimates are consistent with whole genome bisulfite sequencing (WGBS) measured human germ cell methylation levels at 90% of CpG sites, but we also identified ~ 442, 000 historically methylated CpG sites that could not be captured due to sample genetic variation, and inferred methylation status for ~ 721, 000 CpG sites that were missing from WGBS. Hypo-methylated regions identified by combining our results with experimental measures are 1.7 times more likely to recover known active genomic regions than those identified by WGBS alone. Our estimated historical methylation status can be leveraged to enhance bioinformatic analysis of germline methylation such as annotating regulatory and inactivated genomic regions and provide insights in sequence evolution including predicting mutation constraint.
0

High-Resolution Spatial Transcriptomic Atlas of Mouse Soleus Muscle: Unveiling Single Cell and Subcellular Heterogeneity in Health and Denervation

Jer-En Hsu et al.Feb 29, 2024
Abstract Skeletal muscle is essential for both movement and metabolic processes, characterized by a complex and ordered structure. Despite its importance, a detailed spatial map of gene expression within muscle tissue has been challenging to achieve due to the limitations of existing technologies, which struggle to provide high-resolution views. In this study, we leverage the Seq-Scope technique, an innovative method that allows for the observation of the entire transcriptome at an unprecedented submicron spatial resolution. By applying this technique to the mouse soleus muscle, we analyze and compare the gene expression profiles in both healthy conditions and following denervation, a process that mimics aspects of muscle aging. Our approach reveals detailed characteristics of muscle fibers, other cell types present within the muscle, and specific subcellular structures such as the postsynaptic nuclei at neuromuscular junctions, hybrid muscle fibers, and areas of localized expression of genes responsive to muscle injury, along with their histological context. The findings of this research significantly enhance our understanding of the diversity within the muscle cell transcriptome and its variation in response to denervation, a key factor in the decline of muscle function with age. This breakthrough in spatial transcriptomics not only deepens our knowledge of muscle biology but also sets the stage for the development of new therapeutic strategies aimed at mitigating the effects of aging on muscle health, thereby offering a more comprehensive insight into the mechanisms of muscle maintenance and degeneration in the context of aging and disease.