YL
Yan Li
Author with expertise in Comprehensive Integration of Single-Cell Transcriptomic Data
Achievements
Open Access Advocate
Cited Author
Key Stats
Upvotes received:
0
Publications:
8
(63% Open Access)
Cited by:
30
h-index:
14
/
i10-index:
17
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
1

STAREG: an empirical Bayesian approach to detect replicable spatially variable genes in spatial transcriptomic studies

Yan Li et al.May 30, 2023
Abstract Identifying replicable genes that display spatial expression patterns from different yet related spatially resolved transcriptomic studies provides stronger scientific evidence and more powerful inference. We present an empirical Bayesian method, STAREG, for identifying replicable spatially variable genes in data generated from various spatially resolved transcriptomic techniques. STAREG models the joint distribution of p -values from different studies with a mixture model and accounts for the heterogeneity of different studies. It provides effective control of the false discovery rate and has higher power by borrowing information across genes and different studies. Moreover, it provides different rankings of important spatially variable genes. With the EM algorithm in combination with pool-adjacent-violator-algorithm (PAVA), STAREG is scalable to datasets with tens of thousands of genes measured on tens of thousands of spatial spots without any tuning parameters. Analyzing three pairs of spatially resolved transcriptomic datasets using STAREG, we show that it makes biological discoveries that otherwise cannot be obtained by using existing methods.
1
Citation2
0
Save
0

Integrating multi‐omics features enables non‐invasive early diagnosis and treatment response prediction of diffuse large B‐cell lymphoma

Weilong Zhang et al.Jan 1, 2025
Abstract Background Multi‐omics features of cell‐free DNA (cfDNA) can effectively improve the performance of non‐invasive early diagnosis and prognosis of cancer. However, multimodal characterization of cfDNA remains technically challenging. Methods We developed a comprehensive multi‐omics solution (COMOS) to specifically obtain an extensive fragmentomics landscape, presented by breakpoint characteristics of nucleosomes, CpG islands, DNase clusters and enhancers, besides typical methylation, copy number alteration of cfDNA. The COMOS was tested on 214 plasma samples of diffuse large B‐cell lymphoma (DLBCL) and matched healthy controls. Results For early diagnosis, COMOS improved the area under the curve (AUC) value to .993 compared with the individual omics model, with a sensitivity of 95% at 98% specificity. Detection sensitivity achieved 91% at 99% specificity in early‐stage patients, while the AUC values of the individual omics model were 0.942, 0.968, 0.989, 0.935, 0.921, 0.781 and 0.917, respectively, with lower sensitivity and specificity. In the treatment response cohort, COMOS yielded a superior sensitivity of 88% at 86% specificity (AUC, 0.903). COMOS has achieved excellent performance in early diagnosis and treatment response prediction. Conclusions Our study provides an effectively improved approach with high accuracy for the diagnosis and prognosis of DLBCL, showing great potential for future clinical application. Key points A comprehensive multi‐omics solution to specifically obtain an extensive fragmentomics landscape, presented by breakpoint characteristics of nucleosomes, CpG islands, DNase clusters and enhancers, besides typical methylation, copy number alteration of cfDNA. Integrated model of cfDNA multi‐omics could be used for non‐invasive early diagnosis of DLBCL. Integrated model of cfDNA multi‐omics could effectively evaluate the efficacy of R‐CHOP before DLBCL treatment.
0

TWO-SIGMA: a novel TWO-component SInGle cell Model-based Association method for single-cell RNA-seq data

Eric Buren et al.Jul 22, 2019
In this paper, we develop TWO-SIGMA, a TWO-component SInGle cell Model-based Association method for differential expression (DE) analyses in single-cell RNA-seq (scRNA-seq) data. The first component models the probability of “drop-out” with a mixed-effects logistic regression model and the second component models the (conditional) mean expression with a mixed-effects negative binomial regression model. TWO-SIGMA is extremely flexible in that it: (i) does not require a log-transformation of the outcome, (ii) allows for overdispersed and zero-inflated counts, (iii) accommodates a correlation structure between cells from the same biological sample via random effect terms, (iv) can analyze unbalanced designs (in which the number of cells does not need to be identical for all samples), (v) can control for additional sample-level and cell-level covariates including batch effects, (vi) provides interpretable effect size estimates, and (vii) enables general tests of DE beyond two-group comparisons. To our knowledge, TWO-SIGMA is the only method for analyzing scRNA-seq data that can simultaneously accomplish each of these features. Simulations studies show that TWO-SIGMA outperforms alternative regression-based approaches in both type-I error control and power enhancement when the data contains even moderate within-sample correlation. A real data analysis using pancreas islet single-cells exhibits the flexibility of TWO-SIGMA and demonstrates that incorrectly failing to include random effect terms can have dramatic impacts on scientific conclusions. TWO-SIGMA is implemented in the R package twosigma available at .
1

JUMP: replicability analysis of high-throughput experiments with applications to spatial transcriptomic studies

Pengfei Lyu et al.Feb 15, 2023
Abstract Motivation Replicability is the cornerstone of scientific research. The current statistical method for high-dimensional replicability analysis either cannot control the false discovery rate (FDR) or is too conservative. Results We propose a statistical method, JUMP, for the high-dimensional replicability analysis of two studies. The input is a high dimensional paired sequence of p -values from two studies and the test statistic is the maximum of p -values of the pair. JUMP uses four states of the p -value pairs to indicate whether they are null or non-null. Conditional on the hidden states, JUMP computes the cumulative distribution function of the maximum of p -values for each state to conservatively approximate the probability of rejection under the composite null of replicability. JUMP estimates unknown parameters and uses a step-up procedure to control FDR. By incorporating different states of composite null, JUMP achieves a substantial power gain over existing methods while controlling the FDR. Analyzing two pairs of spatially resolved transcriptomic datasets, JUMP makes biological discoveries that otherwise cannot be obtained by using existing methods. Availability An R package JUMP implementing the JUMP method is available on CRAN ( https://CRAN.R-project.org/package=JUMP ).
0

Noise Generation and Attenuation in DAS-VSP Using the Diffusion Model

Feng Qin et al.Jan 1, 2024
Summary Suppressing various noises while achieving precise signal reconstruction in Distributed Acoustic Sensing Vertical Seismic Profiling (DAS VSP) remains a challenge. Existing denoising methods are insufficient due to the unknown noise-disturbing mechanism, low SNR, and limited training data. Therefore, this study proposes the Mean-Stochastic Differential Equation (SDE) diffusion model as an advanced solution. Built upon the standard diffusion model, which incorporates forward and backward diffusion processes, our model introduced two modifications to enhance performance. 1. Improving the forward diffusion process: Transforming the final state into a combination of the noisy DAS VSP and Gaussian noise. This adjustment allows precise representations of multi-type noise generation and facilitates backward sampling. 2. Addressing training instability in standard diffusion: The objective function is modified to seek the optimal trajectory of the best quality of signal reconstruction rather than directly evaluating the noise prediction. In the SDE diffusion, the denoising process is continuous and interpretable. Comprehensive experiments demonstrate the superiority of our method in diverse noise suppression, signal resolution enhancement, and amplitude preservation. Moreover, grounded in physics-based equations, our method exhibits less dependency on training data compared to conventional deep learning methods.