XL
Xi Li
Author with expertise in Human Action Recognition and Pose Estimation
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
17
(53% Open Access)
Cited by:
2,004
h-index:
48
/
i10-index:
163
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

FcaNet: Frequency Channel Attention Networks

Zequn Qin et al.Oct 1, 2021
Attention mechanism, especially channel attention, has gained great success in the computer vision field. Many works focus on how to design efficient channel attention mechanisms while ignoring a fundamental problem, i.e., channel attention mechanism uses scalar to represent channel, which is difficult due to massive information loss. In this work, we start from a different view and regard the channel representation problem as a compression process using frequency analysis. Based on the frequency analysis, we mathematically prove that the conventional global average pooling is a special case of the feature decomposition in the frequency domain. With the proof, we naturally generalize the compression of the channel attention mechanism in the frequency domain and propose our method with multi-spectral channel attention, termed as FcaNet. FcaNet is simple but effective. We can change a few lines of code in the calculation to implement our method within existing channel attention methods. Moreover, the proposed method achieves state-of-the-art results compared with other channel attention methods on image classification, object detection, and instance segmentation tasks. Our method could consistently outperform the baseline SENet, with the same number of parameters and the same computational cost. Our code and models are publicly available at https://github.com/cfzd/FcaNet.
0

DeepSaliency: Multi-Task Deep Neural Network Model for Salient Object Detection

Xi Li et al.Jun 9, 2016
A key problem in salient object detection is how to effectively model the semantic properties of salient objects in a data-driven manner. In this paper, we propose a multi-task deep saliency model based on a fully convolutional neural network (FCNN) with global input (whole raw images) and global output (whole saliency maps). In principle, the proposed saliency model takes a data-driven strategy for encoding the underlying saliency prior information, and then sets up a multi-task learning scheme for exploring the intrinsic correlations between saliency detection and semantic image segmentation. Through collaborative feature learning from such two correlated tasks, the shared fully convolutional layers produce effective features for object perception. Moreover, it is capable of capturing the semantic information on salient objects across different levels using the fully convolutional layers, which investigate the feature-sharing properties of salient object detection with great feature redundancy reduction. Finally, we present a graph Laplacian regularized nonlinear regression model for saliency refinement. Experimental results demonstrate the effectiveness of our approach in comparison with the state-of-the-art approaches.
0
Citation312
0
Save
0

Spatio-Temporal Graph Routing for Skeleton-Based Action Recognition

Bin Li et al.Jul 17, 2019
With the representation effectiveness, skeleton-based human action recognition has received considerable research attention, and has a wide range of real applications. In this area, many existing methods typically rely on fixed physicalconnectivity skeleton structure for recognition, which is incapable of well capturing the intrinsic high-order correlations among skeleton joints. In this paper, we propose a novel spatio-temporal graph routing (STGR) scheme for skeletonbased action recognition, which adaptively learns the intrinsic high-order connectivity relationships for physicallyapart skeleton joints. Specifically, the scheme is composed of two components: spatial graph router (SGR) and temporal graph router (TGR). The SGR aims to discover the connectivity relationships among the joints based on sub-group clustering along the spatial dimension, while the TGR explores the structural information by measuring the correlation degrees between temporal joint node trajectories. The proposed scheme is naturally and seamlessly incorporated into the framework of graph convolutional networks (GCNs) to produce a set of skeleton-joint-connectivity graphs, which are further fed into the classification networks. Moreover, an insightful analysis on receptive field of graph node is provided to explain the necessity of our method. Experimental results on two benchmark datasets (NTU-RGB+D and Kinetics) demonstrate the effectiveness against the state-of-the-art.
0

DRSwin-ST: An Intelligent Fault Diagnosis Framework based on Dynamic Threshold Noise Reduction and Sparse Transformer with Shifted Windows

Tao Zhou et al.Jul 6, 2024
In real industrial environments, acquiring vibration data from bearings is often challenging due to noise, resulting in network models that excel when trained on datasets with sufficient samples but struggle with accurate fault identification in real-world scenarios, inevitably threatening the reliability of fault diagnosis. To address this problem, this paper proposes an end-to-end fault diagnosis framework (DRSwin-ST) based on sparse transformer with a shift window and dynamic threshold noise reduction. The Swin-Transformer serves as the backbone, leveraging a multi-head self-attention mechanism with a shift window to capture global information. The 1.5-Entmax replaces Softmax in the self-attention mechanism, sparsifying irrelevant information and allowing the model to focus on essential details. The self-attention mechanism, combined with a multi-scale structure, forms a forward feedback network to obtain rich fault feature information. In addition, the paper integrates a large convolutional kernel and a dynamic soft-threshold noise reduction module to construct a convolutional network in front of the transformer structure. This configuration extracts fault feature information and removes the noise, enhancing the fault recognition accuracy of the model. Experimental results on three diverse datasets demonstrate that DRSwin-ST exhibits robustness and high accuracy even in scenarios with limited samples and high noise, validating its exceptional performance.
0

Effects of simulated multi-sensory stimulation integration on physiological and psychological restoration in virtual urban green space environment

Chen Song et al.Jun 20, 2024
Virtual urban green environment images and audio stimuli had been proven to have restorative effects on subjects’ physical and mental health. In this area, researchers predominantly focused on visual, auditory and olfactory aspects, while tactile and gustatory senses have been minimally explored. However, the optimal combination of sensory stimuli for promoting physical and mental recovery remains unclear. Therefore, a simulated sensory stimulation approach involving 240 participants was employed, with 30 individuals included in each of the eight experimental groups: the visual–auditory (VA), visual–auditory-olfactory (VAO), visual–auditory-tactile (VAT), visual–auditory-gustatory(VAG), visual–auditory-olfactory-tactile (VAOT), visual–auditory-olfactory-gustatory (VAOG), visual–auditory-tactile-gustatory (VATG), and visual–auditory-olfactory-tactile-gustatory (VAOTG) groups. This study aimed to explore the differences in participants’ physiological and psychological health recovery after exposure to different combinations of simulated sensory stimuli in virtual UGSs. The results indicated that the following: (1) In terms of physiological recovery, the blood pressure of the 8 experimental groups decreased significantly after the experiment, indicating that the virtual urban green space environment has a certain recovery effect on physiological state. The combination of VAOTG stimuli in the multisensory group resulted in the best blood pressure recovery ( p &lt; 0.05). Tactile is an important sense to enhance the physiological recovery effect. Olfactory-tactile or tactile-gustatory stimuli interactions significantly enhance physiological recovery, emphasizing the importance of tactile stimulation in improving physiological recovery. (2) In terms of psychological recovery, the common trigger of olfactory-gustatory is the most key element to enhance psychological recovery through multi-sensory stimulation of virtual urban green space environment. VAOG stimulation had the best effect on psychological recovery ( p &lt; 0.05), followed by VAOTG stimulation ( p &lt; 0.05). Gustatory is an important sense to enhance the psychological recovery effect, and both the tactile-gustatory interaction and the olfactory-gustatory interaction significantly enhance the recovery effect. At the same time, the psychological recovery effect obtained by four or more sensory combinations was higher than that obtained by two or three sensory stimulation groups. This study confirms more possibilities for ways to restore physical and mental health through virtual natural environments. It expands the research on the benefits of virtual nature experience and provides theoretical support for the application of this method.
Load More