DL
Donghao Luo
Author with expertise in Human Action Recognition and Pose Estimation
Achievements
Cited Author
Open Access Advocate
Key Stats
Upvotes received:
0
Publications:
4
(50% Open Access)
Cited by:
421
h-index:
14
/
i10-index:
15
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

TEINet: Towards an Efficient Architecture for Video Recognition

Zhaoyang Liu et al.Apr 3, 2020
Efficiency is an important issue in designing video architectures for action recognition. 3D CNNs have witnessed remarkable progress in action recognition from videos. However, compared with their 2D counterparts, 3D convolutions often introduce a large amount of parameters and cause high computational cost. To relieve this problem, we propose an efficient temporal module, termed as Temporal Enhancement-and-Interaction (TEI Module), which could be plugged into the existing 2D CNNs (denoted by TEINet). The TEI module presents a different paradigm to learn temporal features by decoupling the modeling of channel correlation and temporal interaction. First, it contains a Motion Enhanced Module (MEM) which is to enhance the motion-related features while suppress irrelevant information (e.g., background). Then, it introduces a Temporal Interaction Module (TIM) which supplements the temporal contextual information in a channel-wise manner. This two-stage modeling scheme is not only able to capture temporal structure flexibly and effectively, but also efficient for model inference. We conduct extensive experiments to verify the effectiveness of TEINet on several benchmarks (e.g., Something-Something V1&V2, Kinetics, UCF101 and HMDB51). Our proposed TEINet can achieve a good recognition accuracy on these datasets but still preserve a high efficiency.
0

Learning Salient Boundary Feature for Anchor-free Temporal Action Localization

Chuming Lin et al.Jun 1, 2021
Temporal action localization is an important yet challenging task in video understanding. Typically, such a task aims at inferring both the action category and localization of the start and end frame for each action instance in a long, untrimmed video. While most current models achieve good results by using pre-defined anchors and numerous actionness, such methods could be bothered with both large number of outputs and heavy tuning of locations and sizes corresponding to different anchors. Instead, anchor-free methods is lighter, getting rid of redundant hyper-parameters, but gains few attention. In this paper, we propose the first purely anchor-free temporal localization method, which is both efficient and effective. Our model includes (i) an end-to-end trainable basic predictor, (ii) a saliency-based refinement module to gather more valuable boundary features for each proposal with a novel boundary pooling, and (iii) several consistency constraints to make sure our model can find the accurate boundary given arbitrary proposals. Extensive experiments show that our method beats all anchor-based and actionness-guided methods with a remarkable margin on THUMOS14, achieving state-of-the-art results, and comparable ones on ActivityNet v1.3. Code is available at https://github.com/TencentYoutuResearch/ActionDetection-AFSD.
0
Citation202
0
Save
0

Few-shot unseen defect segmentation for polycrystalline silicon panels with an interpretable dual subspace attention variational learning framework

Haiming Yao et al.May 28, 2024
Polycrystalline silicon panels (PSPs) hold immense significance in the photovoltaic industry, with their surface quality profoundly impacting optical performance. Hence, online visual surface defect detection for these panels carries significant implications for the manufacturing process. However, current inspection methods, particularly manual ones, are inefficient. Furthermore, most current automated optical inspection methods heavily rely on large-scale datasets and are insufficient in addressing unseen defect types. To address these challenges, this paper introduces a smart PSP quality inspection system, leveraging cloud–edge computing collaboration. Additionally, we propose a novel Dual Subspace Attention Variational Learning (DS-AVL) approach for few-shot unseen defect segmentation in PSPs. Within the framework of this intelligent inspection system, DS-AVL first extracts foreground and background prototypes and obtains corresponding attention maps using the proposed non-parametric Fore/Background Semantic Separation (FB-SS) module. Then, it performs probabilistic variational inference for the fore/background dual subspace distributions to address the complex texture of PSPs and the inherent uncertainties due to limited samples. Finally, the defective foreground and normal background can be segmented using non-classifier predictions based on statistical properties. The proposed DS-AVL model uniquely integrates attributes from both deep learning and statistical learning, establishing a lightweight yet robust framework that demonstrates substantial interpretability. Furthermore, we have established a publicly available benchmark for the PSP industry, on which we conducted extensive experimentation to demonstrate that our approach not only yields optimal results but also boasts efficient inference performance. More importantly, we found that DS-AVL can be directly adapted to few-shot segmentation tasks of other materials without any fine-tuning.