DW
Di Wu
Author with expertise in Emotion Recognition and Analysis in Multimodal Data
Achievements
This user has not unlocked any achievements yet.
Key Stats
Upvotes received:
0
Publications:
5
(20% Open Access)
Cited by:
0
h-index:
9
/
i10-index:
7
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Neuro-BERT: Rethinking Masked Autoencoding for Self-Supervised Neurological Pretraining

Di Wu et al.Jan 1, 2024
Deep learning associated with neurological signals is poised to drive major advancements in diverse fields such as medical diagnostics, neurorehabilitation, and brain-computer interfaces. The challenge in harnessing the full potential of these signals lies in the dependency on extensive, high-quality annotated data, which is often scarce and expensive to acquire, requiring specialized infrastructure and domain expertise. To address the appetite for data in deep learning, we present Neuro-BERT, a self-supervised pre-training framework of neurological signals based on masked autoencoding in the Fourier domain. The intuition behind our approach is simple: frequency and phase distribution of neurological signals can reveal intricate neurological activities. We propose a novel pre-training task dubbed Fourier Inversion Prediction (FIP), which randomly masks out a portion of the input signal and then predicts the missing information using the Fourier inversion theorem. Pre-trained models can be potentially used for various downstream tasks such as sleep stage classification and gesture recognition. Unlike contrastive-based methods, which strongly rely on carefully hand-crafted augmentations and siamese structure, our approach works reasonably well with a simple transformer encoder with no augmentation requirements. By evaluating our method on several benchmark datasets, we show that Neuro-BERT improves downstream neurological-related tasks by a large margin.
0

Depressformer: Leveraging Video Swin Transformer and fine-grained local features for depression scale estimation

Lang He et al.May 31, 2024
: By 2030, depression is projected to become the predominant mental disorder. With the rising prominence of depression, a great number of affective computing studies has been observed, with the majority emphasizing the use of audiovisual methods for estimating depression scales. Present studies often overlook the potential patterns of sequential data and not adopt the fine-grained features of Transformer to model the behavior features for video-based depression recognition (VDR). To address above-mentioned gaps, we present an end-to-end sequential framework called Depressformer for VDR. This innovative structure is delineated into the three structures: the Video Swin Transformer (VST) for deep feature extraction, a module dedicated to depression-specific fine-grained local feature extraction (DFLFE), and the depression channel attention fusion (DCAF) module to fuse the latent local and global features. By utilizing the VST as a backbone network, it is possible to discern pivotal features more effectively. The DFLFE enriches this process by focusing on the nuanced local features indicative of depression. To enhance the modeling of combined features pertinent to VDR, DCAF module is also presented. Our methodology underwent extensive validations using the AVEC2013/2014 depression databases. The empirical results underscore its efficacy, yielding a root mean square error (RMSE) of 7.47 and a mean absolute error (MAE) of 5.49 for the first dataset. For the second database, the corresponding values were 7.22 and 5.56, respectively. And the F1-score is 0.59 on the D-vlog dataset. In summary, the experimental evaluations suggest that Depressformer architecture demonstrates superior performances with stability and adaptability across various tasks, making it capable of effectively identifying the severity of depression. Code will released at the link: https://github.com/helang818/Depressformer/.
0

Beyond singular prototype: A prototype splitting strategy for few-shot medical image segmentation

Pengrui Teng et al.Jun 3, 2024
In the realm of medical image semantic segmentation, few-shot learning, characterized by its efficient data utilization and flexible generalization capabilities, has been garnering increasing attention. The mainstream methods currently employ prototype-based approaches, which extract semantic knowledge from the annotated support images to guide the segmentation of the query image via masked global average pooling. However, such masked global average pooling leads to severe information loss, which is more problematic for medical images with large numbers of highly heterogeneous background categories. In this work, we propose a prototype splitting module (PSM) to effectively address the issue of semantic information loss in few-shot medical image segmentation. Specifically, PSM iteratively splits the support image masks into set of sub-masks containing segmented regions and unsegmented regions in a self-guided manner. This maximally retains the information within the original semantic classes and better extracts the representations of those classes. Additionally, we devise a multi-level cross attention module (MCAM) that transfers the foreground information from the support images to the query images across different levels to facilitate final segmentation prediction. We validate our method on multiple modal and multi-semantic medical image datasets. Results demonstrate that our approach achieves superior performance over existing state-of-the-art methods. The code has been released on https://github.com/fdngh/PSMnet.