LH
Liang He
Author with expertise in Dimensional Metrology and Error Compensation
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
13
(23% Open Access)
Cited by:
311
h-index:
25
/
i10-index:
58
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

GLFER-Net: a polyphonic sound source localization and detection network based on global-local feature extraction and recalibration

Mengzhen Ma et al.Jun 26, 2024
Abstract Polyphonic sound source localization and detection (SSLD) task aims to recognize the categories of sound events, identify their onset and offset times, and detect their corresponding direction-of-arrival (DOA), where polyphonic refers to the occurrence of multiple overlapping sound sources in a segment. However, vanilla SSLD methods based on convolutional recurrent neural network (CRNN) suffer from insufficient feature extraction. The convolutions with kernel of single scale in CRNN fail to adequately extract multi-scale features of sound events, which have diverse time-frequency characteristics. It results in that the extracted features lack fine-grained information helpful for the localization of sound sources. In response to these challenges, we propose a polyphonic SSLD network based on global-local feature extraction and recalibration (GLFER-Net), where the global-local feature (GLF) extractor is designed to extract the multi-scale global features through an omni-directional dynamic convolution (ODConv) layer and multi-scale feature extraction (MSFE) module. The local feature extraction (LFE) unit is designed for capturing detailed information. Besides, we design a feature recalibration (FR) module to emphasize the crucial features along multiple dimensions. On the open datasets of Task3 in DCASE 2021 and 2022 Challenges, we compared our proposed GLFER-Net with six and four SSLD methods, respectively. The results show that the GLFER-Net achieves competitive performance. The modules we designed are verified to be effective through a series of ablation experiments and visualization analyses.
0
Citation1
0
Save
0

Imaginique Expressions: Tailoring Personalized Short-Text-to-Image Generation Through Aesthetic Assessment and Human Insights

Yitian Wan et al.Dec 3, 2024
The text-to-image task, a critical branch of computer vision and image processing, has witnessed remarkable advancements fueled by the abundance of realistic data and rapid AI innovation. However, existing research often overlooks scenarios involving sparse textual input and fails to incorporate human personalized preferences into the generative process. To address these gaps, we propose a novel AI methodology: personalized short-text-to-image generation through aesthetic assessment and human insights. Our approach introduces a symmetry between personalized aesthetic preferences and the generated images by leveraging a data-driven personality encoder (PE) to extract personal information and embed it into a Big Five personality trait-based image aesthetic assessment (BFIAA) model. This model harmonizes aesthetic preferences with the generative process by adapting the stable diffusion framework to align with personalized assessments. Experimental results demonstrate the effectiveness of our method: the PE module achieves an accuracy of 98.1%, while the BFIAA model surpasses the baseline by 13% on the PLCC metric, accurately reflecting human aesthetic preferences. Furthermore, our adapted generation model improves convergence loss by over 10% compared to the base model, consistently producing personalized images that are more aligned with human preferences.
Load More