SX
Shibiao Xu
Author with expertise in Simultaneous Localization and Mapping
Achievements
Cited Author
Key Stats
Upvotes received:
0
Publications:
10
(10% Open Access)
Cited by:
393
h-index:
20
/
i10-index:
41
Reputation
Biology
< 1%
Chemistry
< 1%
Economics
< 1%
Show more
How is this calculated?
Publications
0

Automatic Road Detection and Centerline Extraction via Cascaded End-to-End Convolutional Neural Network

Guangliang Cheng et al.Mar 7, 2017
Accurate road detection and centerline extraction from very high resolution (VHR) remote sensing imagery are of central importance in a wide range of applications. Due to the complex backgrounds and occlusions of trees and cars, most road detection methods bring in the heterogeneous segments; besides for the centerline extraction task, most current approaches fail to extract a wonderful centerline network that appears smooth, complete, as well as single-pixel width. To address the above-mentioned complex issues, we propose a novel deep model, i.e., a cascaded end-to-end convolutional neural network (CasNet), to simultaneously cope with the road detection and centerline extraction tasks. Specifically, CasNet consists of two networks. One aims at the road detection task, whose strong representation ability is well able to tackle the complex backgrounds and occlusions of trees and cars. The other is cascaded to the former one, making full use of the feature maps produced formerly, to obtain the good centerline extraction. Finally, a thinning algorithm is proposed to obtain smooth, complete, and single-pixel width road centerline network. Extensive experiments demonstrate that CasNet outperforms the state-of-the-art methods greatly in learning quality and learning speed. That is, CasNet exceeds the comparing methods by a large margin in quantitative performance, and it is nearly 25 times faster than the comparing methods. Moreover, as another contribution, a large and challenging road centerline data set for the VHR remote sensing image will be publicly available for further studies.
0
Paper
Citation392
0
Save
0

MRFTrans: Multimodal Representation Fusion Transformer for monocular 3D semantic scene completion

Rongtao Xu et al.May 25, 2024
The complete understanding of 3D scenes is crucial in robotic visual perception, impacting tasks such as motion planning and map localization. However, due to the limited field of view and scene occlusion constraints of sensors, inferring complete scene geometry and semantic information from restricted observations is challenging. In this work, we propose a novel Multimodal Representation Fusion Transformer framework (MRFTrans) that robustly fuses semantic, geometric occupancy, and depth representations for monocular-image-based scene completion. MRFTrans centers on an affinity representation fusion transformer, integrating geometric occupancy and semantic relationships within a transformer architecture. This integration enables the modeling of long-range dependencies within scenes for inferring missing information. Additionally, we present a depth representation fusion method, efficiently extracting reliable depth knowledge from biased monocular estimates. Extensive experiments demonstrate MRFTrans's superiority, setting a new benchmark on SemanticKITTI and NYUv2 datasets. It significantly enhances completeness and accuracy, particularly in large structures, movable objects, and scene components with major occlusions. The results underscore the benefits of the affinity-aware transformer and robust depth fusion in monocular-image-based completion.
0
Paper
Citation1
0
Save
0

PSTNet: Enhanced Polyp Segmentation With Multi-Scale Alignment and Frequency Domain Integration

Wenhao Xu et al.Jan 1, 2024
Accurate segmentation of colorectal polyps in colonoscopy images is crucial for effective diagnosis and management of colorectal cancer (CRC). However, current deep learning-based methods primarily rely on fusing RGB information across multiple scales, leading to limitations in accurately identifying polyps due to restricted RGB domain information and challenges in feature misalignment during multi-scale aggregation. To address these limitations, we propose the Polyp Segmentation Network with Shunted Transformer (PSTNet), a novel approach that integrates both RGB and frequency domain cues present in the images. PSTNet comprises three key modules: the Frequency Characterization Attention Module (FCAM) for extracting frequency cues and capturing polyp characteristics, the Feature Supplementary Alignment Module (FSAM) for aligning semantic information and reducing misalignment noise, and the Cross Perception localization Module (CPM) for synergizing frequency cues with high-level semantics to achieve efficient polyp segmentation. Extensive experiments on challenging datasets demonstrate PSTNet's significant improvement in polyp segmentation accuracy across various metrics, consistently outperforming state-of-the-art methods. The integration of frequency domain cues and the novel architectural design of PSTNet contribute to advancing computer-assisted polyp segmentation, facilitating more accurate diagnosis and management of CRC. Our source code is available for reference at https://github.com/clearxu/PSTNet.
0

SkinFormer: Learning Statistical Texture Representation With Transformer for Skin Lesion Segmentation

Rongtao Xu et al.Jan 1, 2024
Accurate skin lesion segmentation from dermoscopic images is of great importance for skin cancer diagnosis. However, automatic segmentation of melanoma remains a challenging task because it is difficult to incorporate useful texture representations into the learning process. Texture representations are not only related to the local structural information learned by CNN, but also include the global statistical texture information of the input image. In this paper, we propose a transFormer network (SkinFormer) that efficiently extracts and fuses statistical texture representation for Skin lesion segmentation. Specifically, to quantify the statistical texture of input features, a Kurtosis-guided Statistical Counting Operator is designed. We propose Statistical Texture Fusion Transformer and Statistical Texture Enhance Transformer with the help of Kurtosis-guided Statistical Counting Operator by utilizing the transformer's global attention mechanism. The former fuses structural texture information and statistical texture information, and the latter enhances the statistical texture of multi-scale features. Extensive experiments on three publicly available skin lesion datasets validate that our SkinFormer outperforms other SOAT methods, and our method achieves 93.2% Dice score on ISIC 2018. It can be easy to extend SkinFormer to segment 3D images in the future. Our code is available at https://github.com/Rongtao-Xu/SkinFormer.
0

GRLN: Gait Refined Lateral Network for gait recognition

Yukun Song et al.Jun 15, 2024
Gait recognition aims to identify individuals at a distance based on their biometric gait patterns. While offering flexibility in network input, existing set-based methods often overlook the potential of fine-grained local feature by solely utilizing global gait feature and fail to fully exploit the communication between silhouette-level and set-level features. To alleviate this issue, we propose Gait Refined Lateral Network(GRLN), featuring plug-and-play Adaptive Feature Refinement modules (AFR) that extract discriminative features progressively from silhouette-level and set-level representations in a coarse-to-fine manner at various network depths. AFR can be widely applied in set-based gait recognition models to substantially enhance their gait recognition performance. To align with the extracted refined features, we introduce Horizontal Stable Mapping (HSM), a novel mapping technique that reduces model parameters while improving experimental results. To demonstrate the effectiveness of our method, we evaluate GRLN on two gait datasets, achieving the highest recognition rate among all set-based methods. Specifically, GRLN demonstrates an average improvement of 1.15% over the state-of-the-art set-based method on CASIA-B. Especially in the coat-wearing condition, GRLN exhibits a 5% improvement in performance compared to the contrast method GLN.
0

Key‐point‐guided adaptive convolution and instance normalization for continuous transitive face reenactment of any person

Shibiao Xu et al.May 1, 2024
Abstract Face reenactment technology is widely applied in various applications. However, the reconstruction effects of existing methods are often not quite realistic enough. Thus, this paper proposes a progressive face reenactment method. First, to make full use of the key information, we propose adaptive convolution and instance normalization to encode the key information into all learnable parameters in the network, including the weights of the convolution kernels and the means and variances in the normalization layer. Second, we present continuous transitive facial expression generation according to all the weights of the network generated by the key points, resulting in the continuous change of the image generated by the network. Third, in contrast to classical convolution, we apply the combination of depth‐ and point‐wise convolutions, which can greatly reduce the number of weights and improve the efficiency of training. Finally, we extend the proposed face reenactment method to the face editing application. Comprehensive experiments demonstrate the effectiveness of the proposed method, which can generate a clearer and more realistic face from any person and is more generic and applicable than other methods.
0

Impact of Surface Roughness on the Antimicrobial Efficacy and Cytotoxicity of SiO-ZnO Coatings on Mechanically Abraded PET Surfaces

Nengqi Shao et al.Jan 7, 2025
Abstract Surface topographical roughness plays a crucial role in enhancing biological activities by providing biomechanical stability, optimal osseointegration, and torsion resistance. However, the surface roughness impacting on the antibacterial and cytotoxicity performances are still challenges to implant applications. This study investigates the effect of surface roughening on polyethylene terephthalate (PET) using sandpaper prior to applying a SiO-ZnO nanocomposite coating. Results show that surface roughness increased from approximately 100 nm on untreated PET to 1.8 micrometers with 60-grit sandpaper, directly correlating with the grit size used. Efficacy against E. coli varied with surface roughness, with higher roughness surfaces showing only 27% efficacy, while lower roughness surfaces achieved over 95% efficacy. In contrast, antimicrobial efficacy against S. aureus was consistently high, reaching up to 99% regardless of surface roughness. Cytotoxicity tests using CCK-8 with MC3T3-E1 cells indicated increased toxicity over time, with only surfaces treated with 180-grit sandpaper exhibiting mild toxicity combined with excellent antibacterial efficacy after 7 days of culture. Excessive surface roughness (e.g. above Ra 1.8 µm) resulted in a rapid increase in cell death. Additionally, increased PET roughness improved the mechanical performance of the coating due to enhanced contact area between the coating and PET, facilitated by chemical bonding. This study demonstrates that excessive surface roughness can compromise antimicrobial performance or even lead to failure, highlighting the need to optimize surface roughness to ensure effectiveness.